KR20230067492A - Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법 - Google Patents
Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법 Download PDFInfo
- Publication number
- KR20230067492A KR20230067492A KR1020220091316A KR20220091316A KR20230067492A KR 20230067492 A KR20230067492 A KR 20230067492A KR 1020220091316 A KR1020220091316 A KR 1020220091316A KR 20220091316 A KR20220091316 A KR 20220091316A KR 20230067492 A KR20230067492 A KR 20230067492A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- current
- optical flow
- encoder
- mode
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000013473 artificial intelligence Methods 0.000 title description 22
- 230000003287 optical effect Effects 0.000 claims abstract description 341
- 238000013528 artificial neural network Methods 0.000 claims abstract description 72
- 238000012937 correction Methods 0.000 claims abstract description 40
- 238000013139 quantization Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 description 124
- 238000012545 processing Methods 0.000 description 61
- 230000008569 process Effects 0.000 description 58
- 230000033001 locomotion Effects 0.000 description 50
- 238000010586 diagram Methods 0.000 description 45
- 230000004913 activation Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
비트스트림으로부터 현재 옵티컬 플로우, 및 현재 예측 영상과 현재 영상에 기반하여 생성된 교정 데이터를 획득하는 단계; 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 현재 예측 영상을 획득하는 단계; 신경망 기반의 예측 영상 인코더에 현재 예측 영상을 적용하여 현재 예측 영상의 특징 데이터를 획득하는 단계; 및 교정 데이터와 현재 예측 영상의 특징 데이터를 신경망 기반의 영상 디코더에 적용하여 현재 영상에 대응하는 현재 복원 영상을 획득하는 단계를 포함하는, 일 실시예에 따른 영상 복호화 방법이 개시된다.
Description
본 개시는 영상의 부호화 및 복호화에 관한 것이다. 보다 구체적으로, 본 개시는 AI(Artificial Intelligence), 예를 들어, 신경망을 이용하여 영상을 부호화 및 복호화하는 기술에 관한 것이다.
H.264 AVC(Advanced Video Coding) 및 HEVC(High Efficiency Video Coding)와 같은 코덱에서는, 영상을 블록으로 분할하고, 인터 예측(inter prediction) 또는 인트라 예측(intraprediction)을 통해 각각의 블록을 예측 부호화 및 예측 복호화할 수 있다.
인트라 예측은 영상 내의 공간적인 중복성을 제거하여 영상을 압축하는 방법이고, 인터 예측은 영상들 사이의 시간적인 중복성을 제거하여 영상을 압축하는 방법이다.
인터 예측의 대표적인 예로서, 움직임 추정 부호화가 존재한다. 움직임 추정 부호화는 참조 영상을 이용해 현재 영상의 블록들을 예측한다. 소정의 평가 함수를 이용하여 현재 블록과 가장 유사한 참조 블록을 소정의 검색 범위에서 탐색할 수 있다. 현재 블록을 참조 블록에 기초하여 예측하고, 예측 결과 생성된 예측 블록을 현재 블록으로부터 감산하여 잔차 블록을 생성 및 부호화한다.
참조 영상 내 참조 블록을 가리키는 움직임 벡터를 도출하기 위해, 이전에 부호화된 블록들의 움직임 벡터가 현재 블록의 움직임 벡터 예측자(Motion Vector Predictor)로 이용될 수 있다. 현재 블록의 움직임 벡터와 움직임 벡터 예측자 사이의 차이인 잔차 움직임 벡터(Differential Motion Vector)는 소정의 방식을 통해 디코더 측으로 시그널링된다.
최근, AI(Artificial Intelligent)를 이용하여 영상을 부호화/복호화하는 기술들이 제안되고 있는데, AI, 예를 들어, 신경망을 이용하여 영상을 효과적으로 부호화/복호화하는 방안이 요구된다.
일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 아티팩트를 포함하는 옵티컬 플로우에 의해 비트스트림의 비트레이트가 불필요하게 증가하는 것을 방지하는 것을 과제로 한다.
또한, 일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 부호화 모드/복호화 모드를 적응적으로 결정함으로써, 복원 영상의 퀄리티를 향상시키는 것을 과제로 한다.
또한, 일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 AI 기반의 엔드-투-엔드(end-to-end) 부호화/복호화 시스템을 제공하는 것을 과제로 한다.
일 실시예에 따른 AI를 이용하는 영상 복호화 방법은, 비트스트림으로부터 현재 옵티컬 플로우, 및 현재 예측 영상과 현재 영상에 기반하여 생성된 교정 데이터(correction data)를 획득하는 단계; 상기 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 상기 현재 예측 영상을 획득하는 단계; 신경망 기반의 예측 영상 인코더(prediction image encoder)에 상기 현재 예측 영상을 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하는 단계; 및 상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터를 신경망 기반의 영상 디코더(image decoder)에 적용하여 상기 현재 영상에 대응하는 현재 복원 영상을 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 현재 옵티컬 플로우는, 상기 비트스트림으로부터 획득되는 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더(optical flow decoder)에 적용함으로써 획득될 수 있다.
일 실시예에서, 상기 영상 복호화 방법은, 제 1 가중치 맵을 상기 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하는 단계; 및 제 2 가중치 맵을 상기 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하는 단계를 더 포함하고, 상기 현재 예측 영상의 특징 데이터를 획득하는 단계는, 상기 예측 영상 인코더에 상기 제 1 변형된 예측 영상을 적용하여 상기 제 1 변형된 예측 영상의 특징 데이터를 획득하는 단계를 포함하고, 상기 현재 복원 영상을 획득하는 단계는, 상기 교정 데이터와 상기 제 1 변형된 예측 영상의 특징 데이터를 상기 영상 디코더에 적용하는 단계; 및 상기 영상 디코더로부터 획득되는 영상과 상기 제 2 변형된 예측 영상을 결합하여 상기 현재 복원 영상을 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 제 1 가중치 맵과 상기 제 2 가중치 맵은 상기 비트스트림으로부터 획득되는 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더에 적용함으로써 획득될 수 있다.
일 실시예에서, 상기 제 1 가중치 맵과 상기 제 2 가중치 맵은, 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 가중치 디코더에 적용함으로써 획득될 수 있다.
일 실시예에서, 상기 제 1 가중치 맵과 상기 제 2 가중치 맵은, 상기 비트스트림으로부터 획득되는 가중치 맵의 특징 데이터를 신경망 기반의 가중치 디코더에 적용함으로써 획득될 수 있다.
일 실시예에서, 상기 영상 복호화 방법은, 상기 비트스트림으로부터 획득되는 정보에 기초하여 상기 현재 영상의 복호화 모드를 결정하는 단계를 더 포함하고, 상기 복호화 모드가 제 1 모드인 경우, 상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터가 상기 영상 디코더에 적용됨으로써 상기 현재 복원 영상이 획득되고, 상기 복호화 모드가 제 2 모드인 경우, 상기 교정 데이터를 상기 영상 디코더에 적용하여 획득되는 영상과 상기 현재 예측 영상이 결합됨으로써 상기 현재 복원 영상이 획득될 수 있다.
일 실시예에서, 상기 비트스트림으로부터 획득되는 정보는, 양자화 파라미터, 율-왜곡 값을 산출하는데 이용되는 가중치 또는 상기 복호화 모드를 나타내는 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 AI를 이용하는 영상 부호화 방법은, 현재 영상 및 이전 복원 영상을 이용하여 현재 옵티컬 플로우를 획득하는 단계; 상기 현재 옵티컬 플로우를 기초로 상기 이전 복원 영상으로부터 현재 예측 영상을 생성하는 단계; 상기 현재 영상과 상기 현재 예측 영상을 신경망 기반의 영상 인코더에 적용하여 교정 데이터를 획득하는 단계; 및 상기 현재 옵티컬 플로우의 특징 데이터 및 상기 교정 데이터를 포함하는 비트스트림을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 영상 부호화 방법은, 상기 현재 영상의 부호화 모드를 결정하는 단계를 더 포함하고, 상기 부호화 모드가 제 1 모드인 경우, 상기 교정 데이터는 상기 현재 영상과 상기 현재 예측 영상이 상기 영상 인코더에 적용함으로써 획득되고, 상기 부호화 모드가 제 2 모드인 경우, 상기 교정 데이터는 상기 현재 영상과 상기 현재 예측 영상 사이의 잔차 영상을 상기 영상 인코더에 적용함으로써 획득될 수 있다.
일 실시예에서, 상기 제 1 모드와 상기 제 2 모드 중 더 낮은 율-왜곡 값을 도출할 수 있는 모드가 상기 부호화 모드로 결정될 수 있다.
일 실시예에서, 상기 제 1 모드에 따라 획득되는 비트스트림의 비트레이트와 상기 제 2 모드에 따라 획득되는 비트스트림의 비트레이트의 비교 결과에 따라 상기 부호화 모드가 상기 제 1 모드 또는 상기 제 2 모드로 결정될 수 있다.
일 실시예에서, 양자화 파라미터 또는 율-왜곡 값을 산출하는데 이용되는 가중치와 미리 결정된 값의 비교 결과에 따라 상기 제 1 모드와 상기 제 2 모드 중 어느 하나가 상기 부호화 모드로 결정될 수 있다.
일 실시예에서, 상기 현재 옵티컬 플로우를 획득하는 단계는, 상기 현재 영상 및 상기 이전 복원 영상을 신경망 기반의 옵티컬 플로우 인코더에 적용하여 상기 현재 옵티컬 플로우의 특징 데이터를 획득하는 단계; 및 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더에 적용하여 상기 현재 옵티컬 플로우를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 영상 부호화 방법은, 제 1 가중치 맵을 상기 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하는 단계; 및 제 2 가중치 맵을 상기 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하는 단계를 더 포함하고, 상기 제 2 변형된 예측 영상과 상기 현재 영상 사이의 잔차 영상, 및 상기 제 1 변형된 예측 영상이 상기 영상 인코더에 적용됨에 따라 상기 교정 데이터가 획득될 수 있다.
일 실시예에서, 상기 영상 부호화 방법은, 상기 현재 예측 영상을 신경망 기반의 예측 영상 인코더에 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하는 단계를 더 포함하고, 상기 비트스트림은, 상기 현재 예측 영상의 특징 데이터를 더 포함할 수 있다.
일 실시예에 따른 AI를 이용하는 영상 복호화 장치는, 비트스트림으로부터 현재 옵티컬 플로우, 및 현재 예측 영상과 현재 영상에 기반하여 생성된 교정 데이터를 획득하는 획득부; 및 상기 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 상기 현재 예측 영상을 획득하고, 신경망 기반의 예측 영상 인코더에 상기 현재 예측 영상을 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하고, 상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터를 신경망 기반의 영상 디코더에 적용하여 상기 현재 영상에 대응하는 현재 복원 영상을 획득하는 예측 복호화부를 포함할 수 있다.
일 실시예에 따른 AI를 이용하는 영상 부호화 장치는, 현재 영상 및 이전 복원 영상을 이용하여 현재 옵티컬 플로우를 획득하고, 상기 현재 옵티컬 플로우에 기초하여 상기 이전 복원 영상으로부터 생성된 현재 예측 영상과 상기 현재 영상을 신경망 기반의 영상 인코더에 적용하여 교정 데이터를 획득하는 예측 부호화부; 및 상기 현재 옵티컬 플로우의 특징 데이터 및 상기 교정 데이터를 포함하는 비트스트림을 생성하는 생성부를 포함할 수 있다.
일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 아티팩트를 포함하는 옵티컬 플로우에 의해 비트스트림의 비트레이트가 불필요하게 증가하는 것을 방지할 수 있다.
또한, 일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 부호화 모드/복호화 모드를 적응적으로 결정함으로써, 복원 영상의 퀄리티를 향상시킬 수 있다.
또한, 일 실시예에 따른 영상 부호화 장치, 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법은 AI 기반의 엔드-투-엔드 부호화/복호화 시스템을 제공할 수 있다.
도 1은 AI에 기반한 영상의 부호화 및 복호화 과정을 도시하는 도면이다.
도 2는 현재 영상과 이전 복원 영상으로부터 획득되는 현재 옵티컬 플로우, 현재 예측 영상 및 잔차 영상을 예시하는 도면이다.
도 3은 일 실시예에 따른 영상 부호화 및 복호화 과정을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.
도 5는 일 실시예에 따른 획득부의 구성을 도시하는 도면이다.
도 6은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 7은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 8은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 9는 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 10은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 11은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 12는 일 실시예에 따른 영상 복호화 방법의 순서도이다.
도 13은 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.
도 14는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 15는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 16은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 17은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 18은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 19는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 20은 일 실시예에 따른 생성부의 구성을 도시하는 도면이다.
도 21은 일 실시예에 따른 영상 부호화 방법의 순서도이다.
도 22는 일 실시예에 따른 신경망의 구조를 예시하는 도면이다.
도 23은 일 실시예에 따른 컨볼루션 레이어에서의 컨볼루션 연산을 설명하기 위한 도면이다.
도 24는 일 실시예에 따른 옵티컬 플로우 인코더, 옵티컬 플로우 디코더, 예측 영상 인코더, 영상 인코더 및 영상 디코더의 훈련 방법을 설명하기 위한 도면이다.
도 25는 일 실시예에 따른 훈련 장치에 의한 옵티컬 플로우 인코더, 옵티컬 플로우 디코더, 예측 영상 인코더, 영상 인코더 및 영상 디코더의 훈련 과정을 설명하기 위한 도면이다.
도 2는 현재 영상과 이전 복원 영상으로부터 획득되는 현재 옵티컬 플로우, 현재 예측 영상 및 잔차 영상을 예시하는 도면이다.
도 3은 일 실시예에 따른 영상 부호화 및 복호화 과정을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.
도 5는 일 실시예에 따른 획득부의 구성을 도시하는 도면이다.
도 6은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 7은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 8은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 9는 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 10은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 11은 일 실시예에 따른 예측 복호화부의 구성을 도시하는 도면이다.
도 12는 일 실시예에 따른 영상 복호화 방법의 순서도이다.
도 13은 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.
도 14는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 15는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 16은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 17은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 18은 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 19는 일 실시예에 따른 예측 부호화부의 구성을 도시하는 도면이다.
도 20은 일 실시예에 따른 생성부의 구성을 도시하는 도면이다.
도 21은 일 실시예에 따른 영상 부호화 방법의 순서도이다.
도 22는 일 실시예에 따른 신경망의 구조를 예시하는 도면이다.
도 23은 일 실시예에 따른 컨볼루션 레이어에서의 컨볼루션 연산을 설명하기 위한 도면이다.
도 24는 일 실시예에 따른 옵티컬 플로우 인코더, 옵티컬 플로우 디코더, 예측 영상 인코더, 영상 인코더 및 영상 디코더의 훈련 방법을 설명하기 위한 도면이다.
도 25는 일 실시예에 따른 훈련 장치에 의한 옵티컬 플로우 인코더, 옵티컬 플로우 디코더, 예측 영상 인코더, 영상 인코더 및 영상 디코더의 훈련 과정을 설명하기 위한 도면이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 개시의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별 기호에 불과하다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 개시에서, '영상(image)'은 정지 영상, 픽처, 프레임, 복수의 연속된 정지 영상으로 구성된 동영상, 또는 비디오를 나타낼 수 있다.
또한, 본 개시에서 '신경망(neural network)'은 뇌 신경을 모사한 인공 신경망 모델의 대표적인 예시로서, 특정 알고리즘을 사용한 인공 신경망 모델로 한정되지 않는다. 신경망은 심층 신경망(deep neural network)으로 참조될 수도 있다.
또한, 본 개시에서 '파라미터(parameter)'는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
또한, 본 개시에서 '특징 데이터'는 신경망 기반의 인코더가 입력 데이터를 처리함으로써 획득되는 데이터를 의미한다. 특징 데이터는 여러 샘플들을 포함하는 1차원 또는 2차원의 데이터일 수 있다. 특징 데이터는 잠재 표현(latent representation)으로 참조될 수도 있다. 특징 데이터는 후술하는 디코더가 출력하는 데이터에 잠재된 특징을 나타낼 수 있다.
또한, 본 개시에서 '현재 영상'은 현재의 처리 대상인 영상을 의미하고, '이전 영상'은 현재 영상 이전의 처리 대상인 영상을 의미한다. 또한, '현재 옵티컬 플로우'는 현재 영상의 처리를 위해 획득된 옵티컬 플로우를 의미한다.
또한, 본 개시에서, '샘플'은 영상, 특징 맵 또는 특징 데이터 내 샘플링 위치에 할당된 데이터로서 처리 대상이 되는 데이터를 의미한다. 예를 들어, 샘플은 2차원의 영상 내 픽셀을 포함할 수 있다.
도 1은 AI에 기반한 영상의 부호화 및 복호화 과정을 도시하는 도면이다.
도 1은 인터 예측 과정을 도시하고 있는데, 인터 예측에서는 옵티컬 플로우 인코더(110), 영상 인코더(130), 옵티컬 플로우 디코더(150) 및 영상 디코더(170)가 이용될 수 있다.
옵티컬 플로우 인코더(110), 영상 인코더(130), 옵티컬 플로우 디코더(150) 및 영상 디코더(170)는 신경망으로 구현될 수 있다.
옵티컬 플로우 인코더(110)와 옵티컬 플로우 디코더(150)는 현재 영상(10)과 이전 복원 영상(30)으로부터 현재 옵티컬 플로우(gi)를 추출하기 위한 신경망으로 이해될 수 있다.
영상 인코더(130)와 영상 디코더(170)는 입력되는 영상(예를 들어, 잔차 영상(ri))의 특징 데이터를 추출하고, 특징 데이터로부터 영상을 복원하는 신경망일 수 있다.
영상 인코더(130)와 영상 디코더(170)는 도 3과 관련하여 후술하는 예측 영상 인코더(350)가 현재 예측 영상을 대상으로 하여 특징 데이터를 추출하는 것과 구별될 수 있다.
인터 예측은 현재 영상(10)과 이전 복원 영상(30) 사이의 시간적 중복성을 이용하여 현재 영상(10)을 부호화 및 복호화하는 과정이다.
현재 영상(10) 내 블록들 또는 샘플들과 이전 복원 영상(30) 내 참조 블록들 또는 참조 샘플들 사이의 위치 차이(또는 움직임 벡터)가 현재 영상(10)의 부호화 및 복호화에 이용된다. 이러한 위치 차이는 옵티컬 플로우로 참조될 수 있다. 옵티컬 플로우는 영상 내 샘플들 또는 블록들에 대응하는 움직임 벡터들의 집합으로 정의될 수도 있다.
옵티컬 플로우, 특히 현재 옵티컬 플로우는 이전 복원 영상(30) 내 샘플들의 위치가 현재 영상(10) 내에서 어떻게 변경되었는지, 또는 현재 영상(10)의 샘플들과 동일/유사한 샘플들이 이전 복원 영상(30) 내 어디에 위치하는지를 나타낼 수 있다.
예를 들어, 현재 영상(10) 내 (1, 1)에 위치한 샘플과 동일 또는 가장 유사한 샘플이 이전 복원 영상(30)에서 (2, 1)에 위치한다면, 해당 샘플에 대한 옵티컬 플로우 또는 움직임 벡터는 (1(=2-1), 0(=1-1))으로 도출될 수 있다.
AI를 이용한 영상의 부호화 및 복호화 과정에서는 현재 영상(10)에 대한 현재 옵티컬 플로우(gi)를 획득하기 위해 옵티컬 플로우 인코더(110) 및 옵티컬 플로우 디코더(150)를 이용할 수 있다.
구체적으로, 이전 복원 영상(30)과 현재 영상(10)이 옵티컬 플로우 인코더(110)로 입력될 수 있다. 옵티컬 플로우 인코더(110)는 훈련의 결과로 설정된 파라미터에 따라 현재 영상(10)과 이전 복원 영상(30)을 처리하여 현재 옵티컬 플로우에 대한 특징 데이터(wi)를 출력할 수 있다.
현재 옵티컬 플로우에 대한 특징 데이터(wi)는 옵티컬 플로우 디코더(150)로 입력될 수 있다. 옵티컬 플로우 디코더(150)는 입력된 특징 데이터(wi)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재 옵티컬 플로우(gi)를 출력할 수 있다.
이전 복원 영상(30)은 현재 옵티컬 플로우(gi)에 기반한 워핑(190)을 통해 워핑되고(warped), 워핑(190)의 결과로 현재 예측 영상(x'i)이 획득될 수 있다. 워핑(190)이란, 영상 내 샘플들의 위치를 이동시키는 기하학적 변형의 한 종류이다.
이전 복원 영상(30) 내 샘플들과 현재 영상(10) 내 샘플들 사이의 상대적인 위치 관계를 나타내는 옵티컬 플로우(gi)에 따라 이전 복원 영상(30)에 대해 워핑(190)이 적용됨으로써 현재 영상(10)과 유사한 현재 예측 영상(x'i)이 획득될 수 있다.
예를 들어, 이전 복원 영상(30) 내 (1, 1)에 위치한 샘플이 현재 영상(10) 내 (2, 1)에 위치하는 샘플과 가장 유사하다면, 워핑(190)을 통해 이전 복원 영상(30) 내 (1, 1)에 위치한 샘플의 위치가 (2, 1)로 변경될 수 있다.
이전 복원 영상(30)으로부터 생성된 현재 예측 영상(x'i)은 현재 영상(10) 자체가 아니므로, 현재 예측 영상(x'i)과 현재 영상(10) 사이의 잔차 영상(ri)이 획득될 수 있다. 예를 들어, 현재 영상(10) 내 샘플 값들로부터 현재 예측 영상(x'i) 내 샘플 값들을 차감함으로써 잔차 영상(ri)이 획득될 수 있다.
잔차 영상(ri)은 영상 인코더(130)로 입력될 수 있다. 영상 인코더(130)는 훈련의 결과로 설정된 파라미터에 따라 잔차 영상(ri)을 처리하여 잔차 영상에 대한 특징 데이터(vi)를 출력할 수 있다.
잔차 영상에 대한 특징 데이터(vi)는 영상 디코더(170)로 입력될 수 있다. 영상 디코더(170)는 입력된 특징 데이터(vi)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 복원된 잔차 영상(r'i)을 출력할 수 있다.
이전 복원 영상(30)에 대한 워핑(190)을 통해 생성된 현재 예측 영상(x'i)과 복원된 잔차 영상(r'i)의 결합을 통해 현재 복원 영상(50)이 획득될 수 있다.
도 1에 도시된 영상의 부호화 및 복호화 과정이 부호화 장치 및 복호화 장치로 구현되는 경우, 부호화 장치는 현재 영상(10)에 대한 부호화 과정을 통해 획득한 현재 옵티컬 플로우의 특징 데이터(wi)와 잔차 영상의 특징 데이터(vi)를 양자화하고, 양자화된 특징 데이터를 포함하는 비트스트림을 생성하여 복호화 장치로 전송할 수 있다. 복호화 장치는 비트스트림으로부터 추출된 양자화된 특징 데이터를 역양자화하여 현재 옵티컬 플로우의 특징 데이터(wi)와 잔차 영상의 특징 데이터(vi)를 획득할 수 있다. 그리고, 복호화 장치는 현재 옵티컬 플로우의 특징 데이터(wi)와 잔차 영상의 특징 데이터(vi)를 옵티컬 플로우 디코더(150) 및 영상 디코더(170)로 처리하여 현재 복원 영상(50)을 획득할 수 있다.
전술한 바와 같이, 현재 영상(10)과 현재 예측 영상(x'i) 사이의 잔차 영상(ri)이 영상 인코더(130)로 입력될 수 있는데, 여기서, 현재 예측 영상(x'i)은 현재 옵티컬 플로우(gi)에 기반하여 이전 복원 영상(30)으로부터 생성된 것이므로, 현재 옵티컬 플로우(gi)에 아티팩트가 존재한다면, 현재 예측 영상(x'i)과 잔차 영상(ri)에도 아티팩트가 존재할 가능성이 크다.
아티팩트를 가지는 잔차 영상(ri)이 영상 인코더(130)로 입력되는 경우, 비트스트림의 비트레이트가 불필요하게 커질 수 있다. 또한, 아티팩트를 가지는 현재 예측 영상(x'i)이 복원된 잔차 영상(r'i)에 결합되므로 현재 복원 영상(50)의 퀄리티도 저하될 수 있다.
현재 옵티컬 플로우(gi)로부터 잔차 영상(ri)으로의 아티팩트의 확산 과정에 대해 도 2를 참조하여 설명한다.
도 2는 현재 영상(22)과 이전 복원 영상(21)으로부터 획득되는 현재 옵티컬 플로우(23), 현재 예측 영상(24) 및 잔차 영상(25)을 예시하는 도면이다.
도 2를 참조하면, 현재 영상(22)과 이전 복원 영상(21)으로부터 현재 영상(22) 내 샘플들의 움직임을 나타내는 현재 옵티컬 플로우(23)가 획득될 수 있다.
도 1과 관련하여 설명한 바와 같이, 옵티컬 플로우 인코더(110)와 옵티컬 플로우 디코더(150)에 의한 처리 과정, 및 현재 옵티컬 플로우의 특징 데이터에 대한 양자화 및 역양자화 과정을 통해 현재 옵티컬 플로우(23)가 획득될 수 있는데, 이로 인해 현재 옵티컬 플로우(23) 내에, 예를 들어, A 영역 내에 아티팩트가 발생할 수 있다.
아티팩트 발생 원인에 대해 구체적으로 설명하면, 먼저, 옵티컬 플로우 인코더(110)와 옵티컬 플로우 디코더(150)의 처리 능력의 한계로 인해 현재 옵티컬 플로우(23) 내에 아티팩트가 발생할 수 있다. 부호화 장치 및 복호화 장치의 연산 능력에는 한계가 있으므로, 옵티컬 플로우 인코더(110)와 옵티컬 플로우 디코더(150)의 레이어의 개수 및 필터 커널의 크기 역시 제한될 수밖에 없다. 즉, 제한된 능력을 갖는 옵티컬 플로우 인코더(110)와 옵티컬 플로우 디코더(150)로 현재 영상(22)과 이전 복원 영상(21)을 처리함으로써 현재 옵티컬 플로우(23) 내에 아티팩트가 발생할 수 있는 것이다.
다음으로, 현재 옵티컬 플로우(23)의 특징 데이터에 대한 양자화 및 역양자화 과정을 통해 양자화 에러가 현재 옵티컬 플로우(23)에 발생할 수 있다. 특히, 압축 효율을 높이고자 양자화 파라미터의 값을 증가시키는 경우 비트스트림의 비트레이트는 낮아지지만, 이와 동시에 양자화 에러량이 커지게 된다.
마지막으로, 현재 영상(22)과 이전 복원 영상(21)에 포함된 오브젝트의 움직임이 빠른 경우 현재 옵티컬 플로우(23)에 아티팩트가 발생할 가능성이 커지게 된다.
현재 옵티컬 플로우(23) 내 A 영역에 아티팩트가 존재하면, 이에 기반하여 이전 복원 영상(21)으로부터 생성된 현재 예측 영상(24)의 B 영역에도 아티팩트가 발생할 수 있고, 현재 예측 영상(24)과 현재 영상(22) 사이에서 획득되는 잔차 영상(25)의 C 영역에도 아티팩트가 발생할 수 있다.
잔차 영상(25)은 영상 인코더(130)에 의해 처리되어 잔차 영상(25)의 특징 데이터로 변환되고, 잔차 영상(25)의 특징 데이터는 소정의 처리를 거친 후 비트스트림에 포함되므로, 현재 옵티컬 플로우(23)에 존재하는 아티팩트가 복호화 장치로까지 전달되는 것을 알 수 있다.
일반적으로, 아티팩트는 고주파 특성을 가지므로, 아티팩트를 포함하는 잔차 영상(25)을 영상 인코더(130)로 처리하는 경우, 불필요하게 비트스트림의 비트레이트가 증가되는 요인이 될 수 있다.
이하에서는, 현재 옵티컬 플로우에 존재하는 아티팩트의 확산을 방지하기 위한 영상의 부호화 및 복호화 과정에 대해 설명한다.
도 3은 일 실시예에 따른 영상 부호화 및 복호화 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 영상의 부호화 및 복호화에 옵티컬 플로우 인코더(310), 옵티컬 플로우 디코더(330), 영상 인코더(370), 영상 디코더(390) 및 예측 영상 인코더(350)가 이용될 수 있다.
도 1과 비교하면, 도 3에 도시된 영상의 부호화 및 복호화 과정에서는 예측 영상 인코더(350)가 더 이용되는 것을 알 수 있다.
일 실시예에서, 옵티컬 플로우 인코더(310), 옵티컬 플로우 디코더(330), 영상 인코더(370), 영상 디코더(390) 및 예측 영상 인코더(350)는 신경망으로 구현될 수 있다.
현재 영상(320)의 부호화를 위해 이전 복원 영상(340)과 현재 영상(320)이 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 훈련의 결과로 설정된 파라미터에 따라 현재 영상(320)과 이전 복원 영상(340)을 처리하여 현재 옵티컬 플로우에 대한 특징 데이터(wi)를 출력할 수 있다.
현재 옵티컬 플로우에 대한 특징 데이터(wi)는 옵티컬 플로우 디코더(330)로 입력될 수 있다. 옵티컬 플로우 디코더(330)는 입력된 특징 데이터(wi)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재 옵티컬 플로우(gi)를 출력할 수 있다.
이전 복원 영상(340)은 현재 옵티컬 플로우(gi)에 기반한 워핑(380)을 통해 워핑되고(warped), 워핑(380)의 결과로 현재 예측 영상(x'i)이 획득될 수 있다.
현재 예측 영상(x'i)은 현재 영상(320)과 함께 영상 인코더(370)로 입력될 수 있다. 예를 들어, 현재 예측 영상(x'i)과 현재 영상(320)이 연접된 결과가 영상 인코더(370)로 입력될 수 있다. 여기서, 연접(concatenation)이란, 두 개 이상의 특징 데이터를 채널 방향으로 결합하는 처리를 의미할 수 있다.
영상 인코더(370)는 훈련의 결과로 설정된 파라미터에 따라 현재 예측 영상(x'i)과 현재 영상(320)을 처리하여 교정 데이터(ki)를 출력할 수 있다. 교정 데이터(ki)는 현재 예측 영상(x'i) 및 현재 영상(320)으로부터 추출된 특징 데이터일 수 있다.
일 실시예에서, 교정 데이터(ki)는 현재 예측 영상(x'i)을 현재 영상(320)과 동일 또는 유사하게 교정시키거나, 현재 예측 영상(x'i)의 특징 데이터(mi)가 현재 영상(320)의 특징을 가지도록 현재 예측 영상(x'i)의 특징 데이터(mi)를 교정시키기 위한 데이터를 의미할 수 있다.
현재 예측 영상(x'i)이 영상 인코더(370)로 입력되는 것과 별개로 현재 예측 영상(x'i)은 예측 영상 인코더(350)로 입력될 수 있다.
예측 영상 인코더(350)는 훈련의 결과로 설정된 파라미터에 따라 현재 예측 영상(x'i)을 처리하여 현재 예측 영상(x'i)의 특징 데이터(mi)를 출력할 수 있다.
현재 예측 영상(x'i)의 특징 데이터(mi)와 교정 데이터(ki)는 영상 디코더(390)로 입력될 수 있다. 예를 들어, 현재 예측 영상(x'i)의 특징 데이터(mi)와 교정 데이터(ki)가 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 현재 예측 영상(x'i)의 특징 데이터(mi)와 교정 데이터(ki)뿐만 아니라 다른 특징 데이터, 예를 들어, 현재 옵티컬 플로우의 특징 데이터(wi)도 함께 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련의 결과로 설정된 파라미터에 따라 입력된 데이터를 처리하여 현재 복원 영상(360)을 획득할 수 있다.
도 3에 도시된 영상의 부호화 및 복호화 과정이 부호화 장치 및 복호화 장치로 구현되는 경우, 부호화 장치는 현재 영상(320)에 대한 부호화를 통해 획득된 현재 옵티컬 플로우의 특징 데이터(wi)와 교정 데이터(ki)를 포함하는 비트스트림을 생성하여 복호화 장치로 전송할 수 있다.
복호화 장치는 비트스트림으로부터 현재 옵티컬 플로우의 특징 데이터(wi)와 교정 데이터(ki)를 획득할 수 있다. 그리고, 복호화 장치는 현재 옵티컬 플로우의 특징 데이터(wi)와 교정 데이터(ki)에 기반하여 현재 복원 영상(360)을 획득할 수 있다.
이하, 도 1에 도시된 영상의 부호화 및 복호화 과정과 비교하여 도 3에 도시된 영상의 부호화 및 복호화 과정에서 달라진 부분에 대해 설명한다.
첫 번째로, 도 1에서는 현재 예측 영상(x'i)과 현재 영상(10) 사이의 차이에 해당하는 잔차 영상(ri)이 영상 인코더(130)로 입력되나, 도 3에서는 현재 예측 영상(x'i)과 현재 영상(320)이 함께 영상 인코더(370)로 입력된다.
전술한 바와 같이, 현재 옵티컬 플로우(gi)에 아티팩트가 포함되어 있으면, 잔차 영상(ri)에도 아티팩트가 포함될 수 있다. 이 경우, 도 1 에 도시된 과정에서는 아티팩트를 포함하는 잔차 영상(ri)만이 영상 인코더(130)로 입력되는 것을 알 수 있다. 그러나, 도 3에 도시된 실시예에 따르면, 아티팩트를 포함하는 현재 예측 영상(x'i)과 아티팩트를 포함하지 않는 현재 영상(320)이 함께 영상 인코더(370)로 입력된다. 따라서, 영상 인코더(370)는 교정 데이터(ki)를 생성하는데 있어 현재 영상(320)에는 포함되어 있지 않은 현재 예측 영상(x'i) 내 아티팩트를 고려하지 않을 수 있다. 즉, 영상 인코더(370)에 의해 현재 예측 영상(x'i) 내 아티팩트가 고려되지 않음으로써 비트레이트가 불필요하게 커지는 것이 방지될 수 있다.
후술하는 바와 같이, 영상의 부호화 및 복호화에 이용되는 인코더들과 디코더들은 비트스트림의 비트레이트가 감소되고, 현재 영상(320)과 현재 복원 영상(360) 사이의 차이가 적어지는 방향으로 훈련될 수 있다. 이에 따라 영상 인코더(370)는 비트스트림의 비트레이트를 증가시키는 요인이 되지만, 현재 영상(320)과 현재 복원 영상(360) 사이의 차이를 감소시키는 데에는 기여하지 않는 현재 예측 영상(x'i) 내 아티팩트를 배제하고 교정 데이터(ki)를 생성할 수 있는 것이다.
반면에, 현재 예측 영상(x'i)에 아티팩트가 포함되어 있지 않은 경우, 다시 말하면, 현재 예측 영상(x'i)과 현재 영상(320)이 매우 유사한 경우, 영상 인코더(370)는 비트스트림의 비트레이트를 감소시키기 위해 현재 영상(320)의 특징들 중 현재 예측 영상(x'i)에 존재하지 않는 특징들만을 고려하여 교정 데이터(ki)를 생성할 수 있다.
두 번째로, 도 1에서는 현재 예측 영상(x'i)이 복원된 잔차 영상(r'i)에 결합되나, 도 3의 실시예에서는 현재 예측 영상(x'i)이 예측 영상 인코더(350)에 의해 처리되고, 처리 결과로 획득되는 현재 예측 영상(x'i)의 특징 데이터(mi)가 영상 디코더(390)로 입력된다.
교정 데이터(ki)는 현재 예측 영상(x'i)과 현재 영상(320)이 영상 인코더(370)에 의해 처리됨으로써 출력되는 특징 데이터이므로, 현재 예측 영상(x'i)과 교정 데이터(ki)의 도메인을 일치시키기 위해, 예측 영상 인코더(350)는 현재 예측 영상(x'i)를 처리하여 현재 예측 영상(x'i)의 특징 데이터(mi)를 출력할 수 있다.
또한, 예측 영상 인코더(350)는 현재 예측 영상(x'i) 내에 존재하는 아티팩트를 제거하는 역할을 할 수 있다. 왜냐하면, 현재 예측 영상(x'i) 내 아티팩트는 현재 복원 영상(360)의 퀄리티를 향상시키는데 기여하지 않으므로, 예측 영상 인코더(350)는 현재 예측 영상(x'i) 내 아티팩트를 제거하는 방향으로 훈련될 것이기 때문이다.
도 3에 도시된 실시예에서는, 현재 예측 영상(x'i) 내 아티팩트가 예측 영상 인코더(350) 및/또는 영상 인코더(370)에 의해 제거되도록 함으로써 비트스트림의 비트레이트를 감소시키는 동시에 현재 복원 영상(360)의 퀄리티를 향상시킬 수 있다.
이하에서는, 도 4 내지 도 21을 참조하여 일 실시예에 따른 영상 복호화 장치(400), 영상 부호화 장치(1300) 및 이들의 동작에 대해 상세히 설명한다.
도 4는 일 실시예에 따른 영상 복호화 장치(400)의 구성을 도시하는 도면이다.
도 4를 참조하면, 일 실시예에 따른 영상 복호화 장치(400)는 획득부(410) 및 예측 복호화부(430)를 포함할 수 있다.
획득부(410) 및 예측 복호화부(430)는 프로세서로 구현될 수 있다. 획득부(410) 및 예측 복호화부(430)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.
도 4는 획득부(410) 및 예측 복호화부(430)를 개별적으로 도시하고 있으나, 획득부(410) 및 예측 복호화부(430)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 획득부(410) 및 예측 복호화부(430)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
획득부(410) 및 예측 복호화부(430)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 획득부(410) 및 예측 복호화부(430)는 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
획득부(410)는 현재 영상에 대한 부호화 결과를 포함하는 비트스트림을 획득할 수 있다.
획득부(410)는 영상 부호화 장치(1300)로부터 네트워크를 통해 비트스트림을 수신할 수 있다. 일 실시예에서, 획득부(410)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체로부터 비트스트림을 획득할 수도 있다.
획득부(410)는 비트스트림을 파싱하여 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 획득할 수 있다.
일 실시예에서, 획득부(410)는 현재 옵티컬 플로우의 특징 데이터에 대응하는 제 1 비트스트림과 교정 데이터에 대응하는 제 2 비트스트림을 획득하고, 제 1 비트스트림 및 제 2 비트스트림을 각각 파싱하여 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 획득할 수도 있다.
현재 옵티컬 플로우의 특징 데이터 및 교정 데이터는 예측 복호화부(430)로 전달되고, 예측 복호화부(430)는 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 이용하여 현재 영상에 대응하는 현재 복원 영상을 획득할 수 있다. 현재 복원 영상은 재생을 위해 디스플레이 장치로 출력될 수 있다.
이하에서는, 도 5 내지 도 11을 참조하여, 획득부(410) 및 예측 복호화부(430)의 동작에 대해 상세히 설명한다.
도 5는 일 실시예에 따른 획득부(410)의 구성을 도시하는 도면이다.
도 5를 참조하면, 획득부(410)는 엔트로피 복호화부(411) 및 역양자화부(413)를 포함할 수 있다.
엔트로피 복호화부(411)는 비트스트림에 포함된 빈(bin)들을 엔트로피 코딩하여 현재 옵티컬 플로우의 양자화된 특징 데이터 및 양자화된 교정 데이터를 획득할 수 있다.
역양자화부(413)는 현재 옵티컬 플로우의 양자화된 특징 데이터를 역양자화하여 현재 옵티컬 플로우의 특징 데이터를 획득하고, 양자화된 교정 데이터를 역양자화하여 교정 데이터를 획득할 수 있다.
일 실시예에서, 획득부(410)는 역변환부를 더 포함할 수 있다. 역변환부는 역양자화부(413)로부터 출력되는 특징 데이터 및 교정 데이터를 주파수 도메인으로부터 공간 도메인으로 역변환할 수 있다. 후술하는 영상 부호화 장치(1300)가 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 공간 도메인으로부터 주파수 도메인으로 변환하는 경우, 역변환부는 역양자화부(413)로부터 출력되는 특징 데이터 및 교정 데이터를 주파수 도메인에서 공간 도메인으로 역변환할 수 있다.
일 실시예에서, 획득부(410)는 역양자화부(413)를 포함하지 않을 수도 있다. 즉, 엔트로피 복호화부(411)에 의한 처리를 통해 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터가 획득될 수 있다.
일 실시예에서, 획득부(410)는 비트스트림에 포함된 빈들에 대한 역이진화만을 수행하여 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 획득할 수도 있다. 이는, 영상 부호화 장치(1300)가 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 이진화하여 비트스트림을 생성한 경우, 다시 말하면, 영상 부호화 장치(1300)가 현재 옵티컬 플로우의 특징 데이터와 교정 데이터에 대해 엔트로피 부호화, 변환 및 양자화를 적용하지 않는 경우를 위한 것이다.
다음으로, 도 6은 일 실시예에 따른 예측 복호화부(630)의 구성을 도시하는 도면이다.
도 6을 참조하면, 예측 복호화부(630)는 옵티컬 플로우 디코더(330), 영상 디코더(390), 움직임 보상부(431) 및 예측 영상 인코더(350)를 포함할 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 메모리에 저장될 수 있다. 일 실시예에서, 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
획득부(410)에 의해 출력된 현재 옵티컬 플로우의 특징 데이터는 옵티컬 플로우 디코더(330)로 입력될 수 있다.
옵티컬 플로우 디코더(330)는 훈련을 통해 설정된 파라미터에 따라 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 획득할 수 있다. 현재 옵티컬 플로우는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다. 현재 옵티컬 플로우는 움직임 보상부(431)로 제공될 수 있다.
움직임 보상부(431)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 영상과 유사한 현재 예측 영상을 생성할 수 있다. 이전 복원 영상은 현재 영상의 처리 전에 처리 대상이었던 이전 영상에 대한 복호화를 통해 복원된 영상이다.
움직임 보상부(431)는 현재 예측 영상의 생성을 위해 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑할 수 있다. 현재 예측 영상의 생성을 위한 워핑은 하나의 예시이고, 움직임 보상부(431)는 현재 영상과 유사한 현재 예측 영상을 생성하기 위해, 이전 복원 영상을 변경하는 다양한 영상 처리를 수행할 수 있다.
움직임 보상부(431)에 의해 생성된 현재 예측 영상은 예측 영상 인코더(350)로 제공될 수 있다.
예측 영상 인코더(350)는 훈련을 통해 설정된 파라미터에 따라 현재 예측 영상을 처리하여 현재 예측 영상의 특징 데이터를 획득할 수 있다. 전술한 바와 같이, 예측 영상 인코더(350)는 현재 예측 영상의 도메인을 교정 데이터의 도메인에 일치시키고, 현재 예측 영상에 존재하는 아티팩트를 제거할 수 있다.
예측 영상 인코더(350)로부터 출력되는 현재 예측 영상의 특징 데이터, 및 획득부(410)에 의해 출력되는 교정 데이터는 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 현재 예측 영상의 특징 데이터와 교정 데이터는 연접되고, 연접된 결과가 영상 디코더(390)로 입력될 수 있다. 여기서, 연접(concatenation)이란, 두 개 이상의 특징 데이터를 채널 방향으로 결합하는 처리를 의미할 수 있다.
일 실시예에서, 현재 예측 영상의 특징 데이터 및 교정 데이터뿐만 아니라 현재 옵티컬 플로우의 특징 데이터도 영상 디코더(390)로 입력될 수 있다. 이 경우, 현재 예측 영상의 특징 데이터, 교정 데이터 및 현재 옵티컬 플로우의 특징 데이터가 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련을 통해 설정된 파라미터에 따라 현재 예측 영상의 특징 데이터와 교정 데이터를 처리하여 현재 복원 영상을 획득할 수 있다. 현재 복원 영상은 다음 영상의 복호화 과정에서 이용될 수 있다.
도 6에 도시된 예측 복호화부(630)는 도 3에 도시된 영상의 복호화 과정을 수행하기 위한 것으로서, 예측 영상 인코더(350)를 통해 현재 예측 영상에 포함된 아티팩트가 제거될 수 있다.
도 7은 일 실시예에 따른 예측 복호화부(730)의 구성을 도시하는 도면이다.
도 7을 참조하면, 예측 복호화부(730)는 옵티컬 플로우 디코더(330), 영상 디코더(390), 움직임 보상부(431) 및 결합부(433)를 포함할 수 있다.
옵티컬 플로우 디코더(330) 및 영상 디코더(390)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 디코더(330) 및 영상 디코더(390)는 메모리에 저장될 수 있다. 일 실시예에서, 옵티컬 플로우 디코더(330) 및 영상 디코더(390)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수 있다.
획득부(410)에 의해 출력된 현재 옵티컬 플로우의 특징 데이터는 옵티컬 플로우 디코더(330)로 입력될 수 있다.
옵티컬 플로우 디코더(330)는 훈련을 통해 설정된 파라미터에 따라 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 획득할 수 있다. 현재 옵티컬 플로우는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.
현재 옵티컬 플로우는 움직임 보상부(431)로 제공될 수 있다. 움직임 보상부(431)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 영상과 유사한 현재 예측 영상을 생성할 수 있다.
움직임 보상부(431)는 현재 예측 영상의 생성을 위해 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑할 수 있다. 현재 예측 영상의 생성을 위한 워핑은 하나의 예시이고, 움직임 보상부(431)는 현재 영상과 유사한 현재 예측 영상을 생성하기 위해, 이전 복원 영상을 변경하는 다양한 영상 처리를 이전 복원 영상에 대해 적용할 수 있다.
움직임 보상부(431)에 의해 생성된 현재 예측 영상은 결합부(433)로 제공될 수 있다.
획득부(410)에 의해 출력되는 교정 데이터는 영상 디코더(390)로 입력될 수 있다. 일 실시예에서, 현재 옵티컬 플로우의 특징 데이터도 영상 디코더(390)로 입력될 수 있다. 이 경우, 교정 데이터 및 현재 옵티컬 플로우의 특징 데이터가 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련을 통해 설정된 파라미터에 따라 교정 데이터를 처리하여 교정 영상을 획득할 수 있다. 교정 영상은 결합부(433)로 제공될 수 있다.
결합부(433)는 움직임 보상부(431)로부터 제공되는 현재 예측 영상과 영상 디코더(390)로부터 제공되는 교정 영상을 결합하여 현재 복원 영상을 획득할 수 있다.
일 실시예에서, 결합부(433)는 현재 예측 영상의 샘플 값들과 교정 영상의 샘플 값들을 합하여 현재 복원 영상을 획득할 수 있다.
도 7에 도시된 예측 복호화부(730)는 도 1에 도시된 영상의 복호화 과정을 수행하기 위한 것으로서, 후술하는 영상 부호화 장치(1300)가 도 3에 도시된 영상의 부호화 과정을 수행하는 경우에 유용할 수 있다.
도 8은 일 실시예에 따른 예측 복호화부(830)의 구성을 도시하는 도면이다.
도 8에 도시된 예측 복호화부(830)는 도 6에 도시된 예측 복호화부(630)의 동작과 도 7에 도시된 예측 복호화부(730)의 동작을 선택적으로 수행하기 위한 것으로서, 예를 들어, 복호화 모드 결정부(437)에 의해 선택된 복호화 모드에 따라 도 6에 도시된 예측 복호화부(630)의 동작 또는 도 7에 도시된 예측 복호화부(730)의 동작이 수행될 수 있다.
도 8을 참조하면, 예측 복호화부(830)는 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 움직임 보상부(431), 결합부(433), 복호화 모드 결정부(437) 및 스위치(435)를 포함할 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 메모리에 저장될 수 있다. 일 실시예에서, 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
복호화 모드 결정부(437)는 현재 영상을 복호화하는데 이용되는 복호화 모드를 제 1 모드 및 제 2 모드 중 어느 하나로 결정할 수 있다. 예를 들어, 제 1 모드는 도 6에 도시된 예측 복호화부(630)의 동작을 수행하는 복호화 모드이고, 제 2 모드는 도 7에 도시된 예측 복호화부(730)의 동작을 수행하는 복호화 모드일 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 영상 시퀀스(또는 픽처 시퀀스), GOP(group of pictures) 또는 영상마다 복호화 모드를 결정할 수 있다.
예를 들어, 복호화 모드 결정부(437)는 제 1 영상 시퀀스(또는, 제 1 GOP 또는 제 1 영상)를 위해 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 선택하고, 선택된 복호화 모드에 따라 제 1 영상 시퀀스(또는, 제 1 GOP 또는 제 1 영상)에 포함된 영상들을 복호화할 수 있다.
그리고, 복호화 모드 결정부(437)는 제 1 영상 시퀀스(또는, 제 1 GOP 또는 제 1 영상) 다음의 제 2 영상 시퀀스(또는, 제 2 GOP 또는 제 2 영상)를 위해 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 선택하고, 선택된 복호화 모드에 따라 제 2 영상 시퀀스(또는, 제 2 GOP 또는 제 2 영상)에 포함된 영상들을 복호화할 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 비트스트림에 포함된 정보에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 결정할 수 있다. 예를 들어, 비트스트림에 포함된 정보는 복호화 모드를 나타내는 플래그 또는 인덱스일 수 있다. 이 경우, 복호화 모드 결정부(437)는 제 1 모드와 제 2 모드 중 플래그 또는 인덱스가 가리키는 모드를 복호화 모드로 결정할 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 비트스트림의 비트레이트에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 결정할 수도 있다. 전술한 바와 같이, 비트스트림의 비트레이트가 낮은 경우, 현재 옵티컬 플로우 내에 아티팩트가 포함될 가능성이 상대적으로 높으므로, 복호화 모드 결정부(437)는 비트스트림의 비트레이트와 미리 결정된 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 결정할 수 있다.
예를 들어, 복호화 모드 결정부(437)는 비트스트림의 비트레이트가 미리 결정된 값보다 작으면 복호화 모드를 제 1 모드(예를 들어, 도 6에 도시된 예측 복호화부(630)의 동작을 수행하는 복호화 모드)로 결정하고, 비트스트림의 비트레이트가 미리 결정된 값 이상이면 복호화 모드를 제 2 모드(예를 들어, 도 7에 도시된 예측 복호화부(730)의 동작을 수행하는 복호화 모드)로 결정할 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 비트스트림으로부터 확인되는 양자화 파라미터와 미리 결정된 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 결정할 수도 있다.
예를 들어, 복호화 모드 결정부(437)는 양자화 파라미터가 미리 결정된 값 이상이면 복호화 모드를 제 1 모드(예를 들어, 도 6에 도시된 예측 복호화부(630)의 동작을 수행하는 복호화 모드)로 결정하고, 양자화 파라미터가 미리 결정된 값보다 작으면 복호화 모드를 제 2 모드(예를 들어, 도 7에 도시된 예측 복호화부(730)의 동작을 수행하는 복호화 모드)로 결정할 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 율-왜곡 값(rate-distortion value)을 산출하는데 이용되는 가중치와 미리 결정된 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 복호화 모드로 결정할 수도 있다. 가중치는 비트스트림으로부터 획득될 수 있다.
율-왜곡 값은 하기 수학식 1에 의해 산출될 수 있다.
[수학식 1]
율-왜곡 값 = k*R + D
수학식 1에서 R은 비트스트림의 비트레이트에 대응하는 값이고, D는 복원된 영상의 왜곡 정도를 나타내는 값이고, k는 율-왜곡 값을 도출하는데 이용되는 가중치이다.
가중치 k가 높으면 R이 율-왜곡 값에 미치는 영향이 커지므로, 부호화 장치는 비트스트림의 비트레이트이 낮아지도록 현재 영상을 부호화하게 되고, 반대로, 가중치 k가 낮으면 D가 율-왜곡 값에 미치는 영향이 커지므로, 부호화 장치는 복원 영상의 퀄리티가 좋아지도록, 다시 말하면, 비트스트림의 비트레이트가 높아지도록 현재 영상을 부호화하게 된다.
복호화 모드 결정부(437)는 율-왜곡 값을 산출하는데 이용되는 가중치가 미리 결정된 값 이상이면 복호화 모드를 제 1 모드(예를 들어, 도 6에 도시된 예측 복호화부(630)의 동작을 수행하는 복호화 모드)로 결정하고, 율-왜곡 값을 산출하는데 이용되는 가중치가 미리 결정된 값보다 작으면 복호화 모드를 제 2 모드(예를 들어, 도 7에 도시된 예측 복호화부(730)의 동작을 수행하는 복호화 모드)로 결정할 수 있다.
복호화 모드 결정부(437)는 제 1 모드와 제 2 모드 중 어느 하나가 복호화 모드로 결정되면, 스위치(435)를 제어하여 움직임 보상부(431)의 출력이 결합부(433) 또는 예측 영상 인코더(350)에 연결되도록 할 수 있다.
일 실시예에서, 복호화 모드 결정부(437)는 복호화 모드가 제 1 모드로 결정되면, 움직임 보상부(431)의 출력이 예측 영상 인코더(350)로 연결되도록 스위치(435)를 제어할 수 있다.
또한, 복호화 모드 결정부(437)는 복호화 모드가 제 2 모드로 결정되면, 움직임 보상부(431)의 출력이 결합부(433)에 연결되도록 스위치(435)를 제어할 수 있다.
도 8에 도시된 스위치(435)는 본 개시의 일 실시예에 대한 이해를 위한 것으로서, 물리적 구성를 갖는 스위치(435)가 예측 복호화부(830)에 포함된다는 것을 의미하지 않는다. 다시 말하면, 스위치(435)의 동작이 복호화 모드 결정부(437)에 의해 제어되는 것으로 설명하고 있지만, 복호화 모드 결정부(437)는 프로그램 또는 인스트럭션에 따라 현재 예측 영상의 전달 경로를 제어할 수 있다.
획득부(410)에 의해 출력된 현재 옵티컬 플로우의 특징 데이터는 옵티컬 플로우 디코더(330)로 입력될 수 있다.
옵티컬 플로우 디코더(330)는 훈련을 통해 설정된 파라미터에 따라 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 획득할 수 있다. 현재 옵티컬 플로우는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다. 현재 옵티컬 플로우는 움직임 보상부(431)로 제공될 수 있다.
움직임 보상부(431)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 영상과 유사한 현재 예측 영상을 생성할 수 있다.
움직임 보상부(431)는 현재 예측 영상의 생성을 위해 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑할 수 있다. 현재 예측 영상의 생성을 위한 워핑은 하나의 예시이고, 움직임 보상부(431)는 현재 영상과 유사한 현재 예측 영상을 생성하기 위해, 이전 복원 영상을 변경하는 다양한 영상 처리를 이전 복원 영상에 대해 적용할 수 있다.
움직임 보상부(431)에 의해 생성된 현재 예측 영상은 예측 영상 인코더(350) 또는 결합부(433)로 제공될 수 있다.
복호화 모드 결정부(437)에 의한 스위치(435)의 제어를 통해 현재 예측 영상이 예측 영상 인코더(350)로 제공되는 경우, 예측 영상 인코더(350)는 훈련을 통해 설정된 파라미터에 따라 현재 예측 영상을 처리하여 현재 예측 영상의 특징 데이터를 획득할 수 있다.
예측 영상 인코더(350)로부터 출력되는 현재 예측 영상의 특징 데이터, 및 획득부(410)에 의해 출력되는 교정 데이터는 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 현재 예측 영상의 특징 데이터와 교정 데이터는 연접되고, 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 현재 예측 영상의 특징 데이터 및 교정 데이터뿐만 아니라 현재 옵티컬 플로우의 특징 데이터도 영상 디코더(390)로 입력될 수 있다. 이 경우, 현재 예측 영상의 특징 데이터, 교정 데이터 및 현재 옵티컬 플로우의 특징 데이터가 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련을 통해 설정된 파라미터에 따라 현재 예측 영상의 특징 데이터와 교정 데이터를 처리하여 현재 복원 영상을 획득할 수 있다. 현재 복원 영상은 결합부(433)로 제공될 수 있다.
움직임 보상부(431)로부터 결합부(433)로 현재 예측 영상이 전달되지 않았으므로, 결합부(433)는 영상 디코더(390)로부터 전달된 현재 복원 영상을 출력할 수 있다.
복호화 모드 결정부(437)에 의한 스위치(435)의 제어를 통해 현재 예측 영상이 결합부(433)로 제공되는 경우, 교정 데이터만이 영상 디코더(390)로 입력될 수 있다. 일 실시예에서, 현재 옵티컬 플로우의 특징 데이터와 교정 데이터가 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련을 통해 설정된 파라미터에 따라 교정 데이터를 처리하여 교정 영상을 획득할 수 있다. 교정 영상은 결합부(433)로 제공될 수 있다.
결합부(433)는 교정 영상과 움직임 보상부(431)로부터 제공된 현재 예측 영상을 결합하여 현재 복원 영상을 획득할 수 있다.
도 9는 일 실시예에 따른 예측 복호화부(930)의 구성을 도시하는 도면이다.
도 9에 도시된 예측 복호화부(930)는 도 6에 도시된 예측 복호화부(630)의 동작과 도 7에 도시된 예측 복호화부(730)의 동작을 함께 수행하기 위한 것으로서, 도 6에 도시된 예측 복호화부(630)의 동작과 도 7에 도시된 예측 복호화부(730)의 동작을 선택적으로 수행하기 위한 도 8에 도시된 예측 복호화부(830)와 구분될 수 있다.
앞서 도 6에 도시된 예측 복호화부(630)의 동작은 비트스트림이 상대적으로 낮은 비트레이트를 가지거나 오브젝트의 움직임이 빠를 때 효과적이고, 도 7에 도시된 예측 복호화부(730)의 동작은 비트스트림이 상대적으로 높은 비트레이트를 가지거나 오브젝트의 움직임이 느릴 때 효과적일 수 있다.
도 9에 도시된 예측 복호화부(930)는 도 6에 도시된 예측 복호화부(630)의 동작과 도 7에 도시된 예측 복호화부(730)의 동작을 함께 수행함으로써 다양한 비트레이트를 갖는 비트스트림 및 다양한 속도의 움직임을 갖는 영상들에 대해서도 효과적으로 동작할 수 있다.
도 9를 참조하면, 예측 복호화부(930)는 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 움직임 보상부(431), 가중치 적용부(439) 및 결합부(433)를 포함할 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 메모리에 저장될 수 있다. 일 실시예에서, 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
획득부(410)에 의해 출력된 현재 옵티컬 플로우의 특징 데이터는 옵티컬 플로우 디코더(330)로 입력될 수 있다.
옵티컬 플로우 디코더(330)는 훈련을 통해 설정된 파라미터에 따라 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우, 제 1 가중치 맵 및 제 2 가중치 맵을 획득할 수 있다.
제 1 가중치 맵 및 제 2 가중치 맵의 크기는 현재 예측 영상의 크기와 동일할 수 있다.
제 1 가중치 맵과 제 2 가중치 맵은 현재 예측 영상의 샘플 값들에 적용되는 가중치들을 포함할 수 있다.
제 1 가중치 맵은 도 6에 도시된 예측 복호화부(630)의 동작을 위해 현재 예측 영상에 적용되고, 제 2 가중치 맵은 도 7에 도시된 예측 복호화부(730)의 동작을 위해 현재 예측 영상에 적용될 수 있다.
현재 옵티컬 플로우는 움직임 보상부(431)로 제공될 수 있다.
움직임 보상부(431)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 영상과 유사한 현재 예측 영상을 생성할 수 있다.
움직임 보상부(431)는 현재 예측 영상의 생성을 위해 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑할 수 있다. 현재 예측 영상의 생성을 위한 워핑은 하나의 예시이고, 움직임 보상부(431)는 현재 영상과 유사한 현재 예측 영상을 생성하기 위해, 이전 복원 영상을 변경하는 다양한 영상 처리를 이전 복원 영상에 대해 적용할 수 있다.
움직임 보상부(431)에 의해 생성된 현재 예측 영상은 가중치 적용부(439)로 제공될 수 있다.
가중치 적용부(439)는 옵티컬 플로우 디코더(330)로부터 출력된 제 1 가중치 맵과 제 2 가중치 맵 각각을 현재 예측 영상에 적용할 수 있다.
일 실시예에서, 가중치 적용부(439)는 제 1 가중치 맵을 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하고, 제 2 가중치 맵을 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득할 수 있다.
예를 들어, 가중치 적용부(439)는 제 1 가중치 맵의 샘플 값들을 현재 예측 영상의 샘플 값들에 곱하여 제 1 변형된 예측 영상을 획득하고, 제 2 가중치 맵의 샘플 값들을 현재 예측 영상의 샘플 값들에 곱하여 제 2 변형된 예측 영상을 획득할 수 있다.
제 1 변형된 예측 영상은 예측 영상 인코더(350)로 제공되고, 제 2 변형된 예측 영상은 결합부(433)로 제공될 수 있다.
예측 영상 인코더(350)는 훈련을 통해 설정된 파라미터에 따라 제 1 변형된 예측 영상을 처리하여 제 1 변형된 예측 영상의 특징 데이터를 획득할 수 있다.
예측 영상 인코더(350)는 제 1 변형된 예측 영상의 도메인을 교정 데이터의 도메인에 일치시키고, 제 1 변형된 예측 영상 내 존재할 수 있는 아티팩트를 제거할 수 있다.
예측 영상 인코더(350)로부터 출력되는 제 1 변형된 예측 영상의 특징 데이터, 및 획득부(410)에 의해 출력되는 교정 데이터는 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 제 1 변형된 예측 영상의 특징 데이터와 교정 데이터는 연접되고, 연접된 결과가 영상 디코더(390)로 입력될 수 있다.
일 실시예에서, 제 1 변형된 예측 영상의 특징 데이터 및 교정 데이터뿐만 아니라 현재 옵티컬 플로우의 특징 데이터도 영상 디코더(390)로 입력될 수 있다.
영상 디코더(390)는 훈련을 통해 설정된 파라미터에 따라 제 1 변형된 예측 영상의 특징 데이터와 교정 데이터를 처리하여 교정 영상을 획득할 수 있다. 교정 영상은 결합부(433)로 제공될 수 있다.
결합부(433)는 교정 영상과 제 2 변형된 예측 영상을 결합하여 현재 복원 영상을 획득할 수 있다. 현재 복원 영상은 다음 영상의 복호화 과정에서 이용될 수 있다.
도 9에 도시된 예측 복호화부(930)에 따르면, 제 2 가중치 맵의 샘플 값들(즉, 가중치들)에 따라 현재 예측 영상의 샘플들과 교정 영상의 샘플들 사이의 결합 비율이 달라질 수 있다.
예를 들어, 옵티컬 플로우 디코더(330)는 현재 옵티컬 플로우 내 특정 위치의 샘플이 아티팩트에 해당한다면, 제 2 가중치 맵 내 대응 위치의 샘플 값을 0으로 출력할 수 있다. 이 경우, 제 2 변형된 예측 영상 내 대응 위치의 샘플 값 역시 0이 된다. 따라서, 현재 예측 영상 내 대응 위치의 샘플은 현재 복원 영상의 샘플에 영향을 미치지 않을 것이다. 다시 말하면, 현재 복원 영상 내 샘플 값은 교정 영상 내 샘플 값과 동일해질 수 있다.
또한, 옵티컬 플로우 디코더(330)는 현재 옵티컬 플로우 내 특정 위치의 샘플이 아티팩트에 해당하지 않는다면, 제 2 가중치 맵 내 대응 위치의 샘플 값을 1보다 큰 값으로 출력할 수 있다. 이 경우, 제 2 변형된 예측 영상 내 대응 위치의 샘플 값은 현재 예측 영상 내 대응 위치의 샘플 값보다 커지게 된다. 따라서, 현재 예측 영상 내 대응 위치의 샘플은 현재 복원 영상의 샘플에 큰 영향을 미칠 수 있다.
즉, 도 9에 도시된 예측 복호화부(930)에 따르면, 현재 복원 영상의 샘플별로 제 2 변형된 예측 영상의 샘플의 영향력(또는 기여도)과 제 1 변형된 예측 영상의 샘플의 영향력의 조절이 가능하므로, 보다 높은 퀄리티의 현재 복원 영상이 획득될 수 있다.
도 10은 일 실시예에 따른 예측 복호화부(1030)의 구성을 도시하는 도면이다.
도 9에 도시된 예측 복호화부(930)에서는 제 1 가중치 맵과 제 2 가중치 맵이 옵티컬 플로우 디코더(330)로부터 출력되지만, 도 10에 도시된 예측 복호화부(1030)에서는 현재 옵티컬 플로우의 특징 데이터를 입력받는 별도의 가중치 디코더(335)로부터 제 1 가중치 맵과 제 2 가중치 맵이 출력될 수 있다.
가중치 디코더(335)는 현재 옵티컬 플로우의 특징 데이터를 미리 훈련을 통해 설정된 파라미터에 따라 처리하여 제 1 가중치 맵과 제 2 가중치 맵을 출력할 수 있다.
제 1 가중치 맵과 제 2 가중치 맵을 출력하는 가중치 디코더(335)를 제외하고 도 10에 도시된 예측 복호화부(1030)의 동작은 도 9에 도시된 예측 복호화부(930)의 동작과 동일한 바, 상세한 설명은 생략한다.
도 11은 일 실시예에 따른 예측 복호화부(1130)의 구성을 도시하는 도면이다.
도 9에 도시된 예측 복호화부(930)에서는 제 1 가중치 맵과 제 2 가중치 맵이 옵티컬 플로우 디코더(330)로부터 출력되지만, 도 11에 도시된 예측 복호화부(1130)에서는 가중치 맵의 특징 데이터를 입력받는 가중치 디코더(335)에 의해 제 1 가중치 맵과 제 2 가중치 맵이 획득될 수 있다.
가중치 맵의 특징 데이터는 영상 부호화 장치(1300)로부터 생성되어 비트스트림에 포함될 수 있다. 획득부(410)는 비트스트림으로부터 가중치 맵의 특징 데이터를 획득하여 가중치 디코더(335)로 제공할 수 있다.
가중치 디코더(335)는 훈련을 통해 설정된 파라미터에 따라 가중치 맵의 특징 데이터를 처리하여 제 1 가중치 맵과 제 2 가중치 맵을 출력할 수 있다.
제 1 가중치 맵과 제 2 가중치 맵을 출력하는 가중치 디코더(335)를 제외하고 도 11에 도시된 예측 복호화부(1130)의 동작은 도 9에 도시된 예측 복호화부(930)의 동작과 동일한 바, 상세한 설명은 생략한다.
도 12는 일 실시예에 따른 영상 복호화 장치(400)에 의한 영상 복호화 방법의 순서도이다.
S1210 단계에서, 영상 복호화 장치(400)는 비트스트림으로부터 현재 옵티컬 플로우 및 교정 데이터를 획득한다.
영상 복호화 장치(400)는 비트스트림으로부터 현재 옵티컬 플로우의 특징 데이터를 획득하고, 현재 옵티컬 플로우의 특징 데이터를 옵티컬 플로우 디코더(330)에 적용하여 현재 옵티컬 플로우를 획득할 수 있다.
일 실시예에서, 영상 복호화 장치(400)는 비트스트림에 포함된 비트들에 대해 엔트로피 복호화, 역양자화 및/또는 역변환을 수행하여 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 획득할 수 있다.
일 실시예에서, 영상 복호화 장치(400)는 비트스트림으로부터 가중치 맵의 특징 데이터를 더 획득할 수 있다.
S1220 단계에서, 영상 복호화 장치(400)는 현재 옵티컬 플로우에 기초하여 이전 복원 영상으로부터 현재 예측 영상을 획득한다. 현재 예측 영상을 획득하는 데 워핑이 이용될 수 있다.
S1230 단계에서, 영상 복호화 장치(400)는 현재 예측 영상을 예측 영상 인코더(350)에 적용하여 현재 예측 영상의 특징 데이터를 획득한다.
일 실시예에서, 영상 복호화 장치(400)는 제 1 가중치 맵을 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하고, 제 1 변형된 예측 영상을 예측 영상 인코더(350)에 적용하여 제 1 변형된 예측 영상의 특징 데이터를 획득할 수도 있다.
S1240 단계에서, 영상 복호화 장치(400)는 현재 예측 영상의 특징 데이터와 교정 데이터를 영상 디코더(390)에 적용하여 현재 복원 영상을 획득한다.
일 실시예에서, 영상 복호화 장치(400)는 현재 예측 영상의 특징 데이터, 교정 데이터 및 현재 옵티컬 플로우의 특징 데이터를 영상 디코더(390)에 적용할 수도 있다.
일 실시예에서, 영상 복호화 장치(400)는 제 1 변형된 예측 영상의 특징 데이터와 교정 데이터를 영상 디코더(390)에 적용하여 교정 영상을 획득할 수 있다. 이 경우, 영상 복호화 장치(400)는 제 2 가중치 맵을 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하고, 교정 영상과 제 2 변형된 예측 영상을 결합하여 현재 복원 영상을 획득할 수 있다.
도 12를 참조하여 설명한 실시예는 앞서 도 6, 도 8, 도 9, 도 10 및 도 11에 도시된 예측 복호화부(630, 830, 930, 1030, 1130)를 포함하는 영상 복호화 장치(400)에 의해 수행될 수 있다. 도 8에 도시된 예측 복호화부(830)를 포함하는 영상 복호화 장치(400)는 움직임 보상부(431)의 출력이 예측 영상 인코더(350)로 전달되는 경우에 도 12에 도시된 과정들을 수행할 수 있다.
도 7에 도시된 예측 복호화부(730) 또는 도 8에 도시된 예측 복호화부(830)(움직임 보상부(431)의 출력이 결합부(433)로 전달되는 경우)를 포함하는 영상 복호화 장치(400)는 교정 데이터에 기반하여 영상 디코더(390)로부터 획득되는 교정 영상과 현재 예측 영상을 결합하여 현재 복원 영상을 획득할 수 있다.
이하에서는, 도 13 내지 도 20을 참조하여 영상 부호화 장치(1300)의 동작에 대해 설명한다.
도 13은 일 실시예에 따른 영상 부호화 장치(1300)의 구성을 도시하는 도면이다.
도 13을 참조하면, 영상 부호화 장치(1300)는 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)를 포함할 수 있다.
예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 프로세서로 구현될 수 있다. 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 메모리(미도시)에 저장된 인스트럭션에 따라 동작할 수 있다.
도 13은 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)를 개별적으로 도시하고 있으나, 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 예측 부호화부(1310), 생성부(1320), 획득부(1330) 및 예측 복호화부(1340)는 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
예측 부호화부(1310)는 현재 영상과 이전 복원 영상을 이용하여 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 획득할 수 있다.
예측 부호화부(1310)는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터의 획득을 위해 신경망 기반의 옵티컬 플로우 인코더(310)와 영상 인코더(370)를 이용할 수 있다. 예측 부호화부(1310)의 동작에 대해서는 도 14 내지 도 19를 참조하여 상세히 설명한다.
예측 부호화부(1310)에 의해 획득된 현재 옵티컬 플로우의 특징 데이터와 교정 데이터는 생성부(1320)로 전달될 수 있다.
생성부(1320)는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 포함하는 비트스트림을 생성할 수 있다.
일 실시예에서, 생성부(1320)는 현재 옵티컬 플로우의 특징 데이터에 대응하는 제 1 비트스트림, 및 교정 데이터에 대응하는 제 2 비트스트림을 생성할 수도 있다.
비트스트림은 네트워크를 통해 영상 복호화 장치(400)로부터 전송될 수 있다. 또한, 일 실시예에서, 비트스트림은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 기록될 수도 있다.
획득부(1330)는 생성부(1320)에 의해 생성된 비트스트림으로부터 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 획득할 수 있다.
일 실시예에서, 획득부(1330)는 예측 부호화부(1310)로부터 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 수신할 수도 있다.
현재 옵티컬 플로우의 특징 데이터와 교정 데이터는 예측 복호화부(1340)로 전달될 수 있다.
예측 복호화부(1340)는 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 이용하여 현재 복원 영상을 획득할 수 있다.
예측 복호화부(1340)에 의해 획득된 현재 복원 영상은 다음 영상의 부호화 과정에서 이용될 수 있다.
획득부(1330) 및 예측 복호화부(1340)의 구성 및 동작은 영상 복호화 장치(400)의 획득부(410) 및 예측 복호화부(430)와 동일할 수 있다.
예를 들어, 획득부(1330)의 구성 및 동작은 도 5에 도시된 획득부(410)와 동일하고, 예측 복호화부(1340)의 구성 및 동작은 앞서 도 6 내지 도 11에 도시된 예측 복호화부(630, 730, 830, 930, 1030, 1130)들 중 어느 하나와 동일할 수 있다.
도 14는 일 실시예에 따른 예측 부호화부(1410)의 구성을 도시하는 도면이다.
예측 부호화부(1410)는 옵티컬 플로우 인코더(310) 및 영상 인코더(370)를 포함할 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 메모리에 저장될 수 있다. 옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
도 14를 참조하면, 현재 영상 및 이전 복원 영상은 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 이전 복원 영상을 처리하여 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다. 현재 옵티컬 플로우의 특징 데이터는 생성부(1320)로 전달될 수 있다.
현재 옵티컬 플로우에 기초하여 이전 복원 영상으로부터 생성된 현재 예측 영상은 현재 영상과 함께 영상 인코더(370)로 입력될 수 있다. 일 실시예에서, 현재 예측 영상과 현재 영상의 연접된 결과가 영상 인코더(370)로 입력될 수 있다.
영상 인코더(370)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 현재 예측 영상을 처리하여 교정 데이터를 획득할 수 있다. 교정 데이터는 생성부(1320)로 전달될 수 있다.
앞서 설명한 바와 같이, 아티팩트를 포함하는 현재 예측 영상뿐만 아니라 아티팩트를 포함하지 않는 현재 영상이 함께 영상 인코더(370)로 입력되므로, 교정 데이터를 생성하는데 현재 예측 영상 내 아티팩트는 고려되지 않을 수 있다.
도 14에 도시된 예측 부호화부(1410)는 도 3에 도시된 영상의 부호화 과정을 수행하기 위한 것일 수 있다.
도 15는 일 실시예에 따른 예측 부호화부(1510)의 구성을 도시하는 도면이다.
예측 부호화부(1510)는 옵티컬 플로우 인코더(310), 영상 인코더(370) 및 차감부(1311)를 포함할 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 메모리에 저장될 수 있다. 옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
도 15를 참조하면, 현재 영상 및 이전 복원 영상은 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 이전 복원 영상을 처리하여 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다. 현재 옵티컬 플로우의 특징 데이터는 생성부(1320)로 전달될 수 있다.
현재 옵티컬 플로우에 기초하여 이전 복원 영상으로부터 생성된 현재 예측 영상은 현재 영상과 함께 차감부(1311)로 입력될 수 있다.
차감부(1311)는 현재 영상과 현재 예측 영상을 이용하여 잔차 영상을 획득할 수 있다. 일 실시예에서, 차감부(1311)는 현재 영상의 샘플 값들과 현재 예측 영상의 샘플 값들의 차이 값들을 포함하는 잔차 영상을 획득할 수 있다.
잔차 영상은 영상 인코더(370)로 입력되고, 영상 인코더(370)는 훈련을 통해 설정된 파라미터에 따라 잔차 영상을 처리하여 교정 데이터를 획득할 수 있다. 교정 데이터는 생성부(1320)로 전달될 수 있다.
도 15에 도시된 예측 부호화부(1510)는 도 1에 도시된 영상의 부호화 과정을 수행하기 위한 것으로서, 영상 복호화 장치(400)가 도 6에 도시된 예측 복호화부(630)를 포함하는 경우에 유용할 수 있다.
구체적으로, 도 15에 도시된 예측 부호화부(1510)를 포함하는 영상 부호화 장치(1300)가 잔차 영상 내 아티팩트를 제거하지 못하더라도 도 6에 도시된 예측 복호화부(630)를 포함하는 영상 복호화 장치(400)는 예측 영상 인코더(350)를 이용하여 아티팩트가 제거된 현재 예측 영상의 특징 데이터를 획득할 수 있고, 아티팩트가 제거된 현재 예측 영상을 이용하여 높은 퀄리티의 현재 복원 영상을 획득할 수 있기 때문이다.
도 16은 일 실시예에 따른 예측 부호화부(1610)의 구성을 도시하는 도면이다.
도 16에 도시된 예측 부호화부(1610)는 도 14에 도시된 예측 부호화부(1410)의 동작과 도 15에 도시된 예측 부호화부(1510)의 동작을 선택적으로 수행하기 위한 것으로서, 예를 들어, 부호화 모드 결정부(1315)에 의해 선택된 부호화 모드에 따라 도 14에 도시된 예측 부호화부(1410)의 동작 또는 도 15에 도시된 예측 부호화부(1510)의 동작이 수행될 수 있다.
도 16을 참조하면, 예측 부호화부(1610)는 옵티컬 플로우 인코더(310), 영상 인코더(370), 차감부(1311), 부호화 모드 결정부(1315) 및 스위치(1313)를 포함할 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 메모리에 저장될 수 있다. 일 실시예에서, 옵티컬 플로우 인코더(310) 및 영상 인코더(370)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
부호화 모드 결정부(1315)는 현재 영상을 부호화하기 위한 부호화 모드를 제 1 모드 및 제 2 모드 중 어느 하나로 결정할 수 있다. 예를 들어, 제 1 모드는 도 14에 도시된 예측 부호화부(1410)의 동작을 수행하는 모드이고, 제 2 모드는 도 15에 도시된 예측 부호화부(1510)의 동작을 수행하는 모드일 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 영상 시퀀스(또는 픽처 시퀀스), GOP(group of pictures) 또는 영상마다 부호화 모드를 결정할 수 있다.
예를 들어, 부호화 모드 결정부(1315)는 제 1 영상 시퀀스(또는 제 1 GOP 또는 제 1 영상)를 위해 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 선택하고, 선택된 부호화 모드에 따라 제 1 영상 시퀀스(또는 제 1 GOP 또는 제 1 영상)에 포함된 영상들을 부호화할 수 있다.
그리고, 부호화 모드 결정부(1315)는 제 1 영상 시퀀스(또는 제 1 GOP 또는 제 1 영상) 다음의 제 2 영상 시퀀스(또는 제 2 GOP 또는 제 2 영상)를 위해 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 선택하고, 선택된 부호화 모드에 따라 제 2 영상 시퀀스(또는 제 2 GOP 또는 제 2 영상)에 포함된 영상들을 부호화할 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 제 1 모드에 따라 생성된 비트스트림의 비트레이트와 제 2 모드에 따라 생성된 비트스트림의 비트레이트에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 결정할 수도 있다. 예를 들어, 부호화 모드 결정부(1315)는 제 1 모드와 제 2 모드 중 더 낮은 비트레이트의 비트스트림을 생성할 수 있는 모드를 부호화 모드로 결정할 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 제 1 모드에 따라 영상, 영상 시퀀스에 포함된 영상들 또는 GOP에 포함된 영상들을 부호화하였을 때의 율-왜곡 값과 제 2 모드에 따라 영상, 영상 시퀀스에 포함된 영상들 또는 GOP에 포함된 영상들을 부호화하였을 때의 율-왜곡 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 결정할 수도 있다. 예를 들어, 부호화 모드 결정부(1315)는 제 1 모드와 제 2 모드 중 더 낮은 율-왜곡 값이 도출되는 모드를 부호화 모드로 결정할 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 율-왜곡 값을 산출하는데 이용되는 가중치와 미리 결정된 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 결정할 수도 있다. 율-왜곡 값을 산출하는데 이용되는 가중치는 부호화 모드 결정부(1315)에 의해 미리 설정될 수 있다.
예를 들어, 부호화 모드 결정부(1315)는 율-왜곡 값을 산출하는데 이용되는 가중치가 미리 결정된 값 이상이면 부호화 모드를 제 1 모드(예를 들어, 도 14에 도시된 예측 부호화부(1410)의 동작을 수행하는 부호화 모드)로 결정하고, 율-왜곡 값을 산출하는데 이용되는 가중치가 미리 결정된 값보다 작으면 부호화 모드를 제 2 모드(예를 들어, 도 15에 도시된 예측 부호화부(1510)의 동작을 수행하는 복호화 모드)로 결정할 수 있다. 율-왜곡 값을 산출하는데 이용되는 가중치는 생성부(1320)를 통해 비트스트림에 포함될 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 양자화 파라미터와 미리 결정된 값의 비교 결과에 기초하여 제 1 모드와 제 2 모드 중 어느 하나를 부호화 모드로 결정할 수도 있다.
예를 들어, 부호화 모드 결정부(1315)는 양자화 파라미터가 미리 결정된 값 이상이면 부호화 모드를 제 1 모드(예를 들어, 도 14에 도시된 예측 부호화부(1410)의 동작을 수행하는 부호화 모드)로 결정하고, 양자화 파라미터가 미리 결정된 값보다 작으면 부호화 모드를 제 2 모드(예를 들어, 도 15에 도시된 예측 부호화부(1510)의 동작을 수행하는 복호화 모드)로 결정할 수 있다. 양자화 파라미터는 비트스트림에 포함될 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 제 1 모드와 제 2 모드 중에서 선택된 부호화 모드를 가리키는 정보를 생성부(1320)로 전달할 수 있고, 생성부(1320)는 해당 정보를 비트스트림에 포함시킬 수 있다. 현재 영상을 부호화하기 위한 부호화 모드를 가리키는 정보는 플래그 또는 인덱스를 포함할 수 있다.
일 실시예에서, 부호화 모드 결정부(1315)는 부호화 모드가 제 1 모드로 결정되면, 현재 예측 영상이 영상 인코더(370)로 입력되도록 스위치(1313)를 제어할 수 있다. 또한, 부호화 모드 결정부(1315)는 부호화 모드가 제 2 모드로 결정되면, 현재 예측 영상이 차감부(1311)로 입력되도록 스위치(1313)를 제어할 수 있다.
현재 영상 및 이전 복원 영상은 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 이전 복원 영상을 처리하여 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다. 현재 옵티컬 플로우의 특징 데이터는 생성부(1320)로 전달될 수 있다.
현재 옵티컬 플로우에 기초하여 이전 복원 영상으로부터 생성된 현재 예측 영상은 차감부(1311) 또는 영상 인코더(370)로 입력될 수 있다.
차감부(1311)는 현재 영상과 현재 예측 영상을 이용하여 잔차 영상을 획득할 수 있다. 일 실시예에서, 차감부(1311)는 현재 영상의 샘플 값들과 현재 예측 영상의 샘플 값들의 차이 값들을 포함하는 잔차 영상을 획득할 수 있다.
잔차 영상은 영상 인코더(370)로 입력되고, 영상 인코더(370)는 훈련을 통해 설정된 파라미터에 따라 잔차 영상을 처리하여 교정 데이터를 획득할 수 있다. 교정 데이터는 생성부(1320)로 전달될 수 있다.
현재 예측 영상이 영상 인코더(370)로 입력된 경우, 차감부(1311)에는 현재 영상만이 입력되므로, 현재 영상이 그대로 차감부(1311)로터 영상 인코더(370)로 전달될 수 있다.
영상 인코더(370)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 현재 예측 영상을 처리하여 교정 데이터를 획득할 수 있다. 교정 데이터는 생성부(1320)로 전달될 수 있다.
도 17은 일 실시예에 따른 예측 부호화부(1710)의 구성을 도시하는 도면이다.
도 17에 도시된 예측 부호화부(1710)는 도 14에 도시된 예측 부호화부(1410)의 동작과 도 15에 도시된 예측 부호화부(1510)의 동작을 함께 수행하기 위한 것으로서, 도 14에 도시된 예측 부호화부(1410)의 동작과 도 15에 도시된 예측 부호화부(1510)의 동작을 선택적으로 수행하기 위한 도 16에 도시된 예측 부호화부(1610)와 구분될 수 있다.
도 17을 참조하면, 현재 영상 및 이전 복원 영상은 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 이전 복원 영상을 처리하여 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다. 현재 옵티컬 플로우의 특징 데이터는 생성부(1320)로 전달될 수 있다.
현재 옵티컬 플로우에 기초하여 이전 복원 영상으로부터 현재 예측 영상이 생성될 수 있다. 현재 예측 영상에 대해 제 1 가중치 맵이 적용되어 제 1 변형된 예측 영상이 획득되고, 현재 예측 영상에 대해 제 2 가중치 맵이 적용되어 제 2 변형된 예측 영상이 획득될 수 있다. 제 1 가중치 맵과 제 2 가중치 맵은 예측 복호화부(1340)에 의해 획득될 수 있다.
일 실시예에서, 예측 부호화부(1710)는 도 9에 도시된 예측 복호화부(930) 또는 도 10에 도시된 예측 복호화부(1030)와 동일한 구성을 갖는 예측 복호화부(1340)로부터 제 1 변형된 예측 영상과 제 2 변형된 예측 영상을 획득할 수 있다.
제 1 변형된 예측 영상은 영상 인코더(370)로 입력되고, 제 2 변형된 예측 영상은 차감부(1311)로 입력될 수 있다.
차감부(1311)는 현재 영상과 제 2 변형된 예측 영상을 이용하여 잔차 영상을 획득할 수 있다.
일 실시예에서, 차감부(1311)는 현재 영상의 샘플 값들과 제 2 변형된 예측 영상의 샘플 값들 사이의 차이 값들을 포함하는 잔차 영상을 획득할 수 있다. 잔차 영상은 영상 인코더(370)로 입력될 수 있다.
도 9 및 도 10에 도시된 예측 복호화부(930, 1030)가 제 2 변형된 예측 영상과 교정 영상을 결합하는 것에 대응하여 차감부(1311)는 현재 영상과 제 2 변형된 예측 영상으로부터 잔차 영상을 획득할 수 있다.
영상 인코더(370)는 훈련을 통해 설정된 파라미터에 따라 잔차 영상과 제 1 변형된 예측 영상을 처리하여 교정 데이터를 획득할 수 있다. 교정 데이터는 생성부(1320)로 전달될 수 있다.
도 18은 일 실시예에 따른 예측 부호화부(1810)의 구성을 도시하는 도면이다.
도 18에 도시된 예측 부호화부(1810)는 도 11에 도시된 예측 복호화부(1130)의 페어일 수 있다.
예측 부호화부(1810)는 가중치 맵의 특징 데이터를 생성하기 위해 가중치 인코더(305)를 포함할 수 있다.
가중치 인코더(305)는 하나 이상의 레이어(예를 들어, 컨볼루션 레이어)를 포함하는 신경망으로 구현될 수 있다.
가중치 인코더(305)는 메모리에 저장될 수 있다. 일 실시예에서, 가중치 인코더(305)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.
가중치 인코더(305)는 훈련을 통해 설정된 파라미터에 따라 현재 영상과 이전 복원 영상을 처리하여 가중치 맵의 특징 데이터를 출력할 수 있다. 가중치 맵의 특징 데이터는 생성부(1320)를 통해 비트스트림에 포함될 수 있다.
전술한 바와 같이, 예측 복호화부(1130)는 가중치 맵의 특징 데이터를 가중치 디코더(335)에 적용하여 제 1 가중치 맵과 제 2 가중치 맵을 획득할 수 있다.
가중치 인코더(305)를 제외하고 도 18에 도시된 예측 부호화부(1810)의 구성들의 동작은 도 17에 도시된 예측 부호화부(1710)의 구성들의 동작과 동일하므로, 상세한 설명은 생략한다.
도 19는 일 실시예에 따른 예측 부호화부(1910)의 구성을 도시하는 도면이다.
도 19에 도시된 예측 부호화부(1910)는 옵티컬 플로우 인코더(310), 영상 인코더(370) 및 예측 영상 인코더(350)를 포함할 수 있다.
앞서 도 6, 도 8, 도 9, 도 10 및 도 11에 도시된 예측 복호화부(630, 830, 930, 1030, 1130)에 포함된 예측 영상 인코더(350)가 예측 부호화부(1910)에 포함됨에 따라 일 실시예에 따른 영상 복호화 장치(400)의 예측 복호화부(430)는 영상 디코더(390)만을 포함할 수 있다. 다시 말하면, 옵티컬 플로우 디코더(330), 움직임 보상부(431), 예측 영상 인코더(350) 등은 예측 복호화부(430)에 포함되지 않을 수 있다.
도 19를 참조하면, 현재 영상과 이전 복원 영상이 옵티컬 플로우 인코더(310)에 의해 처리됨에 따라 현재 옵티컬 플로우의 특징 데이터가 획득될 수 있다. 현재 옵티컬 플로우의 특징 데이터는 현재 예측 영상을 생성하는데 이용될 수 있다.
현재 영상과 현재 예측 영상이 영상 인코더(370)에 의해 처리됨에 따라 교정 데이터가 획득될 수 있다.
현재 예측 영상이 영상 인코더(370)로 입력되는 것과 별개로 현재 예측 영상은 예측 영상 인코더(350)로 입력될 수 있고, 예측 영상 인코더(350)는 현재 예측 영상을 처리하여 현재 예측 영상의 특징 데이터를 획득할 수 있다.
현재 예측 영상의 특징 데이터와 교정 데이터는 생성부(1320)로 전달될 수 있다. 생성부(1320)는 교정 데이터와 현재 예측 영상의 특징 데이터를 포함하는 비트스트림을 생성할 수 있다.
일 실시예에서, 현재 옵티컬 플로우의 특징 데이터는 비트스트림에 포함되지 않을 수 있다. 영상 복호화 장치(400)의 예측 복호화부(430)는 비트스트림으로부터 획득되는 교정 데이터와 현재 예측 영상의 특징 데이터를 영상 디코더(390)에 입력하여 현재 복원 영상을 획득할 수 있다.
도 20은 일 실시예에 따른 생성부(1320)의 구성을 도시하는 도면이다.
도 20을 참조하면, 생성부(1320)는 양자화부(1321) 및 엔트로피 부호화부(1323)를 포함할 수 있다.
양자화부(1321)는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 양자화할 수 있다.
엔트로피 부호화부(1323)는 현재 옵티컬 플로우의 양자화된 특징 데이터와 양자화된 교정 데이터를 엔트로피 코딩하여 비트스트림을 생성할 수 있다.
일 실시예에서, 생성부(1320)는 변환부를 더 포함할 수 있다. 변환부는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 공간 도메인에서 주파수 도메인으로 변환하여 양자화부(1321)로 제공할 수 있다.
일 실시예에서, 생성부(1320)는 양자화부(1321)를 포함하지 않을 수도 있다. 즉, 엔트로피 부호화부(1323)에 의한 처리를 통해 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 포함하는 비트스트림이 획득될 수 있다.
또한, 일 실시예에서, 생성부(1320)는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터에 대해 이진화를 수행하여 비트스트림을 생성할 수도 있다. 즉, 생성부(1320)가 이진화만을 수행하는 경우, 양자화부(1321), 엔트로피 부호화부(1323)는 생성부(1320)에 포함되지 않을 수 있다.
도 21은 일 실시예에 따른 영상 부호화 장치(1300)에 의한 영상 부호화 방법의 순서도이다.
S2110 단계에서, 영상 부호화 장치(1300)는 현재 영상 및 이전 복원 영상을 이용하여 현재 옵티컬 플로우를 획득한다.
일 실시예에서, 영상 부호화 장치(1300)는 현재 영상 및 이전 복원 영상을 옵티컬 플로우 인코더(310)에 적용하여 현재 옵티컬 플로우의 특징 데이터를 획득하고, 현재 옵티컬 플로우의 특징 데이터를 옵티컬 플로우 디코더(330)에 적용하여 현재 옵티컬 플로우를 획득할 수 있다.
S2120 단계에서, 영상 부호화 장치(1300)는 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 현재 예측 영상을 생성한다. 현재 예측 영상을 생성하는데 워핑이 이용될 수 있다.
S2130 단계에서, 영상 부호화 장치(1300)는 현재 영상과 현재 예측 영상을 영상 인코더(370)에 적용하여 교정 데이터를 획득한다.
일 실시예에서, 영상 부호화 장치(1300)는 제 1 가중치 맵과 제 2 가중치 맵 중 제 2 가중치 맵을 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하고, 현재 영상과 제 2 변형된 예측 영상을 이용하여 잔차 영상을 획득할 수 있다. 그리고, 영상 부호화 장치(1300)는 제 1 가중치 맵을 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하고, 제 1 변형된 예측 영상과 잔차 영상을 영상 인코더(370)에 적용하여 교정 데이터를 획득할 수 있다.
S2140 단계에서, 영상 부호화 장치(1300)는 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터를 포함하는 비트스트림을 생성한다.
일 실시예에서, 영상 부호화 장치(1300)는 비트스트림의 생성을 위해 현재 옵티컬 플로우의 특징 데이터 및 교정 데이터에 대해 변환, 양자화 및 엔트로피 부호화 중 적어도 하나를 수행할 수 있다.
일 실시예에서, 영상 부호화 장치(1300)는 현재 영상과 이전 복원 영상을 가중치 인코더(305)에 적용하여 가중치 맵의 특징 데이터를 획득하고, 가중치 맵의 특징 데이터를 비트스트림에 포함시킬 수 있다.
도 21을 참조하여 설명한 과정들은 도 14, 도 16, 도 17, 도 18 및 도 19 에 도시된 예측 부호화부(1410, 1610, 1710, 1810, 1910)를 포함하는 영상 부호화 장치(1300)에 의해 수행될 수 있다. 도 16에 도시된 예측 부호화부(1610)를 포함하는 영상 부호화 장치(1300)는 현재 예측 영상이 영상 인코더(370)로 입력되는 경우에 도 21을 참조하여 설명한 과정들을 수행할 수 있다.
도 15에 도시된 예측 부호화부(1510) 또는 도 16에 도시된 예측 부호화부(1610)(현재 예측 영상이 차감부(1311)로 입력되는 경우)를 포함하는 영상 부호화 장치(1300)는 현재 영상과 현재 예측 영상을 이용하여 잔차 영상을 획득하고, 잔차 영상을 영상 인코더(370)에 적용하여 교정 데이터를 획득할 수 있다.
앞서 도 6 내지 도 11을 참조하여 일 실시예에 따른 예측 복호화부(430)의 구성 및 동작에 대해 설명하였고, 도 14 내지 도 19를 참조하여 일 실시예에 따른 예측 부호화부(1310)의 구성 및 동작에 대해 설명하였다.
일 실시예에서, 영상 복호화 장치(400)가 도 6 내지 도 10에 도시된 예측 복호화부들(630, 730, 830, 930, 1030) 중 어느 하나를 포함하는 경우, 영상 부호화 장치(1300)는 도 14 내지 도 17에 도시된 예측 부호화부들(1410, 1510, 1610, 1710) 중 어느 하나를 포함할 수 있다. 왜냐하면, 도 6 내지 도 10에 도시된 예측 복호화부들(630, 730, 830, 930, 1030)이 현재 영상을 복원하는데 필요로 하는 정보는 현재 옵티컬 플로우의 특징 데이터와 교정 데이터인데, 도 14 내지 도 17에 도시된 예측 부호화부들(1410, 1510, 1610, 1710)이 현재 옵티컬 플로우의 특징 데이터와 교정 데이터를 출력하기 때문이다.
일 실시예에서, 영상 복호화 장치(400)가 제 1 변형된 예측 영상과 제 2 변형된 예측 영상을 이용하는 도 9에 도시된 예측 복호화부(930) 또는 도 10에 도시된 예측 복호화부(1030)를 포함하는 경우, 영상 부호화 장치(1300)는 제 1 변형된 예측 영상과 제 2 변형된 예측 영상을 이용하는 도 17에 도시된 예측 부호화부(1710)를 포함할 수 있다.
일 실시예에서, 영상 복호화 장치(400)가 도 11에 도시된 예측 복호화부(1130)를 포함하는 경우, 영상 부호화 장치(1300)는 도 18에 도시된 예측 부호화부(1810)를 포함할 수 있다. 왜냐하면, 도 11에 도시된 예측 복호화부(1130)가 필요로 하는 가중치 맵의 특징 데이터가 도 18에 도시된 예측 부호화부(1810)에 의해 출력되기 때문이다.
일 실시예에서, 영상 부호화 장치(1300)가 도 19에 도시된 예측 부호화부(1910)를 포함하는 경우, 영상 복호화 장치(400)는 영상 디코더(390)만을 포함하는 예측 복호화부(430)를 포함할 수 있다.
한편, 전술한, 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 가중치 인코더(305) 또는 가중치 디코더(335) 중 적어도 하나는 컨볼루션 레이어를 포함할 수 있다.
옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 가중치 인코더(305) 또는 가중치 디코더(335) 중 적어도 하나가 가질 수 있는 구조에 대해 도 22를 참조하여 설명한다.
도 22는 일 실시예에 따른 신경망(2200)의 구조를 예시하는 도면이다.
도 22에 도시된 바와 같이, 입력 데이터(2205)는 제 1 컨볼루션 레이어(2210)로 입력된다. 여기서, 입력 데이터(2205)는 신경망(2200)이 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 가중치 인코더(305) 및 가중치 디코더(335) 중 어느 것인지 따라 달라진다.
일 실시예에서, 신경망(2200)이 옵티컬 플로우 인코더(310)인 경우, 입력 데이터(2205)는 현재 영상과 이전 복원 영상이고, 신경망(2200)이 예측 영상 인코더(350)인 경우, 입력 데이터(2205)는 현재 예측 영상 또는 제 1 변형된 예측 영상일 수 있다.
도 22에 도시된 제 1 컨볼루션 레이어(2210)에 표시된 3X3X4는 3x3의 크기의 4개의 필터 커널을 이용하여 1개의 입력 데이터(2205)에 대해 컨볼루션 처리를 하는 것을 예시한다. 컨볼루션 처리 결과 4개의 필터 커널에 의해 4개의 특징 맵이 생성된다.
제 1 컨볼루션 레이어(2210)에 의해 생성된 특징 맵들은 입력 데이터(2205)의 고유한 특성들을 나타낸다. 예를 들어, 각 특징 맵은 입력 데이터(2205)의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.
도 23을 참조하여, 제 1 컨볼루션 레이어(2210)에서의 컨볼루션 연산에 대해 상세히 설명한다.
제 1 컨볼루션 레이어(2210)에서 이용되는 3X3의 크기를 갖는 필터 커널(2330)의 파라미터들과 그에 대응하는 입력 데이터(2205) 내 샘플 값들 사이의 곱 연산 및 덧셈 연산을 통해 하나의 특징 맵(2350)이 생성될 수 있다. 제 1 컨볼루션 레이어(2210)에서는 4개의 필터 커널(2330)이 이용되므로, 4개의 필터 커널(2330)을 이용한 컨볼루션 연산 과정을 통해 4개의 특징 맵(2350)이 생성될 수 있다.
도 23에서 입력 데이터(2205)에 표시된 I1 내지 I49는 입력 데이터(2205)의 샘플들을 나타내고, 필터 커널(2330)에 표시된 F1 내지 F9는 필터 커널(2330)의 샘플(파라미터로 참조될 수도 있다)들을 나타낸다. 또한, 특징 맵(2350)에 표시된 M1 내지 M9는 특징 맵(2350)의 샘플들을 나타낸다.
컨볼루션 연산 과정에서, 입력 데이터(2205)의 I1, I2, I3, I8, I9, I10, I15, I16, I17의 샘플 값들 각각과 필터 커널(2330)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합(예를 들어, 덧셈 연산)한 값이 특징 맵(2350)의 M1의 값으로 할당될 수 있다. 컨볼루션 연산의 스트라이드(stride)가 2라면, 입력 데이터(2205)의 I3, I4, I5, I10, I11, I12, I17, I18, I19의 샘플 값들 각각과 필터 커널(2330)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합한 값이 특징 맵(2350)의 M2의 값으로 할당될 수 있다.
필터 커널(2330)이 입력 데이터(2205)의 마지막 샘플에 도달할 때까지 스트라이드에 따라 이동하는 동안 입력 데이터(2205) 내 샘플 값들과 필터 커널(2330)의 샘플들 사이의 컨볼루션 연산이 수행됨으로써, 소정 크기를 갖는 특징 맵(2350)이 획득될 수 있다.
본 개시에 따르면, 신경망(2200)에 대한 훈련을 통해 신경망(2200)의 파라미터들, 예를 들어, 신경망(2200)의 컨볼루션 레이어들에서 이용되는 필터 커널(2330)의 샘플들(예를 들어, 필터 커널(2330)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9)의 값이 최적화될 수 있다.
신경망(2200)에 포함된 컨볼루션 레이어들은 도 23과 관련하여 설명한 컨볼루션 연산 과정에 따른 처리를 할 수 있으나, 도 23에서 설명한 컨볼루션 연산 과정은 하나의 예시일 뿐이며, 이에 한정되는 것은 아니다.
다시 도 22를 참조하면, 제 1 컨볼루션 레이어(2210)의 특징 맵들은 제 1 활성화 레이어(2220)로 입력된다.
제 1 활성화 레이어(2220)는 각각의 특징 맵에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 제 1 활성화 레이어(2220)는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
제 1 활성화 레이어(2220)에서 비선형 특성을 부여하는 것은, 특징 맵들의 일부 샘플 값을 변경하여 출력하는 것을 의미한다. 이때, 변경은 비선형 특성을 적용하여 수행된다.
제 1 활성화 레이어(2220)는 특징 맵의 샘플 값들을 제 2 컨볼루션 레이어(2230)로 전달할지 여부를 결정한다. 예를 들어, 특징 맵의 샘플 값들 중 어떤 샘플 값들은 제 1 활성화 레이어(2220)에 의해 활성화되어 제 2 컨볼루션 레이어(2230)로 전달되고, 어떤 샘플 값들은 제 1 활성화 레이어(2220)에 의해 비활성화되어 제 2 컨볼루션 레이어(2230)로 전달되지 않는다. 특징 맵들이 나타내는 입력 데이터(2205)의 고유 특성이 제 1 활성화 레이어(2220)에 의해 강조된다.
제 1 활성화 레이어(2220)에서 출력된 특징 맵들(2225)은 제 2 컨볼루션 레이어(2230)로 입력된다. 도 22에 도시된 특징 맵들(2225) 중 어느 하나는 도 23과 관련하여 설명한 특징 맵(2350)이 제 1 활성화 레이어(2220)에서 처리된 결과이다.
제 2 컨볼루션 레이어(2230)에 표시된 3X3X4는 3x3의 크기의 4개의 필터 커널을 이용하여 입력된 특징 맵들(2225)에 대해 컨볼루션 처리하는 것을 예시한다. 제 2 컨볼루션 레이어(2230)의 출력은 제 2 활성화 레이어(2240)로 입력된다. 제 2 활성화 레이어(2240)는 입력된 특징 맵들에 대해 비선형 특성을 부여할 수 있다.
제 2 활성화 레이어(2240)에서 출력된 특징 맵들(2245)은 제 3 컨볼루션 레이어(2250)로 입력된다. 제 3 컨볼루션 레이어(2250)에 표시된 3X3X1은 3x3의 크기의 1개의 필터 커널을 이용하여 1개의 출력 데이터(2255)를 만들기 위해 컨볼루션 처리를 하는 것을 예시한다.
출력 데이터(2255)는 신경망(2200)이 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390), 예측 영상 인코더(350), 가중치 인코더(305) 및 가중치 디코더(335) 중 어느 것인지 따라 달라진다.
일 예로, 신경망(2200)이 영상 인코더(370)인 경우, 출력 데이터(2255)는 교정 데이터이고, 신경망(2200)이 가중치 인코더(305)인 경우, 출력 데이터(2255)는 가중치 맵의 특징 데이터일 수 있다.
도 22는 신경망(2200)이 세 개의 컨볼루션 레이어와 두 개의 활성화 레이어를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 구현예에 따라서, 신경망(2200)에 포함된 컨볼루션 레이어 및 활성화 레이어의 개수는 다양하게 변경될 수 있다.
또한, 구현예에 따라서, 신경망(2200)은 RNN(recurrent neural network)을 통해 구현될 수도 있다. 이 경우는 본 개시의 예시에 따른 신경망(2200)의 CNN 구조를 RNN 구조로 변경하는 것을 의미한다.
일 실시예에서, 영상 복호화 장치(400) 및 영상 부호화 장치(1300)는 전술한 컨볼루션 연산 및 활성화 레이어의 연산을 위한 적어도 하나의 ALU(Arithmetic logic unit)를 포함할 수 있다.
ALU는 프로세서로 구현될 수 있다. 컨볼루션 연산을 위해, ALU는 입력 데이터(2205) 또는 이전 레이어에서 출력된 특징 맵의 샘플 값들과 필터 커널의 샘플 값들 사이의 곱 연산을 수행하는 곱셈기 및 곱셈의 결과 값들을 더하는 가산기를 포함할 수 있다.
활성화 레이어의 연산을 위해, ALU는 미리 결정된 시그모이드 함수, Tanh 함수 또는 ReLU 함수 등에서 이용되는 가중치를 입력된 샘플 값에 곱하는 곱셈기, 및 곱한 결과와 소정 값을 비교하여 입력된 샘플 값을 다음 레이어로 전달할지를 판단하는 비교기를 포함할 수 있다.
이하에서는, 도 24 및 도 25를 참조하여, 영상의 부호화 및 복호화 과정에서 이용되는 신경망들의 훈련 방법에 대해 설명한다.
도 24는 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)의 훈련 방법을 설명하기 위한 도면이다.
도 24를 참조하여 설명할 훈련 방법은 영상 복호화 장치(400)가 도 6에 도시된 예측 복호화부(630)를 포함하고, 영상 부호화 장치(1300)가 도 14에 도시된 예측 부호화부(1410)를 포함하는 경우를 위한 것일 수 있다.
일 실시예에서, 영상 복호화 장치(400)가 도 7 내지 도 11에 도시된 예측 복호화부(730, 830, 930, 1030, 1130) 중 어느 하나를 포함하고, 영상 부호화 장치(1300)가 도 15 내지 도 19에 도시된 예측 부호화부(1510, 1610, 1710, 1810, 1910) 중 어느 하나를 포함하는 경우를 위한 신경망들의 훈련 방법은 도 24를 참조하여 설명할 훈련 방법과 실질적으로 동일하다.
예를 들어, 영상 복호화 장치(400)가 도 6에 도시된 예측 복호화부(630)를 포함하고, 영상 부호화 장치(1300)가 도 15에 도시된 예측 부호화부(1510)를 포함하는 경우, 도 24에서 현재 훈련 영상(2420)과 현재의 예측 훈련 영상(x'i)이 영상 인코더(370)로 입력되는 것을 현재 훈련 영상(2420)과 현재의 예측 훈련 영상(x'i) 사이의 잔차 영상이 영상 인코더(370)로 입력되는 것으로 변경함으로써, 신경망들이 훈련될 수 있다.
또한, 예를 들어, 영상 복호화 장치(400)가 도 7에 도시된 예측 복호화부(730)를 포함하고, 영상 부호화 장치(1300)가 도 14에 도시된 예측 부호화부(1410)를 포함하는 경우, 도 24에서 예측 영상 인코더(350)가 제외되고, 현재의 예측 훈련 영상(x'i)의 특징 데이터가 영상 디코더(390)로 입력되는 것을 현재의 예측 훈련 영상(x'i)이 영상 디코더(390)의 출력 영상과 결합되는 것으로 변경함으로써 신경망들이 훈련될 수 있다.
즉, 영상 복호화 장치(400)가 도 7 내지 도 11에 도시된 예측 복호화부(730, 830, 930, 1030, 1130) 중 어느 하나를 포함하고, 영상 부호화 장치(1300)가 도 15 내지 도 19에 도시된 예측 부호화부(1510, 1610, 1710, 1810, 1910) 중 어느 하나를 포함하는 경우, 도 24에 도시된 입출력 데이터의 흐름을 변경하고, 가중치 인코더(305), 가중치 디코더(335) 또는 가중치 적용부(439) 등을 추가함으로써 신경망들이 훈련될 수 있다.
도 24에서, 현재 훈련 영상(2420), 이전의 복원 훈련 영상(2440) 및 현재의 복원 훈련 영상(2460)은 각각 전술한 현재 영상, 이전 복원 영상 및 현재 복원 영상에 대응한다.
옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)를 훈련시키는데 있어, 현재의 복원 훈련 영상(2460)이 현재 훈련 영상(2420)과 어느 정도로 유사한지, 그리고 현재 훈련 영상(2420)에 대한 부호화를 통해 생성되는 비트스트림의 비트레이트가 어느 정도로 큰지가 고려되어야 한다.
이를 위해, 일 실시예에서는 비트스트림의 크기가 어느 정도로 큰지에 대응하는 제 1 손실 정보(2410)와 제 2 손실 정보(2430), 및 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 유사도에 대응하는 제 3 손실 정보(2450)에 따라 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)가 훈련될 수 있다.
도 24를 참조하면, 현재 훈련 영상(2420) 및 이전의 복원 훈련 영상(2440)은 옵티컬 플로우 인코더(310)로 입력될 수 있다. 옵티컬 플로우 인코더(310)는 현재 훈련 영상(2420) 및 이전의 복원 훈련 영상(2440)을 처리하여 현재 옵티컬 플로우의 특징 데이터(wi)를 출력할 수 있다.
현재 옵티컬 플로우의 특징 데이터(wi)는 옵티컬 플로우 디코더(330)로 입력될 수 있고, 옵티컬 플로우 디코더(330)는 현재 옵티컬 플로우의 특징 데이터(wi)를 처리하여 현재 옵티컬 플로우(gi)를 출력할 수 있다.
이전의 복원 훈련 영상(2440)이 현재 옵티컬 플로우(gi)에 따라 워핑(380)됨으로써 현재의 예측 훈련 영상(x'i)이 생성될 수 있고, 현재의 예측 훈련 영상(x'i)은 예측 영상 인코더(350)로 입력될 수 있다.
예측 영상 인코더(350)는 현재의 예측 훈련 영상(x'i)을 처리하여 현재의 예측 훈련 영상(x'i)의 특징 데이터(mi)를 출력할 수 있다.
현재 훈련 영상(2420)과 현재의 예측 훈련 영상(x'i)은 영상 인코더(370)로 입력될 수 있고, 영상 인코더(370)는 현재 훈련 영상(2420)과 현재의 예측 훈련 영상(x'i)을 처리하여 교정 데이터(ki)를 출력할 수 있다.
영상 디코더(390)는 현재의 예측 훈련 영상(x'i)의 특징 데이터(mi)와 교정 데이터(ki)를 처리하여 현재의 복원 훈련 영상(2460)을 획득할 수 있다.
일 실시예에서, 현재 옵티컬 플로우의 특징 데이터(wi)가 영상 디코더(390)로 더 입력될 수 있다.
옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)의 훈련을 위해, 제 1 손실 정보(2410), 제 2 손실 정보(2430) 및 제 3 손실 정보(2450) 중 적어도 하나가 획득될 수 있다.
제 1 손실 정보(2410)는 현재 옵티컬 플로우의 특징 데이터(wi)의 엔트로피 또는 현재 옵티컬 플로우의 특징 데이터(wi)에 대응하는 비트스트림의 비트레이트로부터 산출될 수 있다.
제 2 손실 정보(2430)는 교정 데이터(ki)의 엔트로피 또는 교정 데이터(ki)에 대응하는 비트스트림의 비트레이트로부터 산출될 수 있다.
일 실시예에서, 가중치 인코더(305)로부터 가중치 맵의 특징 데이터가 출력된다면, 가중치 맵의 특징 데이터에 대응하는 비트스트림의 비트레이트로부터 제 4 손실 정보가 산출될 수 있다.
제 1 손실 정보(2410)와 제 2 손실 정보(2430)는, 현재 훈련 영상(2420)에 대한 부호화 효율에 관련되므로, 제 1 손실 정보(2410)와 제 2 손실 정보(2430)는 압축도 손실 정보로 참조될 수 있다.
일 실시예에서, 도 24는 비트스트림의 비트레이트와 관련된 제 1 손실 정보(2410)와 제 2 손실 정보(2430)가 도출되는 것으로 도시하고 있으나, 현재 훈련 영상(2420)의 부호화를 통해 생성되는 하나의 비트스트림의 비트레이트에 대응하는 하나의 손실 정보가 도출될 수도 있다.
제 3 손실 정보(2450)는 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 차이에 대응할 수 있다. 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 차이는, 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 및 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.
제 3 손실 정보(2450)는 현재의 복원 훈련 영상(2460)의 퀄리티와 관련이 있으므로, 제 3 손실 정보(2450)는 퀄리티 손실 정보로 참조될 수도 있다.
옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 제 1 손실 정보(2410), 제 2 손실 정보(2430) 및 제 3 손실 정보(2450) 중 적어도 하나로부터 도출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.
구체적으로, 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 미리 설정된 파라미터의 값을 변경하면서 최종 손실 정보가 감소 또는 최소화되도록 할 수 있다.
일 실시예에서, 최종 손실 정보는 하기 수학식 2에 따라 산출될 수 있다.
[수학식 2]
최종 손실 정보 = a*제 1 손실 정보+b*제 2 손실 정보+c*제 3 손실 정보
수학식 2에서, a, b, c는 각각 제 1 손실 정보(2410), 제 2 손실 정보(2430) 및 제 3 손실 정보(2450) 각각에 적용되는 가중치이다.
수학식 2에 따르면, 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 현재의 복원 훈련 영상(2460)이 현재 훈련 영상(2420)에 최대한 유사해지고, 옵티컬 플로우 인코더(310) 및 영상 인코더(370)로부터 출력되는 데이터에 대응하는 비트스트림의 크기가 최소화되는 방향으로 훈련됨을 알 수 있다.
수학식 2에서 c가 1이고, 현재 훈련 영상(2420)의 부호화를 통해 생성되는 하나의 비트스트림의 비트레이트에 대응하는 하나의 손실 정보가 도출되는 경우, 최종 손실 정보는 하기 수학식 3과 같이 도출될 수 있다.
[수학식 3]
최종 손실 정보 = k*제 1 손실 정보+제 2 손실 정보
수학식 3에서, 제 1 손실 정보는 현재 훈련 영상(2420)의 부호화를 통해 생성되는 하나의 비트스트림의 비트레이트로부터 도출될 수 있고, 제 2 손실 정보는 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 차이로부터 도출될 수 있다.
수학식 3에 따라 도출되는 최종 손실 정보는 수학식 1의 율-왜곡 값에 대응한다. 즉, 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 율-웨곡 값을 최소화하는 방향으로 훈련될 수 있다.
도 25는 훈련 장치(2500)에 의한 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)의 훈련 과정을 설명하기 위한 도면이다.
도 24를 참조하여 설명한 훈련 과정은 훈련 장치(2500)에 의해 수행될 수 있다. 훈련 장치(2500)는 예를 들어, 영상 부호화 장치(1300) 또는 별도의 서버일 수 있다. 훈련 결과 획득된 파라미터들은 영상 부호화 장치(1300) 및 영상 복호화 장치(400)에 저장될 수 있다.
도 25를 참조하면, 훈련 장치(2500)는 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)의 파라미터를 초기 세팅한다(S2510). 이에 의해, 옵티컬 플로우 인코더(310), 영상 인코더(370), 옵티컬 플로우 디코더(330), 영상 디코더(390) 및 예측 영상 인코더(350)는 초기 세팅된 파라미터에 따라 동작할 수 있다.
훈련 장치(2500)는 현재 훈련 영상(2420)과 이전의 복원 훈련 영상(2440)을 옵티컬 플로우 인코더(310)로 입력한다(S2515).
옵티컬 플로우 인코더(310)는 현재 훈련 영상(2420) 및 이전의 복원 훈련 영상(2440)을 처리하여 현재 옵티컬 플로우의 특징 데이터(wi)를 훈련 장치(2500) 및 옵티컬 플로우 디코더(330)로 출력한다(S2520).
훈련 장치(2500)는 현재 옵티컬 플로우의 특징 데이터(wi)로부터 제 1 손실 정보(2410)를 산출한다(S2525).
옵티컬 플로우 디코더(330)는 현재 옵티컬 플로우의 특징 데이터(wi)를 처리하여 현재 옵티컬 플로우(gi)를 훈련 장치(2500)로 출력한다(S2530).
훈련 장치(2500)는 현재 옵티컬 플로우(gi)를 이용하여 현재의 예측 훈련 영상(x'i)을 생성하고(S2535), 현재의 예측 훈련 영상(x'i)과 현재 훈련 영상(2420)을 영상 인코더(370)로 입력한다(S2540). 또한, 훈련 장치(2500)는 현재의 예측 훈련 영상(x'i)을 예측 영상 인코더(350)로 입력한다(S2545).
영상 인코더(370)는 현재의 예측 훈련 영상(x'i)과 현재 훈련 영상(2420)을 처리하여 교정 데이터를 훈련 장치(2500)와 영상 디코더(390)로 출력한다(S2550).
훈련 장치(2500)는 교정 데이터(ki)로부터 제 2 손실 정보(2430)를 산출한다(S2555).
예측 영상 인코더(350)는 현재의 예측 훈련 영상(x'i)의 특징 데이터(mi)를 영상 디코더(390)로 출력한다(S2560).
영상 디코더(390)는 현재의 예측 훈련 영상(x'i)의 특징 데이터(mi)와 교정 데이터(ki)를 처리하여 현재의 복원 훈련 영상(2460)을 훈련 장치(2500)로 출력한다(S2565).
훈련 장치(2500)는 현재 훈련 영상(2420)과 현재의 복원 훈련 영상(2460) 사이의 차이에 대응하는 제 3 손실 정보(2450)를 산출한다(S2570).
훈련 장치(2500)는 제 1 손실 정보(2410), 제 2 손실 정보(2430) 및 제 3 손실 정보(2450) 중 적어도 하나를 결합하여 최종 손실 정보를 산출하고, 옵티컬 플로우 인코더(310), 옵티컬 플로우 디코더(330), 영상 인코더(370), 영상 디코더(390) 및 예측 영상 인코더(350)는 최종 손실 정보에 기초한 역전사(back propagation) 과정을 통해 초기 세팅된 파라미터를 갱신한다(S2575, S2580, S2585, S2590, S2595).
이후, 옵티컬 플로우 인코더(310), 옵티컬 플로우 디코더(330), 영상 인코더(370), 영상 디코더(390) 및 예측 영상 인코더(350)는 최종 손실 정보가 최소화될 때까지 S2515 내지 S2595 과정을 반복하면서 파라미터를 갱신한다. 이 때, 각 반복 과정 동안 옵티컬 플로우 인코더(310), 옵티컬 플로우 디코더(330), 영상 인코더(370), 영상 디코더(390) 및 예측 영상 인코더(350)는 이전 과정에서 갱신된 파라미터에 따라 동작한다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 기기로 읽을 수 있는 저장매체에 저장될 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.
Claims (20)
- AI를 이용하는 영상 복호화 방법에 있어서,
비트스트림으로부터 현재 옵티컬 플로우, 및 현재 예측 영상과 현재 영상에 기반하여 생성된 교정 데이터(correction data)를 획득하는 단계;
상기 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 상기 현재 예측 영상을 획득하는 단계;
신경망 기반의 예측 영상 인코더(prediction image encoder)에 상기 현재 예측 영상을 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하는 단계; 및
상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터를 신경망 기반의 영상 디코더(image decoder)에 적용하여 상기 현재 영상에 대응하는 현재 복원 영상을 획득하는 단계를 포함하는, 영상 복호화 방법.
- 제1항에 있어서,
상기 현재 옵티컬 플로우는, 상기 비트스트림으로부터 획득되는 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더(optical flow decoder)에 적용함으로써 획득되는, 영상 복호화 방법.
- 제1항에 있어서,
상기 영상 복호화 방법은,
제 1 가중치 맵을 상기 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하는 단계; 및
제 2 가중치 맵을 상기 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하는 단계를 더 포함하고,
상기 현재 예측 영상의 특징 데이터를 획득하는 단계는,
상기 예측 영상 인코더에 상기 제 1 변형된 예측 영상을 적용하여 상기 제 1 변형된 예측 영상의 특징 데이터를 획득하는 단계를 포함하고,
상기 현재 복원 영상을 획득하는 단계는,
상기 교정 데이터와 상기 제 1 변형된 예측 영상의 특징 데이터를 상기 영상 디코더에 적용하는 단계; 및
상기 영상 디코더로부터 획득되는 영상과 상기 제 2 변형된 예측 영상을 결합하여 상기 현재 복원 영상을 획득하는 단계를 포함하는, 영상 복호화 방법.
- 제3항에 있어서,
상기 제 1 가중치 맵과 상기 제 2 가중치 맵은 상기 비트스트림으로부터 획득되는 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더에 적용함으로써 획득되는, 영상 복호화 방법.
- 제3항에 있어서,
상기 제 1 가중치 맵과 상기 제 2 가중치 맵은, 상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 가중치 디코더에 적용함으로써 획득되는, 영상 복호화 방법.
- 제3항에 있어서,
상기 제 1 가중치 맵과 상기 제 2 가중치 맵은, 상기 비트스트림으로부터 획득되는 가중치 맵의 특징 데이터를 신경망 기반의 가중치 디코더에 적용함으로써 획득되는, 영상 복호화 방법.
- 제1항에 있어서,
상기 영상 복호화 방법은,
상기 비트스트림으로부터 획득되는 정보에 기초하여 상기 현재 영상의 복호화 모드를 결정하는 단계를 더 포함하고,
상기 복호화 모드가 제 1 모드인 경우, 상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터가 상기 영상 디코더에 적용됨으로써 상기 현재 복원 영상이 획득되고,
상기 복호화 모드가 제 2 모드인 경우, 상기 교정 데이터를 상기 영상 디코더에 적용하여 획득되는 영상과 상기 현재 예측 영상이 결합됨으로써 상기 현재 복원 영상이 획득되는, 영상 복호화 방법.
- 제7항에 있어서,
상기 비트스트림으로부터 획득되는 정보는,
양자화 파라미터, 율-왜곡 값을 산출하는데 이용되는 가중치 또는 상기 복호화 모드를 나타내는 정보 중 적어도 하나를 포함하는, 영상 복호화 방법.
- 제1항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
- AI를 이용하는 영상 부호화 방법에 있어서,
현재 영상 및 이전 복원 영상을 이용하여 현재 옵티컬 플로우를 획득하는 단계;
상기 현재 옵티컬 플로우를 기초로 상기 이전 복원 영상으로부터 현재 예측 영상을 생성하는 단계;
상기 현재 영상과 상기 현재 예측 영상을 신경망 기반의 영상 인코더에 적용하여 교정 데이터를 획득하는 단계; 및
상기 현재 옵티컬 플로우의 특징 데이터 및 상기 교정 데이터를 포함하는 비트스트림을 생성하는 단계를 포함하는, 영상 부호화 방법
- 제10항에 있어서,
상기 영상 부호화 방법은,
상기 현재 영상의 부호화 모드를 결정하는 단계를 더 포함하고,
상기 부호화 모드가 제 1 모드인 경우, 상기 교정 데이터는 상기 현재 영상과 상기 현재 예측 영상이 상기 영상 인코더에 적용함으로써 획득되고,
상기 부호화 모드가 제 2 모드인 경우, 상기 교정 데이터는 상기 현재 영상과 상기 현재 예측 영상 사이의 잔차 영상을 상기 영상 인코더에 적용함으로써 획득되는, 영상 부호화 방법.
- 제11항에 있어서,
상기 제 1 모드와 상기 제 2 모드 중 더 낮은 율-왜곡 값을 도출할 수 있는 모드가 상기 부호화 모드로 결정되는, 영상 부호화 방법.
- 제11항에 있어서,
상기 제 1 모드에 따라 획득되는 비트스트림의 비트레이트와 상기 제 2 모드에 따라 획득되는 비트스트림의 비트레이트의 비교 결과에 따라 상기 부호화 모드가 상기 제 1 모드 또는 상기 제 2 모드로 결정되는, 영상 부호화 방법.
- 제11항에 있어서,
양자화 파라미터 또는 율-왜곡 값을 산출하는데 이용되는 가중치와 미리 결정된 값의 비교 결과에 따라 상기 제 1 모드와 상기 제 2 모드 중 어느 하나가 상기 부호화 모드로 결정되는, 영상 부호화 방법.
- 제10항에 있어서,
상기 현재 옵티컬 플로우를 획득하는 단계는,
상기 현재 영상 및 상기 이전 복원 영상을 신경망 기반의 옵티컬 플로우 인코더에 적용하여 상기 현재 옵티컬 플로우의 특징 데이터를 획득하는 단계; 및
상기 현재 옵티컬 플로우의 특징 데이터를 신경망 기반의 옵티컬 플로우 디코더에 적용하여 상기 현재 옵티컬 플로우를 획득하는 단계를 포함하는, 영상 부호화 방법.
- 제10항에 있어서,
상기 영상 부호화 방법은,
제 1 가중치 맵을 상기 현재 예측 영상에 적용하여 제 1 변형된 예측 영상을 획득하는 단계; 및
제 2 가중치 맵을 상기 현재 예측 영상에 적용하여 제 2 변형된 예측 영상을 획득하는 단계를 더 포함하고,
상기 제 2 변형된 예측 영상과 상기 현재 영상 사이의 잔차 영상, 및 상기 제 1 변형된 예측 영상이 상기 영상 인코더에 적용됨에 따라 상기 교정 데이터가 획득되는, 영상 부호화 방법.
- 제10항에 있어서,
상기 영상 부호화 방법은,
상기 현재 예측 영상을 신경망 기반의 예측 영상 인코더에 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하는 단계를 더 포함하고,
상기 비트스트림은, 상기 현재 예측 영상의 특징 데이터를 더 포함하는, 영상 부호화 방법.
- 제10항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
- AI를 이용하는 영상 복호화 장치에 있어서,
비트스트림으로부터 현재 옵티컬 플로우, 및 현재 예측 영상과 현재 영상에 기반하여 생성된 교정 데이터를 획득하는 획득부; 및
상기 현재 옵티컬 플로우를 기초로 이전 복원 영상으로부터 상기 현재 예측 영상을 획득하고, 신경망 기반의 예측 영상 인코더에 상기 현재 예측 영상을 적용하여 상기 현재 예측 영상의 특징 데이터를 획득하고, 상기 교정 데이터와 상기 현재 예측 영상의 특징 데이터를 신경망 기반의 영상 디코더에 적용하여 상기 현재 영상에 대응하는 현재 복원 영상을 획득하는 예측 복호화부를 포함하는, 영상 복호화 장치.
- AI를 이용하는 영상 부호화 장치에 있어서,
현재 영상 및 이전 복원 영상을 이용하여 현재 옵티컬 플로우를 획득하고, 상기 현재 옵티컬 플로우에 기초하여 상기 이전 복원 영상으로부터 생성된 현재 예측 영상과 상기 현재 영상을 신경망 기반의 영상 인코더에 적용하여 교정 데이터를 획득하는 예측 부호화부; 및
상기 현재 옵티컬 플로우의 특징 데이터 및 상기 교정 데이터를 포함하는 비트스트림을 생성하는 생성부를 포함하는, 영상 부호화 장치.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/983,843 US20230145525A1 (en) | 2021-11-09 | 2022-11-09 | Image encoding apparatus and image decoding apparatus both using artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus |
EP22893179.6A EP4432233A1 (en) | 2021-11-09 | 2022-11-09 | Image encoding device and image decoding device using ai, and method for encoding and decoding image by same |
CN202280074435.3A CN118318248A (zh) | 2021-11-09 | 2022-11-09 | 使用ai的图像编码设备和图像解码设备以及通过其对图像进行编码和解码的方法 |
PCT/KR2022/017530 WO2023085759A1 (ko) | 2021-11-09 | 2022-11-09 | Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20210153308 | 2021-11-09 | ||
KR1020210153308 | 2021-11-09 | ||
KR1020210172264 | 2021-12-03 | ||
KR20210172264 | 2021-12-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230067492A true KR20230067492A (ko) | 2023-05-16 |
Family
ID=86545864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220091316A KR20230067492A (ko) | 2021-11-09 | 2022-07-22 | Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230067492A (ko) |
-
2022
- 2022-07-22 KR KR1020220091316A patent/KR20230067492A/ko unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102287947B1 (ko) | 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 | |
KR102439871B1 (ko) | 영상 변환 부호화/복호화 방법 및 장치 | |
US11863783B2 (en) | Artificial intelligence-based image encoding and decoding apparatus and method | |
US20190141324A1 (en) | Encoding data arrays | |
CN112840650B (zh) | 人工智能(ai)编码装置及其操作方法和ai解码装置及其操作方法 | |
US20180278943A1 (en) | Method and apparatus for processing video signals using coefficient induced prediction | |
US20170006290A1 (en) | Video encoding device and video encoding method | |
US11863756B2 (en) | Image encoding and decoding apparatus and method using artificial intelligence | |
US20230247212A1 (en) | Device and method for encoding and decoding image using ai | |
KR20160065860A (ko) | 미디어 신호의 인코딩, 디코딩 방법 및 그 장치 | |
KR20230067492A (ko) | Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법 | |
EP4432233A1 (en) | Image encoding device and image decoding device using ai, and method for encoding and decoding image by same | |
US20240048711A1 (en) | Artificial intelligence based video decoding apparatus and video decoding method and artificial intelligence based video encoding apparatus and video encoding method which perform chroma component prediction | |
CN118318248A (zh) | 使用ai的图像编码设备和图像解码设备以及通过其对图像进行编码和解码的方法 | |
US20240129546A1 (en) | Artificial intelligence-based image encoding and decoding apparatus, and image encoding and decoding method thereby | |
JP6557483B2 (ja) | 符号化装置、符号化システム、及びプログラム | |
US20230041187A1 (en) | Artificial intelligence-based image encoding apparatus and method and decoding apparatus and method | |
US20240073425A1 (en) | Image encoding apparatus and image decoding apparatus both based on artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus | |
US20230044603A1 (en) | Apparatus and method for applying artificial intelligence-based filtering to image | |
KR20230022085A (ko) | Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법 | |
KR20220120432A (ko) | Ai를 이용하는 영상의 부호화 및 복호화 장치 및 이에 의한 영상의 부호화 및 복호화 방법 | |
KR20230041601A (ko) | Ai를 이용하여 영상을 부호화 및 복호화하는 장치, 및 방법 | |
CN116888961A (zh) | 使用ai的用于图像编码和解码的设备及其用于图像编码和解码的方法 | |
KR20240025428A (ko) | 적응적 양자화 및 역양자화를 위한 영상 복호화 장치, 영상 부호화 장치 및 이에 의한 방법 | |
KR20230065888A (ko) | Ai 기반 필터링을 위한 영상 처리 방법 및 장치 |