WO2022177383A1

WO2022177383A1 - Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법

Info

Publication number: WO2022177383A1
Application number: PCT/KR2022/002493
Authority: WO
Inventors: 딘쿠오칸; 박민우; 박민수; 최광표
Original assignee: 삼성전자 주식회사
Priority date: 2021-02-22
Filing date: 2022-02-21
Publication date: 2022-08-25

Abstract

일 실시예에 따른 AI를 이용하는 옵티컬 플로우의 복원 방법은, 비트스트림으로부터 현재 영상에 대한 현재의 잔차 옵티컬 플로우(current residual optical flow)의 특징 데이터를 획득하는 단계; 신경망 기반의 제 1 디코더에 상기 현재의 잔차 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재의 잔차 옵티컬 플로우를 획득하는 단계; 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터, 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나에 기반하여 현재의 예측 옵티컬 플로우를 획득하는 단계; 및 상기 현재의 잔차 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우에 기초하여 현재 옵티컬 플로우를 복원하는 단계를 포함할 수 있다.

Description

AI 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법

본 개시는 영상의 부호화 및 복호화에 관한 것이다. 보다 구체적으로, 본 개시는 영상의 인터 예측에 필요한 옵티컬 플로우를 AI(Artificial Intelligence), 예를 들어, 신경망을 이용하여 부호화 및 복호화하는 기술, 및 영상을 부호화 및 복호화하는 기술에 관한 것이다.

H.264 AVC(Advanced Video Coding) 및 HEVC(High Efficiency Video Coding)와 같은 코덱에서는, 영상을 블록으로 분할하고, 각각의 블록을 인터 예측(inter prediction) 또는 인트라 예측(intraprediction)을 통해 예측 부호화 및 예측 복호화할 수 있다.

인트라 예측은 영상 내의 공간적인 중복성을 제거하여 영상을 압축하는 방법이고, 인터 예측은 영상들 사이의 시간적인 중복성을 제거하여 영상을 압축하는 방법이다.

인터 예측의 대표적인 예로서, 움직임 추정 부호화가 존재한다. 움직임 추정 부호화는 참조 영상을 이용해 현재 영상의 블록들을 예측한다. 소정의 평가 함수를 이용하여 현재 블록과 가장 유사한 참조 블록을 소정의 검색 범위에서 탐색할 수 있다. 현재 블록을 참조 블록에 기초하여 예측하고, 예측 결과 생성된 예측 블록을 현재 블록으로부터 감산하여 잔차 블록을 생성 및 부호화한다.

참조 영상 내 참조 블록을 가리키는 움직임 벡터를 도출하기 위해, 이전에 부호화된 블록들의 움직임 벡터가 현재 블록의 예측 움직임 벡터(Prediction Motion Vector)로 이용될 수 있다. 현재 블록의 움직임 벡터와 예측 움직임 벡터 사이의 차이인 잔차 움직임 벡터(Differential Motion Vector)는 소정의 방식을 통해 디코더 측으로 시그널링된다.

일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 인터 예측에 필요한 옵티컬 플로우의 시그널링을 적은 비트레이트로 가능케하는 것을 과제로 한다.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 옵티컬 플로우를 정확하게 복원하는 것을 과제로 한다.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 적은 비트레이트의 비트스트림으로부터 영상을 정확하게 복원하는 것을 기술적 과제로 한다.

일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 인터 예측에 필요한 옵티컬 플로우의 시그널링을 적은 비트레이트로 가능케할 수 있다.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 옵티컬 플로우를 정확하게 복원할 수 있다.

또한, 일 실시예에 따른 영상의 부호화 및 복호화 장치, 및 이에 의한 방법은 적은 비트레이트의 비트스트림으로부터 영상을 정확하게 복원할 수 있다.

도 1은 일 실시예에 따른, 영상에 대한 AI 기반의 인터 예측 과정을 도시하는 도면이다.

도 2는 일 실시예에 따른, 연속하는 영상들, 및 연속하는 영상들 사이의 옵티컬 플로우를 예시하는 도면이다.

도 3은 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.

도 4는 일 실시예에 따른, 도 3에 도시된 획득부의 구성을 도시하는 도면이다.

도 5는 일 실시예에 따른, 도 3에 도시된 예측 복호화부의 구성을 도시하는 도면이다.

도 6은 일 실시예에 따른 옵티컬 플로우 예측부의 구성을 도시하는 도면이다.

도 7은 일 실시예에 따른 옵티컬 플로우 예측부의 구성을 도시하는 도면이다.

도 8은 일 실시예에 따른 옵티컬 플로우 예측부의 구성을 도시하는 도면이다.

도 9는 일 실시예에 따른 옵티컬 플로우를 복원하는 방법의 순서도이다.

도 10은 예측 복호화부의 다른 구성을 도시하는 도면이다

도 11은 일 실시예에 따른 옵티컬 플로우를 복원하는 방법의 순서도이다.

도 12는 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.

도 13은 일 실시예에 따른, 도 12에 도시된 예측 부호화부의 구성을 도시하는 도면이다.

도 14는 일 실시예에 따른 옵티컬 플로우 예측부의 구성을 도시하는 도면이다.

도 15는 일 실시예에 따른, 도 12에 도시된 생성부의 구성을 도시하는 도면이다.

도 16은 일 실시예에 따른 옵티컬 플로우를 부호화하는 방법의 순서도이다.

도 17은 일 실시예에 따른, 예측 부호화부의 다른 구성을 도시하는 도면이다.

도 18은 일 실시예에 따른 신경망의 구조를 예시하는 도면이다.

도 19는 일 실시예에 따른, 도 18에 도시된 컨볼루션 레이어에서의 컨볼루션 연산을 설명하기 위한 도면이다.

도 20은 일 실시예에 따른, 인터 예측 과정에서 이용되는 신경망들의 훈련 방법을 설명하기 위한 도면이다.

도 21은 일 실시예에 따른, 인터 예측 과정에서 이용되는 신경망들에 대한 훈련 장치의 훈련 과정을 설명하기 위한 도면이다.

도 22는 일 실시예에 따른, 인터 예측 과정에서 이용되는 신경망들에 대한 훈련 장치의 다른 훈련 과정을 설명하기 위한 도면이다.

상기 복원된 현재 옵티컬 플로우와 이전 복원 영상에 기초하여 생성되는 현재 예측 영상과, 현재의 잔차 영상 데이터에 기반하여 상기 현재 영상이 복원될 수 있다.

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는, 상기 이전 옵티컬 플로우를 상기 현재의 예측 옵티컬 플로우로 선택하는 단계를 포함할 수 있다.

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는, 상기 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 상기 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 제 1 예측 신경망(first prediction neural network)에 적용하는 단계를 포함할 수 있다.

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는, 상기 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 상기 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 제 2 예측 신경망(second prediction neural network)에 적용하여 상기 현재의 예측 옵티컬 플로우와 상기 이전 옵티컬 플로우 사이의 세컨드-오더 옵티컬 플로우(second-order optical flow)를 획득하는 단계; 및 상기 이전 옵티컬 플로우를 상기 세컨드-오더 옵티컬 플로우에 따라 변경하여 상기 현재의 예측 옵티컬 플로우를 생성하는 단계를 포함할 수 있다.

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는, 상기 비트스트림으로부터 상기 현재의 예측 옵티컬 플로우와 상기 이전 옵티컬 플로우 사이의 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득하는 단계; 상기 세컨드-오더 옵티컬 플로우의 특징 데이터를 신경망 기반의 제 3 디코더에 적용하여 상기 세컨드-오더 옵티컬 플로우를 획득하는 단계; 및 상기 이전 옵티컬 플로우를 상기 세컨드-오더 옵티컬 플로우에 따라 변경하여 상기 현재의 예측 옵티컬 플로우를 생성하는 단계를 포함할 수 있다.

상기 현재의 잔차 옵티컬 플로우의 특징 데이터는, 상기 비트스트림에 대한 엔트로피 복호화 및 역양자화를 수행함으로써 획득될 수 있다.

상기 신경망 기반의 제 1 디코더는, 현재 훈련 영상(current training image)과 상기 현재 훈련 영상에 관련된 현재의 복원 훈련 영상(current reconstructed training image) 사이의 차이에 대응하는 제 1 손실 정보; 및 상기 현재 훈련 영상의 현재의 잔차 옵티컬 플로우의 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련될 수 있다.

상기 현재의 잔차 옵티컬 플로우의 특징 데이터는, P(predictive) 프레임에 대응하는 상기 현재 영상, 및 상기 P 프레임을 뒤따르는 다른 P 프레임에 기초하여 상기 비트스트림으로부터 획득될 수 있다.

상기 P 프레임을 뒤따르는 I(intra) 프레임에 기초하여 상기 옵티컬 플로우의 복원 방법은, 비트스트림으로부터 현재 옵티컬 플로우의 특징 데이터를 획득하는 단계; 신경망 기반의 제 4 디코더에 상기 현재 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재 옵티컬 플로우를 복원하는 단계를 더 포함할 수 있다.

일 실시예에 따른 AI를 이용하는 옵티컬 플로우의 복원 장치는, 비트스트림으로부터 상기 현재 영상에 대한 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하는 비트스트림 획득부; 및 신경망 기반의 제 1 디코더에 상기 현재의 잔차 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재의 잔차 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 이용하여 현재의 예측 옵티컬 플로우를 획득하고, 상기 현재의 잔차 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우에 기초하여 현재 옵티컬 플로우를 복원하는 예측 복호화부를 구현하는 적어도 하나의 프로세서를 포함할 수 있다.

일 실시예에 따른 AI를 이용하는 옵티컬 플로우의 부호화 방법은, 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나로부터 현재의 예측 옵티컬 플로우를 획득하는 단계; 현재 영상, 이전 복원 영상 및 상기 현재의 예측 옵티컬 플로우를 신경망 기반의 제 1 인코더에 적용하여 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하는 단계; 및 상기 현재의 잔차 옵티컬 플로우의 특징 데이터에 대응하는 비트스트림을 생성하는 단계를 포함하되, 상기 현재의 잔차 옵티컬 플로우는, 현재 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우 사이의 차이에 대응할 수 있다.

일 실시예에 따른 AI를 이용하는 옵티컬 플로우의 부호화 장치는, 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우에 대한 특징 데이터 및 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나로부터 현재의 예측 옵티컬 플로우를 획득하고, 현재 영상, 이전 복원 영상 및 상기 현재의 예측 옵티컬 플로우를 신경망 기반의 제 1 인코더에 적용하여 현재의 잔차 옵티컬 플로우에 대한 특징 데이터를 획득하는 예측 부호화부; 및 상기 현재의 잔차 옵티컬 플로우에 대한 특징 데이터에 대응하는 비트스트림을 생성하는 생성부를 구현하는 적어도 하나의 프로세서를 포함하되, 상기 현재의 잔차 옵티컬 플로우는, 현재 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우 사이의 차이에 대응할 수 있다.

일 실시예에 따른 AI를 이용하는 옵티컬 플로우의 복원 방법은, 신경망 기반의 제 1 디코더에 현재의 잔차 옵티컬 플로우의 특징 데이터를 적용하여 현재의 잔차 옵티컬 플로우를 획득하는 단계; 이전 복원 영상에 대응하는 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터, 및 상기 이전 옵티컬 플로우에 대응하는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나에 기반하여 현재의 예측 옵티컬 플로우를 획득하는 단계; 및 상기 현재의 잔차 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우를 결합하여 현재 옵티컬 플로우를 획득하는 단계; 상기 현재 옵티컬 플로우에 기초하여 상기 이전 복원 영상을 움직임 보상하여 현재 예측 이미지를 획득하는 단계; 및 상기 현재 예측 영상과 현재 잔차 영상 데이터에 기초하여 현재 영상을 복원하는 단계를 포함할 수 있다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 개시의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

기술 분야에서 통상적인 바와 같이, 실시예들은 설명된 기능 또는 기능들을 수행하는 블록들(blocks)의 관점에서 설명되고 예시될 수 있다. 도면들에 도시된 바와 같이, “유닛들” 또는 “모듈들” 등으로 참조될 수 있는 이들 블록들, 또는 부호화부, 복호화부, 획득부, 양자화부, 변환부, 감산부, 보상부, 변환부 등의 이름을 갖는 이들 블록들은, 논리 게이트, 집적 회로, 마이크로프로세서, 마이크로컨트롤러, 메모리 회로, 수동 전자 부품, 능동 전자 부품, 광학 부품, 유선 회로 등과 같은 아날로그 또는 디지털 회로에 의해 물리적으로 구현될 수 있으며, 펌웨어 및 소프트웨어에 의해 구동될 수 있다. 회로는, 예를 들어, 하나 이상의 반도체 칩에서, 또는 인쇄 회로 기판 등과 같은 기판 지지부(substrate support) 상에 구현될 수 있다. 블록에 포함된 회로는 전용 하드웨어 또는 프로세서(예를 들어, 하나 이상의 프로그래밍된 마이크로프로세서 및 관련 회로)에 의해, 또는 블록의 일부 기능을 수행하는 전용 하드웨어와 블록의 다른 기능을 수행하는 프로세서의 조합에 의해 구현될 수 있다. 실시예의 각 블록은 2개 이상의 상호 작용하는 개별 블록으로 물리적으로 분리될 수 있다. 마찬가지로, 실시예의 블록들은 물리적으로 더 복잡한 블록으로 결합될 수 있다.

또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

또한, 본 개시에서, '영상(image)'은 정지영상 또는 프레임, 복수의 연속된 정지영상 또는 프레임들로 구성된 동영상, 또는 비디오를 의미할 수 있다.

또한, 본 개시에서 '신경망(neural network)'은 뇌 신경을 모사한 인공 신경망 모델의 대표적인 예시로서, 특정 알고리즘을 사용한 인공 신경망 모델로 한정되지 않는다. 신경망은 심층 신경망(deep neural network)으로 참조될 수도 있다.

또한, 본 개시에서 '파라미터(parameter)'는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값일 수 있으며 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.

또한, 본 개시에서 '특징 데이터'는 신경망 기반의 인코더가 입력 데이터를 처리함으로써 획득되는 데이터를 의미할 수 있다. 특징 데이터는 여러 샘플들을 포함하는 1차원 또는 2차원의 데이터일 수 있다. 특징 데이터는 잠재 표현(latent representation)으로 참조될 수도 있다. 특징 데이터는 후술하는 디코더가 출력하는 데이터에 잠재된 특징을 나타낸다.

또한, 본 개시에서 '현재 영상'은 현재의 처리 대상인 영상을 의미할 수 있고, '현재 옵티컬 플로우'는 현재 영상과 관련되어 획득된 옵티컬 플로우를 의미할 수 있고, '현재의 잔차 영상 데이터'는 현재 영상과 관련되어 획득된 잔차 영상 데이터를 의미할 수 있다.

또한, 본 개시에서 '이전 영상'은 현재 영상 이전의 처리 대상인 영상을 의미할 수 있고, '이전 옵티컬 플로우'는 이전 영상과 관련되어 획득된 옵티컬 플로우를 의미할 수 있고, '이전 잔차 영상 데이터'는 이전 영상과 관련되어 획득된 잔차 영상 데이터를 의미할 수 있다.

또한, 본 개시에서, '샘플'은 영상, 특징 맵 또는 특징 데이터 내 샘플링 위치에 할당된 데이터일 수 있으며 처리 대상이 되는 데이터를 의미할 수 있다. 예를 들어, 샘플은 2차원의 영상 내 픽셀을 포함할 수 있다.

도 1은 영상에 대한 AI 기반의 인터 예측 과정을 도시하는 도면이다.

도 1은 현재 영상(x_i)의 부호화 및 복호화 과정을 도시하고 있는데, 인터 예측에서는 제 1 인코더(110), 제 2 인코더(130), 제 1 디코더(150) 및 제 2 디코더(170)가 이용된다. 제 1 인코더(110), 제 2 인코더(130), 제 1 디코더(150) 및 제 2 디코더(170)는 신경망으로 구현된다.

인터 예측은 현재 영상(x_i)과 이전 복원 영상(y_i-1) 사이의 시간적 중복성을 이용하여 현재 영상(x_i)을 부호화 및 복호화하는 과정이다.

현재 영상(x_i) 내 블록들 또는 샘플들과 이전 복원 영상(y_i-1) 내 참조 블록들 또는 참조 샘플들 사이의 위치 차이(또는 움직임 벡터)가 현재 영상(x_i)의 부호화 및 복호화에 이용된다. 이러한 위치 차이는 옵티컬 플로우로 참조될 수 있다. 옵티컬 플로우는 영상 내 샘플들 또는 블록들에 대응하는 움직임 벡터들의 집합으로 정의될 수도 있다.

옵티컬 플로우는 이전 복원 영상(y_i-1) 내 샘플들의 위치가 현재 영상(x_i) 내에서 어떻게 변경되었는지, 또는 현재 영상(x_i)의 샘플들이 이전 복원 영상(y_i-1) 내 어디에 위치하는지를 나타낸다. 예를 들어, 현재 영상(x_i) 내 (1, 1)에 위치한 샘플이 이전 복원 영상(y_i-1) 내 (2, 1)에 위치한다면, 해당 샘플에 대한 옵티컬 플로우 또는 움직임 벡터는 (1(=2-1), 0(=1-1))으로 도출될 수 있다.

AI를 이용한 영상의 부호화 및 복호화 과정에서는 현재 영상(x_i)에 대한 현재 옵티컬 플로우(g_i)를 획득하기 위해 제 1 인코더(110) 및 제 1 디코더(150)를 이용한다.

구체적으로, 이전 복원 영상(y_i-1)과 현재 영상(x_i)이 제 1 인코더(110)로 입력된다. 제 1 인코더(110)는 훈련의 결과로 설정된 파라미터에 따라 현재 영상(x_i)과 이전 복원 영상(y_i-1)을 처리하여 현재 옵티컬 플로우에 대한 특징 데이터(w_i)를 출력한다.

현재 옵티컬 플로우에 대한 특징 데이터(w_i)는 현재 옵티컬 플로우에 잠재된 특징을 나타낸다.

현재 옵티컬 플로우에 대한 특징 데이터(w_i)는 제 1 디코더(150)로 입력된다. 제 1 디코더(150)는 입력된 특징 데이터(w_i)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재 옵티컬 플로우(g_i)를 출력한다.

이전 복원 영상(y_i-1)은 현재 옵티컬 플로우(g_i)에 따라, 예를 들어, 워핑(190)에 의해 워핑되고, 워핑(190)의 결과로 현재 예측 영상(x'_i)이 획득된다. 워핑(190)이란, 영상 내 샘플들의 위치를 이동시키는 기하학적 변형의 한 종류이다. 이전 복원 영상(y_i-1) 내 샘플들과 현재 영상(x_i) 내 샘플들 사이의 상대적인 위치 관계를 나타내는 옵티컬 플로우(g_i)에 따라 이전 복원 영상(y_i-1)이 예를 들어, 워핑(190)에 의해 워핑됨으로써 현재 영상(x_i)과 유사한 현재 예측 영상(x'_i)이 획득된다. 예를 들어, 이전 복원 영상(y_i-1) 내 (1, 1)에 위치한 샘플이 현재 영상(x_i) 내 (2, 1)에 위치하는 샘플과 가장 유사하다면, 워핑(190)을 통해 이전 복원 영상(y_i-1) 내 (1, 1)에 위치한 샘플의 위치가 (2, 1)로 변경될 수 있다.

이전 복원 영상(y_i-1)으로부터 생성된 현재 예측 영상(x'_i)은 현재 영상(x_i) 자체가 아니므로, 현재 예측 영상(x'_i)과 현재 영상(x_i) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(r_i)가 획득될 수 있다.

일 예로, 현재 영상(x_i) 내 샘플 값들로부터 현재 예측 영상(x'_i) 내 샘플 값들을 차감함으로써 현재의 잔차 영상 데이터(r_i)가 획득될 수 있다.

현재의 잔차 영상 데이터(r_i)는 제 2 인코더(130)로 입력된다. 제 2 인코더(130)는 훈련의 결과로 설정된 파라미터에 따라 현재의 잔차 영상 데이터(r_i)를 처리하여 현재의 잔차 영상 데이터에 대한 특징 데이터(v_i)를 출력한다.

현재의 잔차 영상 데이터에 대한 특징 데이터(v_i)는 제 2 디코더(170)로 입력된다. 제 2 디코더(170)는 입력된 특징 데이터(v_i)를 훈련의 결과로 설정된 파라미터에 따라 처리하여 현재의 잔차 영상 데이터(r'_i)를 출력한다.

이전 복원 영상(y_i-1)에 대한, 예를 들어, 워핑(190)에 의한 워핑을 통해 생성된 현재 예측 영상(x'_i)과 현재의 잔차 영상 데이터(r'_i)의 결합을 통해 현재 복원 영상(y_i)이 획득된다.

도 1에 도시된 인터 예측 과정에서는, 제 1 인코더(110)를 통해 획득된 현재 옵티컬 플로우에 대한 특징 데이터(w_i)가 제 1 디코더(150)로 입력된다.

현재 영상(x_i)의 부호화 및 복호화 과정을 부호화 장치의 관점에서 보면, 부호화 장치는 현재 옵티컬 플로우에 대한 특징 데이터(w_i)를 복호화 장치로 시그널링하기 위해 현재 옵티컬 플로우에 대한 특징 데이터(w_i)에 대응하는 비트스트림을 생성하여야 한다. 그러나, 현재 영상(x_i)과 이전 영상(x_i-1)에 포함된 오브젝트의 움직임이 큰 경우, 현재 옵티컬 플로우에 포함된 샘플 값들의 크기가 크므로, 현재 옵티컬 플로우에 잠재된 특성을 나타내는 특징 데이터(w_i)에 기반하여 생성된 비트스트림의 비트레이트 역시 커질 수 있다.

이하에서 설명되는 실시예들에서는, 이전 옵티컬 플로우를 이용하여, 현재 옵티컬 플로우에 대한 부호화 결과로 생성되는 비트스트림의 크기가 감소될 수 있다. 이전 옵티컬 플로우와 현재 옵티컬 플로우 사이의 연관성에 대해서는 도 2를 참조하여 설명한다.

도 2를 참조하면, 현재 영상(23)과 제 1 이전 영상(22) 사이에서 제 1 옵티컬 플로우(25)가 획득되고, 제 1 이전 영상(22)과 제 2 이전 영상(21) 사이에서 제 2 옵티컬 플로우(24)가 획득된다.

도 2에 도시된 제 1 옵티컬 플로우(25) 및 제 2 옵티컬 플로우(24)는 옵티컬 플로우에 포함된 샘플들의 크기 또는 움직임 벡터들의 크기(magnitude)에 따라 시각화된 것이다.

제 1 옵티컬 플로우(25)는 현재 옵티컬 플로우로 참조되고, 제 2 옵티컬 플로우(24)는 이전 옵티컬 플로우로 참조될 수 있다.

도 2를 참조하면, 제 1 옵티컬 플로우(25)와 제 2 옵티컬 플로우(24) 사이의 유사성을 확인할 수 있다. 예를 들어, 제 1 옵티컬 플로우(25) 내 A 영역과 제 2 옵티컬 플로우(24) 내 B 영역에서 샘플 값들의 유사성을 볼 수 있다.

시간적으로 연속하는 영상들 내 오브젝트는 선형적으로 움직이는 경향이 있으므로, 제 1 옵티컬 플로우(25)와 제 2 옵티컬 플로우(24) 사이의 유사성을 예측할 수 있다.

즉, 현재 영상(23)에 대한 현재 옵티컬 플로우(예를 들어, 제 1 옵티컬 플로우(25))를 부호화하는데 있어, 이전 옵티컬 플로우(예를 들어, 제 2 옵티컬 플로우(24))를 이용하는 경우, 현재 옵티컬 플로우에 대한 부호화 결과로 생성되는 비트스트림의 크기가 작아질 수 있다.

도 3은 일 실시예에 따른 영상 복호화 장치(300)의 구성을 도시하는 도면이다.

도 3을 참조하면, 일 실시예에 따른 영상 복호화 장치(300)는 획득부(310) (예를 들어, 비트스트림 획득부일 수 있다) 및 예측 복호화부(330)를 포함한다.

획득부(310) 및 예측 복호화부(330)는 프로세서로 구현될 수 있고, 획득부(310) 및 예측 복호화부(330)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 3은 획득부(310) 및 예측 복호화부(330)를 개별적으로 도시하고 있으나, 실시예들에서, 획득부(310) 및 예측 복호화부(330)는 하나의 엘리먼트, 예를 들어, 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 획득부(310) 및 예측 복호화부(330)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

실시예들에서, 획득부(310) 및 예측 복호화부(330)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.

획득부(310)는 현재 영상에 대한 부호화 결과를 포함하는 비트스트림을 획득한다.

획득부(310)는 후술하는 영상 부호화 장치(1200)로부터 네트워크를 통해 비트스트림을 수신할 수 있다. 일 실시예에서, 획득부(310)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체로부터 비트스트림을 획득할 수도 있다.

획득부(310)는 비트스트림을 파싱하여 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터를 획득한다.

현재의 잔차 옵티컬 플로우는 이전 옵티컬 플로우로부터 예측된 현재의 예측 옵티컬 플로우와 현재 옵티컬 플로우 사이의 차이에 대응한다. 현재의 잔차 영상 데이터는 이전 복원 영상으로부터 예측된 현재 예측 영상과 현재 영상 사이의 차이에 대응한다.

현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터는 신경망 기반의 인코더에 의한 처리 결과로 획득된 것일 수 있다.

일 실시예에서, 획득부(310)는 현재의 잔차 옵티컬 플로우의 특징 데이터에 대응하는 제 1 비트스트림과 현재의 잔차 영상 데이터의 특징 데이터에 대응하는 제 2 비트스트림을 획득하고, 제 1 비트스트림 및 제 2 비트스트림을 각각 파싱하여 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 획득할 수도 있다.

현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터는 예측 복호화부(330)로 전달되고, 예측 복호화부(330)는 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터를 이용하여 현재 영상에 대응하는 현재 복원 영상을 획득한다.

구현예에 따라, 실시예들에서, 비트스트림에 현재의 잔차 영상 데이터의 특징 데이터가 포함되어 있지 않을 수도 있다. 획득부(310)는 비트스트림으로부터 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하고, 예측 복호화부(330)는 현재 옵티컬 플로우를 복원할 수 있다. 이 경우, 영상 복호화 장치(300)는 옵티컬 플로우 복호화 장치로 참조될 수 있다.

예측 복호화부(330)에 의해 복원된 현재 옵티컬 플로우는 다른 장치로 전달되고, 다른 장치에 의해 현재 옵티컬 플로우에 기반하여 현재 복원 영상이 생성될 수 있다.

구체적으로, 다른 장치는 비트스트림으로부터 획득되는 현재의 잔차 영상 데이터와, 현재 옵티컬 플로우에 따라 이전 복원 영상으로부터 생성되는 현재 예측 영상을 결합하여 현재 복원 영상을 생성할 수 있다.

이하에서는, 도 4 및 도 5를 참조하여, 획득부(310) 및 예측 복호화부(330)의 예시적인 동작에 대해 상세히 설명한다.

도 4는 도 3에 도시된 획득부(310)의 구성을 도시하는 도면이다.

도 4를 참조하면, 획득부(310)는 엔트로피 복호화부(311) 및 역양자화부(313)를 포함한다.

엔트로피 복호화부(311)는 비트스트림에 포함된 빈(bin)들을 엔트로피 코딩하여 현재의 잔차 옵티컬 플로우의 양자화된 특징 데이터 및 현재의 잔차 영상 데이터의 양자화된 특징 데이터를 획득한다.

역양자화부(313)는 현재의 잔차 옵티컬 플로우의 양자화된 특징 데이터 및 현재의 잔차 영상 데이터의 양자화된 특징 데이터를 각각 역양자화하여 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 획득한다.

구현예에 따라, 실시예들에서, 획득부(310)는 역변환부를 더 포함할 수 있다. 역변환부는 역양자화부(313)로부터 출력되는 특징 데이터들을 주파수 도메인으로부터 공간 도메인으로 역변환한다. 후술하는 영상 부호화 장치(1200)가 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 공간 도메인으로부터 주파수 도메인으로 변환하는 경우, 역변환부는 역양자화부(313)로부터 출력되는 특징 데이터들을 주파수 도메인에서 공간 도메인으로 역변환할 수 있다.

또한, 구현예에 따라, 실시예들에서, 획득부(310)는 역양자화부(313)를 포함하지 않을 수도 있다. 즉, 엔트로피 복호화부(311)에 의한 처리를 통해 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터가 획득될 수 있다.

또한, 구현예에 따라, 실시예들에서, 획득부(310)는 비트스트림에 포함된 빈들에 대한 역이진화만을 수행하여 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터를 획득할 수도 있다. 이는, 영상 부호화 장치(1200)가 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 이진화하여 비트스트림을 생성한 경우, 다시 말하면, 영상 부호화 장치(1200)가 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터에 대해 엔트로피 부호화, 변환 및 양자화를 적용하지 않는 경우에 수행될 수 있다.

다음으로, 도 5는 도 3에 도시된 예측 복호화부(330)의 구성을 도시하는 도면이다.

도 5를 참조하면, 예측 복호화부(330)는 제 1 디코더(331), 제 2 디코더(333), 옵티컬 플로우 예측부(334), 제 1 결합부(336), 움직임 보상부(335) 및 제 2 결합부(337)를 포함할 수 있다.

제 1 디코더(331) 및 제 2 디코더(333)는 메모리에 저장될 수 있다. 일 실시예에서, 제 1 디코더(331) 및 제 2 디코더(333)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

획득부(310)에 의해 출력된 현재의 잔차 옵티컬 플로우의 특징 데이터는 제 1 디코더(331)로 입력되고, 현재의 잔차 영상 데이터의 특징 데이터는 제 2 디코더(333)로 입력된다.

구현예에 따라, 현재의 잔차 영상 데이터의 정확한 복원을 위해, 실시예들에서, 현재의 잔차 옵티컬 플로우의 특징 데이터 또는 현재 옵티컬 플로우의 특징 데이터가 현재의 잔차 영상 데이터의 특징 데이터에 연접(concatenation)된 후 제 2 디코더(333)로 입력될 수도 있다. 여기서, 연접(concatenation)이란, 두 개 이상의 특징 데이터를 채널 방향으로 결합하는 처리를 의미할 수 있다.

제 1 디코더(331)는 훈련을 통해 설정된 파라미터에 따라 현재의 잔차 옵티컬 플로우의 특징 데이터를 처리하여 현재의 잔차 옵티컬 플로우를 획득한다. 현재의 잔차 옵티컬 플로우는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.

제 2 디코더(333)는 훈련을 통해 설정된 파라미터에 따라 현재의 잔차 영상 데이터의 특징 데이터를 처리하여 현재의 잔차 영상 데이터를 획득한다. 현재의 잔차 영상 데이터는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.

옵티컬 플로우 예측부(334)는 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 이용하여 현재의 예측 옵티컬 플로우를 획득한다.

현재의 예측 옵티컬 플로우는 1차원 또는 2차원의 데이터로서, 복수의 샘플들로 이루어질 수 있다.

일 실시예에서, 옵티컬 플로우 예측부(334)는 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정 또는 선택할 수 있다.

도 2를 참조하여 설명한 바와 같이, 연속하는 영상 내 오브젝트의 선형적인 움직임으로 인해, 이전 옵티컬 플로우가 현재 옵티컬 플로우에 매우 유사할 가능성이 높을 수 있다. 따라서, 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정하는 경우, 현재의 잔차 옵티컬 플로우의 샘플 값들의 크기 및 현재의 잔차 옵티컬 플로우의 특징 데이터의 샘플 값들의 크기가 작아질 수 있다.

옵티컬 플로우 예측부(334)에 의해 획득된 현재의 예측 옵티컬 플로우 및 제 1 디코더(331)를 통해 획득된 현재의 잔차 옵티컬 플로우는 제 1 결합부(336)로 제공된다.

제 1 결합부(336)는 현재의 예측 옵티컬 플로우와 현재의 잔차 옵티컬 플로우를 결합하여 현재 옵티컬 플로우를 복원한다. 제 1 결합부(336)는 현재의 예측 옵티컬 플로우의 샘플 값들과 현재의 잔차 옵티컬 플로우의 샘플 값들을 합하여 현재 옵티컬 플로우를 복원할 수 있다.

움직임 보상부(335)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 영상과 유사한 현재 예측 영상을 생성한다. 이전 복원 영상은 현재 영상의 처리 전에 처리 대상이었던 이전 영상에 대한 복호화를 통해 복원된 영상이다.

움직임 보상부(335)는 현재 예측 영상의 생성을 위해 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑할 수 있다. 현재 예측 영상의 생성을 위한 워핑은 하나의 예시이고, 움직임 보상부(335)는 현재 영상과 유사한 현재 예측 영상을 생성하기 위해, 이전 복원 영상 내 샘플들의 위치를 변경하는 다양한 영상 처리를 이전 복원 영상에 대해 적용할 수 있다.

움직임 보상부(335)에 의해 생성된 현재 예측 영상은 제 2 결합부(337)로 제공된다.

제 2 결합부(337)는 현재 예측 영상과 현재의 잔차 영상 데이터를 결합하여 현재 복원 영상을 획득한다. 일 예에서, 제 2 결합부(337)는 현재 예측 영상의 샘플 값들과 현재의 잔차 영상 데이터의 샘플 값들을 합산 값들을 포함하는 현재 복원 영상을 획득할 수 있다.

현재 복원 영상 및 현재 옵티컬 플로우는 다음 영상의 복호화 과정에서 이용될 수 있다.

구현예에 따라, 실시예들에서, 예측 복호화부(330)는 현재의 잔차 옵티컬 플로우의 특징 데이터로부터 현재 옵티컬 플로우를 복원하고, 복원된 현재 옵티컬 플로우를 다른 장치로 제공할 수도 있다. 이 경우, 제 2 디코더(333), 움직임 보상부(335) 및 제 2 결합부(337)는 예측 복호화부(330)에 포함되지 않을 수 있다.

구현예에 따라, 비트스트림로부터 현재의 잔차 영상 데이터가 획득 가능한 경우, 실시예들에서, 제 2 디코더(333)는 예측 복호화부(330)에 포함되지 않을 수도 있다. 즉, 예측 복호화부(330)는 획득부(310)가 비트스트림으로부터 획득한 현재의 잔차 영상 데이터를 현재 예측 영상에 결합하여 현재 복원 영상을 생성할 수 있다.

본 개시의 일 실시예에 따르면, 현재 옵티컬 플로우에 비해 작은 크기의 샘플들을 포함하는 현재의 잔차 옵티컬 플로우에 기초하여 비트스트림이 생성되므로, 현재 옵티컬 플로우로부터 비트스트림이 생성되는 경우에 비해 낮은 비트레이트의 달성이 가능하다.

앞서, 도 5에 대응하는 실시예들에서 옵티컬 플로우 예측부(334)가 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정하였는데, 이하에서는, 도 6 내지 도 8을 참조하여 옵티컬 플로우 예측부(334)의 다른 실시예에 따른 예시적인 동작을 설명한다.

도 6은 일 실시예에 따른 옵티컬 플로우 예측부(600)의 구성을 도시하는 도면이다.

도 6을 참조하면, 옵티컬 플로우 예측부(600)는 제 1 예측 신경망(first prediction neural network)(610)를 포함한다. 제 1 예측 신경망(610)은 메모리에 저장될 수 있다. 일 실시예에서, 제 1 예측 신경망(610)은 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

현재의 예측 옵티컬 플로우의 획득을 위해 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나가 제 1 예측 신경망(610)으로 입력된다.

이전 옵티컬 플로우의 특징 데이터는 이전 영상의 복원 과정 중에 이용되는 이전 옵티컬 플로우에 잠재된 특징을 나타낸다.

일 실시예에서, 이전 옵티컬 플로우의 특징 데이터는 이전 영상이 I(intra) 프레임 다음의 P(predictive) 프레임인 경우에 이전 옵티컬 플로우의 복원 과정에서 획득될 수 있다. I 프레임 및 P 프레임에 대해서는 후술한다.

다른 실시예에서, 예측 복호화부(330)는 이전 옵티컬 플로우의 복원 후, 복원된 이전 옵티컬 플로우를 신경망에 적용하여 이전 옵티컬 플로우의 특징 데이터를 획득할 수도 있다.

제 1 예측 신경망(610)은 훈련을 통해 설정된 파라미터를 통해 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 처리하여 현재의 예측 옵티컬 플로우를 획득한다.

도 5를 참조하여 설명한 것과 같이, 현재의 예측 옵티컬 플로우와 현재의 잔차 옵티컬 플로우가 결합됨으로써, 현재 예측 영상을 생성하는데 이용되는 현재 옵티컬 플로우가 획득된다. 도 20 및 도 21을 참조하여 후술하는 바와 같이, 제 1 예측 신경망(610)은 손실 정보의 공유를 통해, 다시 말하면 공통의 목적을 가지고 제 1 인코더(1211), 제 2 인코더(1215), 제 1 디코더(331) 및 제 2 디코더(333)와 함께 훈련될 수 있다.

제 1 예측 신경망(610)에 의해 출력되는 데이터는 제 1 디코더(331)에 의해 출력되는 현재의 잔차 옵티컬 플로우에 결합된 후, 현재 예측 영상을 생성하는데 이용되므로, 제 1 예측 신경망(610)은 현재 옵티컬 플로우와 현재의 잔차 옵티컬 플로우 사이의 차이, 즉 현재의 예측 옵티컬 플로우를 출력하도록 훈련될 수 있다.

도 7은 다른 실시예에 따른 옵티컬 플로우 예측부(700)의 구성을 도시하는 도면이다.

도 7을 참조하면, 옵티컬 플로우 예측부(700)는 제 2 예측 신경망(second prediction neural network)(710) 및 변경부(720)를 포함한다.

제 2 예측 신경망(710)은 메모리에 저장될 수 있다. 일 실시예에서, 제 2 예측 신경망(710)은 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나가 제 2 예측 신경망(710)으로 입력된다.

제 2 예측 신경망(710)은 훈련을 통해 설정된 파라미터를 통해 현재의 예측 옵티컬 플로우와 이전 옵티컬 플로우 사이의 세컨드-오더 옵티컬 플로우(second-order optical flow)를 획득한다.

세컨드-오더 옵티컬 플로우는 옵티컬 플로우들 사이의 옵티컬 플로우일 수 있는데, 옵티컬 플로우 내 샘플들 또는 블록들에 대응하는 움직임 벡터들의 집합으로 정의 또는 표현될 수 있다.

세컨드-오더 옵티컬 플로우는 이전 옵티컬 플로우 내 샘플들의 위치가 현재의 예측 옵티컬 플로우 내에서 어떻게 변경되었는지 또는 현재의 예측 옵티컬 플로우의 샘플들의 참조 샘플들이 이전 옵티컬 플로우 내 어디에 위치하는지를 나타낼 수 있다. 예를 들어, 이전 옵티컬 플로우 내 (1, 1)에 위치한 샘플이 현재의 예측 옵티컬 플로우 내 (2, 1)에 위치한다면, 해당 샘플에 대한 세컨드-오더 옵티컬 플로우 또는 움직임 벡터는 (1(=2-1), 0(=1-1))으로 도출될 수 있다.

변경부(720)(예를 들어, 옵티컬 플로우 변형부 또는 옵티컬 플로우 처리부일 수 있다)는 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득한다.

변경부(720)의 동작은 도 5에 도시된 움직임 보상부(335)의 동작과 유사하다. 즉, 움직임 보상부(335)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 워핑하여 현재 예측 영상을 획득할 수 있고, 변경부(720)는 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 워핑하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

현재의 예측 옵티컬 플로우의 생성을 위한 워핑은 하나의 예시이고, 변경부(720)는 현재 옵티컬 플로우에 유사한 현재의 예측 옵티컬 플로우를 생성하기 위해 이전 옵티컬 플로우 내 샘플들의 위치를 변경하는 다양한 처리를 이전 옵티컬 플로우에 대해 적용할 수 있다.

제 2 예측 신경망(710)에 의해 출력되는 데이터는, 이전 옵티컬 플로우 내 샘플들의 위치를 변경하는데 이용되므로, 손실 정보에 기반한 제 2 예측 신경망(710)의 훈련을 통해 제 2 예측 신경망(710)은 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 변경하기 위한 데이터, 즉, 세컨드-오더 옵티컬 플로우를 출력할 수 있다.

도 8은 또 다른 실시예에 따른 옵티컬 플로우 예측부(800)의 구성을 도시하는 도면이다.

도 8을 참조하면, 옵티컬 플로우 예측부(800)는 제 3 디코더(810) 및 변경부(720)를 포함한다. 제 3 디코더(810)은 메모리에 저장될 수 있다. 일 실시예에서, 제 3 디코더(810)은 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

제 3 디코더(810)는 훈련을 통해 설정된 파라미터에 따라 세컨드-오더 옵티컬 플로우의 특징 데이터를 처리하여 세컨드-오더 옵티컬 플로우를 획득한다.

세컨드-오더 옵티컬 플로우의 특징 데이터는 비트스트림으로부터 획득될 수 있다. 획득부(310)는 비트스트림으로부터 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득하여 예측 복호화부(330)로 제공할 수 있다.

영상 부호화 장치(1200)는 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터를 포함하는 비트스트림을 생성할 수 있는데, 구현예에 따라, 실시예들에서, 영상 부호화 장치(1200)는 세컨드-오더 옵티컬 플로우의 특징 데이터를 더 포함하는 비트스트림을 생성할 수 있다. 이에 대한 예시에 대해 도 14를 참조하여 후술한다.

변경부(720)는 세컨드-오더 옵티컬 플로우에 따라 이전 옵티컬 플로우를 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

일 실시예에서, 변경부(720)는 현재의 예측 옵티컬 플로우의 획득을 위해 세컨드-오더 옵티컬 플로우에 따라 이전 옵티컬 플로우를 워핑할 수 있다. 현재의 예측 옵티컬 플로우의 생성을 위한 워핑은 하나의 예시이고, 변경부(720)는 현재 옵티컬 플로우에 유사한 현재의 예측 옵티컬 플로우를 생성하기 위해, 이전 옵티컬 플로우 내 샘플들의 위치를 세컨드-오더 옵티컬 플로우에 따라 변경하는 다양한 처리를 이전 옵티컬 플로우에 대해 적용할 수 있다.

도 8에 따른 실시예에서는, 영상 부호화 장치(1200)로부터 제공된 세컨드-오더 옵티컬 플로우의 특징 데이터가 제 3 디코더(810)로 입력되어 처리된다. 따라서, 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 입력받아 처리하는 제 1 예측 신경망(610) 및 제 2 예측 신경망(710)에 비해 제 3 디코더(810)의 복잡도가 감소될 수 있다. 왜냐하면, 제 3 디코더(810)는 세컨드-오더 옵티컬 플로우 자체의 특징을 나타내는 세컨드-오더 옵티컬 플로우의 특징 데이터를 처리하는데 반해, 제 1 예측 신경망(610)과 제 2 예측 신경망(710)은 현재의 예측 옵티컬 플로우 및 세컨드-오더 옵티컬 플로우와의 관련성이 상대적으로 낮을 수 있는 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 및/또는 이전의 잔차 옵티컬 플로우의 특징 데이터를 처리하기 때문이다.

S910 단계에서, 영상 복호화 장치(300)는 현재 영상에 대한 비트스트림으로부터 현재의 잔차 옵티컬 플로우에 대한 특징 데이터를 획득한다.

영상 복호화 장치(300)는 비트스트림에 포함된 빈들에 대해 역이진화, 엔트로피 복호화, 역양자화 또는 역변환 중 적어도 하나를 적용하여 현재의 잔차 옵티컬 플로우에 대한 특징 데이터를 획득할 수 있다.

S920 단계에서, 영상 복호화 장치(300)는 신경망 기반의 제 1 디코더에 현재의 잔차 옵티컬 플로우에 대한 특징 데이터를 적용하여 현재의 잔차 옵티컬 플로우를 획득한다.

S930 단계에서, 영상 복호화 장치(300)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 이용하여 현재의 예측 옵티컬 플로우를 획득한다.

일 실시예에서, 영상 복호화 장치(300)는 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정할 수 있다.

다른 실시예에서, 영상 복호화 장치(300)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 1 예측 신경망(610)에 적용하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

또 다른 실시예에서, 영상 복호화 장치(300)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 2 예측 신경망(710)에 적용하여 세컨드-오더 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

또 다른 실시예에서, 영상 복호화 장치(300)는 비트스트림으로부터 획득되는 세컨드-오더 옵티컬 플로우에 대한 특징 데이터를 제 3 디코더(810)에 적용하여 세컨드-오더 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

S940 단계에서, 영상 복호화 장치(300)는 현재의 잔차 옵티컬 플로우와 현재의 예측 옵티컬 플로우를 이용하여 현재 옵티컬 플로우를 복원한다. 영상 복호화 장치(300)는 현재의 잔차 옵티컬 플로우의 샘플 값들과 현재의 예측 옵티컬 플로우의 샘플 값들을 합하여 현재 옵티컬 플로우를 획득할 수 있다.

일 실시예에서, 영상 복호화 장치(300)는 비트스트림으로부터 현재의 잔차 영상 데이터에 대한 특징 데이터를 획득하고, 현재의 잔차 영상 데이터에 대한 특징 데이터를 제 2 디코더(333)에 적용하여 현재의 잔차 영상 데이터를 획득할 수 있다. 그리고, 영상 복호화 장치(300)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 예측 영상을 획득하고, 현재 예측 영상과 현재의 잔차 영상 데이터를 결합하여 현재 복원 영상을 획득할 수 있다.

다른 실시예에서, 영상 복호화 장치(300)는 비트스트림으로부터 현재의 잔차 영상 데이터를 획득할 수 있다. 그리고, 영상 복호화 장치(300)는 이전 복원 영상을 현재 옵티컬 플로우에 따라 처리하여 현재 예측 영상을 획득하고, 현재 예측 영상과 현재의 잔차 영상 데이터를 결합하여 현재 복원 영상을 획득할 수 있다.

또 다른 실시예에서, 영상 복호화 장치(300)는 현재 옵티컬 플로우를 다른 장치로 제공하여 다른 장치에 의해 현재 복원 영상이 획득되도록 할 수 있다.

한편, 도 3 내지 도 9와 관련하여 설명한 예시적인 인터 예측 과정은, 이전 영상이 인터 예측을 통해 처리된 경우를 고려한 것이다. 왜냐하면, 현재 옵티컬 플로우를 복원하는데 이용되는 이전 옵티컬 플로우는 이전 영상의 인터 예측 과정에서 생성된 것이기 때문이다.

즉, 도 3 내지 도 9와 관련하여 설명한 인터 예측 과정은 현재 영상이 P(predictive) 프레임 다음의 P 프레임에 해당하는 경우, 다시 말하면 이전 영상이 P 프레임이고, 현재 영상이 P 프레임인 경우에 적용될 수 있다. 여기서, P 프레임이란, 인트라 예측 또는 인터 예측을 통해 복원될 수 있는 영상 또는 프레임을 의미한다. 인트라 예측을 통해서만 복원될 수 있는 영상 또는 프레임은 I(intra) 프레임으로 참조된다.

따라서, 만약 이전 영상이 I 프레임이라면, 이전 옵티컬 플로우는 획득되지 않으므로, 이하에서는 현재 영상이 I 프레임 다음의 P 프레임인 경우, 다시 말하면, 이전 영상이 I 프레임이고, 현재 영상이 P 프레임인 경우를 위한 예시적인 인터 예측 과정에 대해 설명한다.

도 10은 예측 복호화부(330)의 다른 구성을 도시하는 도면이다.

도 10을 참조하면, 예측 복호화부(330)는 제 4 디코더(1010), 제 2 디코더(333), 움직임 보상부(335) 및 제 2 결합부(337)를 포함한다.

제 4 디코더(1010)는 메모리에 저장될 수 있다. 일 실시예에서, 제 4 디코더(1010)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

제 4 디코더(1010)는 훈련을 통해 설정된 파라미터에 따라 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 획득한다.

현재 옵티컬 플로우의 특징 데이터는 비트스트림으로부터 획득될 수 있다. 즉, 획득부(310)는 비트스트림에 포함된 빈들에 대해 역이진화, 엔트로피 복호화, 역양자화 또는 역변환 중 적어도 하나를 적용하여 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다.

제 2 디코더(333)는 훈련을 통해 설정된 파라미터에 따라 현재의 잔차 영상 데이터의 특징 데이터를 처리하여 현재의 잔차 영상 데이터를 획득한다.

움직임 보상부(335)는 현재 옵티컬 플로우에 따라 이전 복원 영상을 처리하여 현재 예측 영상을 획득하고, 제 2 결합부(337)는 현재 예측 영상과 현재의 잔차 영상 데이터를 결합하여 현재 복원 영상을 획득한다.

구현예에 따라, 실시예들에서, 예측 복호화부(330)는 현재 옵티컬 플로우를 다른 장치로 전송하고, 다른 장치에 의해 현재 복원 영상이 획득되도록 할 수 있다. 이 경우, 제 2 디코더(333), 움직임 보상부(335) 및 제 2 결합부(337)는 예측 복호화부(330)에 포함되지 않을 수 있다.

실시예들에서, 예측 복호화부(330)는 현재 영상이 I 프레임 다음의 P 프레임인지, 아니면 P 프레임 다음의 P 프레임인지를 판단하는 판단부를 더 포함할 수 있다.

실시예들에서, 예측 복호화부(330)는 현재 영상이 P 프레임 다음의 P 프레임인 경우, 도 5에 도시된 제 1 디코더(331), 옵티컬 플로우 예측부(334) 및 제 1 결합부(336)를 통해 현재 옵티컬 플로우를 복원하고, 현재 영상이 I 프레임 다음의 P 프레임인 경우, 도 10에 도시된 제 4 디코더(1010)를 통해 현재 옵티컬 플로우를 복원할 수 있다.

도 11은 다른 실시예에 따른 옵티컬 플로우를 복원하는 방법의 순서도이다.

S1110 단계에서, 영상 복호화 장치(300)는 현재 영상이 I 프레임 다음의 P 프레임인지를 판단한다.

현재 영상이 I 프레임 다음의 P 프레임인 경우, S1120 단계에서, 영상 복호화 장치(300)는 비트스트림으로부터 현재 옵티컬 플로우에 대한 특징 데이터를 획득한다.

영상 복호화 장치(300)는 비트스트림에 포함된 빈들에 대해 역이진화, 엔트로피 복호화, 역양자화 또는 역변환 중 적어도 하나를 적용하여 현재 옵티컬 플로우에 대한 특징 데이터를 획득할 수 있다.

S1130 단계에서, 영상 복호화 장치(300)는 현재 옵티컬 플로우에 대한 특징 데이터를 제 4 디코더(1010)에 적용하여 현재 옵티컬 플로우를 획득한다.

현재 영상이 I 프레임 다음의 P 프레임이 아닌 경우, 다시 말하면, 현재 영상이 P 프레임 다음의 P 프레임인 경우, 영상 복호화 장치(300)는 도 9에 도시된 S910 단계 내지 S940 단계를 통해 현재 옵티컬 플로우를 복원할 수 있다.

이하에서는, 도 12 내지 도 15를 참조하여 영상 부호화 장치(1200)의 예시적인 동작에 대해 설명한다.

도 12는 일 실시예에 따른 영상 부호화 장치(1200)의 구성을 도시하는 도면이다.

도 12를 참조하면, 영상 부호화 장치(1200)는 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)를 포함한다.

예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)는 프로세서로 구현될 수 있고, 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 12는 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)를 개별적으로 도시하고 있으나, 실시예들에서, 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)는 하나의 엘리먼트, 예를 들어, 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.

예측 부호화부(1210)는 현재 영상과 이전 복원 영상 등을 이용하여 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 획득한다.

예측 부호화부(1210)는 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터의 획득을 위해 신경망 기반의 제 1 인코더(1211)와 신경망 기반의 제 2 인코더(1215)를 이용할 수 있다.

예측 부호화부(1210)에 의해 획득된 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터는 생성부(1230)(예를 들어, 비트스트림 생성부일 수 있다)로 전달된다.

생성부(1230)는 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터로부터 비트스트림을 생성한다. 일 실시예에서, 생성부(1230)는 현재의 잔차 옵티컬 플로우의 특징 데이터에 대응하는 제 1 비트스트림, 및 현재의 잔차 영상 데이터의 특징 데이터에 대응하는 제 2 비트스트림을 생성할 수도 있다.

비트스트림은 네트워크를 통해 영상 복호화 장치(300)로부터 전송될 수 있다. 또한, 일 실시예에서, 비트스트림은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 기록될 수도 있다.

획득부(1250)(예를 들어, 비트스트림 획득부일 수 있다)는 생성부(1230)에 의해 생성된 비트스트림으로부터 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 획득한다. 구현예에 따라, 실시예들에서, 획득부(1250)는 예측 부호화부(1210)로부터 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 수신할 수도 있다.

현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터는 예측 복호화부(1270)로 전달되고, 예측 복호화부(1270)는 현재의 잔차 옵티컬 플로우의 특징 데이터를 이용하여 현재 옵티컬 플로우를 복원하고, 현재 옵티컬 플로우와 현재의 잔차 영상 데이터의 특징 데이터를 이용하여 현재 복원 영상을 획득한다.

예측 복호화부(1270)에 의해 획득된 현재 옵티컬 플로우 및 현재 복원 영상은 다음 영상의 부호화 과정에서 이용될 수 있다.

획득부(1250) 및 예측 복호화부(1270)의 구성 및 동작은 앞서 도 3 내지 도 5에 도시된 획득부(310) 및 예측 복호화부(330)의 동작에 대응할 수 있으므로 상세한 설명을 생략한다. 다만, 도 13에 예시된 것과 같이, 예측 부호화부(1210)가 옵티컬 플로우 예측부(1217)를 포함하는 실시예들에서, 도 5에 도시된 예측 복호화부(330)와 달리 예측 복호화부(1270)는 옵티컬 플로우 예측부(334)를 포함하지 않을 수 있다. 왜냐하면, 예측 복호화부(1270)는 예측 부호화부(1210)에 포함된 옵티컬 플로우 예측부(1217)에 의해 획득되는 현재의 예측 옵티컬 플로우를 이용할 수 있기 때문이다.

일 실시예에서, 예측 부호화부(1210)는 현재 영상 및 이전 복원 영상을 이용하여 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하고, 생성부(1230)는 현재의 잔차 옵티컬 플로우의 특징 데이터에 대응하는 비트스트림을 생성할 수 있다. 그리고, 획득부(1250)는 비트스트림으로부터 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하고, 예측 복호화부(1270)는 현재의 잔차 옵티컬 플로우의 특징 데이터에 기초하여 현재 옵티컬 플로우를 복원할 수 있다.

즉, 예측 부호화부(1210), 생성부(1230), 획득부(1250) 및 예측 복호화부(1270)를 통해 현재 옵티컬 플로우가 부호화되므로, 이 경우, 영상 부호화 장치(1200)는 옵티컬 플로우 부호화 장치로 참조될 수 있다.

예측 복호화부(1270)에 의해 복원된 현재 옵티컬 플로우는 다른 장치로 전달되고, 다른 장치에 의해 현재의 잔차 영상 데이터가 부호화될 수 있다. 구체적으로, 다른 장치는 현재 옵티컬 플로우에 따라 이전 복원 영상으로부터 획득되는 현재 예측 영상과 현재 영상 사이의 차이에 대응하는 현재의 잔차 영상 데이터를 부호화할 수 있다.

도 13 내지 도 15를 참조하여, 예측 부호화부(1210) 및 생성부(1230)의 예시적인 구성에 대해 좀더 상세히 설명한다.

도 13은 도 12에 도시된 예측 부호화부(1210)의 구성을 도시하는 도면이다.

예측 부호화부(1210)는 옵티컬 플로우 예측부(1217), 제 1 인코더(1211), 제 2 인코더(1215) 및 차감부(1213)를 포함한다.

제 1 인코더(1211) 및 제 2 인코더(1215)는 메모리에 저장될 수 있다. 일 실시예에서, 제 1 인코더(1211) 및 제 2 인코더(1215)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

도 13을 참조하면, 옵티컬 플로우 예측부(1217)는 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 이용하여 현재의 예측 옵티컬 플로우를 획득한다.

옵티컬 플로우 예측부(1217)는 영상 복호화 장치(300)의 옵티컬 플로우 예측부(334)와 동일한 방식으로 현재의 예측 옵티컬 플로우를 획득할 수 있다.

일 예로, 옵티컬 플로우 예측부(1217)는 도 6 또는 도 7에 도시된 옵티컬 플로우 예측부(600 또는 700)와 동일한 구성을 가짐으로써 현재의 예측 옵티컬 플로우를 획득할 수 있다.

구체적으로, 도 6과 관련하여 설명한 바와 같이, 옵티컬 플로우 예측부(1217)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 1 예측 신경망(610)에 적용하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

또한, 도 7과 관련하여 설명한 바와 같이 옵티컬 플로우 예측부(1217)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 2 예측 신경망(710)에 적용하여 세컨드-오더 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

다른 예로, 옵티컬 플로우 예측부(1217)는 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정할 수 있다.

영상 복호화 장치(300)의 옵티컬 플로우 예측부(334)가 도 8에 도시된 바와 같이, 제 3 디코더(810) 및 변경부(720)를 포함하는 경우, 영상 부호화 장치(1200)의 옵티컬 플로우 예측부(1217)는 도 14를 참조하여 아래에서 설명되는 것과 같은 구성들을 가질 수 있다.

현재 영상, 이전 복원 영상 또는 현재의 예측 옵티컬 플로우 중 적어도 하나가 제 1 인코더(1211)로 입력된다. 현재 영상, 이전 복원 영상 또는 현재의 예측 옵티컬 플로우 중 적어도 하나는 연접된 후 제 1 인코더(1211)로 입력될 수 있다.

현재 영상과 이전 복원 영상으로부터 현재 옵티컬 플로우에 대한 정보가 도출될 수 있으므로, 제 1 인코더(1211)는 현재 영상과 이전 복원 영상으로부터 확인되는 현재 옵티컬 플로우, 및 옵티컬 플로우 예측부(1217)에 의해 생성되는 현재의 예측 옵티컬 플로우를 이용하여 이들 사이의 차이에 대응하는 현재의 잔차 옵티컬 플로우의 특징 데이터를 출력할 수 있다.

제 1 인코더(1211)는 훈련의 결과로 설정된 파라미터에 따라 현재 영상, 이전 복원 영상 또는 현재의 예측 옵티컬 플로우 중 적어도 하나를 처리하여 현재의 잔차 옵티컬 플로우의 특징 데이터를 출력한다.

도 12에 도시된 예측 복호화부(1270)는 현재의 잔차 옵티컬 플로우의 특징 데이터에 기초하여 현재 옵티컬 플로우를 복원하고, 현재 옵티컬 플로우에 따라 이전 복원 영상으로부터 생성된 현재 예측 영상을 차감부(1213)로 제공된다.

차감부(1213)는 현재 영상과 현재 예측 영상 사이의 현재의 잔차 영상 데이터를 획득한다. 차감부(1213)는 현재 영상의 샘플 값들로부터 현재 예측 영상의 샘플 값들을 차감하여 현재의 잔차 영상 데이터를 획득할 수 있다.

현재의 잔차 영상 데이터는 제 2 인코더(1215)로 입력되고, 제 2 인코더(1215)는 훈련의 결과로 설정된 파라미터에 따라 현재의 잔차 영상 데이터를 처리하여 현재의 잔차 영상 데이터의 특징 데이터를 출력한다.

전술한 생성부(1230)는 예측 부호화부(1210)로부터 출력된 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터에 기초하여 비트스트림을 생성한다.

도 14는 도 8에 도시된 옵티컬 플로우 예측부(800)에 대응하는 영상 부호화 장치(1200)의 옵티컬 플로우 예측부(1217)의 구성을 도시하는 도면이다.

도 14를 참조하면, 옵티컬 플로우 예측부(1217)는 제 3 인코더(1410), 제 3 디코더(810) 및 변경부(720)를 포함한다. 도 8과 비교하면, 옵티컬 플로우 예측부(1217)는 제 3 인코더(1410)를 포함하는 것을 알 수 있다.

제 3 인코더(1410) 및 제 3 디코더(810)는 메모리에 저장될 수 있다. 일 실시예에서, 제 3 인코더(1410) 및 제 3 디코더(810)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

제 3 인코더(1410)는 훈련에 따라 설정된 파라미터에 따라 현재 영상, 이전 복원 영상, 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 처리하여 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득한다.

세컨드-오더 옵티컬 플로우의 특징 데이터에 대응하는 비트스트림이 영상 복호화 장치(300)로 제공될 수 있다.

일 실시예에서, 변경부(720)는 현재의 예측 옵티컬 플로우의 획득을 위해 세컨드-오더 옵티컬 플로우에 따라 이전 옵티컬 플로우를 워핑할 수 있다. 워핑은 하나의 예시이고, 변경부(720)는 현재의 예측 옵티컬 플로우를 생성하기 위해 이전 옵티컬 플로우 내 샘플들의 위치를 변경하는 다양한 처리를 이전 옵티컬 플로우에 대해 적용할 수 있다.

도 14에 도시된 옵티컬 플로우 예측부(1217)는 영상 부호화 장치(1200)가 이용할 수 있는 여러 종류의 데이터를 이용하여 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득한다. 그리고, 세컨드-오더 옵티컬 플로우의 특징 데이터는 영상 복호화 장치(300)로 시그널링된다. 영상 복호화 장치(300)의 옵티컬 플로우 예측부(800)는 영상 부호화 장치(1200)로부터 시그널링된 세컨드-오더 옵티컬 플로우의 특징 데이터를 제 3 디코더(810)로 처리하여 세컨드-오더 옵티컬 플로우를 획득한다.

영상 복호화 장치(300)가 영상 부호화 장치(1200)로부터 시그널링된 세컨드-오더 옵티컬 플로우의 특징 데이터를 이용하여 획득한 예측 옵티컬 플로우는, 영상 복호화 장치(300)가 스스로 획득한 예측 옵티컬 플로우에 비해 정확할 수 있다. 왜냐하면, 영상 부호화 장치(1200)는, 영상 복호화 장치(300)가 이용할 수 있거나, 사용할 수 있는 것보다 더 많은 종류의 데이터를 이용하여 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득할 수 있기 때문이다. 일 예로, 현재 영상은 현재 영상의 복호화 전에는 영상 복호화 장치(300)가 이용할 수 없으므로, 예를 들어, 도 6 및 도 7에 도시된 옵티컬 플로우 예측부(600, 700)는 현재의 예측 옵티컬 플로우를 획득하는데 현재 영상을 이용하지 않는다.

도 15는 도 12에 도시된 생성부(1230)의 구성을 도시하는 도면이다.

도 15를 참조하면, 생성부(1230)는 양자화부(1231) 및 엔트로피 부호화부(1233)를 포함한다.

양자화부(1231)는 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 양자화한다.

엔트로피 부호화부(1233)는 현재의 잔차 옵티컬 플로우의 양자화된 특징 데이터와 현재의 잔차 영상 데이터의 양자화된 특징 데이터를 엔트로피 코딩하여 비트스트림을 생성한다.

구현예에 따라, 실시예들에서, 생성부(1230)는 변환부를 더 포함할 수 있다. 변환부는 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터를 공간 도메인에서 주파수 도메인으로 변환하여 양자화부(1231)로 제공한다.

또한, 구현예에 따라, 실시예들에서, 생성부(1230)는 양자화부(1231)를 포함하지 않을 수도 있다. 즉, 엔트로피 부호화부(1233)에 의한 처리를 통해 현재의 잔차 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터에 대응하는 비트스트림이 획득될 수 있다.

또한, 구현예에 따라, 실시예들에서, 생성부(1230)는 현재의 잔차 옵티컬 플로우의 특징 데이터와 현재의 잔차 영상 데이터의 특징 데이터에 대해 이진화를 수행하여 비트스트림을 생성할 수도 있다. 즉, 생성부(1230)가 이진화만을 수행하는 경우, 양자화부(1231), 엔트로피 부호화부(1233)는 생성부(1230)에 포함되지 않을 수 있다.

도 16은 일 실시예에 따른 옵티컬 플로우의 부호화 방법의 순서도이다.

S1610 단계에서, 영상 부호화 장치(1200)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나로부터 현재의 예측 옵티컬 플로우를 획득한다.

일 실시예에서, 영상 부호화 장치(1200)는 이전 옵티컬 플로우를 현재의 예측 옵티컬 플로우로 결정할 수 있다.

다른 실시예에서, 영상 부호화 장치(1200)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 1 예측 신경망(610)에 적용하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

또 다른 실시예에서, 영상 부호화 장치(1200)는 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 2 예측 신경망(710)에 적용하여 세컨드-오더 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

또 다른 실시예에서, 영상 부호화 장치(1200)는 현재 영상, 이전 복원 영상, 이전 옵티컬 플로우, 이전 옵티컬 플로우에 대한 특징 데이터 또는 이전의 잔차 옵티컬 플로우에 대한 특징 데이터 중 적어도 하나를 제 3 인코더(1410)에 적용하여 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득하고, 세컨드-오더 옵티컬 플로우의 특징 데이터를 제 3 디코더(810)에 적용하여 세컨드-오더 옵티컬 플로우를 획득한다. 그리고, 영상 부호화 장치(1200)는 이전 옵티컬 플로우를 세컨드-오더 옵티컬 플로우에 따라 처리하여 현재의 예측 옵티컬 플로우를 획득할 수 있다.

S1620 단계에서, 영상 부호화 장치(1200)는 현재 영상, 이전 복원 영상 또는 현재의 예측 옵티컬 플로우 중 적어도 하나를 신경망 기반의 제 1 인코더(1211)에 적용하여 현재의 잔차 옵티컬 플로우에 대한 특징 데이터를 획득한다.

S1630 단계에서, 영상 부호화 장치(1200)는 현재의 잔차 옵티컬 플로우에 대한 특징 데이터에 대응하는 비트스트림을 생성한다.

일 실시예에서, 비트스트림은 세컨드-오더 옵티컬 플로우의 특징 데이터 및/또는 현재의 잔차 영상 데이터의 특징 데이터를 더 포함할 수 있다.

일 실시예에서, 영상 부호화 장치(1200)는 현재의 잔차 옵티컬 플로우에 대한 특징 데이터로부터 현재 옵티컬 플로우를 복원하고, 복원된 현재 옵티컬 플로우를 기초로 이전 복원 영상을 처리하여 현재 예측 영상을 획득한다. 그리고, 영상 부호화 장치(1200)는 현재 예측 영상과 현재 영상 사이의 차이에 대응하는 현재의 잔차 영상 데이터를 제 2 인코더(1215)에 적용하여 현재의 잔차 영상 데이터의 특징 데이터를 획득할 수 있다. 현재의 잔차 영상 데이터의 특징 데이터는 비트스트림에 포함될 수 있다.

다른 실시예에서, 영상 부호화 장치(1200)는 현재의 잔차 옵티컬 플로우에 대한 특징 데이터로부터 현재 옵티컬 플로우를 복원하고, 복원된 현재 옵티컬 플로우를 기초로 이전 복원 영상을 처리하여 현재 예측 영상을 획득한다. 그리고, 현재 예측 영상과 현재 영상 사이의 차이에 대응하는 현재의 잔차 영상 데이터를 비트스트림에 포함시킬 수 수 있다.

한편, 도 12 내지 도 16과 관련하여 설명한 부호화 과정은, 이전 영상이 인터 예측을 통해 처리된 경우를 고려한 것이다. 왜냐하면, 현재 옵티컬 플로우를 부호화하는데 이용되는 이전 옵티컬 플로우는 이전 영상의 인터 예측 과정에서 생성된 것이기 때문이다.

즉, 도 12 내지 도 16과 관련하여 설명한 부호화 과정은 현재 영상이 P 프레임이고, 이전 영상이 P 프레임 경우, 예를 들어, 현재 영상이 P 프레임 다음의 P 프레임에 해당하는 경우에 적용될 수 있다. 만약 이전 영상이 I 프레임이라면, 이전 옵티컬 플로우는 획득되지 않을 수 있으므로, 이하에서는, 현재 영상이 I 프레임 다음의 P 프레임인 경우를 위한 부호화 과정에 대해 설명한다.

도 17은 예측 부호화부(1210)의 다른 구성을 도시하는 도면이다.

도 17을 참조하면, 예측 부호화부(1210)는 제 4 인코더(1710), 제 2 인코더(1215) 및 차감부(1213)를 포함한다.

제 4 인코더(1710) 및 제 2 인코더(1215)는 메모리에 저장될 수 있다. 일 실시예에서, 제 4 인코더(1710) 및 제 2 인코더(1215)는 AI를 위한 적어도 하나의 전용 프로세서로 구현될 수도 있다.

제 4 인코더(1710)는 훈련에 따라 설정된 파라미터에 따라 현재 영상 및 이전 복원 영상을 처리하여 현재 옵티컬 플로우의 특징 데이터를 획득한다.

도 12에 도시된 예측 복호화부(1270)는 현재 옵티컬 플로우의 특징 데이터에 기초하여 현재 옵티컬 플로우를 복원하고, 현재 옵티컬 플로우에 따라 이전 복원 영상으로부터 생성된 현재 예측 영상을 차감부(1213)로 제공된다. 예측 복호화부(1270)는 현재 옵티컬 플로우의 복원을 위해 도 10에 도시된 제 4 디코더(1010)를 이용할 수 있다.

생성부(1230)는 예측 부호화부(1210)로부터 출력된 현재 옵티컬 플로우의 특징 데이터 및 현재의 잔차 영상 데이터의 특징 데이터에 기초하여 비트스트림을 생성한다.

실시예들에서, 예측 부호화부(1210)는 현재 영상이 I 프레임 다음의 P 프레임인지, 아니면 P 프레임 다음의 P 프레임인지를 판단하는 판단부를 더 포함할 수 있다.

예측 부호화부(1210)는 현재 영상이 P 프레임 다음의 P 프레임인 경우, 도 13에 도시된 옵티컬 플로우 예측부(1217) 및 제 1 인코더(1211)를 통해 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하고, 현재 영상이 I 프레임 다음의 P 프레임인 경우, 도 17에 도시된 제 4 인코더(1710)를 통해 현재 옵티컬 플로우의 특징 데이터를 획득할 수 있다.

한편, 전술한, 제 1 인코더(1211), 제 2 인코더(1215), 제 3 인코더(1410), 제 4 인코더(1710), 제 1 디코더(331), 제 2 디코더(333), 제 3 디코더(810), 제 4 디코더(1010), 제 1 예측 신경망(610) 또는 제 2 예측 신경망(710) 중 적어도 하나는 컨볼루션 레이어를 포함할 수 있다.

제 1 인코더(1211), 제 2 인코더(1215), 제 3 인코더(1410), 제 4 인코더(1710), 제 1 디코더(331), 제 2 디코더(333), 제 3 디코더(810), 제 4 디코더(1010), 제 1 예측 신경망(610) 및 제 2 예측 신경망(710)이 가질 수 있는 예시적인 구조에 대해 도 18을 참조하여 설명한다.

도 18은 일 실시예에 따른 신경망(1800)의 구조를 예시하는 도면이다.

도 18에 도시된 바와 같이, 입력 데이터(1805)는 제 1 컨볼루션 레이어(1810)로 입력된다. 여기서, 입력 데이터(1805)는 신경망(1800)이 제 1 인코더(1211), 제 2 인코더(1215), 제 3 인코더(1410), 제 4 인코더(1710), 제 1 디코더(331), 제 2 디코더(333), 제 3 디코더(810), 제 4 디코더(1010), 제 1 예측 신경망(610) 및 제 2 예측 신경망(710) 중 어느 것인지 따라 달라진다.

일 예로, 신경망(1800)이 제 1 인코더(1211)인 경우, 입력 데이터(1805)는 현재 영상, 이전 복원 영상 및 예측 옵티컬 플로우가 연접된(concatenated) 결과에 대응할 수 있다. 다른 예로, 신경망(1800)이 제 2 인코더(1215)의 경우, 입력 데이터(1805)는 현재의 잔차 영상 데이터에 대응할 수 있다.

도 18의 제 1 컨볼루션 레이어(1810)에 표시된 “3X3X4”는 3x3의 크기의 4개의 필터 커널을 이용하여 1개의 입력 데이터(1805)에 대해 컨볼루션 처리를 하는 것을 가리킬 수 있다. 컨볼루션 처리 결과 4개의 필터 커널에 의해 4개의 특징 맵이 생성된다.

제 1 컨볼루션 레이어(1810)에 의해 생성된 특징 맵들은 입력 데이터(1805)의 고유한 특성들을 나타낸다. 예를 들어, 각 특징 맵은 입력 데이터(1805)의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.

도 19를 참조하여, 제 1 컨볼루션 레이어(1810)에서의 예시적인 컨볼루션 연산에 대해 상세히 설명한다.

제 1 컨볼루션 레이어(1810)에서 이용되는 3X3의 크기를 갖는 필터 커널(1930)의 파라미터들과 그에 대응하는 입력 데이터(1805) 내 샘플 값들 사이의 곱 연산 및 덧셈 연산을 통해 하나의 특징 맵(1950)이 생성될 수 있다. 제 1 컨볼루션 레이어(1810)에서는 4개의 필터 커널(1930)이 이용되므로, 4개의 필터 커널(1930)을 이용한 컨볼루션 연산 과정을 통해 4개의 특징 맵(1950)이 생성될 수 있다.

도 19에서 입력 데이터(1805)에 표시된 I1 내지 I49는 입력 데이터(1805)의 샘플들을 나타내고, 필터 커널(1930)에 표시된 F1 내지 F9는 필터 커널(1930)의 샘플(또한 파라미터로 참조될 수도 있다)들을 나타낸다. 또한, 특징 맵(1950)에 표시된 M1 내지 M9는 특징 맵(1950)의 샘플들을 나타낸다.

컨볼루션 연산 과정에서, 입력 데이터(1805)의 I1, I2, I3, I8, I9, I10, I15, I16, I17의 샘플 값들 각각과 필터 커널(1930)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합(예를 들어, 덧셈 연산)한 값이 특징 맵(1950)의 M1의 값으로 할당될 수 있다. 컨볼루션 연산의 스트라이드(stride)가 2라면, 입력 데이터(1805)의 I3, I4, I5, I10, I11, I12, I17, I18, I19의 샘플 값들 각각과 필터 커널(1930)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9 각각의 곱 연산이 수행되고, 곱 연산의 결과 값들을 조합한 값이 특징 맵(1950)의 M2의 값으로 할당될 수 있다.

필터 커널(1930)이 입력 데이터(1805)의 마지막 샘플에 도달할 때까지 스트라이드에 따라 이동하는 동안 입력 데이터(1805) 내 샘플 값들과 필터 커널(1930)의 샘플들 사이의 컨볼루션 연산이 수행됨으로써, 소정 크기를 갖는 특징 맵(1950)이 획득될 수 있다.

본 개시에 따르면, 신경망(1800)에 대한 훈련을 통해 신경망(1800)의 파라미터들, 예를 들어, 신경망(1800)의 컨볼루션 레이어들에서 이용되는 필터 커널(1930)의 샘플들(예를 들어, 필터 커널(1930)의 F1, F2, F3, F4, F5, F6, F7, F8 및 F9)의 값이 최적화될 수 있다.

신경망(1800)에 포함된 컨볼루션 레이어들은 도 19와 관련하여 설명한 컨볼루션 연산 과정에 따른 처리를 할 수 있으나, 도 19에서 설명한 컨볼루션 연산 과정은 하나의 예시일 뿐이며, 실시예들은 이에 한정되는 것은 아니다.

다시 도 18을 참조하면, 제 1 컨볼루션 레이어(1810)의 특징 맵들은 제 1 활성화 레이어(1820)로 입력된다.

제 1 활성화 레이어(1820)는 각각의 특징 맵에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 제 1 활성화 레이어(1820)는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 실시예들은 이에 한정되는 것은 아니다.

제 1 활성화 레이어(1820)에서 비선형 특성을 부여하는 것은, 특징 맵들의 일부 샘플 값을 변경하여 출력하는 것을 의미한다. 이때, 변경은 비선형 특성을 적용하여 수행된다.

제 1 활성화 레이어(1820)는 특징 맵의 샘플 값들을 제 2 컨볼루션 레이어(1830)로 전달할지 여부를 결정한다. 예를 들어, 특징 맵의 샘플 값들 중 어떤 샘플 값들은 제 1 활성화 레이어(1820)에 의해 활성화되어 제 2 컨볼루션 레이어(1830)로 전달되고, 어떤 샘플 값들은 제 1 활성화 레이어(1820)에 의해 비활성화되어 제 2 컨볼루션 레이어(1830)로 전달되지 않는다. 특징 맵들이 나타내는 입력 데이터(1805)의 고유 특성이 제 1 활성화 레이어(1820)에 의해 강조된다.

제 1 활성화 레이어(1820)에서 출력된 특징 맵들(1825)은 제 2 컨볼루션 레이어(1830)로 입력된다. 도 18에 도시된 특징 맵들(1825) 중 어느 하나는 도 19와 관련하여 설명한 특징 맵(1950)이 제 1 활성화 레이어(1820)에서 처리된 결과이다.

제 2 컨볼루션 레이어(1830)에 표시된 “3X3X4”는 3x3의 크기의 4개의 필터 커널을 이용하여 입력된 특징 맵들(1825)에 대해 컨볼루션 처리하는 것 가리킬 수 있다. 제 2 컨볼루션 레이어(1830)의 출력은 제 2 활성화 레이어(1840)로 입력된다. 제 2 활성화 레이어(1840)는 입력된 특징 맵들에 대해 비선형 특성을 부여할 수 있다.

제 2 활성화 레이어(1840)에서 출력된 특징 맵들(1845)은 제 3 컨볼루션 레이어(1850)로 입력된다. 제 3 컨볼루션 레이어(1850)에 표시된 3X3X1은 3x3의 크기의 1개의 필터 커널을 이용하여 1개의 출력 데이터(1855)를 만들기 위해 컨볼루션 처리를 하는 것을 예시한다.

출력 데이터(1855)는 신경망(1800)이 제 1 인코더(1211), 제 2 인코더(1215), 제 3 인코더(1410), 제 4 인코더(1710), 제 1 디코더(331), 제 2 디코더(333), 제 3 디코더(810), 제 4 디코더(1010), 제 1 예측 신경망(610) 및 제 2 예측 신경망(710) 중 어느 것인지 따라 달라진다.

일 예로, 신경망(1800)이 제 1 인코더(1211)인 경우, 출력 데이터(1855)는 현재의 잔차 옵티컬 플로우에 대한 특징 데이터일 수 있고, 다른 예로, 신경망(1800)이 제 2 인코더(1215)인 경우, 출력 데이터(1855)는 현재의 잔차 영상 데이터에 대한 특징 데이터일 수 있다.

도 18에서 신경망(1800)이 세 개의 컨볼루션 레이어와 두 개의 활성화 레이어를 포함하고 있는 것으로 도시되어 있으나, 이는 하나의 예시일 뿐이며, 구현예에 따라서, 실시예들에서, 신경망(1800)에 포함된 컨볼루션 레이어 및 활성화 레이어의 개수는 다양하게 변경될 수 있다.

또한, 구현예에 따라서, 실시예들에서, 신경망(1800)은 RNN(recurrent neural network)을 통해 구현될 수도 있다. 이 경우는 본 개시의 예시에 따른 신경망(1800)이 CNN 구조로부터 RNN 구조로 변경되는 것을 의미할 수 있다.

일 실시예에서, 영상 복호화 장치(300) 및 영상 부호화 장치(1200)는 전술한 컨볼루션 연산 및 활성화 레이어의 연산을 위한 적어도 하나의 ALU(Arithmetic logic unit)를 포함할 수 있다.

ALU는 프로세서로 구현될 수 있다. 컨볼루션 연산을 위해, ALU는 입력 데이터(1805) 또는 이전 레이어에서 출력된 특징 맵의 샘플 값들과 필터 커널의 샘플 값들 사이의 곱 연산을 수행하는 곱셈기 및 곱셈의 결과 값들을 더하는 가산기를 포함할 수 있다.

활성화 레이어의 연산을 위해, ALU는 미리 결정된 시그모이드 함수, Tanh 함수 또는 ReLU 함수 등에서 이용되는 가중치를 입력된 샘플 값에 곱하는 곱셈기, 및 곱한 결과와 소정 값을 비교하여 입력된 샘플 값을 다음 레이어로 전달할지를 판단하는 비교기를 포함할 수 있다.

이하에서는, 도 20 내지 도 22를 참조하여, 영상의 부호화 및 복호화 과정에서 이용되는 신경망들의 예시적인 훈련 방법에 대해 설명한다.

도 20은 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망의 훈련 방법을 설명하기 위한 도면이다. 실시예들에서, 옵티컬 플로우 예측부(2090)는 도 6의 제 1 예측 신경망(610)을 포함하는 옵티컬 플로우 예측부(600)에 대응할 수 있다. 실시예들에서, 옵티컬 플로우 예측부(2090)는 도 7의 제 2 예측 신경망(710)을 포함하는 옵티컬 플로우 예측부(700)에 대응할 수 있다. 실시예들에서, 옵티컬 플로우 예측부(2090)는 제 3 디코더(810)을 포함하는 옵티컬 플로우 예측부(800)에 대응할 수 있다. 실시예들에서, 옵티컬 플로우 예측부(2090)는 도 14의 제 3 인코더(1410)을 포함하는 옵티컬 플로우 예측부(1217)에 대응할 수 있다.

도 20에서, 현재 훈련 영상(2010), 이전의 복원 훈련 영상(2030) 및 현재의 복원 훈련 영상(2050)은 각각 전술한 현재 영상, 이전 복원 영상 및 현재 복원 영상에 대응한다.

제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망을 훈련시키는데 있어, 현재의 복원 훈련 영상(2050)이 현재 훈련 영상(2010)과 어느 정도로 유사한지, 그리고 현재 훈련 영상(2010)에 대한 부호화를 통해 생성되는 비트스트림의 비트레이트가 어느 정도로 큰지가 고려될 수 있다. 이를 위해, 일 실시예에서는 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 유사도에 대응하는 제 1 손실 정보(2060), 및 비트스트림의 크기가 어느 정도로 큰지에 대응하는 제 2 손실 정보(2070)와 제 3 손실 정보(2080)에 따라 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망이 훈련될 수 있다.

도 20을 참조하면, 옵티컬 플로우 예측부(2090)을 통해 현재의 예측 옵티컬 플로우가 획득된다. 현재의 예측 옵티컬 플로우는 도 6과 관련하여 설명한 실시예, 도 7과 관련하여 설명한 실시예 또는 도 14와 관련하여 설명한 실시예에 따라 획득될 수 있다. 구현예에 따라, 실시예들에서, 이전 옵티컬 플로우가 현재의 예측 옵티컬 플로우로 결정될 수도 있다.

현재의 예측 옵티컬 플로우, 현재 훈련 영상(2010) 및 이전의 복원 훈련 영상(2030)은 제 1 인코더(1211)로 입력된다. 제 1 인코더(1211)는 현재의 예측 옵티컬 플로우, 현재 훈련 영상(2010) 및 이전의 복원 훈련 영상(2030)을 처리하여 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)를 출력한다.

현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)는 제 1 디코더(331)로 입력되고, 제 1 디코더(331)는 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)를 처리하여 현재의 잔차 옵티컬 플로우(d_i)를 출력한다.

현재의 예측 옵티컬 플로우와 현재의 잔차 옵티컬 플로우(d_i)가 예를 들어, 결합부(2095)에 의해 결합됨으로써, 현재 옵티컬 플로우(g_i)가 획득된다.

이전의 복원 훈련 영상(2030)이 현재 옵티컬 플로우(g_i)에 따라 예를 들어, 워핑(190)에 의해 워핑됨으로써 현재의 예측 훈련 영상(x'_i)이 생성되고, 현재의 예측 훈련 영상(x'_i)과 현재 훈련 영상(2010) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(r_i)가 획득된다.

현재의 잔차 영상 데이터(r_i)는 제 2 인코더(1215)로 입력되고, 제 2 인코더(1215)는 현재의 잔차 영상 데이터(r_i)를 처리하여 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 출력한다.

현재의 잔차 영상 데이터의 특징 데이터(v_i)는 제 2 디코더(333)로 입력된다.

제 2 디코더(333)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 처리하여 현재의 잔차 영상 데이터(r'_i)를 출력하고, 현재의 예측 훈련 영상(x'_i)과 현재의 잔차 영상 데이터(r'_i)가 합해짐으로써 현재의 복원 훈련 영상(2050)이 획득된다.

제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망의 훈련을 위해, 제 1 손실 정보(2060), 제 2 손실 정보(2070) 또는 제 3 손실 정보(2080) 중 적어도 하나가 획득될 수 있다.

제 1 손실 정보(2060)는 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 차이에 대응한다. 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 차이는, 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050)에 기초하여 결정되는 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 또는 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.

제 1 손실 정보(2060)는 현재의 복원 훈련 영상(2050)의 퀄리티와 관련이 있으므로, 제 1 손실 정보(2060)는 퀄리티 손실 정보로 참조될 수도 있다.

제 2 손실 정보(2070)는 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)의 엔트로피 또는 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)에 대응하는 비트스트림의 비트레이트에 대응한다. 또한, 제 3 손실 정보(2080)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)의 엔트로피 또는 현재의 잔차 영상 데이터의 특징 데이터(v_i)에 대응하는 비트스트림의 비트레이트에 대응한다.

실시예들에서, 비트스트림이 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)와 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 모두 포함한다면, 해당 비트스트림의 비트레이트에 대응하는 제 4 손실 정보가 산출될 수 있다. 이 경우, 제 2 손실 정보(2070) 및 제 3 손실 정보(2080)는 훈련에 이용되지 않을 수 있다.

제 2 손실 정보(2070)와 제 3 손실 정보(2080)는, 현재 훈련 영상(2010)에 대한 부호화 효율에 관련되므로, 제 2 손실 정보(2070)와 제 3 손실 정보(2080)는 압축도 손실 정보로 참조될 수 있다.

제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망은 제 1 손실 정보(2060), 제 2 손실 정보(2070) 또는 제 3 손실 정보(2080) 중 적어도 하나로부터 도출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.

구체적으로, 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망은 미리 설정된 파라미터의 값을 변경하면서 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.

일 실시예에서, 최종 손실 정보는 하기 수학식 1에 따라 산출될 수 있다.

[수학식 1]

최종 손실 정보 = a*제 1 손실 정보+b*제 2 손실 정보+c*제 3 손실 정보

수학식 1에서, a, b, c는 각각 제 1 손실 정보(2060), 제 2 손실 정보(2070) 및 제 3 손실 정보(2080) 각각에 적용되는 가중치를 나타낸다.

수학식 1에 따르면, 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우 예측부(2090)에서 이용되는 신경망은 현재의 복원 훈련 영상(2050)이 현재 훈련 영상(2010)에 최대한 유사해지고, 제 1 인코더(1211) 및 제 2 인코더(1215)로부터 출력되는 데이터에 대응하는 비트스트림의 크기가 최소화되도록 훈련될 수 있다.

한편, 도 20에 도시된 훈련 과정은 P 프레임 다음의 P 프레임을 위한 훈련 과정에 해당하는데, I 프레임 다음의 P 프레임인 경우를 위해, 도 10 및 도 17에 도시된 제 4 인코더(1710) 및 제 4 디코더(1010)의 훈련이 필요할 수 있다. 이를 위해, 도 20에 도시된 제 1 인코더(1211) 및 제 1 디코더(331)가 제 4 인코더(1710) 및 제 4 디코더(1010)로 교체될 수 있다. 옵티컬 플로우 예측부(2090) 및 결합부(2095)는 훈련 과정에서 이용되지 않을 수 있다.

I 프레임 다음의 P 프레임인 경우를 위한 제 2 인코더(1215), 제 2 디코더(333), 제 4 인코더(1710) 및 제 4 디코더(1010)의 예시적인 훈련 과정이 설명된다. 현재 훈련 영상(2010)과 이전의 복원 훈련 영상(2030)이 제 4 인코더(1710)로 입력될 수 있다.

제 4 인코더(1710)는 현재 훈련 영상(2010)과 이전의 복원 훈련 영상(2030)을 처리하여 현재 옵티컬 플로우의 특징 데이터를 출력하고, 현재 옵티컬 플로우의 특징 데이터는 제 4 디코더(1010)로 입력된다.

제 4 디코더(1010)는 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 출력한다.

이전의 복원 훈련 영상(2030)이 현재 옵티컬 플로우에 따라, 예를 들어, 워핑(190)에 의해 워핑됨으로써 현재의 예측 훈련 영상(x'_i)이 생성되고, 현재의 예측 훈련 영상(x'_i)과 현재 훈련 영상(2010) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(r_i)가 획득된다.

현재의 잔차 영상 데이터의 특징 데이터(v_i)는 제 2 디코더(333)로 입력된다. 제 2 디코더(333)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 처리하여 현재의 잔차 영상 데이터(r'_i)를 출력하고, 현재의 예측 훈련 영상(x'_i)과 현재의 잔차 영상 데이터(r'_i)가 합해짐으로써 현재의 복원 훈련 영상(2050)이 획득된다.

제 2 인코더(1215), 제 2 디코더(333), 제 4 인코더(1710) 및 제 4 디코더(1010)는 제 1 손실 정보(2060), 제 2 손실 정보(2070) 또는 제 3 손실 정보(2080) 중 적어도 하나로부터 산출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.

여기서, 제 1 손실 정보(2060)는 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 차이에 대응할 수 있다. 제 2 손실 정보(2070)는 현재 옵티컬 플로우의 특징 데이터의 엔트로피 또는 현재 옵티컬 플로우의 특징 데이터에 대응하는 비트스트림의 비트레이트에 대응할 수 있다. 또한, 제 3 손실 정보(2080)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)의 엔트로피 또는 현재의 잔차 영상 데이터의 특징 데이터(v_i)에 대응하는 비트스트림의 비트레이트에 대응할 수 있다.

실시예들에서, P 프레임 다음의 P 프레임을 위한 훈련 과정 및 I 프레임 다음의 P 프레임을 위한 훈련 과정 모두에서 제 2 인코더(1215)와 제 2 디코더(333)가 이용될 수 있다.

일 실시예에서, 제 2 인코더(1215)와 제 2 디코더(333)는 P 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 훈련된 후, I 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 추가적으로 훈련될 수 있다.

다른 실시예에서, 제 2 인코더(1215)와 제 2 디코더(333)는 I 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 훈련된 후, P 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 추가적으로 훈련될 수 있다.

또 다른 실시예에서, 제 2 인코더(1215)와 제 2 디코더(333)는 I 프레임 다음의 P 프레임을 훈련 과정 및 P 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 별도로 훈련될 수도 있다. 예를 들어, P 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 훈련된 제 2 인코더(1215)와 제 2 디코더(333)는 P 프레임 다음의 현재 영상에 대해 적용되고, I 프레임 다음의 P 프레임을 위한 훈련 과정을 통해 훈련된 제 2 인코더(1215)와 제 2 디코더(333)는 I 프레임 다음의 현재 영상에 대해 적용될 수 있다.

도 21은 훈련 장치(2100)에 의한 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우의 예측 신경망(2200)의 훈련 과정을 설명하기 위한 도면이다.

옵티컬 플로우의 예측 신경망(2200)은 예측 옵티컬 플로우를 획득하는데 이용되는 신경망으로서, 예를 들어, 도 6에 도시된 제 1 예측 신경망(610), 도 7에 도시된 제 2 예측 신경망(710) 또는 도 14에 도시된 제 3 인코더(1410)와 제 3 디코더(810)일 수 있다.

도 20과 관련하여 설명한 예시적인 훈련 과정은 훈련 장치(2100)에 의해 수행될 수 있다. 훈련 장치(2100)는 예를 들어, 영상 부호화 장치(1200) 또는 별도의 서버일 수 있다. 훈련 결과 획득된 파라미터들은 영상 부호화 장치(1200) 및 영상 복호화 장치(300)에 저장될 수 있다.

도 21를 참조하면, 훈련 장치(2100)는 제 1 인코더(1211), 제 1 디코더(331), 제 2 인코더(1215), 제 2 디코더(333) 및 옵티컬 플로우의 예측 신경망(2200)의 파라미터를 초기 세팅한다(S2110). 이에 의해, 제 1 인코더(1211), 제 1 디코더(331), 제 2 인코더(1215), 제 2 디코더(333) 및 옵티컬 플로우의 예측 신경망(2200)은 초기 세팅된 파라미터에 따라 동작할 수 있다.

훈련 장치(2100)는 옵티컬 플로우의 예측 신경망(2200)이 현재의 예측 옵티컬 플로우를 획득하는데 필요로 하는 데이터(예를 들어, 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 또는 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나)를 옵티컬 플로우의 예측 신경망(2200)으로 입력한다(동작 S2115).

옵티컬 플로우의 예측 신경망(2200)은 입력된 데이터를 처리하여 현재의 예측 옵티컬 플로우를 제 1 인코더(1211) 및 훈련 장치(2100)로 출력한다(동작 S2120).

훈련 장치(2100)는 현재 훈련 영상(2010)과 이전의 복원 훈련 영상(2030)을 제 1 인코더(1211)로 입력한다(동작 S2125).

제 1 인코더(1211)는 현재의 예측 옵티컬 플로우, 현재 훈련 영상(2010) 및 이전의 복원 훈련 영상(2030)을 처리하여 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)를 훈련 장치(2100) 및 제 1 디코더(331)로 출력한다(동작 S2130).

훈련 장치(2100)는 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)로부터 제 2 손실 정보(2070)를 산출한다(동작 S2135).

제 1 디코더(331)는 현재의 잔차 옵티컬 플로우의 특징 데이터(h_i)를 처리하여 현재의 잔차 옵티컬 플로우(d_i)를 훈련 장치(2100)로 출력한다(동작 S2140).

훈련 장치(2100)는 현재의 예측 옵티컬 플로우와 현재의 잔차 옵티컬 플로우(d_i)에 기초하여 획득된 현재 옵티컬 플로우를 이용하여 현재의 예측 훈련 영상(x'_i)을 생성하고, 현재의 예측 훈련 영상(x'_i)과 현재 훈련 영상(2010) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(r_i)를 획득한다(동작 S2145).

훈련 장치(2100)는 현재의 잔차 영상 데이터(r_i)를 제 2 인코더(1215)로 입력하고(동작 S2150), 제 2 인코더(1215)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 훈련 장치(2100)와 제 2 디코더(333)로 출력한다(동작 S2155).

훈련 장치(2100)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)로부터 제 3 손실 정보(2080)를 산출한다(동작 S2160).

제 2 디코더(333)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 처리하여 현재의 잔차 영상 데이터(r'_i)를 훈련 장치(2100)로 출력한다(동작 S2165).

훈련 장치(2100)는 현재의 잔차 영상 데이터(r'_i)와 현재의 예측 훈련 영상(x'_i)으로부터 현재의 복원 훈련 영상(2050)을 생성한다(동작 S2170).

훈련 장치(2100)는 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 차이에 대응하는 제 1 손실 정보(2060)를 산출한다(동작 S2180).

훈련 장치(2100)는 제 1 손실 정보(2060), 제 2 손실 정보(2070) 또는 제 3 손실 정보(2080) 중 적어도 하나를 결합하여 최종 손실 정보를 산출하고, 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우의 예측 신경망(2200)은 최종 손실 정보에 기초한 역전사(back propagation) 과정을 통해 초기 세팅된 파라미터를 갱신한다(동작들 S2181, S2183, S2185, S2187, S2189).

이후, 훈련 장치(2100), 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우의 예측 신경망(2200)은 최종 손실 정보가 최소화될 때까지 S2115 내지 S2189 과정을 반복하면서 파라미터를 갱신한다. 이 때, 각 반복 과정 동안 제 1 디코더(331), 제 2 디코더(333), 제 1 인코더(1211), 제 2 인코더(1215) 및 옵티컬 플로우의 예측 신경망(2200)은 이전 과정에서 갱신된 파라미터에 따라 동작한다.

도 22는 훈련 장치(2100)에 의한 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)의 훈련 과정을 설명하기 위한 도면이다.

도 21에 도시된 훈련 과정이 P 프레임 다음의 P 프레임을 위한 훈련 과정이라면, 도 22에 도시된 훈련 과정은 I 프레임 다음의 P 프레임을 위한 훈련 과정으로 이해될 수 있다.

도 22를 참조하면, 훈련 장치(2100)는 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)의 파라미터를 초기 세팅한다(동작 S2210). 이에 의해, 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)은 초기 세팅된 파라미터에 따라 동작할 수 있다. 구현예에 따라, 실시예들에서, 제 2 인코더(1215) 및 제 2 디코더(333)는 도 21에 도시된 훈련 과정을 통해 설정된 파라미터에 따라 초기 동작할 수 있다.

훈련 장치(2100)는 현재 훈련 영상(2010)과 이전의 복원 훈련 영상(2030)을 제 4 인코더(1710)로 입력한다(동작 S2215).

제 4 인코더(1710)는 현재 훈련 영상(2010)과 이전의 복원 훈련 영상(2030)을 처리하여 현재 옵티컬 플로우의 특징 데이터를 훈련 장치(2100) 및 제 4 디코더(1010)로 출력한다(동작 S2220).

훈련 장치(2100)는 현재 옵티컬 플로우의 특징 데이터로부터 제 2 손실 정보(2070)를 산출한다(동작 S2225).

제 4 디코더(1010)는 현재 옵티컬 플로우의 특징 데이터를 처리하여 현재 옵티컬 플로우를 훈련 장치(2100)로 출력한다(동작 S2230).

훈련 장치(2100)는 현재 옵티컬 플로우를 이용하여 현재의 예측 훈련 영상(x'_i)을 생성하고, 현재의 예측 훈련 영상(x'_i)과 현재 훈련 영상(2010) 사이의 차이에 대응하는 현재의 잔차 영상 데이터(r_i)를 획득한다(동작 S2235).

훈련 장치(2100)는 현재의 잔차 영상 데이터(r_i)를 제 2 인코더(1215)로 입력하고(동작 S2240), 제 2 인코더(1215)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 훈련 장치(2100)와 제 2 디코더(333)로 출력한다(동작 S2245).

훈련 장치(2100)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)로부터 제 3 손실 정보(2080)를 산출한다(동작 S2250).

제 2 디코더(333)는 현재의 잔차 영상 데이터의 특징 데이터(v_i)를 처리하여 현재의 잔차 영상 데이터(r'_i)를 훈련 장치(2100)로 출력한다(동작 S2260).

훈련 장치(2100)는 현재의 잔차 영상 데이터(r'_i)와 현재의 예측 훈련 영상(x'_i)으로부터 현재의 복원 훈련 영상(2050)을 생성한다(동작 S2265).

훈련 장치(2100)는 현재 훈련 영상(2010)과 현재의 복원 훈련 영상(2050) 사이의 차이에 대응하는 제 1 손실 정보(2060)를 산출한다(동작 S2270).

훈련 장치(2100)는 제 1 손실 정보(2060), 제 2 손실 정보(2070) 또는 제 3 손실 정보(2080) 중 적어도 하나를 결합하여 최종 손실 정보를 산출하고, 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)는 최종 손실 정보에 기초한 역전사(back propagation) 과정을 통해 초기 세팅된 파라미터를 갱신한다(동작들 S2271, S2273, S2275, S2277).

이후, 훈련 장치(2100), 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)는 최종 손실 정보가 최소화될 때까지 S2215 내지 S2277 과정을 반복하면서 파라미터를 갱신한다. 이 때, 각 반복 과정 동안 제 4 인코더(1710), 제 4 디코더(1010), 제 2 인코더(1215) 및 제 2 디코더(333)는 이전 과정에서 갱신된 파라미터에 따라 동작한다.

본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 기기로 읽을 수 있는 저장매체에 저장될 수 있다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상, 실시예들이 상세하게 설명되었으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims

AI를 이용하는 옵티컬 플로우의 복원 방법에 있어서,

비트스트림으로부터 현재 영상에 대한 현재의 잔차 옵티컬 플로우(current residual optical flow)의 특징 데이터를 획득하는 단계;

신경망 기반의 제 1 디코더에 상기 현재의 잔차 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재의 잔차 옵티컬 플로우를 획득하는 단계;

이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터, 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나에 기반하여 현재의 예측 옵티컬 플로우를 획득하는 단계; 및

상기 현재의 잔차 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우에 기초하여 현재 옵티컬 플로우를 복원하는 단계를 포함하는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 복원된 현재 옵티컬 플로우와 이전 복원 영상에 기초하여 생성되는 현재 예측 영상과, 현재의 잔차 영상 데이터에 기반하여 상기 현재 영상이 복원되는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는,

상기 이전 옵티컬 플로우를 상기 현재의 예측 옵티컬 플로우로 선택하는 단계를 포함하는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는,

상기 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 상기 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 제 1 예측 신경망(first prediction neural network)에 적용하는 단계를 포함하는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는,

상기 이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 상기 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 제 2 예측 신경망(second prediction neural network)에 적용하여 상기 현재의 예측 옵티컬 플로우와 상기 이전 옵티컬 플로우 사이의 세컨드-오더 옵티컬 플로우(second-order optical flow)를 획득하는 단계; 및

상기 이전 옵티컬 플로우를 상기 세컨드-오더 옵티컬 플로우에 따라 변경하여 상기 현재의 예측 옵티컬 플로우를 생성하는 단계를 포함하는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 예측 옵티컬 플로우를 획득하는 단계는,

상기 비트스트림으로부터 상기 현재의 예측 옵티컬 플로우와 상기 이전 옵티컬 플로우 사이의 세컨드-오더 옵티컬 플로우의 특징 데이터를 획득하는 단계;

상기 세컨드-오더 옵티컬 플로우의 특징 데이터를 신경망 기반의 제 3 디코더에 적용하여 상기 세컨드-오더 옵티컬 플로우를 획득하는 단계; 및

상기 이전 옵티컬 플로우를 상기 세컨드-오더 옵티컬 플로우에 따라 변경하여 상기 현재의 예측 옵티컬 플로우를 생성하는 단계를 포함하는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 잔차 옵티컬 플로우의 특징 데이터는,

상기 비트스트림에 대한 엔트로피 복호화 및 역양자화를 수행함으로써 획득되는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 신경망 기반의 제 1 디코더는,

현재 훈련 영상(current training image)과 상기 현재 훈련 영상에 관련된 현재의 복원 훈련 영상(current reconstructed training image) 사이의 차이에 대응하는 제 1 손실 정보; 및

상기 현재 훈련 영상의 현재의 잔차 옵티컬 플로우의 특징 데이터의 엔트로피에 대응하는 제 2 손실 정보를 기반으로 훈련되는, 옵티컬 플로우의 복원 방법.
제1항에 있어서,

상기 현재의 잔차 옵티컬 플로우의 특징 데이터는,

P(predictive) 프레임에 대응하는 상기 현재 영상, 및 상기 P 프레임을 뒤따르는 다른 P 프레임에 기초하여 상기 비트스트림으로부터 획득되는, 옵티컬 플로우의 복원 방법.
제9항에 있어서,

상기 P 프레임을 뒤따르는 I(intra) 프레임에 기초하여 상기 옵티컬 플로우의 복원 방법은,

비트스트림으로부터 현재 옵티컬 플로우의 특징 데이터를 획득하는 단계;

신경망 기반의 제 4 디코더에 상기 현재 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재 옵티컬 플로우를 복원하는 단계를 더 포함하는, 옵티컬 플로우의 복원 방법.
제1항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
AI를 이용하는 옵티컬 플로우의 복원 장치에 있어서,

비트스트림으로부터 상기 현재 영상에 대한 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하는 비트스트림 획득부; 및

신경망 기반의 제 1 디코더에 상기 현재의 잔차 옵티컬 플로우의 특징 데이터를 적용하여 상기 현재의 잔차 옵티컬 플로우를 획득하고, 이전 옵티컬 플로우, 이전 옵티컬 플로우의 특징 데이터 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나를 이용하여 현재의 예측 옵티컬 플로우를 획득하고, 상기 현재의 잔차 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우에 기초하여 현재 옵티컬 플로우를 복원하는 예측 복호화부를 구현하는 적어도 하나의 프로세서를 포함하는, 옵티컬 플로우의 복원 장치.
AI를 이용하는 옵티컬 플로우의 부호화 방법에 있어서,

이전 옵티컬 플로우, 상기 이전 옵티컬 플로우의 특징 데이터 및 이전의 잔차 옵티컬 플로우의 특징 데이터 중 적어도 하나로부터 현재의 예측 옵티컬 플로우를 획득하는 단계;

현재 영상, 이전 복원 영상 및 상기 현재의 예측 옵티컬 플로우를 신경망 기반의 제 1 인코더에 적용하여 현재의 잔차 옵티컬 플로우의 특징 데이터를 획득하는 단계; 및

상기 현재의 잔차 옵티컬 플로우의 특징 데이터에 대응하는 비트스트림을 생성하는 단계를 포함하되,

상기 현재의 잔차 옵티컬 플로우는, 현재 옵티컬 플로우와 상기 현재의 예측 옵티컬 플로우 사이의 차이에 대응하는, 옵티컬 플로우의 부호화 방법.