WO2024039132A1

WO2024039132A1 - 영상 복호화 장치 및 방법, 및 영상 부호화 장치 및 방법

Info

Publication number: WO2024039132A1
Application number: PCT/KR2023/011796
Authority: WO
Inventors: 딘쿠오칸; 김경아; 박민수; 박민우; 최광표; 표인지
Original assignee: 삼성전자 주식회사
Priority date: 2022-08-18
Filing date: 2023-08-10
Publication date: 2024-02-22

Abstract

비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득하고, 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정하고, 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원하는 영상 복호화 방법 및 장치를 제안한다.

Description

영상 복호화 장치 및 방법, 및 영상 부호화 장치 및 방법

본 개시는 영상 복호화 방법 및 영상 복호화 장치, 영상 부호화 방법 및 영상 부호화 장치에 관한 것으로서, 구체적으로, 인트라 예측을 수행하는 방법 및 장치에 관한 것이다.

영상 처리 기술에서, H.264 AVC(Advanced Video Coding) 및 HEVC(High Efficiency Video Coding)와 같은 코덱은 영상을 처리하기 위해 이용될 수 있다. 이러한 코델들에서는, 영상을 블록들로 분할하고, 블록들 각각을 인터 예측(inter prediction) 또는 인트라 예측(intraprediction)을 통해 예측 부호화 및 예측 복호화할 수 있다.

인트라 예측은 영상 내의 공간적인 중복성을 제거하여 영상을 압축하는 방법이고, 인터 예측은 영상들 사이의 시간적인 중복성을 제거하여 영상을 압축하는 방법이다.

인트라 예측은 특정 블록 내의 모든 픽셀들에 대하여 하나의 인트라 예측 모드에 기초하여 하나의 인트라 예측 방향으로 예측하는 방식으로 수행된다. 게다가, 인트라 예측 동작에서, 참조 픽셀의 보간은 미리정해진 필터의 고정된 필터 계수를 이용하여 수행될 수 있다.

최근, AI(Artificial Intelligence)를 이용하여 영상을 부호화/복호화하는 기술들이 제안되고 있는데, AI, 예를 들어, 신경망을 이용하여 인트라 예측을 수행함으로써, 영상을 효과적으로 부호화/복호화하는 방안이 활용된다.

본 개시의 일 실시예는 보다 효율적으로 인트라 예측을 수행하기 위한 방법 및 장치를 제안한다.

본 개시의 일 실시예에 따른 영상 복호화 방법은, 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득하는 단계; 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보에 기초하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 정보를 획득하는 단계; 현재 블록의 인트라 플로우 정보에 기초하여 현재 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득할 수 있다. 적어도 하나의 프로세서는, 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보에 기초하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 정보를 획득할 수 있다. 적어도 하나의 프로세서는, 현재 블록의 인트라 플로우 정보 에 기초하여 현재 픽셀의 예측 픽셀을 획득할 수 있다. 적어도 하나의 프로세서는, 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 방법은, 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보에 기초하여, 현재 블록의 인트라 예측 특징 데이터 및 현재 블록의 원본 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보를 결정하는 단계; 현재 블록의 인트라 플로우 정보에 기초하여 원본 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보에 기초하여, 현재 블록의 인트라 예측 특징 데이터 및 현재 블록의 원본 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보를 결정할 수 있다. 적어도 하나의 프로세서는 현재 블록의 인트라 플로우 정보에 기초하여 원본 픽셀의 예측 픽셀을 획득할 수 있다. 적어도 하나의 프로세서는 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 방법은, 현재 블록의 제1 주변 픽셀들 및 코딩 컨텍스트 정보에 기초하여 현재 블록 내 현재 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보 및 참조 픽셀과 참조 픽셀에 인접한 복수의 제2 주변 픽셀들의 가중치 정보를 획득하는 단계; 인트라 플로우 정보 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 현재 블록의 제1 주변 픽셀들 및 코딩 컨텍스트 정보에 기초하여 현재 블록 내 현재 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보 및 참조 픽셀과 참조 픽셀에 인접한 복수의 제2 주변 픽셀들의 가중치 정보를 획득할 수 있다. 적어도 하나의 프로세서는, 인트라 플로우 정보 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 획득할 수 있다. 적어도 하나의 프로세서는, 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 방법은, 현재 블록의 제1 주변 픽셀들 및 코딩 컨텍스트 정보에 기초하여 현재 블록 내 현재 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 벙보 및 참조 픽셀과 참조 픽셀에 인접한 복수의 제2 주변 픽셀들의 가중치 정보를 획득하는 단계; 인트라 플로우 정보 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 부호화하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 현재 블록의 제1 주변 픽셀들 및 코딩 컨텍스트 정보에 기초하여 현재 블록 내 현재 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보 및 참조 픽셀과 참조 픽셀에 인접한 복수의 제2 주변 픽셀들의 가중치 정보를 획득할 수 있다. 적어도 하나의 프로세서는, 인트라 플로우 정보 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 획득할 수 있다. 적어도 하나의 프로세서는, 예측 픽셀에 기초하여 현재 블록을 부호화할 수 있다.

실시예들은 첨부된 도면과 함께 기재된 다음의 상세한 설명으로부터 더 명확하게 이해될 것이다.

도 1은 영상의 부호화 및 복호화 과정을 도시하는 도면이다.

도 2는 영상으로부터 트리 구조에 따라 분할된 블록들을 도시하는 도면이다.

도 3은 본 개시의 일 실시예에 따른 인트라 플로우를 나타내는 도면이다.

도 4는 본 개시의 일 실시예에 따른 인트라 플로우를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시예에 따른 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀의 주변 픽셀들에 대한 가중치를 나타내는 도면이다.

도 6은 본 개시의 일 실시예에 따른 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀의 주변 픽셀들에 대한 가중치를 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시예에 따른 영상 부호화 방법을 나타내는 개략도이다.

도 8은 본 개시의 일 실시예에 따른 영상 부호화 방법에서 이용되는 신경망을 설명하기 위한 도면이다.

도 9는 도 8의 부호화 신경망의 구조 및 복호화 신경망의 구조의 일 예이다.

도 10은 본 개시의 일 실시예에 따른 영상 복호화 방법을 나타내는 개략도이다.

도 11은 본 개시의 일 실시예에 따른 영상 복호화 방법에서 이용되는 신경망을 설명하기 위한 도면이다.

도 12는 도 11의 복호화 신경망의 구조의 일 예이다.

도 13은 본 개시의 일 실시예에 따른 영상 부호화 방법 및 영상 복호화 방법에서 이용되는 신경망들의 훈련 방법을 설명하기 위한 도면이다.

도 14는 본 개시의 일 실시예에 따른 영상 부호화 방법 및 영상 복호화 방법을 나타내는 개략도이다.

도 15는 본 개시의 일 실시예에 따른 영상 부호화 방법 및 영상 복호화 방법에서 이용되는 신경망의 훈련 방법을 설명하기 위한 도면이다.

도 16은 본 개시의 일 실시예에 따른 영상 복호화 방법의 순서도이다.

도 17은 본 개시의 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.

도 18은 본 개시의 일 실시예에 따른 영상 부호화 방법의 순서도이다.

도 19는 본 개시의 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.

도 20은 본 개시의 일 실시예에 따른 영상 복호화 방법의 순서도이다.

도 21은 본 개시의 일 실시예에 따른 영상 복호화 장치의 구성을 도시하는 도면이다.

도 22는 본 개시의 일 실시예에 따른 영상 부호화 방법의 순서도이다.

도 23은 본 개시의 일 실시예에 따른 영상 부호화 장치의 구성을 도시하는 도면이다.

여기에서 사용되는 모든 용어에 대해 간략히 설명하고 본 개시의 실시예들에 대해 상세히 설명한다. 이들 실시예는 예시적인 실시예들이며 본 개시는 이에 한정되지 않고 다른 다양한 형태로 구현될 수 있다. 해당 분야에서 통상적인 바와 같이, 실시예들은 설명된 기능 또는 기능들을 수행하는 도면에 도시된 바와 같이 블록들의 관점에서 설명 및 도시될 수 있다. 여기에서 유닛 또는 모듈 등 또는 장치, 로직, 회로, 카운터, 비교기, 생성기, 변환기, 등과 같은 이름으로 지칭될 수 있는 이들 블록들은 로직 게이트, 집적 회로, 마이크로프로세서, 마이크로컨트롤러, 수동 전자 부품, 능동 전자 부푼, 광학 부품의 하나 이상을 포함하는 아날로그 및/또는 디지털 회로들에 의해 물리적으로 구현될 수 있다. 또한, 이들 블록들은 소프트웨어 및/또는 펌웨어(여기에 기재된 기능들 또는 동작들을 수행하도록 구성됨)에 의해 구현되거나 구동될 수 있다.

본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

또한, 본 개시에서, '영상(image) 또는 픽처(picture)'는 정지영상(또는 프레임), 복수의 연속된 정지영상으로 구성된 동영상, 또는 비디오를 의미할 수 있다.

본 개시에서 '신경망(neural network)'은 뇌 신경을 모사한 인공 신경망 모델의 대표적인 예시로서, 특정 알고리즘을 사용한 인공 신경망 모델로 한정되지 않는다. 신경망은 심층 신경망(deep neural network)으로 참조될 수도 있다.

본 개시에서 '파라미터(parameter)'는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서, 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.

본 개시에서 '특징 데이터'는 신경망 또는 신경망 기반의 인코더가 입력 데이터를 처리함으로써 획득되는 데이터를 의미할 수 있다. 특징 데이터는 1차원 또는 2차원의 데이터일 수 있다. 그러나, 본 개시는 여기에 한정되지 않는다. 특징 데이터는 다양한 샘플들을 포함하는 1차원 또는 2차원 데이터를 포함할 수 있다. 특징 데이터는 잠재 텐서(latent tensor) 또는 잠재 표현(latent representation)으로 참조될 수도 있다. 특징 데이터는 신경망 기반의 디코더가 출력하는 데이터에 잠재된 특징을 나타낼 수 있다.

본 개시에서, '샘플'은 영상, 블록, 또는 특징 데이터 등의 1차원 또는 2차원 데이터 내 샘플링 위치에 할당된 데이터로서 처리 대상이 되는 데이터를 의미한다. 예를 들어, 샘플은 2차원의 영상 내 픽셀을 포함할 수 있다. 2차원의 데이터는 '맵'으로 참조될 수도 있다.

또한, 본 개시에서 '현재 블록'은 현재의 처리 대상인 블록을 의미한다. 현재 블록은 현재 영상으로부터 분할된 슬라이스, 타일, 최대 부호화 단위, 부호화 단위, 예측 단위 또는 변환 단위일 수 있다.

또한, 본 개시에서, '인트라 플로우 (intra flow)'는 블록 내의 픽셀 각각이 가리키는 참조 픽셀을 의미한다.

본 개시의 일 실시예에 따른 영상 복호화 방법, 영상 복호화 장치, 영상 부호화 방법, 및 영상 부호화 장치에 대해 설명하기에 앞서, 도 1 및 도 2를 참조하여 영상의 부호화 및 복호화 과정에 대해 설명한다.

도 1은 영상의 부호화 및 복호화 과정을 도시하는 도면이다.

영상 부호화 및 복호화 과정에서, 부호화 장치(110)는 영상에 대한 부호화를 통해 생성된 비트스트림을 복호화 장치(150)로 전송하고, 복호화 장치(150)는 비트스트림을 수신 및 복호화하여 영상을 복원한다

예를 들어, 부호화 장치(110)는 예측 부호화부(115), 변환 및 양자화부(120), 엔트로피 부호화부(125), 역양자화 및 역변환부(130), 디블로킹 필터링부(135), 루프 필터링부(140)를 포함할 수 있고, 복호화 장치(150)는 엔트로피 복호화부(155), 역양자화 및 역변환부(160), 디블로킹 필터링부(165), 루프 필터링부(170), 예측 복호화부(175)를 포함할 수 있다. 구체적으로, 부호화 장치(110)에서, 예측 부호화부(115)는 인터 예측 및 인트라 예측을 통해 예측 블록을 출력하고, 변환 및 양자화부(120)는 예측 블록과 현재 블록 사이의 잔차 블록의 잔차 샘플들을 변환 및 양자화하여 양자화된 변환 계수를 출력한다. 엔트로피 부호화부(125)는 양자화된 변환 계수를 부호화하여 비트스트림으로 출력한다.

양자화된 변환 계수는 역양자화 및 역변환부(130)을 거쳐 공간 영역의 잔차 샘플들을 포함하는 잔차 블록으로 복원된다. 예측 블록과 잔차 블록이 합해진 복원 블록은 디블로킹 필터링부(135) 및 루프 필터링부(140)를 거쳐 필터링된 블록으로 출력된다. 필터링된 블록을 포함하는 복원 영상은 예측 부호화부(115)에서 다음 입력 영상의 참조 영상으로 사용될 수 있다.

복호화 장치(150)로 수신된 비트스트림은 엔트로피 복호화부(155) 및 역양자화 및 역변환부(160)를 거쳐 공간 영역의 잔차 샘플들을 포함하는 잔차 블록으로 복원된다. 예측 복호화부(175)로부터 출력된 예측 블록과 잔차 블록이 조합되어 복원 블록이 생성되고, 복원 블록은 디블로킹 필터링부(165) 및 루프 필터링부(170)를 거쳐 필터링된 블록으로 출력된다. 필터링된 블록을 포함하는 복원 영상은 예측 복호화부(175)에서 다음 영상에 대한 참조 영상으로 이용될 수 있다.

부호화 장치(110)의 루프 필터링부(140)는 사용자 입력 또는 시스템 설정에 따라 입력된 필터 정보를 이용하여 루프 필터링을 수행한다. 루프 필터링부(140)에 의해 사용된 필터 정보는 엔트로피 부호화부(125)를 통해 복호화 장치(150)로 전송된다. 복호화 장치(150)의 루프 필터링부(170)는 엔트로피 복호화부(155)로부터 입력된 필터 정보에 기초하여 루프 필터링을 수행할 수 있다.

영상의 부호화 및 복호화 과정에서는 영상이 계층적으로 분할되고, 영상으로부터 분할된 블록에 대해 부호화 및 복호화가 수행된다. 예를 들어, 영상은 계층적으로 분할될 수 있다. 영상으로부터 분할된 블록에 대해 도 2를 참조하여 설명한다.

도 2는 영상(200)으로부터 트리 구조에 따라 분할(split 또는 divide)된 블록들을 도시하는 도면이다.

본 개시의 일 실시예에 따라, 하나의 영상(200)은 하나 이상의 슬라이스(Slice) 혹은 하나 이상의 타일(Tile)로 분할될 수 있다. 하나의 슬라이스는 복수의 타일을 포함할 수 있다. 예를 들어, 영상(200)은 하나 이상의 슬라이스 또는 하나 이상의 타일로 분할될 수 있다.

하나의 슬라이스 혹은 하나의 타일은 하나 이상의 최대 부호화 단위(Maximum Coding Unit; Maximum CU)의 시퀀스일 수 있다.

하나의 최대 부호화 단위는 하나 이상의 부호화 단위로 분할될 수 있다. 부호화 단위는 예측 모드를 결정하기 위한 기준 블록일 수 있다. 다시 말하면, 각각의 부호화 단위에 대해 인트라 예측 모드가 적용되는지, 인터 예측 모드가 적용되는지가 결정될 수 있다. 본 개시에서 최대 부호화 단위는 최대 부호화 블록으로 참조될 수 있고, 부호화 단위는 부호화 블록으로 참조될 수 있다.

부호화 단위의 크기는 최대 부호화 단위와 동일하거나, 최대 부호화 단위보다 작을 수 있다. 최대 부호화 단위는 최대 크기를 가지는 부호화 단위이므로, 부호화 단위로 참조될 수도 있다. 인트라 예측은 "인트라-예측"으로 지칭되고, 인터 예측은 "인터-예측"으로 지칭될 수 있다.

부호화 단위로부터 인트라 예측 또는 인터 예측을 위한 하나 이상의 예측 단위가 결정될 수 있다. 예측 단위의 크기는 부호화 단위와 동일하거나, 부호화 단위보다 작을 수 있다.

또한, 부호화 단위로부터 변환 및 양자화를 위한 하나 이상의 변환 단위가 결정될 수 있다. 변환 단위의 크기는 부호화 단위와 동일하거나, 부호화 단위보다 작을 수 있다. 변환 단위는 변환 및 양자화를 위한 기준 블록으로서, 부호화 단위의 잔차 샘플들이 부호화 단위 내의 변환 단위별로 변환 및 양자화될 수 있다.

본 개시에서 현재 블록은 영상(200)으로부터 분할된 슬라이스, 타일, 최대 부호화 단위, 부호화 단위, 예측 단위 또는 변환 단위일 수 있다. 또한, 현재 블록의 하위 블록은 현재 블록으로부터 분할된 블록으로서, 예를 들어, 현재 블록이 최대 부호화 단위이면, 하위 블록은 부호화 단위, 예측 단위 또는 변환 단위일 수 있다. 또한, 현재 블록의 상위 블록은 현재 블록을 일부로 포함하는 블록으로서, 예를 들어, 현재 블록이 최대 부호화 단위이면, 상위 블록은 픽처 시퀀스, 픽처, 슬라이스 또는 타일일 수 있다. 즉, 현재 블록의 하위 블록과 현재 블록의 상위 블록은 영상(200)이 분할되는 계층 구조에 따른 블록을 의미할 수 있다. 예를 들어, 현재 블록의 하위 블록은 현재 블록을 더 세분화한 하위 단위를 의미할 수 있다. 한편, 현재 블록의 상위 블록은 현재 블록이 속한 상위 단위를 의미할 수 있다.

이하에서는, 도 3 내지 도 23를 참조하여, 일 실시예에 따른 영상 복호화 방법, 영상 복호화 장치, 영상 부호화 방법, 및 영상 부호화 장치에 대해 설명한다.

블록 내의 모든 픽셀에 대하여 하나의 인트라 예측 모드에 따라 하나의 인트라 예측 방향으로 예측을 수행하는 것은 다양한 비디오 컨텐트를 커버할 수 없다. 블록 내의 모든 픽셀 각각은 픽셀 각각에 대하여 가장 좋은 참조 픽셀들을 가리키는 서로 다른 예측 방향을 가질 수 있다.

도 3을 참고하면, 현재 영상(300) 중 현재 블록(320) 내의 픽셀들은 주변 참조 영역(310) 내의 참조 픽셀을 가리키는 각각 다른 예측 방향을 나타내는 인트라 플로우(330)를 가진다. 인트라 플로우는 "인트라-플로우"로 지칭될 수 있다.

인트라 플로우(330)은 현재 픽셀과 참조 픽셀 사이의 x성분 및 y성분의 차이를 나타내는 제1 벡터, 현재 픽셀과 참조 픽셀 사이의 거리 r 성분과 x축으로 기준으로 현재 픽셀과 참조 픽셀 사이의 각도 θ 성분의 제2 벡터, 또는 현재 픽셀과 참조 픽셀 사이의 각도로 표현될 수 있다. 본 개시의 일 실시예에 따라, 현재 픽셀과 참조 픽셀 사이의 각도 만으로 표현되는 경우에는 현재 픽셀을 기준으로 해당 각도에 따라 현재 블록의 경계선에서 처음 위치하는 참조 픽셀이 참조 픽셀로 결정된다. 그러나, 본 개시는 이에 한정되지 않으며, 본 개시의 일 실시예에 따라, 인트라 플로우(300)는 제1 벡터, 제2 벡터, 및 각도의 하나 이상을 포함할 수 있다. 본 개시의 일 실시예에 따라, 인트라 플로우(300)는 다른 정보와 함께 제1 벡터, 제2 벡터, 및 각도의 하나 이상을 포함할 수 있다.

도 4를 참고하면, 인트라 플로우는 예측될 각 픽셀의 참조 픽셀을 나타내는 플로우이다.

본 개시의 일 실시예에 따라, 현재 블록(400)의 현재 픽셀(420)은 현재 블록의 주변 참조 영역(410) 중 현재 픽셀(420)에 대응하는 참조 픽셀을 나타내는 인트라 플로우(430)를 가진다. 즉, 현재 블록(40) 내의 픽셀들 각각은 인트라 플로우가 나타내는 참조 픽셀을 가질 수 있다. 본 개시의 일 실시예에 따라, 현재 블록(400) 내의 픽셀들 각각은 현재 블록(400) 내의 각 픽셀에 대응하는 참조 픽셀을 가리키는 독립적인 또는 별개의 인트라 플로우(430)를 가질 수 있다. 예를 들어, 현재 블록(400) 내의 제1 픽셀은 제1 픽셀에 대응하는 제1 참조 픽셀을 가리키는 제1 인트라 플로우(430)를 가질 수 있고, 현재 블록(400) 내의 제2 픽셀은 제2 픽셀에 대응하는 제2 참조 픽셀을 가리키는 제2 인트라 플로우(430)를 가질 수 있다. 설명을 위해 제1 인트라 플로우 및 제2 인트라 플로우를 사용하였으나 본 개시는 이에 한정되지 않으며, 제1 인트라 플로우와 제2 인트라 플로우는 인트라 플로우에 포함된 제1 플로우 및 제2 플로우로 지칭될 수 있다. 즉, 인트라 플로우는 현재 블록에서 예측될 각 픽셀(p_i)의 참조 픽셀(i는 정수)을 가리키는 플로우(f_i)를 포함할 수 있다.

일 실시예에 따라, 인트라 플로우는 블록의 경계에 있는 픽셀에는 필요하지 않지만, 필요하다면 참조 블록 내부에 있을 수 있다. 예로, 스크린 콘텐트에서의 블록 카피의 경우에는 참조 블록의 경계에 있는 픽셀에 대해서는 인트라 플로우가 필요하지 않을 수 있다.

일 실시예에 따라, 영상 부호화 과정에서, 영상 부호화 장치는 현재 블록 내의 각 픽셀에 대응하는 참조 픽셀을 나타내는 인트라 플로우를 결정하고, 인트라 플로우를 이용하여 원본 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원함으로써, 코스트 계산을 통해 인트라 플로우에 대한 정보를 엔트로피 부호화하여 비트스트림으로 영상 복호화 장치에 전달한다. 코스트 계산 동작은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산일 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 본 개시의 일 실시예에 따라 다른 계산들이 수행될 수 있다. 또한, 영상 복호화 과정에서, 영상 복호화 장치는 비트스트림으로부터 인트라 플로우에 대한 정보를 획득하고, 인트라 플로우에 대한 정보에 기초하여 현재 블록 내의 각 픽셀에 대응하는 참조 픽셀을 나타내는 인트라 플로우를 결정하고, 인트라 플로우를 이용하여 현재 블록 내의 현재 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원한다.

도 5를 참고하면, 현재 영상(300)의 현재 블록(320) 내의 현재 픽셀의 주변 참조 영역(310) 내의 참조 픽셀을 가라키는 인트라 플로우(330)에 따라, 현재 픽셀의 참조 픽셀이 결정될 수 있다. 이 때, 인트라 플로우(330)가 나타내는 참조 픽셀의 주변 픽셀들은 예측될 픽셀과 유사한 복수의 참조들을 포함할 수 있다. 참조 픽셀과 참조 픽셀의 주변 픽셀들(510)을 혼합하여 이용함으로써 최종 예측 픽셀이 획득될 수 있다. 아래의 도 6에서 더 구체적으로 설명된다.

도 6을 참고하면, 현재 블록(400)의 현재 픽셀(420)의 참조 픽셀을 가리키는 인트라 플로우(430)에 따라, 현재 블록(400)의 주변 참조 영역(410) 중 참조 픽셀이 결정된다. 이 때, 참조 픽셀과 참조 픽셀의 주변 픽셀들(610)이 결정된다. 결정된 참조 픽셀과 주변 픽셀들(610)을 가중 평균의 계산에 이용하여 최종 예측 픽셀이 획득된다. 예를 들어, 도 6에서 참조 픽셀은 픽셀 w₁₁이고, 주변 픽셀들은 w₀₀, w₀₁, w₀₂, w₁₀, w₁₂, w₂₀, w₂₁, 및 w₂₂일 수 있다. 참조 픽셀의 가중치는 w11이고, 참조 픽셀의 좌상측 주변 픽셀의 가중치는 w₀₀이고, 참조 픽셀의 상측 주변 픽셀의 가중치는 w₀₁이고, 참조 픽셀의 우상측 주변 픽셀의 가중치 w₀₂이고, 참조 픽셀의 좌측 주변 픽셀의 가중치는 w₁₀이고, 참조 픽셀의 우측 주변 픽셀의 가중치는 w₁₂이고, 참조 픽셀의 좌하측 주변 픽셀의 가중치는 w₂₀이고, 참조 픽셀의 하측 주변 픽셀의 가중치는 w₂₁이고, 참조 픽셀의 우하측 주변 픽셀의 가중치는 w₂₂이다.

이에 따라, 최종 예측 픽셀(또는 픽셀 값)

는 아래 수학식 1에 따라 가중 평균으로 계산된다.

[수학식 1]

여기서, W는 참조 픽셀 주변의 픽셀들을 나타내는 참조 윈도우이고, 도 6에서는 3x3의 크기이고,

는 i행 j열의 가중치이고,

는 i행 j열의 픽셀의 샘플 값이다.

가중치는 최종 예측 픽셀에 대한 각 참조 픽셀의 기여도를 나타내는 것으로, 기여도가 크면 가중치가 크고, 기여도가 작으면 가중치가 작다.

참조 윈도우는 3x3의 크기가 아니라 5x5, 7x7의 크기일 수 있고, 또한, 참조 윈도우는 정사각형 형태가 아니라 3x5, 5x3과 같은 직사각형 형태일 수 있고, 이에 한정되는 것은 아니다. 이러한 참조 윈도우의 크기 및 형태는 다양할 수 있다.

참조 윈도우는 미리정해진 크기일 수 있고, 가중치 정보는 미리정해진 크기의 참조 윈도우에 기초하여 가중 평균에 이용될 수 있다.

일 실시예에 따라, 영상 부호화 과정에서, 영상 부호화 장치는 현재 블록 내의 각 픽셀에 대응하는 참조 픽셀을 나타내는 인트라 플로우 및 인트라 플로우가 나타내는 참조 픽셀 및 참조 픽셀의 주변 픽셀들에 대한 가중치 정보를 결정하고, 인트라 플로우 및 가중치 정보를 이용하여 원본 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원함으로써, 코스트 계산을 통해 인트라 플로우에 대한 정보 및 가중치 정보를 엔트로피 부호화하여 비트스트림으로 영상 복호화 장치에 전달한다. 코스트 계산은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산일 수 있다. 또한, 영상 복호화 과정에서, 영상 복호화 장치는 비트스트림으로부터 인트라 플로우에 대한 정보 및 가중치 정보를 획득하고, 인트라 플로우에 대한 정보 및 가중치 정보에 기초하여 현재 블록 내의 각 픽셀에 대응하는 참조 픽셀을 나타내는 인트라 플로우 및 참조 픽셀 및 참조 픽셀의 주변 픽셀들에 대한 가중치들을 결정하고, 인트라 플로우 및 가중치들을 이용하여 현재 블록 내의 현재 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원한다.

이하, 도 7 내지 도 23에서는 신경망을 이용하여 인트라 플로우 또는 인트라 플로우 및 가중치 정보를 결정하고, 인트라 플로우 또는 인트라 플로우 및 가중치 정보에 기초하여 예측 픽셀을 획득하는 영상 부호화 방법 및 장치, 및 영상 복호화 방법 및 장치가 후술된다.

본 개시의 일 실시예에 따라, 도 7에 도시된 바와 같이, 현재 블록의 원본 픽셀들(720)과 현재 블록의 주변에 위치하는 참조 픽셀들(710) 및 코딩 컨텍스트 정보(730)가 신경망(740)에 입력되고, 신경망(740)은 인트라 플로우(760)을 출력할 수 있다. 비록 도 7은 복수의 원본 픽셀들과 복수의 참조 픽셀들(710)을 도시하지만, 본 개시는 이에 제한되지 않으며, 본 개시의 일 실시예에 따라, 현재 블록의 원본 픽셀, 원본 픽셀의 주변에 위치하는 참조 픽셀 및 코딩 컨텍스트 정보(730)가 신경망(740)에 입력될 수 있다. 본 개시의 일 실시예에 따라, 신경망(740)으로부터 인트라 플로우(760)만 획득될 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 신경망(760)은 인트라 플로우(760)와 함께 다른 정보를 출력할 수 있다. 예를 들어, 인트라 플로우(760)와 가중치 정보(770)가 신경망(740)으로부터 획득될 수 있다. 본 개시의 일 실시예에 따라, 인트라 플로우(760)를 이용하여 예측(780)하여 예측 픽셀들(790)이 획득된다. 또는, 신경망(740)으로부터 인트라 플로우(760) 및 가중치 정보(770)가 획득되고, 인트라 플로우(760) 및 가중치 정보(770)를 이용하여 예측(780)하여 예측 픽셀들(790)이 획득될 수 있다. 이 때, 코스트 계산을 통해 신경망(740)으로부터 인트라 예측 특징 데이터가 엔트로피 부호화되어 비트스트림으로 복호화 장치에 전달된다. 코스트 계산은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산일 수 있다.

본 개시의 일 실시예에 따라, 인트라 플로우(760)의 정밀도는 가중치 정보가 이용되지 않는 경우에는 1/2 펠 (half-pel), 1/4 펠(quarter-pel) 등의 분수 픽셀이 될 수 있다.

인트라 플로우(760)의 정밀도는 가중치 정보가 이용되는 경우에는 참조 픽셀을 직접 가리키는 픽셀 정밀도일 수 있다.

도 8을 참고하면, 컨텍스트 인코더(801)에 입력되는 코딩 컨텍스트 정보로, 양자화 파라미터(805), 시간적 레이어(810), 및 분할 트리 구조(815)가 이용되고, 컨텍스트 인코더(801)에 입력되는 픽셀 정보로 현재 블록의 원본 픽셀들(830), 현재 블록의 주변(또는 주위)에 위치하는 참조 픽셀들(820), 및 주변 블록의 부호화되지 않은 영역의 샘플값이 0인 제로 픽셀들(825)이 이용된다.

본 개시의 일 실시예에 따라, 코딩 컨텍스트 정보(805, 810, 815)는 픽셀 정보의 픽셀 값들과 다른 도메인에 있으므로, 부호화 신경망(850)에 입력되기 전에 신경망(835)을 통해 픽셀 정보(820, 830, 825)와 동일한 크기로 처리될 필요가 있다. 여기서, 신경망(835)은 일반적인 컨볼루션 뉴럴 네트워크(CNN)일 수 있다. 또한, 신경망(835)은 RNN(recurrent neural network)일 수 있다. 이는 하나의 예시일 뿐, 이에 한정되지 않는다.

신경망(835)으로부터 출력된 코딩 컨텍스트 정보(805, 810, 815)과 픽셀 정보(820, 830, 825)는 접합(840)되어 부호화 신경망(850)에 입력된다.

부호화 신경망(850)으로부터 특징 맵 형태의 인트라 예측 특징 데이터(855)가 출력된다.

참조 픽셀들(820), 제로 픽셀들(825), 및 원본 픽셀들(830)을 포함하는 픽셀 정보의 크기를 HxWxC (H는 픽셀 정보의 높이, W는 픽셀 정보의 너비, C는 픽셀 정보의 채널이고, 예를 들어, 루마 성분인 경우 C의 값은 1이다.)라 하면, 특징 맵 데이터인 인트라 예측 특징 데이터(855)의 크기는 hxwxc (h는 H보다 작고 w는 W보다 작고 c는 미리정해진 수이다.)으로 제한될 수 있다. 일반적으로, h는 H/16이고 w는 W/16일 수 있다. 여기서, c는 비트레이트가 큰 환경이라면 더 큰 c로 결정될 수 있다. 다만, 이에 한정되지 않는다.

본 개시의 일 실시예에 따라, 인트라 예측 특징 데이터(855)는 비트스트림으로 전송되고, 인트라 예측 특징 데이터(855)의 크기가 큰 경우 인트라 예측 특징 데이터(855)를 전송하기에 비효율적이므로, 인트라 예측 특징 데이터(855)는 적절한 크기로 제한될 수 있다.

본 개시의 일 실시예에 따라, 인트라 예측 특징 데이터(855)는 엔트로피 부호화되어 전송되기 때문에, 인트라 예측 특징 데이터(855)는 부호화 신경망(850)의 결과로 출력된 특징 맵 데이터와 엔트로피 복호화에 필요한 특징 맵 데이터의 확률 분포를 나타내는 추가 정보를 포함할 수 있다. 인트라 예측 특징 데이터(855)는 참조 픽셀들(820)과 제로 픽셀들(825)을 포함하는 픽셀 정보 및 코딩 컨텍스트 정보(805, 810, 815)와 함께 컨텍스트 디코더(802)에 다시 입력된다. 여기서, 원본 픽셀들(830)은 컨텍스트 디코더(802)에 입력되지 않고 대신에 추가적인 제로 픽셀들(825)이 컨텍스트 디코더(802)에 입력될 수 있다. 픽셀 정보(820, 825) 및 코딩 컨텍스트 정보(805, 810, 815)는 인트라 예측 특징 데이터(855)와 다른 도메인에 있기 때문에, 신경망(860)을 통해 인트라 예측 특징 데이터(855)와 동일한 크기로 처리된 후, 인트라 예측 특징 데이터(855)와 접합(865)되어 복호화 신경망(870)에 입력된다. 여기서, 신경망(860)은 일반적인 컨볼루션 뉴럴 네트워크(CNN)일 수 있다. 또한, 신경망(860)은 RNN(recurrent neural network)일 수 있다. 이는 하나의 예시일 뿐, 이에 한정되지 않는다.

복호화 신경망(870)으로부터 인트라 플로우의 x 성분(875), 인트라 플로우의 y 성분(880), 및 가중치 정보(885)가 획득된다.

본 개시의 일 실시예에 따라, 인트라 플로우의 x 성분(875), 인트라 플로우의 y 성분(880) 대신 인트라 플로우의 각도 성분 및 크기 성분이 획득될 수 있다.

본 개시의 일 실시예에 따라, 복호화 신경망(870)으로부터 인트라 플로우의 각도 성분만이 획득될 수 있다.

본 개시의 일 실시예에 따라, 복호화 신경망(870)으로부터 인트라 플로우의 x 성분(875), 인트라 플로우의 y 성분(880)만 획득될 수 있다.

본 개시의 일 실시예에 따라, 부호화 신경망(850)으로부터 출력된 인트라 예측 특징 데이터(855)는 비트스트림 형태로 복호화 장치에 전달된다.

도 9를 참고하면, 도 8의 부호화 신경망(850)에서 코딩 컨텍스트 정보(805, 810, 815)와 픽셀 정보(820, 825, 830)인 입력 데이터가 제1 컨볼루션 레이어(905)에 입력된다. 제1 컨볼루션 레이어(905)에서 "NX5X5/2 ↓"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 다운샘플링하는 컨볼루션 처리를 가리킨다.

제 1 컨볼루션 레이어(905)에 의해 생성된 특징 데이터들은 입력 데이터의 고유한 특성들을 나타낼 수 있다. 예를 들어, 각 특징 데이터는 입력 데이터의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.

제 1 컨볼루션 레이어(905)의 특징 데이터들은 제 1 GDN(generalized divisive normalization) 레이어(910)로 입력될 수 있다. 제 1 GDN 레이어(910) 대신 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등이 이용될 수 있으나, 이에 한정되는 것은 아니다.

제 1 GDN 레이어(910)는 각각의 특징 데이터에 대해 비선형(Non-linear) 특성을 부여할 수 있다.

제 1 GDN 레이어(910)에서 비선형 특성을 부여하는 것은, 특징 데이터의 일부 샘플 값을 변경하여 출력하는 것을 의미할 수 있다. 이때, 변경은 비선형 특성을 적용하여 수행될 수 있다.

제 1 GDN 레이어(910)는 특징 데이터의 샘플 값들을 제 2 컨볼루션 레이어(915)로 전달할지 여부를 결정할 수 있다. 예를 들어, 특징 데이터의 샘플 값들 중 어떤 샘플 값들은 제 1 GDN 레이어(910)에 의해 활성화되어 제 2 컨볼루션 레이어(915)로 전달되고, 특정 데이터의 어떤 샘플 값들은 제 1 GDN 레이어(910)에 의해 비활성화되어 제 2 컨볼루션 레이어(915)로 전달되지 않을 수 있다. 특징 데이터들이 나타내는 입력 데이터의 고유 특성이 제 1 GDN 레이어(910)에 의해 강조될 수 있다.

제 1 GDN 레이어(910)에서 출력된 특징 데이터들은 제 2 컨볼루션 레이어(915)로 입력될 수 있다. 제 2 컨볼루션 레이어(915)에서, "NX5X5/2 ↓"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 다운샘플링하는 컨볼루션 처리를 가리킨다.

제 2 컨볼루션 레이어(915)의 출력은 제 2 GDN 레이어(920)로 입력될 수 있다. 제 2 GDN 레이어(920)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 2 GDN 레이어(920)에서 출력된 특징 데이터들은 제 3 컨볼루션 레이어(925)로 입력될 수 있다. 제 3 컨볼루션 레이어(925)에서, "NX5X5/2 ↓"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 다운샘플링하는 컨볼루션 처리를 가리킨다.

제 3 컨볼루션 레이어(925)의 출력은 제 3 GDN 레이어(930)로 입력될 수 있다. 제 3 GDN 레이어(930)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 3 GDN 레이어(930)에서 출력된 특징 데이터들은 제 4 컨볼루션 레이어(935)로 입력될 수 있다. 제 4 컨볼루션 레이어(935)에서, "MX5X5/2 ↓"는 5x5의 크기의 M개의 필터 커널들을 이용하여 스트라이드 간격 2로 다운샘플링하는 컨볼루션 처리를 가리킨다.

제 4 컨볼루션 레이어(935)로부터 특징 맵 형태의 인트라 예측 특징 데이터(855)가 출력된다.

본 개시의 일 실시예에 따라, 도 9는 부호화 신경망(850)이 네 개의 컨볼루션 레이어(제 1 컨볼루션 레이어(905), 제 2 컨볼루션 레이어(915), 제 3 컨볼루션 레이어(925), 및 제 4 컨볼루션 레이어(935))와 세 개의 GDN 레이어(제 1 GDN 레이어(910), 제 2 GDN 레이어(920), 및 제 3 GDN 레이어(930))를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 본 개시의 일 실시예에서, 신경망(850)에 포함된 컨볼루션 레이어 및 GDN 레이어의 개수는 다양하게 변경될 수 있다.

또한, 도 9를 참고하면, 도 8의 복호화 신경망(870)에서 코딩 컨텍스트 정보(805, 810, 815), 픽셀 정보(820, 825), 및 인트라 예측 특징 데이터(855)인 입력 데이터가 제5 컨볼루션 레이어(945)에 입력된다. 제5 컨볼루션 레이어(945)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 5 컨볼루션 레이어(945)에 의해 생성된 특징 데이터들은 입력 데이터의 고유한 특성들을 나타낼 수 있다. 예를 들어, 각 특징 데이터는 입력 데이터의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.

제 5 컨볼루션 레이어(945)의 특징 데이터들은 제 1 IGDN(inverse generalized divisive normalization) 레이어(940)로 입력될 수 있다. 제 1 IGDN 레이어(940) 대신 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등이 이용될 수 있으나, 이에 한정되는 것은 아니다.

제 1 IGDN 레이어(940)는 각각의 특징 데이터에 대해 비선형(Non-linear) 특성을 부여할 수 있다.

제 1 IGDN 레이어(940)에서 비선형 특성을 부여하는 것은, 특징 데이터의 일부 샘플 값을 변경하여 출력하는 것을 의미할 수 있다. 이때, 변경은 비선형 특성을 적용하여 수행될 수 있다.

제 1 IGDN 레이어(940)는 특징 데이터의 샘플 값들을 제 6 컨볼루션 레이어(955)로 전달할지 여부를 결정할 수 있다. 예를 들어, 특징 데이터의 샘플 값들 중 어떤 샘플 값들은 제 1 IGDN 레이어(940)에 의해 활성화되어 제 6 컨볼루션 레이어(955)로 전달되고, 어떤 샘플 값들은 제 1 IGDN 레이어(940)에 의해 비활성화되어 제 6 컨볼루션 레이어(955)로 전달되지 않을 수 있다. 특징 데이터들이 나타내는 입력 데이터의 고유 특성이 제 1 IGDN 레이어(940)에 의해 강조될 수 있다.

제 1 IGDN 레이어(940)에서 출력된 특징 데이터들은 제 6 컨볼루션 레이어(955)로 입력될 수 있다. 제 6 컨볼루션 레이어(955)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 6 컨볼루션 레이어(955)의 출력은 제 2 IGDN 레이어(950)로 입력될 수 있다. 제 2 IGDN 레이어(950)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 2 IGDN 레이어(950)에서 출력된 특징 데이터들은 제 7 컨볼루션 레이어(965)로 입력될 수 있다. 제 7 컨볼루션 레이어(965)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 7 컨볼루션 레이어(965)의 출력은 제 3 IGDN 레이어(960)로 입력될 수 있다. 제 3 IGDN 레이어(960)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 3 IGDN 레이어(960)에서 출력된 특징 데이터들은 제 8 컨볼루션 레이어(975)로 입력될 수 있다. 제 8 컨볼루션 레이어(975)에서, "3X5X5/2 ↑"는 5x5의 크기의 3개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 8 컨볼루션 레이어(975)로부터 인트라 플로우의 x 성분(875), 인트라 플로우의 y 성분(880), 및 가중치 정보(885)가 출력된다. 도 9는 복호화 신경망(870)이 네 개의 컨볼루션 레이어(제 5 컨볼루션 레이어(945), 제 6 컨볼루션 레이어(955), 제 7 컨볼루션 레이어(965), 및 제 8 컨볼루션 레이어(975))와 세 개의 IGDN 레이어(제 1 IGDN 레이어(940), 제 2 IGDN 레이어(950), 및 제 3 IGDN 레이어(960))를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 일 실시예에서, 신경망(870)에 포함된 컨볼루션 레이어 및 IGDN 레이어의 개수는 다양하게 변경될 수 있다.

전술된 도 9의 신경망들의 구조는 하나의 예시일 뿐이며 이에 한정되지 않는다.

도 10에 도시된 바와 같이, 현재 블록의 인트라 예측 특징 데이터(1020), 현재 블록의 주변에 위치하는 참조 픽셀들(1010), 및 코딩 컨텍스트 정보(1030)가 신경망(1040)에 입력된다. 본 개시의 일 실시예에 따라, 신경망(1040)은 인트라 플로우(1060)만 출력할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 본 개시의 일 실시예에 따라, 신경망(1040)은 다른 정보와 함께 인트라 플로우(1060)를 출력할 수 있다. 예를 들어, 신경망(1040)은 인트라 플로우(1060)와 가중치 정보(1070)를 출력할 수 있다. 본 개시의 일 실시예에 따라, 신경망(1040)으로부터 인트라 플로우(1060)만 획득되는 경우, 인트라 플로우(1060)를 이용하여 예측(1080)하여 예측 픽셀(1090)이 획득된다. 또는, 신경망(1040)으로부터 인트라 플로우(1060) 및 가중치 정보(1070)가 획득되는 경우, 인트라 플로우(1060) 및 가중치 정보(1070)를 이용하여 예측(1080)하여 예측 픽셀(1090)이 획득된다. 이 때, 비트스트림으로부터 획득된 인트라 예측 특징 데이터가 엔트로피 복호화되어 신경망(1040)에 입력된다.

인트라 플로우(1060)의 정밀도는 가중치 정보가 이용되지 않는 경우에는 1/2 펠 (half-pel), 1/4 펠(quarter-pel) 등의 분수 픽셀이 될 수 있다.

인트라 플로우(1060)의 정밀도는 가중치 정보가 이용되는 경우에는 참조 픽셀을 직접 가리키는 픽셀 정밀도일 수 있다.

본 개시의 일 실시예에 따라, 도 11의 컨텍스트 디코더(1101)는 도 8의 컨텍스트 디코더(802)와 동일하다.

도 11을 참고하면, 비트스트림으로부터 특징 맵 형태의 인트라 예측 특징 데이터(1130)가 획득된다. 인트라 예측 특징 데이터(1130)는 코딩 컨텍스트 정보(1105, 1110, 1115) 및 참조 픽셀들(1120)과 제로 픽셀들(1125)에 대응하는 픽셀 정보와 함께 컨텍스트 디코더(1101)에 입력될 수 있다. 여기서, 코딩 컨텍스트 정보(1105, 1110, 1115) 및 픽셀 정보(1120, 1125)는 신경망(1160)을 통해 인트라 예측 특징 데이터(1130)와 동일한 크기로 처리된 후, 인트라 예측 특징 데이터(1130)와 접합(1140)되어 복호화 신경망(1150)에 입력된다. 여기서, 신경망(1160)은 일반적인 컨볼루션 뉴럴 네트워크(CNN)일 수 있다. 또한, 신경망(1160)은 RNN(recurrent neural network)일 수 있다. 이는 하나의 예시일 뿐, 이에 한정되지 않는다.

복호화 신경망(1150)으로부터 인트라 플로우의 x 성분(1160), 인트라 플로우의 y 성분(1170), 및 가중치 정보(1180)가 획득된다.

또한, 인트라 플로우의 x 성분(1160), 인트라 플로우의 y 성분(1170) 대신 인트라 플로우의 각도 성분 및 크기 성분이 획득될 수 있다.

또한, 복호화 신경망(1150)으로부터 인트라 플로우의 각도 성분만이 획득될 수 있다.

또한, 복호화 신경망(1150)으로부터 인트라 플로우의 x 성분(1160), 인트라 플로우의 y 성분(1170)만 획득될 수 있다.

도 12는 도 11의 복호화 신경망의 구조의 일 예이다.

도 11의 복호화 신경망(1150)의 구조는 도 8의 복호화 신경망(870)의 구조와 동일하다.

도 12를 참고하면, 도 11의 복호화 신경망(1150)에서 코딩 컨텍스트 정보(1105, 1110, 1115), 픽셀 정보(1120, 1125), 및 인트라 예측 특징 데이터(1130)인 입력 데이터가 제1 컨볼루션 레이어(1205)에 입력된다. 제1 컨볼루션 레이어(1205)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다. 여기서, N은 정수이다.

제 1 컨볼루션 레이어(1205)에 의해 생성된 특징 데이터들은 입력 데이터의 고유한 특성들을 나타낼 수 있다. 예를 들어, 각 특징 데이터는 입력 데이터의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.

제 1 컨볼루션 레이어(1205)의 특징 데이터들은 제 1 IGDN(inverse generalized divisive normalization) 레이어(1210)로 입력될 수 있다. 제 1 IGDN 레이어(1210) 대신 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등이 이용될 수 있으나, 이에 한정되는 것은 아니다.

제 1 IGDN 레이어(1210)는 각각의 특징 데이터에 대해 비선형(Non-linear) 특성을 부여할 수 있다.

제 1 IGDN 레이어(1210)에서 비선형 특성을 부여하는 것은, 특징 데이터의 일부 샘플 값을 변경하여 출력하는 것을 의미할 수 있다. 이때, 변경은 비선형 특성을 적용하여 수행될 수 있다.

제 1 IGDN 레이어(1210)는 특징 데이터의 샘플 값들을 제 2 컨볼루션 레이어(1215)로 전달할지 여부를 결정할 수 있다. 예를 들어, 특징 데이터의 샘플 값들 중 어떤 샘플 값들은 제 1 IGDN 레이어(1210)에 의해 활성화되어 제 2 컨볼루션 레이어(1215)로 전달되고, 어떤 샘플 값들은 제 1 IGDN 레이어(1210)에 의해 비활성화되어 제 2 컨볼루션 레이어(1215)로 전달되지 않을 수 있다. 특징 데이터들이 나타내는 입력 데이터의 고유 특성이 제 1 IGDN 레이어(1210)에 의해 강조될 수 있다.

제 1 IGDN 레이어(1210)에서 출력된 특징 데이터들은 제 2 컨볼루션 레이어(1215)로 입력될 수 있다. 제 2 컨볼루션 레이어(1215)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 2 컨볼루션 레이어(1215)의 출력은 제 2 IGDN 레이어(1220)로 입력될 수 있다. 제 2 IGDN 레이어(1220)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 2 IGDN 레이어(1220)에서 출력된 특징 데이터들은 제 3 컨볼루션 레이어(1225)로 입력될 수 있다. 제 3 컨볼루션 레이어(1225)에서, "NX5X5/2 ↑"는 5x5의 크기의 N개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 3컨볼루션 레이어(1225)의 출력은 제 3 IGDN 레이어(1230)로 입력될 수 있다. 제 3 IGDN 레이어(1230)는 입력된 특징 데이터들에 대해 비선형 특성을 부여할 수 있다.

제 3 IGDN 레이어(1230)에서 출력된 특징 데이터들은 제 4 컨볼루션 레이어(1235)로 입력될 수 있다. 제 4 컨볼루션 레이어(1235)에서, "3X5X5/2 ↑"는 5x5의 크기의 3개의 필터 커널들을 이용하여 스트라이드 간격 2로 업샘플링하는 컨볼루션 처리를 가리킨다.

제 4 컨볼루션 레이어(1235)로부터 인트라 플로우의 x 성분(1160), 인트라 플로우의 y 성분(1170), 및 가중치 정보(1180)가 출력된다. 도 12는 복호화 신경망(1150)이 네 개의 컨볼루션 레이어(제 1 컨볼루션 레이어(1205), 제 2 컨볼루션 레이어(1215), 제 3 컨볼루션 레이어(1225), 및 제 4 컨볼루션 레이어(1235))와 세 개의 IGDN 레이어(제 1 IGDN 레이어(1210), 제 2 IGDN 레이어(1220), 및 제 3 IGDN 레이어(1230))를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 일 실시예에서, 신경망(1150)에 포함된 컨볼루션 레이어 및 IGDN 레이어의 개수는 다양하게 변경될 수 있다.

전술된 도 12의 신경망의 구조는 하나의 예시일 뿐이며 이에 한정되지 않는다.

도 13을 참고하면, 훈련용 원본 픽셀들(1320), 훈련용 참조 픽셀들(1310), 훈련용 코딩 컨텍스트 정보(1330)을 이용하여 부호화 신경망(1340)과 복호화 신경망(1345)이 훈련될 수 있다.

구체적으로, 훈련용 원본 픽셀들(1320), 훈련용 참조 픽셀들(1310), 훈련용 코딩 컨텍스트 정보(1330)가 부호화 신경망(1340)에 입력되어 훈련용 인트라 예측 특징 데이터(1350)을 획득된다. 훈련용 인트라 예측 특징 데이터(1350), 훈련용 참조 픽셀들(1310), 및 훈련용 코딩 컨텍스트 정보(1330)가 복호화 신경망(1345)에 입력되어, 인트라 플로우(1360) 및 가중치 정보(1370)가 획득된다. 인트라 플로우(1360) 및 가중치 정보(1370)에 기초하여 예측(1380)이 수행되면, 훈련용 예측 픽셀들(1390)이 획득된다. 또는, 훈련용 인트라 예측 특징 데이터(1350), 훈련용 참조 픽셀들(1310), 및 훈련용 코딩 컨텍스트 정보(1330)가 복호화 신경망(1345)에 입력되어, 인트라 플로우(1360)만 획득되고, 인트라 플로우(1360)에 기초하여 예측(1380)이 수행되면, 훈련용 예측 픽셀들(1390)이 획득될 수 있다.

도 13의 훈련 과정에서, 비교(1355)를 통해 훈련용 예측 픽셀들(1390)이 훈련용 원본 픽셀들(1320)에 최대한 유사해지고, 훈련용 인트라 예측 특징 데이터(1350)에 대한 부호화를 통해 생성된 비트스트림의 비트레이트가 최소화되도록 신경망들이 훈련될 수 있다. 이를 위해 도 13에 도시된 바와 같이, 제 1 손실 정보(1365)와 제 2 손실 정보(1375)가 신경망들의 훈련에 이용될 수 있다.

제 1 손실 정보(1365)는 훈련용 원본 픽셀들(1320)과 훈련용 예측 픽셀들(1390) 사이의 차이에 대응할 수 있다. 일 실시예에서, 훈련용 원본 픽셀들(1320)과 훈련용 예측 픽셀들(1390) 사이의 차이는, 훈련용 원본 픽셀들(1320)과 훈련용 예측 픽셀들(1390) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 또는 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.

제 1 손실 정보(1365)는 훈련용 예측 픽셀들(1390)을 이용한 복원 영상의 퀄리티와 관련이 있으므로, 퀄리티 손실 정보로 참조될 수도 있다.

제 2 손실 정보(1375)는 훈련용 인트라 예측 특징 데이터에 대한 부호화 결과로 생성된 비트스트림의 비트레이트로부터 산출될 수 있다.

제 2 손실 정보(1375)는, 훈련용 인트라 예측 특징 데이터에 대한 부호화 효율에 관련되므로, 제 2 손실 정보는 압축도 손실 정보로 참조될 수 있다.

부호화 신경망(1340) 및 복호화 신경망(1345)은 제 1 손실 정보(1365) 또는 제 2 손실 정보(1375) 중 적어도 하나로부터 도출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.

일 실시예에서, 부호화 신경망(1340) 및 복호화 신경망(1345)은 미리 설정된 파라미터의 값을 변경하면서 최종 손실 정보가 감소 또는 최소화되도록 할 수 있다.

일 실시예에서, 최종 손실 정보는 하기 수학식 2에 따라 산출될 수 있다.

[수학식 2]

최종 손실 정보 = a*제 1 손실 정보+b*제 2 손실 정보

수학식 2에서, a, b는 각각 제 1 손실 정보(1365) 및 제 2 손실 정보(1375) 각각에 적용되는 가중치이다.

수학식 2에 따르면, 부호화 신경망(1340) 및 복호화 신경망(1345)은 훈련용 예측 픽셀이 훈련용 원본 픽셀에 최대한 유사해지고, 비트스트림의 크기가 최소화되는 방향으로 훈련됨을 알 수 있다.

인트라 플로우는 코딩 구성 및 비디오 콘텐트에 적응하도록 학습된다. 가중치 정보도 코딩 구성 및 비디오 콘텐트에 적응하도록 동적으로 학습된다.

도 13을 참조하여 설명한 훈련 과정은 훈련 장치에 의해 수행될 수 있다. 훈련 장치는 예를 들어, 영상 부호화 장치(1900) 또는 별도의 서버일 수 있다. 훈련 결과 획득된 파라미터들은 영상 부호화 장치(1900) 및 영상 복호화 장치(1700)에 저장될 수 있다.

도 7의 영상 복호화 방법 및 도 10의 영상 부호화 방법과 달리, 도 14의 영상 복호화 방법은 비트스트림으로부터 획득되는 정보가 없고, 도 14의 영상 부호화 방법은 시그널링하는 정보가 없기 때문에, 도 14의 영상 복호화 방법 및 영상 부호화 방법은 동일한 방식으로 수행된다.

도 14에 도시된 바와 같이, 현재 블록의 주변에 위치하는 참조 픽셀들(1410) 및 코딩 컨텍스트 정보(1420)가 신경망(1430)에 입력된다. 신경망(1430)으로부터 인트라 플로우(1440) 및 가중치 정보(1450)가 획득되고, 인트라 플로우(1440) 및 가중치 정보(1450)를 이용하여 예측(1460)하여 예측 픽셀들(1470)이 획득된다.

신경망(1430)은 컨볼루션 뉴럴 네트워크일 수 있다. 또한, 신경망(1430)은 RNN(recurrent neural network)일 수 있다. 이는 하나의 예시일 뿐, 이에 한정되지 않는다.

도 15는 도 14의 신경망의 훈련 방법을 설명하기 위한 도면이다.

도 15를 참고하면, 훈련용 참조 픽셀들(1510) 및 훈련용 코딩 컨텍스트 정보(1520)을 이용하여 신경망(1530)이 훈련될 수 있다.

예를 들어, 훈련용 참조 픽셀들(1510) 및 훈련용 코딩 컨텍스트 정보(1520)가 신경망(1530)에 입력되어 인트라 플로우(1540) 및 가중치 정보(1550)가 획득된다. 인트라 플로우(1540) 및 가중치 정보(1550)에 기초하여 예측(1560)이 수행되면, 훈련용 예측 픽셀들(1570)이 획득될 수 있다.

도 15의 훈련 과정에서, 비교(1575)를 통해 훈련용 예측 픽셀들(1570)이 훈련용 원본 픽셀들(1580)에 최대한 유사해지도록 신경망(1530)이 훈련될 수 있다. 이를 위해 도 15에 도시된 바와 같이, 제 1 손실 정보(1590)가 신경망(1530)의 훈련에 이용될 수 있다. 본 개시의 일 일시예에 따라, 훈련용 참조 픽셀들(1510), 훈련용 예측 픽셀들(1570), 및 훈련용 원본 픽셀들(1580)은 하나 이상의 픽셀들을 포함할 수 있다.

제 1 손실 정보(1590)는 훈련용 원본 픽셀들(1580)과 훈련용 예측 픽셀들(1570) 사이의 차이에 대응할 수 있다. 일 실시예에서, 훈련용 원본 픽셀들(1580)과 훈련용 예측 픽셀들(1570) 사이의 차이는, 훈련용 원본 픽셀들(1580)과 훈련용 예측 픽셀들(1570) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 또는 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.

제 1 손실 정보(1590)는 훈련용 예측 픽셀들(1570)을 이용한 복원 영상의 퀄리티와 관련이 있으므로, 퀄리티 손실 정보로 참조될 수도 있다.

신경망(1530)은 제 1 손실 정보(1590)로부터 도출되는 최종 손실 정보가 감소 또는 최소화되도록 훈련될 수 있다.

일 실시예에서, 신경망(1530)은 미리 설정된 파라미터의 값을 변경하면서 최종 손실 정보가 감소 또는 최소화되도록 할 수 있다.

일 실시예에서, 최종 손실 정보는 하기 수학식 3에 따라 산출될 수 있다.

[수학식 3]

최종 손실 정보 = c*제 1 손실 정보

수학식 3에서, c는 각각 제 1 손실 정보(1590)에 적용되는 가중치이다.

수학식 3에 따르면, 신경망(1530)은 훈련용 예측 픽셀이 훈련용 원본 픽셀에 최대한 유사해지는 방향으로 훈련됨을 알 수 있다.

도 15를 참조하여 설명한 훈련 과정은 훈련 장치에 의해 수행될 수 있다. 훈련 장치는 예를 들어, 영상 부호화 장치(2300) 또는 별도의 서버일 수 있다. 훈련 결과 획득된 파라미터들은 영상 부호화 장치(2300) 및 영상 복호화 장치(2100)에 저장될 수 있다.

도 16을 참고하면, S1610 단계에서, 영상 복호화 장치(1700)는 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득할 수 있다.

S1630 단계에서, 영상 복호화 장치(1700)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정할 수 있다.

일 실시예에 따라, 영상 복호화 장치(1700)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 상기 참조 픽셀과 상기 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 결정할 수 있다.

일 실시예에 따라, 신경망은 인트라 예측 특징 데이터, 참조 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 인트라 플로우를 출력할 수 있다.

일 실시예에 따라, 인트라 플로우는 x성분과 y성분을 포함하는 벡터, 크기 성분과 각도 성분을 포함하는 벡터, 또는 상기 현재 픽셀이 가리키는 상기 참조 픽셀에 대한 각도 중 하나로 표현될 수 있다.

일 실시예에 따라, 인트라 예측 특징 데이터는 신경망 기반의 부호화를 통해 결정될 수 있다.

일 실시예에 따라, 코딩 컨텍스트 정보는 현재 블록의 양자화 파라미터, 현재 블록의 시간적 레이어, 현재 블록의 분할 구조, 주변 픽셀들의 분할 구조, 또는 주변 픽셀의 변환 타입 중 적어도 하나를 포함할 수 있다. 본 개시의 일 실시예에 따라, 현재 블록의 분할 구조 정보와 주변 픽셀들의 분할 구조 정보는 현재 블록과 주변 픽셀들이 영상의 프레임에 대하여 어떻게 분할(split 또는 divide)되는지를 나타낼 수 있다. 또한, 분할 구조 정보는 도 2에 도시된 트리 구조 내에서 분할(split 또는 division)의 레벨을 나타내는 계층 정보를 더 포함할 수 있다.

일 실시예에 따라, 코딩 컨텍스트 정보는 신경망 기반 부호화를 통해 획득된 것일 수 있다.

S1650 단계에서, 영상 복호화 장치(1700)는 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득할 수 있다.

일 실시예에 따라, 영상 복호화 장치(1700)는 신경망으로부터 상기 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 추가로 획득하고, 참조 픽셀과 복수의 주변 픽셀들 및, 상기 가중치 정보를 이용하는 가중 평균에 기초하여 예측 픽셀들을 획득할 수 있다.

일 실시예에 따라, 인트라 플로우의 정밀도는 가중치 정보가 획득되지 않는 경우에는 1/2 펠 (half-pel), 1/4 펠(quarter-pel) 등의 분수 픽셀이 될 수 있다.

일 실시예에 따라, 인트라 플로우의 정밀도는 가중치 정보가 추가로 획득되는 경우에는 참조 픽셀을 직접 가리키는 픽셀 정밀도일 수 있다.

S1670 단계에서, 영상 복호화 장치(1700)는 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

도 17을 참조하면, 영상 복호화 장치(1700)는 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)를 포함할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 영상 복호화 장치(1700)는 도 1에 도시된 구성요소들 중 일부를 생략하거나 다른 구성요소를 포함할 수 있다. 예를 들어, 영상 복호화 장치(1700)는 메모리를 포함할 수 있다.

수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 프로세서로 구현될 수 있다. 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 17은 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)를 개별적으로 도시하고 있으나, 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 복수의 프로세서로 구현될 수도 있다. 이 경우, 수신부(1710), AI 처리부(1720), 및 복호화부 (1730)는 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.

수신부(1710)는 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득한다. 또한, 수신부(1710)는 인트라 예측 특징 데이터를 엔트로피 복호화하여 AI 처리부(1720)에 전달한다.

또한, AI 처리부(1720)는 참조 픽셀 및 코딩 컨텍스트 정보를 획득한다.

AI 처리부(1720)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정한다.

AI 처리부(1720)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 상기 참조 픽셀과 상기 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 결정할 수 있다.

AI 처리부(1720)는 인트라 플로우를 복호화부(1730)에 전달한다.

AI 처리부(1720)는 인트라 플로우 및 가중치 정보를 복호화부(1730)에 전달할 수 있다.

복호화부(1730)는 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득한다. 또한, 복호화부(1730)는 예측 픽셀에 기초하여 현재 블록을 복원한다.

복호화부(1730)는 현재 블록의 인트라 플로우 및 가중치 정보에 기초하여 현재 픽셀의 예측 픽셀을 획득할 수 있다.

비트스트림은 네트워크를 통해 영상 부호화 장치(1900)로부터 전송될 수 있다. 일 실시예에서, 비트스트림은 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium) 등을 포함하는 데이터 저장 매체에 기록될 수도 있다.

도 18을 참고하면, S1810 단계에서, 영상 부호화 장치(1900)는 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록의 인트라 예측 특징 데이터, 현재 블록의 원본 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정할 수 있다.

일 실시예에 따라, 영상 부호화 장치(1900)는 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록의 인트라 예측 특징 데이터, 현재 블록의 원본 픽셀의 참조 픽셀을 가리키는 인트라 플로우, 및 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 결정할 수 있다.

일 실시예에 따라, 신경망은 원본 픽셀, 참조 픽셀, 및 코딩 컨텍스트 정보를 입력으로 하여 인트라 예측 특징 데이터를 출력하는 부호화 신경망과, 인트라 예측 특징 데이터, 참조 픽셀, 및 코딩 컨텍스트 정보를 입력으로 상기 인트라 플로우를 출력하는 복호화 신경망을 포함할 수 있다.

일 실시예에 따라, 복호화 신경망은 가중치 정보가 더 출력될 수 있다.

일 실시예에 따라, 인트라 플로우는 x성분과 y성분을 포함하는 벡터, 크기 성분과 각도 성분을 포함하는 벡터, 또는 현재 픽셀이 가리키는 참조 픽셀에 대한 각도 중 하나로 표현될 수 있다.

일 실시예에 따라, 코딩 컨텍스트 정보는 현재 블록의 양자화 파라미터, 현재 블록의 시간적 레이어, 현재 블록의 분할 구조, 주변 픽셀들의 분할 구조, 주변 픽셀의 변환 타입 중 적어도 하나를 포함할 수 있다.

S1830 단계에서, 영상 부호화 장치(1900)는 현재 블록의 인트라 플로우에 기초하여 원본 픽셀의 예측 픽셀을 획득할 수 있다.

일 실시예에 따라, 영상 부호화 장치(1900)는 신경망으로부터 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 추가로 획득하고, 참조 픽셀과 복수의 주변 픽셀들 및, 가중치 정보를 이용하는 가중 평균에 기초하여 예측 픽셀들을 획득할 수 있다.

S1830 단계에서, 영상 부호화 장치(1900)는 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화할 수 있다.

도 19를 참조하면, 영상 부호화 장치(1900)는 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)를 포함할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 영상 부호화 장치(1900)는 도 19에 도시된 구성요소들 중 일부를 생략하거나 다른 구성요소를 포함할 수 있다. 예를 들어, 영상 부호화 장치(1900)는 메모리를 포함할 수 있다.

제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 프로세서로 구현될 수 있다. 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 19는 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)를 개별적으로 도시하고 있으나, 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 복수의 프로세서로 구현될 수도 있다. 이 경우, 제1 AI 처리부(1910), 제2 AI 처리부(1920), 및 부호화부 (1930)는 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.

제1 AI 처리부(1910)는 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 부호화 신경망에 적용하여, 현재 블록의 인트라 예측 특징 데이터를 결정한다.

제1 AI 처리부(1910)는 인트라 예측 특징 데이터를 제2 AI 처리부(1920) 및 부호화부(1930)에 전달한다.

또한, 제2 AI 처리부(1920)는 참조 픽셀 및 코딩 컨텍스트 정보를 획득한다.

제2 AI 처리부(1920)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 복호화 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정한다.

제2 AI 처리부(1920)는 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 상기 참조 픽셀과 상기 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 결정할 수 있다.

제2 AI 처리부(1920)는 인트라 플로우를 부호화부(1930)에 전달한다.

제2 AI 처리부(1920)는 인트라 플로우 및 가중치 정보를 부호화부(1930)에 전달할 수 있다.

부호화부(1930)는 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득한다. 또한, 부호화부(1930)는 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화한다.

부호화부(1930)는 현재 블록의 인트라 플로우 및 가중치 정보에 기초하여 현재 픽셀의 예측 픽셀을 획득할 수 있다. 또한, 부호화부(1930)는 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화할 수 있다.

인트라 예측 특징 데이터는 엔트로피 부호화되어 영상 복호화 장치(1700)에 전송될 수 있다.

도 20을 참고하면, S2010 단계에서, 영상 복호화 장치(2100)는 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정할 수 있다.

일 실시예에 따라, 신경망은 컨볼루션 뉴럴 네트워크일 수 있다.

일 실시예에 따라, 영상 복호화 장치(2100)는 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정할 수 있다.

S2030 단계에서, 영상 복호화 장치(2100)는 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정할 수 있다.

일 실시예에 따라, 영상 복호화 장치(2100)는 인트라 플로우에 기초하여, 현재 픽셀의 예측 픽셀을 결정할 수 있다.

S2050 단계에서, 영상 복호화 장치(2100)는 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

도 21을 참조하면, 영상 복호화 장치(2100)는 AI 처리부(2110) 및 복호화부 (2120)를 포함할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 영상 복호화 장치(2100)는 도 21에 도시된 구성요소들 중 일부를 생략하거나 다른 구성요소를 포함할 수 있다. 예를 들어, 영상 복호화 장치(2100)는 메모리를 포함할 수 있다.

AI 처리부(2110) 및 복호화부 (2120)는 프로세서로 구현될 수 있다. AI 처리부(2110) 및 복호화부 (2120)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 21은 AI 처리부(2110) 및 복호화부 (2120)를 개별적으로 도시하고 있으나, AI 처리부(2110) 및 복호화부 (2120)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, AI 처리부(2110) 및 복호화부 (2120)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

AI 처리부(2110) 및 복호화부 (2120)는 복수의 프로세서로 구현될 수도 있다. 이 경우, AI 처리부(2110) 및 복호화부 (2120)는 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.

AI 처리부(2110)는 현재 블록의 참조 픽셀 및 현재 블록의 코딩 컨텍스트 정보를 획득한다.

AI 처리부(2110)는 현재 블록의 주변 픽셀들 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀의 주변 픽셀들에 대한 가중치 정보를 결정한다.

AI 처리부(2110)는 인트라 플로우 및 가중치 정보를 복호화부(2120)에 전달한다.

복호화부(2120)는 현재 블록의 인트라 플로우 및 가중치 정보에 기초하여 현재 픽셀의 예측 픽셀을 획득한다. 또한, 복호화부(1730)는 예측 픽셀에 기초하여 현재 블록을 복원한다.

도 22를 참고하면, S2210 단계에서, 영상 부호화 장치(2300)는 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정할 수 있다.

일 실시예에 따라, 영상 부호화 장치(2300)는 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정할 수 있다.

S2230 단계에서, 영상 부호화 장치(2300)는 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정할 수 있다.

일 실시예에 따라, 영상 부호화 장치(2300)는 인트라 플로우에 기초하여, 현재 픽셀의 예측 픽셀을 결정할 수 있다.

S2250 단계에서, 영상 부호화 장치(2300)는 예측 픽셀에 기초하여 현재 블록을 부호화할 수 있다.

도 23을 참조하면, 영상 부호화 장치(2300)는 AI 처리부(2310) 및 부호화부 (2320)를 포함할 수 있다. 그러나, 본 개시는 이에 한정되지 않으며, 영상 부호화 장치(2300)는 도 23에 도시된 구성요소들 중 일부를 생략하거나 다른 구성요소를 포함할 수 있다. 예를 들어, 영상 부호화 장치(2300)는 메모리를 포함할 수 있다.

AI 처리부(2310) 및 부호화부 (2320)는 프로세서로 구현될 수 있다. AI 처리부(2310) 및 부호화부 (2320)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.

도 21은 AI 처리부(2310) 및 부호화부 (2320)를 개별적으로 도시하고 있으나, AI 처리부(2310) 및 부호화부 (2320)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, AI 처리부(2310) 및 부호화부 (2320)는 전용 프로세서로 구현되거나, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.

AI 처리부(2310) 및 부호화부 (2320)는 복수의 프로세서로 구현될 수도 있다. 이 경우, AI 처리부(2310) 및 부호화부 (2320)는 전용 프로세서들의 조합으로 구현되거나, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.

AI 처리부(2310)는 현재 블록의 참조 픽셀 및 현재 블록의 코딩 컨텍스트 정보를 획득한다.

AI 처리부(2310)는 현재 블록의 주변 픽셀들 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀의 주변 픽셀들에 대한 가중치 정보를 결정한다.

AI 처리부(2310)는 인트라 플로우 및 가중치 정보를 복호화부(2120)에 전달한다.

부호화부(2320)는 현재 블록의 인트라 플로우 및 가중치 정보에 기초하여 현재 픽셀의 예측 픽셀을 획득한다. 또한, 부호화부(2320)는 예측 픽셀에 기초하여 현재 블록을 부호화한다.

일 실시예에 따른 영상 복호화 방법은, 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득하는 단계; 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정하는 단계; 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 방법은 종래의 인트라 예측과 달리, 예측할 블록 내의 모든 픽셀들에 하나의 예측 방향이 아니라 픽셀들 각각에 대해 각각의 예측 방향이 적용되고, 신경망을 통해 주변 픽셀들을 입력으로하여 직접 예측 픽셀이 생성되는 것이 아니라, 신경망을 통해 인트라 예측 특징 데이터, 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우를 획득하고 인트라 플로우를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따라, 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하는 단계는: 신경망으로부터 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 추가로 획득하는 단계; 및 참조 픽셀과 복수의 주변 픽셀들 및, 가중치 정보를 이용하는 가중 평균에 기초하여 예측 픽셀들을 획득하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 방법은 종래의 인트라 예측과 달리, 미리정해진 필터들이 이용되지 않고, 신경망을 통해 학습된 인트라 플로우를 획득하고 인트라 플로우 및 학습된 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 인트라 플로우 및 가중치 정보에 기초한 가중 평균을 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득하고, 인트라 예측 특징 데이터, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정하고, 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 장치는 종래의 인트라 예측과 달리, 예측할 블록 내의 모든 픽셀들에 하나의 예측 방향이 아니라 픽셀들 각각에 대해 각각의 예측 방향이 적용되고, 신경망을 통해 주변 픽셀들을 입력으로하여 직접 예측 픽셀이 생성되는 것이 아니라, 신경망을 통해 인트라 예측 특징 데이터, 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우를 획득하고 인트라 플로우를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따라, 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하는 것은: 신경망으로부터 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 추가로 획득하고, 참조 픽셀과 복수의 주변 픽셀들 및, 가중치 정보를 이용하는 가중 평균에 기초하여 예측 픽셀들을 획득하는 것을 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 장치는 종래의 인트라 예측과 달리, 미리정해진 필터들이 이용되지 않고, 신경망을 통해 학습된 인트라 플로우를 획득하고 인트라 플로우 및 학습된 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 인트라 플로우 및 가중치 정보에 기초한 가중 평균을 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 부호화 방법은, 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록의 인트라 예측 특징 데이터, 현재 블록의 원본 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정하는 단계; 현재 블록의 인트라 플로우에 기초하여 원본 픽셀의 예측 픽셀을 획득하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 방법은 종래의 인트라 예측과 달리, 예측할 블록 내의 모든 픽셀들에 하나의 예측 방향이 아니라 픽셀들 각각에 대해 각각의 예측 방향이 적용되고, 신경망을 통해 주변 픽셀들을 입력으로하여 직접 예측 픽셀이 생성되는 것이 아니라, 신경망을 통해 원본 픽셀, 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우를 획득하고 인트라 플로우를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우를 이용하여 인트라 예측의 효율이 개선될 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 방법은 종래의 인트라 예측과 달리, 미리정해진 필터들이 이용되지 않고, 신경망을 통해 학습된 인트라 플로우를 획득하고 인트라 플로우 및 학습된 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 인트라 플로우 및 가중치 정보에 기초한 가중 평균을 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는 현재 블록의 원본 픽셀, 현재 블록의 주변 픽셀들, 및 현재 블록의 코딩 컨텍스트 정보를 신경망에 적용하여, 현재 블록의 인트라 예측 특징 데이터, 현재 블록의 원본 픽셀의 참조 픽셀을 가리키는 인트라 플로우를 결정하고, 현재 블록의 인트라 플로우에 기초하여 원본 픽셀의 예측 픽셀을 획득하고, 예측 픽셀에 기초하여 현재 블록을 복원함으로써 인트라 예측 특징 데이터를 부호화할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 장치는 종래의 인트라 예측과 달리, 예측할 블록 내의 모든 픽셀들에 하나의 예측 방향이 아니라 픽셀들 각각에 대해 각각의 예측 방향이 적용되고, 신경망을 통해 주변 픽셀들을 입력으로하여 직접 예측 픽셀이 생성되는 것이 아니라, 신경망을 통해 원본 픽셀, 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우를 획득하고 인트라 플로우를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따라, 현재 블록의 인트라 플로우에 기초하여 현재 픽셀의 예측 픽셀을 획득하는 것은: 신경망으로부터 인트라 플로우가 가리키는 참조 픽셀과 참조 픽셀에 인접하는 복수의 주변 픽셀들에 대한 가중치 정보를 추가로 획득하고, 참조 픽셀과 복수의 주변 픽셀들 및, 가중치 정보를 이용하는 가중 평균에 기초하여 예측 픽셀들을 획득하는 것을 더 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 장치는 종래의 인트라 예측과 달리, 미리정해진 필터들이 이용되지 않고, 신경망을 통해 학습된 인트라 플로우를 획득하고 인트라 플로우 및 학습된 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 인트라 플로우 및 가중치 정보에 기초한 가중 평균을 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 복호화 방법은, 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정하는 단계; 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정하는 단계; 예측 픽셀에 기초하여 현재 블록을 복원하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 방법은 신경망을 통해 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우 및 가중치 정보를 획득하고 인트라 플로우 및 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우 및 가중치 정보를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따라, 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우가 결정될 수 있다.

일 실시예에 따라, 인트라 플로우에 기초하여, 현재 픽셀의 예측 픽셀이 결정될 수 있다.

일 실시예에 따른 영상 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정하고, 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정하고, 예측 픽셀에 기초하여 현재 블록을 복원할 수 있다.

본 개시의 일 실시예에 따른 영상 복호화 장치는 신경망을 통해 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우 및 가중치 정보를 획득하고 인트라 플로우 및 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우 및 가중치 정보를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 부호화 방법은, 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정하는 단계; 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정하는 단계; 예측 픽셀에 기초하여 현재 블록을 부호화하는 단계를 포함할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 방법은 신경망을 통해 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우 및 가중치 정보를 획득하고 인트라 플로우 및 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우 및 가중치 정보를 이용하여 인트라 예측의 효율이 개선될 수 있다.

일 실시예에 따른 영상 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 현재 블록의 주변 픽셀들 및 코딩 컨텍스트 정보를 신경망에 적용하여 현재 블록 내 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 및 참조 픽셀과 참조 픽셀에 인접한 복수의 주변 픽셀들의 가중치 정보를 결정하고, 인트라 플로우 및 가중치 정보에 기초하여, 현재 픽셀의 예측 픽셀을 결정하고, 예측 픽셀에 기초하여 현재 블록을 부호화할 수 있다.

본 개시의 일 실시예에 따른 영상 부호화 장치는 신경망을 통해 주변 픽셀, 및 코딩 컨텍스트 정보를 입력으로하여 학습된 인트라 플로우 및 가중치 정보를 획득하고 인트라 플로우 및 가중치 정보를 이용하여 예측 픽셀이 획득되므로, 예측할 블록의 각 픽셀이 이용가능한 참조 픽셀을 가리키는 고유한 공간적 벡터를 가지는 인트라 플로우 및 가중치 정보를 이용하여 인트라 예측의 효율이 개선될 수 있다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims

영상 복호화 방법에 있어서,

비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득(S1610)하는 단계;

상기 인트라 예측 특징 데이터, 상기 현재 블록의 제1 주변 픽셀들, 및 상기 현재 블록의 코딩 컨텍스트 정보에 기초하여, 상기 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 정보를 획득(S1630)하는 단계;

상기 현재 블록의 인트라 플로우 정보에 기초하여 상기 현재 픽셀의 예측 픽셀을 획득(S1650)하는 단계;

상기 예측 픽셀에 기초하여 상기 현재 블록을 복원(S1670)하는 단계를 포함하는, 영상 복호화 방법.
제 1 항에 있어서,

상기 인트라 예측 특징 데이터, 상기 제1 주변 픽셀들, 및 상기 현재 블록의 상기 코딩 컨텍스트 정보를 신경망에 적용하는 단계;

상기 신경망으로부터 상기 인트라 플로우 정보가 가리키는 상기 참조 픽셀과 상기 참조 픽셀에 인접하는 복수의 제2 주변 픽셀들에 대한 가중치 정보와 함께 인트라 플로우를 획득하는 단계; 및

상기 참조 픽셀과 상기 복수의 제2 주변 픽셀들 및, 상기 가중치 정보에 기초하여 획득된 가중 평균에 기초하여 상기 예측 픽셀을 획득하는 단계;를 포함하는, 영상 복호화 방법.
제 1 항 또는 제 2 항에 있어서,

상기 신경망은 상기 신경망에 입력으로 제공된 상기 인트라 예측 특징 데이터, 상기 현재 블록의 제1 주변 픽셀들, 및 상기 코딩 컨텍스트 정보에 기초하여 상기 인트라 플로우 정보를를 출력하는, 영상 복호화 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 인트라 플로우 정보는 x성분과 y성분을 포함하는 제1 벡터, 크기 성분과 각도 성분을 포함하는 제2 벡터, 또는 상기 현재 픽셀이 가리키는 상기 참조 픽셀에 대한 각도 중 하나를 포함하는, 영상 복호화 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 인트라 예측 특징 데이터는 신경망 기반의 부호화를 통해 획득된 것인, 영상 복호화 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

상기 코딩 컨텍스트 정보는 상기 현재 블록의 양자화 파라미터, 상기 현재 블록의 시간적 레이어, 상기 현재 블록의 분할 구조, 상기 제1 주변 픽셀들의 분할 구조, 상기 제1 주변 픽셀들의 변환 타입 중 적어도 하나를 포함하는, 영상 복호화 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 코딩 컨텍스트 정보는 신경망 기반 부호화를 통해 획득된 것인, 영상 복호화 방법.
영상 부호화 방법에 있어서,

현재 블록의 원본 픽셀, 상기 현재 블록의 제1 주변 픽셀들, 및 상기 현재 블록의 코딩 컨텍스트 정보에 기초하여, 상기 현재 블록의 인트라 예측 특징 데이터 및 상기 현재 블록의 상기 원본 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보를 획득(S1810)하는 단계;

상기 현재 블록의 인트라 플로우 정보에 기초하여 상기 원본 픽셀의 예측 픽셀을 획득(S1830)하는 단계;

상기 예측 픽셀에 기초하여 상기 현재 블록을 복원함으로써 상기 인트라 예측 특징 데이터를 부호화(S1850)하는 단계를 포함하는, 영상 부호화 방법.
제 8 항에 있어서,

상기 현재 블록의 상기 원본 픽셀, 상기 현재 블록의 상기 제1 주변 픽셀들, 및 상기 현재 블록의 상기 코딩 컨텍스트 정보를 신경망에 적용하는 단계;상기 신경망으로부터, 상기 현재 블록의 인트라 예측 특징 데이터, 상기 인트라 플로우 정보, 및 상기 인트라 플로우 정보 가 가리키는 상기 참조 픽셀과 상기 참조 픽셀에 인접하는 복수의 제2 주변 픽셀들에 대한 가중치 정보를 획득하는 단계; 및

상기 참조 픽셀과 상기 복수의 제2 주변 픽셀들 및, 상기 가중치 정보에 기초하여 획득된 가중 평균에 기초하여 상기 예측 픽셀을 획득하는 단계;를 포함하는, 영상 부호화 방법.
제 8 항 또는 제 9 항에 있어서,

상기 원본 픽셀, 상기 참조 픽셀, 및 상기 코딩 컨텍스트 정보를 부호화 신경망에 입력하여 상기 인트라 예측 특징 데이터를 출력하는 단계; 및

상기 인트라 예측 특징 데이터, 상기 참조 픽셀, 및 상기 코딩 컨텍스트 정보를 복호화 신경망에 입력하여 상기 인트라 플로우를 출력하는 단계를 더 포함하는, 영상 부호화 방법.
제 8 항 내지 제 10 항 중 어느 한 항에 있어서,

상기 복호화 신경망은 상기 가중치 정보가 더 출력되는, 영상 부호화 방법.
제 8 항 내지 제 11 항 중 어느 한 항에 있어서,

상기 인트라 플로우 정보는 x성분과 y성분을 포함하는 벡터, 크기 성분과 각도 성분을 포함하는 벡터, 또는 상기 현재 픽셀이 가리키는 상기 참조 픽셀에 대한 각도 중 하나로 표현되는, 영상 부호화 방법.
제 8 항 내지 제 12 항 중 어느 한 항에 있어서,

상기 코딩 컨텍스트 정보는 상기 현재 블록의 양자화 파라미터, 상기 현재 블록의 시간적 레이어, 상기 현재 블록의 분할 구조, 상기 제1 주변 픽셀들의 분할 구조, 상기 제1 주변 픽셀들의 변환 타입 중 적어도 하나를 포함하는, 영상 부호화 방법.
영상 복호화 장치에 있어서,

하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고,

상기 적어도 하나의 프로세서는,

비트스트림으로부터 현재 블록의 인트라 예측 특징 데이터를 획득하고,

상기 인트라 예측 특징 데이터, 상기 현재 블록의 제1 주변 픽셀들, 및 상기 현재 블록의 코딩 컨텍스트 정보에 기초하여, 상기 현재 블록 내의 현재 픽셀의 참조 픽셀을 가리키는 인트라 플로우 정보를 획득하고,

상기 현재 블록의 인트라 플로우 정보에 기초하여 상기 현재 픽셀의 예측 픽셀을 획득하고,

상기 예측 픽셀에 기초하여 상기 현재 블록을 복원하는, 영상 복호화 장치.
영상 복호화 방법에 있어서,

현재 블록의 제1 주변 픽셀들 및 코딩 컨텍스트 정보에 기초하여 상기 현재 블록 내 현재 픽셀에 대응하는 참조 픽셀을 가리키는 인트라 플로우 정보 및 상기 참조 픽셀과 상기 참조 픽셀에 인접한 복수의 제2 주변 픽셀들의 가중치 정보를 결정(S2010)하는 단계;

상기 인트라 플로우 정보 및 상기 가중치 정보에 기초하여, 상기 현재 픽셀의 예측 픽셀을 획득(S2030)하는 단계; 및

상기 예측 픽셀에 기초하여 상기 현재 블록을 복원(S2050)하는 단계;를 포함하는, 영상 복호화 방법.