KR20240019638A - 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 - Google Patents

크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 Download PDF

Info

Publication number
KR20240019638A
KR20240019638A KR1020220097570A KR20220097570A KR20240019638A KR 20240019638 A KR20240019638 A KR 20240019638A KR 1020220097570 A KR1020220097570 A KR 1020220097570A KR 20220097570 A KR20220097570 A KR 20220097570A KR 20240019638 A KR20240019638 A KR 20240019638A
Authority
KR
South Korea
Prior art keywords
component
sample
current block
neural network
restored
Prior art date
Application number
KR1020220097570A
Other languages
English (en)
Inventor
표인지
김경아
박민수
박민우
최광표
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020220097570A priority Critical patent/KR20240019638A/ko
Priority to PCT/KR2023/011145 priority patent/WO2024029873A1/ko
Priority to US18/232,209 priority patent/US20240048711A1/en
Publication of KR20240019638A publication Critical patent/KR20240019638A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득하고, 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하고, 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는, AI에 기반한 비디오 복호화 방법 및 장치를 제공한다.

Description

크로마 성분 예측을 수행하는 AI에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 {ARTIFICIAL INTELLIGENCE BASED VIDEO DECODING APPARATUS AND VIDEO DECODING METHOD, AND VIDEO ENCODING APPARATUS AND VIDEO ENCODING METHOD FOR PERFORMING CHROMA COMPONENT PREDICTION}
본 개시는 비디오 복호화 방법 및 장치, 및 비디오 부호화 방법 및 장치에 관한 것으로서, 구체적으로, AI(Artificial Intelligence)에 기반하여 영상의 크로마 성분인 Cb, Cr 성분에 대한 예측을 수행하는 방법 및 장치에 관한 것이다.
H.266 Versatile Video Coding (VVC)와 같은 코덱에서는, 크로마의 각 성분에 대한 별개의 코딩에 대한 비트레이트를 절감하기 위해, Cb 성분과 Cr 성분의 유사성 또는 상관관계를 이용하여 Cb 성분과 Cr 성분의 레지듀얼 샘플을 조인트 코딩(joint coding)을 통해 공동으로 부호화하고 복호화한다.
Cb 성분과 Cr 성분의 상관관계는 정해진 개수의 경우에 대하여 적응적으로 선택되어 Cb 성분과 Cr 성분에 대한 크로마 조인트 레지듀얼 샘플을 부호화하고 복호화한다.
이러한 룰 기반의 크로마 성분 예측 알고리즘은 좋은 성능을 발휘하였으나, 영상의 해상도가 커지고, 영상이 컨텐츠가 다양화됨에 따라 영상의 특성을 유연하게 고려할 수 있는 AI에 기반한 크로마 성분 예측 알고리즘이 요구될 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하는 단계; 및 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는 단계를 포함할 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다. 적어도 하나의 프로세서는 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원할 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하는 단계; 및 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화하는 단계를 포함할 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다. 적어도 하나의 프로세서는 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
도 1은 일 실시예에 따른 Cb 성분, Cr 성분, 및 조인트 크로마 레지듀얼 사이의 관계를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 Cb 성분, Cr 성분, 및 조인트 크로마 레지듀얼 사이의 관계식을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 훈련하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 훈련하는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망의 모델과 예측 타입 사이의 대응관계를 나타내는 표이다.
도 8은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망의 모델과 예측 타입 사이의 대응관계를 나타내는 표이다.
도 9는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망 및 스케일 팩터를 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 스케일 팩터 세트와 예측 타입 사이의 대응관계를 나타내는 표이다.
도 11은 일 실시예에 따른 AI에 기반한 비디오 복호화 방법의 순서도이다.
도 12는 일 실시예에 따른 AI에 기반한 비디오 복호화 장치의 구성을 도시하는 블록도이다.
도 13은 일 실시예에 따른 AI에 기반한 비디오 복호화 장치의 구성을 도시하는 블록도이다.
도 14는 일 실시예에 따른 AI에 기반한 비디오 부호화 방법의 순서도이다.
도 15는 일 실시예에 따른 AI에 기반한 비디오 부호화 장치의 구성을 도시하는 블록도이다.
도 16은 일 실시예에 따른 AI에 기반한 비디오 부호화 장치의 구성을 도시하는 블록도이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 개시에서, '영상(image) 또는 픽처(picture)'는 정지영상(또는 프레임), 복수의 연속된 정지영상으로 구성된 동영상, 또는 비디오를 의미할 수 있다.
또한, 본 개시에서 '신경망(neural network)'은 뇌 신경을 모사한 인공 신경망 모델의 대표적인 예시로서, 특정 알고리즘을 사용한 인공 신경망 모델로 한정되지 않는다. 신경망은 심층 신경망(deep neural network)으로 참조될 수도 있다.
또한, 본 개시에서 '가중치(weight)'는 신경망을 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용될 수 있다. 가중치는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
또한, 본 개시에서 '현재 블록'은 현재의 처리 대상인 블록을 의미한다. 현재 블록은 현재 영상으로부터 분할된 슬라이스, 타일, 최대 부호화 단위, 부호화 단위, 예측 단위 또는 변환 단위일 수 있다.
또한, 본 개시에서, '샘플'은 영상, 블록, 필터 커널 또는 특징 맵 등의 데이터 내 샘플링 위치에 할당된 데이터로서 처리 대상이 되는 데이터를 의미한다. 예를 들어, 샘플은 2차원의 영상 내 픽셀을 포함할 수 있다.
이하, 도 1 및 2에서는 신경망 없이 크로마 성분을 예측하는 방법이 후술된다.
도 1은 일 실시예에 따른 Cb 성분, Cr 성분, 및 조인트 크로마 레지듀얼 사이의 관계를 설명하기 위한 도면이다.
도 1을 참고하면, 그래프 100은 비디오의 부호화 과정에서 Cr 성분의 레지듀얼 샘플의 실제값(140)과 Cb 성분의 레지듀얼 샘플의 실제값(110)과 크로마 조인트 레지듀얼 샘플(120)의 관계를 도시한다. Cr 성분의 레지듀얼 샘플의 실제값(140)에 -1을 곱한 값(130)과, Cb 성분의 레지듀얼 샘플의 실제값(110) 간의 평균값을 크로마 조인트 레지듀얼 샘플(120)로 결정될 수 있다.
그래프 150는 비디오의 복호화 과정에서 크로마 조인트 레지듀얼 샘플(140)을 이용하여 획득되는 Cb 성분의 레지듀얼 샘플(160)과 Cr 성분의 레지듀얼 샘플(170)을 도시한다. 구체적으로, 크로마 조인트 레지듀얼 샘플(140)과 동일한 값이 Cb 성분의 레지듀얼 샘플(160)의 복원값으로 결정되고, 크로마 조인트 레지듀얼 샘플(140)에 -1을 곱하여 생성된 값이 Cr 성분의 레지듀얼 샘플(170)의 복원값으로 결정될 수 있다.
도 2는 일 실시예에 따른 Cb 성분, Cr 성분, 및 조인트 크로마 레지듀얼 사이의 관계식을 설명하기 위한 도면이다.
도 2를 참고하면, tu_cbf_cb는 Cb cbf 정보에 대응되는 신택스 엘리먼트로, 현재 변환 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타낼 수 있다. tu_cbf_cr 는 Cr cbf 정보에 대응되는 신택스 엘리먼트로, 현재 변환 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타낼 수 있다. tu_joint_cbcr_residual_flag는 크로마 조인트 정보에 대응하는 신택스 엘리먼트로, 현재 변환 블록에서 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플을 나타내기 위해 하나의 크로마 샘플이 부호화되는지 여부를 나타낼 수 있다.
비디오 복호화 과정에서, 시퀀스 파라미트 세트 (sequence parameter set)에서 sps_joint_cbcr_enabled_flag를 획득할 수 있다. sps_joint_cbcr_enabled_flag가 1을 나타내는 경우, 현재 시퀀스에 포함된 블록에서 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플을 나타내기 위해 하나의 크로마 샘플이 부호화되는 크로마 조인트 방식이 허용됨을 의미한다.
따라서, 먼저 sps_joint_cbcr_enabled_flag를 통해, 현재 시퀀스에서 크로마 조인트 방식이 허용되고, 현재 변환 블록을 포함하는 부호화 단위의 예측 타입이 인트라 예측 타입이고, Cr cbf 정보 또는 Cb cbf 정보가 1인 경우에, tu_joint_cbcr_residual_flag즉 크로마 조인트 정보를 획득할 수 있다. 또한, 현재 변환 블록을 포함하는 부호화 단위의 예측 타입이 인터 예측 타입인 경우에는, Cr cbf 정보 및 Cb cbf 정보가 모두 1인 경우에만, tu_joint_cbcr_residual_flag, 즉 크로마 조인트 정보를 획득할 수 있다.
따라서, 부호화 단위의 예측 타입이 인트라 예측 타입이고, 현재 블록에 Cr 성분의 레벨이 1인 변환 계수가 존재하거나 Cb 성분의 레벨이 1인 변환 계수가 존재하는 경우에, 크로마 조인트 정보를 통해 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플을 나타내기 위해 하나의 크로마 샘플이 부호화되는지 여부가 결정될 수 있다. 부호화 단위의 예측 타입이 인터 예측 타입이고, 현재 블록에 Cr 성분의 레벨이 1인 변환 계수가 존재하고 Cb 성분의 레벨이 1인 변환 계수가 존재하는 경우에, 크로마 조인트 정보를 통해 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플을 나타내기 위해 하나의 크로마 샘플이 부호화되는지 여부가 결정될 수 있다. 여기서 획득된 크로마 조인트 정보가 0을 나타낸다면, 비트스트림으로부터 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플이 각각 획득되어야 함을 의미한다. 반면에 크로마 조인트 정보가 1을 나타낸다면, 비트스트림으로부터 하나의 크로마 샘플을 획득하고, 이로부터 Cb 성분의 레지듀얼 샘플 및 대응하는 Cr 성분의 레지듀얼 샘플이 복원됨을 의미한다.
Cb cbf 정보(tu_cbf_cb)와 Cr cbf 정보(tu_cbf_cr)가 획득되면, Cb cbf 정보와 Cr cbf 정보에 따라 Cb 성분의 레지듀얼 샘플의 복원값(resCb)과 Cr 성분의 레지듀얼 샘플의 복원값(resCr)을 결정하기 위한 가중치가 결정될 수 있다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 0일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb)은 크로마 조인트 레지듀얼 샘플(resJointC)과 동일한 값으로 결정되고, Cr 성분의 레지듀얼 샘플의 복원값(resCr)은 픽처 파라미터 세트 (picture parameter set)에서 획득된 CSign 값에 기초하여 크로마 조인트 레지듀얼 샘플(resJointC)에 ±1/2를 곱한 값으로 결정될 수 있다. 이 경우, Cb 성분의 가중치는 1, Cr 성분의 가중치는 ±1/2으로 조인트 모드 인덱스가 1이다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb)은 크로마 조인트 레지듀얼 샘플(resJointC)과 동일한 값으로 결정되고, Cr 성분의 레지듀얼 샘플의 복원값(resCr)은 CSign 값에 기초하여 크로마 조인트 레지듀얼 샘플(resJointC)에 ±1를 곱한 값으로 결정될 수 있다. 이 경우, Cb 성분의 가중치는 1, Cr 성분의 가중치는 ±1으로 조인트 모드 인덱스가 2이다.
예를 들어, tu_cbf_cb가 0 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb)은 CSign 값에 기초하여 크로마 조인트 레지듀얼 샘플(resJointC)에 ±1/2를 곱한 값으로 결정되고, Cr 성분의 레지듀얼 샘플의 복원값(resCr)은 크로마 조인트 레지듀얼 샘플(resJointC)과 동일한 값으로 결정될 수 있다. 이 경우, Cb 성분의 가중치는 ±1/2, Cr 성분의 가중치는 1로 조인트 모드 인덱스가 3이다.
부호화 단위의 예측 타입이 인트라 예측 모드인 경우, 조인트 모드 인덱스가 1, 2, 3이 모두 가능하다. 즉, 부호화 단위의 예측 타입이 인트라 예측 모드인 경우에는 조인트 모드 인덱스에 따라 Cb 성분의 가중치 및 Cr 성분의 가중치가 각각 결정될 수 있다.
부호화 단위의 예측 타입이 인터 예측 모드인 경우, 조인트 모드 인덱스가 2만 허용될 수 있다. 따라서, 부호화 단위의 예측 타입이 인터 예측 모드인 경우에는 조인트 모드 인덱스가 2인 경우, 즉 tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때만 크로마 조인트 방식이 허용되고, Cb 성분의 가중치는 1, Cr 성분의 가중치는 ±1으로 결정될 수 있다.
이하 도 3 내지 도 16에서는 신경망을 이용한 AI 기반 크로마 성분을 예측하는 방법이 후술된다.
도 3은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 신경망(340)은 제 1 컨볼루션 레이어(341), 제 1 활성화 레이어(342), 제 2 컨볼루션 레이어(343), 제 2 활성화 레이어(344), 제3 컨볼루션 레이어, 제3 활성화 레이어, 제4 컨볼루션 레이어, 제4 활성화 레이어, 제5 컨볼루션 레이어, 제5 활성화 레이어, 제6 컨볼루션 레이어, 제6 활성화 레이어, 제 7 컨볼루션 레이어(345), 제 7 활성화 레이어(346), 제 8 컨볼루션 레이어(347), 제 8 활성화 레이어(348), 제9 컨볼루션 레이어(349) 및 합산 레이어(summation layer)(380)를 포함할 수 있다. 합산 레이어(380)는 가산기(adder)로 참조될 수도 있다.
현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)이 제1 컨볼루션 레이어(341)로 입력된다. 현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)은 연접(concatenation)된 후 제 1 컨볼루션 레이어(341)로 입력될 수 있다.
제 1 컨볼루션 레이어(310)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)에 대해 컨볼루션 처리를 하는 것을 예시한다. 도 3에 도시된 16개의 채널(350)과 같이, 컨볼루션 처리 결과 3X3의 크기의 16개의 필터 커널에 의해 16개의 채널의 특징 맵들이 생성될 수 있다.
제 1 컨볼루션 레이어(341)에 의해 생성된 특징 맵은 현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)의 고유한 특성을 나타낼 수 있다. 예를 들어, 특징 맵은 현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.
제 1 컨볼루션 레이어(341)에서 출력된 특징 맵은 제 1 활성화 레이어(342)로 입력된다.
제 1 활성화 레이어(342)는 특징 맵에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 제 1 활성화 레이어(342)는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
제 1 활성화 레이어(342)가 특징 맵에 대해 비선형 특성을 부여한다는 것은, 특징 맵의 일부 샘플 값을 변경하여 출력하는 것을 의미할 수 있다. 이때, 변경은 비선형 특성을 적용하여 수행될 수 있다.
제 1 활성화 레이어(342)는 특징 맵의 샘플 값들을 제 2 컨볼루션 레이어(343)로 전달할지 여부를 결정할 수 있다. 예를 들어, 특징 맵의 샘플 값들 중 어떤 샘플 값들은 제 1 활성화 레이어(342)에 의해 활성화되어 제 2 컨볼루션 레이어(343)로 전달되고, 어떤 샘플 값들은 제 1 활성화 레이어(342)에 의해 비활성화되어 제 2 컨볼루션 레이어(343)로 전달되지 않을 수 있다. 특징 맵이 나타내는 현재 블록의 Cb 성분의 예측 샘플(310), 현재 블록의 조인트 크로마 레지듀얼 샘플(320), 및 현재 블록의 Cr 성분의 예측 샘플(330)의 고유 특성이 제 1 활성화 레이어(342)에 의해 강조될 수 있다.
제 1 활성화 레이어(342)에서 출력된 16개 채널의 특징 맵(350)은 제 2 컨볼루션 레이어(343)로 입력된다.
제 2 컨볼루션 레이어(343)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 입력된 특징 맵에 대해 컨볼루션 처리하는 것을 예시한다. 제 2 컨볼루션 레이어(343)의 출력은 제 2 활성화 레이어(344)로 입력된다. 제 2 활성화 레이어(344)는 입력된 특징 맵에 대해 비선형 특성을 부여할 수 있다.
제 2 활성화 레이어(344)에서 출력된 특징 맵은 컨볼루션 레이어와 활성화 레이어에서의 동작들이 반복되어 수행되어 제 3 컨볼루션 레이어, 제 3 활성화 레이어, 제 4 컨볼루션 레이어, 제 4 활성화 레이어, 제 5 컨볼루션 레이어, 제 5 활성화 레이어, 제 6 컨볼루션 레이어, 제 6 활성화 레이어(미도시)에 순서대로 입출력된다. 제 6 활성화 레이어의 출력은 다시 제 7 컨볼루션 레이어(345)에 입력된다.
제 7 컨볼루션 레이어(345)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 입력된 특징 맵에 대해 컨볼루션 처리하는 것을 예시한다. 제 7 컨볼루션 레이어(345)의 출력은 제 7 활성화 레이어(346)로 입력된다. 제 7 활성화 레이어(346)에서 출력된 16개 채널의 특징 맵(355)은 다시 제 8 컨볼루션 레이어(347)에 입력되고, 제 8 컨볼루션 레이어(347)에서의 출력은 제 8 활성화 레이어(348)에 입력된다.
제 8 활성화 레이어의 출력은 제9 컨볼루션 레이어(349)에 입력된다. 제 9 컨볼루션 레이어(349)는 3X3의 크기의 필터 커널을 2개 이용하여, 2개의 특징 맵이 출력된다.
제 9 컨볼루션 레이어(349)에서 출력되는 2개의 특징 맵들은 합산 레이어(380)에서 각각 현재 블록의 Cb 성분의 예측 샘플(310) 및 현재 블록의 Cr 성분의 예측 샘플(330)과 합산되고, 합산 결과, 현재 블록의 Cb 성분의 복원 샘플(360) 및 현재 블록의 Cr 성분의 복원 샘플(370)이 출력된다.
제 9 컨볼루션 레이어(349)에서 출력되는 2개의 특징 맵들은 각각 현재 블록의 Cb 성분의 예측 샘플(310) 및 현재 블록의 Cr 성분의 예측 샘플(330)과 합산됨에 따라 현재 블록의 Cb 성분의 복원 샘플(360) 및 현재 블록의 Cr 성분의 복원 샘플(370)이 획득되므로, 제 9 컨볼루션 레이어(349)에서 출력되는 2개의 특징 맵들은 각각 현재 블록의 Cb 성분의 레지듀얼 샘플과 현재 블록의 Cr 성분의 레지듀얼 샘플로 참조될 수 있다.
도 3의 신경망(340)은 9개의 컨볼루션 레이어와 8개의 활성화 레이어를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 구현예에 따라서, 신경망(340)에 포함된 컨볼루션 레이어 및 활성화 레이어의 개수는 다양하게 변경될 수 있다.
또한, 구현예에 따라서, 신경망(340)은 RNN(recurrent neural network)을 통해 구현될 수도 있다. 이 경우는 본 개시의 예시에 따른 신경망(340)의 CNN 구조를 RNN 구조로 변경하는 것을 의미한다.
도 3의 신경망(340)은 합산 레이어(380)을 포함하므로, 신경망(340)으로부터 현재 블록의 Cb 성분의 복원 샘플(360) 및 현재 블록의 Cr 성분의 복원 샘플(370)을 획득할 수 있다. 합산 레이어(380)를 포함하지 않는 신경망에 대해서는 도 4를 참조하여 후술한다.
도 4는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, 신경망(440)은 제 1 컨볼루션 레이어(441), 제 1 활성화 레이어(442), 제 2 컨볼루션 레이어(443), 제 2 활성화 레이어(444), 제3 컨볼루션 레이어, 제3 활성화 레이어, 제4 컨볼루션 레이어, 제4 활성화 레이어, 제5 컨볼루션 레이어, 제5 활성화 레이어, 제6 컨볼루션 레이어, 제6 활성화 레이어, 제 7 컨볼루션 레이어(445), 제 7 활성화 레이어(446), 제 8 컨볼루션 레이어(447), 제 8 활성화 레이어(448), 및 제9 컨볼루션 레이어(449)를 포함할 수 있다.
현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)이 제1 컨볼루션 레이어(441)로 입력된다. 현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)은 연접(concatenation)된 후 제 1 컨볼루션 레이어(441)로 입력될 수 있다.
제 1 컨볼루션 레이어(410)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)에 대해 컨볼루션 처리를 하는 것을 예시한다. 도 4에 도시된 16개의 채널(450)과 같이, 컨볼루션 처리 결과 3X3의 크기의 16개의 필터 커널에 의해 16개의 채널의 특징 맵들이 생성될 수 있다.
제 1 컨볼루션 레이어(441)에 의해 생성된 특징 맵은 현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)의 고유한 특성을 나타낼 수 있다. 예를 들어, 특징 맵은 현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)의 수직 방향 특성, 수평 방향 특성 또는 에지 특성 등을 나타낼 수 있다.
제 1 컨볼루션 레이어(441)에서 출력된 특징 맵은 제 1 활성화 레이어(442)로 입력된다.
제 1 활성화 레이어(442)는 특징 맵에 대해 비선형(Non-linear) 특성을 부여할 수 있다. 제 1 활성화 레이어(442)는 시그모이드 함수(sigmoid function), Tanh 함수, ReLU(Rectified Linear Unit) 함수 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
제 1 활성화 레이어(442)가 특징 맵에 대해 비선형 특성을 부여한다는 것은, 특징 맵의 일부 샘플 값을 변경하여 출력하는 것을 의미할 수 있다. 이때, 변경은 비선형 특성을 적용하여 수행될 수 있다.
제 1 활성화 레이어(442)는 특징 맵의 샘플 값들을 제 2 컨볼루션 레이어(443)로 전달할지 여부를 결정할 수 있다. 예를 들어, 특징 맵의 샘플 값들 중 어떤 샘플 값들은 제 1 활성화 레이어(442)에 의해 활성화되어 제 2 컨볼루션 레이어(443)로 전달되고, 어떤 샘플 값들은 제 1 활성화 레이어(442)에 의해 비활성화되어 제 2 컨볼루션 레이어(443)로 전달되지 않을 수 있다. 특징 맵이 나타내는 현재 블록의 Cb 성분의 예측 샘플(410), 현재 블록의 조인트 크로마 레지듀얼 샘플(420), 및 현재 블록의 Cr 성분의 예측 샘플(430)의 고유 특성이 제 1 활성화 레이어(442)에 의해 강조될 수 있다.
제 1 활성화 레이어(442)에서 출력된 16개 채널의 특징 맵(450)은 제 2 컨볼루션 레이어(443)로 입력된다.
제 2 컨볼루션 레이어(443)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 입력된 특징 맵에 대해 컨볼루션 처리하는 것을 예시한다. 제 2 컨볼루션 레이어(443)의 출력은 제 2 활성화 레이어(444)로 입력된다. 제 2 활성화 레이어(444)는 입력된 특징 맵에 대해 비선형 특성을 부여할 수 있다.
제 2 활성화 레이어(444)에서 출력된 특징 맵은 컨볼루션 레이어와 활성화 레이어에서의 동작들이 반복되어 수행되어 제 3 컨볼루션 레이어, 제 3 활성화 레이어, 제 4 컨볼루션 레이어, 제 4 활성화 레이어, 제 5 컨볼루션 레이어, 제 5 활성화 레이어, 제 6 컨볼루션 레이어, 제 6 활성화 레이어(미도시)에 순서대로 입출력된다. 제 6 활성화 레이어의 출력은 다시 제 7 컨볼루션 레이어(445)에 입력된다.
제 7 컨볼루션 레이어(445)에 표시된 3X3은 3X3의 크기의 필터 커널을 이용하여 입력된 특징 맵에 대해 컨볼루션 처리하는 것을 예시한다. 제 7 컨볼루션 레이어(445)의 출력은 제 7 활성화 레이어(446)로 입력된다. 제 7 활성화 레이어(446)에서 출력된 16개 채널의 특징 맵(455)은 다시 제 8 컨볼루션 레이어(447)에 입력되고, 제 8 컨볼루션 레이어(447)에서의 출력은 제 8 활성화 레이어(448)에 입력된다.
제 8 활성화 레이어(448)의 출력은 제9 컨볼루션 레이어(449)에 입력된다. 제 9 컨볼루션 레이어(449)는 3X3의 크기의 필터 커널을 2개 이용하여, 2개의 특징 맵이 출력된다.
제 9 컨볼루션 레이어(449)에서 출력되는 2개의 특징 맵들은 각각 현재 블록의 Cb 성분의 레지듀얼 샘플(460)과 현재 블록의 Cr 성분의 레지듀얼 샘플(470)로 참조될 수 있다.
도 4의 신경망(440)은 9개의 컨볼루션 레이어와 8개의 활성화 레이어를 포함하고 있는 것으로 도시하고 있으나, 이는 하나의 예시일 뿐이며, 구현예에 따라서, 신경망(440)에 포함된 컨볼루션 레이어 및 활성화 레이어의 개수는 다양하게 변경될 수 있다.
또한, 구현예에 따라서, 신경망(440)은 RNN(recurrent neural network)을 통해 구현될 수도 있다. 이 경우는 본 개시의 예시에 따른 신경망(340)의 CNN 구조를 RNN 구조로 변경하는 것을 의미한다.
신경망(440)으로부터 현재 블록의 Cb 성분의 레지듀얼 샘플(460) 및 현재 블록의 Cr 성분의 레지듀얼 샘플(470)을 획득할 수 있다.
도 5는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 훈련하는 방법을 설명하기 위한 도면이다.
도 5는 AI 기반 크로마 성분 예측을 위한 신경망(520)의 훈련 방법을 나타낸다. 도 5에 도시된 훈련용 현재 블록의 Cb 성분의 예측 샘플(505)은 전술된 현재 블록의 Cb 성분의 예측 샘플에 대응되고, 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510)은 전술된 현재 블록의 조인트 크로마 레지듀얼 샘플에 대응되고, 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)은 전술된 현재 블록의 Cr 성분의 예측 샘플에 대응될 수 있다.
본 개시에 따른 신경망(520)의 훈련 방법에 따르면, 신경망(520)으로부터 출력되는 훈련용 현재 블록의 Cb 성분의 레지듀얼 샘플(525)과 훈련용 현재 블록의 Cb 성분의 예측 샘플(505)의 합산 결과인 훈련용 현재 블록의 Cb 성분의 복원 샘플(535)이 훈련용 현재 블록의 Cb 성분의 원본 샘플(545)과 동일 또는 유사해지고, 신경망(520)으로부터 출력되는 훈련용 현재 블록의 Cr 성분의 레지듀얼 샘플(530)과 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)의 합산 결과인 훈련용 현재 블록의 Cr 성분의 복원 샘플(540)이 훈련용 현재 블록의 Cb 성분의 원본 샘플(550)과 동일 또는 유사해지도록 신경망(520)을 훈련시킨다. 이를 위해, 훈련용 현재 블록의 Cb 성분의 복원 샘플(535)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(545) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(540)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(550) 사이의 차이의 합에 대응하는 손실 정보(555)가 신경망(520)의 훈련에 이용될 수 있다.
구체적으로, 먼저, 훈련용 현재 블록의 Cb 성분의 예측 샘플(505), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)이 획득된다.
훈련용 현재 블록의 Cb 성분의 예측 샘플(505), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)이 신경망(520)에 입력된 후, 신경망(520)으로부터 출력되는 훈련용 현재 블록의 Cb 성분의 레지듀얼 샘플(525) 및 훈련용 현재 블록의 Cr 성분의 레지듀얼 샘플(530)이 획득된다. 신경망(520)은 미리 설정된 가중치에 따라 동작할 수 있다.
훈련용 현재 블록의 Cb 성분의 레지듀얼 샘플(525)은 훈련용 현재 블록의 Cb 성분의 예측 샘플(505)과 합산되어 훈련용 현재 블록의 Cb 성분의 복원 샘플(535)이 획득되고, 훈련용 현재 블록의 Cr 성분의 레지듀얼 샘플(530)은 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)과 합산되어 훈련용 현재 블록의 Cr 성분의 복원 샘플(540)이 획득된다.
훈련용 현재 블록의 Cb 성분의 복원 샘플(535)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(545) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(540)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(550) 사이의 차이의 합에 대응하는 손실 정보(555)가 산출되고, 손실 정보(555)에 따라 신경망(520)에 설정된 가중치가 갱신된다. 신경망(520)은 손실 정보(555)가 감소 또는 최소화되도록 가중치를 갱신할 수 있다.
도 5에 도시된 하트 모양은 하나의 예시로, 훈련용 현재 블록에서 객체에 해당하고 나머지 부분은 배경에 해당할 수 있다. 신경망(520)으로부터 출력된 훈련용 현재 블록의 Cb 성분의 레지듀얼 샘플(525)은 훈련용 현재 블록의 객체(526) 및 배경(527)에 대해 각각 가중치 1이 적용되고, 훈련용 현재 블록의 Cr 성분의 레지듀얼 샘플(530) 훈련용 현재 블록의 객체(531)에 가중치 1이 적용되고 배경(532)에 대해 가중치 1/2이 적용될 수 있다. 이와 같이, 신경망의 훈련된 모델에 의해 Cb 성분과 Cr 성분의 관계는 Cb 성분과 Cr 성분의 예측 샘플을 이용하여 더 일반화되고, 더 국지적이고, 더 구체적일 수 있다. 즉, Cb 성분과 Cr 성분의 대응되는 픽셀들에 대하여 고정된 상관관계 대신에 객체, 배경, 전경 등에 대하여 각기 다른 Cb 성분과 Cr 성분의 상관관계를 가지거나 객체의 다른 부분들에 대하여 각기 다른 Cb 성분과 Cr 성분의 상관관계를 가지도록 Cb 성분과 Cr 성분이 복원될 수 있다.
손실 정보(555)는 훈련용 현재 블록의 Cb 성분의 복원 샘플(535)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(545) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(540)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(550) 사이의 차이의 합에 대한 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 또는 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 신경망(520)의 훈련은 훈련 장치에 의해 수행될 수 있다. 훈련 장치는 AI에 기반한 비디오 부호화 장치(1600) 또는 AI에 기반한 비디오 복호화 장치(1300)일 수 있다. 구현예에 따라, 훈련 장치는 외부 서버일 수도 있다. 이 경우, 외부 서버에 의해 훈련된 신경망(520) 및 가중치들이 AI에 기반한 비디오 부호화 장치(1600) 또는 AI에 기반한 비디오 복호화 장치(1300)로 전달될 수 있다.
일 실시예에 따라, 신경망(520)에는 훈련용 현재 블록의 Cb 성분의 예측 샘플(505), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(515) 외에 다른 입력이 추가될 수 있다. 예를 들어, 추가되는 다른 입력은 현재 블록이 인트라 블록 또는 인터 블록인 경우 현재 블록의 양자화 스텝 사이즈, 현재 블록이 인트라 블록 또는 인터 블록인 경우 현재 블록의 양자화 에러, 현재 블록이 인터 블록인 경우 현재 블록의 참조 프레임의 양자화 스텝 사이즈 또는 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록(예를 들어, 크로마 포맷이 4:2:0이면 2만큼 다운스케일된 블록) 등일 수 있다.
현재 블록의 양자화 에러는 양자화 파라미터로부터 산출되는 양자화 에러 값들을 샘플 값들로 포함할 수 있다. 이는 현재 블록에 포함된 샘플 각각에 대한 양자화 에러를 의미한다. 신경망의 추가 입력의 대상이 되는 양자화 에러 값들을 포함하는 양자화 에러 맵의 크기는 현재 블록의 크기에 대응될 수 있다.
양자화 에러 값들은 원본 블록에 대한 부호화 및 복호화 과정에서 잔차 샘플들에 대해 적용되는 양자화 및 역양자화로 인해 야기될 수 있는 에러량을 나타낼 수 있다.
양자화 에러 값이 크다는 것은, 양자화 전의 변환 계수와 역양자화 후의 변환 계수 사이의 차이가 클 수 있다는 것을 의미할 수 있다. 양자화 전의 변환 계수와 역양자화 후의 변환 계수 사이의 차이가 클수록 원본 블록과 부호화 데이터에 대한 복호화를 통해 획득되는 현재 블록 사이의 동일성이 저감될 수 있다.
양자화 및 역양자화로 인해 야기되는 에러는 아티팩트에 해당하므로, 양자화 에러 값들을 고려하여 AI 기반 비디오 부호화 및 비디오 복호화가 수행되어야 할 필요가 있다.
일 실시예에서, 양자화 에러 값은 아래 수학식 1로부터 산출될 수 있다.
[수학식 1]
양자화 에러 값 = 양자화 스텝 사이즈^2 / 12
수학식 1을 참조하면, 양자화 에러 값은 양자화 스텝 사이즈를 제곱한 값에 비례할 수 있다.
양자화 스텝 사이즈는 변환 계수의 양자화에 이용되는 값으로서, 변환 계수를 양자화 스텝 사이즈로 나눔으로써 변환 계수가 양자화될 수 있다. 반대로, 양자화된 변환 계수에 양자화 스텝 사이즈를 곱함으로써 양자화된 변환 계수가 역양자화될 수 있다.
양자화 스텝 사이즈는 아래 수학식 2로 근사화될 수 있다.
[수학식 2]
양자화 스텝 사이즈 = 2^(양자화 파라미터/n) / 양자화 스케일[양자화 파라미터%n]
수학식 2에서, 양자화 스케일[양자화 파라미터%n]는 미리 결정된 n개의 스케일 값들 중 양자화 파라미터가 가리키는 스케일 값을 나타낸다. HEVC 코덱에서는 6개의 스케일 값(26214, 23302, 20560, 18396, 16384 및 14564)을 정의하고 있으므로, HEVC 코덱에 의하면 n은 6이다.
수학식 1 및 수학식 2를 참조하면, 양자화 파라미터가 커질수록 양자화 스텝 사이즈가 커지고, 양자화 에러 값이 커질 수 있다.
신경망은 양자화 에러 또는 양자화 스텝 사이즈를 추가로 고려함으로써, 현재 블록의 복원 시에 현재 블록 내의 양자화 에러를 보다 효율적으로 제거할 수 있다.
또한, 신경망은 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록을 이용함으로써, 복원된 루마 블록의 정보를 이용하여 더 효율적으로 현재 크로마 블록을 복원할 수 있다.
일 실시예에 따라, 신경망(520)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록이 포함된 슬라이스의 타입이 인트라 슬라이스인지 인터 슬라이스인지에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다.
일 실시예에 따라, 신경망(520)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록의 부호화 블록 타입이 인트라 블록인지 인터 블록인지에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다.
일 실시예에 따라, 신경망(520)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록이 포함된 슬라이스의 QP 레인지(QP range)에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다. 구체적으로, QP range가 0 이상 a 미만이면 모델 1이 선택되고, QP range가 a 이상 b 미만이면 모델 2가 선택되고, QP range가 b 이상 c 미만이면 모델 3이 선택될 수 있다.
일 실시예에 따라, 신경망(520)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록의 Cb 성분과 Cr 성분에 기초하여 복수의 모델 중에서 하나의 모델이 선택될 수 있다. 구체적으로, Cb 성분과 Cr 성분의 레지듀얼 중 하나가 그대로 이용되면, 가중치 1이 적용되고, Cb 성분과 Cr 성분의 레지듀얼 중 나머지 하나에 대하여 신경망의 모델이 적용될 수 있다.
도 6은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망을 훈련하는 방법을 설명하기 위한 도면이다.
도 6의 신경망(620)은 도 5의 신경망(520)과 비교하여 신경망의 출력이 Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플이 아니고, Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플이라는 점에서 차이가 있다.
도 6은 AI 기반 크로마 성분 예측을 위한 신경망(620)의 훈련 방법을 나타낸다. 도 6에 도시된 훈련용 현재 블록의 Cb 성분의 예측 샘플(605)은 전술된 현재 블록의 Cb 성분의 예측 샘플에 대응되고, 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(610)은 전술된 현재 블록의 조인트 크로마 레지듀얼 샘플에 대응되고, 훈련용 현재 블록의 Cr 성분의 예측 샘플(615)은 전술된 현재 블록의 Cr 성분의 예측 샘플에 대응될 수 있다.
본 개시에 따른 신경망(620)의 훈련 방법에 따르면, 신경망(620)으로부터 출력되는 훈련용 현재 블록의 Cb 성분의 복원 샘플(635)이 훈련용 현재 블록의 Cb 성분의 원본 샘플(645)과 동일 또는 유사해지고, 신경망(620)으로부터 출력되는 훈련용 현재 블록의 Cr 성분의 복원 샘플(640)이 훈련용 현재 블록의 Cb 성분의 원본 샘플(650)과 동일 또는 유사해지도록 신경망(620)을 훈련시킨다. 이를 위해, 훈련용 현재 블록의 Cb 성분의 복원 샘플(635)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(645) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(640)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(650) 사이의 차이의 합에 대응하는 손실 정보(655)가 신경망(620)의 훈련에 이용될 수 있다.
구체적으로, 먼저, 훈련용 현재 블록의 Cb 성분의 예측 샘플(605), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(610), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(615)이 획득된다.
훈련용 현재 블록의 Cb 성분의 예측 샘플(505), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(515)이 신경망(500)에 입력된 후, 신경망(500)으로부터 출력되는 훈련용 현재 블록의 Cb 성분의 복원 샘플(635) 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(640)이 획득된다. 신경망(620)은 미리 설정된 가중치에 따라 동작할 수 있다.
훈련용 현재 블록의 Cb 성분의 복원 샘플(635)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(645) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(640)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(650) 사이의 차이의 합에 대응하는 손실 정보(655)가 산출되고, 손실 정보(655)에 따라 신경망(620)에 설정된 가중치가 갱신된다. 신경망(620)은 손실 정보(655)가 감소 또는 최소화되도록 가중치를 갱신할 수 있다.
손실 정보(655)는 훈련용 현재 블록의 Cb 성분의 복원 샘플(635)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(645) 사이의 차이 및 훈련용 현재 블록의 Cr 성분의 복원 샘플(640)과 훈련용 현재 블록의 Cb 성분의 원본 샘플(650) 사이의 차이의 합에 대한 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 또는 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 신경망(620)의 훈련은 훈련 장치에 의해 수행될 수 있다. 훈련 장치는 AI에 기반한 비디오 부호화 장치(1500) 또는 AI에 기반한 비디오 복호화 장치(1200)일 수 있다. 구현예에 따라, 훈련 장치는 외부 서버일 수도 있다. 이 경우, 외부 서버에 의해 훈련된 신경망(620) 및 가중치들이 AI에 기반한 비디오 부호화 장치(1500) 또는 AI에 기반한 비디오 복호화 장치(1200)로 전달될 수 있다.
일 실시예에 따라, 신경망(620)에는 훈련용 현재 블록의 Cb 성분의 예측 샘플(505), 훈련용 현재 블록의 조인트 크로마 레지듀얼 샘플(510), 및 훈련용 현재 블록의 Cr 성분의 예측 샘플(515) 외에 다른 입력이 추가될 수 있다. 예를 들어, 추가되는 다른 입력은 현재 블록의 양자화 스텝 사이즈, 현재 블록의 양자화 에러, 현재 블록이 인터 블록인 경우 현재 블록의 참조 프레임의 양자화 스텝 사이즈 또는 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록(예를 들어, 크로마 포맷이 4:2:0이면 2만큼 다운스케일된 블록) 등일 수 있다.
일 실시예에 따라, 신경망(620)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록이 포함된 슬라이스의 타입이 인트라 슬라이스인지 인터 슬라이스인지에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다.
일 실시예에 따라, 신경망(620)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록의 부호화 블록 타입이 인트라 블록인지 인터 블록인지에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다.
일 실시예에 따라, 신경망(620)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록이 포함된 슬라이스의 QP 레인지(QP range)에 따라 복수의 모델 중에서 하나의 모델이 선택될 수 있다. 구체적으로, QP range가 0 이상 a 미만이면 모델 1이 선택되고, QP range가 a 이상 b 미만이면 모델 2가 선택되고, QP range가 b 이상 c 미만이면 모델 3이 선택될 수 있다.
일 실시예에 따라, 신경망(620)의 모델은 복수 개일 수 있다. 예를 들어, 현재 블록의 Cb 성분과 Cr 성분에 기초하여 복수의 모델 중에서 하나의 모델이 선택될 수 있다. 구체적으로, Cb 성분과 Cr 성분의 레지듀얼 중 하나가 그대로 이용되면, 가중치 1이 적용되고, Cb 성분과 Cr 성분의 레지듀얼 중 나머지 하나에 대하여 신경망의 모델이 적용될 수 있다.
도 7은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망의 모델과 예측 타입 사이의 대응관계를 나타내는 표이다. 이러한 대응 관계는 AI에 기반한 비디오 부호화 장치(1500; 1600) 또는 AI에 기반한 비디오 복호화 장치(1200; 1300) 등에 미리 저장될 수 있다.
도 7을 참고하면, 예측 타입에 따라 이용되는 신경망의 모델들이 달라질 수 있다. 예측 타입이 인트라 예측 타입이면, 복수의 모델들 중 모델1, 모델2, 모델3 중에서 하나의 모델이 이용될 수 있고, 예측 타입이 인터 예측 타입이면, 복수의 모델들 중 모델1, 모델2 중에서 하나의 모델이 이용될 수 있다.
또한, 전술된 도 2와 같이, Cb cbf 정보(tu_cbf_cb)와 Cr cbf 정보(tu_cbf_cr)에 따라 이용되는 모델이 달라질 수 있다.
구체적으로, Cb cbf 정보(tu_cbf_cb)와 Cr cbf 정보(tu_cbf_cr)가 획득되면, Cb cbf 정보와 Cr cbf 정보에 따라 Cb 성분의 레지듀얼 샘플의 복원값(resCb)과 Cr 성분의 레지듀얼 샘플의 복원값(resCr)을 결정하기 위한 모델이 결정될 수 있다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 0일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb) 및 Cr 성분의 레지듀얼 샘플의 복원값(resCr)에 대한 모델은 신경망의 모델들 중 모델 1로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 1이다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb) 및 Cr 성분의 레지듀얼 샘플의 복원값(resCr)에 대한 모델은 신경망의 모델들 중 모델 2로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 2이다.
예를 들어, tu_cbf_cb가 0 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb) 및 Cr 성분의 레지듀얼 샘플의 복원값(resCr)에 대한 모델은 신경망의 모델들 중 모델 3으로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 3이다.
부호화 단위의 예측 타입이 인트라 예측 모드인 경우, 조인트 모드 인덱스가 1, 2, 3이 모두 가능하다. 즉, 부호화 단위의 예측 타입이 인트라 예측 모드인 경우에는 조인트 모드 인덱스에 따라 Cb 성분 및 Cr 성분에 이용되는 모델이 결정될 수 있다.
부호화 단위의 예측 타입이 인터 예측 모드인 경우, 조인트 모드 인덱스가 2만 허용될 수 있다. 따라서, 부호화 단위의 예측 타입이 인터 예측 모드인 경우에는 조인트 모드 인덱스가 2인 경우, 즉 tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때만 크로마 조인트 방식이 허용되고, Cb 성분 및 Cr 성분에 대한 모델은 모델 2로 결정될 수 있다.
도 8은 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망의 모델과 예측 타입 사이의 대응관계를 나타내는 표이다. 이러한 대응 관계는 AI에 기반한 비디오 부호화 장치(1500; 1600) 또는 AI에 기반한 비디오 복호화 장치(1200; 1300) 등에 미리 저장될 수 있다.
도 8을 참고하면, 예측 타입이 인트라 예측 타입이면, Cb 성분은 조인트 크로마 레지듀얼에 가중치 1을 곱하여 획득되고, Cr 성분은 조인트 크로마 레지듀얼을 신경망의 모델1에 적용하여 획득되는 방식 ([1, 모델1]), Cb 성분 및 Cr 성분 모두 조인트 크로마 레지듀얼을 신경망의 모델2에 적용하여 획득되는 방식 ([모델2]), Cb 성분은 조인트 크로마 레지듀얼을 신경망의 모델1에 적용하여 획득되고, Cr 성분은 조인트 크로마 레지듀얼에 가중치 1을 곱하여 획득되는 방식 ([모델3, 1]) 중 하나가 이용될 수 있고, 예측 타입이 인터 예측 타입이면, Cb 성분은 조인트 크로마 레지듀얼에 가중치 1을 곱하여 획득되고, Cr 성분은 조인트 크로마 레지듀얼을 신경망의 모델2에 적용하여 획득되는 방식 ([1, 모델2])이 이용될 수 있다.
또한, 전술된 도 2와 같이, Cb cbf 정보(tu_cbf_cb)와 Cr cbf 정보(tu_cbf_cr)에 따라 이용되는 모델이 달라질 수 있다.
구체적으로, Cb cbf 정보(tu_cbf_cb)와 Cr cbf 정보(tu_cbf_cr)가 획득되면, Cb cbf 정보와 Cr cbf 정보에 따라 Cb 성분의 레지듀얼 샘플의 복원값(resCb)과 Cr 성분의 레지듀얼 샘플의 복원값(resCr)을 결정하기 위한 모델 또는 가중치가 결정될 수 있다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 0일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb)의 가중치는 1로 결정되고, Cr 성분의 레지듀얼 샘플의 복원값(resCb)에 대한 모델은 모델 1로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 1이다.
예를 들어, tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb) 및 Cr 성분의 레지듀얼 샘플의 복원값(resCr)에 대한 모델은 모두 신경망의 모델들 중 모델 2로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 2이다.
예를 들어, tu_cbf_cb가 0 및 tu_cbf_cr가 1일 때, Cb 성분의 레지듀얼 샘플의 복원값(resCb)에 대한 모델은 신경망의 모델들 중 모델 3으로 결정되고, Cr 성분의 레지듀얼 샘플의 복원값(resCr)에 대한 가중치는 1로 결정될 수 있다. 이 경우, 조인트 모드 인덱스가 3이다.
부호화 단위의 예측 타입이 인트라 예측 모드인 경우, 조인트 모드 인덱스가 1, 2, 3이 모두 가능하다. 즉, 부호화 단위의 예측 타입이 인트라 예측 모드인 경우에는 조인트 모드 인덱스에 따라 Cb 성분 및 Cr 성분에 이용되는 가중치 또는 모델이 결정될 수 있다.
부호화 단위의 예측 타입이 인터 예측 모드인 경우, 조인트 모드 인덱스가 2만 허용될 수 있다. 따라서, 부호화 단위의 예측 타입이 인터 예측 모드인 경우에는 조인트 모드 인덱스가 2인 경우, 즉 tu_cbf_cb가 1 및 tu_cbf_cr가 1일 때만 크로마 조인트 방식이 허용되고, Cb 성분 및 Cr 성분에 대한 모델은 모델 2로 결정될 수 있다.
도 9는 일 실시예에 따른 AI 기반 크로마 성분 예측을 위한 신경망 및 스케일 팩터를 설명하기 위한 도면이다.
도 9를 참고하면, 현재 블록의 Cb 성분의 예측 샘플(905), 현재 블록의 조인트 크로마 레지듀얼 샘플(910), 및 현재 블록의 Cr 성분의 예측 샘플(915)이 신경망(920)에 입력된다. 신경망(920)을 통해 출력된 Cb 성분의 레지듀얼 샘플(925)과 Cr 성분의 레지듀얼 샘플(930)에는 현재 블록의 Cb 성분의 예측 샘플(905)과 현재 블록의 Cr 성분의 예측 샘플(915)이 더해지기 전에 추가적인 스케일 팩터(945, 950)가 각각 곱해질 수 있다.
구체적으로, 신경망(920)을 통해 출력된 Cb 성분의 레지듀얼 샘플(925)에 제1 스케일 팩터(945)가 곱해져, Cb 성분의 레지듀얼 샘플(925)이 정제된 뒤, 정제된 Cb 성분의 레지듀얼 샘플에 현재 블록의 Cb 성분의 예측 샘플(905)을 더함으로써 현재 블록의 Cb 성분의 복원 샘플(935)이 획득되고, 신경망(920)을 통해 출력된 Cr 성분의 레지듀얼 샘플(930)에 제2 스케일 팩터(950)가 곱해져, Cr 성분의 레지듀얼 샘플(930)이 정제된 뒤, 정제된 Cr 성분의 레지듀얼 샘플에 현재 블록의 Cr 성분의 예측 샘플(915)을 더함으로써 현재 블록의 Cr 성분의 복원 샘플(940)이 획득될 수 있다.
신경망의 훈련된 모델이 이용되더라도, Cb 성분 또는 Cr 성분의 레지듀얼 샘플 값이 원래 레지듀얼 값과 다른 경우, 정제(refine)될 필요가 있으므로, 스케일 팩터가 추가적으로 이용될 수 있다. 스케일 팩터의 예는 도 10에서 후술된다.
또한, 전술된 도 6의 신경망과 같이, 현재 블록의 Cb 성분의 예측 샘플, 현재 블록의 조인트 크로마 레지듀얼 샘플, 및 현재 블록의 Cr 성분의 예측 샘플을 입력으로하여, 현재 블록의 Cb 성분의 복원 샘플 및 현재 블록의 Cr 성분의 복원 샘플이 획득되는 경우에도, 스케일 팩터가 추가로 이용될 수 있다.
일 실시예에 따라, 신경망의 출력 중 하나인 현재 블록의 Cb 성분의 복원 샘플에서 현재 블록의 Cb 성분의 예측 샘플을 감산하여 현재 블록의 Cb 성분의 레지듀얼 샘플이 획득되고, 신경망의 출력 중 다른 하나인 현재 블록의 Cr 성분의 복원 샘플에서 현재 블록의 Cr 성분의 예측 샘플을 감산하여 현재 블록의 Cr 성분의 레지듀얼 샘플이 획득될 수 있다. 현재 블록의 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 곱하여 정제된 Cb 성분의 레지듀얼 샘플이 획득되고, 현재 블록의 Cr 성분의 레지듀얼 샘플에 제1 스케일 팩터를 곱하여 정제된 Cr 성분의 레지듀얼 샘플이 획득될 수 있다. 정제된 Cb 성분의 레지듀얼 샘플에 현재 블록의 Cb 성분의 예측 샘플을 다시 더함으로써 정제된 Cb 성분의 복원 샘플이 획득되고, 정제된 Cr 성분의 레지듀얼 샘플에 현재 블록의 Cr 성분의 예측 샘플을 다시 더함으로써 정제된 Cb 성분의 복원 샘플이 획득될 수 있다.
복원 샘플이 바로 출력되는 것으로 훈련된 신경망의 경우에도 스케일링을 통한 정제가 필요할 수 있으므로, 이러한 신경망의 경우에는 복원 샘플에서 예측 샘플을 감산하여 레지듀얼 샘플을 획득하고 레지듀얼 샘플에 스케일 팩터를 적용함으로써 정제된 샘플 값을 획득할 수 있다.
도 10은 일 실시예에 따른 스케일 팩터 세트와 예측 타입 사이의 대응관계를 나타내는 표이다. 이러한 대응 관계는 AI에 기반한 비디오 부호화 장치(1600) 또는 AI에 기반한 비디오 복호화 장치(1300) 등에 미리 저장될 수 있다.
도 10을 참고하면, 예측 타입이 인트라 예측 타입이면, 스케일 팩터 세트는 1, 1/2, 1/4를 포함하고, 예측 타입이 인터 예측 타입이면, 스케일 팩터 세트는 1, 1/2를 포함할 수 있다.
즉, 예측 타입에 따라 서로 다른 스케일 팩터 세트에 포함된 복수의 스케일 팩터 중 하나가 선택되어 이용될 수 있다. 스케일 팩터 값에 대응하는 인덱스는 각 블록 또는 각 슬라이스에 대하여 시그널링될 수 있다.
일 실시예에 따라, Cb 성분 및 Cr 성분에 대하여 동일한 스케일 팩터가 이용될 수 있다.
일 실시예에 따라, 스케일 팩터가 각 블록 또는 각 슬라이스에 대하여 시그널링될 때 Cb 성분 및 Cr 성분에 대하여 서로 다른 스케일 팩터가 이용될 수 있다.
예측 타입은 슬라이스의 예측 타입 또는 부호화 블록의 예측 타입일 수 있다. 즉, 스케일 팩터 세트는 슬라이스 타입에 기초하여 선택되거나 블록 타입에 기초하여 선택될 수 있다.
도 11은 일 실시예에 따른 AI에 기반한 비디오 복호화 방법의 순서도이다.
S1110에서, AI에 기반한 비디오 복호화 장치(1200; 1300)는 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 부호화 측에서 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되어 비트스트림을 통해 전달된 것일 수 있다.
S1130에서, AI에 기반한 비디오 복호화 장치(1200; 1300)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
S1150에서, AI에 기반한 비디오 복호화 장치(1200; 1300)는 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원할 수 있다.
일 실시예에 따라, AI에 기반한 비디오 복호화 장치(1300)는 조인트 크로마 3레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다. AI 기반 비디오 복호화 장치(1300)는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원할 수 있다.
일 실시예에 따라, AI에 기반한 비디오 복호화 장치(1300)는 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제(refine)하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제할 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 비트스트림으로부터 획득된 인덱스가 나타내는 스케일 팩터 값에 따라 결정될 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
일 실시예에 따라, 상기 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 비트스트림으로부터 획득된 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
도 12는 일 실시예에 따른 AI에 기반한 비디오 복호화 장치의 구성을 도시하는 블록도이다.
도 12를 참고하면, AI에 기반한 비디오 복호화 장치(1200)는 복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)를 포함할 수 있다.
복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)는 하나 이상의 프로세서로 구현될 수 있다. 복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.
도 12는 복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)를 개별적으로 도시하고 있으나, 복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
복호화부(1210), 예측부(1220), AI 기반 영상 처리부(1230), 및 복원부(1240)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.
복호화부(1210)는 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 부호화 측에서 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되어 비트스트림을 통해 전달된 것일 수 있다
복호화부(1210)는 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 예측부(1220)에 전달한다.
예측부(1220)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1230)는 도 5에서 전술된 신경망(520) 또는 도 6에서 전술된 신경망(620)을 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1230)에 포함된 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
AI 기반 영상 처리부(1230)는 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 입력받아, Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1230)는 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 추가로 입력받아, Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 복호화부(1210)는 비트스트림으로부터 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보를 추가로 획득할 수 있다. AI 기반 영상 처리부(1230)에 포함된 신경망의 모델은 Cb cbf 정보 및 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1230)에 포함된 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
복원부(1240)는 AI 기반 영상 처리부(1230)에서 획득된 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 이용하여 현재 블록을 복원할 수 있다.
AI 기반 영상 처리부(1230)에 포함된 신경망의 출력이 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플이 아니라 Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플 중 하나일 수도 있다. 이러한 경우에는 Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플과 Cb 성분의 예측 샘플 및 Cr 성분의 예측 샘플을 합산하기 위한 합산부가 추가로 포함될 수 있다. 이는 도 13의 AI에 기반한 비디오 복호화 장치에서 후술된다.
도 13은 일 실시예에 따른 AI에 기반한 비디오 복호화 장치의 구성을 도시하는 블록도이다.
도 13을 참고하면, AI에 기반한 비디오 복호화 장치(1300)는 복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)를 포함할 수 있다.
복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)는 하나 이상의 프로세서로 구현될 수 있다. 복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.
도 13은 복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)를 개별적으로 도시하고 있으나, 복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
복호화부(1310), 예측부(1320), AI 기반 영상 처리부(1330), 합산부(1335), 및 복원부(1340)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.
복호화부(1310)는 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 부호화 측에서 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되어 비트스트림을 통해 전달된 것일 수 있다
복호화부(1310)는 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 예측부(1320)에 전달한다.
예측부(1320)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
AI 기반 영상 처리부(1330)는 도 5에서 전술된 신경망(520)을 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1330)에 포함된 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다
AI 기반 영상 처리부(1330)는 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 입력받아, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다.
일 실시예에 따라, 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1330)는 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 추가로 입력받아, Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다.
합산부(1335)는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득할 수 있다. 예를 들어, 합산부(1335)는 Cb 성분의 레지듀얼 샘플과 Cb 성분의 예측 샘플을 합산하여 Cb 성분의 복원 샘플을 획득하고, Cr 성분의 레지듀얼 샘플과 Cr 성분의 예측 샘플을 합산하여 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 복호화부(1310)는 비트스트림으로부터 스케일 팩터를 나타내는 인덱스를 추가로 획득할 수 있다. AI 기반 영상 처리부(1330)는 복호화부(1310)로부터 스케일 팩터 세트에 포함된 스케일 팩터를 나타내는 인덱스를 추가로 획득할 수 있다. AI 기반 영상 처리부(1330)는 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플에 대하여 획득된 스케일 팩터를 각각 적용하여 현재 블록의 Cb 성분의 정제된 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 정제된 레지듀얼 샘플을 획득할 수 있다. 구체적으로, 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제할 수 있다. 합산부(1335)는 Cb 성분의 정제된 레지듀얼 샘플과 Cb 성분의 예측 샘플을 합산하여 Cb 성분의 복원 샘플을 획득하고, Cr 성분의 정제된 레지듀얼 샘플과 Cr 성분의 예측 샘플을 합산하여 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
일 실시예에 따라, 복호화부(1310)는 비트스트림으로부터 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보를 추가로 획득할 수 있다. AI 기반 영상 처리부(1330)에 포함된 신경망의 모델은 Cb cbf 정보 및 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1330)에 포함된 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
복원부(1340)는 합산부(1335)에서 획득된 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 이용하여 현재 블록을 복원할 수 있다.
도 14는 일 실시예에 따른 AI에 기반한 비디오 부호화 방법의 순서도이다.
S1410에서, AI에 기반한 비디오 부호화 장치(1500; 1600)는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
S1430에서, AI에 기반한 비디오 부호화 장치(1500; 1600)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
S1450에서, AI에 기반한 비디오 부호화 장치(1500; 1600)는 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
일 실시예에 따라, AI에 기반한 비디오 부호화 장치(1600)는 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다. AI에 기반한 비디오 부호화 장치(1600)는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되고 부호화될 수 있다.
일 실시예에 따라, 현재 블록의 Cb 성분 예측 정보 및 Cr 성분 예측 정보를 추가로 부호화할 수 있다.
일 실시예에 따라, AI에 기반한 비디오 부호화 장치(1600)는 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 Cb 성분의 상기 레지듀얼 샘플을 정제할 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 스케일 팩터 값을 나타내는 인덱스로 부호화될 수 있다. 즉, 스케일 팩터 값을 나타내는 인덱스가 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되고 비트스트림에 포함되어 시그널링될 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
일 실시예에 따라, 상기 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 비트스트림으로부터 획득된 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
도 15는 일 실시예에 따른 AI에 기반한 비디오 부호화 장치의 구성을 도시하는 블록도이다.
도 15를 참고하면, AI에 기반한 비디오 부호화 장치(1500)는 생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)를 포함할 수 있다.
생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)는 하나 이상의 프로세서로 구현될 수 있다. 생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.
도 15는 생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)를 개별적으로 도시하고 있으나, 생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
생성부(1510), 예측부(1520), AI 기반 영상 처리부(1530), 및 부호화부(1540)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.
생성부(1510)는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
생성부(1510)는 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 예측부(1520)에 전달한다.
예측부(1520)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1530)는 도 5에서 전술된 신경망(520) 또는 도 6에서 전술된 신경망(620)을 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1530)에 포함된 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
AI 기반 영상 처리부(1530)는 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 입력받아, Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1530)는 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 추가로 입력받아, Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 획득할 수 있다.
일 실시예에 따라, 생성부(1510)는 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보를 추가로 생성할 수 있다. AI 기반 영상 처리부(1530)에 포함된 신경망의 모델은 Cb cbf 정보 및 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1530)에 포함된 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
부호화부(1540)는 AI 기반 영상 처리부(1530)에서 획득된 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 이용하여 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되고 부호화될 수 있다.
일 실시예에 따라, 부호화부(1540)는 생성부(1510)에서 획득된 현재 블록의 Cb 성분 예측 정보 및 Cr 성분 예측 정보를 추가로 부호화할 수 있다.
AI 기반 영상 처리부(1530)에 포함된 신경망의 출력이 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플이 아니라 Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플 중 하나일 수도 있다. 이러한 경우에는 Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플과 Cb 성분의 예측 샘플 및 Cr 성분의 예측 샘플을 합산하기 위한 합산부가 추가로 포함될 수 있다. 이는 도 16의 AI에 기반한 비디오 부호화 장치에서 후술된다.
도 16은 일 실시예에 따른 AI에 기반한 비디오 부호화 장치의 구성을 도시하는 블록도이다.
도 16을 참고하면, AI에 기반한 비디오 부호화 장치(1600)는 생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)를 포함할 수 있다.
생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)는 하나 이상의 프로세서로 구현될 수 있다. 생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)는 메모리에 저장된 인스트럭션에 따라 동작할 수 있다.
도 16은 생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)를 개별적으로 도시하고 있으나, 생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)는 전용 프로세서로 구현될 수도 있고, AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
생성부(1610), 예측부(1620), AI 기반 영상 처리부(1630), 합산부(1635), 및 부호화부(1640)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU, 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 프로세서는 인공지능 전용 프로세서를 포함할 수 있다. 다른 예로, 인공지능 전용 프로세서는 프로세서와 별도의 칩으로 구성될 수 있다.
생성부(1610)는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값의 평균값일 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cb 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
일 실시예에 따라, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플은 현재 블록의 Cr 성분의 레지듀얼 샘플의 실제 값과 동일할 수 있다.
생성부(1610)는 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 예측부(1620)에 전달한다.
예측부(1620)는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1630)는 도 5에서 전술된 신경망(520)을 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1630)에 포함된 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
AI 기반 영상 처리부(1630)는 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 입력받아, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다.
일 실시예에 따라, 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1630)는 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 추가로 입력받아, Cb 성분의 레지듀얼 샘플 및 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다.
일 실시예에 따라, 생성부(1610)는 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보를 추가로 생성할 수 있다. AI 기반 영상 처리부(1630)에 포함된 신경망의 모델은 Cb cbf 정보 및 Cr cbf 정보에 기초하여 결정될 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1630)에 포함된 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb성분인지 Cr성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
합산부(1635)는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득할 수 있다. 예를 들어, 합산부(1635)는 Cb 성분의 레지듀얼 샘플과 Cb 성분의 예측 샘플을 합산하여 Cb 성분의 복원 샘플을 획득하고, Cr 성분의 레지듀얼 샘플과 Cr 성분의 예측 샘플을 합산하여 Cr 성분의 복원 샘플을 획득할 수 있다.
부호화부(1640)는 합산부(1635)에서 획득된 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 이용하여 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
일 실시예에 따라, 현재 블록의 조인트 크로마 레지듀얼 샘플은 SATD(Sum of Transform Difference) 또는 RDO (Rate Distortion Optimization) 계산을 통해 결정되고 부호화될 수 있다.
일 실시예에 따라, 부호화부(1640)는 생성부(1610)에서 획득된 현재 블록의 Cb 성분 예측 정보 및 Cr 성분 예측 정보를 추가로 부호화할 수 있다.
일 실시예에 따라, AI 기반 영상 처리부(1330)는 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플에 대하여 획득된 스케일 팩터를 각각 적용하여 현재 블록의 Cb 성분의 정제된 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 정제된 레지듀얼 샘플을 획득할 수 있다. 구체적으로, 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제할 수 있다. 합산부(1335)는 Cb 성분의 정제된 레지듀얼 샘플과 Cb 성분의 예측 샘플을 합산하여 Cb 성분의 복원 샘플을 획득하고, Cr 성분의 정제된 레지듀얼 샘플과 Cr 성분의 예측 샘플을 합산하여 Cr 성분의 복원 샘플을 획득할 수 있다. 부호화부(1640)는 합산부(1635)에서 획득된 Cb 성분의 복원 샘플 및 Cr 성분의 복원 샘플을 이용하여 스케일 팩터 세트 중에서 스케일 팩터를 나타내는 인덱스를 추가로 부호화할 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 획득하는 단계; 및 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은 Cb 성분과 Cr 성분의 예측 정보를 이용하여 Cb 성분과 Cr 성분의 고정적인 상관관계 대신에 더 일반화되고 더 국지적이고 더 구체적인 Cb 성분과 Cr 성분의 관계를 훈련한 신경망을 통해, Cb 성분과 Cr 성분을 더 효율적으로 복원하는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 획득하는 단계; 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하는 단계; 및 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은 신경망을 통해 더 정확하게 Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하고, Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 이용하여 Cb 성분과 Cr 성분을 더 효율적으로 복원하는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은 신경망을 통해 획득된 Cb 성분 및 Cr 성분의 레지듀얼 샘플을 Cb 성분 및 Cr 성분의 예측 샘플에 더하기 전에 스케일 팩터를 이용하여 스케일함으로써 더 정제된 레지듀얼 샘플을 획득하는 효과를 가질 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 비트스트림으로부터 획득된 인덱스가 나타내는 스케일 팩터 값에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 비트스트림으로부터 획득된 인덱스에 따라 적절한 스케일 팩터가 적용됨으로써 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 스케일 팩터 세트가 복수의 스케일 팩터 세트들 중에서 현재 블록이 포함된 슬라이스 또는 현재 블록의 타입 중 적어도 하나에 따라 결정됨으로써, 현재 블록의 타입에 따라 적절한 스케일 팩터 세트가 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 복수의 스케일 팩터 세트들이 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 신경망이 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 학습함으로써, 현재 블록의 샘플 별로 Cb 성분 및 Cr 성분의 레지듀얼 샘플의 값이 보다 정확하게 결정되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 양자화 에러 또는 양자화 스텝 사이즈를 추가로 이용함으로써, 현재 블록의 복원 시에 현재 블록 내의 양자화 에러가 보다 효율적으로 제거되는 효과를 가질 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록을 추가로 이용함으로써, 복원된 루마 블록의 정보를 이용하여 더 효율적으로 현재 블록의 Cb 성분 및 Cr 성분이 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 신경망이 Cb 성분과 Cr 성분 각각의 원본 샘플과 복원 샘플의 차이에 대응하는 손실 정보들을 최소화하도록 훈련됨으로써, 신경망을 통해 획득되는 Cb 성분의 복원 샘플과 Cr 성분의 복원 샘플이 Cb 성분의 원본 샘플과 Cr 성분의 원본 샘플과 거의 동일하게 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 비트스트림으로부터 획득된 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, Cb cbf 정보 및 Cr cbf 정보에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 Cb cbf 정보 및 Cr cbf 정보와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb 성분인지 Cr 성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 방법은, 여러 가지 조건에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 현재 블록의 타입, 현재 블록을 포함하는 슬라이스 타입, 슬라이스의 QP 레인지, 또는 현재 블록의 Cb 성분인지 Cr 성분인지 여부와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다. 적어도 하나의 프로세서는 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는 Cb 성분과 Cr 성분의 예측 정보를 이용하여 Cb 성분과 Cr 성분의 고정적인 상관관계 대신에 더 일반화되고 더 국지적이고 더 구체적인 Cb 성분과 Cr 성분의 관계를 훈련한 신경망을 통해, Cb 성분과 Cr 성분을 더 효율적으로 복원하는 효과를 가질 수 있다.
일 실시예에 따라, 적어도 하나의 프로세서는 상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는 신경망을 통해 더 정확하게 Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하고, Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 이용하여 Cb 성분과 Cr 성분을 더 효율적으로 복원하는 효과를 가질 수 있다.
일 실시예에 따라, 적어도 하나의 프로세서는 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는 신경망을 통해 획득된 Cb 성분 및 Cr 성분의 레지듀얼 샘플을 Cb 성분 및 Cr 성분의 예측 샘플에 더하기 전에 스케일 팩터를 이용하여 스케일함으로써 더 정제된 레지듀얼 샘플을 획득하는 효과를 가질 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 비트스트림으로부터 획득된 인덱스가 나타내는 스케일 팩터 값에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 비트스트림으로부터 획득된 인덱스에 따라 적절한 스케일 팩터가 적용됨으로써 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 스케일 팩터 세트가 복수의 스케일 팩터 세트들 중에서 현재 블록이 포함된 슬라이스 또는 현재 블록의 타입 중 적어도 하나에 따라 결정됨으로써, 현재 블록의 타입에 따라 적절한 스케일 팩터 세트가 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 복수의 스케일 팩터 세트들이 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 신경망이 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 학습함으로써, 현재 블록의 샘플 별로 Cb 성분 및 Cr 성분의 레지듀얼 샘플의 값이 보다 정확하게 결정되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 양자화 에러 또는 양자화 스텝 사이즈를 추가로 이용함으로써, 현재 블록의 복원 시에 현재 블록 내의 양자화 에러가 보다 효율적으로 제거되는 효과를 가질 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록을 추가로 이용함으로써, 복원된 루마 블록의 정보를 이용하여 더 효율적으로 현재 블록의 Cb 성분 및 Cr 성분이 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 신경망이 Cb 성분과 Cr 성분 각각의 원본 샘플과 복원 샘플의 차이에 대응하는 손실 정보들을 최소화하도록 훈련됨으로써, 신경망을 통해 획득되는 Cb 성분의 복원 샘플과 Cr 성분의 복원 샘플이 Cb 성분의 원본 샘플과 Cr 성분의 원본 샘플과 거의 동일하게 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 비트스트림으로부터 획득된 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, Cb cbf 정보 및 Cr cbf 정보에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 Cb cbf 정보 및 Cr cbf 정보와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb 성분인지 Cr 성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 복호화 장치는, 여러 가지 조건에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 현재 블록의 타입, 현재 블록을 포함하는 슬라이스 타입, 슬라이스의 QP 레인지, 또는 현재 블록의 Cb 성분인지 Cr 성분인지 여부와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하는 단계; 및 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은 Cb 성분과 Cr 성분의 예측 정보를 이용하여 Cb 성분과 Cr 성분의 고정적인 상관관계 대신에 더 일반화되고 더 국지적이고 더 구체적인 Cb 성분과 Cr 성분의 관계를 훈련한 신경망을 통해, Cb 성분과 Cr 성분을 더 효율적으로 복원할 수 있는 조인트 크로마 레지듀얼 샘플을 부호화하는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성하는 단계; 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하는 단계; 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하는 단계; 및 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은 신경망을 통해 더 정확하게 Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하고, Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 이용하여 Cb 성분과 Cr 성분을 더 효율적으로 복원할 수 있는 조인트 크로마 레지듀얼 샘플을 부호화하는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은 신경망을 통해 획득된 Cb 성분 및 Cr 성분의 레지듀얼 샘플을 Cb 성분 및 Cr 성분의 예측 샘플에 더하기 전에 스케일 팩터를 이용하여 스케일함으로써 더 정제된 레지듀얼 샘플을 획득하는 효과를 가질 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 스케일 팩터를 나타내는 인덱스로 부호화될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 적절한 스케일 팩터를 나타내는 인덱스로 부호화하여 시그널링함으로써, Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 스케일 팩터 세트가 복수의 스케일 팩터 세트들 중에서 현재 블록이 포함된 슬라이스 또는 현재 블록의 타입 중 적어도 하나에 따라 결정됨으로써, 현재 블록의 타입에 따라 적절한 스케일 팩터 세트가 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 복수의 스케일 팩터 세트들이 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 신경망이 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 학습함으로써, 현재 블록의 샘플 별로 Cb 성분 및 Cr 성분의 레지듀얼 샘플의 값이 보다 정확하게 결정되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 양자화 에러 또는 양자화 스텝 사이즈를 추가로 이용함으로써, 현재 블록의 복원 시에 현재 블록 내의 양자화 에러가 보다 효율적으로 제거되는 효과를 가질 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록을 추가로 이용함으로써, 복원된 루마 블록의 정보를 이용하여 더 효율적으로 현재 블록의 Cb 성분 및 Cr 성분이 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 신경망이 Cb 성분과 Cr 성분 각각의 원본 샘플과 복원 샘플의 차이에 대응하는 손실 정보들을 최소화하도록 훈련됨으로써, 신경망을 통해 획득되는 Cb 성분의 복원 샘플과 Cr 성분의 복원 샘플이 Cb 성분의 원본 샘플과 Cr 성분의 원본 샘플과 거의 동일하게 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, Cb cbf 정보 및 Cr cbf 정보에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 Cb cbf 정보 및 Cr cbf 정보와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb 성분인지 Cr 성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 방법은, 여러 가지 조건에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 현재 블록의 타입, 현재 블록을 포함하는 슬라이스 타입, 슬라이스의 QP 레인지, 또는 현재 블록의 Cb 성분인지 Cr 성분인지 여부와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다. 적어도 하나의 프로세서는 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는 Cb 성분과 Cr 성분의 예측 정보를 이용하여 Cb 성분과 Cr 성분의 고정적인 상관관계 대신에 더 일반화되고 더 국지적이고 더 구체적인 Cb 성분과 Cr 성분의 관계를 훈련한 신경망을 통해, Cb 성분과 Cr 성분을 더 효율적으로 복원할 수 있는 조인트 크로마 레지듀얼 샘플을 부호화하는 효과를 가질 수 있다.
일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정할 수 있다. 적어도 하나의 프로세서는 상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득할 수 있다. 적어도 하나의 프로세서는 상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는 신경망을 통해 더 정확하게 Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하고, Cb 성분과 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 이용하여 Cb 성분과 Cr 성분을 더 효율적으로 복원할 수 있는 조인트 크로마 레지듀얼 샘플을 부호화하는 효과를 가질 수 있다.
일 실시예에 따라, 적어도 하나의 프로세서는 상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는 신경망을 통해 획득된 Cb 성분 및 Cr 성분의 레지듀얼 샘플을 Cb 성분 및 Cr 성분의 예측 샘플에 더하기 전에 스케일 팩터를 이용하여 스케일함으로써 더 정제된 레지듀얼 샘플을 획득하는 효과를 가질 수 있다.
일 실시예에 따라, 상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 스케일 팩터를 나타내는 인덱스로 부호화될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 적절한 스케일 팩터를 나타내는 인덱스로 부호화하여 시그널링함으로써, Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 스케일 팩터 세트가 복수의 스케일 팩터 세트들 중에서 현재 블록이 포함된 슬라이스 또는 현재 블록의 타입 중 적어도 하나에 따라 결정됨으로써, 현재 블록의 타입에 따라 적절한 스케일 팩터 세트가 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 복수의 스케일 팩터 세트들이 이용되어 Cb 성분 및 Cr 성분의 레지듀얼 샘플이 더 효과적으로 정제되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습될 수 있다.
일 실시예에 따라, 상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 신경망이 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 학습함으로써, 현재 블록의 샘플 별로 Cb 성분 및 Cr 성분의 레지듀얼 샘플의 값이 보다 정확하게 결정되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 포함할 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 양자화 에러 또는 양자화 스텝 사이즈를 추가로 이용함으로써, 현재 블록의 복원 시에 현재 블록 내의 양자화 에러가 보다 효율적으로 제거되는 효과를 가질 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록을 추가로 이용함으로써, 복원된 루마 블록의 정보를 이용하여 더 효율적으로 현재 블록의 Cb 성분 및 Cr 성분이 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망은, 훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 신경망이 Cb 성분과 Cr 성분 각각의 원본 샘플과 복원 샘플의 차이에 대응하는 손실 정보들을 최소화하도록 훈련됨으로써, 신경망을 통해 획득되는 Cb 성분의 복원 샘플과 Cr 성분의 복원 샘플이 Cb 성분의 원본 샘플과 Cr 성분의 원본 샘플과 거의 동일하게 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, Cb cbf 정보 및 Cr cbf 정보에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 Cb cbf 정보 및 Cr cbf 정보와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
일 실시예에 따라, 상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb 성분인지 Cr 성분인지 여부 중 적어도 하나에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 AI에 기반한 비디오 부호화 장치는, 여러 가지 조건에 따라 훈련된 신경망의 모델들 중 하나가 적절하게 선택되어 현재 블록의 타입, 현재 블록을 포함하는 슬라이스 타입, 슬라이스의 QP 레인지, 또는 현재 블록의 Cb 성분인지 Cr 성분인지 여부와 같은, 현재 블록의 조건에 기초하여 현재 블록의 Cb 성분 및 Cr 성분이 더 효율적으로 복원되는 효과를 가질 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실 재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims (15)

  1. 비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득(S1110)하는 단계;
    상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정(S1130)하는 단계; 및
    상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원(S1150)하는 단계를 포함하는, AI에 기반한 비디오 복호화 방법.
  2. 제1항에 있어서,
    상기 현재 블록을 복원하는 단계는:
    상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하는 단계; 및
    상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는 단계를 더 포함하는, AI에 기반한 비디오 복호화 방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서,
    상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하는 단계는:
    상기 신경망을 통해 획득된 상기 Cb 성분의 레지듀얼 샘플에 제1 스케일 팩터를 적용하여 상기 Cb 성분의 상기 레지듀얼 샘플을 정제(refine)하고 상기 Cr 성분의 레지듀얼 샘플에 제2 스케일 팩터를 적용하여 상기 Cr 성분의 상기 레지듀얼 샘플을 정제하는 단계를 더 포함하는, AI에 기반한 비디오 복호화 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 스케일 팩터 및 상기 제2 스케일 팩터는 스케일 팩터 세트에 포함된 비트스트림으로부터 획득된 인덱스가 나타내는 스케일 팩터 값에 따라 결정되는, AI에 기반한 비디오 복호화 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 스케일 팩터 세트는 복수의 스케일 팩터 세트들 중에서 상기 현재 블록이 포함된 슬라이스의 타입 및 상기 현재 블록의 타입 중 적어도 하나에 따라 결정되는, AI에 기반한 비디오 복호화 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 복수의 스케일 팩터 세트들은 [1, 1/2, 1/4] 및 [1, 1/2]를 포함하는, AI에 기반한 비디오 복호화 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 신경망은 훈련용 조인트 크로마 레지듀얼 샘플, 훈련용 Cb 성분의 예측 샘플, 및 훈련용 Cr 성분의 예측 샘플을 입력 값으로 하여 훈련용 현재 블록의 샘플 별로 Cb와 Cr의 상관관계를 결정하도록 학습되는 것을 특징으로 하는, AI에 기반한 비디오 복호화 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 Cb와 Cr의 상관관계는 상기 Cb 성분의 레지듀얼 샘플에 대한 가중치 및 상기 Cr 성분의 레지듀얼 샘플에 대한 가중치가 각각 결정되는 것을 특징으로 하는, AI에 기반한 비디오 복호화 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 신경망의 입력 값은 상기 현재 블록의 양자화 스텝 사이즈, 상기 현재 블록의 양자화 에러, 및 상기 현재 블록의 현재 크로마 블록에 대응하는 복원된 루마 블록이 크로마 포맷에 기초하여 다운샘플링된 블록 중 적어도 하나를 더 포함하는, AI에 기반한 비디오 복호화 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 신경망은,
    훈련용 원본 블록의 Cb 성분의 원본 샘플과 상기 신경망을 통해 획득되는 훈련용 복원 블록의 Cb 성분의 복원 샘플의 차이에 대응하는 제1 손실 정보와 훈련용 원본 블록의 Cr 성분의 원본 샘플과 상기 신경망을 통해 획득되는 상기 훈련용 복원 블록의 Cr 성분의 복원 샘플의 차이에 대응하는 제2 손실 정보에 따라 훈련되는, AI에 기반한 비디오 복호화 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 신경망의 모델은 비트스트림으로부터 획득된 Cb 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cb 성분을 포함하는지 여부를 나타내는 Cb cbf 정보 및 Cr 성분에 대한 상기 현재 블록이 변환 계수 레벨이 0이 아닌 Cr 성분을 포함하는지 여부를 나타내는 Cr cbf 정보에 기초하여 결정되는, AI에 기반한 비디오 복호화 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 신경망의 모델은 상기 현재 블록의 타입, 상기 현재 블록이 포함된 슬라이스의 타입, 상기 슬라이스의 QP 레인지(QP range), 및 상기 현재 블록의 Cb 성분인지 Cr 성분인지 여부 중 적어도 하나에 따라 결정되는, AI에 기반한 비디오 복호화 방법.
  13. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션에 따라 동작하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    비트스트림으로부터 현재 블록의 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 획득하고,
    상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정하고,
    상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는, AI에 기반한 비디오 복호화 장치.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서가 상기 현재 블록을 복원하는 것은:
    상기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 상기 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 레지듀얼 샘플 및 상기 현재 블록의 Cr 성분의 레지듀얼 샘플 중 적어도 하나를 획득하고,
    상기 Cb 성분의 레지듀얼 샘플 및 상기 Cr 성분의 레지듀얼 샘플 중 적어도 하나, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 이용하여 상기 Cb 성분의 복원 샘플 및 상기 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록을 복원하는 것인, AI에 기반한 비디오 복호화 장치.
  15. 현재 블록의 초기 조인트 크로마 레지듀얼 샘플, 상기 현재 블록의 Cb 성분 예측 정보, 및 상기 현재 블록의 Cr 성분 예측 정보를 생성(S1410)하는 단계;
    상기 Cb 성분 예측 정보 및 상기 Cr 성분 예측 정보에 기초하여, 상기 현재 블록의 Cb 성분의 예측 샘플 및 상기 현재 블록의 Cr 성분의 예측 샘플을 결정(S1430)하는 단계; 및
    상기 초기 조인트 크로마 레지듀얼 샘플, 상기 Cb 성분의 예측 샘플, 및 상기 Cr 성분의 예측 샘플을 신경망에 적용하여, 상기 현재 블록의 Cb 성분의 복원 샘플 및 상기 현재 블록의 Cr 성분의 복원 샘플을 획득함으로써 상기 현재 블록의 조인트 크로마 레지듀얼 샘플을 부호화(S1450)하는 단계를 포함하는, AI에 기반한 비디오 부호화 방법.
KR1020220097570A 2022-08-04 2022-08-04 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법 KR20240019638A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020220097570A KR20240019638A (ko) 2022-08-04 2022-08-04 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법
PCT/KR2023/011145 WO2024029873A1 (ko) 2022-08-04 2023-07-31 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법
US18/232,209 US20240048711A1 (en) 2022-08-04 2023-08-09 Artificial intelligence based video decoding apparatus and video decoding method and artificial intelligence based video encoding apparatus and video encoding method which perform chroma component prediction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220097570A KR20240019638A (ko) 2022-08-04 2022-08-04 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20240019638A true KR20240019638A (ko) 2024-02-14

Family

ID=89849356

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220097570A KR20240019638A (ko) 2022-08-04 2022-08-04 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20240019638A (ko)
WO (1) WO2024029873A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding
WO2019009448A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화 또는 복호화하는 방법 및 장치
US11375200B2 (en) * 2019-12-24 2022-06-28 Tencent America LLC Video coding method and device for controlling color component processing
US11825101B2 (en) * 2020-10-05 2023-11-21 Qualcomm Incorporated Joint-component neural network based filtering during video coding
KR20230034427A (ko) * 2020-12-17 2023-03-09 닛폰 호소 교카이 복호 장치, 프로그램, 및 복호 방법

Also Published As

Publication number Publication date
WO2024029873A1 (ko) 2024-02-08

Similar Documents

Publication Publication Date Title
US11589041B2 (en) Method and apparatus of neural network based processing in video coding
KR102640235B1 (ko) 3차원 데이터 부호화 방법 및 장치 및 3차원 데이터 복호화 방법 및 장치
JP2011124846A (ja) 画像符号化装置
CN107113426B (zh) 使用广义图形参数执行基于图形的变换的方法和设备
KR20240019638A (ko) 크로마 성분 예측을 수행하는 ai에 기반한 비디오 복호화 장치 및 방법, 및 비디오 부호화 장치 및 방법
US20220272352A1 (en) Image encoding and decoding apparatus and method using artificial intelligence
US20240048711A1 (en) Artificial intelligence based video decoding apparatus and video decoding method and artificial intelligence based video encoding apparatus and video encoding method which perform chroma component prediction
JP2018107692A (ja) 動画像復号装置、動画像復号方法、動画像符号化装置、動画像符号化方法及びコンピュータ可読記録媒体
US20230044603A1 (en) Apparatus and method for applying artificial intelligence-based filtering to image
KR20230022093A (ko) 영상에 대한 ai 기반 필터링을 위한 장치 및 방법
US20240129546A1 (en) Artificial intelligence-based image encoding and decoding apparatus, and image encoding and decoding method thereby
US11863783B2 (en) Artificial intelligence-based image encoding and decoding apparatus and method
KR20240050971A (ko) Ai에 기반한 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
US20230041187A1 (en) Artificial intelligence-based image encoding apparatus and method and decoding apparatus and method
US20230247212A1 (en) Device and method for encoding and decoding image using ai
US20240073425A1 (en) Image encoding apparatus and image decoding apparatus both based on artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus
US20230145525A1 (en) Image encoding apparatus and image decoding apparatus both using artificial intelligence, and image encoding method and image decoding method performed by the image encoding apparatus and the image decoding apparatus
KR20230022085A (ko) Ai 기반의 영상의 부호화 및 복호화 장치, 및 이에 의한 방법
EP4354874A1 (en) Image processing method and device using neural network-based deblocking filtering
KR20220120432A (ko) Ai를 이용하는 영상의 부호화 및 복호화 장치 및 이에 의한 영상의 부호화 및 복호화 방법
KR20230065888A (ko) Ai 기반 필터링을 위한 영상 처리 방법 및 장치
KR20230067492A (ko) Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
KR20240027510A (ko) Ai에 기반한 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
KR20240025428A (ko) 적응적 양자화 및 역양자화를 위한 영상 복호화 장치, 영상 부호화 장치 및 이에 의한 방법
CN116888961A (zh) 使用ai的用于图像编码和解码的设备及其用于图像编码和解码的方法