KR20230025879A - 신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응 - Google Patents

신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응 Download PDF

Info

Publication number
KR20230025879A
KR20230025879A KR1020237001784A KR20237001784A KR20230025879A KR 20230025879 A KR20230025879 A KR 20230025879A KR 1020237001784 A KR1020237001784 A KR 1020237001784A KR 20237001784 A KR20237001784 A KR 20237001784A KR 20230025879 A KR20230025879 A KR 20230025879A
Authority
KR
South Korea
Prior art keywords
transform
neural network
index
intra prediction
information
Prior art date
Application number
KR1020237001784A
Other languages
English (en)
Inventor
티에리 두마스
프랑크 갈핀
필리프 보르드
파브리스 러 레아넥
Original Assignee
인터디지털 브이씨 홀딩스 프랑스 에스에이에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터디지털 브이씨 홀딩스 프랑스 에스에이에스 filed Critical 인터디지털 브이씨 홀딩스 프랑스 에스에이에스
Publication of KR20230025879A publication Critical patent/KR20230025879A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Discrete Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

비디오를 효율적으로 인코딩 또는 디코딩하기 위한 적어도 방법 및 장치가 제시된다. 예를 들어, 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측이 결정되고, 이미지 블록을 디코딩하기 위해 적용할 변환 방법에 대한 정보가 또한 결정된다. 변환 방법은 인코딩 또는 디코딩하기 위해 블록의 신경 네트워크 인트라 예측 모드에 적응된다. 변환 방법에 대한 정보는 인코딩에서 이미지 블록의 인트라 예측에 사용되는 적어도 하나의 신경 네트워크으로부터 추론되고, 디코딩에서 시그널링되거나 또한 추론된다.

Description

신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응
본 실시예들 중 적어도 하나는 대체적으로 비디오 인코딩 또는 디코딩을 위한 방법 또는 장치에 관한 것으로, 더 상세하게는, 이미지 블록이 신경 네트워크 기반 인트라 예측 모드에 의해 예측될 때, 이러한 블록의 잔차에 적용될 적어도 일정 변환을 나타내는 새로운 정보를 특징으로 하는 방법 또는 장치에 관한 것이다.
높은 압축 효율을 달성하기 위해, 이미지 및 비디오 코딩 스킴들은 대개, 모션 벡터 예측을 포함한 예측을 채용하고, 비디오 콘텐츠에서 공간적 및 시간적 중복성(redundancy)을 레버리징(leveraging)하도록 변환한다. 대체적으로, 인트라 또는 인터 예측은 인트라 또는 인터 프레임 상관관계들을 이용하는 데 사용되고, 이어서, 종종 예측 에러 또는 예측 잔차로 표기되는, 오리지널 이미지 블록과 그의 예측 사이의 차이가 변환되고, 양자화되고, 엔트로피 코딩된다. 비디오를 재구성하기 위해, 압축 데이터는 엔트로피 코딩, 양자화, 변환, 및 예측에 대응하는 역 프로세스들에 의해 디코딩된다.
비디오 압축 기술에 대한 최근의 추가들은 다양한 산업 표준들, 기준 소프트웨어의 버전들 및/또는 합동 비디오 탐사 팀(Joint Video Exploration Team, JVET) 그룹에 의해 개발되고 있는 합동 탐사 모델(Joint Exploration Model, JEM) 및 향후 범용 비디오 코딩 테스트 모델(Versatile Video Coding(VVC) Test Model, VTM)과 같은 문헌들을 포함한다. 목적은 기존 고효율 비디오 코딩(High Efficiency Video Coding, HEVC) 표준에 대한 추가 개선들을 만드는 것이다.
코딩 및 디코딩을 위한 기존의 방법들은, 예를 들어, 이미지 블록이 신경 네트워크 기반 인트라 예측 모드에 의해 예측될 때, 이러한 블록의 잔차에 적용하기 위한 하나 이상의 변환(들)의 선택에 있어서의 일부 제한들을 보여준다. 따라서, 최신 기술을 개선할 필요가 있다.
종래 기술의 결점들 및 단점들은 본 명세서에 기술된 일반적인 태양들에 의해 해결되고 다루어진다.
제1 태양에 따르면, 방법이 제공된다. 본 방법은, 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측을 결정하는 단계; 이미지 블록을 디코딩하기 위해 적용할 변환 방법에 대한 정보를 획득하는 단계 - 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -; 변환 방법에 대한 정보에 따라 변환 계수들의 블록에 적어도 하나의 역변환을 적용함으로써 이미지 블록의 잔차의 블록을 획득하는 단계; 및 인트라 예측 및 잔차의 블록에 기초하여 이미지 블록을 디코딩하는 단계에 의한 비디오 디코딩을 포함한다.
다른 태양에 따르면, 제2 방법이 제공된다. 본 방법은, 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측을 결정하는 단계; 이미지 블록을 인코딩하기 위해 적용할 변환 방법에 대한 정보를 획득하는 단계 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -; 이미지 블록 및 상기 인트라 예측으로부터 잔차의 블록을 획득하는 단계; 변환 방법에 대한 정보에 따라 잔차의 블록에 적어도 하나의 변환을 적용함으로써 변환 계수들의 블록을 획득하는 단계; 및 변환 계수들의 블록을 인코딩하는 단계에 의한 비디오 인코딩을 포함한다.
다른 태양에 따르면, 장치가 제공된다. 본 장치는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은 그의 변형예들 중 임의의 것에 따른 비디오 디코딩을 위한 방법을 구현하도록 구성된다. 다른 태양에 따르면, 비디오 디코딩을 위한 장치는, 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측을 결정하기 위한 수단; 이미지 블록을 디코딩하기 위해 적용할 변환 방법에 대한 정보를 획득하기 위한 수단 - 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -; 변환 방법에 대한 정보에 따라 변환 계수들의 블록에 적어도 하나의 역변환을 적용함으로써 이미지 블록의 잔차의 블록을 획득하기 위한 수단; 및 인트라 예측 및 잔차의 블록에 기초하여 이미지 블록을 디코딩하기 위한 수단을 포함한다.
다른 태양에 따르면, 다른 장치가 제공된다. 본 장치는 하나 이상의 프로세서들을 포함하고, 하나 이상의 프로세서들은 그의 변형예들 중 임의의 것에 따른 비디오 인코딩을 위한 방법을 구현하도록 구성된다. 다른 태양에 따르면, 비디오 인코딩을 위한 장치는, 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측을 결정하기 위한 수단; 이미지 블록을 인코딩하기 위해 적용할 변환 방법에 대한 정보를 획득하기 위한 수단 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -; 이미지 블록 및 상기 인트라 예측으로부터 잔차의 블록을 획득하기 위한 수단; 변환 방법에 대한 정보에 따라 잔차의 블록에 적어도 하나의 변환을 적용함으로써 변환 계수들의 블록을 획득하기 위한 수단; 및 변환 계수들의 블록을 인코딩하기 위한 수단을 포함한다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 정보는 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 상기 이미지 블록의 인트라 예측에 사용되는 적어도 하나의 신경 네트워크에 의해 추론된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 변환 방법에 대한 정보는 비트스트림에서 디코딩/인코딩된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 정보는 신경 네트워크 인트라 예측 모드와 복수의 변환들의 그룹들 중 일정 변환들의 그룹 사이의 맵핑을 나타내는 변환 그룹 인덱스(trGrpIdx)를 포함한다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 정보는 신경 네트워크 인트라 예측 모드와 복수의 변환들 중 일정 변환 사이의 맵핑을 나타내는 변환 인덱스(trIdx)를 포함한다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 정보는 신경 네트워크 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑을 나타내는 변환 매크로 그룹 인덱스(trMacroGrpIdx)를 포함한다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 이미지 블록을 인코딩하기 위해(또는 이미지 블록을 디코딩하기 위해) 적용할 변환 방법에 대한 정보를 추론하는 하나의 신경 네트워크는, 변환 그룹 인덱스(trGrpIdx), 변환 인덱스(trIdx), 변환 매크로 그룹 인덱스(trMacroGrpIdx) 중 적어도 하나가 결정되는 스칼라, 벡터, 텐서(tensor) 중 임의의 것인 하나 이상의 출력 데이터를 추가로 포함한다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 변환 방법의 복수의 변환들 중 적어도 하나의 변환이 학습되고, 학습된 변환들의 파라미터들
Figure pct00001
이 비트스트림에서 시그널링된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 이미지 블록을 인코딩하기 위해(또는 이미지 블록을 디코딩하기 위해) 적용할 변환 방법에 대한 정보를 추론하는 적어도 하나의 신경 네트워크가 학습되고, 적용할 변환 방법에 대한 정보를 추론하는 적어도 하나의 신경 네트워크의 파라미터들이 비트스트림에서 시그널링된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 이미지 블록을 인코딩하기 위해(또는 이미지 블록을 디코딩하기 위해) 적용할 변환 방법에 대한 정보의 예측이 결정되고, 적용할 변환 방법에 대한 정보는 그 예측에 기초하여 예측적으로 인코딩/디코딩된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 주어진 이미지 블록의 인코딩 파라미터들의 반복적 테스트를 위해, 신경 네트워크 기반 인트라 예측 모드에 의해 결정된 이미지 블록의 인트라 예측은 처음 계산될 때 메모리에 저장되고, 이미지 블록의 인트라 예측이 각각의 후속 테스트 동안 로딩된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 이미지 블록을 인코딩하기 위해(또는 이미지 블록을 디코딩하기 위해) 적용할 변환 방법에 대한 정보를 추론하는 적어도 하나의 신경 네트워크는 별개의 루미넌스 및 크로미넌스 트리를 갖는 코딩에 적응된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 주어진 이미지 블록의 인코딩 파라미터들의 반복적 테스트를 위해, 신경 네트워크 인트라 예측의 잔차의 블록에 대한 1차 변환의 적용에서 비롯되는 1차 변환 계수들의 블록은 처음 계산될 때 메모리에 저장되고, 1차 변환 계수들의 이러한 블록은 그것을 요구하는 각각의 후속 테스트 동안 로딩된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 디코딩 실시예들 중 임의의 것에 따른 장치; 및 (i) 신호를 수신하도록 구성된 안테나 - 신호는 비디오 블록을 포함함 -, (ii) 수신된 신호를 비디오 블록을 포함하는 주파수들의 대역으로 제한하도록 구성된 대역 제한기, 또는 (iii) 비디오 블록을 나타내는 출력을 디스플레이하도록 구성된 디스플레이 중 적어도 하나를 포함하는 디바이스가 제공된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 기술된 인코딩 실시예들 또는 변형예들 중 임의의 것에 따라 생성된 데이터 콘텐츠를 포함하는 비일시적 컴퓨터 판독가능 매체가 제공된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 기술된 인코딩 실시예들 또는 변형예들 중 임의의 것에 따라 생성된 비디오 데이터를 포함하는 신호가 제공된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 기술된 인코딩 실시예들 또는 변형예들 중 임의의 것에 따라 생성된 데이터 콘텐츠를 포함하도록 비트스트림이 포맷화된다.
적어도 하나의 실시예의 다른 일반적인 태양에 따르면, 프로그램이 컴퓨터에 의해 실행될 때, 컴퓨터로 하여금, 기술된 인코딩/디코딩 실시예들 또는 변형예들 중 임의의 것을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램 제품이 제공된다.
일반적인 태양들의 이들 및 다른 태양들, 특징들 및 이점들은 첨부된 도면들과 관련하여 읽혀질 예시적인 실시예들의 다음의 상세한 설명으로부터 명백해질 것이다.
도면들에서, 여러 실시예들의 예들이 예시되어 있다.
도 1은 VVC 비디오 디코더의 일 실시예의 부분 블록도를 예시한다.
도 2는 루미넌스 CB가 인트라에서 예측될 때 명시적 다중 변환 선택(Multiple Transform Selection, MTS)과 암시적 MTS 사이의 변환 방법을 결정하기 위한 프로세스의 일례를 도시한다.
도 3은 루미넌스 CB의 경우에 mtsIdx의 시그널링을 나타내는 결정 트리의 일례를 도시한다.
도 4는 인트라에서 예측된 CB의 경우에 0에 대한 lfnstIdx를 추론하기 위한 조건부 프로세스의 일례를 도시한다.
도 5는 인트라에서 예측된 CB의 경우에 lfnstIdx의 시그널링을 나타내는 결정 트리의 일례를 도시한다.
도 6은 현재 블록을 둘러싸는 콘텍스트의 일례를 도시한다.
도 7 및 도 8은 신경 네트워크들을 사용한 인트라 예측 프로세스의 예들을 도시한다.
도 9는 루미넌스 CB에 대한 인트라 예측 시그널링을 나타내는 결정 트리의 일례를 도시한다.
도 10a는 적어도 하나의 실시예의 일반적인 태양에 따른 일반적인 인코딩 방법을 예시한다.
도 10b는 적어도 하나의 실시예의 일반적인 태양에 따른 일반적인 디코딩 방법을 예시한다.
도 11은 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환들의 그룹 사이의 맵핑이 비트스트림에서 시그널링된 변환 그룹 인덱스(trGrpIdx)에 의해 표현되는 동안, 정규 인트라 예측 모드들과 변환들의 그룹들 사이의 일반적인 맵핑의 일례를 예시한다.
도 12는 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환들의 그룹 사이의 일반적인 맵핑을 나타내는 정보의 시그널링 방법을 예시한다.
도 13은 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환 사이의 맵핑이 비트스트림에서 시그널링된 변환 인덱스(trIdx)에 의해 표현되는 동안, 정규 인트라 예측 모드들과 변환들 사이의 일반적인 맵핑의 다른 예를 예시한다.
도 14는 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환 사이의 일반적인 맵핑을 나타내는 정보의 다른 시그널링 방법을 예시한다.
도 15는 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑이 비트스트림에서 시그널링된 변환 매크로 그룹 인덱스(trMacroGrpIdx)에 의해 표현되는 동안, 정규 인트라 예측 모드들과 변환들의 계층적 그룹들 사이의 일반적인 맵핑의 다른 예를 예시한다.
도 16은 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환들의 계층적 그룹 사이의 일반적인 맵핑을 나타내는 정보의 다른 시그널링 방법을 예시한다.
도 17, 도 19, 도 21, 도 23, 도 25, 도 27, 도 29, 도 31은 적어도 하나의 실시예에 따른, 비디오 인코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법의 상이한 변형예들을 예시한다.
도 18, 도 20, 도 22, 도 24, 도 26, 도 28, 도 30, 도 32, 도 33은 적어도 하나의 실시예에 따른, 비디오 디코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법의 상이한 변형예들을 예시한다.
도 34, 도 37, 도 40, 도 42, 도 44, 도 46은 적어도 하나의 실시예에 따른, 비디오 인코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법의 상이한 변형예들을 예시하고, 여기서 정보는 변환 그룹 인덱스들의 예측 및/또는 변환 인덱스들의 예측이다.
도 35, 도 39, 도 41, 도 43, 도 45, 도 47은 적어도 하나의 실시예에 따른, 비디오 디코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법의 상이한 변형예들을 예시하고, 여기서 정보는 변환 그룹 인덱스들의 예측 및/또는 변환 인덱스들의 예측이다.
도 36은 적어도 하나의 실시예에 따른, predTrGrpIdx와 관련되는 trGrpIdx의 예측 인코딩을 나타내는 결정 트리의 일례를 도시한다.
도 38은 적어도 하나의 실시예에 따른, predTrGrpIdx와 관련되는 trGrpIdx의 예측 디코딩을 나타내는 결정 트리의 일례를 도시한다.
도 48은 실시예들의 다양한 태양들이 구현될 수 있는 비디오 인코더의 일 실시예의 블록도를 예시한다.
도 49는 실시예들의 다양한 태양들이 구현될 수 있는 비디오 디코더의 일 실시예의 블록도를 예시한다.
도 50은 실시예들의 다양한 태양들이 구현될 수 있는 예시적인 장치의 블록도를 예시한다.
블록 기반 비디오 코덱에서, 이미지에 존재하는 공간적 중복성을 활용하기 위해 인트라 예측이 채용된다. 인트라에서 예측된 주어진 이미지 블록에 대해, 오리지널 블록과 그의 인트라 예측 사이의 차이에 대응하는, 잔차 블록으로 알려진 바와 같은 잔차는 변환되고 양자화되며, 양자화된 변환된 계수들은 비트스트림으로 엔트로피 코딩된다. 상이한 코딩 모드들에 따르면, 하나 이상의 변환(들)이 잔차 블록에 적용되고, 하나 이상의 변환(들)은 비트스트림에서 명시적으로 시그널링되거나 또는 인트라 예측 모드 중에서 이용가능한 정보에 기초하여 도출된다. 본 원리들은 주어진 블록을 예측하는 인트라 예측 모드를 결정한 후에 하나 이상의 변환(들)을 시그널링/도출하는 것에 관한 것이다. "변환(들)"이라는 용어는 1차 변환(들)을 그리고, 선택적으로는 2차 변환(들), 3차 변환(들)을 지칭한다. 예를 들어, VVC에서, 변환 프로세스는 다중 변환 선택(MTS)을 통해 선택된 1차 변환, 및 선택적으로, 저주파수 비-분리가능 변환(Low Frequency Non-Separable Transform, LFNST)으로 불리는 2차 변환으로 구성된다.
비디오 코덱의 최근 개발들은 또한, 이미지 블록을 둘러싸는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이러한 현재 이미지 블록의 인트라 예측을 추론하는 심층 인트라 예측을 소개한다. 과제들 중 하나는, 이미지 블록이 신경 네트워크 기반 인트라 예측 모드에 의해 예측될 때 이러한 블록의 잔차에 적용할 하나 이상의 변환(들)을 다루는 것이다.
이것은 본 명세서에 기술된 일반적인 태양들에 의해 해결되고 처리되는데, 이는, 적어도 하나의 신경 네트워크를 사용하는 그리고 이미지 블록의 잔차에 적용할 적어도 일정 변환에 대한 정보를 획득하는 현재 이미지 블록의 인트라 예측에 관한 것이고, 여기서 정보는 비트스트림에서 시그널링되고/되거나 현재 블록의 신경 네트워크 인트라 예측과 함께 신경 네트워크에 의해 추론된다.
유리하게는, 적용할 변환에 대한 정보는, 심층 인트라 예측 모드와 인코더 및/또는 디코더에서의 변환 스킴 사이에 고정된 미리정의된 맵핑을 갖지 않고서, 변환 프로세스를 임의의 심층 인트라 예측 모드에 적응시킬 수 있게 한다. 적응의 다양한 실시예들은 VVC 표준에 따른 변환 인덱스들의 시그널링, 변환들의 계층적 그룹들의 시그널링, 또는 변환의 시그널링 파라미터들 또는 심지어 변환 스킴의 완전한 구성가능성을 허용하는 심층 인트라 예측 모드에 대한 변환들을 추론하는 신경 네트워크의 시그널링 파라미터들로부터 설명된다.
심층 인트라 예측 모드를 통해 예측된 이미지 블록의 경우에서, 예측의 잔차에 적용될 변환들의 인덱스들이 심층 인트라 예측 모드와 변환 스킴 사이의 고정된 미리정의된 맵핑을 사용하는 대신 비트스트림에서 시그널링될 때, 인코더는 이들 변환 인덱스들을 찾기 위해 추가 테스트들을 실행해야 한다. 이들 추가 테스트들 각각이 신경 네트워크 예측을 재계산하는 것을 의미하는 경우, 신경 네트워크 추론은 많은 산술 연산들을 요구하기 때문에 인코더의 실행 시간이 폭발적으로 증가한다. 유사하게, 이들 추가 테스트들 각각이 신경 네트워크 예측의 잔차에 주어진 1차 변환을 적용하는 것에서 비롯되는 동일한 1차 변환 계수들을 재계산하는 것을 의미하는 경우, 인코더의 실행 시간은 현저하게 증가한다. 그렇기 때문에, 인코더 측에서, 주어진 이미지 블록에 대해, 심층 인트라 예측 모드에 대해서만, 예측된 블록이 처음 계산된 후에 저장된다. 이어서, 그것은 각각의 후속 테스트 동안 로딩된다. 유사하게, 신경 네트워크 예측의 잔차에 주어진 1차 변환을 적용하는 것에서 비롯되는 1차 변환 계수들이, 처음 계산된 후에 저장된다. 이어서, 필요한 경우, 그것은 각각의 후속 테스트 동안 로딩된다.
도 1은 인트라 예측 블록의 경우에 블록들이 사후 필터에 대한 역양자화로부터 표현되는 VVC 비디오 디코더의 일 실시예의 부분 블록도를 예시한다. VVC에서, 인트라 예측 블록은 인트라 예측과 잔차 샘플 블록의 합으로서 계산된다. 잔차 샘플들이 변환되고, 이어서 변환 계수들이 양자화된다. 변환 프로세스는 다중 변환 선택(MTS)을 통해 선택된 1차 변환, 및 선택적으로, 저주파수 비-분리가능 변환(LFNST)으로 불리는 2차 변환으로 구성된다. 도 1에서, 1차 변환은 선택적이기 때문에 파선 프레임에 의해 예시된다는 것에 유의한다. 실제로, VVC는 변환 단계를 스킵할 것을 허용한다. 그러한 경우에, tsFlag로 표기된 변환 스킵 플래그는 비트스트림에서 코딩된다.
Figure pct00002
은, 변환들이 스킵된다는 것을 나타낸다. 이제부터, 변환들을 스킵할 가능성이 무시될 것인데, 즉,
Figure pct00003
이다.
적어도 일부 실시예들이 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 블록에 대한 변환(들)의 시그널링에 관한 것이기 때문에, MTS 및 LFNST의 시그널링이 먼저 기술되고, 이어서 신경 네트워크 기반 인트라 예측이 소개된다.
VVC에서의 변환들의 시그널링
VVC에서의 1차 변환은 분리가능하다. 이것은, 주어진 변환 블록(TB)의 1차 변환 계수들이 수평 변환에 뒤이은 수직 변환이 이러한 TB와 "예측의 잔차"라고 불리는 그의 예측 사이의 차이에 적용되는 것으로부터 생긴다는 것을 의미한다. 루미넌스 TB의 경우, 수평 변환 및 수직 변환의 가능한 쌍들은
Figure pct00004
(DCT2, DCT2)
Figure pct00005
(DST7, DST7)
Figure pct00006
(DST7, DCT8)
Figure pct00007
(DCT8, DST7)
Figure pct00008
(DCT8, DCT8)
인 반면에, 크로미넌스 TB의 경우, 쌍(DCT2, DCT2)이 체계적으로 사용된다. DCT 및 DST는 각각 이산 코사인 변환 및 이산 사인 변환을 의미한다.
루미넌스 코딩 블록(CB)의 경우에, MTS는 명시적일 수 있거나(즉, 플래그들은 그의 루미넌스 TB들에 의해 사용된 변환들의 쌍을 시그널링하기 위해 비트스트림에 기록됨), 또는 암시적일 수 있다(즉, 변환들의 쌍은 이용가능한 정보로부터 추론됨). 도 2는 루미넌스 CB가 인트라에서 예측될 때 명시적 MTS와 암시적 MTS 사이의 선택을 예시한다. 도 2에서 그리고 하기에서, 시퀀스 파라미터 세트(Sequence Parameter Set, SPS)에서, sps_mts_enabled_flag = 1sps_explicit_mts_intra_enabled_flag = 1이고, 이는 표준 구성에 대응한다고 가정한다. 도 2에서, lfnstIdx
Figure pct00009
는 인덱스 시그널링 LFNST를 나타내고, ispMode
Figure pct00010
는 인트라 서브-파티션(Intra Sub-Partition, ISP)을 시그널링하고,
Figure pct00011
은, 루미넌스 CB가 루미넌스 TB로 분할되지 않는다는 것을 의미한다. 도 2에서, 좌측의 조건 내에서, 양자화된 변환 계수들의 코딩에 링크된 추가적인 제한들은 간결성을 위해 생략된다는 것에 유의한다.
명시적 MTS를 이용한 루미넌스 CB의 경우, trTypeHorizontaltrTypeVertical 으로 각각 표기된 그의 루미넌스 TB들에 의해 사용되는 수평 변환 및 수직 변환은 표 1에 보여지는 바와 같이 mtsIdx
Figure pct00012
에 의해 특정된다.
Figure pct00013
도 3은 루미넌스 CB의 경우에 mtsIdx의 시그널링을 나타내는 결정 트리의 일례를 도시한다. 도 3에서, 결정 트리의 각각의 노드에서, 인덱스 값은 괄호들 사이에 그리고 회색으로 기록된다. 빈(bin) 값은 굵은 회색으로 기록된다.
암시적 MTS를 이용하여 인트라에서 예측된 루미넌스 CB의 경우, trTypeHorizontaltrTypeVertical 은 도 2의 우측에 의해 도시된 바와 같이 이용가능한 정보로부터 추론된다.
LFNST는 인트라에서 예측된 주어진 TB의 1차 변환 계수들에 적용되는 비-분리가능 2차 변환이다. 크기들
Figure pct00014
Figure pct00015
의 TB들의 경우, 8개의 상이한
Figure pct00016
LFNST 행렬들이 존재하고,
Figure pct00017
이다.
다른 TB 크기들의 경우, 8개의 상이한
Figure pct00018
LFNST 행렬들이 존재한다. 각각의 경우에, 8개의 가능한 LFNST 행렬들은 2개의 LFNST 행렬들의 4개의 세트로 그룹화된다.
주어진 CB에 대해, lfnstIdx
Figure pct00019
는, 일정 세트에서,2개의 LFNST 행렬들 중 어느 것이 그의 TB들 각각의 1차 변환 계수들에 적용되는지를 시그널링한다.
Figure pct00020
은, LFNST가 사용되지 않음을 의미한다. lfnstIdx
Figure pct00021
는 이러한 세트의 제1 및 제2 LFNST 행렬들을 각각 지칭한다. lfnstIdx의 시그널링은 도 4에 그리고 도 5에 도시된다. 도 4에서, mipFlag
Figure pct00022
는, 행렬 인트라 예측(Matrix Intra Prediction, MIP) 모드가 CB를 예측하는지 여부를 나타내고,
Figure pct00023
은, CB가 MIP 모드에 의해 예측되지 않는다는 것을 의미한다.heigthCbwidthCb는 각각 CB의 높이 및 폭을 나타낸다.isSepTree는, 2개의 별개의 파티셔닝 트리들이 루미넌스 및 크로미넌스에 대해 사용되는 경우 참이다.heightLumaCbwidthLumaCb는 각각 채널 서브샘플링 인자를 통해 스케일링된 CB의 높이 및 폭을 나타낸다. 예를 들어, 현재
Figure pct00024
프레임이 4:2:0에서 인코딩되고 크로미넌스 CB가 도 4에서 고려되는 경우, heightLumaCb는 이러한 크로미넌스 CB의 높이에 2를 곱한 것과 동일하다. widthLumaCb는 이러한 크로미넌스 CB의 폭에 2를 곱한 것과 동일하다. 도 4에서, 조건 내에서, 양자화된 변환 계수들의 코딩에 링크된 추가적인 제한들이 생략되는데, 그 이유는 그들이 본 원리들에 관심이 거의 없고 판독성을 손상시키기 때문이라는 것에 유의한다.
이제, lfnstIdx
Figure pct00025
를 갖는 인트라에서 예측된 주어진 CB에 대해, 4개의 가능한 세트들 중에서 선택될 2개의 LFNST 행렬들의 세트가 여전히 결정되어야 한다. 표 2에 보여지는 바와 같이, 그것은 이러한 CB를 예측하기 위해 선택된 인트라 예측 모드의 인덱스로부터 추론된다. 더욱이, 이러한 CB에서 각각의 TB의 1차 변환 계수들을 전치시키는 결정이 또한, 이러한 CB를 예측하기 위해 선택된 인트라 예측 모드의 인덱스로부터 추론되는데, 이는 또한 표 2에 보여지는 바와 같다.
Figure pct00026
MIP 모드를 통해 예측된 루미넌스 CB의 경우, 즉, mipFlag = 1인 경우, 그의 높이 및 폭이
Figure pct00027
보다 더 크면, 도 4에 도시된 바와 같이 lfnstIdx
Figure pct00028
에 속할 수 있다. lfnstIdx
Figure pct00029
인 경우, 인덱스 0의 2개의 LFNST 행렬들의 세트가 선택되고, 이러한 루미넌스 CB의 TB의 1차 변환 계수들은 전치되지 않는다.
크로스 컴포넌트 선형 모델(Cross-Component Linear Model, CCLM) 모드를 통해 예측된 크로미넌스 CB의 경우, lfnstIdx
Figure pct00030
이면, 이러한 크로미넌스 CB에 대한 LFNST는 다음과 같이 정의된다. 이러한 크로미넌스 CB와 함께 병치된 루미넌스 CB가 MIP 모드에 의해 예측되는 경우, 2개의 LFNST 행렬들의 세트의 인덱스 및 이러한 크로미넌스 CB의 TB의 1차 변환 계수들의 전치의 결정은 표 2를 사용하여 광각 인트라 모드 인덱스0으로부터 추론된다.그렇지 않은 경우, 2개의 LFNST 행렬들의 세트의 인덱스 및 이러한 크로미넌스 CB의 TB의 1차 변환 계수들의 전치의 결정은 표 2를 사용하여 이러한 병치된 루미넌스 CB를 예측하도록 선택된 광각 인트라 모드로부터 추론된다.
VVC 기준 소프트웨어(VTM)의 인코더에서의 인트라 검색의 가속
VTM의 최신 버전에서, 주어진 이미지 블록에 대해, 이러한 블록을 예측하는 데 사용되는 인트라 예측 모드 및 예측의 잔차에 적용될 변환(들)에 대한 검색은 이러한 예측된 블록을 여러 번 재계산하는 대신 주어진 예측된 블록을 저장 및 로딩함으로써 가속된다. 이것을 예시하기 위해, 주어진 이미지 블록에 대해, 인덱스 intraModeIdx
Figure pct00031
의 인트라 예측 모드를 취하고, VTM의 인트라 검색 동안 상이한 풀 레이트 왜곡 테스트들에 걸쳐 예측된 블록이 계산/저장/로딩될 때를 분석하자. 여기서, "풀 레이트 왜곡(full rate-distortion)" 테스트는, 인덱스 intraModeIdx의 모드를 통해 예측된 이미지 블록의 완전한 인코딩의 레이트 왜곡 비용의 계산을 의미한다. 표 3에서, "테스트 0" 동안, 인덱스 intraModeIdx의 모드에 의해 주어진 예측된 블록이 저장된다. 이어서, "테스트 1"로 불리는 변환 스킵(Transform Skip, TS)의 테스트 동안, 이러한 예측된 블록이 로딩된다. 그러나, 이러한 로딩 및 저장과는 별도로, 동일한 예측된 블록은 "테스트 2" 내지 "테스트 7"에서 재계산된다. 이러한 변형 인코더에서, 주어진 이미지 블록에 대해, 각각의 인트라 예측 모드에 의해 주어진 예측된 블록은 한 번 저장되지 않고, 이어서 필요할 때 로딩되는데, 그 이유는 이것이 적어도 n개의 예측된 블록들을 저장할 것을 요구하여, 많은 메모리 비용을 발생시키기 때문이라고 가정한다. n은 풀 레이트 왜곡 테스트들에 수반된 인트라 예측 모드들의 수를 나타낸다. 표 3에서, "테스트 0" 내지 "테스트 7"의 일련의 테스트들을 조기에 중단할 수 있는 모든 휴리스틱(heuristic)들은 명확성을 위해 무시된다는 점에 유의한다. 또한, 표 3에서, "테스트 0" 동안, 예측의 잔차에 DCT2를 수평으로 그리고 DCT2를 수직으로 적용하는 것에서 비롯되는 1차 변환 계수들이 저장되고 로딩되는데, 그 이유는 그들이 먼저, "테스트 1"이 스킵될지 여부를 결정하기 위해 TS의 SAD와 DCT2-DCT2의 절대값들의 합(Sum of Absolute Difference, SAD)을 비교하는 휴리스틱에 의해 사용되고, 이어서 "테스트 0"의 풀 레이트 왜곡 비용을 계산하는 데 사용되기 때문이라는 점에 유의한다.
Figure pct00032
신경 네트워크 기반 인트라 예측
인트라 예측을 위한 신경 네트워크는 현재 블록을 둘러싸는 콘텍스트로부터 이러한 현재 블록의 예측을 추론한다. 도 6은 크기
Figure pct00033
의 현재 블록 Y를 둘러싸는 콘텍스트 X의 일례를 도시한다. 콘텍스트 X는, VVC에서 인트라 예측을 위해 디코딩된 기준 샘플들의 세트와 유사하게, 현재 블록 Y 위에 그리고 그의 좌측에 위치된 디코딩된 픽셀들로 구성된다. 그러나, 그것과는 달리, 콘텍스트 X는 좌측 및 상단을 향해 확장될 수 있다. 따라서, 도 7에 도시된 바와 같이, 콘텍스트 X는 Y의 좌측에 위치된
Figure pct00034
개의 디코딩된 픽셀들의
Figure pct00035
개의 라인들 및 Y 위에 위치된
Figure pct00036
개의 디코딩된 픽셀들의
Figure pct00037
개의 라인들을 포함한다.
도 7은 신경 네트워크들을 사용하는 인트라 예측 프로세스의 일례를 도시한다. 도 7에 도시된 바와 같이, 신경 네트워크가 완전 접속되는 경우, 콘텍스트는 전형적으로, 평탄화 프로세스(flattening process)에 의해 벡터로 재배열되고, 생성된 벡터는 신경 네트워크에 공급된다. 이어서, 신경 네트워크에 의해 제공되는 벡터는 현재 블록의 형상으로 재형상화되어, 예측
Figure pct00038
를 산출한다.
도 8은 신경 네트워크들을 사용하는 인트라 예측 프로세스의 다른 예를 도시한다. 도 8에 도시된 바와 같이, 신경 네트워크가 컨볼루션형인 경우, 콘텍스트는 2개의 부분들로 분할될 수 있다. 이어서, 각각의 부분이 컨볼루션 층들의 스택에 공급된다. 컨볼루션 층들의 2개의 스택들의 출력에서의 특징부 맵들의 2개의 스택들은 완전 접속을 통해 병합된다. 마지막으로, 병합의 결과는 전치 컨볼루션 층들의 스택에 삽입되어, 예측
Figure pct00039
를 산출한다.
이전의 작업에서, 2개의 별개의 접근법들은 신경 네트워크 기반 인트라 예측 모드(들)를 VVC에 통합시키는 것을 목표로 한다: 단일의 일반적인 신경 네트워크 기반 인트라 예측 모드의 통합 및 다수의 특수화된 신경 네트워크 기반 인트라 예측 모드들의 통합.
심층 인트라 예측의 일례는 논문["Iterative training of neural networks for intra prediction", Thierry Dumas, Franck Galpin, and Philippe Bordes, arXiv:2003.06812v1, March 2020]에서 설명된다. 이러한 논문은 심층 인트라 예측의 제1 접근법을 기술하고, 여기서 단일의 일반적인 신경 네트워크 기반 인트라 예측 모드가 소개된다. 단일 신경 네트워크 기반 인트라 예측 모드는 보통 여러 개의 신경 네트워크들로 구성되며, 각각의 신경 네트워크는 상이한 크기의 블록들을 예측한다. 예를 들어, 단일 신경 네트워크 기반 모드에서의 신경 네트워크는
Figure pct00040
개의 신경 네트워크들을 포함하며, 각각의 신경 네트워크는
Figure pct00041
에서의 상이한 크기의 블록들을 예측한다. 주어진
Figure pct00042
블록의 경우,
Figure pct00043
이면,
Figure pct00044
블록들을 예측하는 단일 신경 네트워크 기반 모드에서의 신경 네트워크가 예측을 위해 사용된다. 그렇지 않은 경우, 단일 신경 네트워크 기반 모드는 이러한 블록을 예측할 수 없다.
시그널링의 관점에서, 인트라에서 예측된 주어진
Figure pct00045
루미넌스 CB의 경우,
Figure pct00046
이면, VVC에서 단일 신경 네트워크 기반 인트라 예측 모드가 선택되는지 또는 인트라 예측 모드가 선택되는지 여부를 나타내기 위해 단일 플래그가 비트스트림에 기록된다.
이러한 제1 접근법의 요지는, 대략적으로 말하면, 주어진 블록에 대해, 이러한 블록의 콘텍스트로부터, 콘텍스트로부터 이러한 블록의 예측을 계산하기 위해 "전파(들) 방향"들을 사용하는 동안 고품질의 예측을 제공할 가능성이 가장 높은 이들 방향을 추론하는 신경 네트워크를 갖는 것이다. 그렇게 하기 위해, 신경 네트워크는 큰 콘텍스트로 공급되어야 한다. 그렇기 때문에,
Figure pct00047
,
Figure pct00048
,
Figure pct00049
Figure pct00050
이 블록의 크기와 함께 증가한다.
제2 접근법에 따르면, VVC에서 도구 행렬 인트라 예측(MIP)에서와 같이 다수의 특수화된 신경 네트워크 기반 인트라 예측 모드들이 소개된다. MIP는 특수화된 신경 네트워크 기반 인트라 예측 모드들을 수집한다. MIP는
Figure pct00051
루미넌스 CB들에 대한
Figure pct00052
개의 모드들,
Figure pct00053
Figure pct00054
루미넌스 CB들에 대한
Figure pct00055
개의 모드들, 및 다른 루미넌스 CB 크기들에 대한
Figure pct00056
개의 모드들을 포함한다. 도 9는 루미넌스 CB에 대한 인트라 예측 시그널링을 나타내는 결정 트리의 일례를 도시한다. 시그널링의 관점에서, 인트라에서 예측된 주어진
Figure pct00057
루미넌스 CB의 경우, VVC에서 MIP 모드가 선택되는지 또는 비-MIP 인트라 예측 모드가 선택되는지 여부를 나타내기 위해 mipFlag
Figure pct00058
이 비트스트림에 기록된다. 이어서, MIP 모드가 선택되면, 즉, mipFlag
Figure pct00059
이면, 어떤 MIP 모드가 선택되는지를 나타내기 위해 다른 플래그들이 비트스트림에 기록된다. 도 9에서, 결정 트리의 각각의 노드에서, 인덱스/플래그 값은 괄호들 사이에 그리고 회색으로 기록된다. 빈 값 또는 코딩 비용 중 어느 하나는 굵은 회색으로 기록된다. MultiRefIndex
Figure pct00060
는 다중 기준 라인(Multiple Reference Line, MRL)들을 시그널링한다. MPM은 최고 확률 모드(Most Probable Mode)를 의미한다.
제1 접근법에서와는 달리, MIP에서의 신경 네트워크는 고품질의 예측을 제공할 가능성이 가장 높은 "전파(들)의 방향"을 주어진 루미넌스 CB의 콘텍스트로부터 추론하도록 설계되지 않는다. 대신, "전파의 방향"은 상이한 MIP 모드들 중에서 인코더 검색에 의해 발견된다. 그렇기 때문에, MIP에서, 루미넌스 CB의 콘텍스트가 작고, 신경 네트워크들은 큰 용량의 표현을 필요로 하지 않는다. 결과적으로, 루미넌스 CB의 콘텍스트는 단지 그것 위에 W개의 디코딩된 픽셀들의 라인 및 그의 좌측에 H개의 디코딩된 픽셀들의 라인만을 포함한다. 게다가, MIP에서의 각각의 신경 네트워크는, 선형 변환에 해당하는, 비선형성 없이, 바이어스 없이, 단일 층을 갖는다.
이제, 신경 네트워크 기반 인트라 예측 모드를 기존의 변환들로 블록 기반 비디오 코덱에 통합할 때, 과제들 중 하나는 기존 인트라 예측 모드들로부터 추론되는 변환들의 시그널링을 다루는 것이다. 이들 변환들은 일련의 개별 변환들(VVC에서의 MTS 및 LFNST와 같음), 또는 큰 세트의 적응적 변환들 중의 변환일 수 있다는 것에 유의한다.
이러한 문제는 LFNST에 의해 잘 예시되어 있다. 인덱스 i의 2개의 LFNST 행렬들의 세트가 예들에 대해 훈련되었으며, 각각의 예는 인덱스가 범위
Figure pct00061
에 속하고,
Figure pct00062
인 인트라 예측 모드를 통해 블록의 예측에서 비롯되는 잔차에
Figure pct00063
를 적용함으로써 획득된 1차 변환 계수들이다. 예를 들어,
Figure pct00064
이고, 1차 변환 계수들은, 인트라 예측 모드 인덱스가
Figure pct00065
에 속하는 경우 전치된다. 이것은 표 2의 맵핑을 정당화시킨다. 그러나, 당업자는, 새로운 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 블록에 대한 2개의 LFNST 행렬들의 세트의 인덱스를 추론하려고 시도하는 동안 이슈에 직면한다.
이러한 문제는, 단일 신경 네트워크 기반 인트라 예측 모드가 비디오 코덱에 통합될 때 중요하다. 실제로, 이러한 모드에서의 신경 네트워크는, 블록의 콘텍스트로부터, 하나의 블록의 예측으로부터 다른 블록의 예측으로의, 고품질의 예측을 제공할 가능성이 높은 "전파(들) 방향"을 추론할 수 있기 때문에, 이러한 모드는 상이한 전파 방향들을 산출할 수 있다. 따라서, 신경 네트워크 기반 인트라 예측 모드의 인덱스로부터 2개의 LFNST 행렬들의 동일한 세트의 체계적인 추론은 레이트 왜곡의 관점에서 기량을 발휘하지 못한다.
이것은 본 명세서에 기술된 일반적인 태양들에 의해 해결되고 처리되는데, 이는, 적어도 하나의 신경 네트워크를 사용하는 그리고 이러한 변환이 1차인 경우, 신경 네트워크 예측의 잔차에, 또는 이러한 변환이 1차가 아닌 경우, 신경 네트워크 예측의 잔차에 다른 변환들을 적용함으로써 획득된 변환 계수들의 블록에 적용할 적어도 일정 변환 방법에 대한 정보를 획득하는 이미지 블록의 인트라 예측에 관한 것이다.
적어도 하나의 실시예에서, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록에 대해, 선택된 인트라 예측 모드의 인덱스로부터 통상적으로 추론되는 모든 변환 인덱스들은 플래그들을 비트스트림에 기록함으로써 시그널링된다. 대안적으로, 적어도 다른 실시예에서, 신경 네트워크 기반 인트라 예측 모드에 수반된 각각의 신경 네트워크는, 블록의 콘텍스트로부터, 선택된 인트라 예측 모드의 인덱스로부터 통상적으로 추론되는 변환 인덱스들을 추론하는 것으로 훈련된다. 이어서, 인코더 측 및 디코더 측 둘 모두에서, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록에 대해, 예측을 위해 사용되는 신경 네트워크는 필요한 변환 인덱스들을 직접 반환한다.
도 10a는 적어도 하나의 실시예의 일반적인 태양에 따른 일반적인 인코딩 방법(100)을 예시한다. 도 10a의 블록도는, 인코더의 모듈들, 또는 예를 들어, 도 48의 예시적인 인코더에서 구현되는 인코딩 방법을 부분적으로 나타낸다. 도 10a는 블록을 인코딩하기 위해 적용할 하나 이상의 변환들에 대한 정보의 인코더측(100) 상의 추론의 일반적인 예를 도시한다. 신경 네트워크 기반 인트라 예측 모드(160)는 블록 Y의 콘텍스트 X로부터 Y의 예측
Figure pct00066
및 일반적인 정보 Trinfo를 계산한다. 예측의 잔차
Figure pct00067
가 변환 모듈(125)로 공급된다. 사용된 변환의 일반적인 정보 Trinfo는 선택적으로 비트스트림에 기록된다. 생성된 변환 계수들
Figure pct00068
이 양자화기(130)로 공급된다.
도 10b는 적어도 하나의 실시예의 일반적인 태양에 따른 일반적인 디코딩 방법(200)을 예시한다. 도 10b의 블록도는, 디코더의 모듈들, 또는 예를 들어, 도 49의 예시적인 디코더에서 구현되는 디코딩 방법을 부분적으로 나타낸다. 신경 네트워크 기반 인트라 예측 모드(260)는 현재 블록 Y의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00069
를 계산한다. 역양자화기(240)는 재구성된/디코딩된 변환 계수들
Figure pct00070
을 제공한다. 적용할 변환 방법에 대한 일반적인 정보 Trinfo는 디코더 측의 신경 네트워크 기반 인트라 예측에서 이용가능한 정보로부터 추론되거나 또는 비트스트림으로부터 판독된다. 역변환(250)은
Figure pct00071
로부터 재구성된 잔차
Figure pct00072
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00073
이다.
일반적인 인코딩 또는 디코딩 방법의 다양한 실시예들이 다음에서 설명된다.
선택된 인트라 예측 모드 인덱스로부터 일반적으로 추론되는 변환 인덱스들의 시그널링
도 11은 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환들의 그룹 사이의 일반적인 맵핑을 나타내는 정보의 일례를 예시한다. 이러한 비제한적 예에 따르면, 비디오 코덱은 m개의 인트라 예측 모드들 및 p개의 변환들의 n개의 그룹들
Figure pct00074
을 포함한다. 변환들의 n개의 그룹들 중 임의의 것에서, p개의 변환들 중 임의의 것은 선형이거나 또는 비선형일 수 있다. 그들 중 임의의 것은 분리가능하거나 또는 분리가능하지 않을 수 있다. 더욱이, 전술된 변환들은 1차 변환, 2차 변환, 3차 변환, 또는 임의의 추가적인 레벨의 변환일 수 있다. 도 11에 도시된 바와 같이, m개의 인트라 예측 모드들 각각의 인덱스와 변환들의 그룹의 인덱스 trGrpIdx
Figure pct00075
사이의 일반적인 맵핑을 나타내는 정보 mappingIntraTrGrp가 결정된다. 주어진 블록이 인덱스
Figure pct00076
의 인트라 예측 모드를 통해 예측되는 경우, 사용된 변환은 인덱스 trGrpIdx = mappingIntraTrGrp
Figure pct00077
의 그룹에 속한다. 이어서, 이러한 그룹에서, 사용된 변환의 인덱스(
Figure pct00078
에 속함)는 선택적으로, 비트스트림에 기록된다. 도 11의 예시적인 맵핑은 예시적인 목적을 위해 주어지고, 임의의 다른 맵핑이 본 원리들과 호환가능하다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환을 포함하는 그룹의 인덱스 trGrpIdx가 비트스트림에 기록된다.
도 12는 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환들의 그룹 사이의 일반적인 맵핑의 정보의 시그널링 방법을 예시한다. 예를 들어, 이러한 블록을 예측하기 위한 신경 네트워크 기반 인트라 예측 모드의 선택이 nnFlag
Figure pct00079
을 통해 시그널링되고 trGrpIdx가 트렁케이트형 이진 코드(truncated binary code)를 사용하여 인코딩되는 경우, trGrpIdx의 인코딩 및 그의 디코딩은 도 12에 도시되어 있다. 따라서, trGrpIdx의 인코딩의 경우, 함수
Figure pct00080
이 n개의 가능한 심볼들 중에서 심볼
Figure pct00081
의 트렁케이트형 이진 인코딩을 실행하고, 생성된 비트들을 비트스트림에 기록한다. 대응하는 디코딩 방법에서, 함수
Figure pct00082
는 비트스트림으로부터의 비트들을 판독하여 n개의 가능한 심볼들 중에서 현재 심볼
Figure pct00083
를 트렁케이트형 이진 디코딩하고, 인덱스 trGrpIdx를 결정한다.
제1 변형 실시예에 따르면, 인덱스 trGrpIdx의 코딩은 임의의 코드와 호환가능하다. 전술된 바와 같이, 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환을 포함하는 그룹의 인덱스 trGrpIdx는 트렁케이트형 이진 코드를 통해 인코딩되고 디코딩된다. 트렁케이트형 이진 코드는 임의의 다른 코드로 대체될 수 있다. 예를 들어, 그것은 단항 코드(unary code)로 대체될 수 있다.
제2 변형 실시예에 따르면, 변환들은 더 이상 그룹화되지 않는다. 변환들의 그룹들의 개념이 제거된다. 이러한 경우에, 비디오 코덱은 m개의 인트라 예측 모드들 및 n개의 변환들을 포함한다.
도 13은 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환 사이의 일반적인 맵핑을 나타내는 정보의 일례를 예시한다. 이제, mappingIntraTr이 m개의 인트라 예측 모드들 각각의 인덱스를 변환의 인덱스 trIdx
Figure pct00084
에 맵핑한다. 주어진 블록이 인덱스
Figure pct00085
의 인트라 예측 모드를 통해 예측되는 경우, 인덱스 trIdx = mappingIntraTr
Figure pct00086
의 변환이 주어진 블록에 대해 사용된다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환의 인덱스 trIdx가 비트스트림에 기록된다.
도 14는 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환 사이의 일반적인 맵핑의 정보의 시그널링 방법을 예시한다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환의 인덱스 trIdx가 비트스트림에 기록된다. 예를 들어, 이러한 블록을 예측하기 위한 신경 네트워크 기반 인트라 예측 모드의 선택이 nnFlag
Figure pct00087
을 통해 시그널링되고 trIdx가 트렁케이트형 이진 코드를 사용하여 인코딩되는 경우, trIdx의 인코딩 및 그의 디코딩은 도 14에 도시되어 있고, 도 12의 인코딩/디코딩과 유사한 프로세싱이 수행된다.
제3 변형 실시예에 따르면, 변환들은 계층적으로 그룹화될 수 있다.
도 15는 적어도 하나의 실시예에 따른, 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 일반적인 맵핑을 나타내는 정보의 일례를 예시한다. 도 15에서, 비디오 코덱은 m개의 인트라 예측 모드, 및 p개의 변환들 각각의 2개의 서브 그룹들의 n개의 매크로 그룹들
Figure pct00088
을 포함한다. 이제, mappingIntraTrMacroGrp이 m개의 인트라 예측 모드들 각각의 인덱스를 매크로 그룹의 인덱스 trMacroGrpIdx
Figure pct00089
에 맵핑한다. 주어진 블록이 인덱스
Figure pct00090
의 인트라 예측 모드를 통해 예측되는 경우, 사용된 변환은 인덱스 ttrMacroGrpIdx = mappingIntraTrMacroGrp
Figure pct00091
의 매크로 그룹에 속할 것이다. 이어서, 이러한 매크로 그룹에서, 사용된 변환을 포함하는 서브 그룹의 인덱스는 선택적으로, 플래그를 비트스트림에 기록함으로써 시그널링된다. 마지막으로, 사용된 서브 그룹에서, 사용된 변환의 인덱스는 선택적으로 비트스트림에 기록된다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환을 포함하는 매크로 그룹의 인덱스 trMacroGrpIdx가 비트스트림에 기록된다.
도 16은 적어도 하나의 실시예에 따른, 인트라 예측 모드와 변환들의 계층적 그룹 사이의 일반적인 맵핑을 나타내는 정보의 다른 시그널링 방법을 예시한다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환을 포함하는 매크로 그룹의 인덱스 trMacroGrpIdx가 비트스트림에 기록된다. 예를 들어, 이러한 블록을 예측하기 위한 신경 네트워크 기반 인트라 예측 모드의 선택이 nnFlag
Figure pct00092
을 통해 시그널링되고 trMacroGrpIdx가 트렁케이트형 이진 코드를 사용하여 인코딩되는 경우, trMacroGrpIdx의 인코딩 및 디코딩은 도 16에 도시되어 있고, 도 12의 인코딩/디코딩과 유사한 프로세싱이 수행된다.
제4 변형 실시예에 따르면, 도 11 및 도 12에 의해 기술된 접근법은 VVC에서와 같이 LFNST의 시그널링에 간단히 적용될 수 있다. 정밀하게는,
Figure pct00093
이고, MIP 모드를 배제한다. MIP 모드를 통해 예측된 루미넌스 CB의 경우의 LFNST의 시그널링은
Figure pct00094
Figure pct00095
에 대해 이전에 설명되었다. 도 11은 상기 표 4를 통해 표 2에 링크된다.
Figure pct00096
제5 변형 실시예에 따르면, 변환들이 학습되고 시그널링된다. 이전의 접근법들에서, 변환들은 인코딩 및 디코딩 전반에 걸쳐 인코더 측 및 디코더 측 둘 모두에서 고정되는 것으로 가정된다. 그러나, 다른 변형 실시예에 따르면, 상이한 변환들이 인코더 측에서 학습된다. 이어서, 변환 파라미터들은 인코더로부터 디코더로 송신된다. 마지막으로, 디코더는 비트스트림으로부터 그들의 파라미터들을 판독함으로써 변환들을 취출한다. 이러한 변형 실시예는 유리하게는, 인코더로부터 디코더로의 변환들의 시그널링과 호환가능하다.
변환 인덱스들을 추론하는 신경 네트워크 기반 모드
적어도 다른 실시예에 따르면, 적용될 하나 이상의 변환(들)에 대한 정보는 인코더 및 디코더 둘 모두에서 추론된다. 도 11의 일반적인 맵핑의 비제한적 예를 고려하면, 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측될 때, 사용된 변환을 포함하는 그룹의 인덱스 trGrpIdx
Figure pct00097
가 비트스트림에 기록되지 않는다. 대신에, 그것은 신경 네트워크 기반 인트라 예측 모드에 의해 이러한 블록의 콘텍스트로부터 추론된다.
도 17은 적어도 하나의 실시예에 따른, 비디오 인코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법을 예시한다. 도 17은 인코더 측(300) 상의 추론의 일례를 도시하며, 여기서 적용할 하나 이상의 변환들에 대한 정보는 변환들의 그룹과의 맵핑 인덱스 trGrpIdx이다. 신경 네트워크 기반 인트라 예측 모드(305)는 블록 Y의 콘텍스트 X 로부터 Y의 예측
Figure pct00098
및 인덱스 j의 계수가 trGrpIdx
Figure pct00099
일 확률인 벡터
Figure pct00100
을 계산한다. 이어서, trGrpIdx
Figure pct00101
(310)이고, 여기서 argmax는, 확률 벡터 P가 최대화되는 값 trGrpIdx을 반환하는 함수이다. 여기서, trGrpIdx가 2차 변환 그룹 인덱스라는 것에 유의한다. 그러나, 기술된 접근법은, trGrpIdx가 1차 변환 그룹 인덱스이거나, 3차 변환 그룹 인덱스이거나, 또는 추가적인 변환 레벨에 대한 그룹 인덱스인 경우들에 대해 일반화될 수 있다. 예측의 잔차
Figure pct00102
가 1차 변환(315)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00103
은 인덱스 trGrpIdx의 2차 변환들의 그룹에 속하는 2차 변환(325)으로 공급된다. 이러한 그룹에서, 사용된 변환의 인덱스(
Figure pct00104
에 속함)는 선택적으로, 비트스트림에 기록된다. 대안적으로, 그것은 이용가능한 정보로부터 추론될 수 있다. 생성된 2차 변환 계수들
Figure pct00105
이 양자화기(320)로 공급된다.
도 18은 적어도 하나의 실시예에 따른, 비디오 디코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법을 예시한다. 도 18은 디코더 측(400) 상의 추론의 일례를 도시한다. 신경 네트워크 기반 인트라 예측 모드(405)는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00106
및 P를 계산한다. 이어서, trGrpIdx
Figure pct00107
(410)이다. 역양자화기(420)는 재구성된 2차 변환 계수들
Figure pct00108
을 제공한다. 인덱스 trGrpIdx의 역 2차 변환들의 그룹에 속하는 역 2차 변환(425)은
Figure pct00109
을 재구성된 1차 변환 계수들
Figure pct00110
로 바꾼다. 이러한 그룹에서, 사용된 역변환의 인덱스(
Figure pct00111
에 속함)는, 인코더가 그것을 비트스트림에 기록한 경우 비트스트림으로부터 판독된다. 인코더가 그렇게 한 경우, 그것은 이용가능한 정보로부터 추론된다. 역 1차 변환(415)은
Figure pct00112
로부터 재구성된 잔차
Figure pct00113
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00114
이다.
제1 변형 실시예에 따르면, 변환들은 더 이상 그룹화되지 않는다. 실제로, 변환들의 그룹들의 개념이 제거된다. 이것은 도 13을 참조하여 제시된 일반적인 경우에 대응하며, 여기서 맵핑 mappingIntraTr은 m개의 인트라 예측 모드들 각각의 인덱스를 변환의 인덱스 trIdx
Figure pct00115
에 맵핑한다. 이러한 제1 변형에 따르면, 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환의 인덱스 trIdx
Figure pct00116
가 비트스트림에 기록되지 않는다. 대신에, 그것은 신경 네트워크 기반 인트라 예측 모드에 의해 이러한 블록의 콘텍스트로부터 추론된다.
인코더 측(500) 상의 이러한 추론은 도 19에 설명된다. 신경 네트워크 기반 인트라 예측 모드(505)는 Y의 콘텍스트 X로부터 Y의 예측
Figure pct00117
및 인덱스 j의 계수가 trGrpIdx
Figure pct00118
일 확률인 벡터
Figure pct00119
을 계산한다. 이어서, trIdx
Figure pct00120
(510)이다. 여기서, trIdx는 1차 변환 인덱스라는 것에 유의한다. 그러나, 제안된 접근법은, trIdx가 2차 변환 인덱스이거나, 3차 변환 인덱스이거나, 또는 임의의 추가적인 변환 레벨인 경우들에 대해 일반화될 수 있다. 잔차
Figure pct00121
가 인덱스 trIdx의 1차 변환(515)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00122
이 양자화기(520)로 공급된다.
디코더 측(600) 상의 trIdx의 대응하는 추론이 도 20에 의해 도시된다. 신경 네트워크 기반 인트라 예측 모드(605)는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00123
및 P를 계산한다. 이어서, trIdx
Figure pct00124
(610)이다. 역양자화기(620)는 재구성된 1차 변환 계수들
Figure pct00125
을 제공한다. 인덱스 trIdx의 역 1차 변환(615)은
Figure pct00126
로부터 재구성된 잔차
Figure pct00127
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00128
이다.
제2 변형 실시예에 따르면, 변환들은 계층적으로 그룹화된다. 이것은 도 15를 참조하여 제시된 일반적인 경우에 대응하며, 여기서 맵핑 mappingIntraTrMacroGrp은 m개의 인트라 예측 모드들 각각의 인덱스를 매크로 그룹의 인덱스 trMacroGrpIdx
Figure pct00129
에 맵핑한다. 이러한 제2 변형에 따르면, 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 블록이 예측되는 경우, 사용된 변환을 포함하는 매크로 그룹의 인덱스 trMacroGrpIdx
Figure pct00130
가 비트스트림에 기록되지 않는다. 대신에, 그것은 신경 네트워크 기반 인트라 예측 모드에 의해 이러한 블록의 콘텍스트로부터 추론된다. 인코더 측 및 디코더 측 상의 이러한 추론은, 변환들을 계층적으로 그룹화하고, trGrpIdx trMacroGrpIdx로 대체함으로써 도 17 및 도 18로부터 간단히 추정될 수 있다.
제3 변형 실시예에 따르면, 상이한 유형들의 변환들의 인덱스들이 신경 네트워크 기반 인트라 예측 모드로부터 추론된다. 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 예측된 블록의 경우에, 여러 개의 상이한 사용된 변환들의 인덱스들은 신경 네트워크 기반 모드에 의해 이러한 블록의 콘텍스트로부터 추론될 수 있다.
도 21 및 도 22는 도 17 및 도 18의 예시적인 실시예들을 도 19 및 도 20의 예시적인 실시예들과 각각 조합하는 제3 변형 실시예를 예시한다.
조합으로부터 비롯되는 인코더(700)의 부분은 도 21에 도시되어 있다. 이러한 변형에 따르면, 신경 네트워크 기반 인트라 예측 모드는 인코더 측에서 trIdxtrGrpIdx 둘 모두를 추론한다. 신경 네트워크 기반 인트라 예측 모드(701)는 블록 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00131
, 인덱스 j의 계수가 trIdx
Figure pct00132
일 확률인 벡터
Figure pct00133
, 및 인덱스 k의 계수가 trGrpIdx
Figure pct00134
일 확률인 벡터
Figure pct00135
를 계산한다. 이어서, trIdx
Figure pct00136
(702)이다. trGrpIdx
Figure pct00137
(703)이다. 예측의 잔차
Figure pct00138
가 인덱스 trIdx의 1차 변환(704)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00139
은 인덱스 trGrpIdx의 2차 변환들의 그룹에 속하는 2차 변환(705)으로 공급된다. 이러한 그룹에서, 사용된 변환의 인덱스(
Figure pct00140
에 속함)는 선택적으로, 비트스트림에 기록된다. 대안적으로, 그것은 이용가능한 정보로부터 추론될 수 있다. 생성된 2차 변환 계수들
Figure pct00141
이 양자화기(706)로 공급된다.
조합으로부터 비롯되는 디코더(800)의 부분은 도 22에 도시되어 있다. 이러한 변형에 따르면, 신경 네트워크 기반 인트라 예측 모드는 디코더 측에서 trIdxtrGrpIdx 둘 모두를 추론한다. 신경 네트워크 기반 인트라 예측 모드(801)는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00142
,
Figure pct00143
, 및
Figure pct00144
을 계산한다. 이어서, trIdx
Figure pct00145
(802)이다. trGrpIdx
Figure pct00146
(803)이다. 역양자화기(806)는 재구성된 2차 변환 계수들
Figure pct00147
을 제공한다. 인덱스 trGrpIdx의 역 2차 변환들의 그룹에 속하는 역 2차 변환(805)은
Figure pct00148
을 재구성된 1차 변환 계수들
Figure pct00149
로 바꾼다. 이러한 그룹에서, 사용된 역변환의 인덱스(
Figure pct00150
에 속함)는, 인코더가 그것을 비트스트림에 기록한 경우 비트스트림으로부터 판독된다. 인코더가 그렇게 한 경우, 그것은 이용가능한 정보로부터 추론된다. 인덱스 trIdx의 역 1차 변환(804)은
Figure pct00151
로부터 재구성된 잔차
Figure pct00152
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00153
이다.
도 21 및 도 22에서, 제3 변형 실시예는, 1차 변환들이 그룹화되지 않고 2차 변환들이 그룹화되는 경우에 예시된다. 그러나, 제3 변형 실시예는 또한, 1차 변환들이 그룹화되지 않거나, 그룹화되거나 또는 계층적으로 그룹화될 때 적용된다. 동일한 것이 2차 변환들, 3차 변환들 또는 임의의 추가적인 변환들에 대해 마찬가지이다. 이어서, 신경 네트워크 기반 인트라 예측 모드는, 임의의 rIdx, trGrpIdx, trMacroGrpIdx
Figure pct00154
를 통해 계산되게 하는 확률의 벡터를 추론하도록 설계된다.
제4 변형 실시예에 따르면, 다양한 추가 입력들이 신경 네트워크 기반 인트라 예측 모드로 공급된다. 입력들의 추가는 개시된 접근법의 핵심을 수정하지 않는다. 이들 추가 입력들은,
Figure pct00155
현재 블록의 콘텍스트에 부분적으로 또는 완전히 포함되는 블록들을 인코딩하는 데 그리고 디코딩하는 데 사용되는 양자화 파라미터(Quantization Parameter, QP)
Figure pct00156
콘텍스트의 상단 우측에 있는 블록이 인트라에서 예측되는 경우, 현재 블록의 콘텍스트의 상단 우측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스
Figure pct00157
콘텍스트의 하단 좌측에 있는 블록이 인트라에서 예측되는 경우, 현재 블록의 콘텍스트의 하단 좌측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스일 수 있다.
현재 블록의 콘텍스트에 부분적으로 포함되거나 또는 완전히 포함되는 임의의 다른 블록에 대해, 이러한 블록이 인트라에서 예측되는 경우, 이러한 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스는 또한 신경 네트워크 기반 인트라 예측 모드로 공급될 수 있다는 것에 유의한다.
제5 변형 실시예에 따르면, 신경 네트워크 기반 인트라 예측의 출력은 변경된다. 도 23은 제5 변형 실시예를 사용하여 인코더 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 도 24는 제5 변형 실시예를 사용하여 디코더 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 전술된 바와 같이, 신경 네트워크 기반 인트라 예측 모드는 적어도 하나의 벡터를 반환하는데, 그의 인덱스 j의 계수는, 변환 인덱스(또는 변환 그룹 인덱스 또는 변환 매크로 그룹 인덱스)가 j와 동일할 확률이다. 대신에, 신경 네트워크 기반 인트라 예측 모드는, 관심있는 변환 인덱스(또는 변환 그룹 인덱스 또는 변환 매크로 그룹 인덱스)가 계산될 수 있는 임의의 스칼라/벡터/텐서를 반환할 수 있다. 이어서,
Figure pct00158
는 계산을 허용하는 변환에 의해 대체된다.
예를 들어, 제3 변형 실시예에서, 신경 네트워크 기반 인트라 예측 모드가,
Figure pct00159
Figure pct00160
대신에, 인덱스 j의 계수가 trIdx
Figure pct00161
일 반대 로그 확률인 벡터
Figure pct00162
및 인덱스 k의 계수가 trGrpIdx
Figure pct00163
일 반대 로그 확률인 벡터
Figure pct00164
을 반환하는 경우, 각각의
Figure pct00165
는 도 23 및 도 24에 도시된 바와 같이
Figure pct00166
로 대체된다.
제6 변형 실시예에 따르면, 추가 출력들이 신경 네트워크 기반 인트라 예측에 의해 반환된다. 출력들의 추가는 제안된 접근법의 핵심을 변경하지 않는다. 이들 추가 출력들은,
Figure pct00167
신경 네트워크 기반 인트라 예측 모드에 의해 예측된 블록을 인코딩하고 디코딩하기 위해 적용될 양자화 파라미터(QP)
Figure pct00168
신경 네트워크 기반 인트라 예측 모드에 의해 예측된 블록을 인코딩하고 디코딩하기 위해 적용될 QP의 예측일 수 있다.
제7 변형 실시예에 따르면, 신경 네트워크 기반 인트라 예측 모드에 의한 변환 인덱스들의 추론은 VVC에 간단히 적용될 수 있다. 도 25는 인코더 측에서 mtsIdx trGrpIdx를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 도 26은 디코더 측에서 mtsIdx trGrpIdx를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 더 구체적으로, 이러한 예는 전술된 제3 변형 실시예로부터 도출되며, 이는 신경 네트워크 기반 모드에 의한 상이한 유형들의 변환들의 인덱스들의 추론을 설명한다.
Figure pct00169
이고, MIP 모드들을 배제한다. MIP 모드를 통해 예측된 루미넌스 CB의 경우의 LFNST의 시그널링은 이전에 설명되었다.
현재 루미넌스 CB가 추가된 신경 네트워크 기반 인트라 예측 모드에 의해 예측된다고 하자. 이러한 경우에, mtsIdx
Figure pct00170
는 도 25 및 도 26에 도시된 바와 같이 비트스트림에 기록되는 대신 신경 네트워크 기반 인트라 예측 모드에 의한 CB의 콘텍스트로부터 추론된다. 따라서,
Figure pct00171
이다. 통상적인 바와 같이, lfnstIdx
Figure pct00172
는 비트스트림에서 시그널링된다. 2개의 LFNST 행렬들의 세트의 사용된 그룹의 인덱스 trGrpIdx
Figure pct00173
및 1차 변환 계수들의 전치의 결정(참조, 표 4)은 도 25 및 도 26에 도시된 바와 같이 신경 네트워크 기반 인트라 예측 모드에 의한 CB의 콘텍스트로부터 추론된다. 따라서,
Figure pct00174
이다.
도 25에서, lfnstIdx가 1차 변환에 삽입되는데, 그 이유는, fnstIdx가 0과 동일한 경우, 1차 변환이 mtsIdx에 의해 나타내지기 때문이라는 것에 유의한다. 그렇지 않은 경우, 1차 변환은, 도 2와 유사하게
Figure pct00175
이다. 동일한 것이 도 26에 대해서도 마찬가지이다.
명확성을 위해, 이하에서, 신경 네트워크 기반 인트라 예측 모드는 TB가 아닌 주어진 CB의 예측을 결정하기 위해 적용된다는 것을 고려한다. 다시 말해서, 신경 네트워크 기반 인트라 예측은 VVC에서 ISP와 같은 툴과 호환가능하지만, 예시적인 실시예들은, CB가 TB와 동등한 경우, 즉 ISP와 같은 툴이 디스에이블되는 경우에 대해 설명된다.
제8 변형 실시예에 따르면, 신경 네트워크 기반 모드에 의한 변환 인덱스들의 추론은 VVC에 적용되고, 신경 네트워크 기반 인트라 예측 모드에 의해 예측된 현재 CB의 경우, lfnstIdx가 1과 동일할 때 사용되는 인덱스
Figure pct00176
lfnstIdx가 2와 동일할 때 사용되는 인덱스
Figure pct00177
trGrpIdx 대신 신경 네트워크 기반 인트라 예측 모드에 의해 현재 CB의 콘텍스트로부터 추론된다. 도 27 및 도 28은 제8 변형 실시예에 따른 도 25 및 도 26의 수정된 버전을 각각 예시한다.
도 27은 인코더 측에서 mtsIdx,
Figure pct00178
, 및
Figure pct00179
를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 신경 네트워크 기반 인트라 예측 모드는, 블록 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00180
, 인덱스 j의 계수가 mtsIdx
Figure pct00181
일 확률인 벡터
Figure pct00182
, 인덱스 k의 계수가
Figure pct00183
일 확률인 벡터
Figure pct00184
, 및 인덱스 l의 계수가
Figure pct00185
일 확률인 벡터
Figure pct00186
을 계산한다. 이어서, mtsIdx
Figure pct00187
이다.
Figure pct00188
이다.
Figure pct00189
예측의 잔차
Figure pct00190
가 인덱스 mtsIdx의 1차 변환으로 공급된다. lfnstIdx
Figure pct00191
인 경우, trGrpIdx
Figure pct00192
이다. lfnstIdx
Figure pct00193
인 경우, trGrpIdx
Figure pct00194
이다. 생성된 1차 변환 계수들
Figure pct00195
은 인덱스 trGrpIdx의 그룹 내의 인덱스 lfnstIdx의 LFNST 행렬을 사용하여 LFNST으로 공급된다. 생성된 2차 변환 계수들
Figure pct00196
이 양자화기로 공급된다. lfnstIdx는 비트스트림에서 시그널링된다.
도 28은 디코더 측에서 mtsIdx,
Figure pct00197
, 및
Figure pct00198
를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. lfnstIdx는 비트스트림으로부터 판독된다. 신경 네트워크 기반 인트라 예측 모드는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00199
,
Figure pct00200
,
Figure pct00201
, 및
Figure pct00202
를 계산한다. 이어서, mtsIdx
Figure pct00203
이다.
Figure pct00204
이다.
Figure pct00205
이다. 역양자화기는 재구성된 2차 변환 계수들
Figure pct00206
을 제공한다. lfnstIdx
Figure pct00207
인 경우, trGrpIdx
Figure pct00208
이다. lfnstIdx
Figure pct00209
인 경우, trGrpIdx
Figure pct00210
이다.
Figure pct00211
은 인덱스 trGrpIdx의 그룹 내의 인덱스 lfnstIdx의 LFNST 행렬을 사용하는 역 LFNST에 의해 재구성된 1차 변환 계수들
Figure pct00212
로 바뀐다. 인덱스 mtsIdx의 역 1차 변환은
Figure pct00213
로부터 재구성된 잔차
Figure pct00214
을 계산한다. 마지막으로, 재구성된 블록은
Figure pct00215
이다.
제9 변형 실시예에 따르면, 신경 네트워크 기반 모드가 변환 인덱스들을 추론하는 전술된 접근법은 인코더 측에서 학습되는 변환들의 경우에 일반화된다. 이어서, 변환 파라미터들은 인코더로부터 디코더로 송신된다. 마지막으로, 디코더는 비트스트림으로부터 그들의 파라미터들을 판독함으로써 학습된 변환들을 복구한다.
송신된 학습된 변환들에 적응된 제3 변형 실시예의 비제한적인 예가 하기에 설명된다. 이러한 예에서, 1차 변환들만이 학습되는 것으로 가정된다. 또한, 주어진 프레임에 대한 1차 변환들은 과거 재구성된 프레임들로부터의 데이터를 사용하여, 이러한 프레임을 인코딩하기 전에 학습된다는 것이 가정된다.
도 29는, 1차 변환들이 인코더 측에서 학습되고 그들의 파라미터들이 인코더로부터 디코더로 송신될 때, 인코더(900) 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 훈련 알고리즘(901)은 과거 재구성된 프레임들로부터 추출된 데이터의 훈련 세트 Γ를 취하여,
Figure pct00216
1차 변환들의 파라미터들
Figure pct00217
및 현재 프레임에 대한
Figure pct00218
역 1차 변환들의 파라미터들
Figure pct00219
을 생성한다.
Figure pct00220
은 인코딩되어 비트스트림에 기록된다. 이제, 현재 프레임 내의 포지션
Figure pct00221
에 있는 블록 Y에 초점을 맞춘다. 신경 네트워크 기반 인트라 예측 모드(902)는 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00222
,
Figure pct00223
, 및
Figure pct00224
을 생성한다. 이어서, trIdx
Figure pct00225
(903)이다. trGrpIdx
Figure pct00226
(904)이다. 예측의 잔차
Figure pct00227
가 인덱스 trIdx 및 파라미터들
Figure pct00228
의 학습된 1차 변환(905)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00229
은 인덱스 trGrpIdx의 2차 변환들의 그룹에 속하는 2차 변환(906)으로 공급된다. 이러한 그룹에서, 사용된 변환의 인덱스(
Figure pct00230
에 속함)는 최종적으로, 비트스트림에 기록된다. 대안적으로, 그것은 이용가능한 정보로부터 추론될 수 있다. 생성된 2차 변환 계수들
Figure pct00231
이 양자화기로 공급된다.
도 30은, 1차 변환들이 인코더 측에서 학습되고 그들의 파라미터들이 인코더로부터 디코더로 송신될 때, 인코더(1000) 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 현재 프레임에 대한
Figure pct00232
역 1차 변환들의 파라미터들
Figure pct00233
은 비트스트림으로부터 판독되고 디코딩된다. 이제, 현재 프레임 내의 상기 언급된 포지션
Figure pct00234
에 있는 블록 Y가 디코딩되어야 한다고 하자. 신경 네트워크 기반 인트라 예측 모드(1002)는 Y의 콘텍스트 X로부터, 예측
Figure pct00235
,
Figure pct00236
, 및
Figure pct00237
을 계산한다. 이어서, trIdx
Figure pct00238
(1003)이다. trGrpIdx
Figure pct00239
(1004)이다. 역양자화기는 재구성된 2차 변환 계수들
Figure pct00240
을 제공한다. 인덱스 trGrpIdx의 역 2차 변환들의 그룹에 속하는 역 2차 변환(1006)은
Figure pct00241
을 재구성된 1차 변환 계수들
Figure pct00242
로 바꾼다. 이러한 그룹에서, 사용된 역변환의 인덱스(
Figure pct00243
에 속함)는, 인코더가 그것을 비트스트림에 기록한 경우 비트스트림으로부터 판독된다. 인코더가 그렇게 한 경우, 그것은 이용가능한 정보로부터 추론된다. 인덱스 trIdx 및 파라미터들
Figure pct00244
의 역 1차 변환(1005)은
Figure pct00245
로부터 재구성된 잔차
Figure pct00246
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00247
이다.
이러한 예는 송신된 학습된 2차 변환들, 송신된 학습된 3차 변환들 등의 경우로 간단히 확장될 수 있다. 상기 예에서, 변환들은, 주어진 프레임을 인코딩하기 전에, 이러한 프레임에 대해 학습된다는 것에 유의한다. 이것은 상이한 레벨에서 학습된 변환들의 경우로 간단히 확장될 수 있다. 예를 들어, 변환들은, t 프레임들의 주어진 그룹을 인코딩하기 전에, 이러한 그룹에 대해 학습될 수 있다. 또한, 상기 예에서, 학습된 변환 및 그의 역변환은 상이한 파라미터들을 갖는다는 것에 유의한다. 그러나, 그들은 동일할 수 있다. 마지막으로, 상기 예에서와 달리, 주어진 유형의 변환들의 서브세트만이 학습될 수 있고, 이러한 유형의 나머지 변환들은 인코딩 및 디코딩 전반에 걸쳐 인코더 측 및 디코더 측 둘 모두에서 고정되고 알려져 있다.
제10 변형 실시예에 따르면, 학습된 신경 네트워크 기반 인트라 예측 모드 자체가 디코더로 송신된다. 이전의 실시예들 및 그의 변형들의 상이한 제안들에서, 신경 네트워크 기반 인트라 예측 모드를 오프라인으로 학습하고 그것을 인코딩 및 디코딩 전반에 걸쳐 인코더 측 및 디코더 측 둘 모두에 고정하는 대신, 이러한 모드는 인코더 측에서 학습될 수 있다. 이어서, 그의 파라미터들은 인코더로부터 디코더로 송신된다. 마지막으로, 디코더는 비트스트림으로부터 그의 파라미터들을 판독함으로써 신경 네트워크 기반 인트라 예측 모드를 복구한다.
도 31은, 신경 네트워크 기반 인트라 예측 모드 및 1차 변환들 둘 모두가 인코더 측에서 학습되고 그들의 파라미터들이 인코더로부터 디코더로 송신될 때, 인코더 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다.
도 32는, 신경 네트워크 기반 인트라 예측 모드 및 1차 변환들 둘 모두가 인코더 측에서 학습되고 그들의 파라미터들이 인코더로부터 디코더로 송신될 때, 디코더 측에서 trIdxtrGrpIdx 둘 모두를 추론하는 신경 네트워크 기반 인트라 예측 모드를 예시한다.
도 31 및 도 32에서, 신경 네트워크 기반 인트라 예측 모드에서 상이한 신경 네트워크들의 파라미터들 ψ은 인코더로부터 디코더로 송신된다.
제11 변형 실시예에 따르면, 신경 네트워크 기반 모드에 의한 변환 인덱스들의 추론은 루미넌스 및 크로미넌스에서 별개의 트리의 CU에 대한 VVC에 적용되며, 여기서 현재 크로미넌스 CB는 CCLM 모드에 의해 예측된다. 유리하게는, 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스(trGrpIdx Y )가 루미넌스 컴포넌트에 대해 추론되고, 이미지 블록의 크로미넌스 컴포넌트들을 디코딩하기 위해 적용할 변환 방법은 각자의 lfnstIdx의 값에 따라 병치된 루미넌스 컴포넌트들의 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 상기 인덱스(trGrpIdx Y )로부터 결정된다.
도 33은 제11 변형 실시예에 따른, 비디오 디코더에서 적용할 변환에 대한 정보를 추론하는 신경 네트워크 기반 인트라 예측 방법을 예시한다. 크로미넌스에서 별개의 트리의 CU에 대해, 현재 크로미넌스 CB가 CCLM 모드에 의해 예측되는 경우, 이러한 CU에 대한 LFNST 인덱스
Figure pct00248
이면, 현재 크로미넌스 CB에 대한 LFNST는 다음과 같이 정의된다. 현재 크로미넌스 CB와 병치되는 루미넌스 CB를 예측하기 위해 선택된 인트라 예측 모드의 인덱스 idxModeLuma가 신경 네트워크 기반 인트라 예측 모드의 인덱스 NN_IDX와 동일한 경우, 현재 크로미넌스 CB에 대한 LFNST는 LFNST 그룹 인덱스
Figure pct00249
을 사용하여 표 4를 통해 정의된다.
Figure pct00250
이다.
Figure pct00251
이다.
Figure pct00252
Figure pct00253
은, 이러한 병치된 루미넌스 CB를 예측할 때 추론되는 신경 네트워크 기반 인트라 예측 모드의 LFNST 그룹 인덱스들을 나타낸다. 그렇지 않은 경우, 현재 크로미넌스 CB에 대한 LFNST는 VVC에서와 같이, 즉 표 2 하에 설명된 바와 같이 정의된다. 도 33에서, mipFlag
Figure pct00254
은, 이러한 병치된 루미넌스 CB가 MIP 모드에 의해 예측된다는 것을 의미한다. mipFlag
Figure pct00255
은, 이러한 병치된 루미넌스 CB가 비-MIP 모드에 의해 예측된다는 것을 나타낸다. 제11 변형 실시예는, 별개의 트리에 없는 CU의 경우, LFNST가 디스에이블되기 때문에, 별개의 트리에 없는 CU를 다루지 않는다는 점에 유의한다.
제12 변형 실시예에 따르면, 크로미넌스에서 별개의 트리의 CU에 대해, 현재 크로미넌스 CB가 CCLM 모드에 의해 예측되는 경우, 이러한 CU에 대한 LFNST 인덱스
Figure pct00256
이면, 현재 크로미넌스 CB에 대한 LFNST는 다음과 같이 정의된다. 현재 크로미넌스 CB와 병치되는 루미넌스 CB를 예측하기 위해 선택된 인트라 예측 모드의 인덱스 idxModeLuma가 신경 네트워크 기반 인트라 예측 모드의 인덱스 NN_IDX와 동일한 경우, 현재 크로미넌스 CB에 대한 LFNST는 광각 인트라 예측 모드 인덱스 t를 사용하는 표 2를 통해 정의되고, 여기서 t는 VVC에서 임의의 비-MIP 인트라 예측 모드의 광각 인트라 예측 모드 인덱스이고, t는 인코더 측 및 디코더 측 둘 모두에서 고정된다. 그렇지 않은 경우, 현재 크로미넌스 CB에 대한 LFNST는 VVC에서와 같이 정의된다.
변환 인덱스들을 예측하는 신경 네트워크 기반 모드
섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"에서, 신경 네트워크 기반 인트라 예측 모드는 현재 블록의 콘텍스트로부터 이러한 블록의 예측 및 필요한 변환 인덱스들을 추론한다. 이와 달리, 신경 네트워크 기반 인트라 예측 모드에 의해 추론된 임의의 변환 인덱스는 이러한 변환 인덱스의 예측으로 대체될 수 있다. 이러한 대체는, 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 12개의 변형 실시예들 중 임의의 것에 적용할 수 있다. 더 정확히 말하자면, 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제3, 제7, 및 제8 변형 실시예들은 하기의 현재 경우에 적응된다.
변환 인덱스들의 예측 코딩의 제1 변형 실시예에 따르면, 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제3 변형 실시예의 적응이 도 34 및 도 35에 예시된다.
도 34는 인코더 측에서 trIdx의 예측 predTrIdxtrGrpIdx의 예측 predTrGrpIdx 둘 모두를 반환하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 회색의 인덱스들 trIdxtrGrpIdx는 레이트 왜곡 최적화를 통해 인코더에 의해 발견된다. 인코더(1100)의 일부분이 도 34에 제시되어 있다. 신경 네트워크 기반 인트라 예측 모드(1101)는 블록 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00257
, 인덱스 j의 계수가 trIdx의 예측 predTrIdxj와 동일할 확률인 벡터
Figure pct00258
, 및 인덱스 k의 계수가 trGrpIdx의 예측 predTrGrpIdx이 k와 동일할 확률인 벡터
Figure pct00259
를 계산한다. 이어서, predTrIdx
Figure pct00260
(1103)이다. predTrGrpIdx
Figure pct00261
(1102)이다. 예측의 잔차
Figure pct00262
가 인코더에 의해 발견된 인덱스 trIdx의 1차 변환(1104)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00263
은 인코더에 의해 발견된 인덱스 trGrpIdx의 2차 변환들의 그룹에 속하는 2차 변환(1105)으로 공급된다. 이러한 그룹에서, 사용된 변환의 인덱스(
Figure pct00264
에 속함)는 최종적으로, 비트스트림에 기록된다. 대안적으로, 그것은 이용가능한 정보로부터 추론될 수 있다. 생성된 2차 변환 계수들
Figure pct00265
이 양자화기(1106)로 공급된다. 제1 예측 인코더(1107)는 predTrIdx와 관련되는 trIdx를 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00266
를 산출한다. 제2 예측 인코더(1108)는 predTrGrpIdx와 관련되는 trGrpIdx를 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00267
를 산출한다.
도 35는 디코더(1200) 측에서 trIdx의 예측 predTrIdxtrGrpIdx의 예측 predTrGrpIdx 둘 모두를 제공하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 신경 네트워크 기반 모드(1201)는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00268
,
Figure pct00269
, 및
Figure pct00270
을 계산한다. 이어서, predTrIdx
Figure pct00271
(1203)이다. predTrGrpIdx
Figure pct00272
(1202)이다. 제1 예측 인코더(1207)와 연관된 디코더는 predTrIdx 및 비트스트림으로부터 판독된 비트들
Figure pct00273
를 사용하여 trIdx를 디코딩한다. 제2 예측 인코더(1208)와 연관된 디코더는 predTrGrpIdx 및 비트스트림으로부터 판독된 비트들
Figure pct00274
를 사용하여 trGrpIdx 를 디코딩한다. 역양자화기(1206)는 재구성된 2차 변환 계수들
Figure pct00275
을 제공한다. 인덱스 trGrpIdx의 역 2차 변환들의 그룹에 속하는 역 2차 변환(1205)은
Figure pct00276
을 재구성된 1차 변환 계수들
Figure pct00277
로 바꾼다. 이러한 그룹에서, 사용된 역변환의 인덱스(
Figure pct00278
에 속함)는, 인코더가 그것을 비트스트림에 기록한 경우 비트스트림으로부터 판독된다. 인코더가 그렇게 한 경우, 그것은 이용가능한 정보로부터 추론된다. 인덱스 trIdx의 역 1차 변환(1204)은
Figure pct00279
로부터 재구성된 잔차
Figure pct00280
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00281
이다.
변환 인덱스들의 예측 코딩의 제2 변형 실시예에 따르면, 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제7 변형 실시예의 적응이 도 36, 도 37, 도 38 및 도 39에 제시된다.
도 37은 인코더(1300) 측에서 mtsIdx를 추론하고 trGrpIdx의 예측 predTrGrpIdx을 제공하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 회색의 인덱스들 trGrpIdx lfnstIdx는 레이트 왜곡 최적화를 통해 인코더에 의해 발견된다. 신경 네트워크 기반 인트라 예측 모드(1301)는 블록 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00282
, 인덱스 j의 계수가 mtsIdx
Figure pct00283
일 확률인 벡터
Figure pct00284
, 및 인덱스 k의 계수가 trGrpIdx의 예측 predTrGrpIdx이 k와 동일할 확률인 벡터
Figure pct00285
을 계산한다. 이어서, mtsIdx
Figure pct00286
(1303)이다. predTrGrpIdx
Figure pct00287
(1302)이다. 예측의 잔차
Figure pct00288
가 인덱스 mtsIdx의 1차 변환(1304)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00289
은 인코더에 의해 발견된 인덱스 trGrpIdx의 그룹 내의 인코더에 의해 발견된 인덱스 lfnstIdx의 LFNST 행렬을 사용하여 LFNST(1305)로 공급된다. 생성된 2차 변환 계수들
Figure pct00290
이 양자화기(1306)로 공급된다. lfnstIdx는 비트스트림에서 시그널링된다. 예측 인코더(1307)는 predTrGrpIdx와 관련되는 trGrpIdx를 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00291
를 산출한다. 도 36은 비트들
Figure pct00292
를 산출하는, predTrGrpIdx와 관련되는 trGrpIdx의 예측 인코딩을 나타내는 예시적인 결정 트리를 예시한다. 추가적인 변형에 따르면, 예측 인코더(1307)는 도 36에 도시된 바와 같이 작업하지만, 임의의 다른 예측 인코딩 스킴은 본 원리들과 호환가능하다.
도 39는 디코더(1400) 측에서 mtsIdx를 추론하고 trGrpIdx의 예측 predTrGrpIdx을 제공하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. lfnstIdx는 비트스트림으로부터 판독된다. 신경 네트워크 기반 인트라 예측 모드(1401)는 현재 블록의 콘텍스트 X로부터 이러한 블록의 예측
Figure pct00293
,
Figure pct00294
, 및
Figure pct00295
을 계산한다. 이어서, mtsIdx
Figure pct00296
(1403)이다. predTrGrpIdx
Figure pct00297
(1402)이다. 예측 인코더(1407)와 연관된 디코더는 predTrGrpIdx 및 비트스트림으로부터 판독된 비트들
Figure pct00298
를 사용하여 trGrpIdx를 디코딩한다. 예를 들어, 도 38은 predTrGrpIdx 및 비트들
Figure pct00299
를 사용하여 trGrpIdx의 예측 디코딩을 나타내는 결정 트리를 예시한다. 도 36의 예측 인코더가 인코더 측에 사용되는 경우, 도 38의 연관된 예측 디코더가 사용된다. 역양자화기(1406)는 재구성된 2차 변환 계수들
Figure pct00300
을 제공한다.
Figure pct00301
은 인덱스 trGrpIdx의 그룹 내의 인덱스 lfnstIdx의 LFNST 행렬을 사용하는 역 LFNST(1405)에 의해 재구성된 1차 변환 계수들
Figure pct00302
으로 바뀐다. 인덱스 mtsIdx의 역 1차 변환(1404)은
Figure pct00303
으로부터 재구성된 잔차
Figure pct00304
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00305
이다.
변환 인덱스들의 예측 코딩의 제3 변형 실시예에 따르면, 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제8 변형 실시예의 적응이 도 40 및 도 41에 예시된다. 섹션 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제7 변형 실시예의 적응 및 제8 실시예의 적응은 동일한 원리들을 따른다는 것에 유의한다.
도 40은 인코더 측에서 mtsIdx를 추론하고
Figure pct00306
의 예측
Figure pct00307
, 및
Figure pct00308
의 예측
Figure pct00309
을 반환하는 신경 네트워크 기반 인트라 예측 모드를 예시한다. 회색의 인덱스들 trGrpIdx 및 lfnstIdx는 레이트 왜곡 최적화를 통해 인코더에 의해 발견된다.
도 41은 디코더 측에서 mtsIdx를 추론하고
Figure pct00310
의 예측
Figure pct00311
, 및
Figure pct00312
의 예측
Figure pct00313
을 반환하는 신경 네트워크 기반 인트라 예측 모드를 예시한다.
도 40 및 도 41에 제시된 실시예에서, 크로미넌스에서 별개의 트리의 CU에 대해, 그의 2개의 크로미넌스 CB들 각각에 대해 predTrGrpIdx와 관련되는 trGrpIdx의 예측 코딩은 너무 비용이 많이 들 수 있다. 실제로, 크로미넌스에서 별개의 트리의 CU의 경우, 그의 청색 크로미넌스 CB에 대해
Figure pct00314
과 관련되는
Figure pct00315
의 예측 인코딩 및 그의 적색 크로미넌스 CB에 대해
Figure pct00316
과 관련되는
Figure pct00317
의 예측 인코딩은 비트스트림에 각각 기록된 2개의 세트들의 비트들
Figure pct00318
Figure pct00319
을 산출한다. 별개의 트리에 없는 CU의 경우, LFNST가 크로미넌스에서 디스에이블되기 때문에, 그의 루미넌스 CB에 대한
Figure pct00320
과 관련되는
Figure pct00321
의 예측 인코딩만이 존재하며, 이는 이러한 CU에 대해 제안된 예측 스킴의 코딩 비용을 적게 만든다는 점에 유의한다.
변환 인덱스들의 예측 코딩의 제4 변형 실시예에 따른, 상기 언급된 많은 코딩 비용을 피하기 위해, 크로미넌스에서 별개의 트리의 CU의 경우, 그의 청색 크로미넌스 CB 및 그의 적색 크로미넌스 CB는 동일한
Figure pct00322
을 공유한다.
Figure pct00323
과 관련되는
Figure pct00324
의 예측 인코딩은 비트스트림에 기록된 비트들
Figure pct00325
을 반환한다. 따라서,
Figure pct00326
은 사용되지 않는다. 제4 변형 실시예에서, 루미넌스에서 별개의 트리의 CU는 그 자체의
Figure pct00327
을 갖는다.
도 42는 인코더(1500) 측에서 루미넌스에서 별개의 트리의 CU에 대한 제4 변형 실시예를 예시한다. 회색의 인덱스들
Figure pct00328
Figure pct00329
은 레이트 왜곡 최적화를 통해 인코더에 의해 발견된다. 신경 네트워크 기반 인트라 예측 모드(1501)는, 이러한 CU의 루미넌스 CB
Figure pct00330
의 콘텍스트
Figure pct00331
으로부터,
Figure pct00332
의 예측
Figure pct00333
, 인덱스 j의 계수가
Figure pct00334
일 확률인 벡터
Figure pct00335
및 인덱스 k의 계수가
Figure pct00336
일 확률인 벡터
Figure pct00337
, 및 인덱스 l의 계수가
Figure pct00338
일 확률인 벡터
Figure pct00339
을 계산한다. 이어서,
Figure pct00340
(1504)이다.
Figure pct00341
(1503)이다.
Figure pct00342
(1502)이다. 예측의 잔차
Figure pct00343
가 인덱스
Figure pct00344
의 1차 변환(1505)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00345
은 인코더에 의해 발견된 인덱스
Figure pct00346
의 그룹에서 인코더에 의해 발견된 인덱스
Figure pct00347
의 LFNST 행렬을 사용하여 LFNST(1506)로 공급된다. 생성된 2차 변환 계수들
Figure pct00348
이 양자화기(1507)로 공급된다.
Figure pct00349
은 비트스트림에서 시그널링된다.
Figure pct00350
이다.
Figure pct00351
이다. 예측 인코더(1508)는
Figure pct00352
과 관련되는
Figure pct00353
을 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00354
을 산출한다.
도 43은 인코더(1600) 측에서 크로미넌스에서 별개의 트리의 CU에 대한 제4 변형 실시예를 예시한다. 신경 네트워크 기반 인트라 예측 모드(1601)는, 이러한 CU의 청색 크로미넌스 CB
Figure pct00355
의 콘텍스트
Figure pct00356
으로부터,
Figure pct00357
의 예측
Figure pct00358
, 인덱스 k의 계수가
Figure pct00359
일 확률인 벡터
Figure pct00360
및 인덱스 l의 계수가
Figure pct00361
일 확률인 벡터
Figure pct00362
을 계산한다. 이어서,
Figure pct00363
(1603)이다.
Figure pct00364
(1602)이다. (도 1의 설명에서 언급된 바와 같이) 변환 스킵이 고려되지 않을 때, 크로미넌스 CB에 대한 1차 변환은 항상 DCT2를 수평으로 그리고 DCT2를 수직으로 조합시키기 때문에, MTS 인덱스가 관련이 없다는 점에 유의한다. 예측의 잔차
Figure pct00365
이 1차 변환(1604)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00366
은 인코더에 의해 발견된 인덱스
Figure pct00367
의 그룹에서 인코더에 의해 발견된 인덱스
Figure pct00368
의 LFNST 행렬을 사용하여 LFNST(1605)로 공급된다. 생성된 2차 변환 계수들
Figure pct00369
이 양자화기(1606)로 공급된다. 신경 네트워크 기반 인트라 예측 모드(1608)는 이러한 CU의 적색 크로미넌스 CB
Figure pct00370
의 콘텍스트
Figure pct00371
으로부터,
Figure pct00372
의 예측
Figure pct00373
을 계산한다. 벡터들
Figure pct00374
Figure pct00375
은 신경 네트워크 기반 인트라 예측 모드에 의해 반환될 수 있다. 그러나,
Figure pct00376
Figure pct00377
은 사용되지 않는다. 예측의 잔차
Figure pct00378
이 1차 변환(1609)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00379
은 인덱스
Figure pct00380
의 그룹 내의 인덱스
Figure pct00381
의 LFNST 행렬을 사용하여 LFNST(1610)로 공급된다. 생성된 2차 변환 계수들
Figure pct00382
은 양자화기(1611)로 공급된다.
Figure pct00383
은 비트스트림에서 시그널링된다.
Figure pct00384
이다.
Figure pct00385
이다. 예측 인코더(1607)는
Figure pct00386
과 관련되는
Figure pct00387
을 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00388
을 산출한다.
도 44는 디코더(1700) 측에서 루미넌스에서 별개의 트리의 CU에 대한 제4 변형 실시예를 예시한다.
Figure pct00389
은 비트스트림으로부터 판독된다. 신경 네트워크 기반 인트라 예측 모드(1701)는 이러한 CU의 루미넌스 CB
Figure pct00390
의 콘텍스트
Figure pct00391
으로부터,
Figure pct00392
의 예측
Figure pct00393
,
Figure pct00394
, 및
Figure pct00395
을 계산한다.이어서,
Figure pct00396
(1704)이다.
Figure pct00397
(1703)이다.
Figure pct00398
(1702)이다.
Figure pct00399
이다.
Figure pct00400
이다. 예측 인코더(1708)와 연관된 디코더는
Figure pct00401
및 비트스트림으로부터 이전에 판독된 비트들
Figure pct00402
을 사용하여
Figure pct00403
을 디코딩한다. 역양자화기(1707)는 재구성된 2차 변환 계수들
Figure pct00404
을 제공한다.
Figure pct00405
은 인덱스
Figure pct00406
의 그룹 내의 인덱스
Figure pct00407
의 LFNST 행렬을 사용하는 역 LFNST(1706)에 의해 재구성된 1차 변환 계수들
Figure pct00408
으로 바뀐다. 인덱스
Figure pct00409
의 역 1차 변환(1705)은
Figure pct00410
으로부터 재구성된 잔차
Figure pct00411
을 계산한다. 마지막으로, 재구성된 루미넌스 CB는
Figure pct00412
이다.
도 45는 디코더(1800) 측에서 크로미넌스에서 별개의 트리의 CU에 대한 제4 변형 실시예를 예시한다.
Figure pct00413
은 비트스트림으로부터 판독된다. 신경 네트워크 기반 인트라 예측 모드(1801)는 이러한 CU의 청색 크로미넌스 CB
Figure pct00414
의 콘텍스트
Figure pct00415
으로부터,
Figure pct00416
의 예측
Figure pct00417
,
Figure pct00418
, 및
Figure pct00419
을 계산한다. 이어서,
Figure pct00420
(1803)이다.
Figure pct00421
(1802)이다.
Figure pct00422
이다.
Figure pct00423
이다. 예측 인코더(1807)와 연관된 디코더는
Figure pct00424
및 비트스트림으로부터 이전에 판독된 비트들
Figure pct00425
을 사용하여
Figure pct00426
을 디코딩한다. 역양자화기(1806)는 재구성된 2차 변환 계수들
Figure pct00427
을 제공한다.
Figure pct00428
은 인덱스
Figure pct00429
의 그룹 내의 인덱스
Figure pct00430
의 LFNST 행렬을 사용하는 역 LFNST(1805)에 의해 재구성된 1차 변환 계수들
Figure pct00431
으로 바뀐다. 역 1차 변환(1804)은
Figure pct00432
으로부터 재구성된 잔차
Figure pct00433
을 계산한다. 마지막으로, 재구성된 청색 크로미넌스 CB는
Figure pct00434
이다. 신경 네트워크 기반 인트라 예측 모드(1808)는 이러한 CU의 적색 크로미넌스 CB
Figure pct00435
의 콘텍스트
Figure pct00436
으로부터,
Figure pct00437
Figure pct00438
을 계산한다.
Figure pct00439
, 및
Figure pct00440
은 신경 네트워크 기반 인트라 예측 모드에 의해 제공될 수 있다. 그러나,
Figure pct00441
Figure pct00442
은 사용되지 않는다. 역양자화기(1811)는 재구성된 2차 변환 계수들
Figure pct00443
을 제공한다.
Figure pct00444
은 인덱스
Figure pct00445
의 그룹 내의 인덱스
Figure pct00446
의 LFNST 행렬을 사용하는 역 LFNST(1810)에 의해 재구성된 1차 변환 계수들
Figure pct00447
으로 바뀐다. 역 1차 변환(1809)은
Figure pct00448
으로부터 재구성된 잔차
Figure pct00449
을 계산한다. 마지막으로, 재구성된 적색 크로미넌스 CB는
Figure pct00450
이다.
제5 변형 실시예에 따르면, 크로미넌스에서 별개의 트리의 CU에 대해, 청색 크로미넌스 CB 및 적색 크로미넌스 CB는 동일한
Figure pct00451
을 공유한다.
Figure pct00452
과 관련되는
Figure pct00453
의 예측 인코딩은 비트스트림에 기록된 비트들
Figure pct00454
을 반환한다. 따라서,
Figure pct00455
은 사용되지 않는다. 제5 변형 실시예에 대한 도 42, 도 43, 도 44, 및 도 45의 적응은 간단하다.
제6 변형 실시예에 따르면, 도 33에서
Figure pct00456
Figure pct00457
으로 그리고
Figure pct00458
Figure pct00459
으로 간단히 대체함으로써 변환 인덱스들을 예측하는 신경 네트워크 기반 모드의 경우에 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제11 변형 실시예가 적응될 수 있다.
Figure pct00460
Figure pct00461
은, 관심있는 CU 내의 현재 크로미넌스 CB와 병치되는 루미넌스 CB를 예측하는 것이 크로미넌스에서 별개의 트리일 때, 신경 네트워크 인트라 예측 모드가 제공했던 LFNST 그룹 인덱스들의 예측들을 나타낸다.
제7 변형 실시예에 따르면, "변환 인덱스들을 추론하는 신경 네트워크 기반 모드"의 제12 변형 실시예는 설명을 수정하지 않고서 변환 인덱스들을 예측하는 신경 네트워크 기반 모드의 경우에 적용될 수 있다.
변환 인덱스들의 신경 네트워크 기반 추론/예측 동안 표 2 및 표 4의 맵핑들의 사용
섹션들 "변환 인덱스들을 추론하는 신경 네트워크 기반 모드" 및 "변환 인덱스들을 예측하는 신경 네트워크 기반 모드"에서, 신경 네트워크 기반 인트라 예측 모드는, 변환 인덱스들 또는 변환 인덱스들의 예측들 중 어느 하나가 어떠한 중간 미리정의된 맵핑 없이도 계산되는 벡터들을 반환한다. 대안적으로, 신경 네트워크 기반 인트라 예측 모드는 벡터들을 반환할 수 있고, 변환 인덱스들 또는 변환 인덱스들의 예측들 중 어느 하나가 적어도 하나의 중간 미리정의된 맵핑을 사용하여 이들 벡터들로부터 획득된다.
제1 변형 실시예에서, 신경 네트워크 기반 인트라 예측 모드는, 계수가, MIP 모드들을 배제한, VVC에서 인트라 예측 모드의 인덱스의 확률을 나타내는 벡터들을 반환한다. 변환 인덱스들 또는 변환 인덱스들의 예측들 중 어느 하나는, 먼저 인트라 예측 모드 인덱스로부터 그의 광각 인트라 예측 모드 인덱스로의 VVC에서의 맵핑을 사용하고, 이어서 표 2 및 표 4를 사용하여 이들 벡터들로부터 획득된다.
도 46은 인코더(1900) 측에서 이러한 제1 변형 실시예에 따른 도 37의 적응을 예시한다. 신경 네트워크 기반 인트라 예측 모드(1901)는 블록 Y의 콘텍스트 X로부터, Y의 예측
Figure pct00462
, 인덱스 j의 계수가 mtsIdx
Figure pct00463
일 확률인 벡터
Figure pct00464
, 및 인덱스 k의 계수가 신경 네트워크 예측
Figure pct00465
가 (MIP 모드들을 포함하지 않는) 인덱스 k의 VVC 인트라 예측에 의해 표현될 확률인 벡터
Figure pct00466
을 계산한다. 이어서, mtsIdx
Figure pct00467
(1904)이다. intraIdx
Figure pct00468
(1902)이다. 인트라 예측 모드 인덱스로부터 "Table wide"으로 표기된, 그의 광각 인트라 예측 모드 인덱스로의 VVC에서의 맵핑을 사용하여, 신경 네트워크 예측을 나타내는 광각 인트라 예측 모드의 인덱스
Figure pct00469
가 intraIdx로부터 계산된다. 이어서, 표 2 및 표 4를 사용하여, 이러한 광각 인트라 예측 모드 인덱스(1903)로부터 predTrGrpIdx가 추정된다. 예측의 잔차
Figure pct00470
가 인덱스 mtsIdx의 1차 변환(1905)으로 공급된다. 생성된 1차 변환 계수들
Figure pct00471
은 인코더에 의해 발견된 인덱스 trGrpIdx의 그룹 내의 인코더에 의해 발견된 인덱스 lfnstIdx의 LFNST 행렬을 사용하여 LFNST(1906)로 공급된다. 생성된 2차 변환 계수들
Figure pct00472
이 양자화기(1907)로 공급된다. lfnstIdx는 비트스트림에서 시그널링된다. 예측 인코더(1908)는 predTrGrpIdx와 관련되는 trGrpIdx를 인코딩하여, 비트스트림에 기록된 비트들
Figure pct00473
를 산출한다.
도 47은 디코더(2000) 측에서 이러한 제1 변형 실시예에 따른 도 39의 적응을 예시한다. 신경 네트워크 기반 인트라 예측 모드(2001)는 현재 블록의 콘텍스트 X로부터, 이러한 블록의 예측
Figure pct00474
, P 및 U를 계산한다. 이어서, mtsIdx
Figure pct00475
(2004)이다. intraIdx
Figure pct00476
(2002)이다. 인트라 예측 모드 인덱스로부터 "Table wide"으로 표기된, 그의 광각 인트라 예측 모드 인덱스로의 VVC에서의 맵핑을 사용하여, 신경 네트워크 예측을 나타내는 광각 인트라 예측 모드의 인덱스
Figure pct00477
가 intraIdx로부터 계산된다. 이어서, 표 2 및 표 4를 사용하여, 이러한 광각 인트라 예측 모드 인덱스(2003)로부터 predTrGrpIdx가 추정된다. 예측 인코더(2008)와 연관된 디코더는 predTrGrpIdx 및 비트스트림으로부터 판독된 비트들
Figure pct00478
를 사용하여 trGrpIdx를 디코딩한다. 역양자화기(2007)는 재구성된 2차 변환 계수들
Figure pct00479
을 제공한다.
Figure pct00480
은 인덱스 trGrpIdx의 그룹 내의 인덱스 lfnstIdx의 LFNST 행렬을 사용하는 역 LFNST(2006)에 의해 재구성된 1차 변환 계수들
Figure pct00481
으로 바뀐다. 인덱스 mtsIdx의 역 1차 변환(2005)은
Figure pct00482
으로부터 재구성된 잔차
Figure pct00483
를 계산한다. 마지막으로, 재구성된 블록은
Figure pct00484
이다.
신경 네트워크 기반 인트라 예측 모드를 수반하는 인코더 인트라 검색의 가속
신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록의 대해, 변환 인덱스들이 선택된 인트라 예측 모드의 인덱스로부터 추론되는 대신 시그널링될 때, trGrpIdx에 대한 인코더 검색은 인코더 실행 시간을 증가시킨다. 동일한 것이, 신경 네트워크 기반 모드가 도 37에 예시된 바와 같이 변환 인덱스들을 예측할 때 마찬가지이다. 인코더 실행 시간의 이러한 증가는, 주어진 이미지 블록에 대해, 신경 네트워크 기반 모드에 의해 제공된 동일한 예측된 블록이, 신경 네트워크 추론이 일반적으로 다수의 산술 연산들을 수반함에 따라 여러 번 재계산되는 경우, 특히 중요해진다. 이것을 다루기 위해, 주어진 이미지 블록에 대해, 신경 네트워크 기반 모드에 의해 주어진 예측된 블록은 처음 계산될 때 저장된다. 이어서, 이러한 예측된 블록은 각각의 후속 테스트 동안 로딩된다. 상기 언급된 예측된 블록의 로딩 및 저장은 신경 네트워크 기반 모드에 대해서만 구현되기 때문에, 로딩 및 저장은 매우 제한된 메모리 비용을 발생시킨다. 인코더 실행 시간을 더욱 더 감소시키기 위해, 주어진 이미지 블록에 대해, 신경 네트워크 인트라 예측의 잔차에 주어진 1차 변환을 적용하는 것에서 비롯되는 1차 변환 계수들은, 처음 계산될 때 메모리에 저장된다. 이어서, 필요한 경우, 각각의 후속 테스트 동안 1차 변환 계수들이 로딩된다.
제1 변형 실시예에 따르면, 신경 네트워크 기반 인트라 예측 모드를 수반하는 인코더 인트라 검색의 가속은 신경 네트워크 기반 인트라 예측 모드를 특징으로 하는 VVC에 적용되고, 섹션 "선택된 인트라 예측 모드 인덱스로부터 일반적으로 추론되는 변환 인덱스들의 시그널링"의 제4 변형 실시예가 재사용된다. 이어서, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록의 완전한 인코딩들의 레이트 왜곡 비용들을 계산하는 테스트들이 표 5에 나타나 있다. 표 5에서, "테스트 0" 내지 "테스트 19"의 일련의 테스트들을 조기에 중단할 수 있는 모든 휴리스틱들은 명확성을 위해 무시된다는 점에 유의한다. 또한, 표 5에서, 신경 네트워크 인트라 예측의 잔차에 DCT2를 수평으로 그리고 DCT2를 수직으로 적용하는 것에서 비롯되는 1차 변환 계수들은, 수평으로의 DCT2와 수직으로의 DCT2의 조합이 가장 빈번하게 사용되는 1차 변환이기 때문에 그들의 처음 계산 이후에 메모리에 저장되고, 각각의 후속 테스트 동안 로딩된다는 점에 유의한다.
Figure pct00485
제2 변형 실시예에 따르면, 신경 네트워크 기반 인트라 예측 모드를 수반하는 인코더 인트라 검색의 가속은 신경 네트워크 기반 인트라 예측 모드를 특징으로 하는 VVC에 적용되고, 섹션 "변환 인덱스들을 예측하는 신경 네트워크 기반 모드"에 기술되고 도 34에 예시된 접근법이 재사용된다. 이어서, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록의 완전한 인코딩들의 레이트 왜곡 비용들을 계산하는 테스트들이 또한 표 5에 표시된다.
제3 변형 실시예에 따르면, 신경 네트워크 기반 인트라 예측 모드를 수반하는 인코더 인트라 검색의 가속은 신경 네트워크 기반 인트라 예측 모드를 특징으로 하는 VVC에 적용되고, 도 40에 예시된 접근법이 재사용된다. 이것은, 신경 네트워크 기반 인트라 예측 모드가, lfnstIdx가 1과 동일할 때 trGrpIdx의 예측
Figure pct00486
을 제공하고, lfnstIdx가 2와 동일할 때 trGrpIdx의 예측
Figure pct00487
를 제공한다는 것을 의미한다. 게다가, 신경 네트워크 기반 모드는 mtsIdx를 추론한다. 그러나, mtsIdx
Figure pct00488
인 경우의 도 40에서와 달리, 여기서 mtsIdx
Figure pct00489
이다. 따라서, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록에 대해, 이러한 모드는, DST7-DST7 또는 DST7-DCT8 또는 DCT8-DST7 또는 DCT8-DCT8이 사용되는지 여부를 추론한다. 그러나, 인코더는 DCT2-DCT2 및 인덱스, 추론된 mtsIdx의 1차 변환을 테스트해야 한다. 이러한 경우에, 신경 네트워크 기반 인트라 예측 모드를 통해 예측된 주어진 블록의 완전한 인코딩들의 레이트 왜곡 비용들을 계산하는 테스트들이 표 6에 있다.
Figure pct00490
상기 3개의 변형 실시예들로부터, 신경 네트워크 기반 인트라 예측 모드를 수반하는 인코더 인트라 검색의 제안된 가속이 본 개시내용에서 기술된 임의의 경우로 간단히 확장될 수 있다.
추가적인 실시예들 및 정보
본 출원은 툴들, 특징부들, 실시예들, 모델들, 접근법들 등을 포함한 다양한 태양들을 기술한다. 이들 태양들 중 많은 것은 특이성을 갖고서 기술되며, 적어도, 개별 특성들을 보여주기 위해, 종종, 제한사항으로 들릴 수 있는 방식으로 기술된다. 그러나, 이는 설명의 명확성을 위한 것이며, 그들 태양들의 응용 또는 범주를 제한하지 않는다. 실제로, 상이한 모든 태양들이 조합되고 상호교환되어 추가의 태양들을 제공할 수 있다. 또한, 태양들이 조합될 수 있고, 마찬가지로 이전의 출원에 기술된 태양들과 상호교환될 수 있다.
본 출원에서 기술되고 고려되는 태양들은 많은 상이한 형태들로 구현될 수 있다. 하기의 도 46, 도 47, 및 도 48은 일부 실시예들을 제공하지만, 다른 실시예들이 고려되고, 도 46, 도 47, 및 도 48의 논의는 구현예들의 외연(breadth)을 제한하지 않는다. 태양들 중 적어도 하나의 태양은 대체적으로 비디오 인코딩 및 디코딩에 관한 것이고, 적어도 하나의 다른 태양은 대체적으로 생성되거나 인코딩된 비트스트림을 송신하는 것에 관한 것이다. 이들 및 다른 태양들은 기술된 방법들 중 임의의 방법에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들이 저장된 방법, 장치, 컴퓨터 판독가능 저장 매체, 및/또는 기술된 방법들 중 임의의 방법에 따라 생성된 비트스트림이 저장된 컴퓨터 판독가능 저장 매체로서 구현될 수 있다.
본 출원에서, "재구성된"및 "디코딩된"이라는 용어들은 상호교환가능하게 사용될 수 있으며, "픽셀" 및 "샘플"이라는 용어들은 상호교환가능하게 사용될 수 있고, "이미지", "픽처" 및 "프레임"이라는 용어들은 상호교환가능하게 사용될 수 있다.
다양한 방법들이 본 명세서에 기술되고, 각각의 방법은 기술된 방법을 달성하기 위한 하나 이상의 단계들 또는 동작들을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 액션들의 특정 순서가 요구되지 않는 한, 특정 단계들 및/또는 액션들의 순서 및/또는 사용은 수정되거나 조합될 수 있다. 추가로, "제1", "제2" 등과 같은 용어들은, 예를 들어, "제1 디코딩" 및 "제2 디코딩"과 같은 요소, 컴포넌트, 단계, 동작 등을 수정하기 위해 다양한 실시예들에서 사용될 수 있다. 그러한 용어들의 사용은, 구체적으로 요구되지 않는 한 수정된 동작들에 대한 순서화를 의미하지 않는다. 따라서, 이러한 예에서, 제1 디코딩은 제2 디코딩 전에 수행될 필요가 없고, 예를 들어, 제2 디코딩 전에, 그 동안, 또는 그와 중첩되는 기간에 발생할 수 있다.
본 출원에 기술된 다양한 방법들 및 다른 태양들은, 도 46 및 도 47에 도시된 바와 같이, 비디오 인코더(100) 및 디코더(200)의 모듈들, 예를 들어, 인트라 예측, 변환 모듈들, 및/또는 역변환 모듈들(160, 260, 125, 150, 250)을 수정하는 데 사용될 수 있다. 또한, 본 태양들은 VVC 또는 HEVC로 제한되지 않으며, 예를 들어, 기존에 존재하든 향후 개발되든, 다른 표준들 및 권고들, 및 임의의 그러한 표준들 및 권고들(VVC 및 HEVC를 포함함)의 확장들에 적용될 수 있다. 달리 나타내지 않거나, 또는 기술적으로 배제되지 않는 한, 본 출원에 기술되는 태양들은 개별적으로 또는 조합하여 사용될 수 있다.
다양한 수치 값들, 예를 들어, 변환들의 수, 변환 레벨의 수, 변환들의 인덱스들이 본 출원에서 사용된다. 특정 값들은 예시적인 목적들을 위한 것이며, 기술된 태양들은 이들 특정 값들로 제한되지 않는다.
도 46은 인코더(100)를 예시한다. 이러한 인코더(100)의 변형들이 고려되지만, 인코더(100)는 모든 예상된 변형들을 기술하지 않고서 명료성의 목적들을 위해 후술된다.
인코딩되기 전에, 비디오 시퀀스는, 예를 들어, 입력 컬러 픽처에 컬러 변환을 적용하거나(예컨대, RGB 4:4:4로부터 YCbCr 4:2:0으로의 변환), 또는 (예를 들어, 컬러 성분들 중 하나의 성분의 히스토그램 등화를 사용하여) 압축에 더 탄력적인 신호 분포를 얻기 위해 입력 픽처 컴포넌트들의 재맵핑(remapping)을 수행하는, 사전 인코딩 프로세싱(101)을 거칠 수 있다. 메타데이터는 사전-프로세싱과 연관될 수 있고, 비트스트림에 부착될 수 있다.
인코더(100)에서, 픽처는 하기에 기술되는 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 픽처는, 예를 들어 CU들의 단위들로 파티셔닝(102) 및 프로세싱된다. 각각의 유닛은, 예를 들어 인트라 또는 인터 모드를 사용하여 인코딩된다. 유닛이 인트라 모드에서 인코딩될 때, 그것은 인트라 예측을 수행한다(160). 인터 모드에서는, 모션 추정(175) 및 보상(170)이 수행된다. 인코더는 유닛을 인코딩하기 위해 인트라 모드 또는 인터 모드 중 어느 것을 사용할지를 결정하고(105), 예를 들어, 예측 모드 플래그에 의해 인트라/인터 결정을 나타낸다. 예측 잔차들은, 예를 들어, 오리지널 이미지 블록으로부터 예측된 블록을 감산함으로써(110) 계산된다.
이어서, 예측 잔차들이 변환되고(125) 양자화된다(130). 양자화된 변환 계수들뿐만 아니라 모션 벡터들 및 다른 신택스 요소들은 엔트로피 코딩되어(145) 비트스트림을 출력한다. 인코더는 변환을 스킵할 수 있고, 비변환된 잔차 신호에 직접 양자화를 적용할 수 있다. 인코더는 변환 및 양자화 모두를 스킵할 수 있으며, 즉, 잔차는 변환 또는 양자화 프로세스들의 적용 없이 직접 코딩된다.
인코더는 인코딩된 블록을 디코딩하여 추가 예측들을 위한 기준을 제공한다. 양자화된 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화되고(140) 역변환된다(150). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(155) 이미지 블록이 재구성된다. 인루프(in-loop) 필터들(165)이, 예를 들어, 인코딩 아티팩트들을 감소시키기 위해 디블록킹(deblocking)/샘플 적응적 오프셋(Sample Adaptive Offset, SAO) 필터링을 수행하도록 재구성된 픽처에 적용된다. 필터링된 이미지는 기준 픽처 버퍼(180)에 저장된다.
도 47은 비디오 디코더(200)의 블록도를 예시한다. 디코더(200)에서, 비트스트림은 후술되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(200)는 대체적으로, 도 47에 기술된 바와 같이, 인코딩 패스에 상반되는 디코딩 패스를 수행한다. 인코더(100)는 또한 대체적으로, 비디오 데이터를 인코딩하는 것의 일부로서 비디오 디코딩을 수행한다.
특히, 디코더의 입력은 비디오 인코더(100)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은 변환 계수들, 모션 벡터들, 및 다른 코딩된 정보를 획득하기 위해 먼저 엔트로피 디코딩된다(230). 픽처 파티션 정보는 픽처가 어떻게 파티셔닝되는지를 나타낸다. 따라서, 디코더는 디코딩된 픽처 파티셔닝 정보에 따라 픽처를 분할할 수 있다(235). 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화되고(240) 역변환된다(250). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(255) 이미지 블록이 재구성된다. 예측된 블록은 인트라 예측(260) 또는 모션 보상 예측(즉, 인터 예측)(275)으로부터 획득(270)될 수 있다. 재구성된 이미지에 인루프 필터들(265)이 적용된다. 필터링된 이미지는 기준 픽처 버퍼(280)에 저장된다.
디코딩된 픽처는 사후 디코딩 프로세싱(285), 예를 들어, 사전 인코딩 프로세싱(101)에서 수행된 재맵핑 프로세스의 역을 수행하는 역 재맵핑 또는 역 컬러 변환(예를 들어, YCbCr 4:2:0으로부터 RGB 4:4:4로의 변환)을 추가로 거칠 수 있다. 사후 디코딩 프로세싱은 사전 인코딩 프로세싱에서 도출되고 비트스트림에서 시그널링된 메타데이터를 사용할 수 있다.
도 48은 다양한 태양들 및 실시예들이 구현되는 시스템의 일례의 블록도를 예시한다. 시스템(2000)은 후술되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있으며, 본 문헌에 기술된 태양들 중 하나 이상을 수행하도록 구성된다. 그러한 디바이스들의 예들에는 개인용 컴퓨터들, 랩톱 컴퓨터들, 스마트폰들, 태블릿 컴퓨터들, 디지털 멀티미디어 셋톱 박스들, 디지털 텔레비전 수신기들, 개인용 비디오 녹화 시스템들, 연결형 가전 제품들, 및 서버들과 같은 다양한 전자 디바이스들이 포함되지만, 이들로 제한되지 않는다. 시스템(2000)의 요소들은 단일 집적 회로(IC), 다수의 IC들, 및/또는 별개의 컴포넌트들에서, 단독으로 또는 조합되어 구현될 수 있다. 예를 들어, 적어도 하나의 실시예에서, 시스템(2000)의 프로세싱 및 인코더/디코더 요소들은 다수의 IC들 및/또는 별개의 컴포넌트들에 걸쳐 분산된다. 다양한 실시예들에서, 시스템(2000)은, 예를 들어, 통신 버스들을 통해 또는 전용 입력 및/또는 출력 포트들을 통해 하나 이상의 다른 시스템들, 또는 다른 전자 디바이스들에 통신가능하게 커플링된다. 다양한 실시예들에서, 시스템(2000)은 본 문헌에 기술된 태양들 중 하나 이상을 구현하도록 구성된다.
시스템(2000)은, 예를 들어, 본 문헌에 기술된 다양한 태양들을 구현하기 위해 그 내부에 로딩된 명령어들을 실행하도록 구성된 적어도 하나의 프로세서(2010)를 포함한다. 프로세서(2010)는 내장된 메모리, 입력 출력 인터페이스, 및 당업계에 알려진 바와 같은 다양한 다른 회로부들을 포함할 수 있다. 시스템(2000)은 적어도 하나의 메모리(2020)(예컨대, 휘발성 메모리 디바이스, 및/또는 비휘발성 메모리 디바이스)를 포함한다. 시스템(2000)은 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 판독 전용 메모리(ROM), 프로그래밍가능 판독 전용 메모리(Programmable Read-Only Memory, PROM), 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(Dynamic Random Access Memory, DRAM), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 플래시, 자기 디스크 드라이브 및/또는 광학 디스크 드라이브를 포함하지만 이에 제한되지 않는 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있는 저장 디바이스(2040)를 포함한다. 저장 디바이스(2040)는 비제한적인 예들로서, 내부 저장 디바이스, 부착된 저장 디바이스(착탈식 저장 디바이스 및 비착탈식 저장 디바이스를 포함함), 및/또는 네트워크 액세스가능 저장 디바이스를 포함할 수 있다.
시스템(2000)은, 예를 들어, 인코딩된 비디오 또는 디코딩된 비디오를 제공하기 위해 데이터를 프로세싱하도록 구성된 인코더/디코더 모듈(2030)을 포함하고, 인코더/디코더 모듈(2030)은 그 자체의 프로세서 및 메모리를 포함할 수 있다. 인코더/디코더 모듈(2030)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 알려진 바와 같이, 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 2개 모두를 포함할 수 있다. 추가적으로, 인코더/디코더 모듈(2030)은 시스템(2000)의 별개의 요소로서 구현될 수 있거나, 또는 당업자에게 알려진 바와 같은 하드웨어와 소프트웨어의 조합으로서 프로세서(2010) 내에 통합될 수 있다.
본 문헌에 기술된 다양한 태양들을 수행하기 위해 프로세서(2010) 또는 인코더/디코더(2030) 상에 로딩될 프로그램 코드는 저장 디바이스(2040)에 저장될 수 있고, 후속적으로, 프로세서(2010)에 의한 실행을 위해 메모리(2020) 상에 로딩될 수 있다. 다양한 실시예들에 따르면, 프로세서(2010), 메모리(2020), 저장 디바이스(2040), 및 인코더/디코더 모듈(2030) 중 하나 이상은 본 문헌에 기술된 프로세스들의 수행 동안 다양한 항목들 중 하나 이상을 저장할 수 있다. 이러한 저장된 항목들은 입력 비디오, 디코딩된 비디오 또는 디코딩된 비디오의 일부들, 비트스트림, 행렬들, 변수들, 및 식들, 공식들, 연산들 및 연산 로직의 프로세싱으로부터의 중간 또는 최종 결과들을 포함할 수 있지만, 이들로 제한되지 않는다.
일부 실시예들에서, 프로세서(2010) 및/또는 인코더/디코더 모듈(2030) 내부의 메모리는 명령어들을 저장하고, 인코딩 또는 디코딩 동안 필요한 프로세싱을 위한 작업 메모리를 제공하는 데 사용된다. 그러나, 다른 실시예들에서, 프로세싱 디바이스(예를 들어, 프로세싱 디바이스는 프로세서(2010) 또는 인코더/디코더 모듈(2030) 중 어느 하나일 수 있음) 외부의 메모리가 이들 기능들 중 하나 이상에 사용된다. 외부 메모리는 메모리(2020) 및/또는 저장 디바이스(2040), 예를 들어, 동적 휘발성 메모리 및/또는 비휘발성 플래시 메모리일 수 있다. 일부 실시예들에서, 외부 비휘발성 플래시 메모리는 예를 들어, 텔레비전의 운영 체제를 저장하는 데 사용된다. 적어도 하나의 실시예에서, RAM과 같은 고속 외부 동적 휘발성 메모리는 MPEG-2(MPEG는 Moving Picture Experts Group을 지칭하고, MPEG-2는 또한 ISO/IEC 13818로도 지칭되고, 13818-1은 또한 H.222로도 알려져 있고, 13818-2는 또한 H.262로도 알려져 있음), HEVC(HEVC는 High Efficiency Video Coding을 지칭하고, H.265 및 MPEG-H Part 2로도 알려져 있음), 또는 VVC(Versatile Video Coding, JVET(Joint Video Experts Team)에서 개발 중인 새로운 표준)와 같은 비디오 코딩 및 디코딩 동작들을 위한 작업 메모리로 사용된다.
시스템(2000)의 요소들에 대한 입력은 블록(2005)에 표시된 바와 같은 다양한 입력 디바이스들을 통해 제공될 수 있다. 그러한 입력 디바이스들은 (i) 예를 들어 브로드캐스터(broadcaster)에 의해 무선으로(over the air) 송신된 무선 주파수(RF) 신호를 수신하는 무선 주파수(RF) 부분, (ii) 컴포넌트(COMP) 입력 단자(또는 COMP 입력 단자들의 세트), (iii) 범용 직렬 버스(USB) 입력 단자 및/또는 (iv) 고화질 멀티미디어 인터페이스(HDMI) 입력 단자를 포함하지만, 이들로 제한되지 않는다. 도 48에 도시되지 않은 다른 예들은 복합 비디오(composite video)를 포함한다.
다양한 실시예들에서, 블록(2005)의 입력 디바이스들은 당업계에 알려진 바와 같은 연관된 각자의 입력 프로세싱 요소들을 갖는다. 예를 들어, RF 부분은, (i) 원하는 주파수를 선택하는 것(신호를 선택하는 것, 신호를 주파수들의 대역으로 대역 제한하는 것으로도 지칭됨), (ii) 선택된 신호를 하향변환(downconvert)하는 것, (iii) (예를 들어) 소정 실시예들에서 채널로 지칭될 수 있는 신호 주파수 대역을 선택하기 위해 주파수들의 더 좁은 대역으로 다시 대역-제한하는 것, (iv) 하향변환되고 대역-제한된 신호를 복조하는 것, (v) 에러 정정을 수행하는 것, 및 (vi) 데이터 패킷들의 원하는 스트림을 선택하기 위해 역다중화하는 것에 적합한 요소들과 연관될 수 있다. 다양한 실시예들의 RF 부분은 이러한 기능들을 수행하기 위한 하나 이상의 요소들, 예를 들어 주파수 선택기들, 신호 선택기들, 대역-제한기들, 채널 선택기들, 필터들, 하향변환기들, 복조기들, 에러 정정기들, 및 역다중화기들을 포함한다. RF 부분은, 예를 들어, 수신된 신호를 더 낮은 주파수(예를 들어, 중간 주파수 또는 근거리 기저대역 주파수)로 또는 기저대역으로 하향변환하는 것을 포함하여 이러한 다양한 기능들을 수행하는 튜너를 포함할 수 있다. 하나의 셋톱 박스 실시예에서, RF 부분 및 그의 연관된 입력 프로세싱 요소는 유선(예를 들어, 케이블) 매체를 통해 전송된 RF 신호를 수신하고, 필터링하고, 하향변환하고 다시 원하는 주파수 대역으로 필터링함으로써 주파수 선택을 수행한다. 다양한 실시예들은 전술한(및 다른) 요소들의 순서를 재배열하고, 이들 요소들 중 일부를 제거하고/하거나 유사하거나 상이한 기능들을 수행하는 다른 요소들을 추가한다. 요소를 추가하는 것은, 예를 들어, 증폭기들 및 아날로그-디지털 변환기를 삽입하는 것과 같이, 기존 요소들 사이에 요소들을 삽입하는 것을 포함할 수 있다. 다양한 실시예들에서, RF 부분은 안테나를 포함한다.
또한, USB 및/또는 HDMI 단자들은 시스템(2000)을 USB 및/또는 HDMI 접속들을 통해 다른 전자 디바이스들에 접속하기 위한 각자의 인터페이스 프로세서들을 포함할 수 있다. 입력 프로세싱의 다양한 태양들, 예를 들어, 리드-솔로몬(Reed-Solomon) 에러 정정은 필요에 따라, 예를 들어, 별개의 입력 프로세싱 IC 내에서 또는 프로세서(2010) 내에서 구현될 수 있다는 것이 이해되어야 한다. 유사하게, USB 또는 HDMI 인터페이스 프로세싱의 태양들은 필요에 따라, 별개의 인터페이스 IC들 내에서 또는 프로세서(2010) 내에서 구현될 수 있다. 복조되고, 에러 정정되고, 역다중화된 스트림은, 예를 들어, 프로세서(2010), 및 메모리 및 저장 요소들과 조합하여 동작하는 인코더/디코더(2030)를 포함하는 다양한 프로세싱 요소들에 제공되어, 필요에 따라 출력 디바이스 상의 제시를 위해 데이터 스트림을 프로세싱한다.
시스템(2000)의 다양한 요소들이 통합된 하우징 내에 제공될 수 있으며, 통합된 하우징 내에서, 다양한 요소들은 적합한 접속 배열(2015), 예를 들어, 인터-IC(I2C) 버스, 배선, 및 인쇄 회로 기판을 포함하는, 당업계에 알려진 바와 같은 내부 버스를 사용하여 상호접속되고 그들 사이에서 데이터를 전송할 수 있다.
시스템(2000)은 통신 채널(2090)을 통해 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(2050)를 포함한다. 통신 인터페이스(2050)는 통신 채널(2090)을 통해 데이터를 송신하도록 그리고 수신하도록 구성된 송수신기를 포함할 수 있지만, 이에 제한되지 않는다. 통신 인터페이스(2050)는 모뎀 또는 네트워크 카드를 포함할 수 있지만, 이들로 제한되지 않으며, 통신 채널(2090)은, 예를 들어, 유선 및/또는 무선 매체 내에서 구현될 수 있다.
데이터는, 다양한 실시예들에서, Wi-Fi 네트워크, 예를 들어 IEEE 802.11(IEEE는 전기 전자 기술자 협회(Institute of Electrical and Electronics Engineers)를 지칭함)과 같은 무선 네트워크를 사용하여, 시스템(2000)에 스트리밍되거나 또는 달리 제공된다. 이들 실시예들의 Wi-Fi 신호는 Wi-Fi 통신들에 대해 적응된 통신 채널(2090) 및 통신 인터페이스(2050)를 통해 수신된다. 이들 실시예들의 통신 채널(2090)은 전형적으로, 스트리밍 애플리케이션들 및 다른 OTT 통신들을 허용하기 위해 인터넷을 포함하는 외부 네트워크들에 대한 액세스를 제공하는 액세스 포인트 또는 라우터에 접속된다. 다른 실시예들은 입력 블록(2005)의 HDMI 접속을 통해 데이터를 전달하는 셋톱 박스를 사용하여 스트리밍된 데이터를 시스템(2000)에 제공한다. 또 다른 실시예들은 입력 블록(2005)의 RF 접속을 사용하여 스트리밍된 데이터를 시스템(2000)에 제공한다. 전술한 바와 같이, 다양한 실시예들은 비-스트리밍 방식으로 데이터를 제공한다. 또한, 다양한 실시예들은 Wi-Fi 이외의 무선 네트워크들, 예를 들어 셀룰러 네트워크 또는 블루투스 네트워크를 사용한다.
시스템(2000)은 디스플레이(2065), 스피커들(2075), 및 다른 주변 디바이스들(2085)을 포함하는 다양한 출력 디바이스들에 출력 신호를 제공할 수 있다. 다양한 실시예들의 디스플레이(2065)는, 예를 들어, 터치스크린 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 커브드(curved) 디스플레이, 및/또는 폴더블(foldable) 디스플레이 중 하나 이상을 포함한다. 디스플레이(2065)는 텔레비전, 태블릿, 랩톱, 셀 폰(모바일 폰), 또는 다른 디바이스를 위한 것일 수 있다. 디스플레이(2065)는 또한, (예를 들어, 스마트 폰에서와 같이) 다른 컴포넌트들과 통합될 수 있거나, 또는 별개일 수 있다(예를 들어, 랩톱을 위한 외부 모니터). 실시예들의 다양한 예들에서, 다른 주변 디바이스들(2085)은 독립형 디지털 비디오 디스크(또는 디지털 다기능 디스크)(두 용어들 모두에 대해, DVR), 디스크 플레이어, 스테레오 시스템, 및/또는 조명 시스템 중 하나 이상을 포함한다. 다양한 실시예들은 시스템(2000)의 출력에 기초하여 기능을 제공하는 하나 이상의 주변 디바이스들(2085)을 사용한다. 예를 들어, 디스크 플레이어는 시스템(2000)의 출력을 재생하는 기능을 수행한다.
다양한 실시예들에서, 제어 신호들은, AV.Link, 소비자 전자제품 제어(Consumer Electronics Control, CEC)와 같은 시그널링, 또는 사용자 개입이 있거나 또는 개입 없이 디바이스 대 디바이스 제어를 가능하게 하는 다른 통신 프로토콜들을 사용하여 시스템(2000)과 디스플레이(2065), 스피커들(2075), 또는 다른 주변 디바이스들(2085) 사이에서 통신된다. 출력 디바이스들은 각자의 인터페이스들(2065, 2075, 2085)을 통해 전용 접속들을 거쳐 시스템(2000)에 통신가능하게 커플링될 수 있다. 대안적으로, 출력 디바이스들은 통신 인터페이스(2050)를 통해 통신 채널(2090)을 사용하여 시스템(2000)에 접속될 수 있다. 디스플레이(2065) 및 스피커들(2075)은 예를 들어, 텔레비전과 같은 전자 디바이스에서 시스템(2000)의 다른 컴포넌트들과 단일 유닛으로 통합될 수 있다. 다양한 실시예들에서, 디스플레이 인터페이스(2065)는, 예를 들어 타이밍 제어기(T Con) 칩과 같은 디스플레이 드라이버를 포함한다.
디스플레이(2065) 및 스피커(2075)는 대안적으로, 예를 들어, 입력(2005)의 RF 부분이 별개의 셋톱박스의 일부인 경우, 다른 컴포넌트들 중 하나 이상과 별개일 수 있다. 디스플레이(2065) 및 스피커들(2075)이 외부 컴포넌트들인 다양한 실시예들에서, 출력 신호는, 예를 들어 HDMI 포트들, USB 포트들, 또는 COMP 출력들을 포함하는 전용 출력 접속들을 통해 제공될 수 있다.
실시예들은 프로세서(2010)에 의해 또는 하드웨어에 의해 구현되는 컴퓨터 소프트웨어에 의해, 또는 하드웨어와 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예로서, 실시예들은 하나 이상의 집적 회로들에 의해 구현될 수 있다. 메모리(2020)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고, 비제한적인 예들로서, 광학 메모리 디바이스, 자기 메모리 디바이스, 반도체 기반 메모리 디바이스, 고정 메모리, 및 착탈식 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 프로세서(2010)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고, 비제한적인 예들로서, 마이크로프로세서, 범용 컴퓨터, 특수 목적 컴퓨터, 및 멀티-코어 아키텍처에 기반한 프로세서 중 하나 이상을 포괄할 수 있다.
다양한 구현예들이 디코딩을 수반한다. 본 출원에서 사용되는 바와 같이, "디코딩"은 예를 들어, 수신된 인코딩된 시퀀스에 대해 수행되어 디스플레이에 적합한 최종 출력을 생성하는 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 이러한 프로세스들은 디코더에 의해 전형적으로 수행되는 프로세스들 중 하나 이상의 프로세스들, 예를 들어, 엔트로피 디코딩, 역양자화, 역변환, 및 차동 디코딩을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 출원에서 설명된 다양한 구현예들의 디코더에 의해 수행되는 프로세스들을 포함하며, 이는, 예를 들어, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록을 인트라 예측하는 것을 포함하고, 여기서, 상기 인트라 예측하는 것은 이미지 블록에 적용할 적어도 일정 변환에 대한 정보를 획득하는 것을 추가로 포함하고, 여기서, 디코더의 경우, 그러한 변환 정보를 획득하는 것은 비트스트림에서 시그널링된 정보를 디코딩하는 것 또는 인트라 예측을 위한 적어도 하나의 신경 네트워크를 사용하여 변환들을 추론하는 것 또는 특징부들 둘 모두의 임의의 조합을 포함한다.
추가 예들로서, 하나의 실시예에서, "디코딩"은 엔트로피 디코딩만을 지칭하고, 다른 실시예에서, "디코딩"은 차동 디코딩만을 지칭하고, 또 다른 실시예에서, "디코딩"은 엔트로피 디코딩과 차동 디코딩의 조합을 지칭한다. 어구 "디코딩 프로세스"가 동작들의 서브세트를 구체적으로 나타내기 위한 것인지, 또는 대체적으로 보다 광의의 디코딩 프로세스를 나타내기 위한 것인지 여부는 특정 설명들의 맥락에 기초하여 명확할 것이며, 당업자에 의해 잘 이해될 것으로 여겨진다.
다양한 구현예들이 인코딩을 수반한다. "디코딩"에 대한 상기 논의와 유사한 방식으로, 본 출원에서 사용되는 바와 같은 "인코딩"은, 예를 들어 입력 비디오 시퀀스에 대해 수행되어 인코딩된 비트스트림을 생성하는 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 이러한 프로세스들은 전형적으로 인코더에 의해 수행되는 프로세스들, 예를 들어, 파티셔닝, 차동 인코딩, 변환, 양자화, 및 엔트로피 인코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 출원에서 설명된 다양한 구현예들의 인코더에 의해 수행되는 프로세스들을 포함하며, 이는, 예를 들어, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록을 인트라 예측하는 것을 포함하고, 여기서, 상기 인트라 예측하는 것은 이미지 블록에 적용할 적어도 일정 변환에 대한 정보를 획득하는 것을 추가로 포함하고, 여기서, 인코더의 경우, 그러한 변환 정보를 획득하는 것은 비트스트림에서 정보를 시그널링하는 것 또는 인트라 예측을 위한 적어도 하나의 신경 네트워크를 사용하여 변환들을 추론하는 것 또는 특징부들 둘 모두의 임의의 조합을 포함한다.
추가 예들에서, 하나의 실시예에서, "인코딩"은 단지 엔트로피 인코딩을 지칭하며, 다른 실시예에서 "인코딩"은 단지 차동 인코딩을 지칭하고, 다른 실시예에서 "인코딩"은 차동 인코딩과 엔트로피 인코딩의 조합을 지칭한다. 어구 "인코딩 프로세스"가 동작들의 서브세트를 구체적으로 나타내기 위한 것인지, 또는 대체적으로 보다 광의의 인코딩 프로세스를 나타내기 위한 것인지 여부는 특정 설명들의 맥락에 기초하여 명확할 것이며, 당업자에 의해 잘 이해될 것으로 여겨진다.
본 명세서에서 사용되는 바와 같은 신택스 요소들, 예를 들어, mappingIntraTrGrp, trGrpIdx, nnFlag는 설명 용어들이라는 점에 유의한다. 따라서, 이들은 다른 신택스 요소 이름들의 사용을 배제하지 않는다.
도면이 흐름도로서 제시될 때, 그것은 또한 대응하는 장치의 블록도를 제공한다는 것을 이해해야 한다. 유사하게, 도면이 블록도로서 제시될 때, 그것은 또한 대응하는 방법/프로세스의 흐름도를 제공한다는 것을 이해해야 한다.
다양한 실시예들은 레이트 왜곡 최적화를 지칭한다. 특히, 인코딩 프로세스 동안, 계산 복잡성의 제약들이 종종 주어지면, 레이트와 왜곡 사이의 균형 또는 트레이드오프가 보통 고려된다. 레이트 왜곡 최적화는 일반적으로 레이트와 왜곡의 가중 합인 레이트 왜곡 함수를 최소화하는 것으로 공식화된다. 레이트 왜곡 최적화 문제를 해결하기 위한 상이한 접근법들이 있다. 예를 들어, 접근법들은 코딩 및 디코딩 후의 재구성된 신호의 그들의 코딩 비용 및 관련 왜곡의 완전한 평가와 함께, 모든 고려된 모드들 또는 코딩 파라미터 값들을 포함한, 모든 인코딩 옵션들의 광범위한 테스팅에 기초할 수 있다. 특히 재구성된 것이 아니라 예측 또는 예측 잔차 신호에 기초한 근사화된 왜곡의 계산과 함께 인코딩 복잡성을 덜기 위해, 더 빠른 접근법들이 또한 사용될 수 있다. 이들 2개의 접근법들의 혼합은 또한, 예컨대, 가능한 인코딩 옵션들 중 일부만에 대한 근사화된 왜곡 및 다른 인코딩 옵션들에 대한 완전한 왜곡을 사용함으로써 사용될 수 있다. 다른 접근법들은 가능한 인코딩 옵션들의 서브세트만을 평가한다. 보다 대체적으로, 많은 접근법들은 최적화를 수행하기 위해 다양한 기법들 중 임의의 것을 채용하지만, 최적화는 반드시 코딩 비용 및 관련 왜곡 둘 모두의 완전한 평가인 것은 아니다.
본 명세서에 기술된 구현예들 및 태양들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호에서 구현될 수 있다. 구현예의 단일 형태의 맥락에서 논의된다 하더라도(예를 들어, 방법으로서만 논의됨), 논의된 특징들의 구현예는 다른 형태들(예를 들어, 장치 또는 프로그램)에서 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 로직 디바이스를 포함하는, 대체적으로 프로세싱 디바이스들로 지칭되는, 예를 들어, 프로세서에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 컴퓨터들, 휴대폰들, 휴대용/개인 디지털 어시스턴트들("PDA들"), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.
"하나의 실시예" 또는 "일 실시예" 또는 "하나의 구현예" 또는 "일 구현예"뿐만 아니라 그의 다른 변형들에 대한 언급은, 실시예와 관련하여 기술된 특정 특징부, 구조, 특성 등이 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 본 출원 전반에 걸친 다양한 곳에서 나타나는 "하나의 실시예에서" 또는 "일 실시예에서" 또는 "하나의 구현예에서" 또는 "일 구현예에서"라는 문구뿐만 아니라 임의의 다른 변형예들의 출현들은 반드시 모두 동일한 실시예를 참조하는 것은 아니다.
또한, 본 출원은 다양한 정보들을 "결정하는 것"을 지칭할 수 있다. 정보를 결정하는 것은, 예를 들어 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다.
또한, 본 출원은 다양한 정보들에 "액세스하는 것"을 지칭할 수 있다. 정보에 액세스하는 것은, 예를 들어 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.
또한, 본 출원은 다양한 정보들을 "수신하는 것"을 지칭할 수 있다. 수신하는 것은 "액세스하는 것"과 마찬가지로 광의의 용어인 것으로 의도된다. 정보를 수신하는 것은, 예를 들어, 정보에 액세스하는 것, 또는 (예를 들어, 메모리로부터) 정보를 회수하는 것 중 하나 이상을 포함할 수 있다. 또한, "수신하는 것"은 전형적으로, 예를 들어 정보를 저장하는 동작, 정보를 프로세싱하는 동작, 정보를 전송하는 동작, 정보를 이동시키는 동작, 정보를 복사하는 동작, 정보를 소거하는 동작, 정보를 계산하는 동작, 정보를 결정하는 동작, 정보를 예측하는 동작, 또는 정보를 추정하는 동작과 같은 동작들 동안 어떤 방식으로든 수반된다.
예를 들어 다음의 "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서 "/", "및/또는", 및 "적어도 하나" 중 임의의 것의 사용은 제1 열거된 옵션(A) 단독의 선택, 또는 제2 열거된 옵션(B) 단독의 선택, 또는 옵션들(A 및 B) 둘 모두의 선택을 포함하도록 의도됨을 이해해야 한다. 또 다른 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우들에서, 이러한 어구는 제1 열거된 옵션(A) 단독의 선택, 또는 제2 열거된 옵션(B) 단독의 선택, 또는 제3 열거된 옵션(C) 단독의 선택, 또는 제1 및 제2 열거된 옵션들(A 및 B) 단독의 선택, 또는 제1 및 제3 열거된 옵션들(A 및 C) 단독의 선택, 또는 제2 및 제3 열거된 옵션들(B 및 C) 단독의 선택, 또는 3개의 모든 옵션들(A, B 및 C)의 선택을 포함하도록 의도된다. 이는, 본 명세서에 기술된 바와 같은 많은 항목들에 대해, 본 명세서 및 관련 분야의 당업자에게 명백한 바와 같이 확장될 수 있다.
또한, 본 명세서에 사용된 바와 같이, 용어 "신호"는 특히 대응하는 디코더에게 무언가를 나타내는 것을 지칭한다. 예를 들어, 소정 실시예들에서, 인코더는 변환을 위한 복수의 파라미터들 중 특정 파라미터를 시그널링한다. 이러한 방식으로, 일 실시예에서, 동일한 파라미터가 인코더 측 및 디코더 측 둘 모두에서 사용된다. 따라서, 예를 들어, 인코더는 디코더가 동일한 특정 파라미터를 사용할 수 있도록 디코더에 특정 파라미터를 전송할 수 있다(명시적 시그널링). 반대로, 디코더가 이미 특정 파라미터뿐만 아니라 다른 것들을 갖고 있다면, 단순히 디코더가 특정 파라미터를 알고 선택할 수 있게 하기 위해 송신(암시적 시그널링) 없이 시그널링이 사용될 수 있다. 임의의 실제 함수들의 전송을 피함으로써, 다양한 실시예들에서 비트 절약이 실현된다. 시그널링은 다양한 방식들로 달성될 수 있다는 것이 이해되어야 한다. 예를 들어, 하나 이상의 신택스 요소들, 플래그들 등이 다양한 실시예들에서 대응하는 디코더에 정보를 시그널링하는 데 사용된다. 전술된 표현이 단어 "신호"의 동사 형태와 관련되지만, 단어 "신호"는 또한 명사로서 본 명세서에서 사용될 수 있다.
당업자에게 명백한 바와 같이, 구현예들은, 예를 들어 저장되거나 송신될 수 있는 정보를 전달하도록 포맷화된 다양한 신호들을 생성할 수 있다. 예를 들어, 정보는 방법을 수행하기 위한 명령어들, 또는 기술된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 기술된 실시예의 비트스트림을 전달하도록 포맷화될 수 있다. 그러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 사용함) 또는 기저대역 신호로서 포맷화될 수 있다. 포맷화는, 예를 들어, 데이터 스트림을 인코딩하는 것, 및 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 전달하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는, 알려진 바와 같이, 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능 매체 상에 저장될 수 있다.
다수의 실시예들을 설명한다. 이들 실시예들의 특징부들은 다양한 청구항 카테고리들 및 유형들에 걸쳐 단독으로 또는 임의의 조합으로 제공될 수 있다. 또한, 실시예들은 다양한 청구 범위들 및 유형들에 걸쳐 단독으로 또는 임의의 조합으로 다음의 특징들, 디바이스들, 또는 태양들 중 하나 이상을 포함할 수 있다:
Figure pct00491
디코더 및/또는 인코더에서 변환 프로세스를 신경 네트워크 인트라 예측 모드에 적응시키는 것.
Figure pct00492
신경 네트워크 인트라 예측과 함께 디코더 및/또는 인코더에서 적용할 변환 프로세스를 선택하는 것.
Figure pct00493
신경 네트워크 인트라 예측과 함께 디코더에서 적용할 변환 프로세스에 대한 정보를 시그널링하는 것.
Figure pct00494
수정된 신경 네트워크 인트라 예측 프로세스로부터 적용할 변환 프로세스에 대한 정보를 도출하는 것 - 도출하는 것은 디코더 및/또는 인코더에서 적용됨 -.
Figure pct00495
변환 인덱스들과 같은, 디코더가 사용할 변환 프로세스를 식별할 수 있게 하는 시그널링 신택스 요소들에 삽입하는 것.
Figure pct00496
이들 신택스 요소들에 기초하여, 디코더에서 적용할 적어도 하나의 변환을 선택하는 것.
Figure pct00497
디코더에서 적어도 하나의 변환을 도출하기 위해 수정된 신경 네트워크 인트라 예측 모드를 적용하는 것.
Figure pct00498
기술된 신택스 요소들, 또는 이들의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호.
Figure pct00499
기술된 실시예들 중 임의의 것에 따라 생성된 신택스 이송 정보를 포함하는 비트스트림 또는 신호.
Figure pct00500
디코더가 인코더에 의해 사용된 것에 대응하는 방식으로 역변환을 계수들에 적용할 수 있게 하는 시그널링 신택스 요소들에 삽입하는 것.
Figure pct00501
기술된 신택스 요소들, 또는 이들의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호를 생성하고/하거나 송신하고/하거나 수신하고/하거나 디코딩하는 것.
Figure pct00502
기술된 실시예들 중 임의의 것에 따라 생성하고/하거나 송신하고/하거나 수신하고/하거나 디코딩하는 것.
Figure pct00503
기술된 실시예들 중 임의의 것에 따른 방법, 프로세스, 장치, 명령어들을 저장하는 매체, 데이터를 저장하는 매체, 또는 신호.
Figure pct00504
기술된 실시예들 중 임의의 것에 따라 신경 네트워크 인트라 예측 모드에 적응된 변환 프로세스를 수행하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.
Figure pct00505
기술된 실시예들 중 임의의 것에 따라 신경 네트워크 인트라 예측 모드에 적응된 변환 프로세스를 수행하고, (예컨대, 모니터, 스크린, 또는 다른 유형의 디스플레이를 사용하여) 생성된 이미지를 디스플레이하는 TV, 셋톱 박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.
Figure pct00506
기술된 실시예들 중 임의의 것에 따라 인코딩된 이미지를 포함하는 신호를 수신하기 위해 채널을 (예컨대, 동조기를 사용하여) 선택하고, 신경 네트워크 인트라 예측에 적응된 변환 프로세스를 수행하는 TV, 셋톱박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.
Figure pct00507
기술된 실시예들 중 임의의 것에 따라 인코딩된 이미지를 포함하는 신호를 무선으로 (예컨대, 안테나를 사용하여) 수신하고, 신경 네트워크 인트라 예측 모드에 적응된 변환 프로세스를 수행하는 TV, 셋톱박스, 셀 폰, 태블릿, 또는 다른 전자 디바이스.

Claims (54)

  1. 방법으로서, 이미지 블록을 디코딩하는 단계를 포함하고, 상기 디코딩하는 단계는,
    상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측
    Figure pct00508
    을 결정하는 단계(260);
    상기 이미지 블록을 디코딩하기 위해 적용할 변환 방법에 대한 정보(TrInfo)를 획득하는 단계 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -;
    상기 변환 방법에 대한 정보에 따라 변환 계수들의 블록에 적어도 하나의 역변환을 적용함으로써 상기 이미지 블록의 잔차의 블록을 획득하는 단계(250); 및
    상기 인트라 예측
    Figure pct00509
    및 상기 잔차
    Figure pct00510
    의 블록에 기초하여 상기 이미지 블록을 디코딩하는 단계를 포함하는, 방법.
  2. 메모리 및 하나 이상의 프로세서들을 포함하는 장치로서, 상기 하나 이상의 프로세서들은,
    이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 상기 이미지 블록의 인트라 예측
    Figure pct00511
    을 결정하도록(260);
    상기 이미지 블록을 디코딩하기 위해 적용할 변환 방법에 대한 정보(TrInfo)를 획득하도록 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -;
    상기 변환 방법에 대한 정보에 따라 변환 계수들의 블록에 적어도 하나의 역변환을 적용함으로써 상기 이미지 블록의 잔차의 블록을 획득하도록(250); 그리고
    상기 인트라 예측
    Figure pct00512
    및 상기 잔차
    Figure pct00513
    의 블록에 기초하여 상기 이미지 블록을 디코딩하도록 구성되는, 장치.
  3. 제1항의 방법 또는 제2항의 장치에 있어서, 변환 방법에 대한 상기 정보는 비트스트림으로부터 디코딩되는, 방법 또는 장치.
  4. 제1항의 방법 또는 제2항의 장치에 있어서, 상기 정보는 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 상기 이미지 블록의 인트라 예측에 사용되는 상기 적어도 하나의 신경 네트워크에 의해 추론되는, 방법 또는 장치.
  5. 제1항, 제3항, 또는 제4항 중 어느 한 항의 방법 또는 제2항 내지 제4항 중 어느 한 항의 장치에 있어서, 상기 이미지 블록에 대해 적용할 변환 방법은 복수의 변환들 중 적어도 하나의 변환의 선택을 포함하고, 상기 복수의 변환들은,
    분리가능 변환 또는 비-분리가능 변환;
    수평 변환 또는 수직 변환;
    선형 변환 또는 비선형 변환,
    상기 변환 방법에서 연속적으로 적용되는 1차 변환, 2차 변환 또는 3차 변환,
    학습된 변환들 중 임의의 것을 포함하는, 방법 또는 장치.
  6. 제1항, 제3항 내지 제5항 중 어느 한 항의 방법 또는 제2항 내지 제5항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들의 그룹들 중 일정 변환들의 그룹 사이의 맵핑을 나타내는 변환 그룹 인덱스(trGrpIdx)를 포함하는, 방법 또는 장치.
  7. 제6항의 방법 또는 제6항의 장치에 있어서, 상기 정보는 상기 변환들의 그룹에 속하는 복수의 변환들 중에서 적용될 변환을 나타내는 인덱스를 추가로 포함하는, 방법 또는 장치.
  8. 제1항, 제3항 내지 제7항 중 어느 한 항의 방법 또는 제2항 내지 제7항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들 중 일정 변환 사이의 맵핑을 나타내는 변환 인덱스(trIdx)를 포함하는, 방법 또는 장치.
  9. 제1항, 제3항 내지 제8항 중 어느 한 항의 방법 또는 제2항 내지 제8항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑을 나타내는 변환 매크로 그룹 인덱스(trMacroGrpIdx)를 포함하는, 방법 또는 장치.
  10. 제9항의 방법 또는 제9항의 장치에 있어서, 상기 정보는 상기 변환들의 계층적 그룹에 속하는 복수의 변환들 중에서 적용될 변환을 나타내는 인덱스를 추가로 포함하는, 방법 또는 장치.
  11. 제4항 내지 제10항 중 어느 한 항의 방법 또는 제4항 내지 제10항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는,
    상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트에 부분적으로 속하거나 또는 완전히 속하는 블록을 디코딩하는 데 사용되는 양자화 파라미터;
    상기 콘텍스트의 상단 우측에 있는 블록이 인트라에서 예측되는 경우, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트의 상단 우측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스;
    상기 콘텍스트의 하단 좌측에 있는 블록이 인트라에서 예측되는 경우, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트의 하단 좌측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스 중 하나 이상의 입력 데이터를 추가로 포함하는, 방법 또는 장치.
  12. 제4항 내지 제11항 중 어느 한 항의 방법 또는 제4항 내지 제11항 중 어느 한 항의 장치에 있어서, 적용될 적어도 일정 변환에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는,
    상기 이미지 블록을 디코딩하는 데 사용되는 양자화 파라미터;
    상기 이미지 블록을 디코딩하는 데 사용되는 양자화 파라미터의 예측 중 하나 이상의 출력 데이터를 추가로 포함하는, 방법 또는 장치.
  13. 제4항 내지 제12항 중 어느 한 항의 방법 또는 제4항 내지 제12항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 변환 그룹 인덱스(trGrpIdx), 변환 인덱스(trIdx), 변환 매크로 그룹 인덱스(trMacroGrpIdx) 중 적어도 하나가 결정되는 스칼라, 벡터, 텐서 중 임의의 것인 하나 이상의 출력 데이터를 추가로 포함하는, 방법 또는 장치.
  14. 제4항 내지 제13항 중 어느 한 항의 방법 또는 제4항 내지 제13항 중 어느 한 항의 장치에 있어서, 상기 변환 방법은 디코딩된 양자화된 변환 계수들에 적용된 역 2차 저주파수 비-분리가능 변환(Low Frequency Non-Separable Transform (LFNST) 및 디코딩된 1차 변환 계수들에 적용된 역 1차 변환을 포함하고; 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스(trGrpIdx) 및 상기 디코딩된 1차 변환 계수들에 대한 역 1차 변환으로서 적용된 다중 변환 선택의 인덱스(mtsIdx)를 추론하는, 방법 또는 장치.
  15. 제14항의 방법 또는 제14항의 장치에 있어서, 상기 2개의 LFNST 행렬들의 그룹 내의 저주파수 비-분리가능 변환의 인덱스(lfnstIdx)는 상기 비트스트림으로부터 추가로 디코딩되는, 방법 또는 장치.
  16. 제4항 내지 제15항 중 어느 한 항의 방법 또는 제4항 내지 제15항 중 어느 한 항의 장치에 있어서, 변환 방법의 복수의 변환들 중 적어도 하나의 변환이 학습되고, 상기 학습된 변환들의 파라미터들
    Figure pct00514
    이 수신되는, 방법 또는 장치.
  17. 제4항 내지 제15항 중 어느 한 항의 방법 또는 제4항 내지 제15항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크가 학습되고, 적용할 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크의 파라미터들
    Figure pct00515
    이 수신되는, 방법 또는 장치.
  18. 제1항, 제3항 내지 제5항 중 어느 한 항의 방법 또는 제2항 내지 제5항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들의 그룹들 중 일정 변환들의 그룹 사이의 맵핑을 나타내는 변환 그룹 인덱스(trGrpIdx)의 예측을 포함하는, 방법 또는 장치.
  19. 제1항, 제3항 내지 제5항, 제18항 중 어느 한 항의 방법 또는 제2항 내지 제5항, 제18항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들 중 일정 변환 사이의 맵핑을 나타내는 변환 인덱스(trIdx)의 예측을 포함하는, 방법 또는 장치.
  20. 제1항, 제3항 내지 제5항, 제18항, 제19항 중 어느 한 항의 방법 또는 제2항 내지 제5항, 제18항, 제19항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑을 나타내는 인덱스(trMacroGrpIdx)의 예측을 포함하는, 방법 또는 장치.
  21. 제17항 내지 제20항 중 어느 한 항의 방법 또는 제17항 내지 제20항 중 어느 한 항의 장치에 있어서, 상기 정보는 상기 예측에 기초하여 예측적으로 디코딩되는, 방법 또는 장치.
  22. 제14항 또는 제15항의 방법 또는 제14항 또는 제15항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것 및 상기 이미지 블록의 크로미넌스 컴포넌트들이 크로스 컴포넌트 선형 모델링으로부터 결정된다고 결정하는 것에 응답하여,
    변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스(trGrpIdx Y )를 추론하고, 상기 이미지 블록의 크로미넌스 컴포넌트들을 디코딩하기 위해 적용할 변환 방법은 병치된 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 상기 인덱스(trGrpIdx Y )로부터 결정되는, 방법 또는 장치.
  23. 제14항 및 제18항의 방법 또는 제14항 및 제18항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것에 응답하여,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx Y )을 추론하고,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 크로미넌스 컴포넌트들 중 적어도 하나의 크로미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx C )을 추론하는, 방법 또는 장치.
  24. 제14항 및 제18항의 방법 또는 제14항 및 제18항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것 및 상기 이미지 블록의 크로미넌스 컴포넌트들이 크로스 컴포넌트 선형 모델링으로부터 결정된다고 결정하는 것에 응답하여,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx Y )을 추론하고,
    상기 이미지 블록의 크로미넌스 컴포넌트들을 디코딩하기 위해 적용할 변환 방법은, 병치된 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 상기 예측(predTrGrpIdx Y )으로부터 결정되는, 방법 또는 장치.
  25. 제14항 및 제18항의 방법 또는 제14항 및 제18항의 장치에 있어서,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 인트라 예측 모드 인덱스를 추론하고, 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx)은 맵핑 표 및 상기 인트라 예측 모드 인덱스를 사용하여 도출되는, 방법 또는 장치.
  26. 방법으로서, 이미지 블록을 인코딩하는 단계를 포함하고, 상기 인코딩하는 단계는,
    상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 이미지 블록의 인트라 예측
    Figure pct00516
    을 결정하는 단계(160);
    상기 이미지 블록을 인코딩하기 위해 적용할 변환 방법에 대한 정보(TrInfo)를 획득하는 단계 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -;
    상기 이미지 블록(Y) 및 상기 인트라 예측
    Figure pct00517
    으로부터 잔차
    Figure pct00518
    의 블록을 획득하는 단계;
    상기 변환 방법에 대한 정보에 따라 상기 잔차
    Figure pct00519
    의 블록에 적어도 하나의 변환을 적용함으로써 변환 계수들의 블록을 획득하는 단계(125); 및
    상기 변환 계수들의 블록을 인코딩하는 단계를 포함하는, 방법.
  27. 메모리 및 하나 이상의 프로세서들을 포함하는 장치로서, 상기 하나 이상의 프로세서들은,
    이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 적어도 하나의 신경 네트워크를 사용하여 상기 이미지 블록의 인트라 예측
    Figure pct00520
    을 결정하도록(160);
    상기 이미지 블록을 인코딩하기 위해 적용할 변환 방법에 대한 정보(TrInfo)를 획득하도록 - 상기 변환 방법은 신경 네트워크 기반 인트라 예측 모드에 적응됨 -;
    상기 이미지 블록(Y) 및 상기 인트라 예측
    Figure pct00521
    으로부터 잔차
    Figure pct00522
    의 블록을 획득하도록;
    상기 변환 방법에 대한 정보에 따라 상기 잔차
    Figure pct00523
    의 블록에 적어도 하나의 변환을 적용함으로써 변환 계수들의 블록을 획득하도록(125); 그리고
    상기 변환 계수들의 블록을 인코딩하도록 구성되는, 장치.
  28. 제26항의 방법 또는 제27항의 장치에 있어서, 상기 정보는 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 콘텍스트로부터 상기 이미지 블록의 인트라 예측에 사용되는 상기 적어도 하나의 신경 네트워크에 의해 추론되는, 방법 또는 장치.
  29. 제28항의 방법 또는 제28항의 장치에 있어서, 변환 방법에 대한 상기 정보는 비트스트림에서 인코딩되는, 방법 또는 장치.
  30. 제26항, 제28항, 제29항 중 어느 한 항의 방법 또는 제27항 내지 제29항 중 어느 한 항의 장치에 있어서, 상기 이미지 블록에 대해 적용할 변환 방법은 복수의 변환들 중 적어도 하나의 변환의 선택을 포함하고, 상기 복수의 변환들은,
    분리가능 변환 또는 비-분리가능 변환;
    수평 변환 또는 수직 변환;
    선형 변환 또는 비선형 변환,
    상기 변환 방법에서 연속적으로 적용되는 1차 변환, 2차 변환 또는 3차 변환,
    학습된 변환들 중 임의의 것을 포함하는, 방법 또는 장치.
  31. 제26항, 제28항 내지 제30항 중 어느 한 항의 방법 또는 제27항 내지 제30항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들의 그룹들 중 일정 변환들의 그룹 사이의 맵핑을 나타내는 변환 그룹 인덱스(trGrpIdx)를 포함하는, 방법 또는 장치.
  32. 제31항의 방법 또는 제31항의 장치에 있어서, 상기 정보는 상기 변환들의 그룹에 속하는 복수의 변환들 중에서 적용될 변환을 나타내는 인덱스를 추가로 포함하는, 방법 또는 장치.
  33. 제26항, 제28항 내지 제32항 중 어느 한 항의 방법 또는 제27항 내지 제32항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들 중 일정 변환 사이의 맵핑을 나타내는 변환 인덱스(trIdx)를 포함하는, 방법 또는 장치.
  34. 제26항, 제28항 내지 제33항 중 어느 한 항의 방법 또는 제27항 내지 제33항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑을 나타내는 변환 매크로 그룹 인덱스(trMacroGrpIdx)를 포함하는, 방법 또는 장치.
  35. 제34항의 방법 또는 제34항의 장치에 있어서, 상기 정보는 상기 변환들의 계층적 그룹에 속하는 복수의 변환들 중에서 적용될 변환을 나타내는 인덱스를 추가로 포함하는, 방법 또는 장치.
  36. 제28항 내지 제35항 중 어느 한 항의 방법 또는 제28항 내지 제35항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는,
    상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트에 부분적으로 속하거나 또는 완전히 속하는 블록을 인코딩하는 데 사용되는 양자화 파라미터;
    상기 콘텍스트의 상단 우측에 있는 블록이 인트라에서 예측되는 경우, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트의 상단 우측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스;
    상기 콘텍스트의 하단 좌측에 있는 블록이 인트라에서 예측되는 경우, 상기 이미지 블록을 둘러싸는 픽셀들을 포함하는 상기 콘텍스트의 하단 좌측에 위치되는 블록을 예측하는 데 사용되는 인트라 예측 모드의 인덱스 중 하나 이상의 입력 데이터를 추가로 포함하는, 방법 또는 장치.
  37. 제28항 내지 제36항 중 어느 한 항의 방법 또는 제28항 내지 제36항 중 어느 한 항의 장치에 있어서, 적용될 적어도 일정 변환에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는,
    상기 이미지 블록을 인코딩하는 데 사용되는 양자화 파라미터;
    상기 이미지 블록을 인코딩하는 데 사용되는 양자화 파라미터의 예측 중 하나 이상의 출력 데이터를 추가로 포함하는, 방법 또는 장치.
  38. 제28항 내지 제37항 중 어느 한 항의 방법 또는 제28항 내지 제37항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 변환 그룹 인덱스(trGrpIdx), 변환 인덱스(trIdx), 변환 매크로 그룹 인덱스(trMacroGrpIdx) 중 적어도 하나가 결정되는 스칼라, 벡터, 텐서 중 임의의 것인 하나 이상의 출력 데이터를 추가로 포함하는, 방법 또는 장치.
  39. 제28항 내지 제38항 중 어느 한 항의 방법 또는 제28항 내지 제38항 중 어느 한 항의 장치에 있어서, 상기 변환 방법은 상기 이미지 블록 잔차들에 적용된 1차 변환 및 상기 이미지 블록의 1차 변환 계수들에 적용된 2차 저주파수 비-분리가능 변환(LFNST)을 포함하고; 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 상기 이미지 블록 잔차들에 대한 1차 변환으로서 적용된 다중 변환 선택의 인덱스(mtsIdx)를 추론하고, 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스(trGrpIdx)를 추론하는, 방법 또는 장치.
  40. 제39항의 방법 또는 제39항의 장치에 있어서, 상기 2개의 LFNST 행렬들의 그룹 내의 저주파수 비-분리가능 변환의 인덱스(lfnstIdx)는 상기 비트스트림에서 추가로 인코딩되는, 방법 또는 장치.
  41. 제28항 내지 제40항 중 어느 한 항의 방법 또는 제28항 내지 제40항 중 어느 한 항의 장치에 있어서, 변환 방법의 복수의 변환들 중 적어도 하나의 변환이 학습되고, 상기 학습된 변환들의 파라미터들
    Figure pct00524
    이 송신되는, 방법 또는 장치.
  42. 제28항 내지 제41항 중 어느 한 항의 방법 또는 제28항 내지 제41항 중 어느 한 항의 장치에 있어서, 적용될 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크가 학습되고, 적용할 변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크의 파라미터들
    Figure pct00525
    이 송신되는, 방법 또는 장치.
  43. 제26항, 제28항 내지 제30항 중 어느 한 항의 방법 또는 제27항 내지 제30항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들의 그룹들 중 일정 변환들의 그룹 사이의 맵핑을 나타내는 변환 그룹 인덱스(trGrpIdx)의 예측을 포함하는, 방법 또는 장치.
  44. 제26항, 제28항 내지 제30항, 제43항 중 어느 한 항의 방법 또는 제27항 내지 제30항, 제43항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 복수의 변환들 중 일정 변환 사이의 맵핑을 나타내는 변환 인덱스(trIdx)의 예측을 포함하는, 방법 또는 장치.
  45. 제26항, 제28항 내지 제30항, 제43항, 제44항 중 어느 한 항의 방법 또는 제27항 내지 제30항, 제43항, 제44항 중 어느 한 항의 장치에 있어서, 상기 정보는 신경 네트워크 기반 인트라 예측 모드와 변환들의 계층적 그룹 사이의 맵핑을 나타내는 인덱스(trMacroGrpIdx)의 예측을 포함하는, 방법 또는 장치.
  46. 제43항 내지 제45항 중 어느 한 항의 방법 또는 제43항 내지 제45항 중 어느 한 항의 장치에 있어서, 상기 정보는 상기 예측에 기초하여 예측적으로 인코딩되는, 방법 또는 장치.
  47. 제26항, 제28항 내지 제46항 중 어느 한 항의 방법 또는 제27항 내지 제46항 중 어느 한 항의 장치에 있어서, 주어진 이미지 블록의 인코딩 파라미터들의 반복적 테스트를 위해, 상기 신경 네트워크 기반 인트라 예측 모드에 의해 결정된 상기 이미지 블록의 인트라 예측
    Figure pct00526
    은 처음 계산될 때 메모리에 저장되고, 상기 이미지 블록의 인트라 예측은 각각의 후속 테스트 동안 로딩되는, 방법 또는 장치.
  48. 제47항의 방법 또는 제47항의 장치에 있어서, 주어진 이미지 블록의 인코딩 파라미터들의 반복적 테스트를 위해, 상기 신경 네트워크 인트라 예측의 잔차의 블록에 대한 1차 변환의 적용에서 비롯되는 1차 변환 계수들의 블록은 처음 계산될 때 메모리에 저장되고, 상기 1차 변환 계수들의 블록은 그것을 요구하는 각각의 후속 테스트 동안 로딩되는, 방법 또는 장치.
  49. 제39항 또는 제40항의 방법 또는 제39항 또는 제40항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것 및 상기 이미지 블록의 크로미넌스 컴포넌트들이 크로스 컴포넌트 선형 모델링으로부터 결정된다고 결정하는 것에 응답하여,
    변환 방법에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스(trGrpIdx Y )를 추론하고, 상기 이미지 블록의 크로미넌스 컴포넌트들을 인코딩하기 위해 적용할 변환 방법은 병치된 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 상기 인덱스(trGrpIdx Y )로부터 결정되는, 방법 또는 장치.
  50. 제39항 및 제43항의 방법 또는 제39항 및 제43항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것에 응답하여,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx Y )을 추론하고,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 크로미넌스 컴포넌트들 중 적어도 하나의 크로미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx C )을 추론하는, 방법 또는 장치.
  51. 제39항 및 제43항의 방법 또는 제39항 및 제43항의 장치에 있어서, 상기 이미지 블록의 루미넌스 컴포넌트 및 크로미넌스 컴포넌트들에 대해 별개의 코딩 트리가 사용된다고 결정하는 것 및 상기 이미지 블록의 크로미넌스 컴포넌트들이 크로스 컴포넌트 선형 모델링으로부터 결정된다고 결정하는 것에 응답하여,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는, 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx Y )을 추론하고,
    상기 이미지 블록의 크로미넌스 컴포넌트들을 인코딩하기 위해 적용할 변환 방법은, 병치된 루미넌스 컴포넌트의 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 상기 예측(predTrGrpIdx Y )으로부터 결정되는, 방법 또는 장치.
  52. 제39항 및 제43항의 방법 또는 제39항 및 제43항의 장치에 있어서,
    변환 방법의 예측에 대한 상기 정보를 추론하는 상기 적어도 하나의 신경 네트워크는 인트라 예측 모드 인덱스를 추론하고, 상기 1차 변환 계수들을 전치하라는 결정과 함께 2개의 LFNST 행렬들의 그룹을 나타내는 인덱스의 예측(predTrGrpIdx)은 맵핑 표 및 상기 인트라 예측 모드 인덱스를 사용하여 도출되는, 방법 또는 장치.
  53. 제26항 또는 제30항 내지 제52항 중 어느 한 항의 방법에 따라 생성된 이미지 블록을 나타내는 인코딩된 데이터를 갖는 비일시적 프로그램 저장 디바이스.
  54. 제26항 또는 제30항 내지 제52항 중 어느 한 항에 따른 방법을 수행하기 위해 컴퓨터에 의해 실행가능한 명령어들의 프로그램을 유형적으로 구현하는, 컴퓨터에 의해 판독가능한, 비일시적 프로그램 저장 디바이스.
KR1020237001784A 2020-06-18 2021-06-08 신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응 KR20230025879A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP20305668.4 2020-06-18
EP20305668 2020-06-18
EP20306137.9 2020-09-30
EP20306137 2020-09-30
EP21305378 2021-03-26
EP21305378.8 2021-03-26
PCT/EP2021/065209 WO2021254812A1 (en) 2020-06-18 2021-06-08 Adapting the transform process to neural network-based intra prediction mode

Publications (1)

Publication Number Publication Date
KR20230025879A true KR20230025879A (ko) 2023-02-23

Family

ID=76325562

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237001784A KR20230025879A (ko) 2020-06-18 2021-06-08 신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응

Country Status (5)

Country Link
US (1) US20230224454A1 (ko)
EP (1) EP4169249A1 (ko)
KR (1) KR20230025879A (ko)
CN (1) CN115918071A (ko)
WO (1) WO2021254812A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024049770A1 (en) * 2022-08-28 2024-03-07 Beijing Dajia Internet Information Technology Co., Ltd. Methods and apparatus for transform training and coding
CN116071226B (zh) * 2023-03-06 2023-07-18 中国科学技术大学 基于注意力网络的电镜图像配准系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10681380B2 (en) * 2015-06-12 2020-06-09 Panasonic Intellectual Property Management Co., Ltd. Image encoding method, image decoding method, image encoding apparatus, and image decoding apparatus

Also Published As

Publication number Publication date
US20230224454A1 (en) 2023-07-13
WO2021254812A1 (en) 2021-12-23
CN115918071A (zh) 2023-04-04
EP4169249A1 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
KR20220047725A (ko) 암시적 다중 변환 선택을 위한 변환 선택
US20230396805A1 (en) Template matching prediction for versatile video coding
KR20220137964A (ko) 비디오 인코딩 또는 디코딩을 위한 신경 네트워크 기반 인트라 예측
US20230254507A1 (en) Deep intra predictor generating side information
KR20210069715A (ko) 비디오 인코딩 및 디코딩의 아핀 모드 시그널링
EP3706421A1 (en) Method and apparatus for video encoding and decoding based on affine motion compensation
CN113574887A (zh) 基于低位移秩的深度神经网络压缩
KR20230027152A (ko) 심층 신경 네트워크를 인코딩/디코딩하기 위한 시스템들 및 방법들
KR20230025879A (ko) 신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응
CN112806011A (zh) 改进的虚拟时间仿射候选
KR20210132079A (ko) 인트라 예측 모드 파티셔닝
WO2020005572A1 (en) Virtual temporal affine candidates
JP2024513873A (ja) 切り替え可能な補間フィルタを用いる幾何学的分割
KR20230005862A (ko) Act 및 jcbcr을 위한 스케일링 목록 제어
KR20220123643A (ko) 삼각형 병합 모드에서의 서브-블록 병합 후보들
EP4055824A1 (en) Deep intra prediction of an image block
EP3994623A1 (en) Systems and methods for encoding a deep neural network
US20240155148A1 (en) Motion flow coding for deep learning based yuv video compression
US20220368912A1 (en) Derivation of quantization matrices for joint cb-br coding
US20220264147A1 (en) Hmvc for affine and sbtmvp motion vector prediction modes
KR20240072180A (ko) Isp 모드를 사용한 템플릿 기반 인트라 모드 도출(timd)의 확장
KR20230162634A (ko) 비디오 인코딩 및 디코딩을 위한 템플릿 매칭 예측
JP2024510433A (ja) ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク
KR20220161441A (ko) 비디오 인코딩 및 디코딩을 위한 방법 및 장치
KR20220152299A (ko) 비디오 인코딩 및 디코딩을 위한 방법 및 장치

Legal Events

Date Code Title Description
N231 Notification of change of applicant