KR20240064698A - 특징 맵 인코딩 및 디코딩 방법 및 장치 - Google Patents

특징 맵 인코딩 및 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR20240064698A
KR20240064698A KR1020247012328A KR20247012328A KR20240064698A KR 20240064698 A KR20240064698 A KR 20240064698A KR 1020247012328 A KR1020247012328 A KR 1020247012328A KR 20247012328 A KR20247012328 A KR 20247012328A KR 20240064698 A KR20240064698 A KR 20240064698A
Authority
KR
South Korea
Prior art keywords
feature
probability
feature map
feature element
estimation result
Prior art date
Application number
KR1020247012328A
Other languages
English (en)
Inventor
이보 쉬
유닝 게
징 왕
주에 마오
인 자오
하이타오 양
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20240064698A publication Critical patent/KR20240064698A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Analysis (AREA)

Abstract

이 출원은 특징 맵 인코딩 및 디코딩 방법 및 장치를 제공하고, 인공 지능(AI)-기반 데이터 인코딩 및 디코딩 기술의 분야, 그리고 구체적으로, 신경망-기반 데이터 인코딩 및 디코딩 기술의 분야에 관한 것이다. 특징 맵 디코딩 방법은, 디코딩 대상 특징 맵의 비트스트림을 획득하는 단계 - 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -; 비트스트림에 기초하여 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과를 획득하는 단계 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 -; 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하는 단계; 및 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득하는 단계를 포함한다. 각각의 특징 엘리먼트의 디코딩 방식은 각각의 특징 엘리먼트에 대응하는 확률 추정 결과 및 제1 피크 확률에 기초하여 결정되고, 이에 의해, 인코딩 및 디코딩 복잡도가 감소되고, 인코딩 및 디코딩 성능이 개선된다.

Description

특징 맵 인코딩 및 디코딩 방법 및 장치
이 출원은 "특징 맵 인코딩 및 디코딩 방법 및 장치(FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS)"라는 명칭으로 2021년 9월 18일자로 중국 특허청에 출원된 중국 특허 출원 제202111101920.9호에 대한 우선권을 주장하고, 이 중국 특허 출원은 그 전체적으로 참조로 본 명세서에 통합된다. 이 출원은 "특징 맵 인코딩 및 디코딩 방법 및 장치(FEATURE MAP ENCODING AND DECODING METHOD AND APPARATUS)"라는 명칭으로 2022년 3월 25일자로 중국 특허청에 출원된 중국 특허 출원 제202210300566.0호에 대한 우선권을 주장하고, 이 중국 특허 출원은 그 전체적으로 참조로 본 명세서에 통합된다.
이 출원의 실시예는 인공 지능(AI : artificial intelligence)-기반 오디오/비디오 또는 이미지 압축 기술의 분야, 특히, 특징 맵(feature map) 인코딩 및 디코딩 방법 및 장치에 관한 것이다.
이미지 압축은 이미지 정보의 효과적인 송신 및 저장을 구현하기 위하여, 손실성 또는 무손실성 방식으로 더 적은 비트로 원본 이미지 픽셀 행렬을 나타내기 위해 공간적 중복성, 시각적 중복성, 및 통계적 중복성과 같은 이미지 데이터 특징을 이용하는 기술이다. 이미지 압축은 무손실성 압축 및 손실성 압축으로 분류된다. 무손실성 압축은 이미지 세부사항의 임의의 손실을 야기시키지 않는 반면, 손실성 압축은 이미지 품질을 특정 한도로 감소시키는 것을 희생하여 큰 압축 비율을 달성한다. 손실성 이미지 압축 알고리즘에서, 많은 기술은 통상적으로, 이미지 데이터의 중복적인 정보를 제거하기 위하여 이용된다. 예를 들어, 양자화 기술은 이미지 내의 인접한 픽셀 사이의 상관(correlation)에 의해 야기되는 공간적 중복성, 및 인간 시각계(visual system)의 지각에 의해 결정되는 시각적 중복성을 제거하기 위하여 이용된다. 엔트로피 코딩 및 변환 기술은 이미지 데이터의 통계적 중복성을 제거하기 위하여 이용된다. 기존의 손실성 이미지 압축 기술에 대한 본 기술분야에서의 통상의 기술자에 의한 수십 년의 연구 및 최적화 후에, JPEG 및 BPG와 같은 성숙한 손실성 이미지 압축 표준이 형성되었다.
그러나, 이미지 압축 기술이 압축 효율을 개선시킬 수 없고 이미지 압축 품질을 보장할 수 없는 경우에, 이미지 압축 기술은 이 시대에 멀티미디어 애플리케이션의 증가하는 요건을 충족시킬 수 없다.
이 출원은 인코딩 및 디코딩 복잡도를 감소시키고 인코딩 및 디코딩 성능을 개선시키기 위한 특징 맵 인코딩 및 디코딩 방법 및 장치를 제공한다.
제1 측면에 따르면, 이 출원은 특징 맵 디코딩 방법을 제공한다. 방법은, 디코딩 대상 특징 맵(to-be-decoded feature map)의 비트스트림을 획득하는 단계 - 디코딩 대상 특징 맵은 복수의 특징 엘리먼트(feature element)를 포함함 -; 디코딩 대상 특징 맵의 비트스트림에 기초하여 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과(probability estimation result)를 획득하는 단계 - 제1 확률 추정 결과는 제1 피크 확률(peak probability)을 포함함 -; 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하는 단계; 및 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득하는 단계를 포함한다.
제1 임계치, 및 각각의 특징 엘리먼트의 수치 값이 고정된 값일 대응하는 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 및 제2 특징 엘리먼트를 결정하는 방법과 비교하면, 이 출원에서, 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 피크 확률에 기초하여, 제1 특징 엘리먼트 및 제2 특징 엘리먼트를 결정하기 위한 방법이 더 정확하고, 이에 의해, 획득되는 디코딩된 특징 맵의 정확도가 개선되고 데이터 디코딩 성능이 개선된다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포(Gaussian distribution)이고, 제1 피크 확률은 가우시안 분포의 평균 확률(mean probability)이다.
대안적으로, 제1 확률 추정 결과는 혼합된 가우시안 분포(mixed Gaussian distribution)이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다.
가능한 구현예에서, 디코딩된 특징 맵의 값은 제1 특징 엘리먼트 세트 내의 모든 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트 세트 내의 모든 제2 특징 엘리먼트의 수치 값을 포함한다.
가능한 구현예에서는, 제1 특징 엘리먼트 세트가 비어 있는 세트이거나, 제2 특징 엘리먼트 세트가 비어 있는 세트이다.
가능한 구현예에서, 제1 확률 추정 결과는 제1 피크 확률에 대응하는 특징 값을 더 포함한다. 추가로, 제1 특징 엘리먼트의 수치 값을 획득하기 위하여, 엔트로피 디코딩(entropy decoding)이 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 기초하여 제1 특징 엘리먼트에 대해 수행될 수 있다. 제2 특징 엘리먼트의 수치 값은 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 획득된다. 이 가능한 구현예에서, 고정된 값을 비코딩된 특징 엘리먼트(즉, 제2 특징 엘리먼트)의 값에 배정하는 것과 비교하면, 이 출원에서는, 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값이 비코딩된 특징 엘리먼트(즉, 제2 특징 엘리먼트)의 값에 배정되고, 이에 의해, 디코딩된 데이터 맵의 값 중 제2 특징 엘리먼트의 수치 값의 정확도가 개선되고, 데이터 디코딩 성능이 개선된다.
가능한 구현예에서, 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하기 전에, 제1 임계치는 디코딩 대상 특징 맵의 비트스트림에 기초하여 추가로 획득될 수 있다. 이 가능한 구현예에서, 제1 임계치가 경험적 사전설정된 값인 방법과 비교하면, 디코딩 대상 특징 맵은 디코딩 대상 특징 맵의 제1 임계치에 대응하고, 제1 임계치의 변경가능성 및 유연성이 증가되고, 이에 의해, 비코딩된 특징 엘리먼트(즉, 제2 특징 엘리먼트)의 대체 값과 진정한 값 사이의 차이가 감소되고, 디코딩된 특징 맵의 정확도가 증가된다.
가능한 구현예에서, 제1 특징 엘리먼트의 제1 피크 확률은 제1 임계치 이하이고, 제2 특징 엘리먼트의 제1 피크 확률은 제1 임계치 초과이다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이다. 제1 확률 추정 결과는 제1 확률 분산 값(probability variance value)을 더 포함한다. 이 경우에, 제1 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 이상이고, 제2 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 미만이다. 이 가능한 구현예에서, 확률 추정 결과가 가우시안 분포일 때, 확률 분산 값에 기초하여 제1 특징 엘리먼트 및 제2 특징 엘리먼트를 결정하는 시간 복잡도는 피크 확률에 기초하여 제1 특징 엘리먼트 및 제2 특징 엘리먼트를 결정하는 방식의 시간 복잡도 미만이고, 이에 의해, 데이터 디코딩 속력이 개선된다.
가능한 구현예에서, 디코딩 대상 특징 맵에 대응하는 부가 정보(side information)는 디코딩 대상 특징 맵의 비트스트림에 기초하여 획득된다. 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과는 부가 정보에 기초하여 획득된다.
가능한 구현예에서, 디코딩 대상 특징 맵에 대응하는 부가 정보는 디코딩 대상 특징 맵의 비트스트림에 기초하여 획득된다. 각각의 특징 엘리먼트의 제1 확률 추정 결과는 부가 정보 및 제1 컨텍스트 정보(context information)에 기초하여 인코딩 대상 특징 맵(to-be-encoded feature map) 내의 각각의 특징 엘리먼트에 대하여 추정된다. 제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 디코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다. 이 가능한 구현예에서, 각각의 특징 엘리먼트의 확률 추정 결과는 부가 정보 및 컨텍스트 정보에 기초하여 획득되고, 이에 의해, 확률 추정 결과의 정확도가 개선되고, 인코딩 및 디코딩 성능이 개선된다.
제2 측면에 따르면, 이 출원은 특징 맵 인코딩 방법을 제공한다. 방법은, 제1 인코딩 대상 특징 맵을 획득하는 단계 - 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -; 제1 인코딩 대상 특징 맵에 기초하여 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 단계 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 -; 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 피크 확률에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하는 단계; 및 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩(entropy encoding)을 수행하는 단계를 포함한다.
제2 측면에서의 방법에 따르면, 엔트로피 인코딩이 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대해 수행될 필요가 있는지 여부가 결정되고, 이에 의해, 인코딩 대상 특징 맵 내의 일부 특징 엘리먼트의 인코딩 프로세스가 스킵(skip)되고, 엔트로피 인코딩을 수행하기 위한 엘리먼트의 수량이 상당히 감소되고, 엔트로피 인코딩 복잡도가 감소된다. 추가적으로, 각각의 특징 엘리먼트에 대응하는 확률 추정 결과 내의 고정된 값에 대응하는 확률에 기초하여, 특징 엘리먼트가 인코딩될 필요가 있는지 여부를 결정하는 것과 비교하면, 결정 결과(엔트로피 인코딩이 특징 엘리먼트에 대해 수행될 필요가 있는지 여부)의 신뢰성은 각각의 특징 엘리먼트의 확률 피크에 기초하여 개선되고, 더 많은 특징 엘리먼트의 인코딩 프로세스가 스킵되고, 이에 의해, 인코딩 속력이 추가로 개선되고, 인코딩 성능이 개선된다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이고, 제1 피크 확률은 가우시안 분포의 평균 확률이다.
대안적으로, 제1 확률 추정 결과는 혼합된 가우시안 분포이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다.
가능한 구현예에서, 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부는 제1 임계치, 및 특징 엘리먼트의 제1 피크 확률에 기초하여 결정된다.
가능한 구현예에서, 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과는 제1 인코딩 대상 특징 맵에 기초하여 결정되고, 여기서, 제2 확률 추정 결과는 제2 피크 확률을 포함한다. 제3 특징 엘리먼트 세트는 각각의 특징 엘리먼트의 제2 확률 추정 결과에 기초하여 복수의 특징 엘리먼트로부터 결정된다. 제1 임계치는 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제2 피크 확률에 기초하여 결정된다. 엔트로피 인코딩은 제1 임계치에 대해 수행된다. 이 가능한 구현예에서, 인코딩 대상 특징 맵의 제1 임계치는 인코딩 대상 특징 맵의 특징 엘리먼트에 기초하여 인코딩 대상 특징 맵에 대하여 결정될 수 있어서, 이로써 제1 임계치는 인코딩 대상 특징 맵에 대한 더 양호한 적응성(adaptability)을 가지고, 이에 의해, 제1 임계치, 및 특징 엘리먼트의 제1 피크 확률에 기초하여 결정되는 결정 결과(즉, 엔트로피 인코딩이 특징 엘리먼트에 대해 수행될 필요가 있는지 여부)의 신뢰성이 개선된다.
가능한 구현예에서, 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제2 피크 확률 중 가장 큰 제2 피크 확률이다.
가능한 구현예에서, 제1 특징 엘리먼트의 제1 피크 확률은 제1 임계치 이하이다.
가능한 구현예에서, 제2 확률 추정 결과는 가우시안 분포이고, 제2 확률 추정 결과는 제2 확률 분산 값을 더 포함한다. 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제2 확률 분산 값 중 가장 작은 제2 확률 분산 값이다. 이 경우에, 제1 확률 추정 결과는 가우시안 분포이고, 제1 확률 추정 결과는 제1 확률 분산 값을 더 포함한다. 제1 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 이상이다. 이 가능한 구현예에서, 확률 추정 결과가 가우시안 분포일 때, 확률 분산 값에 기초하여 제1 특징 엘리먼트를 결정하는 시간 복잡도는 피크 확률에 기초하여 제1 특징 엘리먼트를 결정하는 시간 복잡도 미만이고, 이에 의해, 데이터 인코딩 속력이 개선된다.
가능한 구현예에서, 제2 확률 추정 결과는 제2 피크 확률에 대응하는 특징 값을 더 포함한다. 추가로, 제3 특징 엘리먼트 세트는 사전설정된 오차, 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값에 기초하여 복수의 특징 엘리먼트로부터 결정된다.
가능한 구현예에서, 제3 특징 엘리먼트 세트 내의 특징 엘리먼트는 다음의 특징을 가진다: . 는 특징 엘리먼트의 수치 값이다. 는 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값이다. 는 사전설정된 오차이다.
가능한 구현예에서, 제1 확률 추정 결과는 제2 확률 추정 결과와 동일하다. 이 경우에, 제1 인코딩 대상 특징 맵의 부가 정보는 제1 인코딩 대상 특징 맵에 기초하여 획득된다. 각각의 특징 엘리먼트의 제1 확률 추정 결과를 획득하기 위하여, 확률 추정(probability estimation)이 부가 정보에 대해 수행된다.
가능한 구현예에서, 제1 확률 추정 결과는 제2 확률 추정 결과와는 상이하다. 이 경우에, 제1 인코딩 대상 특징 맵의 부가 정보, 및 각각의 특징 엘리먼트의 제2 컨텍스트 정보는 제1 인코딩 대상 특징 맵에 기초하여 획득된다. 제2 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제1 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다. 각각의 특징 엘리먼트의 제2 확률 추정 결과는 부가 정보 및 제2 컨텍스트 정보에 기초하여 획득된다.
가능한 구현예에서, 제1 인코딩 대상 특징 맵의 부가 정보는 제1 인코딩 대상 특징 맵에 기초하여 획득된다. 제1 인코딩 대상 특징 맵 내의 임의의 특징 엘리먼트에 대하여, 특징 엘리먼트의 제1 확률 추정 결과는 제1 컨텍스트 정보 및 부가 정보에 기초하여 결정된다. 제1 확률 추정 결과는 제1 확률 피크에 대응하는 특징 값을 더 포함한다. 제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제2 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다. 제2 인코딩 대상 특징 맵의 값은 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값을 포함한다. 제2 특징 엘리먼트는 제1 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트 이외의 특징 엘리먼트이다. 이러한 방식으로, 각각의 특징 엘리먼트의 확률 추정 결과는 부가 정보 및 컨텍스트 정보를 참조하여 획득되고, 이에 의해, 각각의 특징 엘리먼트의 확률 추정 결과가 부가 정보만에 기초하여 획득되는 방식과 비교하여, 각각의 특징 엘리먼트의 확률 추정 결과의 정확도가 개선된다.
가능한 구현예에서, 모든 제1 특징 엘리먼트의 엔트로피 인코딩 결과는 인코딩된 비트스트림으로 기입(write)된다.
제3 측면에 따르면, 이 출원은 특징 맵 디코딩 장치를 제공하고, 이 특징 맵 디코딩 장치는:
디코딩 대상 특징 맵의 비트스트림을 획득하고 - 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -, 디코딩 대상 특징 맵의 비트스트림에 기초하여 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하도록 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 - 구성되는 획득 모듈; 및
제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하고, 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득하도록 구성되는 디코딩 모듈을 포함한다.
획득 모듈 및 디코딩 모듈의 추가의 구현 기능에 대해서는, 제1 측면 또는 제1 측면의 구현예 중의 임의의 하나를 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제4 측면에 따르면, 이 출원은 특징 맵 인코딩 장치를 제공하고, 이 특징 맵 인코딩 장치는:
제1 인코딩 대상 특징 맵을 획득하도록 구성되는 획득 모듈 - 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -; 및
제1 인코딩 대상 특징 맵에 기초하여 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하고 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 -, 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 피크 확률에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하고, 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행하도록 구성되는 인코딩 모듈을 포함한다.
획득 모듈 및 인코딩 모듈의 추가의 구현 기능에 대해서는, 제2 측면 또는 제2 측면의 구현예 중의 임의의 하나를 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제5 측면에 따르면, 이 출원은 디코더를 제공한다. 디코더는 프로세싱 회로를 포함하고, 제1 측면 및 제1 측면의 구현예 중의 임의의 하나에 따른 방법을 결정하도록 구성된다.
제6 측면에 따르면, 이 출원은 인코더를 제공한다. 인코더는 프로세싱 회로를 포함하고, 제2 측면 및 제2 측면의 구현예 중의 임의의 하나에 따른 방법을 결정하도록 구성된다.
제7 측면에 따르면, 이 출원은 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드가 컴퓨터 또는 프로세서에 의해 결정될 때, 제1 측면 및 제1 측면의 구현예 중의 임의의 하나에 따른 방법, 또는 제2 측면 및 제2 측면의 구현예 중의 임의의 하나에 따른 방법이 결정된다.
제8 측면에 따르면, 이 출원은, 하나 이상의 프로세서, 및 프로세서에 결합되고 프로세서에 의해 결정되는 프로그램을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체를 포함하는 디코더를 제공한다. 프로세서에 의해 결정될 때, 프로그램은 디코더가 제1 측면 및 제1 측면의 구현예 중의 임의의 하나에 따른 방법을 결정하는 것을 가능하게 한다.
제9 측면에 따르면, 이 출원은, 하나 이상의 프로세서, 및 프로세서에 결합되고 프로세서에 의해 결정되는 프로그램을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체를 포함하는 인코더를 제공한다. 프로세서에 의해 결정될 때, 프로그램은 인코더가 제2 측면 및 제2 측면의 구현예 중의 임의의 하나에 따른 방법을 결정하는 것을 가능하게 한다.
제10 측면에 따르면, 이 출원은 프로그램 코드를 포함하는 비-일시적 컴퓨터-판독가능 저장 매체를 제공한다. 프로그램 코드가 컴퓨터 디바이스에 의해 결정될 때, 제1 측면 및 제1 측면의 구현예 중의 임의의 하나에 따른 방법, 또는 제2 측면 및 제2 측면의 구현예 중의 임의의 하나에 따른 방법이 결정된다.
제11 측면에 따르면, 본 발명은 디코딩 장치에 관한 것이다. 디코딩 장치는 제1 측면 또는 제1 측면의 방법 실시예 중의 임의의 하나에 따른 거동을 구현하는 기능을 가진다. 기능은 하드웨어에 의해 구현될 수 있거나, 대응하는 소프트웨어를 결정하는 하드웨어에 의해 구현될 수 있다. 하드웨어 또는 소프트웨어는 상기한 기능에 대응하는 하나 이상의 모듈을 포함한다.
제12 측면에 따르면, 본 발명은 인코딩 장치에 관한 것이다. 인코딩 장치는 제2 측면 또는 제2 측면의 방법 실시예 중의 임의의 하나에 따른 거동을 구현하는 기능을 가진다. 기능은 하드웨어에 의해 구현될 수 있거나, 대응하는 소프트웨어를 결정하는 하드웨어에 의해 구현될 수 있다. 하드웨어 또는 소프트웨어는 상기한 기능에 대응하는 하나 이상의 모듈을 포함한다.
도 1은 이 출원의 실시예에 따른 데이터 디코딩 시스템의 아키텍처의 개략도이다.
도 2a는 이 출원의 실시예에 따른 확률 추정 모듈(103)의 출력 결과의 개략도이다.
도 2b는 이 출원의 실시예에 따른 확률 추정 결과의 개략도이다.
도 3은 이 출원의 실시예에 따른 특징 맵 인코딩 방법의 개략적인 순서도이다.
도 4a는 이 출원의 실시예에 따른 확률 추정 모듈(103)의 입력 및 출력 결과의 개략도이다.
도 4b는 이 출원의 실시예에 따른 확률 추정 네트워크의 구조의 개략도이다.
도 4c는 이 출원의 실시예에 따른 제1 임계치 결정 방법의 개략적인 순서도이다.
도 5는 이 출원의 실시예에 따른 특징 맵 디코딩 방법의 개략적인 순서도이다.
도 6a는 이 출원의 실시예에 따른 또 다른 특징 맵 인코딩 방법의 개략적인 순서도이다.
도 6b는 이 출원의 실시예에 따른 또 다른 확률 추정 모듈(103)의 입력 및 출력 결과의 개략도이다.
도 7a는 이 출원의 실시예에 따른 또 다른 특징 맵 디코딩 방법의 개략적인 순서도이다.
도 7b는 이 출원의 실시예에 따른 압축 성능 비교 테스트의 실험 결과의 개략도이다.
도 7c는 이 출원의 실시예에 따른 또 다른 압축 성능 비교 테스트의 실험 결과의 개략도이다.
도 8은 이 출원의 실시예에 따른 특징 맵 인코딩 장치의 구조의 개략도이다.
도 9는 이 출원의 실시예에 따른 특징 맵 디코딩 장치의 구조의 개략도이다.
도 10은 이 출원의 실시예에 따른 컴퓨터 디바이스의 구조의 개략도이다.
다음은 첨부 도면을 참조하여 이 출원의 실시예에서의 기술적 해결책을 명확하게 그리고 완전하게 설명한다. 설명된 실시예는 이 출원의 실시예의 전부가 아니라 단지 일부인 것이 명확하다.
이 출원의 명세서 및 첨부 도면에서, 용어"제1", "제2" 등은 상이한 객체 사이를 구별하거나 동일한 객체의 상이한 프로세싱 사이를 구별하도록 의도되지만, 객체의 특정한 순서를 설명하기 위하여 이용되지는 않는다는 것이 주목되어야 한다. 추가적으로, 이 출원의 설명에서의 용어 "포함하는(including)", "가지는(having)", 또는 그 임의의 다른 변형은 비-배타적 포함을 포괄하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스는 열거된 단계 또는 유닛으로 제한되는 것이 아니라, 임의적으로, 다른 비열거된 단계 또는 유닛을 포함하거나, 임의적으로, 프로세스, 방법, 제품, 또는 디바이스의 다른 내재적인 단계 또는 유닛을 포함한다. 이 출원의 실시예에서, 단어 "예(example)", "예를 들어(for example)" 등은 예, 예시, 또는 설명을 부여하는 것을 나타내기 위하여 이용된다는 것이 주목되어야 한다. 이 출원의 실시예에서 "예" 또는 "예를 들어"로서 설명되는 임의의 실시예 또는 설계 방식은 또 다른 실시예 또는 설계 방식보다 더 바람직하거나 더 많은 장점을 가지는 것으로서 설명되지 않아야 한다. 구체적으로, 단어 "예" 또는 "예를 들어"의 이용은 구체적인 방식으로 상대적인 개념을 제시하도록 의도된다. 이 출원의 실시예에서, "A 및/또는 B"는 2개의 의미를 나타낸다: A 및 B, 그리고 A 또는 B. "A, 및/또는 B, 및/또는 C"는 A, B, 및 C 중의 임의의 하나를 나타내거나, A, B, 및 C 중의 임의의 2개를 나타내거나, A, B, 및 C를 나타낸다. 다음은 첨부 도면을 참조하여 이 출원의 기술적 해결책을 설명한다.
이 출원의 실시예에서 제공되는 특징 맵 디코딩 방법 및 특징 맵 인코딩 방법은 데이터 코딩 분야(오디오 코딩 분야, 비디오 코딩 분야, 및 이미지 코딩 분야를 포함함)에서 이용될 수 있다. 구체적으로, 특징 맵 디코딩 방법 및 특징 맵 인코딩 방법은 앨범 관리(album management), 인간-컴퓨터 상호작용, 오디오 압축 또는 송신, 비디오 압축 또는 송신, 이미지 압축 또는 송신, 및 데이터 압축 또는 송신의 시나리오에서 이용될 수 있다. 설명의 용이함을 위하여, 이 출원의 실시예는, 특징 맵 디코딩 방법 및 특징 맵 인코딩 방법이 이미지 코딩 분야에서 이용되는 예를 이용함으로써 단지 설명되고, 이것은 이 출원에서 제공되는 방법에 대한 제한으로서 간주될 수 없다는 것이 주목되어야 한다.
구체적으로, 특징 맵 인코딩 방법 및 특징 맵 디코딩 방법이 종단-대-종단(end-to-end) 이미지 특징 맵 인코딩 및 디코딩 시스템에서 이용되는 예가 이용된다. 종단-대-종단 이미지 특징 맵 인코딩 및 디코딩 시스템은 2개의 파트를 포함한다: 이미지 인코딩 및 이미지 디코딩. 이미지 인코딩은 출발지 종단(source end)에서 결정되고, 통상적으로, (더 효율적인 저장 및/또는 송신을 위하여) 비디오 이미지를 나타내기 위해 요구되는 데이터의 양을 감소시키기 위하여 원본 비디오 이미지를 (예를 들어, 압축함으로써) 프로세싱하는 것을 포함한다. 이미지 디코딩은 목적지 종단(destination end)에서 결정되고, 통상적으로, 이미지를 재구성하기 위한 인코더에 대한 역 프로세싱을 포함한다. 종단-대-종단 이미지 특징 맵 인코딩 및 디코딩 시스템에서, 이 출원에서 제공되는 특징 맵 디코딩 방법 및 특징 맵 인코딩 방법에 따르면, 엔트로피 인코딩이 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대해 수행될 필요가 있는지 여부가 결정될 수 있고, 이에 의해, 일부 특징 엘리먼트의 인코딩 프로세스가 스킵될 수 있고, 엔트로피 인코딩을 수행하기 위한 엘리먼트의 수량이 감소될 수 있고, 엔트로피 인코딩 복잡도가 감소될 수 있다. 추가적으로, 결정 결과(엔트로피 인코딩이 특징 엘리먼트에 대해 수행될 필요가 있는지 여부)의 신뢰성은 각각의 특징 엘리먼트의 확률 피크에 기초하여 개선되고, 이에 의해, 이미지 압축 성능이 개선된다.
이 출원의 실시예는 신경망의 대용량 애플리케이션에 관한 것이다. 그러므로, 이해의 용이함을 위하여, 다음은 이 출원의 실시예에서의 신경망(neural network)에 관련되는 용어 및 개념을 먼저 설명한다.
1. 엔트로피 코딩(entropy coding)
엔트로피 코딩은 엔트로피 원리에 따라 정보가 손실되지 않는 코딩 프로세스이다. 엔트로피 코딩은 코딩된 비트스트림 등의 형태로 출력단에 의해 출력될 수 있는 코딩된 데이터를 획득하기 위하여, 양자화 계수(quantization coefficient) 또는 또 다른 신택스 엘리먼트(syntax element)인 엔트로피 코딩 알고리즘 또는 해결책을 이용하고, 이로써 디코더 등은 디코딩을 위하여 이용되는 파라미터를 수신하고 이용할 수 있다. 코딩된 비트스트림은 디코더로 송신될 수 있거나, 디코더에 의한 더 이후의 송신 또는 인출(retrieval)을 위하여 메모리 내에 저장될 수 있다. 엔트로피 코딩 알고리즘 또는 해결책은 가변-길이 코딩(variable length coding, VLC) 해결책, 컨텍스트-적응적 VLC 해결책(context adaptive VLC, CALVC), 산술 코딩 방식(arithmetic coding scheme), 2진화 알고리즘(binarization algorithm), 컨텍스트-적응적 2진 산술 코딩(context adaptive binary arithmetic coding, CABAC), 신택스-기반 컨텍스트-적응적 2진 산술 코딩(syntax-based context-adaptive binary arithmetic coding, SBAC), 확률 간격 파티셔닝 엔트로피(probability interval partitioning entropy, PIPE) 코딩, 또는 또 다른 엔트로피 코딩 방법 또는 기술을 포함하지만, 이것으로 제한되지 않는다.
2. 신경망(neural network)
신경망은 뉴런(neuron)을 포함할 수 있다. 뉴런은 xs 및 1의 절편(intercept)을 입력으로서 이용하는 동작 유닛일 수 있다. 동작 유닛의 출력은 공식 (1)로서 도시될 수 있다:
(1)
s=1, 2, ..., 또는 n, n은 1 초과인 자연수이고, Ws는 xs의 가중치이고, b는 뉴런의 바이어스(bias)이다. f는 뉴런 내의 입력 신호를 출력 신호로 변환하기 위하여, 비선형 특징을 신경망 내로 도입하기 위해 이용되는, 뉴런의 활성화 함수(activation functions)이다. 활성화 함수의 출력 신호는 다음 컨볼루션 계층(convolutional layer)의 입력으로서 역할을 할 수 있다. 활성화 함수는 시그모이드 함수(sigmoid function)일 수 있다. 신경망은 많은 단일 뉴런을 함께 접속함으로써 형성되는 네트워크이다. 구체적으로 말하면, 뉴런의 출력은 또 다른 뉴런의 입력일 수 있다. 각각의 뉴런의 입력은 국소적 수용성 필드(local receptive field)의 특징을 추출하기 위하여 이전 계층의 국소적 수용성 필드에 접속될 수 있다. 국소적 수용성 필드는 몇몇 뉴런을 포함하는 영역일 수 있다.
3. 심층 신경망(deep neural network, DNN)
DNN은 또한, 멀티-계층 신경망(multi-layer neural network)으로서 지칭되고, 복수의 은닉된 계층(hidden layer)을 가지는 신경망으로서 이해될 수 있다. DNN은 상이한 계층의 위치에 기초하여 분할되어, 이로써 DNN 내의 신경망은 3개의 유형: 입력 계층, 은닉된 계층, 및 출력 계층으로 분류될 수 있다. 일반적으로, 첫 번째 계층은 입력 계층이고, 마지막 계층은 출력 계층이고, 중간 계층은 은닉된 계층이다. 계층은 완전히 접속된다. 구체적으로 말하면, i 번째 계층에서의 임의의 뉴런은 (i+1) 번째 계층에서의 임의의 뉴런에 반드시 접속된다.
DNN이 복잡해 보이지만, 각각의 계층의 작업은 복잡하지 않다. 간단하게 말하면, DNN은 다음의 선형 관계 표현에 의해 지시된다: . 는 입력 벡터이고, 는 출력 벡터이고, 는 바이어스 벡터(bias vector)이고, 는 가중치 행렬(또한, 계수로서 지칭됨)이고, 는 활성화 함수이다. 각각의 계층에서, 출력 벡터 는 입력 벡터 에 대해 이러한 간단한 동작을 수행함으로써 획득된다. DNN 계층의 큰 수량으로 인해, 계수 및 바이어스 벡터 의 수량이 또한 크다. 이 파라미터는 DNN에서 다음과 같이 정의된다: 계수 는 예로서 이용된다. 3-계층 DNN에서는, 제2 계층에서의 제4 뉴런으로부터 제3 계층에서의 제2 뉴런으로의 선형 계수가 으로서 정의되는 것으로 가정된다. 윗첨자(superscript) 3은 계수 가 위치되는 계층을 나타내고, 아랫첨자(subscript)는 출력 제3-계층 인덱스 2 및 입력 제2-계층 인덱스 4에 대응한다.
결론적으로, (L-1) 번째 계층에서의 k 번째 뉴런으로부터 L 번째 계층에서의 j 번째 뉴런으로의 계수는 로서 정의된다.
입력 계층은 파라미터 를 가지지 않는다는 것이 주목되어야 한다. 심층 신경망에서, 더 많은 은닉된 계층은 네트워크가 실세계에서의 복잡한 경우를 더 많이 설명할 수 있게 한다. 이론적으로, 더 많은 파라미터를 갖는 모델은 더 높은 복잡도 및 더 큰 "용량(capacity)"을 가진다. 그것은 모델이 더 복잡한 학습 태스크를 완료할 수 있다는 것을 지시한다. 심층 신경망을 훈련시키는 프로세스는 가중치 행렬을 학습하는 프로세스이고, 훈련의 최종적인 목적은 훈련된 심층 신경망의 모든 계층에서의 가중치 행렬(복수의 계층에서의 벡터 에 의해 형성되는 가중치 행렬)을 획득하는 것이다.
4. 컨볼루션 신경망(convolutional neuron network, CNN)
CNN은 컨볼루션 구조를 갖는 심층 신경망이다. 컨볼루션 신경망은 컨볼루션 계층 및 서브-샘플링 계층을 포함하는 특징 추출기를 포함한다. 특징 추출기는 필터로서 간주될 수 있다. 컨볼루션 프로세스는 훈련가능한 필터 및 입력 이미지 또는 컨볼루션 특징 평면(특징 맵)을 이용함으로써 컨볼루션을 수행하는 것으로서 간주될 수 있다. 컨볼루션 계층은, 컨볼루션 신경망 내에 있으며, 컨볼루션 프로세싱이 입력 신호에 대해 수행되는 뉴런 계층이다. 컨볼루션 신경망의 컨볼루션 계층에서, 하나의 뉴런은 일부 인접-계층 뉴런에만 접속될 수 있다. 하나의 컨볼루션 계층은 통상적으로, 몇몇 특징 평면을 포함하고, 각각의 특징 평면은 직사각형 배열인 일부 뉴런을 포함할 수 있다. 동일한 특징 평면 내의 신경 유닛은 가중치를 공유하고, 본 명세서에서 공유되는 가중치는 컨볼루션 커널(convolutional kernel)이다. 가중치 공유는 이미지 정보 추출 방식이 위치에 관계없다는 것으로서 이해될 수 있다. 본 명세서에서 암시되는 원리는, 이미지의 부분의 통계적 정보가 다른 부분의 통계적 정보와 동일하다는 것이다. 이것은 부분에서 학습되는 이미지 정보가 또한, 다른 부분에서 이용될 수 있다는 것을 의미한다. 그러므로, 학습을 통해 획득되는 동일한 이미지 정보는 이미지 상의 모든 위치에 대하여 이용될 수 있다. 동일한 컨볼루션 계층에서, 복수의 컨볼루션 커널(convolutional kernel)은 상이한 이미지 정보를 추출하기 위하여 이용될 수 있다. 통상적으로, 컨볼루션 커널의 더 큰 수량은 컨볼루션 동작에서 반영되는 더 풍부한 이미지 정보를 지시한다.
컨볼루션 커널은 무작위적-크기 행렬의 형태로 초기화될 수 있다. 컨볼루션 신경망을 훈련시키는 프로세스에서, 컨볼루션 커널은 학습을 통해 적절한 가중치를 획득할 수 있다. 추가적으로, 가중치 공유에 의해 직접적으로 야기되는 이익은 컨볼루션 신경망의 계층 사이의 접속이 감소되고 과다적합 위험이 감소된다는 것이다.
5. 순환 신경망(recurrent neural network, RNN)
실세계에서, 많은 엘리먼트는 순서화되고 상호접속된다. 머신(machine)이 인간과 같은 메모리 용량을 가지는 것을 가능하게 하기 위하여, RNN은 컨텍스트로부터의 추론을 수행하도록 개발된다.
RNN은 시퀀스 데이터(sequence data)를 프로세싱한다. 구체적으로 말하면, 시퀀스의 현재 출력은 또한, 이전 출력에 관련된다. 다시 말해서, RNN의 출력은 현재 입력 정보 및 이력 메모리 정보에 종속된다. 구체적인 표현 형태는, 네트워크가 이전 정보를 기억하고 이전 정보를 현재 출력의 계산에 적용한다는 것이다. 구체적으로 말하면, 은닉된 계층에서의 노드는 접속되고, 은닉된 계층의 입력은 입력 계층의 출력을 포함할 뿐만 아니라, 이전 순간에서의 은닉된 계층의 출력을 포함한다. 이론적으로, RNN은 임의의 길이의 시퀀스 데이터를 프로세싱할 수 있다. RNN에 대한 훈련은 기존의 CNN 또는 DNN에 대한 훈련과 동일하다. 오차 역 전파 알고리즘(error back propagation algorithm)이 또한 이용되지만, 차이가 있다: RNN이 확장되는 경우에, RNN의 (와 같은) 파라미터가 공유된다. 이것은 상기한 예에서 설명된 기존의 신경망과는 상이하다. 추가적으로, 경도 하강 알고리즘의 이용 동안에, 각각의 단계에서의 출력은 현재 단계에서의 네트워크 뿐만 아니라, 몇몇 이전 단계에서의 네트워크 스테이터스에 종속된다. 학습 알고리즘은 시간을 통한 역 전파(back propagation through time, BPTT) 알고리즘으로서 지칭된다.
6. 손실 함수
심층 신경망을 훈련시키는 프로세스에서는, 심층 신경망의 출력이 실제적으로 예상되는 예측된 값에 가능한 한 근접한 것으로 예상되기 때문에, 현재 네트워크의 예측된 값, 및 실제적으로 예상되는 타깃 값은 비교될 수 있고, 그 다음으로, 신경망의 각각의 계층의 가중치 벡터는 예측된 값과 타깃 값 사이의 차이에 기초하여 업데이트된다(확실히, 제1 업데이트 전에 초기화 프로세스가 통상적으로 있고, 구체적으로 말하면, 파라미터는 심층 신경망의 모든 계층에 대하여 사전구성됨). 예를 들어, 네트워크의 예측된 값이 큰 경우에, 가중치 벡터는 예측된 값을 감소시키도록 조절되고, 심층 신경망이 실제적으로 예상되는 타깃 값, 또는 실제적으로 예상되는 타깃 값에 매우 근접한 값을 예측할 수 있을 때까지, 조절이 계속적으로 수행된다. 그러므로, "비교를 통해, 예측된 값과 타깃 값 사이의 차이를 어떻게 획득할 것인지"는 사전정의될 필요가 있다. 이것은 손실 함수(loss function) 또는 목적 함수(objective function)이다. 손실 함수 및 목적 함수는 예측된 값과 타깃 값 사이의 차이를 측정하는 중요한 수학식이다. 손실 함수는 예로서 이용된다. 손실 함수의 더 높은 출력 값(손실)은 더 큰 차이를 지시한다. 그러므로, 심층 신경망의 훈련은 손실을 가능한 한 많이 최소화하는 프로세스이다.
7. 역 전파 알고리즘(back propagation algorithm)
컨볼루션 신경망은 오차 역 전파(back propagation, BP) 알고리즘에 따라 훈련 프로세스에서 초기 수퍼-해상도 모델에서의 파라미터의 값을 정정할 수 있어서, 이로써 수퍼-해상도 모델을 재구성하는 오차 손실이 더 작아진다. 구체적으로, 입력 신호는 오차 손실이 출력에서 발생할 때까지 순방향으로 전송되고, 초기 수퍼-해상도 모델에서의 파라미터는 역 전파 오차 손실 정보에 기초하여 업데이트되어, 오차 손실이 수렴하게 된다. 역 전파 알고리즘은 최적 수퍼-해상도 모델의, 가중치 행렬과 같은 파라미터를 획득하도록 의도되는 오차-손실-중심형 역 전파 모션(error-loss-centered back propagation motion)이다.
8. 생성형 대립적 네트워크(Generative adversarial network)
생성형 대립적 네트워크(generative adversarial network, GAN)는 심층 학습 모델이다. 모델은 적어도 2개의 모듈을 포함한다: 하나의 모듈은 생성형 모델(Generative Model)이고, 다른 모듈은 판별형 모델(Discriminative Model)이다. 2개의 모듈은 더 양호한 출력을 생성하기 위하여, 서로의 게이밍(gaming)을 통해 학습하기 위하여 이용된다. 생성형 모델 및 판별형 모델의 둘 모두는 신경망일 수 있고, 구체적으로, 심층 신경망 또는 컨볼루션 신경망일 수 있다. GAN의 기본적인 원리는 다음과 같다: 픽처를 생성하기 위한 GAN을 예로서 이용하면, 2개의 네트워크가 있는 것으로 가정된다: G(생성기) 및 D(판별기). G는 픽처를 생성하기 위한 네트워크이다. G는 랜덤 잡음 z를 수신하고, 잡음을 이용함으로써 픽처를 생성하고, 여기서, 픽처는 G(z)로서 나타내어진다. D는 픽처가 "실제"인지 여부를 결정하기 위하여 이용되는 판별기 네트워크이다. D의 입력 파라미터는 x이고, x는 픽처를 나타내고, 출력 D(x)는 x가 실제 픽처일 확률을 나타낸다. D(x)의 값이 1인 경우에, 그것은 픽처가 100 % 실제인 것을 지시한다. D(x)의 값이 0인 경우에, 그것은 픽처가 실제일 수 없다는 것을 지시한다. 생성형 대립적 네트워크를 훈련시키는 프로세스에서, 생성형 네트워크 G의 목적은 판별형 네트워크 D를 기만하기 위하여 가능한 한 실제인 픽처를 생성하는 것이고, 판별형 네트워크 D의 목적은 G에 의해 생성된 픽처와 실제 픽처 사이를 가능한 한 많이 구별하는 것이다. 이러한 방식으로, 동적 "게이밍" 프로세스, 구체적으로 말하면, "생성형 대립적 네트워크"에서의 "대립"은 G와 D 사이에 존재한다. 최종적인 게이밍 결과는, 이상적인 상태에서, G가 실제 이미지로부터 어렵게 구별되어야 하는 이미지 G(z)를 생성할 수 있고, D가 G에 의해 생성되는 이미지가 실제인지 여부를 결정하는 것이 어렵다는 것이다. 구체적으로 말하면, D(G(z))=0.5이다. 이러한 방식으로, 우수한 생성형 모델 G가 획득되고, 픽처를 생성하기 위하여 이용될 수 있다.
9. 픽셀 값
이미지의 픽셀 값은 적색-녹색-청색(RGB : red-green-blue) 컬러 값일 수 있다. 픽셀 값은 컬러를 나타내는 긴 정수(integer)일 수 있다. 예를 들어, 픽셀 값은 256*Red+100*Green+76Blue이고, 여기서, Blue는 청색 컴포넌트를 나타내고, Green은 녹색 컴포넌트를 나타내고, Red는 적색 컴포넌트를 나타낸다. 각각의 컬러 컴포넌트에서, 더 작은 수치 값은 더 낮은 밝기(brightness)를 지시하고, 더 큰 수치 값은 더 높은 밝기를 지시한다. 그레이스케일(grayscale) 이미지에 대하여, 픽셀 값은 그레이스케일 값일 수 있다.
다음은 이 출원의 실시예에서 제공되는 시스템 아키텍처를 설명한다. 도 1은 이 출원의 실시예에 따른 데이터 디코딩 시스템의 아키텍처를 도시한다. 데이터 디코딩 시스템의 아키텍처는 데이터 캡처 모듈(101), 특징 추출 모듈(102), 확률 추정 모듈(103), 데이터 인코딩 모듈(104), 데이터 디코딩 모듈(105), 데이터 재구성 모듈(106), 및 디스플레이 모듈(107)을 포함한다.
데이터 캡처 모듈(101)은 원본 이미지를 캡처하도록 구성된다. 데이터 캡처 모듈(101)은 예를 들어, 실세계 이미지를 캡처하기 위한 임의의 종류의 이미지 캡처 디바이스, 및/또는 임의의 유형의 이미지 생성 디바이스, 예를 들어, 컴퓨터 애니메이팅된 이미지를 생성하기 위한 컴퓨터-그래픽 프로세서, 또는 실세계 이미지, 컴퓨터 생성된 이미지(예를 들어, 스크린 컨텐츠, 가상 현실(virtual reality, VR) 이미지), 및/또는 그 임의의 조합(예를 들어, 증강 현실(augmented reality, AR) 이미지)를 획득하고 및/또는 제공하기 위한 임의의 유형의 다른 디바이스를 포함할 수 있거나 이들일 수 있다. 데이터 캡처 모듈(101)은 또한, 이미지를 저장하기 위한 임의의 유형의 메모리 또는 스토리지(storage)일 수 있다.
특징 추출 모듈(102)은 데이터 캡처 모듈(101)로부터 원본 이미지를 수신하고, 원본 이미지를 프리-프로세싱하고, 특징 추출 네트워크를 통해 프리-프로세싱된 이미지로부터 특징 맵(즉, 인코딩 대상 특징 맵)을 추가로 추출하도록 구성된다. 특징 맵(즉, 인코딩 대상 특징 맵)은 복수의 특징 엘리먼트를 포함한다. 구체적으로, 원본 이미지에 대한 프리-프로세싱은 트리밍(trimming), 컬러 포맷 변환(예를 들어, RGB로부터 YCbCr로의 변환), 컬러 정정, 잡음제거, 정규화 등을 포함하지만, 이것으로 제한되지 않는다. 특징 추출 네트워크는 신경망, DNN, CNN, 또는 RNN 중의 하나 또는 그 변형일 수 있다. 특징 추출 네트워크의 구체적인 형태는 본 명세서에서 구체적으로 제한되지 않는다. 임의적으로, 특징 추출 모듈(102)은 또한, 예를 들어, 스칼라 양자화(scalar quantization) 또는 벡터 양자화(vector quantization)를 통해 특징 맵(즉, 인코딩 대상 특징 맵)에 대해 라운딩(rounding)을 수행하도록 구성된다. 특징 맵은 복수의 특징 엘리먼트를 포함하고, 특징 맵의 값은 모든 특징 엘리먼트의 수치 값을 포함한다는 것이 학습될 수 있다. 임의적으로, 특징 추출 모듈(102)은 부가 정보 추출 네트워크를 더 포함한다. 구체적으로 말하면, 특징 추출 네트워크에 의해 출력되는 특징 맵을 출력하는 것에 추가적으로, 특징 추출 모듈(102)은, 특징 맵에 대한 것이며 부가 정보 추출 네트워크를 통해 추출되는 부가 정보를 추가로 출력한다. 부가 정보 추출 네트워크는 신경망, DNN, CNN, 또는 RNN 중의 하나 또는 그 변형일 수 있다. 특징 추출 네트워크의 구체적인 형태는 본 명세서에서 구체적으로 제한되지 않는다.
확률 추정 모듈(103)은 특징 맵(즉, 인코딩 대상 특징 맵)의 복수의 특징 엘리먼트 각각에 대응하는 값의 확률을 추정한다. 예를 들어, 인코딩 대상 특징 맵은 m개의 특징 엘리먼트를 포함하고, 여기서, m은 양의 정수이다. 도 2a에서 도시된 바와 같이, 확률 추정 모듈(103)은 m개의 특징 엘리먼트 각각의 확률 추정 결과를 출력한다. 예를 들어, 특징 엘리먼트의 확률 추정 결과는 도 2b에서 도시될 수 있다. 도 2b에서의 수평 좌표는 특징 엘리먼트의 가능한 수치 값(또는 특징 엘리먼트의 가능한 값으로서 지칭됨)이다. 수직 좌표는 각각의 가능한 수치 값(또는 특징 엘리먼트의 가능한 값으로서 지칭됨)의 가능성을 지시한다. 예를 들어, 포인트 P는 [a-0.5, a+0.5]인 특징 엘리먼트의 값의 확률이 p인 것을 지시한다.
데이터 인코딩 모듈(104)은 인코딩된 비트스트림(또한, 이 명세서에서의 디코딩 대상 특징 맵의 비트스트림으로서 지칭됨)을 생성하기 위하여, 특징 추출 모듈(102)로부터의 특징 맵(즉, 인코딩 대상 특징 맵) 및 확률 추정 모듈(103)로부터의 각각의 특징 엘리먼트의 확률 추정 결과에 기초하여 엔트로피 인코딩을 수행하도록 구성된다.
데이터 디코딩 모듈(105)은 디코딩된 특징 맵(또는 디코딩된 특징 맵의 값으로서 이해됨)을 획득하기 위하여, 데이터 인코딩 모듈(104)로부터 인코딩된 비트스트림을 수신하고, 인코딩된 비트스트림, 및 확률 추정 모듈(103)로부터의 각각의 특징 엘리먼트의 확률 추정 결과에 기초하여, 엔트로피 디코딩을 추가로 수행하도록 구성된다.
데이터 재구성 모듈(106)은 디코딩된 이미지를 획득하기 위하여, 데이터 디코딩 모듈(105)로부터의 디코딩된 이미지 특징 맵에 대해 포스트-프로세싱(post-processing)을 수행하고, 이미지 재구성 네트워크를 통해 포스트-프로세싱되는 디코딩된 이미지 특징 맵에 대해 이미지 재구성을 수행하도록 구성된다. 포스트-프로세싱 동작은 컬러 포맷 변환(예를 들어, YCbCr로부터 RGB로의 변환), 컬러 정정, 트리밍(trimming), 리샘플링(resampling) 등을 포함하지만, 이것으로 제한되지 않는다. 이미지 재구성 네트워크는 신경망, DNN, CNN, 또는 RNN 중의 하나 또는 그 변형일 수 있다. 특징 추출 네트워크의 구체적인 형태는 본 명세서에서 구체적으로 제한되지 않는다.
디스플레이 모듈(107)은 이미지를 사용자, 뷰어(viewer) 등에게 디스플레이하기 위하여, 데이터 재구성 모듈(106)로부터의 디코딩된 이미지를 디스플레이하도록 구성된다. 디스플레이 모듈(107)은 재구성된 오디오 또는 재구성된 이미지를 나타내기 위하여 이용되는 임의의 유형의 플레이어 또는 디스플레이, 예를 들어, 통합된 또는 외부의 디스플레이 또는 디스플레이일 수 있거나 이들을 포함할 수 있다. 예를 들어, 디스플레이는 액정 디스플레이(liquid crystal display, LCD), 유기 발광 다이오드(organic light emitting diode, OLED) 디스플레이, 플라즈마 디스플레이, 프로젝터(projector), 마이크로 LED 디스플레이, 액정 온 실리콘(liquid crystal on silicon, LCoS) 디스플레이, 디지털 광 프로세서(digital light processor, DLP), 또는 임의의 클래스의 다른 디스플레이를 포함할 수 있다.
데이터 디코딩 시스템의 아키텍처는 디바이스의 기능 모듈일 수 있다는 것이 주목되어야 한다. 데이터 디코딩 시스템의 아키텍처는 대안적으로, 종단-대-종단 디코딩 시스템일 수 있고, 즉, 데이터 디코딩 시스템의 아키텍처는 2개의 디바이스: 출발지 디바이스 및 목적지 디바이스를 포함한다. 출발지 디바이스는 데이터 캡처 모듈(101), 특징 추출 모듈(102), 확률 추정 모듈(103), 및 데이터 인코딩 모듈(104)을 포함할 수 있다. 목적지 디바이스는 데이터 디코딩 모듈(105), 데이터 재구성 모듈(106), 및 디스플레이 모듈(107)을 포함할 수 있다. 출발지 디바이스가 인코딩된 비트스트림을 목적지 디바이스에 제공하도록 구성되는 방식 1: 출발지 디바이스는 인코딩된 비트스트림을 통신 인터페이스를 통해 목적지 디바이스로 전송할 수 있다. 통신 인터페이스는 출발지 디바이스와 목적지 디바이스 사이의 직접 통신 링크, 예를 들어, 직접 유선 또는 무선 접속일 수 있거나, 임의의 유형의 네트워크, 예를 들어, 유선 네트워크, 무선 네트워크, 그 임의의 조합, 임의의 유형의 사설 네트워크 및 공공 네트워크, 또는 그 임의의 조합을 통한 것일 수 있다. 출발지 디바이스가 인코딩된 비트스트림을 목적지 디바이스에 제공하도록 구성되는 방식 2: 대안적으로, 출발지 디바이스는 인코딩된 비트스트림을 저장 디바이스 내에 저장할 수 있고, 목적지 디바이스는 저장 디바이스로부터 인코딩된 비트스트림을 획득할 수 있다.
이 출원에서 언급되는 특징 맵 인코딩 방법은 도 1에서의 확률 추정 모듈(103) 및 데이터 인코딩 모듈(104)에 의해 주로 수행될 수 있다는 것이 주목되어야 한다. 이 출원에서 언급되는 특징 맵 디코딩 방법은 도 1에서의 확률 추정 모듈(103) 및 데이터 디코딩 모듈(105)에 의해 주로 수행될 수 있다.
예에서, 이 출원에서 제공되는 특징 맵 인코딩 방법은 인코딩 디바이스에 의해 수행되고, 인코딩 디바이스는 도 1에서의 확률 추정 모듈(103) 및 데이터 인코딩 모듈(104)을 주로 포함할 수 있다. 이 출원에서 제공되는 특징 맵 인코딩 방법에 대하여, 인코딩 디바이스는 다음의 단계: 단계 11 내지 단계 14를 포함할 수 있다.
단계 11: 인코딩 디바이스는 제1 인코딩 대상 특징 맵을 획득하고, 여기서, 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함한다.
단계 12: 인코딩 디바이스 내의 확률 추정 모듈(103)은 제1 인코딩 대상 특징 맵에 기초하여 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하고, 여기서, 제1 확률 추정 결과는 제1 피크 확률을 포함한다.
단계 13: 인코딩 디바이스는 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 피크 확률에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정한다.
단계 14: 인코딩 디바이스 내의 데이터 인코딩 모듈(104)은 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행한다.
또 다른 예에서, 이 출원에서 제공되는 특징 맵 디코딩 방법은 디코딩 디바이스에 의해 수행되고, 디코딩 디바이스는 도 1에서의 확률 추정 모듈(103) 및 데이터 디코딩 모듈(105)을 주로 포함한다. 이 출원에서 제공되는 특징 맵 디코딩 방법에 대하여, 디코딩 디바이스는 다음의 단계: 단계 21 내지 단계 24를 포함할 수 있다.
단계 21: 디코딩 디바이스는 디코딩 대상 특징 맵의 비트스트림을 획득하고, 여기서, 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함한다.
단계 22: 디코딩 디바이스 내의 확률 추정 모듈(103)은 디코딩 대상 특징 맵의 비트스트림에 기초하여 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하고, 여기서, 제1 확률 추정 결과는 제1 피크 확률을 포함한다.
단계 23: 디코딩 디바이스는 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정한다.
단계 24: 디코딩 디바이스 내의 데이터 디코딩 모듈(105)은 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득한다.
다음은 첨부 도면을 참조하여 이 출원에서 제공되는 특징 맵 디코딩 방법 및 특징 맵 인코딩 방법의 구체적인 구현예를 상세하게 설명한다. 이하에서, 도 3에서 도시되는 인코더 측에서의 수행 절차의 개략도, 및 도 5에서 도시되는 디코더 측에서의 수행 절차의 개략도는 특징 맵 인코딩 및 디코딩 방법의 개략적인 순서도로서 간주될 수 있다. 도 6a에서 도시되는 인코더 측에서의 수행 절차의 개략도, 및 도 7a에서 도시되는 디코더 측에서의 수행 절차의 개략도는 특징 맵 인코딩 및 디코딩 방법의 개략적인 순서도로서 간주될 수 있다.
인코더 측: 도 3은 이 출원의 실시예에 따른 특징 맵 인코딩 방법의 개략적인 순서도이다. 특징 맵 인코딩 방법의 절차는 S301 내지 S306을 포함한다.
S301: 제1 인코딩 대상 특징 맵을 획득하고, 여기서, 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함.
특징 추출이 원본 데이터에 대해 수행된 후에, 인코딩 대상 특징 맵 y가 획득된다. 추가로, 인코딩 대상 특징 맵 y는 양자화되고, 즉, 부동 소수점 수(floating point number)의 특징 값은 정수 특징 값을 획득하도록 라운딩되어, 양자화된 인코딩 대상 특징 맵 (즉, 제1 인코딩 대상 특징 맵)이 획득되고, 특징 맵 내의 특징 엘리먼트는 에 의해 지시된다. 구체적인 예에서는, 도 1에서 도시되는 데이터 캡처 모듈(101)에 의해 캡처되는 원본 이미지의 구체적인 설명, 및 특징 추출 모듈(102)에 의해 인코딩 대상 특징 맵을 획득하는 구체적인 설명을 참조한다.
S302: 제1 인코딩 대상 특징 맵에 기초하여 제1 인코딩 대상 특징 맵의 부가 정보를 획득함.
부가 정보는 인코딩 대상 특징 맵에 대한 추가의 특징 추출을 통해 획득되는 특징 맵으로서 이해될 수 있고, 부가 정보 내에 포함되는 특징 엘리먼트의 수량은 인코딩 대상 특징 맵 내의 특징 엘리먼트의 수량 미만이다.
가능한 구현예에서, 제1 인코딩 대상 특징 맵의 부가 정보는 부가 정보 추출 네트워크를 통해 획득될 수 있다. 부가 정보 추출 네트워크는 RNN, CNN, RNN의 변형, CNN의 변형, 또는 또 다른 심층 신경망(또는 또 다른 심층 신경망의 변형)을 이용할 수 있다. 이것은 이 출원에서 구체적으로 제한되지 않는다.
S303: 부가 정보에 기초하여 각각의 특징 엘리먼트의 제1 확률 추정 결과를 획득하고, 여기서, 제1 확률 추정 결과는 제1 피크 확률을 포함한다.
도 4a에서 도시된 바와 같이, 부가 정보는 도 1에서의 확률 추정 모듈(103)에 대한 입력으로서 이용되고, 확률 추정 모듈(103)로부터의 출력은 각각의 특징 엘리먼트의 제1 확률 추정 결과이다. 확률 추정 모듈(103)은 확률 추정 네트워크일 수 있고, 확률 추정 네트워크는 RNN, CNN, RNN의 변형, CNN의 변형, 또는 또 다른 심층 신경망(또는 또 다른 심층 신경망의 변형)을 이용할 수 있다. 도 4b는 확률 추정 네트워크의 구조의 개략도이다. 도 4b에서, 확률 추정 네트워크는 컨볼루션 네트워크이고, 컨볼루션 네트워크는 5개의 네트워크 계층: 3개의 컨볼루션 계층 및 2개의 비-선형 활성화 계층을 포함한다. 확률 추정 모듈(103)은 대안적으로, 비-네트워크 기존 확률 추정 방법에 따라 구현될 수 있다. 확률 추정 방법은 최대 우도 추정(maximum likelihood estimation), 최대 선험적 추정(maximum a posteriori estimation), 및 최대 우도 추정과 같은 통계적 방법을 포함하지만, 이것으로 제한되지 않는다.
제1 인코딩 대상 특징 맵 내의 임의의 특징 엘리먼트 에 대하여, 특징 엘리먼트 의 제1 확률 추정 결과는 특징 엘리먼트 의 각각의 가능한 값(또는 각각의 가능한 수치 값으로서 지칭됨)의 확률이다. 도 2b를 참조한다. 예를 들어, 수평 축은 특징 엘리먼트 의 각각의 가능한 값(또는 각각의 가능한 수치 값으로서 지칭됨)을 지시하고, 수직 축은 각각의 가능한 값(또는 각각의 가능한 수치 값으로서 지칭됨)의 가능성을 지시한다. 제1 피크 확률은 제1 확률 추정 결과 내의 가장 큰 확률이고, 또한, 제1 확률 추정 결과 내의 확률 피크로서 지칭될 수 있다. 도 2b에서 도시된 바와 같이, 포인트 P의 수직 좌표 상의 수치 값 는 제1 확률 추정 결과 내의 제1 피크 확률이다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이고, 제1 피크 확률은 가우시안 분포의 평균 확률이다. 예를 들어, 제1 확률 추정 결과는 도 2b에서 도시되는 가우시안 분포이고, 제1 피크는 가우시안 분포의 평균 확률, 즉, 평균 값 a에 대응하는 확률 이다.
또 다른 가능한 구현예에서, 제1 확률 추정 결과는 혼합된 가우시안 분포이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 다시 말해서, 혼합된 가우시안 분포는 가중화(weighing)를 통해 가우시안 분포를 가우시안 분포의 가중치와 승산(multiply)함으로써 획득될 수 있다. 가능한 경우에, 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이다. 대안적으로, 또 다른 가능한 경우에, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다.
예를 들어, 제1 확률 추정 결과는 혼합된 가우시안 분포이고, 혼합된 가우시안 분포는 가우시안 분포 1, 가우시안 분포 2, 및 가우시안 분포 3을 가중화함으로써 획득된다. 가우시안 분포 1의 가중치는 이고, 가우시안 분포 2의 가중치는 이고, 가우시안 분포 3의 가중치는 이다. 가우시안 분포 1의 평균 확률은 이다. 가우시안 분포 2의 평균 확률은 이다. 가우시안 분포 3의 평균 확률은 이다. . 제1 피크 확률이 가우시안 분포의 평균 확률에 있어서 가장 큰 값일 때, 제1 피크 확률은 가우시안 분포의 평균 확률의 가장 큰 값이다(즉, 가우시안 분포 1의 평균 확률은 임). 제1 피크 확률이 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산될 때, 제1 피크 확률은 공식 (2)에서 도시되어 있다.
제1 피크 확률= (2)
제1 확률 추정 결과가 혼합된 가우시안 분포일 때, 혼합된 가우시안 분포 내의 각각의 가우시안 분포에 대응하는 가중치는 확률 추정 네트워크(예를 들어, 확률 추정 모듈(103))를 통해 획득되고 출력될 수 있다는 것이 학습될 수 있다. 다시 말해서, 각각의 특징 엘리먼트의 제1 확률 추정 결과(즉, 혼합된 가우시안 분포)를 획득할 때, 확률 추정 네트워크는 또한, 혼합된 가우시안 분포 내에 포함되는 각각의 가우시안 분포에 대응하는 가중치를 획득한다.
S304: 각각의 특징 엘리먼트의 제1 확률 결과에 기초하여 제1 임계치를 결정함.
가능한 구현예에서, 제3 특징 엘리먼트 세트는 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제1 인코딩 대상 특징 맵 내의 복수의 특징 엘리먼트로부터 결정된다. 추가로, 제1 임계치는 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 결정된다.
다시 말해서, 제1 임계치를 결정하는 프로세스는 2개의 단계로 분할될 수 있다. 구체적으로, 단계(S401 내지 S402)를 포함하는, 제1 임계치를 결정하는 개략적인 순서도가 도 4c에서 도시되어 있다.
S401: 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정함.
제3 특징 엘리먼트 세트는 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제1 인코딩 대상 특징 맵 내의 복수의 특징 엘리먼트로부터 결정된다. 제3 특징 엘리먼트 세트는 제1 임계치를 결정하기 위한 특징 엘리먼트 세트로서 이해될 수 있다.
가능한 구현예에서, 제3 특징 엘리먼트 세트는 사전설정된 오차, 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 복수의 특징 엘리먼트로부터 결정될 수 있다. 각각의 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값은 특징 엘리먼트의 제1 확률 추정 결과 내의 제1 피크 확률에 대응하는 특징 엘리먼트의 가능한 값(또는 가능한 수치 값), 예를 들어, 도 2b에서의 포인트 P의 수평 좌표 수치 값 a이다. 사전설정된 오차 값은 특징 맵 인코딩 방법에서의 용인가능한 오차로서 이해될 수 있고, 경험적 값에 기초하여 또는 알고리즘에 따라 결정될 수 있다.
구체적으로, 결정된 제3 특징 엘리먼트 세트 내의 특징 엘리먼트는 공식 (3)에서 도시되는 특징을 가진다.
(3)
는 특징 엘리먼트 의 수치 값이고, 는 특징 엘리먼트 의 제1 피크 확률에 대응하는 특징 값이고, 는 사전설정된 오차이다.
예를 들어, 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 제1 인코딩 대상 특징 맵의 복수의 특징 엘리먼트 중 각각의 특징 엘리먼트의 제1 확률 추정 결과는 확률 추정 모듈을 통해 획득되었다. 이 경우에, 제3 특징 엘리먼트 세트를 형성하기 위하여, 공식 (3)을 충족시키는 특징 엘리먼트는 사전설정된 오차 e, 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과의 제1 피크 확률(이하에서 줄여서 특징 엘리먼트의 제1 피크 확률로서 지칭됨)에 기초하여 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5로부터 선택된다. 특징 엘리먼트 1의 수치 값과, 특징 엘리먼트 1에 대응하는 제1 피크 확률의 특징 값과의 사이의 절대 차이가 TH_2 초과인 경우에, 특징 엘리먼트 1은 공식 (3)을 충족시킨다. 특징 엘리먼트 2의 수치 값과, 특징 엘리먼트 2에 대응하는 제1 피크 확률의 특징 값과의 사이의 절대 차이가 TH_2 초과인 경우에, 특징 엘리먼트 2는 공식 (3)을 충족시킨다. 특징 엘리먼트 3의 수치 값과, 특징 엘리먼트 3에 대응하는 제1 피크 확률의 특징 값과의 사이의 절대 차이가 TH_2 미만인 경우에, 특징 엘리먼트 3은 공식 (3)을 충족시키지 않는다. 특징 엘리먼트 4의 수치 값과, 특징 엘리먼트 4에 대응하는 제1 피크 확률의 특징 값과의 사이의 절대 차이가 TH_2인 경우에, 특징 엘리먼트 4는 공식 (3)을 충족시키지 않는다. 특징 엘리먼트 5의 수치 값과, 특징 엘리먼트 5에 대응하는 제1 피크 확률의 특징 값과의 사이의 절대 차이가 TH_2 초과인 경우에, 특징 엘리먼트 5는 공식 (3)을 충족시킨다. 결론적으로, 제3 특징 엘리먼트 세트를 형성하기 위하여, 특징 엘리먼트 1, 특징 엘리먼트 2, 및 특징 엘리먼트 5는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5로부터의 제3 특징 엘리먼트인 것으로 결정된다.
S402: 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제1 임계치를 결정함.
제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 결정된다. 제1 확률 추정 결과의 형태는 가우시안 분포, 또는 또 다른 형태의 확률 분포(라플라스 분포(Laplace distribution) 또는 혼합된 가우시안 분포를 포함하지만 이것으로 제한되지 않음)를 포함한다.
다음은 제1 확률 분포 결과의 형태에 기초하여 상세하게 제1 임계치를 결정하는 방식을 설명한다.
방식 1: 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제1 피크 확률 중 가장 큰 제1 피크 확률이다.
이러한 방식으로, 제1 확률 분포 결과의 형태는 가우시안 분포, 또는 또 다른 형태의 확률 분포(라플라스 분포 또는 혼합된 가우시안 분포를 포함하지만 이것으로 제한되지 않음)일 수 있다는 것이 학습되어야 한다.
예를 들어, 제3 특징 엘리먼트 세트를 형성하기 위하여, 특징 엘리먼트 1, 특징 엘리먼트 2, 및 특징 엘리먼트 5는 제3 특징 엘리먼트인 것으로 결정된다. 특징 엘리먼트 1의 제1 피크 확률이 70%이고, 특징 엘리먼트 2의 제1 피크 확률이 65%이고, 특징 엘리먼트 5의 제1 피크 확률이 75%인 경우에, 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 가장 큰 제1 피크 확률(즉, 특징 엘리먼트 5의 제1 피크 확률 75%)은 제1 임계치인 것으로 결정된다.
방식 2: 제1 확률 추정 결과는 가우시안 분포이고, 제1 확률 추정 결과는 제1 확률 분산 값을 더 포함한다. 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제1 확률 분산 값 중 가장 작은 제1 확률 분산 값이다.
가우시안 분포의 수학적 특징은 다음과 같이 요약될 수 있다는 것이 학습될 수 있다: 가우시안 분포에서, 더 큰 제1 확률 분산 값은 더 작은 제1 피크 확률을 지시한다. 추가적으로, 제1 확률 추정 결과가 가우시안 분포일 때, 제1 확률 추정 결과로부터 제1 확률 분산 값을 획득하는 속력은 제1 확률 추정 결과로부터 제1 피크 확률을 획득하는 속력보다 빠르다. 제1 확률 추정 결과가 가우시안 분포일 때, 제1 확률 분산 값에 기초하여 제1 임계치를 결정하는 효율은 제1 피크 확률에 기초하여 제1 임계치를 결정하는 효율보다 높을 수 있다는 것이 학습될 수 있다.
예를 들어, 제3 특징 엘리먼트 세트를 형성하기 위하여, 특징 엘리먼트 1, 특징 엘리먼트 2, 및 특징 엘리먼트 5는 제3 특징 엘리먼트인 것으로 결정된다. 특징 엘리먼트 1의 제1 확률 분산 값 가 0.6이고, 특징 엘리먼트 2의 제1 확률 분산 값 가 0.7이고, 특징 엘리먼트 5의 제1 확률 분산 값 가 0.5인 경우에, 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 가장 작은 제1 확률 분산 값 (즉, 특징 엘리먼트 5의 확률 분산 값 0.5)는 제1 임계치인 것으로 결정된다.
제1 임계치는 제1 인코딩 대상 특징 맵 내의 특징 엘리먼트에 기초하여 결정되므로, 즉, 제1 임계치는 제1 인코딩 대상 특징 맵에 대응한다는 것이 인지되어야 한다. 데이터 디코딩을 용이하게 하기 위하여, 엔트로피 인코딩이 제1 임계치에 대해 수행될 수 있고, 엔트로피 인코딩의 결과는 제1 인코딩 대상 특징 맵의 인코딩 비트스트림으로 기입된다.
S305: 제1 임계치, 및 각각의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정함.
제1 인코딩 대상 특징 맵 내의 복수의 특징 엘리먼트 각각에 대하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부는 제1 임계치, 및 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 결정될 수 있다. 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하기 위한 중요한 결정 조건은 제1 임계치인 것이 학습될 수 있다. 다음은 제1 임계치를 결정하는 구체적인 방식에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하는 방식을 구체적으로 논의한다.
방식 1: 제1 임계치가 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제1 피크 확률 중 가장 큰 제2 피크 확률일 때, 제1 임계치에 기초하여 결정되는 제1 특징 엘리먼트는 다음의 조건을 충족시킨다: 제1 특징 엘리먼트의 제1 피크 확률은 제1 임계치 이하이다.
예를 들어, 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1, 특징 엘리먼트 2, 및 특징 엘리먼트 5는 제3 특징 엘리먼트 세트를 형성하고, 제3 특징 엘리먼트 세트에 기초하여, 제1 임계치가 75%인 것으로 결정된다. 이 경우에, 특징 엘리먼트 1의 제1 피크 확률이 70%이며 제1 임계치 미만인 경우에, 특징 엘리먼트 2의 제1 피크 확률은 65%이며 제1 임계치 미만이고, 특징 엘리먼트 3의 제1 피크 확률은 80%이며 제1 임계치 초과이고, 특징 엘리먼트 4의 제1 피크 확률은 60%이며 제1 임계치 미만이고, 특징 엘리먼트 5의 제1 피크 확률은 75%이며 제1 임계치이다. 결론적으로, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트인 것으로 결정된다.
방식 2: 제1 임계치가 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제1 확률 분산 값 중 가장 작은 제1 확률 분산 값일 때, 제1 임계치에 기초하여 결정되는 제1 특징 엘리먼트는 다음의 조건을 충족시킨다: 제1 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 이상이다.
예를 들어, 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1, 특징 엘리먼트 2, 및 특징 엘리먼트 5는 제3 특징 엘리먼트 세트를 형성하고, 제3 특징 엘리먼트 세트에 기초하여, 제1 임계치가 0.5인 것으로 결정된다. 이 경우에, 특징 엘리먼트 1의 제1 피크 확률이 0.6이며 제1 임계치 초과인 경우에, 특징 엘리먼트 2의 제1 피크 확률은 0.7이며 제1 임계치 초과이고, 특징 엘리먼트 3의 제1 피크 확률은 0.4이며 제1 임계치 미만이고, 특징 엘리먼트 4의 제1 피크 확률은 0.75이며 제1 임계치 초과이고, 특징 엘리먼트 5의 제1 피크 확률은 0.5이며 제1 임계치이다. 결론적으로, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트인 것으로 결정된다.
S306: 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행함.
제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트가 결정되고, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부가 결정된다. 특징 엘리먼트가 제1 특징 엘리먼트인 경우에, 제1 특징 엘리먼트가 인코딩되고, 제1 특징 엘리먼트의 인코딩 결과는 인코딩 비트스트림으로 기입된다. 다시 말해서, 엔트로피 인코딩은 특징 맵 내의 모든 제1 특징 엘리먼트에 대해 수행되고, 모든 제1 특징 엘리먼트의 엔트로피 인코딩 결과는 인코딩된 비트스트림으로 기입된다는 것이 이해될 수 있다.
예를 들어, 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트인 것으로 결정된다. 이 경우에, 엔트로피 인코딩은 특징 엘리먼트 2에 대해서가 아니라, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5에 대해 수행되고, 모든 제1 특징 엘리먼트의 엔트로피 인코딩 결과는 인코딩된 비트스트림으로 기입된다.
S305에서의 각각의 특징 엘리먼트의 결정 결과가 특징 엘리먼트가 제1 특징 엘리먼트가 아닌 것인 경우에, 엔트로피 인코딩은 특징 엘리먼트의 어느 것에 대해서도 수행되지 않는다는 것이 주목되어야 한다. S305에서의 각각의 특징 엘리먼트의 결정 결과가 특징 엘리먼트가 제1 특징 엘리먼트인 것인 경우에, 엔트로피 인코딩은 각각의 특징 엘리먼트에 대해 수행되고, 각각의 특징 엘리먼트의 엔트로피 인코딩 결과는 인코딩된 비트스트림 내로 기입된다.
가능한 구현예에서, 엔트로피 인코딩은 제1 인코딩 대상 특징 맵의 부가 정보에 대해 추가로 수행될 수 있고, 부가 정보의 엔트로피 인코딩 결과는 비트스트림으로 기입된다. 대안적으로, 추후의 데이터 디코딩을 용이하게 하기 위하여, 제1 인코딩 대상 특징 맵의 부가 정보는 디코더 측으로 전송될 수 있다.
디코더 측: 도 5는 이 출원의 실시예에 따른 특징 맵 인코딩 방법의 개략적인 순서도이다. 특징 인코딩 방법의 절차는 S501 내지 S504를 포함한다.
S501: 디코딩 대상 특징 맵의 비트스트림을 획득하고, 여기서, 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함.
인코딩 대상 특징 맵의 비트스트림은 S306에서 획득되는 인코딩된 비트스트림으로서 이해될 수 있다. 디코딩 대상 특징 맵은 데이터 디코딩이 비트스트림에 대해 수행된 후에 획득되는 특징 맵이다. 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함한다. 복수의 특징 엘리먼트는 2개의 파트: 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트로 분할된다. 제1 특징 엘리먼트 세트는 엔트로피 인코딩이 도 3에서의 특징 맵 인코딩 국면에서 수행되는 특징 엘리먼트의 세트이다. 제2 특징 엘리먼트 세트는 엔트로피 인코딩이 도 3에서의 특징 맵 인코딩 국면에서 수행되지 않는 특징 엘리먼트의 세트이다.
가능한 구현예에서는, 제1 특징 엘리먼트 세트가 비어 있는 세트이거나, 제2 특징 엘리먼트 세트가 비어 있는 세트이다. 제1 특징 엘리먼트 세트는 비어 있는 세트이고, 즉, 도 3에서의 특징 맵 인코딩 국면에서, 엔트로피 인코딩은 특징 엘리먼트의 어느 것에 대해서도 수행되지 않는다. 제2 특징 엘리먼트 세트는 비어 있는 세트이고, 즉, 도 3에서의 특징 맵 인코딩 국면에서, 엔트로피 인코딩은 각각의 특징 엘리먼트에 대해 수행된다.
S502: 디코딩 대상 특징 맵의 비트스트림에 기초하여 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하고, 여기서, 제1 확률 추정 결과는 제1 피크 확률을 포함함.
엔트로피 디코딩은 디코딩 대상 특징 맵의 비트스트림에 대해 수행된다. 추가로, 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과는 엔트로피 디코딩 결과에 기초하여 획득될 수 있다. 제1 확률 추정 결과는 제1 피크 확률을 포함한다.
가능한 구현예에서, 디코딩 대상 특징 맵에 대응하는 부가 정보는 디코딩 대상 특징 맵의 비트스트림에 기초하여 획득된다. 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과는 부가 정보에 기초하여 획득된다.
구체적으로, 디코딩 대상 특징 맵의 비트스트림은 부가 정보의 엔트로피 인코딩 결과를 포함한다. 그러므로, 엔트로피 디코딩은 디코딩 대상 특징 맵의 비트스트림에 대해 수행될 수 있고, 획득된 엔트로피 디코딩 결과는 디코딩 대상 특징 맵에 대응하는 부가 정보를 포함한다. 추가로, 도 4a에서 도시된 바와 같이, 부가 정보는 도 1에서의 확률 추정 모듈(103)로의 입력으로서 이용되고, 확률 추정 모듈(103)로부터의 출력은 각각의 특징 엘리먼트(제1 특징 엘리먼트 세트 내의 특징 엘리먼트 및 제2 특징 엘리먼트 세트 내의 특징 엘리먼트를 포함함)의 제1 확률 추정 결과이다.
예를 들어, 특징 엘리먼트의 제1 확률 추정 결과에 대해서는, 도 2b를 참조한다. 수평 축은 특징 엘리먼트 의 각각의 가능한 값(또는 각각의 가능한 수치 값으로서 지칭됨)을 지시하고, 수직 축은 각각의 가능한 값(또는 각각의 가능한 수치 값으로서 지칭됨)의 가능성을 지시한다. 제1 피크 확률은 제1 확률 추정 결과 내의 가장 큰 확률이고, 또한, 제1 확률 추정 결과 내의 확률 피크로서 지칭될 수 있다. 도 2b에서 도시된 바와 같이, 포인트 P의 수직 좌표 상의 수치 값 p는 제1 확률 추정 결과 내의 제1 피크 확률이다. 제1 확률 추정 결과는 가우시안 분포이고, 제1 피크 확률은 가우시안 분포의 평균 확률인 것이 학습되어야 한다. 대안적으로, 제1 확률 추정 결과는 혼합된 가우시안 분포이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다. 제1 확률 추정 결과에 기초하여 제1 피크 확률을 획득하는 구체적인 구현예에 대해서는, S303에서의 제1 확률 추정 결과 및 제1 피크 확률의 관련된 설명을 참조한다. 반복된 내용은 다시 설명되지 않는다.
확률 추정 모듈(103)은 확률 추정 네트워크일 수 있고, 확률 추정 네트워크는 RNN, CNN, RNN의 변형, CNN의 변형, 또는 또 다른 심층 신경망(또는 또 다른 심층 신경망의 변형)을 이용할 수 있다. 도 4b는 확률 추정 네트워크의 구조의 개략도이다. 도 4b에서, 확률 추정 네트워크는 컨볼루션 네트워크이고, 컨볼루션 네트워크는 5개의 네트워크 계층: 3개의 컨볼루션 계층 및 2개의 비-선형 활성화 계층을 포함한다. 확률 추정 모듈(103)은 대안적으로, 비-네트워크 기존 확률 추정 방법에 따라 구현될 수 있다. 확률 추정 방법은 최대 우도 추정, 최대 선험적 추정, 및 최대 우도 추정과 같은 통계적 방법을 포함하지만, 이것으로 제한되지 않는다.
S503: 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정함.
제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트는 제1 임계치와, 각각의 특징 엘리먼트에 대응하는 제1 피크 확률과의 사이의 수치 관계에 기초하여, 디코딩 대상 특징 맵 내의 복수의 엘리먼트로부터 결정된다. 제1 임계치는 특징 맵 인코딩 방법에 대응하는 디바이스와 특징 맵 디코딩 방법에 대응하는 디바이스 사이의 협상을 통해 결정될 수 있거나, 경험적 값에 기초하여 설정될 수 있다. 대안적으로, 제1 임계치는 디코딩 대상 특징 맵의 비트스트림에 기초하여 획득될 수 있다.
구체적으로, 제1 임계치는 S402에서의 방식 1에서 제3 특징 엘리먼트 세트 내의 가장 큰 제1 피크 확률일 수 있다. 이 경우에, 디코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대하여, 특징 엘리먼트의 제1 피크 확률이 제1 임계치 초과인 경우에, 특징 엘리먼트는 제2 특징 엘리먼트(즉, 제2 특징 엘리먼트 세트 내의 특징 엘리먼트)인 것으로 결정된다. 대안적으로, 특징 엘리먼트의 제1 피크 확률이 제1 임계치 이하(미만 또는 이하를 포함함)인 경우에, 특징 엘리먼트는 제1 특징 엘리먼트(즉, 제1 특징 엘리먼트 세트 내의 특징 엘리먼트)인 것으로 결정된다.
예를 들어, 제1 임계치는 75%이고, 디코딩 대상 특징 맵의 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1의 제1 피크 확률은 70%이며 제1 임계치 미만이고, 특징 엘리먼트 2의 제1 피크 확률은 65%이며 제1 임계치 미만이고, 특징 엘리먼트 3의 제1 피크 확률은 80%이며 제1 임계치 초과이고, 특징 엘리먼트 4의 제1 피크 확률은 60%이며 제1 임계치 미만이고, 특징 엘리먼트 5의 제1 피크 확률은 75%이며 제1 임계치이다. 결론적으로, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트인 것으로 결정된다. 결론적으로, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정되고, 특징 엘리먼트 3은 제2 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정된다.
이 경우에, 제1 확률 추정 결과의 형태는 가우시안 분포이고, 제1 확률 추정 결과는 제1 확률 분산 값을 더 포함한다. 이 경우에, S3의 임의적인 구현예는, 제1 임계치, 및 각각의 특징 엘리먼트의 제1 확률 분산 값에 기초하여, 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하는 것이다. 구체적으로, 제1 임계치는 S402에서의 방식 2에서 제3 특징 엘리먼트 세트 내의 가장 작은 제1 확률 분산 값일 수 있다. 추가로, 디코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대하여, 특징 엘리먼트의 제1 확률 분산 값이 제1 임계치 미만인 경우에, 특징 엘리먼트는 제2 특징 엘리먼트(즉, 제2 특징 엘리먼트 세트 내의 특징 엘리먼트)인 것으로 결정된다. 특징 엘리먼트의 제1 확률 분산 값이 제1 임계치 이상인 경우에, 특징 엘리먼트는 제1 특징 엘리먼트(즉, 제1 특징 엘리먼트 세트 내의 특징 엘리먼트)인 것으로 결정된다.
예를 들어, 제1 임계치는 0.5이고, 제1 인코딩 대상 특징 맵 내에 포함되는 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1의 제1 피크 확률은 0.6이며 제1 임계치 초과이고, 특징 엘리먼트 2의 제1 피크 확률은 0.7이며 제1 임계치 초과이고, 특징 엘리먼트 3의 제1 피크 확률은 0.4이며 제1 임계치 미만이고, 특징 엘리먼트 4의 제1 피크 확률은 0.75이며 제1 임계치 초과이고, 특징 엘리먼트 5의 제1 피크 확률은 0.5이며 제1 임계치이다. 결론적으로, 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정되고, 특징 엘리먼트 3은 제2 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정된다.
S504: 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득함.
다시 말해서, 디코딩된 특징 맵의 값은 제1 특징 엘리먼트 세트 내의 각각의 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트 세트 내의 각각의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 획득된다.
가능한 구현예에서, (제1 특징 엘리먼트 세트 내의 특징 엘리먼트의 일반적인 용어로서 이해되는) 제1 특징 엘리먼트의 수치 값을 획득하기 위하여, 엔트로피 디코딩은 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 대해 수행된다. 제1 확률 추정 결과는 제1 피크 확률, 및 제1 피크 확률에 대응하는 특징 값을 포함한다. 추가로, 제2 특징 엘리먼트의 수치 값은 (제2 특징 엘리먼트 세트 내의 특징 엘리먼트의 일반적인 용어로서 이해되는) 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 획득된다. 다시 말해서, 제1 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 수치 값을 획득하기 위하여, 엔트로피 디코딩은 제1 특징 엘리먼트 세트 내의 모든 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 대해 수행된다는 것이 이해될 수 있다. 제2 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 수치 값은 제2 특징 엘리먼트 중 모든 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 획득되고, 엔트로피 디코딩은 제2 특징 엘리먼트 세트 내의 임의의 특징 엘리먼트에 대해 수행될 필요가 없다.
예를 들어, 데이터 디코딩은 디코딩 대상 특징 맵에 대해 수행되고, 즉, 각각의 특징 엘리먼트의 수치 값이 획득되어야 한다. 디코딩 대상 특징 맵 내의 복수의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5이다. 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 4, 및 특징 엘리먼트 5는 제1 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정되고, 특징 엘리먼트 3은 제2 특징 엘리먼트 세트 내의 특징 엘리먼트인 것으로 결정된다. 추가로, 특징 엘리먼트 1의 수치 값, 특징 엘리먼트 2의 수치 값, 특징 엘리먼트 4의 수치 값, 및 특징 엘리먼트 5의 수치 값을 획득하기 위하여, 비트스트림, 및 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과는 입력으로서 이용되고, 도 1에서 도시되는 데이터 디코딩 모듈(104) 내로 입력된다. 특징 엘리먼트 3의 제1 확률 추정 결과 내의 제1 피크 확률에 대응하는 특징 값은 디코딩 대상 특징 맵 내의 특징 엘리먼트 3의 수치 값인 것으로 결정된다. 이러한 방식으로, 특징 엘리먼트 1의 수치 값, 특징 엘리먼트 2의 수치 값, 특징 엘리먼트 3의 수치 값, 및 특징 엘리먼트 4의 수치 값, 및 특징 엘리먼트 5의 수치 값은 디코딩 대상 특징 맵의 값으로 조합된다.
제1 특징 엘리먼트 세트가 비어 있는 세트인 경우에(즉, 엔트로피 인코딩은 특징 엘리먼트의 어느 것에 대해서도 수행되지 않음), 디코딩된 특징 맵의 값은 각각의 특징 엘리먼트의 제1 확률 추정 결과(본 명세서에서, 제1 확률 추정 결과 내의 제1 피크 확률에 대응하는 특징 값을 지시함)에 기초하여 획득될 수 있다는 것이 주목되어야 한다. 제2 특징 엘리먼트 세트가 비어 있는 세트인 경우에(즉, 엔트로피 인코딩은 각각의 특징 엘리먼트에 대해 수행됨), 디코딩된 특징 맵의 값을 획득하기 위하여, 엔트로피 디코딩은 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 대해 수행된다.
각각의 특징 엘리먼트에 대응하는 확률 추정 결과 내의 고정된 값에 대응하는 확률에 기초하여, 인코딩이 특징 엘리먼트에 대해 수행될 필요가 있는지 여부를 결정하는 것과 비교하면, 특징 엘리먼트에 대응하는 확률 추정 결과의 피크 확률에 기초하여, 엔트로피 인코딩 프로세스가 특징 엘리먼트에 대하여 스킵될 필요가 있는지 여부를 결정하기 위하여 도 3에서 제공되는 방법은 결정 결과(엔트로피 인코딩이 특징 엘리먼트에 대해 수행될 필요가 있는지 여부)의 신뢰성을 개선시킬 수 있고, 엔트로피 인코딩을 수행하기 위한 엘리먼트의 수량을 상당히 감소시킬 수 있고, 엔트로피 인코딩의 복잡도를 감소시킬 수 있다. 추가적으로, 엔트로피 인코딩이 수행되지 않는 특징 엘리먼트(즉, 제2 특징 엘리먼트)의 제1 확률 피크의 특징 값을, 도 5에서 도시된 바와 같은 디코딩 대상 특징 맵의 값을 형성하기 위한 제2 특징 엘리먼트의 수치 값으로서 이용하는 신뢰성은, 기존의 기술에서 디코딩 대상 특징 맵의 값을 형성하기 위하여 제2 특징 엘리먼트의 수치 값을 고정된 값으로 대체하는 신뢰성보다 양호하고, 이에 의해, 데이터 디코딩 정확도 및 데이터 인코딩 및 디코딩 방법의 성능이 추가로 개선된다.
인코더 측: 도 6a는 이 출원의 실시예에 따른 또 다른 특징 맵 인코딩 방법의 개략적인 순서도이다. 특징 맵 인코딩 방법의 절차는 S601 내지 S607을 포함한다.
S601: 제1 인코딩 대상 특징 맵을 획득하고, 여기서, 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함.
S601의 구체적인 구현예에 대해서는, S301의 구체적인 구현예의 설명을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
S602: 제1 인코딩 대상 특징 맵에 기초하여 제1 인코딩 대상 특징 맵의 부가 정보, 및 각각의 특징 엘리먼트의 제2 컨텍스트 정보를 획득함.
제1 인코딩 대상 특징 맵의 부가 정보를 획득하는 구체적인 구현예에 대해서는, S302의 구체적인 구현예의 설명을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
제2 컨텍스트를 획득하는 방식은, 네트워크 모듈을 통해 제1 인코딩 대상 특징 맵으로부터 제2 컨텍스트 정보를 획득하는 것일 수 있고, 여기서, 네트워크 모듈은 RNN, 또는 RNN의 네트워크 변형일 수 있다. 제2 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제1 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트(또는 특징 엘리먼트의 수치 값)로서 이해될 수 있다.
S603: 부가 정보 및 제2 컨텍스트 정보에 기초하여 각각의 특징 엘리먼트의 제2 확률 추정 결과를 획득함.
도 6b에서 도시된 바와 같이, 부가 정보 및 제2 컨텍스트 정보는 도 1에서의 확률 추정 모듈(103)로의 입력으로서 이용되고, 확률 추정 모듈(103)로부터의 출력은 각각의 특징 엘리먼트의 제2 확률 추정 결과이다. 확률 추정 모듈(103)의 구체적인 설명에 대해서는, S303을 참조한다. 제2 확률 추정 결과의 형태는 가우시안 분포, 또는 또 다른 형태의 확률 분포(라플라스 분포 또는 혼합된 가우시안 분포를 포함하지만 이것으로 제한되지 않음)를 포함한다. 특징 엘리먼트의 제2 확률 결과의 개략도는 도 2b에서 도시되는 제1 확률 결과의 개략도와 동일하다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
S604: 각각의 특징 엘리먼트의 제2 확률 결과에 기초하여 제1 임계치를 결정함.
가능한 구현예에서, 제3 특징 엘리먼트 세트는 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제2 확률 추정 결과에 기초하여 제1 인코딩 대상 특징 맵 내의 복수의 특징 엘리먼트로부터 결정된다. 추가로, 제1 임계치는 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제2 확률 추정 결과에 기초하여 결정된다. 구체적으로, 제3 특징 엘리먼트 세트 내의 각각의 특징 엘리먼트의 제2 확률 추정 결과에 기초하여 제1 임계치를 결정하는 구체적인 방식에 대해서는, 도 4c에서 도시되는 제3 특징 엘리먼트 세트 내의 각각의 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제1 임계치를 결정하는 구체적인 방식을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
S605: 부가 정보 및 특징 엘리먼트의 제1 컨텍스트 정보에 기초하여 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 확률 추정 결과를 결정함.
제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제2 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이고, 제2 인코딩 대상 특징 맵의 값은 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값을 포함하고, 제2 특징 엘리먼트는 제1 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트 이외의 특징 엘리먼트이다. 제1 인코딩 대상 특징 맵 내에 포함되는 특징 엘리먼트의 수량은 제2 인코딩 대상 특징 맵 내에 포함되는 특징 엘리먼트의 수량과 동일하고, 제1 인코딩 대상 특징 맵의 값은 제2 인코딩 대상 특징 맵의 값과는 상이하고, 제2 인코딩 대상 특징 맵은 제1 인코딩 대상 특징 맵이 디코딩된 후에 획득되는 특징 맵(즉, 이 출원에서의 디코딩 대상 특징 맵)으로서 이해될 수 있다는 것이 이해되어야 한다. 제1 컨텍스트 정보는 제2 인코딩 대상 특징 맵 내의 특징 엘리먼트 사이의 관계를 설명하고, 제2 컨텍스트 정보는 제1 인코딩 대상 특징 맵 내의 특징 엘리먼트 사이의 관계를 설명한다.
예를 들어, 제1 인코딩 대상 특징 맵 내에 포함되는 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, ..., 및 특징 엘리먼트 m이다. 제1 임계치가 S604의 구체적인 설명 방식에 기초하여 획득된 후에, 대안적인 확률 추정 및 엔트로피 인코딩은 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, 특징 엘리먼트 4, 및 특징 엘리먼트 5에 대해 수행된다. 다시 말해서, 확률 추정 및 엔트로피 인코딩은 특징 엘리먼트 1에 대해 먼저 수행된다는 것이 이해될 수 있다. 특징 엘리먼트 1은 엔트로피 인코딩이 수행되는 제1 특징 엘리먼트이므로, 특징 엘리먼트 1의 제1 컨텍스트 정보는 비어 있다. 이 경우에, 특징 엘리먼트 1에 대응하는 제1 확률 추정 결과를 획득하기 위하여, 확률 추정만이 부가 정보에 기초하여 특징 엘리먼트 1에 대해 수행될 필요가 있다. 추가로, 특징 엘리먼트 1이 제1 특징 엘리먼트인지 여부는 제1 확률 추정 결과 및 제1 임계치에 기초하여 결정되고, 엔트로피 인코딩은 특징 엘리먼트 1이 제1 특징 엘리먼트일 때에만, 특징 엘리먼트 1에 대해 수행되고, 제2 인코딩 대상 특징 맵 내의 특징 엘리먼트 1의 수치 값이 결정된다. 다음으로, 특징 엘리먼트 2에 대하여, 특징 엘리먼트 2의 제1 확률 추정 결과는 부가 정보 및 (이 경우에, 제2 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트의 수치 값으로서 이해될 수 있는) 제1 컨텍스트 정보에 기초하여 추정된다. 추가로, 특징 엘리먼트 2가 제1 특징 엘리먼트인지 여부는 제1 확률 추정 결과 및 제1 임계치에 기초하여 결정되고, 엔트로피 인코딩은 특징 엘리먼트 2가 제1 특징 엘리먼트일 때에만, 특징 엘리먼트 2에 대해 수행되고, 제2 인코딩 대상 특징 맵 내의 특징 엘리먼트 2의 수치 값이 결정된다. 다음으로, 특징 엘리먼트 3에 대하여, 특징 엘리먼트 3의 제1 확률 추정 결과는 부가 정보 및 (이 경우에, 제2 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트의 수치 값, 및 제2 인코딩 대상 특징 맵 내의 제2 특징 엘리먼트의 수치 값으로서 이해될 수 있는) 제1 컨텍스트 정보에 기초하여 추정된다. 추가로, 특징 엘리먼트 3이 제1 특징 엘리먼트인지 여부는 제1 확률 추정 결과 및 제1 임계치에 기초하여 결정되고, 엔트로피 인코딩은 특징 엘리먼트 3이 제1 특징 엘리먼트일 때에만, 특징 엘리먼트 3에 대해 수행되고, 제2 인코딩 대상 특징 맵 내의 특징 엘리먼트 3의 수치 값이 결정된다. 나머지는 제1 인코딩 대상 특징 맵 내의 모든 특징 엘리먼트의 확률이 추정될 때까지 분석에 의해 추론될 수 있다.
S606: 특징 엘리먼트의 제1 확률 추정 결과 및 제1 임계치에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정함.
S607: 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행함.
S606 및 S607의 구체적인 구현예에 대해서는, S305 및 S306의 구체적인 구현예의 설명을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
특징 맵 내의 임의의 특징 엘리먼트에 대하여, 특징 엘리먼트가 제1 특징 엘리먼트(즉, 엔트로피 인코딩을 필요로 하는 특징 엘리먼트)인지 여부를 결정하기 위한 확률 추정 결과는 특징 엘리먼트의 제1 확률 추정 결과로서 나타내어지고, 제1 임계치를 결정하기 위한 확률 결과는 제2 확률 추정 결과로서 나타내어지는 것이 이해되어야 한다. 도 6a에서 도시되는 특징 맵 인코딩 방법에서, 특징 엘리먼트의 제1 확률 추정 결과는 특징 엘리먼트의 제2 확률 추정 결과와는 상이하다. 그러나, 도 3에서 도시되는 특징 맵 인코딩 방법에서는, 컨텍스트 특징이 확률 추정을 위하여 도입되지 않으므로, 특징 엘리먼트의 제1 확률 추정 결과는 특징 엘리먼트의 제2 확률 추정 결과와 동일하다.
디코더 측: 도 7a는 이 출원의 실시예에 따른 특징 맵 디코딩 방법의 개략적인 순서도이다. 특징 맵 디코딩 방법의 절차는 S701 내지 S706을 포함한다.
S701: 디코딩 대상 특징 맵의 비트스트림을 획득하고, 여기서, 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함.
S701의 구체적인 구현예에 대해서는, S501의 구체적인 구현예의 설명을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
S702: 디코딩 대상 특징 맵의 비트스트림에 기초하여 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득함.
가능한 구현예에서, 디코딩 대상 특징 맵에 대응하는 부가 정보는 디코딩 대상 특징 맵의 비트스트림에 기초하여 획득된다. 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과는 부가 정보에 기초하여 획득된다.
구체적으로, 디코딩 대상 특징 맵의 비트스트림은 부가 정보의 엔트로피 인코딩 결과를 포함한다. 그러므로, 엔트로피 디코딩은 디코딩 대상 특징 맵의 비트스트림에 대해 수행될 수 있고, 획득된 엔트로피 디코딩 결과는 디코딩 대상 특징 맵에 대응하는 부가 정보를 포함한다.
S703: 부가 정보 및 특징 엘리먼트의 제1 컨텍스트 정보에 기초하여 각각의 특징 엘리먼트의 제1 확률 추정 결과를 추정함.
제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 디코딩 대상 특징 맵(즉, S605에서의 제2 인코딩 대상 특징 맵) 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다. 이 경우에, 확률 추정 및 엔트로피 디코딩은 디코딩 대상 특징 맵 내의 특징 엘리먼트에 대해 순차적으로 그리고 교대로 수행된다는 것이 인지되어야 한다.
예를 들어, 디코딩 대상 특징 맵 내의 특징 엘리먼트는 특징 엘리먼트 1, 특징 엘리먼트 2, 특징 엘리먼트 3, ..., 특징 엘리먼트 m이다. 먼저, 확률 추정 및 엔트로피 디코딩은 특징 엘리먼트 1에 대해 수행된다. 특징 엘리먼트 1은 엔트로피 디코딩이 수행되는 제1 특징 엘리먼트이므로, 특징 엘리먼트 1의 제1 컨텍스트 정보는 비어 있다. 이 경우에, 특징 엘리먼트 1에 대응하는 제1 확률 추정 결과를 획득하기 위하여, 확률 추정만이 부가 정보에 기초하여 특징 엘리먼트 1에 대해 수행될 필요가 있다. 추가로, 특징 엘리먼트 1은 제1 특징 엘리먼트 또는 제2 특징 엘리먼트이고, 디코딩 대상 특징 맵 내의 특징 엘리먼트 1의 수치 값은 결정 결과에 기초하여 결정되는 것으로 결정된다(또는 결정됨). 다음으로, 특징 엘리먼트 2에 대하여, 특징 엘리먼트 2의 제1 확률 추정 결과는 부가 정보 및 (이 경우에, 디코딩 대상 특징 맵 내의 제1 특징 엘리먼트의 수치 값으로서 이해될 수 있는) 제1 컨텍스트 정보에 기초하여 추정된다. 추가로, 특징 엘리먼트 2가 제1 특징 엘리먼트 또는 제2 특징 엘리먼트인지 여부가 결정된다(또는 결정됨). 디코딩 대상 특징 맵 내의 특징 엘리먼트 2의 수치 값은 결정 결과에 기초하여 결정된다. 다음으로, 특징 엘리먼트 3에 대하여, 특징 엘리먼트 3의 제1 확률 추정 결과는 부가 정보 및 (이 경우에, 디코딩 대상 특징 맵 내의 제1 특징 엘리먼트의 수치 값, 및 디코딩 대상 특징 맵 내의 제2 특징 엘리먼트의 수치 값으로서 이해될 수 있는) 제1 컨텍스트 정보에 기초하여 추정된다. 추가로, 특징 엘리먼트 3은 제1 특징 엘리먼트 또는 제2 특징 엘리먼트인 것으로 결정된다. 디코딩 대상 특징 맵 내의 특징 엘리먼트 3의 수치 값은 결정 결과에 기초하여 결정된다. 나머지는 모든 특징 엘리먼트의 확률이 추정될 때까지 분석에 의해 추론될 수 있다.
S704: 특징 엘리먼트의 제1 확률 추정 결과 및 제1 임계치에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트 또는 제2 특징 엘리먼트인 것으로 결정함.
S704의 구체적인 구현예에 대해서는, S503의 구체적인 구현예의 설명을 참조한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
S705: 제1 특징 엘리먼트의 수치 값을 획득하기 위하여, 특징 엘리먼트가 제1 특징 엘리먼트일 때, 제1 특징 엘리먼트의 제1 확률 추정 결과 및 디코딩 대상 특징 맵의 비트스트림에 기초하여 엔트로피 디코딩을 수행함.
특징 엘리먼트의 결정 결과가, 특징 엘리먼트가 제1 특징 엘리먼트인 것인 경우에, 디코딩된 특징 맵 내의 제1 특징 엘리먼트의 수치 값을 획득하기 위하여, 엔트로피 디코딩은 제1 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제1 특징 엘리먼트에 대해 수행된다. 디코딩된 특징 맵 내의 제1 특징 엘리먼트의 수치 값은 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트의 수치 값과 동일하다.
S706: 특징 엘리먼트가 제2 특징 엘리먼트일 때, 제2 특징 엘리먼트의 제1 확률 추정 결과에 기초하여 제2 특징 엘리먼트의 수치 값을 획득함.
특징 엘리먼트에 대한 결정 결과가, 특징 엘리먼트가 제2 특징 엘리먼트인 것인 경우에, 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값은 제2 특징 엘리먼트의 수치 값인 것으로 결정된다. 다시 말해서, 엔트로피 디코딩은 제2 특징 엘리먼트에 대해 수행될 필요가 없고, 디코딩된 특징 맵 내의 제2 특징 엘리먼트의 수치 값은 인코딩 대상 특징 맵 내의 제2 특징 엘리먼트의 수치 값과 동일하거나 이와 상이할 수 있다. 디코딩된 특징 맵을 획득하기 위하여, 디코딩된 특징 맵의 값은 모든 제2 특징 엘리먼트의 수치 값 및 모든 제1 특징 엘리먼트의 수치 값의 둘 모두에 기초하여 결정된다.
도 3에서 제공되는 특징 맵 인코딩 방법과 비교하면, 도 6a에서 제공되는 특징 맵 인코딩 방법에서는, 확률 추정이 컨텍스트 정보를 참조하여 수행되고, 이에 의해, 각각의 특징 엘리먼트에 대응하는 확률 추정 결과의 정확도가 개선되고, 인코딩 프로세스가 스킵되는 특징 엘리먼트의 수량이 증가되고, 데이터 인코딩 효율이 추가로 개선된다. 도 5에서 제공되는 특징 맵 디코딩 방법과 비교하면, 도 7a에서 제공되는 특징 맵 디코딩 방법에서는, 확률 추정이 컨텍스트 정보를 참조하여 수행되고, 이에 의해, 각각의 특징 엘리먼트에 대응하는 확률 추정 결과의 정확도가 개선되고, 엔트로피 인코딩이 디코딩 대상 특징 맵에서 수행되지 않는 특징 엘리먼트(즉, 제2 특징 엘리먼트)의 신뢰성이 개선되고, 데이터 디코딩 성능이 개선된다.
출원인은 인코딩을 스킵하지 않는 특징 맵 인코딩 및 디코딩 방법(즉, 엔트로피 인코딩이 인코딩 대상 특징 맵에 대해 수행될 때, 엔트로피 인코딩 프로세스는 인코딩 대상 특징 맵 내의 모든 특징 엘리먼트에 대해 수행됨)을 기준 방법으로서 나타내고, 도 6a 및 도 7a에서 제공되는 특징 맵 인코딩 및 디코딩 방법(동적 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법으로서 나타내어짐)과, 각각의 특징 엘리먼트에 대응하는 확률 추정 결과 내의 고정된 값에 대응하는 확률에 기초하여 스킵되는 특징 엘리먼트에 의한 특징 맵 인코딩을 위한 방법(고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법으로서 나타내어짐)과의 사이의 비교 실험을 수행한다.
비교 실험의 결과에 대해서는, 표 1을 참조한다. 기준 방법과 비교하면, 고정된 피크에 기초한 스킵에 의한 특징 맵 디코딩 방법에서는, 동일한 이미지 품질을 획득하기 위한 데이터의 양은 0.11%만큼 감소되고, 이 해결책에서, 동일한 이미지 품질을 획득하기 위한 데이터의 양은 1%만큼 감소된다.
디코딩된 이미지 품질이 보장될 때, 이 출원에서 제공되는 기술적 방법은 더 큰 데이터의 양을 감소시킬 수 있고, 데이터 압축 성능(압축 비율을 포함하지만 이것으로 제한되지 않음)을 개선시킬 수 있다는 것이 학습될 수 있다.
출원인은 도 6a 및 도 7a에서 제공되는 특징 맵 인코딩 및 디코딩 방법과, 고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법과의 사이의 비교 실험을 추가로 수행한다. 비교 실험 결과 도면은 도 7b 및 도 7c에서 도시되어 있다. 도 7b에서, 수직 축은 재구성된 이미지의 품질로서 이해될 수 있고, 수평 축은 이미지 압축 비율이다. 통상적으로, 이미지 압축 비율이 증가함에 따라, 재구성된 이미지의 품질은 더 양호해진다. 도 7b로부터, 동적 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법의 곡선(즉, 도 7b에서 동적 피크로서 표기됨)은 고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 방법의 곡선(도 7b에서 고정된 피크로서 표기됨)과 거의 중첩한다는 것을 알 수 있다. 다시 말해서, 재구성된 픽처 이미지 품질(즉, 수직 좌표의 수치 값은 동일함)이 동일할 때, 동적 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법(즉, 도 7b에서 동적 피크로서 표기됨)은 고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 방법(즉, 도 7b에서 고정된 피크로서 표기됨)보다 약간 양호하다. 도 7c에서, 수직 축은 스킵된 특징 엘리먼트의 비율이고, 수평 축은 이미지 압축 비율이다. 통상적으로, 이미지 압축 비율이 증가함에 따라, 스킵가능한 특징 엘리먼트의 비율은 점진적으로 감소한다. 도 7c로부터, 동적 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법의 곡선(즉, 도 7c에서 동적 피크로서 표기됨)은 고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 방법의 곡선(도 7c에서 고정된 피크로서 표기됨)보다 위에 있는 것을 알 수 있다. 다시 말해서, 이미지 압축 비율(즉, 수평 좌표의 수치 값은 동일함)이 동일할 때, 인코딩 프로세스가 동적 피크에 기초한 스킵에 의한 특징 맵 인코딩 및 디코딩 방법(즉, 도 7c에서 동적 피크로서 표기됨)에서 스킵될 수 있는 특징 엘리먼트는, 고정된 피크에 기초한 스킵에 의한 특징 맵 인코딩 방법(즉, 도 7c에서 고정된 피크로서 표기됨)에서의 특징 엘리먼트보다 많다.
도 8은 이 출원에 따른 특징 맵 인코딩 장치의 구조의 개략도이다. 특징 맵 인코딩 장치는 도 1에서의 확률 추정 모듈(103) 및 데이터 인코딩 모듈(104)의 통합일 수 있다. 장치는 다음을 포함한다:
제1 인코딩 대상 특징 맵을 획득하도록 구성되는 획득 모듈(80) - 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -; 및 제1 인코딩 대상 특징 맵에 기초하여 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하고 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 -, 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 제1 피크 확률에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하고, 특징 엘리먼트가 제1 특징 엘리먼트일 때에만, 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행하도록 구성되는 인코딩 모듈(81).
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이고, 제1 피크 확률은 가우시안 분포의 평균 확률이다.
대안적으로, 제1 확률 추정 결과는 혼합된 가우시안 분포이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다.
가능한 구현예에서, 인코딩 모듈(81)은 구체적으로, 제1 임계치, 및 특징 엘리먼트의 제1 피크 확률에 기초하여, 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하도록 구성된다.
가능한 구현예에서, 인코딩 모듈(81)은 또한, 제1 인코딩 대상 특징 맵에 기초하여 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과를 결정하고 - 제2 확률 추정 결과는 제2 피크 확률을 포함함 -, 각각의 특징 엘리먼트의 제2 확률 추정 결과에 기초하여 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하고, 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제2 피크 확률에 기초하여 제1 임계치를 결정하고, 제1 임계치에 기초하여 엔트로피 인코딩을 수행하도록 구성된다.
가능한 구현예에서, 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제2 피크 확률 중 가장 큰 제2 피크 확률이다.
가능한 구현예에서, 제1 특징 엘리먼트의 제1 피크 확률은 제1 임계치 이하이다.
가능한 구현예에서, 제2 확률 추정 결과는 가우시안 분포이고, 제2 확률 추정 결과는 제2 확률 분산 값을 더 포함한다. 제1 임계치는 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 제2 확률 분산 값 중 가장 작은 제2 확률 분산 값이다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이고, 제1 확률 추정 결과는 제1 확률 분산 값을 더 포함한다. 제1 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 이상이다.
가능한 구현예에서, 제2 확률 추정 결과는 제2 피크 확률에 대응하는 특징 값을 더 포함한다. 인코딩 모듈(81)은 구체적으로, 사전설정된 오차, 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값에 기초하여 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하도록 구성된다.
가능한 구현예에서, 제3 특징 엘리먼트 세트 내의 특징 엘리먼트는 다음의 특징을 가진다: . 는 특징 엘리먼트이다. p(x,y,i)는 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값이다. TH_2는 사전설정된 오차이다.
가능한 구현예에서, 제1 확률 추정 결과는 제2 확률 추정 결과와 동일하다. 인코딩 모듈(81)은 구체적으로, 제1 인코딩 대상 특징 맵에 기초하여 제1 인코딩 대상 특징 맵의 부가 정보를 획득하고, 각각의 특징 엘리먼트의 제1 확률 추정 결과를 획득하기 위하여 부가 정보에 대해 확률 추정을 수행하도록 구성된다.
가능한 구현예에서, 제1 확률 추정 결과는 제2 확률 추정 결과와는 상이하다. 인코딩 모듈(81)은 구체적으로, 제1 인코딩 대상 특징 맵에 기초하여 제1 인코딩 대상 특징 맵의 부가 정보 및 각각의 특징 엘리먼트의 제2 컨텍스트 정보를 획득하고 - 제2 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제1 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트임 -, 부가 정보 및 제2 컨텍스트 정보에 기초하여 각각의 특징 엘리먼트의 제2 확률 추정 결과를 획득하도록 구성된다.
가능한 구현예에서, 인코딩 모듈(81)은 구체적으로, 제1 인코딩 대상 특징 맵에 기초하여 제1 인코딩 대상 특징 맵의 부가 정보를 획득하고, 제1 인코딩 대상 특징 맵 내의 임의의 특징 엘리먼트에 대하여, 제1 컨텍스트 정보 및 부가 정보에 기초하여 특징 엘리먼트의 제1 확률 추정 결과를 결정하도록 구성된다. 제1 확률 추정 결과는 제1 확률 피크에 대응하는 특징 값을 더 포함한다. 제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 제2 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다. 제2 인코딩 대상 특징 맵의 값은 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값을 포함한다. 제2 특징 엘리먼트는 제1 인코딩 대상 특징 맵 내의 제1 특징 엘리먼트 이외의 특징 엘리먼트이다.
가능한 구현예에서, 인코딩 모듈(81)은 또한, 모든 제1 특징 엘리먼트의 엔트로피 인코딩 결과를 인코딩된 비트스트림으로 기입하도록 구성된다.
도 9는 이 출원에 따른 특징 맵 디코딩 장치의 구조의 개략도이다. 특징 맵 디코딩 장치는 도 1에서의 확률 추정 모듈(103) 및 데이터 디코딩 모듈(105)의 통합일 수 있다. 특징 맵 디코딩 장치는 다음을 포함한다:
디코딩 대상 특징 맵의 비트스트림을 획득하고 - 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -, 디코딩 대상 특징 맵의 비트스트림에 기초하여 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하도록 - 제1 확률 추정 결과는 제1 피크 확률을 포함함 - 구성되는 획득 모듈(90); 및
제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 제1 피크 확률에 기초하여 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하고, 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득하도록 구성되는 디코딩 모듈(91).
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이고, 제1 피크 확률은 가우시안 분포의 평균 확률이다.
대안적으로, 제1 확률 추정 결과는 혼합된 가우시안 분포이다. 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함한다. 제1 피크 확률은 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 제1 피크 확률은 가우시안 분포의 평균 확률, 및 혼합된 가우시안 분포 내의 가우시안 분포의 가중치에 기초하여 계산된다.
가능한 구현예에서, 디코딩 대상 특징 맵의 값은 제1 특징 엘리먼트 세트 내의 모든 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트 세트 내의 모든 제2 특징 엘리먼트의 수치 값을 포함한다.
가능한 구현예에서는, 제1 특징 엘리먼트 세트가 비어 있는 세트이거나, 제2 특징 엘리먼트 세트가 비어 있는 세트이다.
가능한 구현예에서, 제1 확률 추정 결과는 제1 피크 확률에 대응하는 특징 값을 더 포함한다. 디코딩 모듈(91)은 또한, 제1 특징 엘리먼트의 수치 값을 획득하기 위하여, 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 기초하여 제1 특징 엘리먼트에 대해 엔트로피 디코딩을 수행하고, 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 제2 특징 엘리먼트의 수치 값을 획득하도록 구성된다.
가능한 구현예에서, 디코딩 모듈(91)은 또한, 디코딩 대상 특징 맵의 비트스트림에 기초하여 제2 임계치를 획득하도록 구성된다.
가능한 구현예에서, 제1 특징 엘리먼트의 제1 피크 확률은 제1 임계치 이하이고, 제2 특징 엘리먼트의 제1 피크 확률은 제1 임계치 초과이다.
가능한 구현예에서, 제1 확률 추정 결과는 가우시안 분포이다. 제1 확률 추정 결과는 제1 확률 분산 값을 더 포함한다. 제1 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 이상이고, 제2 특징 엘리먼트의 제1 확률 분산 값은 제1 임계치 미만이다.
가능한 구현예에서, 획득 모듈(90)은 또한, 디코딩 대상 특징 맵의 비트스트림에 기초하여 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득하고, 부가 정보에 기초하여 각각의 특징 엘리먼트에 대응하는 제1 확률 추정 결과를 획득하도록 구성된다.
가능한 구현예에서, 디코딩 모듈(91)은 또한, 디코딩 대상 특징 맵의 비트스트림에 기초하여 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득하고, 부가 정보 및 제1 컨텍스트 정보에 기초하여 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대한 각각의 특징 엘리먼트의 제1 확률 추정 결과를 추정하도록 구성된다. 제1 컨텍스트 정보는, 특징 엘리먼트에 대한 것이며 디코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이다.
도 10은 이 출원의 실시예에 따른 특징 맵 인코딩 장치 또는 특징 맵 디코딩 장치의 하드웨어 구조의 개략도이다. 도 10에서 도시되는 장치(장치는 구체적으로, 컴퓨터 디바이스(1000)일 수 있음)는 메모리(1001), 프로세서(1002), 통신 인터페이스(1003), 및 버스(1004)를 포함한다. 메모리(1001), 프로세서(1002), 및 통신 인터페이스(1003)는 버스(1004)를 통해 서로 통신가능하게 접속된다.
메모리(1001)는 판독-전용 메모리(Read Only Memory, ROM), 정적 저장 디바이스, 동적 저장 디바이스, 또는 랜덤 액세스 메모리(Random Access Memory, RAM)일 수 있다. 메모리(1001)는 프로그램을 저장할 수 있다. 메모리(1001) 내에 저장되는 프로그램이 프로세서(1002)에 의해 실행될 때, 이 출원의 실시예에서 제공되는 특징 맵 인코딩 방법의 단계가 수행되거나, 이 출원의 실시예에서 제공되는 특징 맵 디코딩 방법의 단계가 수행된다.
프로세서(1002)는 범용 중앙 프로세싱 유닛(Central Processing Unit, CPU), 마이크로프로세서, 애플리케이션-특정 집적 회로(Application Specific Integrated Circuit, ASIC), 그래픽 프로세싱 유닛(graphics processing unit, GPU), 또는 하나 이상의 집적 회로일 수 있고, 이 출원의 실시예에서의 특징 맵 인코딩 장치 또는 특징 맵 디코딩 장치에서의 유닛에 의해 수행될 필요가 있는 기능을 구현하거나, 이 출원의 방법 실시예에서의 특징 맵 인코딩 방법의 단계를 수행하거나, 이 출원의 실시예에서 제공되는 특징 맵 디코딩 방법의 단계를 수행하기 위하여, 관련된 프로그램을 실행하도록 구성된다.
대안적으로, 프로세서(1002)는 집적 회로 칩일 수 있고, 신호 프로세싱 능력을 가진다. 구현 프로세스에서, 이 출원에서의 특징 맵 인코딩 방법의 단계 또는 특징 맵 디코딩 방법의 단계는 프로세서(1002) 내의 하드웨어의 집적된 로직 회로 또는 소프트웨어 형태인 명령을 통해 완료될 수 있다. 프로세서(1002)는 범용 프로세서, 디지털 신호 프로세서(Digital Signal Processing, DSP), 애플리케이션-특정 집적 회로(ASIC), 필드 프로그래밍가능 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 또 다른 프로그래밍가능 로직 디바이스, 개별 게이트 또는 트랜지스터 로직 디바이스, 또는 개별 하드웨어 컴포넌트일 수 있다. 프로세서는 이 출원의 실시예에서 개시되는 방법, 단계, 및 논리적 블록도를 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 기존의 프로세서 등일 수 있다. 이 출원의 실시예를 참조하여 개시되는 방법에서의 단계는 하드웨어 디코딩 프로세서에 의해 직접적으로 수행되고 완료될 수 있거나, 디코딩 프로세서 내의 하드웨어 및 소프트웨어 모듈의 조합을 이용함으로써 수행되고 완료될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그래밍가능 판독-전용 메모리, 전기적 소거가능 프로그래밍가능 메모리, 또는 레지스터(register)와 같은, 본 기술분야에서의 완숙된 저장 매체에서 위치될 수 있다. 저장 매체는 메모리(1001) 내에 위치된다. 프로세서(1002)는 메모리(1001) 내의 정보를 판독하고, 프로세서(1002)의 하드웨어와 조합하여, 이 출원의 실시예에서의 특징 맵 인코딩 장치 또는 특징 맵 디코딩 장치 내에 포함되는 유닛에 의해 수행될 필요가 있는 기능을 완료하거나, 이 출원의 방법 실시예에서의 특징 맵 인코딩 방법 또는 특징 맵 디코딩 방법을 수행한다.
통신 인터페이스(1003)는 컴퓨터 디바이스(1000)와 또 다른 디바이스 또는 통신 네트워크 사이의 통신을 구현하기 위하여, 트랜시버 장치, 예를 들어, 트랜시버를 이용하지만, 이것으로 제한되지는 않는다.
버스(1004)는 컴퓨터 디바이스(1000)의 컴포넌트(예를 들어, 메모리(1001), 프로세서(1002), 및 통신 인터페이스(1003)) 사이에서 정보를 송신하기 위한 경로를 포함할 수 있다.
도 8에서의 특징 맵 인코딩 장치에서, 획득 모듈(80)은 컴퓨터 디바이스(1000) 내의 통신 인터페이스(1003)와 동등하고, 인코딩 모듈(81)은 컴퓨터 디바이스(1000) 내의 프로세서(1002)와 동등하다는 것이 이해되어야 한다. 대안적으로, 도 9에서의 특징 맵 디코딩 장치에서, 획득 모듈(90)은 컴퓨터 디바이스(1000) 내의 통신 인터페이스(1003)와 동등하고, 인코딩 모듈(91)은 컴퓨터 디바이스(1000) 내의 프로세서(1002)와 동등하다.
이 출원의 이 실시예에서 설명되는 컴퓨터 디바이스(1000) 내의 기능 유닛의 기능에 대해서는, 상기한 방법 실시예에서의 관련된 단계의 설명을 참조한다는 것이 주목되어야 한다. 세부사항은 본 명세서에서 다시 설명되지 않는다.
이 출원의 실시예는 컴퓨터-판독가능 저장 매체를 추가로 제공한다. 컴퓨터-판독가능 저장 매체는 컴퓨터 프로그램을 저장한다. 프로그램은, 프로세서에 의해 실행될 때, 상기한 방법 실시예 중의 임의의 하나에서 기록되는 단계의 일부 또는 전부, 및 도 10에서 도시되는 임의의 기능 모듈의 기능을 구현할 수 있다.
이 출원의 실시예는 컴퓨터 프로그램 제품을 추가로 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 또는 프로세서 상에서 작동될 때, 컴퓨터 또는 프로세서는 상기한 방법 중의 임의의 하나에서의 하나 이상의 단계를 수행하는 것이 가능하게 된다. 디바이스 내의 상기한 모듈이 소프트웨어 기능 유닛의 형태로 구현되고, 독립적인 제품으로서 판매되거나 이용될 때, 모듈은 컴퓨터-판독가능 저장 매체 내에 저장될 수 있다.
상기한 실시예에서, 실시예에서의 설명은 개개의 초점을 가진다. 실시예에서 상세하게 설명되지 않은 부분에 대해서는, 다른 실시예에서의 관련된 설명을 참조한다. 상기한 프로세스의 시퀀스 번호는 이 출원의 다양한 실시예에서의 실행 시퀀스를 의미하지는 않는다는 것이 이해되어야 한다. 프로세스의 실행 시퀀스는 프로세스의 기능 및 내부 로직에 따라 결정되어야 하고, 이 출원의 실시예의 구현 프로세스에 대한 임의의 제한으로서 해석되지 않아야 한다.
본 기술분야에서의 통상의 기술자는, 다양한 예시적인 논리적 블록을 참조하여 설명된 기능, 및 이 명세서에서 개시되고 설명된 알고리즘 단계는 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합에 의해 구현될 수 있다는 것을 인식할 수 있다. 소프트웨어에 의해 구현되는 경우에, 예시적인 논리적 블록, 모듈, 및 단계를 참조하여 설명된 기능은 하나 이상의 명령 또는 코드로서, 컴퓨터-판독가능 매체 내에 저장될 수 있거나 컴퓨터-판독가능 매체 상에서 송신될 수 있고, 하드웨어-기반 프로세싱 유닛에 의해 결정될 수 있다. 컴퓨터-판독가능 매체는, 데이터 저장 매체와 같은 유형의 매체에 대응하는 컴퓨터-판독가능 저장 매체를 포함할 수 있거나, (예를 들어, 통신 프로토콜에 따라) 하나의 장소로부터 또 다른 곳으로의 컴퓨터 프로그램의 송신을 용이하게 하는 임의의 통신 매체를 포함할 수 있다. 이러한 방식으로, 컴퓨터-판독가능 매체는 일반적으로 다음에 대응할 수 있다: (1) 비-일시적 유형의 컴퓨터-판독가능 저장 매체, 또는 (2) 신호 또는 캐리어와 같은 통신 매체. 데이터 저장 매체는 이 출원에서 설명된 기술을 구현하기 위한 명령, 코드, 및/또는 데이터 구조를 인출하기 위하여 하나 이상의 컴퓨터 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 이용가능 매체일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터-판독가능 매체를 포함할 수 있다.
제한이 아니라 예로서, 이러한 컴퓨터-판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM, 또는 또 다른 광학 디스크 저장 장치, 자기 디스크 저장 장치 또는 또 다른 자기 저장 장치, 플래시 메모리, 또는 명령 또는 데이터 구조의 형태로 요구된 프로그램 코드를 저장할 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 추가적으로, 임의의 접속은 컴퓨터-판독가능 매체로서 적절하게 지칭된다. 예를 들어, 명령이 동축 케이블, 광섬유, 연선(twisted pair), 디지털 가입자 회선(digital subscriber line, DSL), 또는 무선 기술 예컨대, 적외선, 무선, 또는 마이크로파를 통해 웹사이트, 서버, 또는 또 다른 원격 소스로부터 송신되는 경우에, 동축 케이블, 광섬유, 연선, DSL, 또는 무선 기술 예컨대, 적외선, 무선, 또는 마이크로파가 매체의 정의 내에 포함된다. 그러나, 컴퓨터-판독가능 저장 매체 및 데이터 저장 매체는 접속, 캐리어, 신호, 또는 다른 일시적 매체를 포함하는 것이 아니라, 실제적으로, 비-일시적 유형의 저장 매체를 의미한다는 것이 이해되어야 한다. 이 명세서에서 이용되는 디스크(disk) 및 디스크(disc)는 컴팩트 디스크(compact disc, CD), 레이저 디스크(laser disc), 광학 디스크(optical disc), 디지털 다기능 디스크(digital versatile disc, DVD), 및 블루-레이 디스크(Blu-ray disc)를 포함한다. 디스크(disk)는 통상적으로, 데이터를 자기적으로 재현하는 반면, 디스크(disc)는 레이저를 이용함으로써 데이터를 광학적으로 재현한다. 상기의 조합은 또한, 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.
명령은 하나 이상의 디지털 신호 프로세서(DSP), 범용 마이크로프로세서, 애플리케이션-특정 집적 회로(ASIC), 필드 프로그래밍가능 게이트 어레이(FPGA), 또는 동등한 집적 회로 또는 개발 로직 회로와 같은 하나 이상의 프로세서에 의해 결정될 수 있다. 그러므로, 이 명세서에서 이용되는 용어 "프로세서"는 상기한 구조, 또는 이 명세서에서 설명된 기술의 구현예에 적용될 수 있는 임의의 다른 구조를 지칭할 수 있다. 추가적으로, 일부 측면에서, 이 명세서에서 설명된 예시적인 논리적 블록, 모듈, 및 단계를 참조하여 설명된 기능은 인코딩 및 디코딩을 위하여 구성된 전용 하드웨어 및/또는 소프트웨어 모듈 내에서 제공될 수 있거나, 조합된 코덱 내로 통합될 수 있다. 추가적으로, 기술은 하나 이상의 회로 또는 로직 엘리먼트에서 완전히 구현될 수 있다.
이 출원에서의 기술은 무선 핸드셋, 집적 회로(integrated circuit, IC), 또는 IC의 세트(예를 들어, 칩셋)를 포함하는 다양한 장치 또는 디바이스에서 구현될 수 있다. 다양한 컴포넌트, 모듈, 또는 유닛은 개시된 기법을 결정하도록 구성되는 장치의 기능적 측면을 강조하기 위하여 이 출원에서 설명되지만, 반드시 상이한 하드웨어 유닛에 의한 실현을 요구하지는 않는다. 실제적으로, 위에서 설명된 바와 같이, 다양한 유닛은 적절한 소프트웨어 및/또는 펌웨어와 조합하여 코덱 하드웨어로 조합될 수 있거나, (위에서 설명된 하나 이상의 프로세서를 포함하는) 상호 동작가능한 하드웨어 유닛에 의해 제공될 수 있다.
상기한 설명은 이 출원의 단지 특정 구현의 예이지만, 이 출원의 보호 범위를 제한하도록 의도되지는 않는다. 이 출원에서 개시되는 기술적 범위 내에서 본 기술분야에서의 통상의 기술자에 의해 용이하게 도출되는 임의의 변형 또는 대체는 이 출원의 보호 범위 내에 속할 것이다. 그러므로, 이 출원의 보호 범위는 청구항의 보호 범위가 대상이 될 것이다.

Claims (50)

  1. 특징 맵(feature map) 디코딩 방법으로서,
    디코딩 대상 특징 맵(to-be-decoded feature map)의 비트스트림을 획득하는 단계 - 상기 디코딩 대상 특징 맵은 복수의 특징 엘리먼트(feature element)를 포함함 -;
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과(probability estimation result)를 획득하는 단계 - 상기 제1 확률 추정 결과는 제1 피크 확률을 포함함 -;
    제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 상기 제1 피크 확률에 기초하여, 상기 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하는 단계; 및
    상기 제1 특징 엘리먼트 세트 및 상기 제2 특징 엘리먼트 세트에 기초하여 디코딩된 특징 맵을 획득하는 단계
    를 포함하는 특징 맵 디코딩 방법.
  2. 제1항에 있어서,
    상기 제1 확률 추정 결과는 가우시안 분포(Gaussian distribution)이고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률(mean probability)이거나,
    상기 제1 확률 추정 결과는 혼합된 가우시안 분포이고, 상기 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함하고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률, 및 상기 혼합된 가우시안 분포 내의 상기 가우시안 분포의 가중치에 기초하여 계산되는, 특징 맵 디코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 디코딩된 특징 맵의 값은 상기 제1 특징 엘리먼트 세트 내의 모든 제1 특징 엘리먼트의 수치 값, 및 상기 제2 특징 엘리먼트 세트 내의 모든 제2 특징 엘리먼트의 수치 값을 포함하는, 특징 맵 디코딩 방법.
  4. 제3항에 있어서,
    상기 제1 특징 엘리먼트 세트는 비어 있는 세트이거나, 상기 제2 특징 엘리먼트 세트는 비어 있는 세트인, 특징 맵 디코딩 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 제1 확률 추정 결과는 상기 제1 피크 확률에 대응하는 특징 값을 더 포함하고, 상기 특징 맵 디코딩 방법은,
    상기 제1 특징 엘리먼트의 상기 수치 값을 획득하기 위하여, 상기 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 기초하여 상기 제1 특징 엘리먼트에 대해 엔트로피 디코딩(entropy decoding)을 수행하는 단계; 및
    상기 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 상기 제2 특징 엘리먼트의 상기 수치 값을 획득하는 단계
    를 더 포함하는, 특징 맵 디코딩 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 상기 제1 피크 확률에 기초하여, 상기 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하는 단계 전에, 상기 특징 맵 디코딩 방법은,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 제1 임계치를 획득하는 단계를 더 포함하는, 특징 맵 디코딩 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제1 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 이하이고, 상기 제2 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 초과인, 특징 맵 디코딩 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하는 단계는,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 디코딩 대상 특징 맵에 대응하는 부가 정보(side information)를 획득하는 단계; 및
    상기 부가 정보에 기초하여 각각의 특징 엘리먼트에 대응하는 상기 제1 확률 추정 결과를 획득하는 단계
    를 포함하는, 특징 맵 디코딩 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하는 단계는,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득하는 단계; 및
    상기 부가 정보 및 제1 컨텍스트 정보(context information)에 기초하여 상기 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대한 각각의 특징 엘리먼트의 상기 제1 확률 추정 결과를 추정하는 단계 - 상기 제1 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 상기 디코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트임 -
    를 포함하는, 특징 맵 디코딩 방법.
  10. 특징 맵 인코딩 방법으로서,
    제1 인코딩 대상 특징 맵(to-be-encoded feature map)을 획득하는 단계 - 상기 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -;
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 단계 - 상기 제1 확률 추정 결과는 제1 피크 확률을 포함함 -;
    상기 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하는 단계; 및
    상기 특징 엘리먼트가 상기 제1 특징 엘리먼트일 때에만, 상기 제1 특징 엘리먼트에 대해 엔트로피 인코딩(entropy encoding)을 수행하는 단계
    를 포함하는 특징 맵 인코딩 방법.
  11. 제10항에 있어서,
    상기 제1 확률 추정 결과는 가우시안 분포이고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률이거나,
    상기 제1 확률 추정 결과는 혼합된 가우시안 분포이고, 상기 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함하고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률, 및 상기 혼합된 가우시안 분포 내의 상기 가우시안 분포의 가중치에 기초하여 계산되는, 특징 맵 인코딩 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하는 단계는,
    제1 임계치, 및 상기 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 상기 제1 특징 엘리먼트인지 여부를 결정하는 단계를 포함하는, 특징 맵 인코딩 방법.
  13. 제12항에 있어서,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과를 결정하는 단계 - 상기 제2 확률 추정 결과는 제2 피크 확률을 포함함 -;
    각각의 특징 엘리먼트의 상기 제2 확률 추정 결과에 기초하여 상기 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하는 단계;
    상기 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제2 피크 확률에 기초하여 상기 제1 임계치를 결정하는 단계; 및
    상기 제1 임계치에 대해 엔트로피 인코딩을 수행하는 단계
    를 더 포함하는 특징 맵 인코딩 방법.
  14. 제13항에 있어서,
    상기 제1 임계치는 상기 제3 특징 엘리먼트 세트 내의 특징 엘리먼트에 대응하는 상기 제2 피크 확률 중 가장 큰 제2 피크 확률인, 특징 맵 인코딩 방법.
  15. 제14항에 있어서,
    상기 제1 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 이하인, 특징 맵 인코딩 방법.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 제2 확률 추정 결과는 상기 제2 피크 확률에 대응하는 특징 값을 더 포함하고, 상기 각각의 특징 엘리먼트의 상기 제2 확률 추정 결과에 기초하여 상기 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하는 단계는,
    사전설정된 오차, 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트의 상기 제2 피크 확률에 대응하는 상기 특징 값에 기초하여 상기 복수의 특징 엘리먼트로부터 상기 제3 특징 엘리먼트 세트를 결정하는 단계를 포함하는, 특징 맵 인코딩 방법.
  17. 제16항에 있어서,
    상기 제3 특징 엘리먼트 세트 내의 특징 엘리먼트는 다음의 특징을 가지고:
    ,
    는 상기 특징 엘리먼트의 수치 값이고, 는 상기 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값이고, 는 상기 사전설정된 오차인, 특징 맵 인코딩 방법.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    제1 확률 추정 결과는 상기 제2 확률 추정 결과와 동일하고, 상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 단계는,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 부가 정보를 획득하는 단계; 및
    각각의 특징 엘리먼트의 상기 제1 확률 추정 결과를 획득하기 위하여 상기 부가 정보에 대해 확률 추정을 수행하는 단계
    를 포함하는, 특징 맵 인코딩 방법.
  19. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 제1 확률 추정 결과는 상기 제2 확률 추정 결과와는 상이하고, 상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과를 결정하는 단계는,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 부가 정보 및 각각의 특징 엘리먼트의 제2 컨텍스트 정보를 획득하는 단계 - 상기 제2 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 상기 제1 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트임 -; 및
    상기 부가 정보 및 상기 제2 컨텍스트 정보에 기초하여 각각의 특징 엘리먼트의 상기 제2 확률 추정 결과를 획득하는 단계
    를 포함하는, 특징 맵 인코딩 방법.
  20. 제19항에 있어서,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 단계는,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 상기 부가 정보를 획득하는 단계; 및
    상기 제1 인코딩 대상 특징 맵 내의 임의의 특징 엘리먼트에 대하여, 제1 컨텍스트 정보 및 상기 부가 정보에 기초하여 상기 특징 엘리먼트의 제1 확률 추정 결과를 결정하는 단계 - 상기 제1 확률 추정 결과는 상기 제1 확률 피크에 대응하는 특징 값을 더 포함하고, 상기 제1 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 제2 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이고, 상기 제2 인코딩 대상 특징 맵의 값은 상기 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값을 포함하고, 상기 제2 특징 엘리먼트는 상기 제1 인코딩 대상 특징 맵 내의 상기 제1 특징 엘리먼트 이외의 특징 엘리먼트임 -
    를 포함하는, 특징 맵 인코딩 방법.
  21. 제10항 내지 제20항 중 어느 한 항에 있어서,
    모든 상기 제1 특징 엘리먼트의 엔트로피 인코딩 결과를 인코딩된 비트스트림으로 기입하는 단계를 더 포함하는 특징 맵 인코딩 방법.
  22. 특징 맵 디코딩 장치로서,
    디코딩 대상 특징 맵의 비트스트림을 획득하고 - 상기 디코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -, 상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하도록 - 상기 제1 확률 추정 결과는 제1 피크 확률을 포함함 - 구성되는 획득 모듈; 및
    제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 상기 제1 피크 확률에 기초하여, 상기 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하고, 상기 제1 특징 엘리먼트 세트 및 상기 제2 특징 엘리먼트 세트에 기초하여 상기 디코딩 대상 특징 맵을 획득하도록 구성되는 디코딩 모듈
    을 포함하는 특징 맵 디코딩 장치.
  23. 제22항에 있어서,
    상기 제1 확률 추정 결과는 가우시안 분포이고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률이거나,
    상기 제1 확률 추정 결과는 혼합된 가우시안 분포이고, 상기 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함하고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률, 및 상기 혼합된 가우시안 분포 내의 상기 가우시안 분포의 가중치에 기초하여 계산되는, 특징 맵 디코딩 장치.
  24. 제22항 또는 제23항에 있어서,
    상기 디코딩 대상 특징 맵의 값은 상기 제1 특징 엘리먼트 세트 내의 모든 제1 특징 엘리먼트의 수치 값, 및 상기 제2 특징 엘리먼트 세트 내의 모든 제2 특징 엘리먼트의 수치 값을 포함하는, 특징 맵 디코딩 장치.
  25. 제24항에 있어서,
    상기 제1 특징 엘리먼트 세트는 비어 있는 세트이거나, 상기 제2 특징 엘리먼트 세트는 비어 있는 세트인, 특징 맵 디코딩 장치.
  26. 제24항 또는 제25항에 있어서,
    상기 제1 확률 추정 결과는 상기 제1 피크 확률에 대응하는 특징 값을 더 포함하고, 상기 디코딩 모듈은 또한,
    상기 제1 특징 엘리먼트의 상기 수치 값을 획득하기 위하여, 상기 제1 특징 엘리먼트에 대응하는 제1 확률 추정 결과에 기초하여 상기 제1 특징 엘리먼트에 대해 엔트로피 디코딩을 수행하고,
    상기 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값에 기초하여 상기 제2 특징 엘리먼트의 상기 수치 값을 획득하도록
    구성되는, 특징 맵 디코딩 장치.
  27. 제22항 내지 제26항 중 어느 한 항에 있어서,
    상기 제1 임계치, 및 각각의 특징 엘리먼트에 대응하는 상기 제1 피크 확률에 기초하여, 상기 복수의 특징 엘리먼트로부터 제1 특징 엘리먼트 세트 및 제2 특징 엘리먼트 세트를 결정하기 전에, 상기 디코딩 모듈은 또한,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 제1 임계치를 획득하도록 구성되는, 특징 맵 디코딩 장치.
  28. 제22항 내지 제27항 중 어느 한 항에 있어서,
    상기 제1 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 이하이고, 상기 제2 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 초과인, 특징 맵 디코딩 장치.
  29. 제22항 내지 제28항 중 어느 한 항에 있어서,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하는 것은,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득하는 것; 및
    상기 부가 정보에 기초하여 각각의 특징 엘리먼트에 대응하는 상기 제1 확률 추정 결과를 획득하는 것
    을 포함하는, 특징 맵 디코딩 장치.
  30. 제22항 내지 제28항 중 어느 한 항에 있어서,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 복수의 특징 엘리먼트 각각에 대응하는 제1 확률 추정 결과를 획득하는 것은,
    상기 디코딩 대상 특징 맵의 상기 비트스트림에 기초하여 상기 디코딩 대상 특징 맵에 대응하는 부가 정보를 획득하는 것; 및
    상기 부가 정보 및 제1 컨텍스트 정보에 기초하여 상기 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트에 대한 각각의 특징 엘리먼트의 상기 제1 확률 추정 결과를 추정하는 것 - 상기 제1 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 상기 디코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트임 -
    을 포함하는, 특징 맵 디코딩 장치.
  31. 특징 맵 인코딩 장치로서,
    제1 인코딩 대상 특징 맵을 획득하도록 구성되는 획득 모듈 - 상기 제1 인코딩 대상 특징 맵은 복수의 특징 엘리먼트를 포함함 -; 및
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하고 - 상기 제1 확률 추정 결과는 제1 피크 확률을 포함함 -, 상기 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하고, 상기 특징 엘리먼트가 상기 제1 특징 엘리먼트일 때에만, 상기 제1 특징 엘리먼트에 대해 엔트로피 인코딩을 수행하도록 구성되는 인코딩 모듈
    을 포함하는 특징 맵 인코딩 장치.
  32. 제31항에 있어서,
    상기 제1 확률 추정 결과는 가우시안 분포이고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률이거나,
    상기 제1 확률 추정 결과는 혼합된 가우시안 분포이고, 상기 혼합된 가우시안 분포는 복수의 가우시안 분포를 포함하고, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률에 있어서 가장 큰 값이거나, 상기 제1 피크 확률은 상기 가우시안 분포의 평균 확률, 및 상기 혼합된 가우시안 분포 내의 상기 가우시안 분포의 가중치에 기초하여 계산되는, 특징 맵 인코딩 장치.
  33. 제31항 또는 제32항에 있어서,
    상기 제1 인코딩 대상 특징 맵 내의 각각의 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 제1 특징 엘리먼트인지 여부를 결정하는 것은,
    제1 임계치, 및 상기 특징 엘리먼트의 상기 제1 피크 확률에 기초하여, 상기 특징 엘리먼트가 상기 제1 특징 엘리먼트인지 여부를 결정하는 것을 포함하는, 특징 맵 인코딩 장치.
  34. 제33항에 있어서,
    상기 특징 맵 인코딩 장치는,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과를 결정하는 것 - 상기 제2 확률 추정 결과는 제2 피크 확률을 포함함 -;
    각각의 특징 엘리먼트의 상기 제2 확률 추정 결과에 기초하여 상기 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하는 것;
    상기 제3 특징 엘리먼트 세트 내의 모든 특징 엘리먼트의 제2 피크 확률에 기초하여 상기 제1 임계치를 결정하는 것; 및
    상기 제1 임계치에 대해 엔트로피 인코딩을 수행하는 것
    을 더 포함하는, 특징 맵 인코딩 장치.
  35. 제34항에 있어서,
    상기 제1 임계치는 상기 제3 특징 엘리먼트 세트 내의 상기 특징 엘리먼트에 대응하는 상기 제2 피크 확률 중 가장 큰 제2 피크 확률인, 특징 맵 인코딩 장치.
  36. 제35항에 있어서,
    상기 제1 특징 엘리먼트의 제1 피크 확률은 상기 제1 임계치 이하인, 특징 맵 인코딩 장치.
  37. 제34항 내지 제36항 중 어느 한 항에 있어서,
    상기 제2 확률 추정 결과는 상기 제2 피크 확률에 대응하는 특징 값을 더 포함하고, 상기 각각의 특징 엘리먼트의 상기 제2 확률 추정 결과에 기초하여 상기 복수의 특징 엘리먼트로부터 제3 특징 엘리먼트 세트를 결정하는 것은,
    사전설정된 오차, 각각의 특징 엘리먼트의 수치 값, 및 각각의 특징 엘리먼트의 상기 제2 피크 확률에 대응하는 상기 특징 값에 기초하여 상기 복수의 특징 엘리먼트로부터 상기 제3 특징 엘리먼트 세트를 결정하는 것을 포함하는, 특징 맵 인코딩 장치.
  38. 제37항에 있어서,
    상기 제3 특징 엘리먼트 세트 내의 특징 엘리먼트는 다음의 특징을 가지고:
    ,
    는 상기 특징 엘리먼트의 수치 값이고, 는 상기 특징 엘리먼트의 제2 피크 확률에 대응하는 특징 값이고, 는 상기 사전설정된 오차인, 특징 맵 인코딩 장치.
  39. 제34항 내지 제38항 중 어느 한 항에 있어서,
    제1 확률 추정 결과는 상기 제2 확률 추정 결과와 동일하고, 상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 것은,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 부가 정보를 획득하는 것; 및
    각각의 특징 엘리먼트의 상기 제1 확률 추정 결과를 획득하기 위하여 상기 부가 정보에 대해 확률 추정을 수행하는 것
    을 포함하는, 특징 맵 인코딩 장치.
  40. 제34항 내지 제38항 중 어느 한 항에 있어서,
    상기 제1 확률 추정 결과는 상기 제2 확률 추정 결과와는 상이하고, 상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제2 확률 추정 결과를 결정하는 것은,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 부가 정보 및 각각의 특징 엘리먼트의 제2 컨텍스트 정보를 획득하는 것 - 상기 제2 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 상기 제1 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트임 -; 및
    상기 부가 정보 및 상기 제2 컨텍스트 정보에 기초하여 각각의 특징 엘리먼트의 상기 제2 확률 추정 결과를 획득하는 것
    을 포함하는, 특징 맵 인코딩 장치.
  41. 제40항에 있어서,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 복수의 특징 엘리먼트 각각의 제1 확률 추정 결과를 결정하는 것은,
    상기 제1 인코딩 대상 특징 맵에 기초하여 상기 제1 인코딩 대상 특징 맵의 상기 부가 정보를 획득하는 것; 및
    상기 제1 인코딩 대상 특징 맵 내의 임의의 특징 엘리먼트에 대하여, 제1 컨텍스트 정보 및 상기 부가 정보에 기초하여 상기 특징 엘리먼트의 제1 확률 추정 결과를 결정하는 것 - 상기 제1 확률 추정 결과는 상기 제1 확률 피크에 대응하는 특징 값을 더 포함하고, 상기 제1 컨텍스트 정보는, 상기 특징 엘리먼트에 대한 것이며 제2 인코딩 대상 특징 맵 내의 사전설정된 영역 범위 내에 있는 특징 엘리먼트이고, 상기 제2 인코딩 대상 특징 맵의 값은 상기 제1 특징 엘리먼트의 수치 값, 및 제2 특징 엘리먼트의 제1 피크 확률에 대응하는 특징 값을 포함하고, 상기 제2 특징 엘리먼트는 상기 제1 인코딩 대상 특징 맵 내의 상기 제1 특징 엘리먼트 이외의 특징 엘리먼트임 -
    을 포함하는, 특징 맵 인코딩 장치.
  42. 제31항 내지 제41항 중 어느 한 항에 있어서,
    상기 특징 맵 인코딩 장치는,
    모든 상기 제1 특징 엘리먼트의 엔트로피 인코딩 결과를 인코딩된 비트스트림으로 기입하는 것을 더 포함하는, 특징 맵 인코딩 장치.
  43. 디코더로서,
    제1항 내지 제9항 중 어느 한 항에 따른 상기 특징 맵 디코딩 방법을 수행하도록 구성되는 프로세싱 회로를 포함하는 디코더.
  44. 인코더로서,
    제10항 내지 제21항 중 어느 한 항에 따른 상기 특징 맵 인코딩 방법을 수행하도록 구성되는 프로세싱 회로를 포함하는 인코더.
  45. 컴퓨터 프로그램 제품으로서,
    프로그램 코드
    를 포함하고,
    상기 프로그램 코드가 컴퓨터 또는 프로세서에 의해 결정될 때, 제1항 내지 제9항 중 어느 한 항에 따른 상기 특징 맵 디코딩 방법, 또는 제10항 내지 제21항 중 어느 한 항에 따른 상기 특징 맵 인코딩 방법이 결정되는, 컴퓨터 프로그램 제품.
  46. 제21항에 따른 상기 특징 맵 인코딩 방법에 의해 획득되는 비트스트림을 포함하는 비-일시적 컴퓨터-판독가능 저장 매체.
  47. 디코더로서,
    하나 이상의 프로세서; 및
    상기 프로세서에 결합되고, 상기 프로세서에 의해 결정되는 프로그램을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체 - 상기 프로그램은, 상기 프로세서에 의해 결정될 때, 제1항 내지 제9항 중 어느 한 항에 따른 상기 특징 맵 디코딩 방법을 수행하도록 상기 디코더를 구성함 -
    를 포함하는 디코더.
  48. 인코더로서,
    하나 이상의 프로세서; 및
    상기 프로세서에 결합되고, 상기 프로세서에 의해 결정되는 프로그램을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체 - 상기 프로그램은, 상기 프로세서에 의해 결정될 때, 제10항 내지 제21항 중 어느 한 항에 따른 상기 특징 맵 인코딩 방법을 수행하도록 상기 인코더를 구성함 -
    를 포함하는 인코더.
  49. 데이터 프로세서로서,
    제1항 내지 제9항 중 어느 한 항에 따른 상기 특징 맵 디코딩 방법을 수행하도록 구성되거나, 제10항 내지 제21항 중 어느 한 항에 따른 상기 특징 맵 인코딩 방법을 수행하도록 구성되는 프로세싱 회로를 포함하는 데이터 프로세서.
  50. 프로그램 코드를 포함하는 비-일시적 컴퓨터-판독가능 저장 매체로서,
    상기 프로그램 코드가 컴퓨터 디바이스에 의해 결정될 때, 제1항 내지 제9항 중 어느 한 항에 따른 상기 특징 맵 디코딩 방법 또는 제10항 내지 제21항 중 어느 한 항에 따른 상기 특징 맵 인코딩 방법이 수행되는, 비-일시적 컴퓨터-판독가능 저장 매체.
KR1020247012328A 2021-09-18 2022-09-08 특징 맵 인코딩 및 디코딩 방법 및 장치 KR20240064698A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN202111101920.9 2021-09-18
CN202111101920 2021-09-18
CN202210300566.0A CN115834888A (zh) 2021-09-18 2022-03-25 特征图编解码方法和装置
CN202210300566.0 2022-03-25
PCT/CN2022/117819 WO2023040745A1 (zh) 2021-09-18 2022-09-08 特征图编解码方法和装置

Publications (1)

Publication Number Publication Date
KR20240064698A true KR20240064698A (ko) 2024-05-13

Family

ID=85522485

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247012328A KR20240064698A (ko) 2021-09-18 2022-09-08 특징 맵 인코딩 및 디코딩 방법 및 장치

Country Status (5)

Country Link
KR (1) KR20240064698A (ko)
CN (1) CN115834888A (ko)
AU (1) AU2022348742A1 (ko)
CA (1) CA3232206A1 (ko)
WO (1) WO2023040745A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019147020A1 (ko) * 2018-01-23 2019-08-01 주식회사 날비컴퍼니 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치
CN111641832B (zh) * 2019-03-01 2022-03-25 杭州海康威视数字技术股份有限公司 编码方法、解码方法、装置、电子设备及存储介质
CN111818346B (zh) * 2019-04-11 2023-04-18 富士通株式会社 图像编码方法和装置、图像解码方法和装置

Also Published As

Publication number Publication date
AU2022348742A1 (en) 2024-04-04
WO2023040745A1 (zh) 2023-03-23
CN115834888A (zh) 2023-03-21
CA3232206A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
TWI806199B (zh) 特徵圖資訊的指示方法,設備以及電腦程式
JP2023547941A (ja) ニューラルネットワーク・ベースのビットストリームのデコードとエンコード
US20240105193A1 (en) Feature Data Encoding and Decoding Method and Apparatus
US20210400277A1 (en) Method and system of video coding with reinforcement learning render-aware bitrate control
US20240007637A1 (en) Video picture encoding and decoding method and related device
JP2023543520A (ja) 機械学習を基にしたピクチャコーディングにおけるクロマサブサンプリングフォーマット取り扱いのための方法
US20230396810A1 (en) Hierarchical audio/video or picture compression method and apparatus
US20230281881A1 (en) Video Frame Compression Method, Video Frame Decompression Method, and Apparatus
CN116095183A (zh) 一种数据压缩方法以及相关设备
TW202318265A (zh) 基於注意力的圖像和視訊壓縮上下文建模
KR20240064698A (ko) 특징 맵 인코딩 및 디코딩 방법 및 장치
CN116939218A (zh) 区域增强层的编解码方法和装置
WO2024060161A1 (zh) 编解码方法、编码器、解码器以及存储介质
US20240078414A1 (en) Parallelized context modelling using information shared between patches
KR20240038779A (ko) 인코딩 및 디코딩 방법, 및 장치
CN115499650A (zh) 图像块的划分方法、装置、系统、编解码方法、电子设备
WO2024002496A1 (en) Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq
WO2024002497A1 (en) Parallel processing of image regions with neural networks – decoding, post filtering, and rdoq
CN118014019A (zh) 熵约束神经视频表示
KR20220139801A (ko) 낮은 비트레이트 비디오 압축을 위한 마이크로도싱

Legal Events

Date Code Title Description
A201 Request for examination