KR20160104646A - 양자화 에러의 추가적인 제어를 이용한 비디오 신호의 인코딩, 디코딩 방법 및 장치 - Google Patents

양자화 에러의 추가적인 제어를 이용한 비디오 신호의 인코딩, 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR20160104646A
KR20160104646A KR1020167020203A KR20167020203A KR20160104646A KR 20160104646 A KR20160104646 A KR 20160104646A KR 1020167020203 A KR1020167020203 A KR 1020167020203A KR 20167020203 A KR20167020203 A KR 20167020203A KR 20160104646 A KR20160104646 A KR 20160104646A
Authority
KR
South Korea
Prior art keywords
signal
video signal
present
diagonal
transform
Prior art date
Application number
KR1020167020203A
Other languages
English (en)
Inventor
아미르 새드
오누르 고넨 귈레우즈
예세훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20160104646A publication Critical patent/KR20160104646A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은, 영상 신호를 인코딩하는 방법에 있어서, 원 영상 신호(original video signal)를 수신하는 단계; 상기 원 영상 신호를 이전의 복원 신호와 비교하는 단계; 왜곡 성분 및 레이트 성분의 합을 최소화하기 위해 수정 신호를 생성하는 단계; 영상 신호 복원을 위하여 디코더로 전송되는 상기 수정 신호를 엔트로피 인코딩하는 단계를 포함하고, 상기 이전의 복원 신호는 스케일링 대각 매트릭스를 부가적으로 이용하여 역변환되는 것을 특징으로 하는 방법을 제공한다.

Description

양자화 에러의 추가적인 제어를 이용한 비디오 신호의 인코딩, 디코딩 방법 및 장치{METHOD AND APPARATUS FOR ENCODING, DECODING A VIDEO SIGNAL USING ADDITIONAL CONTROL OF QUANTIZATION ERROR}
본 발명은 비디오 신호의 인코딩 및 디코딩 방법, 그리고 그 장치에 관한 것이며, 특히 양자화 에러의 추가적인 제어를 이용한 코딩 기술에 관한 것이다.
압축 부호화란 디지털화한 정보를 통신 회선을 통해 전송하거나, 저장매체에 적합한 형태로 저장하기 위한 일련의 신호 처리 기술을 의미한다. 영상, 이미지, 음성 등의 미디어가 압축 부호화의 대상이 될 수 있으며, 특히 영상을 대상으로 압축 부호화를 수행하는 기술을 비디오 영상 압축이라고 일컫는다.
많은 미디어 압축 기술은 예측 코딩과 변환 코딩이라는 2 가지 접근 방법에 기초한다. 특히, 하이브리드 코딩(hybrid coding) 기술은 이전에 디코딩된 컨텍스트 값들(previously decoded context values)을 이용하여 샘플들을 공간적으로 예측하고, 예측 에러를 변환 코딩한다. 이러한 과정은 가우시안 신호(Gaussian signal)에 대해 최적의 RD(Rate Distortion) 값을 갖도록 수행된다.
그러나, 일반적인 비디오 신호들은 가우시안 신호(Gaussian signal)에 잘 맞지 않는 구조를 포함하고 있기 때문에, 이러한 신호를 보다 효율적으로 코딩할 필요가 있다.
한편, 블록의 다른 부분들에서 발생하는 에러마다 서로 중요도가 다를 수 있다. 따라서, 공간 도메인과 주파수 도메인 모두에서 에러를 제어할 수 있는 방법이 필요하다.
본 발명에서는 에지와 방향성 구조(edge and directional structure)를 갖는 신호에 대해 보다 효율적으로 코딩하고자 한다.
본 발명에서는 예측된 신호와 함께 변환 코딩된 신호를 이용하여 비디오 신호를 비인과적으로(non-causally) 예측하고자 한다.
본 발명에서는 비직교 변환에 기초하여 비디오 신호를 코딩하고자 한다.
본 발명에서는 왜곡을 최소화하는 최적의 변환 계수를 획득하고자 한다.
본 발명에서는 RD(Rate Distortion) 최적의 양자화 스텝 사이즈를 유도하고자 한다.
본 발명이 적용되는 비인과적 코딩 기술을 비직교 변환의 형태와 파라미터로 표현하고자 한다.
본 발명에서는 공간 도메인과 주파수 도메인 모두에서 양자화 에러를 제어하고자 한다.
본 발명에서는 공간 도메인 상에서 에러 중요도를 구별하기 위해 또 다른 대각 매트릭스를 정의하고자 한다.
본 발명에서는 RD(Rate-Distortion) 관점에서 최적의 대각 매트릭스들을 계산하는 방법을 제안하고자 한다.
본 발명에서는 공간 도메인 상에서 양자화 에러를 좀더 세밀하게 제어하는 방법을 제안하고자 한다.
본 발명은 예측된 신호와 함께 변환 코딩된 신호를 이용하여 비디오 신호를 비인과적으로(non-causally) 예측하는 방법을 제안한다.
또한, 본 발명은 에지와 방향성 구조(edge and directional structure)를 갖는 신호에 대해 보다 효율적으로 코딩할 수 있는 방법을 제안한다.
또한, 본 발명은 비직교 변환에 기초한 비디오 신호의 코딩 방법을 제안하고자 한다.
또한, 본 발명은 최적의 변환 계수를 획득하기 위한 양자화 알고리즘을 제안한다.
또한, 본 발명은 최적의 양자화 스텝 사이즈를 유도하는 방법을 제안한다.
또한, 본 발명은 비직교 변환의 형태와 파라미터로 표현될 수 있는 비인과적 코딩 기술을 제안한다.
또한, 본 발명은, 이미 복원된 모든 신호들 및 컨텍스트 신호(context signal)를 이용하여 최적의 예측 신호(optimized prediction signal)를 생성하는 방법을 제안한다.
또한, 본 발명은, 공간 도메인과 주파수 도메인 모두에서 양자화 에러를 제어하는 방법을 제안한다.
또한, 본 발명은, 공간 도메인 상에서 에러 중요도를 구별하기 위해 또 다른 대각 매트릭스를 정의한다.
또한, 본 발명은, RD(Rate-Distortion) 관점에서 최적의 대각 매트릭스들을 계산하는 방법을 제안한다.
또한, 본 발명은, 공간 도메인 상에서 양자화 에러를 좀더 세밀하게 제어하는 방법을 제안한다.
본 발명은 모든 디코딩된 정보를 이용함으로써 보다 정교하고 향상된 예측을 수행할 수 있다.
또한, 본 발명은 예측된 신호와 함께 변환 코딩된 신호를 이용하여 비디오 신호를 비인과적으로(non-causally) 예측함으로써, 에지와 방향성 구조(edge and directional structure)를 갖는 신호에 대해 보다 효율적으로 코딩할 수 있다.
또한, 본 발명은 비직교 변환의 형태와 파라미터로 표현될 수 있는 비인과적 코딩 기술을 제안함으로써, 보다 정교하고 향상된 예측을 수행할 수 있다.
또한, 본 발명은 최적의 변환 계수를 획득하기 위한 양자화 알고리즘을 제안함으로써, 양자화 왜곡을 최소화할 수 있다.
또한, 본 발명은 최적의 양자화 스텝 사이즈를 유도하는 방법을 제안함으로써, 보다 향상된 코딩을 수행할 수 있다.
또한, 본 발명은, 이미 복원된 모든 신호들 및 컨텍스트 신호(context signal)를 이용함으로써 최적의 예측 신호(optimized prediction signal)를 생성할 수 있다.
또한, 본 발명은, 공간 도메인과 주파수 도메인 모두에서 양자화 에러를 제어함으로써 보다 향상된 코딩을 수행할 수 있다.
도 1 및 도 2 는 각각 비디오 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 3 및 도 4 는 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 5 및 도 6 은 본 발명이 적용되는 실시예들로써, 이전의 코딩된 픽셀을 이용하여 예측을 수행하는 방법을 설명하기 위한 레이어를 정의한다.
도 7 은 본 발명이 적용되는 실시예로써, 레이어 단위로 이전의 코딩된 픽셀을 이용하여 예측을 수행하는 방법을 설명하는 흐름도이다.
도 8 은 본 발명이 적용되는 실시예로써, 최적의 양자화된 계수를 획득하기 위한 양자화 과정을 설명하는 흐름도이다.
도 9 는 본 발명이 적용되는 실시예로써, 최적의 양자화된 계수를 획득하기 위한 양자화 과정을 구체적으로 설명하는 흐름도이다.
도 10 은 본 발명이 적용되는 실시예로써, 최적의 양자화 스텝 사이즈를 획득하는 과정을 설명하는 흐름도이다.
도 11 및 도 12 는 본 발명이 적용되는 실시예들로써, 도 11 은 본 발명이 적용된 테스트 이미지들을 나타내고, 도 12 는 테스트 이미지들에 대한 레이트 게인(rate gain)의 퍼센티지를 나타낸다.
도 13 은 본 발명이 적용되는 실시예로써, 향상된 예측 코딩 방법을 설명하기 위한 개략적인 흐름도이다.
도 14 는 본 발명이 적용되는 실시예로써, 최적의 양자화 스텝 사이즈에 기초하여 양자화를 수행하는 방법을 설명하기 위한 개략적인 흐름도이다.
도 15 및 도 16 은 본 발명이 적용되는 실시예들로써, 양자화 에러 제어를 통한 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 17 은 본 발명이 적용되는 실시예로써, RD(Rate-Distortion) 최적화 과정을 통해 스케일링 대각 매트릭스(scaling diagonal matrix)를 획득하는 과정을 설명하는 흐름도이다.
도 18 은 본 발명이 적용되는 실시예로써, 최적화된 스케일링 매트릭스를 이용하여 코딩한 경우와 기존 방식대로 코딩한 경우의 각 이미지별 코딩 게인(coding gain)을 비교하는 그래프이다.
도 19 및 도 20 은 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 21 은 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법을 설명하기 위한 개략적인 흐름도이다.
[발명의 실시를 위한 최선의 형태]
본 발명의 실시예는, 영상 신호를 인코딩하는 방법에 있어서, 원 영상 신호(original video signal)를 수신하는 단계; 상기 원 영상 신호를 이전의 복원 신호와 비교하는 단계; 왜곡 성분 및 레이트 성분의 합을 최소화하기 위해 수정 신호를 생성하는 단계; 영상 신호 복원을 위하여 디코더로 전송되는 상기 수정 신호를 엔트로피 인코딩하는 단계를 포함하고, 상기 이전의 복원 신호는 스케일링 대각 매트릭스를 부가적으로 이용하여 역변환되는 것을 특징으로 하는 장치를 제공한다.
본 발명의 일실시예에서, 상기 수정 신호는 공간 도메인에서의 에러들의 가중치를 구분하기 위해 사용되는 다른 대각 매트릭스에 기초하여 생성된다.
본 발명의 일실시예에서, 상기 방법은 상기 스케일링 대각 매트릭스를 포함하는 복수의 대각 매트릭스들의 최적 셋을 계산하는 단계를 더 포함하고, 상기 수정 신호는 상기 복수의 대각 매트릭스들의 최적 셋에 기초하여 생성된다.
본 발명의 일실시예에서, 상기 복수의 대각 매트릭스들의 상기 최적 셋은 부가 정보(side information)로 인코딩되고, 디코더로 전송된다.
본 발명의 일실시예에서, 상기 복수의 대각 매트릭스들의 최적 셋은 상기 원 영상 신호의 프레임들을 인코딩하기 이전에 인코딩된다.
본 발명의 일실시예에서, 상기 왜곡 성분은 상기 원 영상 신호 및 복원 신호 사이의 총 왜곡을 나타내고, 그리고 상기 레이트 성분은 양자화된 계수를 전송하기 위해 요구되는 비트들의 수를 나타낸다.
본 발명의 다른 실시예는 영상 신호를 디코딩하는 방법에 있어서, 수정 신호를 포함하는 상기 영상 신호를 수신하는 단계; 복수의 대각 매트릭스들을 포함하는 부가 정보를 상기 영상 신호로부터 판독하는 단계; 상기 영상 신호를 엔트로피 인코딩하여 상기 수정 신호를 획득하는 단계; 및 상기 수정 신호 및 상기 복수의 대각 매트릭스들에 기초하여 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.
본 발명의 일실시예에서, 기 복수의 대각 매트릭스들은 스케일링 대각 매트릭스를 포함한다.
본 발명의 일실시예에서, 상기 방법은 상기 스케일링 대각 매트릭스를 부가적으로 이용하여 상기 수정 신호에 대해 역 변환을 수행하는 단계를 더 포함한다.
본 발명의 일실시예에서, 상기 수정 신호는 왜곡 성분 및 레이트 성분의 합을 최소화하는 최적화된 계수 값을 포함한다.
본 발명의 일실시예에서, 상기 복수의 대각 매트릭스들은 상기 영상 신호의 프레임들을 디코딩하기 이전에 판독된다.
본 발명의 다른 실시예는, 영상 신호를 인코딩하는 장치에 있어서, 원 영상 신호를 수신하는 수신부; 상기 원 영상 신호를 이전의 복원 신호와 비교하고, 왜곡 성분 및 레이트 성분의 합을 최소화하기 위해 수정 신호를 생성하는 최적화부; 및 영상 신호 복원을 위하여 디코더로 전송되는 상기 수정 신호를 엔트로피 인코딩하는 엔트로피 인코딩부를 포함하고, 상기 이전의 복원 신호는 스케일링 대각 매트릭스를 부가적으로 이용하여 역 변환되는 것을 특징으로 하는 장치를 제공한다.
본 발명의 일실시예에서, 상기 최적화부는, 상기 스케일링 대각 매트릭스를 포함하는 복수의 대각 매트릭스들의 최적 셋을 계산하도록 더 구성되고, 상기 수정 신호는 상기 복수의 대각 매트릭스들의 최적 셋에 기초하여 생성된다.
본 발명의 다른 실시예는, 영상 신호를 디코딩하는 장치에 있어서, 수정 신호를 포함하는 상기 영상 신호를 수신하고, 복수의 대각 매트릭스들을 포함하는 부가 정보를 상기 영상 신호로부터 판독하도록 구성되는 수신부; 상기 영상 신호를 엔트로피 인코딩하여 상기 수정 신호를 획득하는 엔트로피 디코딩부; 및 상기 수정 신호 및 상기 복수의 대각 매트릭스들에 기초하여 신호를 복원하는 복원부를 포함하는 것을 특징으로 하는 장치를 제공한다.
본 발명의 일실시예에서, 상기 디코딩 장치는 상기 스케일링 대각 매트릭스를 부가적으로 이용하여 상기 수정 신호에 대해 역변환을 수행하는 역변환부를 더 포함한다.
[발명의 실시를 위한 형태]
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.
또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다.
도 1 및 도 2 는 각각 미디어 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
상기 도 1 의 인코더(100)는 변환부(110), 양자화부(120), 역양자화부(130), 역변환부(140), 버퍼(150), 예측부(160) 및 엔트로피 인코딩부(170)를 포함하고, 상기 도 2 의 디코더(200)는 엔트로피 디코딩부(210), 역양자화부(220), 역변환부(230), 버퍼(240) 및 예측부(250)를 포함한다.
상기 인코더(100)는 원 영상 신호(original video signal)를 수신하고, 상기 원 영상 신호에서 예측부(160)로부터 출력된 예측 신호(predicted signal)를 감산하여 예측 에러를 생성한다. 상기 생성된 예측 에러는 변환부(110)으로 전송되고, 상기 변환부(110)는 상기 예측 에러에 변환 기법을 적용하여 변환 계수를 생성한다.
예를 들어, 상기 변환 기법 중에는 블록 기반 변환 방법과 이미지 기반 변환 방법이 있을 수 있다. 상기 블록 기반 변환 방법의 예로는 이산 여현 변환(Discrete Cosine Transform), 카루넨-루브 변환(Karhuhen-Loeve Transform) 등을 들 수 있다. 여기서, 상기 이산 여현 변환(DCT)이란 공간 도메인(spatial domain) 상의 신호를 2 차원 주파수 성분으로 분해(변환)하는 것을 나타낸다. 블록 내에서 좌측상단으로 갈수록 낮은 주파수 성분을 가지고, 우측하단으로 갈수록 높은 주파수 성분을 갖는 패턴을 이룬다. 예를 들어, 64 개의 2 차원의 주파수 성분 중 가장 좌측상단에 존재하는 1 개만이 직류성분(DC: Direct Current)으로 주파수가 0 인 성분이며, 나머지는 교류성분(AC: Alternate Current)으로 낮은 주파수 성분부터 높은 주파수 성분까지 63 개로 구성된다. 상기 이산 여현 변환(DCT)을 수행한다는 것은 원 영상 신호의 블록에 포함된 기저성분(64 개의 기본 패턴 성분)들 각각의 크기를 구하는 것이며, 이 크기는 이산 여현 변환 계수이다.
또한, 상기 이산 여현 변환(DCT)은 단순히 원 영상 신호 성분으로 표현하기 위하여 사용되는 변환으로, 역변환시 주파수 성분으로부터 원래의 영상 신호로 완전히 복원된다. 즉, 영상의 표현 방법만을 바꾸는 것으로, 중복된 정보를 포함해 원 영상에 포함된 모든 정보를 모두 보존한다. 원 영상 신호를 이산 여현 변환(DCT)하는 경우, 원 영상 신호의 진폭 분포와 달리 이산 여현 변환(DCT) 계수는 0 근처의 값에 몰려서 존재하게 되므로 이를 이용하여 높은 압축효과를 얻을 수 있게 된다.
양자화부(120)는 상기 생성된 변환 계수(transform coefficient)를 양자화하여 엔트로피 인코딩부(170)로 전송하고, 상기 엔트로피 인코딩부(170)는 양자화된 신호(quantized signal)를 엔트로피 코딩하여 출력한다.
상기 양자화부(120)는 입력되는 데이터에 대해 특정 범위의 입력 값을 하나의 대표 값으로 매핑한다. 양자화는 다음 수학식 1 과 같이, 입력 데이터를 양자화 스텝 사이즈로 나눔으로써 계산될 수 있다.
Figure pct00001
여기서, Y 는 양자화된 데이터를 나타내고, X 는 입력 데이터를 나타내고, Q 는 양자화 스텝 사이즈를 나타낸다. Sign() 함수는 데이터의 부호를 획득하기 위한 연산이고, Round() 함수는 반올림 연산을 나타낸다. 상기 양자화 스텝 사이즈는 양자화 구간(quantization range)으로 표현될 수 있다. 또한, 본 명세서에서, 상기 양자화 스텝 사이즈는 스케일링 파라미터(scaling parameter)를 의미할 수 있다. 비디오 코딩시, 상기 양자화 스텝 사이즈는 변화될 수 있으며, 변화된 양자화 스텝 사이즈를 이용하여 압축률을 조절할 수 있다. 한편, 상기 양자화 스텝 사이즈 대신 정수값을 사용하는 양자화 파라미터를 이용할 수도 있다.
양자화 과정은, 다음 수학식 2 와 같이, 입력된 변환 계수(C)를 양자화 스텝 사이즈(Q)로 나눔으로써 양자화된 계수(C' )를 획득할 수 있다.
Figure pct00002
여기서, C' 은 양자화된 계수를 나타내고, C 는 입력된 변환 계수를 나타내며, Q는 양자화 스텝 사이즈를 나타낸다.
한편, 상기 양자화부(120)로부터 출력된 상기 양자화된 신호(quantized signal)는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 상기 양자화된 신호(quantized signal)는 루프 내의 역양자화부(130) 및 역변환부(140)를 통해 역양자화 및 역변환을 적용함으로써 예측 에러로 복원될 수 있다. 상기 복원된 예측 에러를 예측부(160)로부터 출력된 예측 신호(prediction signal)에 더함으로써 복원 신호(reconstructed signal)가 생성될 수 있다.
버퍼(150)는 상기 예측부(160)에 의한 향후의 참조(future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부(160)는 상기 버퍼(150)에 저장된 이전에 복원된 신호(previously reconstructed signal)를 이용하여 예측 신호(prediction signal)를 생성하게 된다.
도 2 의 디코더(200)는 상기 도 1 의 인코더(100)로부터 출력된 신호를 수신하고, 수신된 신호는 엔트로피 디코딩부(210)를 통해 엔트로피 디코딩된다. 역양자화부(220)에서는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수를 획득하고, 역변환부(230)에서는 상기 변환 계수를 역변환하여 예측 에러를 획득하게 된다. 상기 획득된 예측 에러를 상기 예측부(250)로부터 출력된 예측 신호(prediction signal)에 더함으로써 복원 신호(reconstructed signal)가 생성된다.
상기 역양자화부(220)는 다음 수학식 3 과 같이 양자화된 데이터에 역양자화 스케일 값(Q)를 곱함으로써 계산될 수 있다.
Figure pct00003
여기서, X' 는 복원된 데이터를 나타내고, Y 는 양자화된 데이터를 나타내며, Q 는 역양자화 스케일 값을 나타낸다. 상기 Q 는 양자화 스텝 사이즈와 같은 값을 가질 수 있다.
상기 버퍼(240)는 상기 예측부(250)에 의한 향후의 참조(future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부(250)는 상기 버퍼(240)에 저장된 이전에 복원된 신호(previously reconstructed signal)를 이용하여 예측 신호(prediction signal)를 생성하게 된다.
본 발명은, 하이브리드 비디오 코더에서의 인트라 예측 방법을 제공한다. 압축될 샘플값은 이전에 코딩된 컨텍스트값을 이용하여 예측되고, 예측 에러는 변환 코딩된다. 이러한 과정은 가우시안(Gaussian) 신호에 대해 최적의 RD 값을 갖도록 수행될 수 있다. 그러나 일반적인 비디오 신호들은 가우시안(Gaussian) 신호에 맞지 않는 많은 신호들을 포함하고 있다. 따라서, 본 발명에서는 상기와 같은 신호들을 타겟하여, 우리는 예측 샘플과 함께 변환 코딩된 샘플 및 컨텍스트값을 이용하여 각 샘플을 비인과적으로(non-causally) 예측하는 기술을 제안하고자 한다. 이러한 비인과적 인코딩(non-causal encoding)은 비-직교변환(nonorthogonal transform)의 형태와 파라미터로 표현될 수 있다.
FIGS. 3 도 3 및 도 4 는 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
상기 도 3 의 인코더(300)는 최적화부(310), 양자화부(315), 역변환부(320), 예측부(330), 복원부(340), 버퍼(350) 및 엔트로피 인코딩부(360)를 포함하고, 상기 도 4 의 디코더(400)는 엔트로피 디코딩부(410), 역양자화부(420), 역변환부(430), 복원부(440), 버퍼(450) 및 예측부(460)를 포함한다.
상기 최적화부(310)는 상기 버퍼(350)로부터 현재 블록의 픽셀 정보, 이전의 디코딩된 블록의 픽셀 정보 및 양자화 스텝 사이즈 정보 중 적어도 하나를 가져올 수 있다. 여기서, 상기 현재 블록의 픽셀 정보는 벡터로 표현된, 코딩될 블록의 픽셀들(pixels from the block to be coded arranged into a vector)을 나타낼 수 있다. 상기 이전의 디코딩된 블록의 픽셀 정보는 벡터로 표현된, 이전의 디코딩된 블록의 픽셀들(pixels from previously decoded block arranged into a vector)을 나타낼 수 있다. 상기 양자화 스텝 사이즈 정보는 벡터로 표현된 양자화 스텝 사이즈를 나타낼 수 있다.
상기 최적화부(310)는 상기 현재 블록의 픽셀 정보, 상기 이전의 디코딩된 블록의 픽셀 정보 및 상기 양자화 스텝 사이즈 정보 중 적어도 하나에 기초하여 변환 계수 C(i,j)를 획득할 수 있다. 여기서, 상기 변환 계수 C(i,j)는 양자화된 변환 계수를 의미할 수 있다.
상기 역변환부(320)는 상기 획득된 변환 계수 C(i,j)를 수신하고, 역변환을 수행할 수 있다. 상기 역변환부(320)는 역변환을 수행하여, 레지듀얼 신호 res(i,j)를 획득할 수 있다.
상기 예측부(330)는 상기 버퍼(350)로부터 이전의 디코딩된 블록의 픽셀 정보를 가져올 수 있다. 상기 예측부(330)는 이전의 디코딩된 블록의 픽셀 및 이전 레이어로부터 복원된 픽셀 중 적어도 하나를 이용하여 현재 레이어의 픽셀을 예측할 수 있다. 상기 예측부(330)는 상기와 같은 예측을 수행함으로써 예측 신호 pred(i,j)를 획득할 수 있다. 여기서, 상기 현재 레이어의 픽셀(layer Lk)은 현재 블록이 BxB 블록이고 수평 성분을 j, 수직 성분을 i 라 할 때, (k, i) 및 (j, k) (i= 1, … , B, j = 1, … , B, k = 1, … , B) 위치에 있는 픽셀을 나타낼 수 있다. 이때, 상기 이전 레이어로부터 복원된 픽셀은 이전의 모든 레이어(layer L1, …, layer Lk-1)의 복원된 픽셀을 나타낼 수 있다. 이에 대해서는 도 5 및 도 6에서 보다 상세히 설명하도록 한다.
상기 복원부(340)는 상기 예측부(330)로부터 획득된 예측 신호 pred(i,j)와 상기 역변환부(320)로부터 획득된 레지듀얼 신호 res(i,j)를 더함으로써 복원 신호 rec(i,j)를 획득할 수 있다. 이때, 상기 복원 신호 rec(i,j)는 상기 현재 레이어 (layer Lk)에 대한 복원 신호를 의미할 수 있다. 상기 복원 신호 rec(i,j)는 향후 다음 레이어의 예측을 위해 버퍼(350)로 전송된다.
한편, 상기 최적화부(310)로부터 획득된 변환 계수 C(i,j)는 양자화부(315)로 전송될 수 있다.
상기 양자화부(315)는 양자화 과정을 수행하고 상기 엔트로피 인코딩부(360)에 상기 양자화된 변환 계수를 전송한다.
이때, 상기 변환 계수 C(i,j)는 RD(Rate-Distortion) 최적의 변환 계수를 의미할 수 있다. 그리고, 상기 양자화 과정은 상기 변환 계수 C(i,j)를 양자화 스텝 사이즈로 나눔으로써 수행될 수 있다.
상기 엔트로피 인코딩부(360)는 양자화된 변환 계수를 수신하고, 엔트로피 인코딩을 수행할 수 있다.
상기 도 4 의 디코더(400)는 상기 도 3 의 인코더(300)로부터 출력된 신호를 수신할 수 있다.
상기 엔트로피 디코딩부(410)는 비트스트림을 수신하여 엔트로피 디코딩을 수행할 수 있다.
상기 역양자화부(420)는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수를 획득할 수 있다.
상기 역변환부(430)는 상기 변환 계수를 역변환함으로써 레지듀얼 신호 res(i,j)를 획득할 수 있다.
상기 복원부(440)는 상기 레지듀얼 신호 res(i,j)와 예측부(450)로부터 획득된 예측 신호 pred(i,j)를 더함으로써 복원 신호 rec(i,j)를 획득할 수 있다. 상기 복원 신호 rec(i,j)는 버퍼(450)로 전송되어 저장될 수 있다. 그리고, 상기 복원 신호 rec(i,j)는 다음 신호의 예측을 위해 상기 예측부(450)로 전송될 수 있다.
상기 도 4 의 디코더(400) 내 각 부의 동작은 상기 도 3 의 인코더(300)에서 설명한 실시예들이 적용 가능할 것이다.
본 발명이 적용되는 하이브리드 비디오 코더는 이전에 디코딩된 샘플들(i.e. context values)을 이용하여 샘플들을 공간적으로 예측하고, 예측 에러를 변환 코딩함으로써 효율적인 예측 코딩을 수행한다.
이러한 코딩 방식은 블록 변환이 부분적으로 최적인 신호들에 대해서조차 연속적으로 블록 변환을 이용하게 한다. 예를 들어, 상기 부분적으로 최적인 신호들로는, 상당한 블록간 관계(significant inter-block correlations)를 갖는 신호들, 에지 및 다른 방향적 특이성을 갖는 신호들이 있을 수 있다. 따라서, 공간적 예측 동작(spatial prediction operation)은 단순한 변환 압축에 더 순응적인 예측 신호를 생성함으로써 정교한 예측 과정에는 덜 적응적인 것으로써 생각될 수 있다. 예측 동작은 컨텍스트 값들(context values)을 이용하여 수행되기 때문에, 그 효율은 가우시안(Gaussian) 신호 같은 모습을 갖는 기본적인 과정들에 여전히 강하게 종속될 수 있다.
구체적인 논의를 위해, 컨텍스트 샘플(context sample) xo 를 이용하여 시퀀스 xi (i= 1~N)를 압축하는 1차원 예제를 고려해본다.
예를 들어, x 는 컨텍스트 샘플(context sample) xo 를 이용하여 방향성 예측을 수행할 대상 블록(target block)으로부터 수평의 또는 방향성의 일련의 픽셀들을 포함한다. 여기서, 상기 컨텍스트 샘플(context sample) xo 는 이전의 디코딩된 블록의 경계로부터 획득될 수 있다. 상기 컨텍스트 샘플(context sample) xo 는 인코더 및 디코더 모두에 이용 가능하다고 가정한다. 상기 컨텍스트 샘플(context sample) xo 를 이용한 xi 의 선형 예측을 Pi(xo)라 하면, 레지듀얼 신호(ri)는 다음 수학식 4와 같이 정의할 수 있다.
Figure pct00004
상기 레지듀얼 신호(ri)는 인코딩 과정에 따라 변환 코드되고, 디코딩 과정에 따라 변환 디코드되면, 아래 수학식 5 와 같이 나타낼 수 있다.
Figure pct00005
여기서,
Figure pct00006
은 복원 신호를 나타낸다.
최적의 선형 예측자를 획득해서 KLT 를 이용하면, 상기 과정은 가우시안(Gaussian) 시퀀스의 압축에 점근적으로 최적이 될 수 있다. 그러나, 상기 과정은 가우시안 모델링(Gaussian modeling)과 같은 많은 이미지/비디오 구조의 경우에 적합하지 않을 수 있다. 따라서, 본 발명에서는 디코딩 과정 중에 모든 디코딩된 정보를 이용하는 더 나은 예측자를 이용함으로써 상기 예측방법을 보다 향상시키고자 한다. 본 발명은 에지와 방향성 구조를 갖는 비디오 신호에 보다 탁월한 효과를 보여줄 것이다.
이하에서는, 먼저 본 발명의 1 차원 예제를 통해 기본 아이디어를 설명할 것이다. 그 다음, 선형 예측자에 집중하여, 본 발명과 DPCM 과의 연결 관계를 논의하고, 등가의 비직교 변환(equivalent non-orthogonal transform)을 유도할 것이다. 그리고, 코덱 설계를 논의한 후, 비직교 변환을 이용한 압축 및 RD(Rate-Distortion) 최적의 양자화 파라미터 유도에 대해 설명할 것이다. 마지막으로, 본 발명이 적용되는 시뮬레이션 결과에 대한 상세 내용을 설명할 것이다.
디코딩을 수행한 이후에, 상기 디코더는 상기 모든 잔차 샘플들에 접근할 수 있다. 그러나, 상기 디코더는 i번째 샘플인
Figure pct00007
를 디코딩하는 경우, x 0r i 만을 이용한다. 특히,
Figure pct00008
,을 디코딩하는 경우, 상기 디코더는
Figure pct00009
를 이미 복원하였고,
Figure pct00010
x 0 대비 일반적으로 더 나은 예측자이다. 본 발명에서, 디코딩 체인은 아래의 수학식 6과 같이 설계될 수 있다.
Figure pct00011
상기 디코더는 이용 가능한 모든 변환 디코딩된 잔차들을 이용하기 때문에, 이러한 체인 및 확대된(augmented) 예측자 P t 가 이용 가능할 수 있다. 상기 대응하는 인코딩 체인은 최적 코딩된 변환 계수들을 선택함으로서 설명될 수 있고, 수학식 6에서의 상기 변환 디코더로 입력되는 경우, 주어진 목표 비트-레이트에서 최소 왜곡을 갖는
Figure pct00012
를 만들어낸다.
본 발명은 비선형 예측 함수들로 일반화될 수 있는 반면에, 본 발명은 계산적으로 단순한, 선형 예측자들을 유지할 것이지만 어디서나 x0를 이용하기 보다는 오히려 가장 근접한 이용 가능한 샘플들을 이용하여 예측을 수행할 것이다. 1차원의 예를 들면, 본 발명은 수학식 7을 구성할 수 있다.
Figure pct00013
이러한 경우에서, 본 예측은 단일 예측 가중치를 갖는 선형일 수 있다. 이러한 설정에서, 수학식 7의 상기 예측 P i (x 0)는 단순히
Figure pct00014
로 교체될 수 있다. 다른 가중치들 및 유형들의 선형 예측자들이 간단한 일반화들일 수 있다.
아래에서는, DPCM 및 등가 비-직교 변환들과의 관계에 대하여 설명될 것이다.
수학식 7은 단일 예측 가중치로 동작하고 있는 1차 DPCM 디코더와 유사하다. DPCM 시스템이 인과적으로(causally), 그리고 독립적으로 상기 잔차들을 인코딩할 것인 반면에, 상기 수학식 7의 디코더는 비인과적으로(non-causally), 그리고 결합하여(jointly) 인코딩된 잔차들의 디코딩에 대응된다. 이는 수학식 6에서 보여지는 변환 디코더의 출력인
Figure pct00015
에 기인한다. 잔차 의존성(residual dependencies) 및 다른 DPCM R-D 비능률들(inefficiencies)을 활용하는 제안된 시스템은 DPCM 시스템의 예측 정확도를 얻을 수 있다.
수학식 7은 매트릭스 수학식 8로 유도될 수 있다.
Figure pct00016
여기서, F는 수학식 9를 이용하는 (N × N ) 하위 삼각 예측 매트릭스(lower triangular prediction matrix)이다.
Figure pct00017
이러한 실시예는 단위 성분들(entries)를 갖는 (N × 1) 매트릭스이다.
수학식 8을 변환 코딩을 수용하는 것으로 확대하면, 본 발명은 수학식 10을 만들어낼 수 있다.
Figure pct00018
수학식 10에서, T (N × N)는 압축 (예컨대, HEVC에서의 블록 DCT/DST)으로 사용되는 변환이고
Figure pct00019
는 역양자화된 변환 계수들이다. G = FT이라고 하면, 수학식 10은 수학식 11을 통한 비-직교 변환 G를 갖는
Figure pct00020
의 변환코딩에 대응한다.
Figure pct00021
이러한 단순한 선형 형태로, 본 발명은 상기 비-직교 변환 G를 이용하는 x - Bx 0의 변환 압축이 될 수 있다.
모드-기반 선형 예측자들을 이용하여, 제안된 디코딩 체인은 각 예측 모드에 대하여 F 및 B 매트릭스들을 설계하고 등가 비-직교 변환(equivalent non-orthogonal transform) G를 유도하여 HEVC와 같은 베이스라인(baseline) 하이브리드 코덱으로 통합될 수 있다.
이러한 디코딩 체인이 수행할 모든 것들은 경계 샘플들이라기 보다는 오히려 가장 근접한 샘플들을 이용하는 예측이기 때문에 디코딩 체인이 상기 기준과 비교하여 단지 증가된 임계(marginal) 복잡도를 갖게 될 것이다. 그러나, 인코딩 체인은 상기 디코딩 체인을 위하여 전송할 최적의 계수들을 선택하여야 하기 때문에, 더 복잡하다. 아래에서, 본 발명은 레이트-왜곡 최적화된 양자화 파라미터들을 수반하고 유도하여야 하는 반복적인 양자화 알고리즘(iterative quantization algorithm)를 제공할 것이다.
도 5 및 도 6 은 본 발명이 적용되는 실시예들로써, 이전의 코딩된 픽셀을 이용하여 예측을 수행하는 방법을 설명하기 위한 레이어를 정의한다.
본 발명은 이전의 코딩된 픽셀을 이용하여 각 샘플을 비인과적으로(non-causally) 예측하는 방법을 제공한다.
이때, 현재 블록의 픽셀 및 예측을 위해 이용될 상기 이전의 코딩된 픽셀은 다양한 방법으로 결정될 수 있다.
본 발명이 적용되는 일실시예로, 현재 블록은 적어도 하나 이상의 레이어 단위로 분해(decompose)될 수 있다. 그에 따라, 상기 이전의 코딩된 픽셀도 레이어 단위로 결정될 수 있다.
여기서, 상기 레이어 단위는 일정한 기준에 따라 위치한 픽셀에 기초하여 다양하게 정의될 수 있다. 구체적 예로, 현재 블록의 최상위 좌측에 위치한 픽셀을 기준으로 수평 및 수직 방향으로 배열된 픽셀들을 하나의 레이어로 정의할 수 있다. 그리고, 상기 최상위 좌측에 위치한 픽셀의 대각선 방향으로 위치한 픽셀들을 기준으로 각각 연속된 레이어로 정의할 수 있다.
이때, 상기 레이어는 하나의 픽셀 또는 복수의 픽셀로 정의될 수 있고, 또는 블록 전체의 픽셀들로도 정의될 수 있다. 또한, 상기 레이어는 상기 도 5 와 같이 연속된 픽셀들의 집합으로 정의될 수 있지만, 경우에 따라 연속되지 않은 픽셀들의 집합으로 정의될 수도 있다.
예를 들어, 상기 도 5 를 살펴보면, 현재 블록이 BxB 블록이고, 블록 내 픽셀의 위치를 (i,j)라고 가정하자. 여기서, i∈{1,2, … , B}, j∈{1,2, … , B}이다. 이때, 현재 블록의 최상위 좌측에 위치한 픽셀을 기준으로 수평 및 수직 방향으로 배열된 픽셀들을 layer L1 로 정의할 수 있다. 즉, 픽셀의 위치 (1,j) 및 (i,1)에 위치한 픽셀을 layer L1로 정의할 수 있다.
이를 일반화하면, 픽셀의 위치 (k,j) 및 (i,k)에 위치한 픽셀을 layer Lk(k= 1,2, … , B)로 정의할 수 있다.
본 발명이 적용되는 일실시예로, 상기 이전의 코딩된 픽셀은 코딩하고자 하는 레이어 바로 이전에 코딩된 레이어의 픽셀들을 포함할 수 있다.
상기 도 6 을 살펴보면, 현재 레이어 layer Lk 를 예측하기 위해서 바로 이전에 코딩된 레이어 layer Lk-1 를 이용할 수 있다. 이때, 상기 현재 레이어 layer Lk 를 예측하기 위해서 현재 블록의 경계에 인접한 픽셀들도 함께 이용할 수 있다. 즉, 상기 현재 블록에 인접한 이미 디코딩된 블록의 인접 픽셀들이 상기 레이어 layer Lk를 예측하기 위해서 이용될 수 있다.
예를 들어, 상기 현재 레이어 layer Lk 는 이전의 모든 레이어(layer L1, …, layer LK-1)의 복원된 픽셀들 및 이미 디코딩된 블록의 인접 픽셀들에 기초하여 예측될 수 있다.
본 발명의 다른 실시예들은 예측 형식을 제공할 수 있다.
상기 인코더는 coeffs(i,j), i∈{1,2, … , B}, j∈{1,2, … , B} 를 벡터 c로 배열(arrange)할 수 있다. 이는 수학식 12로 표현될 수 있다.
Figure pct00022
그리고, 상기 인코더는 res(i,j), i∈{1,2, … , B}, j∈{1,2, … , B}를 벡터 r로 배열할 수 있다. 이는 수학식 13으로 표현될 수 있다.
Figure pct00023
그리고 나서, 상기 인코더는 이전의 디코딩된 블록들로부터의 픽셀들을 벡터 y로 배열할 수 있다.
이러한 경우에서, 수학식 14와 같은 매트릭스 곱셈을 이용하여 본 발명이 구현될 수 있다.
Figure pct00024
여기서,
Figure pct00025
는 복원된 블록을 나타낸다.
또한, 수학식 15 와 같은 매트릭스 곱셈을 이용하여 본 발명이 구현될 수 있다.
Figure pct00026
여기서 T는 상기 역변환과 등가인 매트릭스를 나타낸다.
또한, 수학식 16과 같은 매트릭스 곱셈을 이용하여 본 발명이 구현될 수 있다.
Figure pct00027
또한, 수학식 17과 같은 매트릭스 곱셈을 이용하여 본 발명이 구현될 수 있다.
Figure pct00028
여기서 G' = F' T, 그리고 F' 및 H' 은 훈련 셋을 통해 최적화된 매트릭스를 나타낸다.
한편, 상기 도 5 및 도 6 에서 설명된 실시예들은 인트라 예측의 경우에 적용 가능할 뿐만 아니라, 인트라 예측의 다양한 예측 모드에 적용 가능하다. 본 발명은 이에 한정되지 않으며, 예를 들어, 상기 실시예들은 인터 예측의 경우에도 적용 가능하다.
도 7 은 본 발명이 적용되는 실시예로써, 레이어 단위로 이전의 코딩된 픽셀을 이용하여 예측을 수행하는 방법을 설명하는 흐름도이다.
먼저, 수신된 비트스트림으로부터 엔트로피 코딩된 계수를 추출할 수 있다. 상기 엔트로피 코딩된 계수에 대해 엔트로피 디코딩을 수행하고(S710), 역양자화를 수행함으로써 변환 계수 coeffs(i,j)를 획득할 수 있다(S720).
상기 변환 계수에 역변환을 수행함으로써 레지듀얼 신호 res(i,j)를 획득할 수 있다(S730). 상기 레지듀얼 신호 res(i,j)는 현재 레이어 layer Lk 를 복원하기 위해 이용된다.
한편, 현재 레이어 layer Lk 에 있는 픽셀들을 예측하기 위해 이전에 디코딩된 블록의 픽셀들이 이용될 수 있다. 이때, 이전의 모든 레이어(layer L1, …, layer Lk-1)의 복원된 픽셀들도 함께 이용하여 상기 현재 레이어 layer Lk 에 있는 픽셀들을 예측할 수 있다(S740).
S740 을 통해 생성된 예측 신호 pred(i,j)는 상기 S730 에서 획득된 레지듀얼 신호 res(i,j)에 더해져, 상기 현재 레이어 layer Lk 에 있는 픽셀들을 복원할 수 있게 된다(S750). 이렇게 생성된 복원 신호 recon(i,j)는 다음 레이어의 예측을 위해 이용될 수 있다.
도 8 은 본 발명이 적용되는 실시예로써, 최적의 양자화된 계수를 획득하기 위한 양자화 과정을 설명하는 흐름도이다.
본 발명은 비-직교 변환들을 이용하는 압축 방법을 제공한다.
랜덤 벡터 x (N × 1)를 고려하자. 기재법상의 편의를 위하여 상기 컨텍스트 예측이 x 이내에서 처리(absorb)된다고 가정하자. 상기 벡터 x 는 열들 g i , i = 1, . . . , N 이 변환 기저(basis)를 형성하는, 상기 선형 변환 G (N × N)를 이용하여 표현된다. G 가 풀 랭크(full rank)인 것으로 가정되지만 일반적으로, 즉 G 가 반드시 직교이지 않을 수 있고 g i 는 반드시 단위 크기(unit norm)이지 않을 수 있다.
Figure pct00029
수학식 18 에서, c (N × 1)는 변환 계수들이다. 상기 계수들은
Figure pct00030
= Q(c)가 산출되도록 스칼라 양자화될 수 있고 이후에 엔트로피 코딩될 수 있고 디코더로 전송될 수 있다.
양자화 왜곡을 최소화하는 것을 목표로 하는 비-직교 기저 G 에 관한 스칼라 양자화 문제는 수학식 19와 같이 작성될 수 있다.
Figure pct00031
본 발명이 비디오 코더들과의 호환성을 위하여 다양한 양자화부들을 수용할 수 있는 동안에, 이는 수학식 20과 같이 가정될 것이다.
Figure pct00032
수학식 20 에서, ι (N ×1)은 정수들의 벡터이고 Λ 는 양자화 스텝-사이즈의 대각 행렬, 즉 i 번째 스텝 사이즈 λ i 및 δ i,j 로 구성된 Λ i,j = λ i δ i,j 는 크로네커 델타 함수(Kronecker delta function) 이다.따라서 , 수학식 21이 유도될 수 있다.
Figure pct00033
수학식 21 은 ι 에 관한 최적 해법이 정수 문제를 해결하는 것을 요구하는 격자 양자화부(lattice quantizer)로서 인식될 수 있다.
수학식 19 의 해법을 위한 많은 서브최적화 기법들이 제안되었다. 신속한 해법들을 수용하기 위하여, 본 발명은 각각의 계수에 관하여 집중하는 스칼라 양자화 문제들을 순서대로 반복하여 해결하는 것과 유사한 방법을 포함시킬 수 있다. i 번째 계수들을 제외하고 모든 계수들이 양자화되었다고 가정하자. 상기 에러 벡터는 수학식 22 와 같이 정의될 수 있다.
Figure pct00034
정수 제약(integer constraint) 조건 없이, i 번째 계수가 수학식 23 이 되도록 선택함으로써 왜곡을 최소화할 수 있다.
Figure pct00035
수학식 20에서의 균일한 역양자화 과정(uniform de-quantization process)을 위하여, 상기 최적 양자화된 계수는 수학식 24와 같이 획득될 수 있다.
이는 아래에서 설명될 양자화 알고리즘으로 유도될 수 있다.
인코더에서는 디코더에 전송할 최적의 양자화된 계수를 획득하기 위해 반복 시뮬레이션을 수행할 수 있다(S810).
현재 양자화된 계수가 이전의 양자화된 계수와 비교하여 일정한 조건이 만족되면, 상기 현재 양자화된 계수가 최적의 양자화된 계수로 결정될 수 있다. 예를 들어, 현재 양자화된 계수를 Cn 이라 하고, 이전의 양자화된 계수를 Cn-1 이라 하면, 상기 현재 양자화된 계수와 상기 이전의 양자화된 계수 간의 차이값 (Cn-l - Cn)이 0 으로 수렴하는지 여부를 확인할 수 있다(S820). 상기 차이값 (Cn-1 - Cn)이 0 으로 수렴하는 경우, 상기 현재 양자화된 계수 Cn 을 최적의 양자화된 계수로 결정하고, 이를 디코더에 전송할 수 있다(S830). 그러나, 상기 차이값 (Cn-1 - Cn)이 0 으로 수렴하지 않는 경우, 상기 현재 양자화된 계수 Cn 는 이전 단계들(S810, S820)을 반복 수행하도록 리턴될 수 있다.
상기 일정한 조건의 다른 예로, 상기 현재 양자화된 계수와 상기 이전의 양자화된 계수 간의 차이값 (Cn-1 - Cn)을 특정 임계값 τ 과 비교함으로써 최적의 양자화된 계수를 결정할 수 있다. 예를 들어, 상기 차이값 (Cn-1 - Cn)이 상기 특정 임계값 τ 보다 크면, 상기 현재 양자화된 계수 Cn 는 이전 단계들(S810, S820)을 반복 수행하도록 리턴될 수 있다. 반면, 상기 차이값 (Cn-1 - Cn)이 상기 특정 임계값 τ 보다 작거나 같으면, 상기 현재 양자화된 계수 Cn 는 최적의 양자화된 계수로 결정되어, 디코더에 전송될 수 있다.
위와 같은 동작은 상기 도 3 의 인코더에서 수행될 수 있고, 예를 들어, 상기 양자화부(310)에서 수행될 수 있다.
도 9 는 본 발명이 적용되는 실시예로써, 최적의 양자화된 계수를 획득하기 위한 양자화 과정을 구체적으로 설명하는 흐름도이다.
본 발명의 실시예에 따르면, 인코더는 현재 블록의 픽셀 정보, 이전의 디코딩된 블록의 픽셀 정보 및 양자화 스텝 사이즈 정보 중 적어도 하나에 기초하여, 최적의 양자화된 계수를 획득할 수 있다. 이는 상기 인코더 내 양자화부에 의해 수행될 수 있다.
먼저, 인코더는 상기 현재 블록의 픽셀 정보 및 상기 이전의 디코딩된 블록의 픽셀 정보에 기초하여 초기 양자화된 계수(initial quantized coefficient)를 획득할 수 있다(S910). 상기 초기 양자화된 계수는 다음 수학식 25 와 같이 나타낼 수 있다.
Figure pct00037
여기서, C0 는 초기 양자화된 계수를 나타내고, x 는 현재 블록의 픽셀 정보를 나타내며, y 는 이전의 디코딩된 블록의 픽셀 정보를 나타낸다. 여기서, G, H 는 트레이닝 셋(training sets)에 대해 최적화된 매트릭스들(matrices optimized over training sets)을 나타낸다. 그리고, 상기 매트릭스 G 는 비직교변환 매트릭스(non-orthogonal transform matrix)를 나타낼 수 있다.
상기 초기 양자화된 계수에 기초하여, 원 신호와 복원된 신호의 차이를 나타내는 에러 벡터를 획득할 수 있다(S920). 이때, 상기 현재 블록의 픽셀 정보 x 및 상기 이전의 디코딩된 블록의 픽셀 정보 y 가 이용될 수 있으며, 이는 다음 수학식 26 과 같이 나타낼 수 있다.
Figure pct00038
여기서, en 은 에러 벡터를 나타내고, n = 0, 1,2,… 이며, 최적의 양자화된 계수가 획득될 때까지 반복될 수 있다. 이러한 반복 과정(iteration process)을 위해, 임시 벡터(temporary vector)를 아래 수학식 27 과 같이 정의할 수 있다.
Figure pct00039
여기서, t 는 임시 벡터(temporary vector)를 나타내고, gk 는 매트릭스 G 의 k 번째 열(column)의 벡터를 나타낸다. 그리고, Cn-1(k)는 (n-1)번째 양자화된 계수를 나타낸다.
상기 임시 벡터(temporary vector) t 와 양자화 스텝 사이즈 정보 λ(k)에 기초하여, n 번째 양자화된 계수 Cn 을 획득할 수 있다(S930). 이때, 다음과 같은 수학식 28 이 이용될 수 있다.
Figure pct00040
여기서, λ(k)는 k 번째 변환 계수를 위해 이용될 양자화 스텝 사이즈(quantization step size that is to be used for the kth transform coefficient)를 나타낸다.
그리고, 상기 에러 벡터 en 은 다음 수학식 29 와 같이 업데이트될 수 있다(S940).
Figure pct00041
상기와 같은 과정을 통해, n 번째 양자화된 계수 Cn 가 획득되면, 이전의 양자화된 계수 Cn-1 과 비교하여 일정한 조건이 만족되는지 여부를 확인함으로써, 상기 n 번째 양자화된 계수 Cn 를 최적의 양자화된 계수로 결정할 수 있다. 예를 들어, 상기 n 번째 양자화된 계수 Cn 과 상기 이전의 양자화된 계수 Cn-1 간의 차이값 (Cn-1 - Cn)이 0으로 수렴하는지 여부를 확인할 수 있다(S950).
상기 차이값 (Cn-1 - Cn)이 0 으로 수렴하는 경우, 상기 n 번째 양자화된 계수 Cn 을 최적의 양자화된 계수로 결정하고, 이를 디코더에 전송할 수 있다(S960). 그러나, 상기 차이값 (Cn-1 - Cn)이 0 으로 수렴하지 않는 경우, 상기 n 번째 양자화된 계수 Cn은 이전 단계들을 반복 수행하도록 리턴될 수 있다.
상기 일정한 조건의 다른 예로, 상기 현재 양자화된 계수와 상기 이전의 양자화된 계수 간의 차이값 (Cn-1 - Cn)을 특정 임계값 τ 과 비교함으로써 최적의 양자화된 계수를 결정할 수 있다. 예를 들어, 다음 수학식 30 과 같이 나타낼 수 있다.
Figure pct00042
상기 차이값 ∥Cn - Cn-l2 이 상기 특정 임계값 τ 보다 크면, 상기 현재 양자화된 계수 Cn 는 이전 단계들을 반복 수행하도록 리턴될 수 있다. 반면, 상기 차이값 ∥Cn - Cn-l2 이 상기 특정 임계값 τ 보다 작거나 같으면, 상기 현재 양자화된 계수 Cn 는 최적의 양자화된 계수로 결정되어, 디코더에 전송될 수 있다.
도 10 은 본 발명이 적용되는 실시예로써, 최적의 양자화 스텝 사이즈를 획득하는 과정을 설명하는 흐름도이다.
상기 도 9 에서 살펴본 것처럼, 인코더는 최적의 양자화된 계수를 획득하기 위해 양자화를 수행하는 과정에서, 최적의 양자화 스텝 사이즈가 유도될 수 있다.
먼저, 양자화 파라미터 값으로부터 양자화 스텝 사이즈 정보를 획득할 수 있다(S1010). 예를 들어, 상기 양자화 스텝 사이즈 정보는 다음 수학식 31 과 같이 나타낼 수 있다.
Figure pct00043
여기서, ㅿ(k)는 k 번째 양자화 스텝 사이즈를 나타내고, QP 는 양자화 파라미터를 나타낸다.
한편, 최적의 양자화된 계수를 획득하기 위해 이용될 매트릭스 및 벡터를 초기화할 수 있다(S1020). 예를 들어, 상기 벡터 및 매트릭스는 각각 다음 수학식들 32 및 33 과 같이 나타낼 수 있다.
Figure pct00044
Figure pct00045
최적화부에서는 상기 k 번째 양자화 스텝 사이즈 ㅿ(k)와 상기 초기화된 벡터 u(k) 및 매트릭스들
Figure pct00046
,
Figure pct00047
에 기초하여 최적의 양자화 스텝 사이즈를 획득할 수 있다(S1030). 이때, CONVEX OPTIMIZATION 알고리즘이 이용될 수 있다.
본 발명의 실시예는 최적 양자화 스텝 사이즈를 유도하는 방법을 제공할 수 있다.
양자화 스텝 사이즈의 레이트-왜곡 최적의 설계는 레이트 및 왜곡에 대한 추적 가능한 표현들(tractable expressions)이 코덱 의존적이고 획득하기 어렵기 때문에 일반적으로 어려운 문제이다.
이러한 실시예에서, 스텝 사이즈의 벡터, λ를 최적화하기 위하여 하이 레이트 근사화(high rate approximations)가 사용될 수 있다.
성공적인 이미지 및 비디오 코더들에 후속하여 상기 변환 코딩 방법(recipe)은 스칼라 엔트로피 코더들을 활용한다. 따라서,
Figure pct00048
로 양자화된 계수들을 전달하기 위하여 요구되는 레이트는 수학식 34와 같이 근사화될 수 있다.
Figure pct00049
수학식 34에서, H()는 엔트로피를 표시한다. 계수
Figure pct00050
i는 스텝-사이즈 λi를 이용하여 스칼라 양자화되기 때문에, 높은 비트-레이트로 근사화가 이루어질 수 있다.
Figure pct00051
수학식 35에서, h(Ci)는 연속적인 값의 계수의 차분(differential) 엔트로피이다. 따라서, 레이트 제약 조건을 만족시키기 위하여, 수학식 36이 요구될 수 있다.
Figure pct00052
G가 직교정규(orthonormal)이라면, λ에 관한 평균 왜곡에 대한 간단한 근사화는
Figure pct00053
가 될 것이고, 이는 균일하게 분포된 양자화 에러를 가정하여 획득된다.
비-직교(non-orthogonal)인 G를 이용하는 경우, 신호 도메인 및 계수 도메인 왜곡들은 동일하지 않고 이러한 근사화를 사용할 수 없다. 모든 양자화들이 영 평균(zero mean)이라고 가정하자. 신호 도메인 평균 왜곡은 수학식 37으로 작성될 수 있고, 여기서 E[]는 평균(expectation)을 표시하고 Tr(.)은 매트릭스의 대각합(trace)이다. e = G(C -
Figure pct00054
)를 이용하여, 수학식 37이 획득될 수 있다.
Figure pct00055
수학식 37에서, p = C -
Figure pct00056
는 계수 도메인 에러(coefficient domain error)를 표시하도록 설정된다. 계수 도메인 에러가 역상관(decorrelate)된다고, 즉 E[ppT ]가 대각 성분들, πi, i =1, … N을 갖는 대각화된다고 가정하면, 간단한 대수학은 수학식 38을 산출한다.
Figure pct00057
상기 양자화는 상기 양자화 알고리즘을 통해 수행되기 때문에, form π = λi 2/12 형태의 근사화들은 유효하지 않다. Π 를 λ 와 연관시키기 위하여 상기 양자화 알고리즘에 의해 유도되는 라운딩 에러에 관하여 집중하기로 하자. 수렴 지점에서, 수학식 39 가 획득될 수 있다.
Figure pct00058
수학식 39는 다음을 만족하는 라운딩 에러로 유도되고,
Figure pct00059
Figure pct00060
로 설정되고 상기 라운딩 에러가 균일하다고 가정하면 수학식 40이 획득될 수 있다.
Figure pct00061
Figure pct00062
가 i번째 열
Figure pct00063
을 갖는 매트릭스가 된다고 하자. 수학식 41이 획득될 수 있다.
Figure pct00064
H =
Figure pct00065
TG라고 하면, 수학식 42가 획득될 수 있다.
Figure pct00066
수학식 42의 대각 성분들을 고려하면 수학식 43이 유도될 수 있다.
Figure pct00067
Figure pct00068
Figure pct00069
는 매트릭스 성분들이 각각 G 및 H의 제곱이 되도록 하는 매트릭스들을 표시한다고 하자. 수학식 38 및 43은 수학식 44가 된다.
Figure pct00070
수학식 44에서, u는 전부-1인 벡터(vector of all-ones)이고
Figure pct00071
이다.
따라서, 수학식 45가 획득될 수 있다.
Figure pct00072
상기 최적화는 수학식 46을 획득하기 위한 레이트 제약 조건에 대한 평균 왜곡의 최소화 (수학식 45)의 형태로 주어질 수 있다.
Figure pct00073
수학식 46에서, γ는 라그랑제 승수(Lagrange multiplier)이다. 수학식 46의 최적화는 아래의 수학식 47을 산출한다.
Figure pct00074
도 11 및 도 12 는 본 발명이 적용되는 실시예들로써, 도 11 은 본 발명이 적용된 테스트 이미지들을 나타내고, 도 12 는 테스트 이미지들에 대한 레이트 게인(rate gain)의 퍼센티지를 나타낸다.
앞서 설명한 바와 같이, 본 발명은 예측된 신호와 함께 변환 코딩된 신호를 이용하여 비디오 신호를 비인과적으로(non-causally) 예측함으로써, 에지와 방향성 구조(edge and directional structure)를 갖는 신호에 대해 보다 효율적으로 코딩할 수 있다.
본 시뮬레이션에서는, 블록 내 1 픽셀 두께의 레이어에 대한 인트라 예측이 수행되었고, 상기 도 3 내지 도 10 에서 설명한 예측 과정 및 양자화 과정이 적용되었다.
상기 도 11 은 (a)~(f)까지 6 개의 테스트 이미지들을 나타내고, 상기 6 개 이미지들은 각각의 이미지 특성을 갖는다.
상기 6 개의 테스트 이미지들은 다른 일반적인 이미지들보다 에지 또는 방향적 특이성(edge or directional singularity) 중 적어도 하나가 뚜렷하게 나타나는 신호라고 볼 수 있다.
이러한 테스트 이미지들에 대한 레이트 게인(rate gain)을 측정한 결과, 상기 도 12(a)와 같은 결과를 확인할 수 있다. 즉, 상기 6 개의 테스트 이미지들 모두에 대해 기존 코덱의 효율 대비 향상된 효과를 확인할 수 있다.
나아가, 상기 도 11(a), 11(b), 11(e)의 이미지들은 나머지 이미지들 도 11(c), 11(d), 11(f)에 비해 보다 방향적 특이성이 두드러짐을 확인할 수 있다. 따라서, 상기 도 12(a)와 같이, 상기 도 11(a), 11(b), 11(e)의 레이트 게인(rate gain)이 상대적으로 더 높음을 확인할 수 있다.
마찬가지로, 상기 도 12(b)와 같이, 비디오 시퀀스에 대한 시뮬레이션의 경우에도, 기존 코덱의 효율 대비 향상된 효과를 확인할 수 있다.
도 13 은 본 발명이 적용되는 실시예로써, 향상된 예측 코딩 방법을 설명하기 위한 개략적인 흐름도이다.
먼저, 단계 S1310에서 상기 원 영상 신호가 수신되는 경우, 상기 인코더는 단계 S1320에서 상기 원 영상 신호를 이용 가능한 복원 신호들과 비교할 수 있다. 그리고, 상기 인코더는 상기 비교 결과에 기초하여 수정 신호를 결정할 수 있다.
이러한 경우에서, 상기 수정 신호는 왜곡 성분 및 레이트 성분의 합을 최소화하도록 결정될 수 있다. 상기 왜곡 성분은 상기 원 영상 신호 및 복원 신호 사이의 총 왜곡을 나타내고, 그리고 상기 레이트 성분은 양자화된 계수를 전송하기 위해 요구되는 비트들의 수를 나타낸다. 수정 신호를 결정하기 위하여, 상기 인코더는 디코딩 시뮬레이션들을 수행할 수 있다.
단계 S1330에서 상기 인코더는 상기 비교 결과에 기초하여 변환 코딩된 수정 신호를 생성할 수 있다.
그리고, 단계 S1340에서 상기 인코더는 상기 변환 코딩된 수정 신호 및 상기 이용 가능한 복원 신호에 기초하여 예측 신호를 생성할 수 있다.
그리고 나서, 단계 S1350에서 상기 인코더는 상기 변환-코딩된 수정 신호를 상기 예측 신호와 합산하여 신호를 복원할 수 있다.
도 14 는 본 발명이 적용되는 실시예로써, 최적의 양자화 스텝 사이즈에 기초하여 양자화를 수행하는 방법을 설명하기 위한 개략적인 흐름도이다.
본 발명은, 최적의 양자화된 계수를 획득하기 위해 양자화를 수행하는 과정에서, 최적의 양자화 스텝 사이즈를 유도하는 방법을 제공한다. 이렇게 유도된 양자화 스텝 사이즈에 기초하여 양자화를 수행할 수 있다.
먼저, 양자화 파라미터 값으로부터 양자화 스텝 사이즈 정보를 획득할 수 있으며, 이때 상기 양자화 스텝 사이즈 정보는 스케일링 파라미터(scaling parameter)를 의미할 수 있다. 상기 스케일링 파라미터는 RD(Rate-Distortion) 최적화 알고리즘에 따라 획득될 수 있다. 예를 들어, 상기 스케일링 파라미터는 왜곡 성분(distortion component)과 레이트 성분(rate component)의 합을 최소화하는 값으로 결정될 수 있다(S1410).
한편, 상기 도 8 내지 도 10 에서 설명한 실시예들에 따라, 변환 코딩된 수정 신호(transform-coded correction signal)를 획득할 수 있다. 예를 들어, 상기 변환 코딩된 수정 신호(transform-coded correction signal)는 최적의 변환 계수를 포함할 수 있다.
상기 S1410 단계에서 결정된 스케일링 파라미터에 기초하여, 상기 변환 코딩된 수정 신호에 대해 양자화를 수행할 수 있다(S1420).
이렇게 양자화된 계수를 엔트로피 인코딩 되어 전송될 수 있다(S1430).
도 15 및 도 16 은 본 발명이 적용되는 실시예들로써, 양자화 에러 제어를 통한 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
본 발명은, 공간적, 스펙트럴, 격자 놈(norm)의 3 개 공간에서 동시에 요소들(factors)을 처리함으로써 양자화 효과를 제어하는 코딩 파라미터 셋을 정의한다. 이미지 압축 방식의 특정 타입과 트레이닝(training) 기술을 이용하여 결정된 최적의 파라미터들을 찾음으로써 향상된 압축을 제공할 수 있다.
앞서 설명한 도 1 에서는 예측 코딩, 변환 코딩 및 하이브리드 코딩을 위해 필요한 모든 요소를 포함하고 있다.
예측 코딩은 이전의 코딩된 부분을 이용하여 신호 요소를 예측하고 예측된 값과 실제 값 사이의 차이값을 코딩하는 것을 기초로 한다. 코딩되는 데이터(이미지 또는 비디오 프레임)를 나타내기 위해 N 차원 벡터 X 를 이용하고, 그것의 예측된 값을 나타내기 위해 벡터 P 를 이용한다. 이러한 예측은 복원된 벡터
Figure pct00075
의 과거 값들로부터 형성된 벡터 y 를 이용하여 산출된다.
먼저, 예측 레지듀얼을 나타내는 차분 벡터를 아래 수학식 48 과 같이 계산할 수 있다.
Figure pct00076
다음, 이러한 차이는, 일반적으로 NxN 매트릭스 T 에 의해 표현되는 직교 선형 변환을 이용하여 추가적으로 변환되고(transformed), 그후 벡터 계수는 엔트로피 코딩을 위한 정수로 전환된다(converted).
정수 계수를 갖는 벡터는 c 에 의해 표시되고, 다음 수학식 49 와 같이 정의될 수 있다.
Figure pct00077
일반적으로, 양자화는 직교 스케일링 매트릭스 Q 를 이용하여 수행되며, 이는 다음 수학식 50 과 같다.
Figure pct00078
여기서, 더블 브라켓(double brackets, [[]])은 다음 수학식과 같이 엘리먼트 별 라운딩(per-element rounding)을 나타낸다.
Figure pct00079
마지막으로, 복원된 벡터
Figure pct00080
는 다음 수학식 를 이용하여, 인코더와 디코더 모두에서 계산될 수 있다.
Figure pct00081
여기서,
Figure pct00082
는 복원된 벡터, p 는 예측 벡터, T 는 변환 매트릭스, Q 는 양자화 매트릭스, 그리고 c 는 변환 계수를 나타낸다.
매트릭스 T 가 DCT 같은 변환에 의해 정의될 때, 변환의 적용은 레지듀얼 벡터 d 의 스펙트럴 성분을 계산하는 것과 거의 동일하다. 따라서, 본 발명에서는 대각 매트릭스(diagonal matrix) Q 의 다른 값들을 이용함으로써, 주파수 도메인에서 양자화 에러의 분배를 변경할 수 있다.
이미지 또는 비디오 블록의 벡터 내의 모든 엘리먼트들이 인터 블록 예측시에 동일한 방식으로 이용될 수 없다. 따라서, 블록 경계에 존재하는 몇몇 요소의 에러 때문에 예측 정확도가 현저히 감소할 수 있다.
그리고, DCT 와 같은 선형 변환은 독립적으로 벡터에 적용될 때, 블록 경계에서 블로킹 아티팩트를 생성할 수 있다.
이는, 블록의 다른 부분들에서 발생하는 에러마다 서로 중요도가 다르다는 점과 관련이 있다. 본 발명은 공간 도메인 상에서 양자화 에러를 좀더 세밀하게 제어하는 방법을 제공함으로써, 블로킹 아티팩트를 경감시킬 수 있다. 그러나, 대각 매트릭스(diagonal matrix) Q 를 이용한 접근은 단지 주파수 도메인에서의 제어만을 가능하게 한다. 따라서, 본 발명은 공간 도메인과 주파수 도메인 모두에서 양자화 에러를 제어할 수 있도록 함으로써 위와 같은 문제를 해결할 수 있다.
도 15 를 살펴보면, 본 발명이 적용되는 인코더(1500)는 최적화부(1520), 역양자화부(1530), 역변환부(1540), 버퍼(1550), 예측부(1560) 및 엔트로피 인코딩부(1570)을 포함할 수 있다. 여기서, 상기 역변환부(1540)는 공간 스케일링부(1545)를 포함할 수 있다.
도 15 의 인코더(1500)를 살펴보면, 최적화부(1520)에서는 최적의 양자화된 변환 계수를 획득할 수 있다.
먼저, 상기 최적화부(1520)는 트레이닝 단계를 통해 최적의 양자화된 변환 계수를 획득할 수 있다. 예를 들어, 상기 최적화부(1520)는 RD(Rate-Distortion) 관점에서, 대각 매트릭스들 (S, W, Q)의 최적 셋을 계산할 수 있다.
본 발명은, 공간 도메인 상의 스케일링 팩터인, 또 다른 대각 매트릭스(diagonal matrix) S 를 추가하는 방법을 제공한다. 그렇게 함으로써, 신호 복원을 위한 과정은 다음 수학식 53 과 같이 변경될 수 있다.
Figure pct00083
이는 수학식 3 과 같이 단순한 라운딩(rounding)을 이용하여 최적의 변환 계수를 계산하도록 하는 직교성 조건을 변경할 수 있다. 따라서, 본 발명은 최적의 변환 계수를 다음 수학식 54 에 기초하여 계산할 수 있다.
Figure pct00084
여기서, W 는 공간 도메인 상에서 에러 중요도를 구별하기 위해 이용되는 또 다른 대각 매트릭스를 나타낸다.
또한, 상기 대각 매트릭스들 (S, W, Q)의 최적 셋을 찾기 위해, 본 발명은 MSE(Mean Squared Error)와 같은 객관적인 왜곡 측정, 또는 블로킹 아티팩트의 가시성과 같은 주관적 요소를 포함하는 또다른 왜곡 측정을 이용할 수 있다.
그리고, 이미지 또는 비디오 프레임을 코딩하기 전에, 부가 정보(side information)로써 대각 매트릭스들 (S, W, Q)의 값들을 인코딩할 수 있다. 이때, 디코더에 의해 인식가능한 적절한 프로토콜이 이용될 수 있다.
역양자화부(1530)는 최적의 양자화된 변환 계수에 역양자화를 수행하여 변환 계수를 획득할 수 있다.
상기 역변환부(1540)는 상기 변환 계수에 역변환을 수행함으로써 예측 에러 벡터를 획득할 수 있다. 이때, 상기 역변환은 스케일 직교 매트릭스 S 를 포함할 수 있다. 이와 같이, 공간 도메인 상에서 스케일링 매트릭스를 추가함으로써, 공간 도메인 상에서도 양자화 에러를 제어할 수 있게 된다.
상기 스케일 직교 매트릭스 S 에 의한 스케일링은 상기 역변환부(1540) 내의 공간 스케일링부(1545)에서 수행될 수 있다. 또한, 상기 공간 스케일링부(1545)는 상기 역변환부(1540)에 의한 역변환 과정 이후에 위치할 수도 있다.
상기 획득된 예측 에러 벡터를 예측부(1560)로부터 출력된 예측 신호(prediction signal)에 더함으로써 복원 신호(reconstructed signal)가 생성될 수 있다.
버퍼(1550)는 상기 예측부(1560)에 의한 향후의 참조(future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부(1560)는 상기 버퍼(1550)에 저장된 이전에 복원된 신호(previously reconstructed signal)를 이용하여 예측 신호(prediction signal)를 생성하게 된다.
한편, 상기 최적화부(1520)로부터 획득된 최적의 양자화된 변환 계수는 엔트로피 인코딩부(1570)로 전송되고, 상기 엔트로피 인코딩부(1570)는 상기 최적의 양자화된 변환 계수를 엔트로피 인코딩하여 출력할 수 있다.
도 16 을 살펴보면, 본 발명이 적용되는 디코더(1600)는 엔트로피 디코딩부(1610), 역양자화부(1620), 역변환부(1630), 버퍼(1640) 및 예측부(1650)을 포함할 수 있다. 여기서, 상기 역변환부(1630)는 공간 스케일링부(1635)를 포함할 수 있다.
도 16 의 디코더(1600)는 상기 도 15 의 인코더(1500)로부터 출력된 신호를 수신하고, 수신된 신호는 엔트로피 디코딩부(1610)를 통해 엔트로피 디코딩된다.
역양자화부(1620)에서는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수를 획득하고, 역변환부(1630)에서는 상기 변환 계수를 역변환하여 예측 에러를 획득하게 된다. 이때, 상기 역변환은 스케일 직교 매트릭스 S를 포함할 수 있다.
상기 스케일 직교 매트릭스 S 에 의한 스케일링은 상기 역변환부(1630) 내의 공간 스케일링부(1635)에서 수행될 수 있다. 상기 공간 스케일링부(1635)는 상기 역변환부(1630)에 의한 역변환 과정 이후에 위치할 수도 있다. 또한, 상기 도 15 에서 설명한 실시예들이 적용될 수 있다.
상기 획득된 예측 에러를 상기 예측부(1650)로부터 출력된 예측 신호(prediction signal)에 더함으로써 복원 신호(reconstructed signal)가 생성된다.
버퍼(1640)는 예측부(1650)에 의한 향후의 참조(future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부(1650)는 상기 버퍼(1640)에 저장된 이전에 복원된 신호(previously reconstructed signal)를 이용하여 예측 신호(prediction signal)를 생성할 수 있다.
도 17 은 본 발명이 적용되는 실시예로써, RD(Rate-Distortion) 최적화 과정을 통해 스케일링 대각 매트릭스(scaling diagonal matrix)를 획득하는 과정을 설명하는 흐름도이다.
수학식 46에 의해 정의되는 코딩의 형태에서, c ∈ ZN, 즉, 코딩될 데이터의 벡터가 정수 값만을 가질 수 있기 때문에 근사화된 픽셀들의 복원(reproduction) 값들이 획득될 수 있다.
본 발명은 부가적인 에러 벡터 e를 정의하여, 통계적 방법들을 사용하는 근사화를 모델링할 수 있다.
Figure pct00085
c의 각 성분의 라운딩 에러는 상기 직교 매트릭스 T에 의한 곱을 통해 결합될 수 있다. 높은-레이트 근사화들에 대하여, e의 성분들은 영 평균 및 동일한 분산을 갖는, 독립적인 랜덤 가우시안 변수들이라고 가정할 수 있다. 따라서, 수학식 46으로부터 획득된 값들은 수학식 56을 산출한다.
Figure pct00086
수학식 56은 에러들이 블록 내의 모든 픽셀들에 대하여 대략적으로 동일한 분포를 갖는다는 것을 의미한다.
수학식 57에 의해 정의되는 새로운 접근방식을 이용하여, 잔차 값들 x - p는 적절한 복원 값을 획득하기 위하여 S-1만큼 프리스케일링(pre-scale)된다.
Figure pct00087
e의 성분들은 영 평균(zero mean) 및 동일한 분산(same variance)을 갖는, 독립적인 랜덤 가우시안 변수들이다.
그러나, 이러한 경우에서, 수학식 58에 의해 주어지는 픽셀들이 복원되었다.
Figure pct00088
수학식 52는 이제 각 픽셀에서의 에러가 대각 행렬 S에서의 스케일링 요소들에 비례하여, 상이한 분산들을 갖는다는 것을 의미한다. 따라서 Si,i의 더 큰 값들은 상대적으로 더 큰 에러 분산들을 발생시키고, 그 역도 성립한다.
아래에서, 본 발명의 다소 더 상세한 설명이 제시된다. 예를 들어, 본 발명은 미리 정의된 비디오 세그먼트, 예를 들어, 코딩부, 프레임, 타일, 슬라이스 등에 대하여 적용될 수 있다.
인코더에서, 다음의 단계들에 따라 본 발명이 수행될 수 있다.
먼저, 상기 인코더는 상기 세그먼트 내의 코딩 픽셀 블록들에 대하여 사용될 행렬들 S,W, 및 Q를 선택할 수 있다.
다음으로, 각 세그먼트 내의 픽셀들을 코딩하기 이전에, 상기 인코더는 매트릭스들 S 및 Q에 관한 정보를 압축된 비트스트림에 부가할 수 있다. 예를 들어, T는 가정된 상수(assumed constant)이고, W는 상기 인코더에 의해서만 사용된다.
그리고 나서, 각 픽셀 블록에 대하여, 상기 인코더는 상기 최적 벡터 c ∈ ZN를 찾을 수 있고, 그 값을 엔트로피 코딩하고, 이를 상기 압축된 비트스트립에 부가한다.
디코더에서, 본 발명은 다음의 단계들에 따라서 수행될 수 있다.
먼저, 각 세그먼트에서 픽셀들을 디코딩하기 이전에, 상기 디코더는 상기 매트릭스들 S 및 Q에 관한 정보를 상기 압축된 비트스트림으로부터 판독할 수 있다.
그리고 나서, 각 픽셀 블록에 대하여, 상기 디코더는 상기 벡터 c ∈ ZN를 엔트로피 디코딩할 수 있고, 수학식 59를 이용하여 복원된 픽셀 값들을 계산한다.
Figure pct00089
본 발명의 실시예는 레이트 왜곡 (RD) 최적화 과정을 통해 스케일링 대각 매트릭스를 획득하는 과정을 제공한다.
먼저, 인코더는 트레이닝을 통해 RD(Rate-Distortion) 최적화 과정을 수행할 수 있다(S1710). 예를 들어, 이러한 RD(Rate-Distortion) 최적화 과정은 상기 최적화부(1520)에 의해 수행될 수 있다.
상기 RD(Rate-Distortion) 최적화 과정을 통해 대각 매트릭스들 (S, W, Q)의 최적 셋을 계산할 수 있다(S1720).
상기 대각 매트릭스들 (S, W, Q)의 값을 부가 정보(side information)로 인코딩할 수 있다(S1730).
그 후, 상기 도 15 및 도 16 에서 기재한 과정에 따라 비디오 신호를 인코딩 또는 디코딩할 수 있다(S1740).
예를 들어, 상기 대각 매트릭스들 중, 스케일링 대각 매트릭스 S 는 인코더(1500)의 역변환부(1540) 또는 디코더(1600)의 역변환부(1630)에서 이용됨으로써, 공간 도메인 상에서도 양자화 에러를 제어될 수 있다.
도 18 은 본 발명이 적용되는 실시예로써, 최적화된 스케일링 매트릭스를 이용하여 코딩한 경우와 기존 방식대로 코딩한 경우의 각 이미지별 코딩 게인(coding gain)을 비교하는 그래프이다.
상기 도 18은 에러 전달의 제어와 코딩 게인과의 관계를 보여줄 수 있다.
그래프 상의 점선은 일반적인 코덱의 코딩 게인을 나타내고, 실선은 최적의 대각 매트릭스들을 이용되었을 때의 코딩 게인을 나타낸다.
본 실시예의 경우, 평면 예측(planar prediction)과 4X4 DCT 를 이용한 경우이다. 3 개의 테스트 이미지, 'Woman' , 'Bike' , '
Figure pct00090
' 에서 모두 최적의 대각 매트릭스들을 이용하였을 때, 보다 나은 코딩 효율을 보인다는 점을 확인할 수 있다.
이는 본 발명의 일실시예일 뿐이며, 위에서 언급한 조건들에 한정되지 않고, 다른 조건의 실시예에도 적용가능하다.
도 19 및 도 20 은 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 19의 인코더(1900)은 최적화부(1910), 양자화부(1920) 및 엔트로피 인코딩부(1930)을 포함한다. 도 20의 디코더(2000)은 엔트로피 디코딩부(2010), 역양자화부(2020), 역변환부(2030) 및 복원부(2040)를 포함한다.
도 19의 상기 인코더(1900)을 참조하면, 상기 최적화부(1910)는 최적화된 변환 코딩된 수정 신호를 획득한다. 상기 최적화부(1910)는 최적화된 변환 코딩된 수정 신호를 획득하기 위하여 아래의 실시예들을 사용할 수 있다.
본 발명이 적용될 수 있는 실시예를 도시하기 위하여, 먼저, 신호를 복원하기 위한 복원 함수가 다음과 같이 정의될 수 있다.
Figure pct00091
수학식 60에서,
Figure pct00092
는 복원 신호를 표시하고, c는 디코딩된 변환 코딩 수정 신호를 표시하고, y는 컨텍스트 신호를 표시한다. R(c,y)는 복원 신호를 생성하기 위하여 c 및 y를 이용하는 복원 함수를 표시한다.
본 실시예에서, 복원 함수는 이전의 복원 값들 및 변환 코딩된 수정 신호 사이의 관계로서 정의될 수 있다. 따라서, 상기 디코딩된 수정 신호는 상기 복원 값들뿐만 아니라, 전체 복원 과정 및 복원 함수의 선택에도 영향을 미친다.
예를 들어, 수정 신호는 다음과 같이 정의될 수 있다.
Figure pct00093
수학식 61에서, e는 수정 신호를 표시하고, c는 변환 코딩된 수정 신호를 표시하고, T는 변환 매트릭스를 표시한다. 또한, 일부 경우들에서, 상기 수정 신호는 에러 신호 또는 예측 에러 신호를 의미할 수 있다.
이러한 경우에서, 복원 신호는 다음과 같이 정의될 수 있다.
Figure pct00094
수학식 62에서,
Figure pct00095
n은 복원 신호의 n번째 성분을 표시하고, e는 상기 수정 신호를 표시하고, y는 컨텍스트 신호를 표시한다. Rn은 복원 신호를 생성하기 위하여 e, y 및
Figure pct00096
를 이용하는 복원 함수를 표시한다.
일 실시예에서, 상기 복원 함수 Rn은 다음과 같이 정의될 수 있다.
Figure pct00097
수학식 63에서, Pn은 예측 신호를 생성하기 위한 상기 파라미터들의 형태인 예측 함수의 유형을 표시한다.
예를 들어, 상기 예측 함수는 랭크 차수 필터 및 비-선형 함수의 조합, 또는 선형 함수들의 조합인, 중간(median) 함수일 수 있다. 더욱이, 비-선형 예측 함수 Pn()은 상이한 비-선형 함수일 수 있다.
본 발명의 다른 실시예에서, 양자화부(1920)는 상기 최적화부(1910) 내에 포함될 수 있거나 상기 최적화부(1910)는 변환부를 포함할 수 있다.
본 발명의 다른 실시예에서, 상기 인코더(1900) 및 상기 디코더(2000)는 상기 비-선형 예측 함수를 선택하기 위한 후보 함수들의 저장부를 포함할 수 있다.
이러한 경우에서, 상기 최적화된 비-선형 예측 함수는 상기 저장부에 저장된 후보 함수들로부터 선택될 수 있다.
최적화된 비-선형 예측 함수가 위에서 기술된 바와 같이 선택되는 경우에, 상기 최적화부(1910)는 상기 최적화된 비-선형 예측 함수를 이용하여 최적화된 예측 신호를 생성할 수 있다. 그리고, 상기 최적화부(1910)는 상기 최적화된 예측 신호에 기초하여 최적화된 예측 에러 신호를 생성할 수 있고, 상기 최적화된 예측 에러 신호에 관한 변환 코딩을 수행할 수 있다. 상기 최적화부(1910)는 상기 변환 코딩을 통해 변환 코딩된 계수를 출력할 수 있다. 이러한 경우에서, 상기 변환 코딩된 계수는 최적화된 변환 계수를 의미할 수 있다.
상기 출력 변환 계수는 상기 양자화부(1920)으로 전송된다. 상기 양자화부(1920)는 상기 변환 계수를 양자화하고 상기 양자화된 변환 계수를 상기 엔트로피 인코딩부(1930)로 전송한다.
상기 엔트로피 인코딩부(1930)는 양자화된 변환 계수에 대하여 엔트로피 인코딩을 수행하고 압축된 비트 스트림을 출력할 수 있다.
도 20의 상기 디코더(2000)는 도 19의 상기 인코더로부터 상기 압축된 비트 스트림을 수신할 수 있고, 상기 엔트로피 디코딩부(2010)을 통해 엔트로피 디코딩을 수행할 수 있고, 상기 역양자화부(2020)을 통해 역양자화를 수행할 수 있다. 이러한 경우에서, 상기 역양자화부(2020)에 의한 신호 출력은 최적화된 변환 계수를 의미할 수 있다.
상기 역변환부(2030)는 상기 최적화된 변환 계수를 수신하고, 역변환 과정을 수행하고, 역변환 과정을 통해 예측 에러 신호를 획득할 수 있다.
상기 복원부(2040)는 예측 에러 신호 및 예측 신호를 함께 합산하여 복원 신호를 획득할 수 있다. 이러한 경우에서, 도 19를 참조하여 기술되는 다양한 실시예들이, 상기 예측 신호에 적용될 수 있다.
도 21 은 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법을 설명하기 위한 개략적인 흐름도이다.
먼저, 단계 S2110에서 상기 원 영상 신호가 수신되는 경우, 단계 S2120에서 상기 인코더는 상기 원 영상 신호를 이용 가능한 복원 신호들을 비교할 수 있다. 그리고, 단계 S2130에서 상기 인코더는 상기 비교 결과에 기초하여 수정 신호를 결정할 수 있다.
이러한 경우에서, 왜곡 성분 및 레이트 성분의 합을 최소화기 위하여 상기 예측 신호가 결정될 수 있다. 상기 왜곡 성분은 상기 원 영상 신호 및 복원 신호 사이의 총 왜곡을 나타내고, 상기 레이트 성분은 양자화된 계수를 전송하기 위해 요구되는 비트들의 수를 나타낸다. 수정 신호를 결정하기 위하여, 상기 인코더는 디코딩 시뮬레이션들을 수행할 수 있다.
본 발명은 상기 신호 복원을 위하여 사용될 복원 함수를 결정하는 단계를 더 포함할 수 있고, 상기 복원 함수는 선형 성분 및 비-선형 성분 중 적어도 하나를 포함한다.
그리고, 상기 복원 함수는 상기 이전의 복원 샘플들 및 상기 수정 신호 전부에 기초하여 결정될 수 있다.
그리고 나서, 단계 S2140에서 상기 인코더는 신호 복원을 위하여 전송될 변환 코딩된 수정 신호를 생성할 수 있다. 여기서, 상기 변환-코딩된 수정 신호는 역양자화 매트릭스 및 역변환 매트릭스에 의해 곱해질 수 있고, 비트-레이트 및 양자화 에러들을 제어하기 위하여 상기 역양자화 매트릭스가 선택될 수 있다.
더욱이, 상기 변환 코딩된 수정 신호는 픽쳐들의 그룹에 대한 수정 신호에 대응할 수 있고 시공간 변환 코딩이 상기 수정 신호에 인가되었을 수 있다.
본 발명의 일 실시예에 따르면, 상기 디코더는 본 발명에 따라 획득된 변환 코딩된 수정 신호를 포함하는 비트 스트림을 수신할 수 있고, 상기 엔트로피 디코딩부를 통해 엔트로피 디코딩을 수행할 수 있고, 상기 역양자화부를 통해 역양자화를 수행할 수 있고, 상기 역변환부를 통해 역변환을 수행할 수 있다. 상기 디코더는 상기 변환 코딩된 수정 신호에 역변환을 수행하여 수정 신호를 획득할 수 있다.
그리고 나서 상기 디코더는 상기 획득된 수정 신호 및 컨텍스트 신호를 결합하는 복원 함수를 이용하여 복원 신호를 획득할 수 있다. 여기서, 상기 컨텍스트 신호는 이전의 복원 샘플들 전부에 기초하여 획득될 수 있다.
더욱이, 상기 디코더는 상기 신호 복원을 위하여 사용될 복원 함수를 결정할 수 있고, 상기 복원 함수는 선형 성분 및 비-선형 성분 중 적어도 하나를 포함할 수 있다. 여기서, 상기 복원 함수는 상기 이전의 복원 샘플들 및 상기 수정 신호 전부에 기초하여 결정될 수 있다.
상기 변환 코딩된 수정 신호는 역양자화 매트릭스 및 역변환 매트릭스에 의해 곱해질 수 있다. 또한, 상기 변환 코딩된 수정 신호는 픽쳐들의 그룹에 대한 수정 신호에 대응할 수 있고 시공간 변환 코딩이 상기 수정 신호에 인가되었다.
위에서 기술된 바와 같이, 본 발명이 적용될 수 있는 상기 디코더 및 상기 인코더는 멀티미디어 방송 전송/수신 장치, 이동 통신 단말기, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시 카메라, 비디오 채팅 장치, 비디오 통신과 같은 실시간 통신 장치, 이동 스트리밍 장치, 저장 매체, 캠코더, VoD 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원 (3D) 비디오 장치, 텔레컨퍼런스 비디오 장치, 및 의료 비디오 장치 내에 포함될 수 있고, 비디오 신호들 및 데이터 신호들을 코딩하는데 사용될 수 있다.
더욱이, 본 발명이 적용될 수 있는 상기 디코딩/인코딩 방법은 컴퓨터에 의해 실행될 수 있는 프로그램의 형태로 제작되고 컴퓨터-판독가능 기록 매체 내에 저장될 수 있다. 본 발명에 따른 데이터 구조를 갖는 멀티미디어 데이터는 컴퓨터-판독가능 기록 매체 내에 또한 저장될 수 있다.
상기 컴퓨터-판독가능 기록 매체는 컴퓨터 시스템에 의해 판독 가능한 데이터가 저장되는 모든 유형의 저장 기기들을 포함한다. 상기 컴퓨터-판독가능 기록 매체는, 예를 들어, BD, USB, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 및 광학 데이터 저장 기기를 포함할 수 있다. 더욱이, 상기 컴퓨터-판독가능 저장 매체는 반송파들(예컨대, 인터넷을 통한 전송)의 형태로 구현되는 매체를 포함한다. 더욱이, 상기 인코딩 방법에 의해 생성되는 비트 스트림이 컴퓨터-판독가능 저장 매체 내에 저장될 수 있거나 또는 유선/무선 통신 네트워크들을 통해 전송될 수 있다.
본 발명의 예시적인 실시예들은 예시의 목적들을 위하여 개시되었고, 당해 기술분야에서 통상의 지식을 가진 자들은 첨부된 청구항들에서 개시된 본 발명의 기술적 정신 및 범위 이내에서 다양한 다른 실시예들을 향상, 변경, 교체, 또는 부가할 수 있다.

Claims (20)

  1. 영상 신호를 인코딩하는 방법에 있어서,
    원 영상 신호(original video signal)를 수신하는 단계;
    상기 원 영상 신호를 이전의 복원 신호와 비교하는 단계;
    왜곡 성분 및 레이트 성분의 합을 최소화하기 위해 수정 신호를 생성하는 단계; 및
    영상 신호 복원을 위하여 디코더로 전송되는 상기 수정 신호를 엔트로피 인코딩하는 단계를 포함하고,
    상기 이전의 복원 신호는 스케일링 대각 매트릭스를 부가적으로 이용하여 역변환되는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서, 상기 수정 신호는 공간 도메인에서의 에러들의 가중치를 구분하기 위해 사용되는 다른 대각 매트릭스에 기초하여 생성되는 것을 특징으로 하는 방법.
  3. 제 1 항에 있어서,
    상기 스케일링 대각 매트릭스를 포함하는 복수의 대각 매트릭스들의 최적 셋을 계산하는 단계를 더 포함하고,
    상기 수정 신호는 상기 복수의 대각 매트릭스들의 최적 셋에 기초하여 생성되는 것을 특징으로 하는 방법.
  4. 제 3 항에 있어서, 상기 복수의 대각 매트릭스들의 상기 최적 셋은 부가 정보(side information)로 인코딩되고, 디코더로 전송되는 것을 특징으로 하는 방법.
  5. 제 3 항에 있어서, 상기 복수의 대각 매트릭스들의 상기 최적 셋은 상기 원 영상 신호의 프레임들을 인코딩하기 이전에 인코딩되는 것을 특징으로 하는 방법.
  6. 제 1 항에 있어서,
    상기 왜곡 성분은 상기 원 영상 신호 및 복원 신호 사이의 총 왜곡을 나타내고, 그리고
    상기 레이트 성분은 양자화된 계수를 전송하기 위해 요구되는 비트들의 수를 나타내는 것을 특징으로 하는 방법.
  7. 영상 신호를 디코딩하는 방법에 있어서,
    수정 신호를 포함하는 상기 영상 신호를 수신하는 단계;
    복수의 대각 매트릭스들을 포함하는 부가 정보를 상기 영상 신호로부터 판독하는 단계;
    상기 영상 신호를 엔트로피 인코딩하여 상기 수정 신호를 획득하는 단계; 및
    상기 수정 신호 및 상기 복수의 대각 매트릭스들에 기초하여 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제 7 항에 있어서, 상기 복수의 대각 매트릭스들은 스케일링 대각 매트릭스를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 스케일링 대각 매트릭스를 부가적으로 이용하여 상기 수정 신호에 대해 역 변환을 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  10. 제 7 항에 있어서, 상기 복수의 대각 행렬들은 공간 도메인에서의 에러들의 가중치를 구분하기 위해 사용되는 대각 매트릭스를 포함하는 것을 특징으로 하는 방법.
  11. 제 7 항에 있어서, 상기 수정 신호는 왜곡 성분 및 레이트 성분의 합을 최소화하는 최적화된 계수 값을 포함하는 것을 특징으로 하는 방법.
  12. 제 11 항에 있어서,
    상기 왜곡 성분은 상기 원 영상 신호 및 복원 신호 사이의 총 왜곡을 나타내고, 그리고
    상기 레이트 성분은 양자화된 계수를 전송하기 위해 요구되는 비트들의 수를 나타내는 것을 특징으로 하는 방법.
  13. 제 7 항에 있어서, 상기 복수의 대각 매트릭스들은 상기 영상 신호의 프레임들을 디코딩하기 이전에 읽히는 것을 특징으로 하는 방법.
  14. 영상 신호를 인코딩하는 장치에 있어서,
    원 영상 신호를 수신하도록 구성되는 수신부;
    상기 원 영상 신호를 이전의 복원 신호와 비교하고, 왜곡 성분 및 레이트 성분의 합을 최소화하기 위해 수정 신호를 생성하도록 구성되는 최적화부; 및
    영상 신호 복원을 위하여 디코더로 전송되는 상기 수정 신호를 엔트로피 인코딩하도록 구성되는 엔트로피 인코딩부를 포함하고,
    상기 이전의 복원 신호는 스케일링 대각 매트릭스를 부가적으로 이용하여 역 변환되는 것을 특징으로 하는 장치.
  15. 제 14 항에 있어서, 상기 수정 신호는 공간 도메인에서의 에러들의 가중치를 구분하기 위해 사용되는 다른 대각 매트릭스에 기초하여 생성되는 것을 특징으로 하는 장치.
  16. 제 14 항에 있어서,
    상기 스케일링 대각 매트릭스를 포함하는 복수의 대각 매트릭스들의 최적 셋을 계산하도록 구성되는 상기 최적화부를 더 포함하고,
    상기 수정 신호는 상기 복수의 대각 매트릭스들의 최적 셋에 기초하여 생성되는 것을 특징으로 하는 장치.
  17. 제 16 항에 있어서, 상기 복수의 대각 매트릭스들의 최적 셋은 부가 정보(side information)로 인코딩되고, 디코더로 전송되는 것을 특징으로 하는 장치.
  18. 영상 신호를 디코딩하는 장치에 있어서,
    수정 신호를 포함하는 상기 영상 신호를 수신하고, 복수의 대각 매트릭스들을 포함하는 부가 정보를 상기 영상 신호로부터 판독하도록 구성되는 수신부;
    상기 영상 신호를 엔트로피 인코딩하여 상기 수정 신호를 획득하도록 구성되는 엔트로피 디코딩부; 및
    상기 수정 신호 및 상기 복수의 대각 매트릭스들에 기초하여 신호를 복원하도록 구성되는 복원부를 포함하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서,
    상기 스케일링 대각 매트릭스를 부가적으로 이용하여 상기 수정 신호에 대해 역 변환을 수행하도록 구성되는 역변환부를 더 포함하는 것을 특징으로 하는 장치.
  20. 제18항에 있어서, 상기 복수의 대각 행렬들은 공간 도메인에서의 에러들의 가중치를 구분하기 위해 사용되는 대각 매트릭스를 포함하는 것을 특징으로 하는 장치.
KR1020167020203A 2013-12-22 2014-12-22 양자화 에러의 추가적인 제어를 이용한 비디오 신호의 인코딩, 디코딩 방법 및 장치 KR20160104646A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361919803P 2013-12-22 2013-12-22
US61/919,803 2013-12-22
US201461941498P 2014-02-19 2014-02-19
US201461941499P 2014-02-19 2014-02-19
US61/941,499 2014-02-19
US61/941,498 2014-02-19
PCT/KR2014/012621 WO2015093908A1 (en) 2013-12-22 2014-12-22 Method and apparatus for encoding, decoding a video signal using additional control of quantization error

Publications (1)

Publication Number Publication Date
KR20160104646A true KR20160104646A (ko) 2016-09-05

Family

ID=53403157

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167020204A KR20160106619A (ko) 2013-12-22 2014-12-22 예측된 신호와 변환 코딩된 신호를 이용한 비디오 신호의 예측 방법 및 장치
KR1020167020203A KR20160104646A (ko) 2013-12-22 2014-12-22 양자화 에러의 추가적인 제어를 이용한 비디오 신호의 인코딩, 디코딩 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167020204A KR20160106619A (ko) 2013-12-22 2014-12-22 예측된 신호와 변환 코딩된 신호를 이용한 비디오 신호의 예측 방법 및 장치

Country Status (6)

Country Link
US (2) US20160360237A1 (ko)
EP (2) EP3085095B1 (ko)
JP (2) JP2017509268A (ko)
KR (2) KR20160106619A (ko)
CN (2) CN105850136B (ko)
WO (2) WO2015093909A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6571193B2 (ja) * 2014-08-22 2019-09-04 ノバ サウスイースタン ユニバーシティーNova Southeastern University クロネッカー積を使用するデータアダプティブ圧縮およびデータ暗号化
EP3355580A4 (en) * 2015-09-21 2019-04-24 LG Electronics Inc. METHOD AND DEVICE FOR PROCESSING VIDEO IMAGE SIGNALS USING COEFFICIENT REMOVAL PRESCRIPTION
US10305717B2 (en) * 2016-02-26 2019-05-28 VertoCOMM, Inc. Devices and methods using the hermetic transform for transmitting and receiving signals using multi-channel signaling
CN111107357B (zh) * 2018-10-25 2022-05-31 杭州海康威视数字技术股份有限公司 一种图像处理的方法、装置、系统及存储介质
US11032574B2 (en) * 2018-12-31 2021-06-08 Tencent America LLC Method and apparatus for video coding
US11343512B1 (en) 2021-01-08 2022-05-24 Samsung Display Co., Ltd. Systems and methods for compression with constraint on maximum absolute error
CN114925805A (zh) * 2022-03-10 2022-08-19 吉林大学 图神经网络模型及其确定方法、图表示方法、介质及终端

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW364107B (en) * 1996-03-25 1999-07-11 Trw Inc Method and system for three-dimensional compression of digital video signals
US5867416A (en) * 1996-04-02 1999-02-02 Lucent Technologies Inc. Efficient frequency domain analysis of large nonlinear analog circuits using compressed matrix storage
US20040091055A1 (en) * 2002-10-30 2004-05-13 Williams Thomas Holtzman Digital transmission system using non-orthogonal matrices
US7567617B2 (en) 2003-09-07 2009-07-28 Microsoft Corporation Predicting motion vectors for fields of forward-predicted interlaced video frames
WO2006038607A1 (ja) * 2004-10-06 2006-04-13 Nippon Telegraph And Telephone Corporation スケーラブル符号化方法および装置,スケーラブル復号方法および装置,それらのプログラムおよびそれらプログラムを記録した記録媒体
US7817723B2 (en) 2004-12-14 2010-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus and method of optimizing motion estimation parameters for encoding a video signal
KR100913088B1 (ko) * 2005-01-21 2009-08-21 엘지전자 주식회사 베이스 레이어의 내부모드 블록의 예측정보를 이용하여영상신호를 엔코딩/디코딩하는 방법 및 장치
KR100873636B1 (ko) 2005-11-14 2008-12-12 삼성전자주식회사 단일 부호화 모드를 이용하는 영상 부호화/복호화 방법 및장치
GB0600141D0 (en) * 2006-01-05 2006-02-15 British Broadcasting Corp Scalable coding of video signals
US7899263B2 (en) 2006-01-10 2011-03-01 Texas Instruments Incorporated Method and apparatus for processing analytical-form compression noise in images with known statistics
CA2642491A1 (en) 2006-02-13 2007-08-23 Kabushiki Kaisha Toshiba Video encoding/decoding method and apparatus and program
KR101246294B1 (ko) 2006-03-03 2013-03-21 삼성전자주식회사 영상의 인트라 예측 부호화, 복호화 방법 및 장치
US8634462B2 (en) 2007-03-13 2014-01-21 Matthias Narroschke Quantization for hybrid video coding
JP2009020665A (ja) * 2007-07-11 2009-01-29 Canon Inc 情報処理装置、情報処理方法、記憶媒体、プログラム
US8024121B2 (en) 2008-01-25 2011-09-20 Smith International, Inc. Data compression method for use in downhole applications
JP2010057129A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 符号化装置、及び復号装置
TW201028018A (en) * 2009-01-07 2010-07-16 Ind Tech Res Inst Encoder, decoder, encoding method and decoding method
US20100238997A1 (en) * 2009-03-17 2010-09-23 Yang En-Hui Method and system for optimized video coding
EP2237557A1 (en) * 2009-04-03 2010-10-06 Panasonic Corporation Coding for filter coefficients
US9081733B2 (en) 2009-06-24 2015-07-14 Qualcomm Incorporated 16-point transform for media data coding
WO2011081637A1 (en) * 2009-12-31 2011-07-07 Thomson Licensing Methods and apparatus for adaptive coupled pre-processing and post-processing filters for video encoding and decoding
KR20120086232A (ko) * 2011-01-25 2012-08-02 (주)휴맥스 율-왜곡 최적화를 위한 영상 부호화/복호화 방법 및 이를 수행하는 장치
GB2481856A (en) * 2010-07-09 2012-01-11 British Broadcasting Corp Picture coding using weighted predictions in the transform domain
MY186093A (en) 2010-07-15 2021-06-21 Velos Media Int Ltd Image encoding device, and image decoding device
JP2012104926A (ja) * 2010-11-08 2012-05-31 Oki Electric Ind Co Ltd 量子化パラメータ制御装置、量子化パラメータ制御方法、及びプログラム
GB2486726B (en) 2010-12-23 2017-11-29 British Broadcasting Corp Compression of pictures
JP5781313B2 (ja) * 2011-01-12 2015-09-16 株式会社Nttドコモ 画像予測符号化方法、画像予測符号化装置、画像予測符号化プログラム、画像予測復号方法、画像予測復号装置及び画像予測復号プログラム
WO2012115486A2 (ko) 2011-02-25 2012-08-30 삼성전자 주식회사 영상의 변환 방법 및 장치, 및 영상의 역변환 방법 및 장치
US20120218432A1 (en) * 2011-02-28 2012-08-30 Sony Corporation Recursive adaptive intra smoothing for video coding
EP2498497A1 (en) 2011-03-11 2012-09-12 Research In Motion Limited Method and system using prediction and error correction for the compact representation of quantization matrices in video compression
US20120307890A1 (en) * 2011-06-02 2012-12-06 Microsoft Corporation Techniques for adaptive rounding offset in video encoding
EP2544450B1 (en) * 2011-07-07 2016-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Model parameter estimation for a rate- or distortion-quantization model function
CN103096053B (zh) 2011-11-04 2015-10-07 华为技术有限公司 一种变换模式的编解码方法和装置
JP6120490B2 (ja) 2011-11-07 2017-04-26 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム
EP2595382B1 (en) * 2011-11-21 2019-01-09 BlackBerry Limited Methods and devices for encoding and decoding transform domain filters
US8719321B2 (en) * 2011-12-11 2014-05-06 Hong Kong Applied Science and Technology Research Institute Company Limited Adaptive block-size transform using LLMICT
CN102625102B (zh) * 2011-12-22 2014-02-12 北京航空航天大学 一种面向h.264/svc mgs编码的率失真模式选择方法
US9118918B2 (en) * 2012-03-06 2015-08-25 National Taiwan University Method for rate-distortion optimized transform and quantization through a closed-form operation
US9392274B2 (en) * 2012-03-22 2016-07-12 Qualcomm Incorporated Inter layer texture prediction for video coding
US20130251028A1 (en) * 2012-03-22 2013-09-26 The Hong Kong University Of Science And Technology Video encoding and decoding with channel prediction and error correction capability
US20150172660A1 (en) 2013-12-17 2015-06-18 Magnum Semiconductor, Inc. Apparatuses and methods for providing optimized quantization weight matrices
US9794575B2 (en) * 2013-12-18 2017-10-17 Magnum Semiconductor, Inc. Apparatuses and methods for optimizing rate-distortion costs in video encoding

Also Published As

Publication number Publication date
CN105850136A (zh) 2016-08-10
JP2017509268A (ja) 2017-03-30
US10856012B2 (en) 2020-12-01
JP6730191B2 (ja) 2020-07-29
EP3085089A1 (en) 2016-10-26
KR20160106619A (ko) 2016-09-12
US20160337646A1 (en) 2016-11-17
EP3085089A4 (en) 2017-07-05
CN105850136B (zh) 2019-10-15
EP3085095A4 (en) 2017-07-05
EP3085089B1 (en) 2019-11-20
JP2017501659A (ja) 2017-01-12
WO2015093908A1 (en) 2015-06-25
CN105850124A (zh) 2016-08-10
EP3085095B1 (en) 2020-07-08
US20160360237A1 (en) 2016-12-08
WO2015093909A1 (en) 2015-06-25
CN105850124B (zh) 2019-12-31
EP3085095A1 (en) 2016-10-26

Similar Documents

Publication Publication Date Title
US9386325B2 (en) Method and apparatus for encoding and decoding image by using large transformation unit
JP5957561B2 (ja) 大きいサイズの変換単位を用いた映像符号化、復号化方法及び装置
JP6730191B2 (ja) 予測された信号と変換コーディングされた信号とを用いたビデオ信号の予測方法及び装置
KR20110135787A (ko) 엣지-적응 변환을 이용한 영상 부호화/복호화 시스템 및 방법
US10911783B2 (en) Method and apparatus for processing video signal using coefficient-induced reconstruction
WO2017023152A1 (ko) 싱글톤 계수 업데이트를 이용하여 변환을 수행하는 방법 및 장치
US20180278943A1 (en) Method and apparatus for processing video signals using coefficient induced prediction
KR20160065860A (ko) 미디어 신호의 인코딩, 디코딩 방법 및 그 장치
US11647228B2 (en) Method and apparatus for encoding and decoding video signal using transform domain prediction for prediction unit partition
US10051268B2 (en) Method for encoding, decoding video signal and device therefor
US20200329232A1 (en) Method and device for encoding or decoding video signal by using correlation of respective frequency components in original block and prediction block

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid