KR101715547B1 - 지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법 - Google Patents

지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법 Download PDF

Info

Publication number
KR101715547B1
KR101715547B1 KR1020157026581A KR20157026581A KR101715547B1 KR 101715547 B1 KR101715547 B1 KR 101715547B1 KR 1020157026581 A KR1020157026581 A KR 1020157026581A KR 20157026581 A KR20157026581 A KR 20157026581A KR 101715547 B1 KR101715547 B1 KR 101715547B1
Authority
KR
South Korea
Prior art keywords
image
values
map
pixel
original image
Prior art date
Application number
KR1020157026581A
Other languages
English (en)
Other versions
KR20150122745A (ko
Inventor
션 티. 맥카시
피터 에이. 보그워트
비제이 카마쉬
쉬브 삭시나
Original Assignee
제너럴 인스트루먼트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제너럴 인스트루먼트 코포레이션 filed Critical 제너럴 인스트루먼트 코포레이션
Publication of KR20150122745A publication Critical patent/KR20150122745A/ko
Application granted granted Critical
Publication of KR101715547B1 publication Critical patent/KR101715547B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

인코더로 하여금 사람의 지각 안내를 고려하여 데이터를 압축할 수 있도록 하기 위해 인코더에 제공하기 위한 양자화 데이터 파라미터들을 사람의 시선 유인에 기초하여 생성하는 비디오 처리 시스템이 제공된다. 이 시스템은 인코더에 입력될 데이터에 대한 지각 중요성 픽셀 맵을 발생시키기 위한 지각 비디오 프로세서(PVP)를 포함한다. 픽셀 값들을 0 내지 1의 범위의 값들로 감소시키기 위해 압신이 제공되고, 픽셀 값들을 룩업 테이블(LUT) 내의 양자화 파라미터(QP) 값들의 공간 분해능에 일치시키기 위해 데시메이션이 수행된다. 그 후에, LUT 테이블 값들은 인코더에 제공하기 위한 메타데이터를 제공하여, 시선 추적의 예측들에 따라 매크로블록 내의 픽셀들에 비트들이 할당되도록 하는 방식으로 인코더에 의해 원 화상의 압축이 수행될 수 있도록 한다.

Description

지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법{IMPROVED METHOD OF BIT ALLOCATION FOR IMAGE & VIDEO COMPRESSION USING PERCEPTUAL GUIDANCE}
본 발명은 화상의 특정한 영역들에 대한 사람의 시선 유인(human eye attraction)에 기초하여 픽셀들을 할당하기 위한 비디오 데이터 압축 방법에 관한 것이다.
비디오 이미지의 품질은 궁극적으로 비디오 이미지 화상(video image picture)들을 보는 사람에 의해 결정된다. 비디오 압축 동안 픽셀들의 할당은 보는 사람에 의해 결정되는 바와 같은 비디오 이미지의 품질을 유지하는 것에 기초한다. 비디오 이미지들은 움직임이 전혀 발생하지 않은 화상의 영역들, 또는 화상의 큰 부분의 픽셀들이 균일한 그러한 화상의 영역들을 고려함으로써 압축에 대해 개선될 수 있다. 또한 추적하기 어려운 시각적 디테일들(difficult-to-track visual details)을 포함하는 부분들에서조차 비디오 이미지들 내의 픽셀들의 압축을 증가시키는 것이 바람직하다. 그러나, 추적하기 어려운 시각적 디테일들을 정확하게 식별하는 것은 어렵다. 비디오 이미지에서의 중요한 디테일들이 제거되면, 최종 사용자는 비디오 품질의 열화를 지각할 것이다.
인코더에 의해 수행되는 비디오 압축 기법들의 효율은, 신뢰할 수 있는 지각 모드에 기초하여 비트들을 할당하는 정확한 방법 없이는 제한된다. 인코더들에 의해 사용되는 기존의 이미지 및 비디오 압축 표준들은 어떤 종류의 디테일들이 시각적으로 중요한지에 관한 애드 혹(ad hoc) 가정에 의존하고, 이미지 및 비디오 디테일들의 시각적 중요도가 사람의 시선 유인에 의해 영향을 받는 방식을 모델링하지 않는다. 특히, 기존의 인코더들은 이미지 및 비디오 디테일들의 시각적 중요도가 공간적 상황 또는 시간적 요인들에 의해 영향을 받는 방식을 모델링하지 않는다. 게다가, 기존의 인코더들은 비트들을 더 효율적으로 할당하는 데이터 압축을 제공하기 위해 압축 이전에 콘텐츠를 분석하지 않는다.
본 발명의 실시형태는 인코더로 하여금 사람의 지각 안내(human perceptual guidance)를 고려하여 데이터를 압축할 수 있도록 하기 위해 인코더에 제공하기 위한 양자화 파라미터들을 사람의 시선 유인에 기초하여 생성하는 시스템을 제공한다. 비디오 데이터는 인코딩 이전에 데이터의 클리닝(cleaning)이 필요하지 않도록 압축기에 직접 제공된다.
실시형태에 따르면, 시스템은 인코더로 하여금 사람의 시선 추적 데이터(human eye tracking data)에 기초하여 압축을 제어할 수 있도록 하기 위해 인코더에 양자화 메타데이터를 제공하기 위한 양자화 데이터 프로세서를 포함한다. 양자화 데이터 프로세서는 사람의 시선 추적 정보를 사용하여 양자화 데이터를 결정하는 지각 비디오 프로세서(perceptual video processor, PVP)일 수 있다. 일 실시형태에서, 양자화 데이터 프로세서는, 원 입력 화상(original input picture)을 수신하는 단계; 시선 추적의 예측을 사용하여 원 입력 화상에 대한 지각 중요성 픽셀 맵(perceptual significance pixel map)을 획득하는 단계; 중요성 픽셀 맵에서의 숫자들에 대한 절대값을 제공하는 단계; 픽셀 값들의 결정된 절대값을 0 내지 1의 범위의 값들로 감소시키기 위해 압신(companding)을 수행하는 단계; 인코딩될 양자화 파라미터(QP) 값들의 공간 분해능에 일치하도록 압신된 값들에 대한 데시메이션(decimation)을 수행하는 단계; 양자화 파라미터(QP) 룩업 테이블(LUT)로부터 데시메이션으로부터 제공되는 픽셀들에 대한 양자화 파라미터들을 결정하는 단계; 및 비트들이 시선 추적의 예측에 따라 매크로블록 내의 픽셀들에 할당되도록 하는 방식으로 인코더에 의해 원 화상의 압축이 수행될 수 있게 하기 위해 인코더에 메타데이터로서 QP LUT 테이블 값들을 제공하는 단계를 수행함으로써 양자화 데이터를 결정하도록 구성된다.
본 발명의 다른 실시형태에서, 데시메이션을 수행하기 이전에 압신된 픽셀 값들을 수정하기 위해 무한 임펄스 응답(infinite impulse response, IIR) 필터가 제공된다. IIR 필터는 인코딩되고 있는 화상의 이전의 화상을 검토하고 이전의 화상으로부터의 더 점진적 변화를 생성한다.
다른 실시형태에서, 디코더에 제공되는 원 입력 화상과 기준 화상 사이에서 움직임 보상 차이 동작이 제공된다. 기준 화상 및 움직임 보상된 차이 화상의 출력 둘 모두에 대해 지각 중요성 픽셀 맵이 제공되고, 전술한 프로세스에서 PVP의 절대값 부분에 입력을 제공하기 위해 신호들 사이에 차이가 취해진다. 일 실시형태에서, 지각 중요성 픽셀 맵은 기준 화상 및 입력 화상의 움직임 보상 이전에 제공되고, 한편 다른 실시형태에서, 중요성 맵이 움직임 보상 후에 생성된다.
본 발명의 추가 상세 사항은 첨부 도면들의 도움으로 설명된다.
도 1은 비디오 처리 시에 잡음을 저감시키기 위한 시스템에 대한 블록도를 예시하고;
도 2는 3D 잡음 저감기의 데이터 흐름도를 도시하고;
도 3은 3D 잡음 저감기를 사용한 지각 마스킹 및 보존을 예시하고;
도 4는 적응형 디테일 저감기의 데이터 흐름도를 도시하고;
도 5는 적응형 디테일 저감기를 사용한 지각 마스킹 및 보존을 예시하고;
도 6은 비디오 처리 시에 잡음을 저감시키는 방법의 흐름도를 예시하고;
도 7은 인코딩을 제어하기 위해 사람의 지각 안내에 기초하여 양자화 필요 데이터를 결정하기 위한 시스템의 제1 실시형태의 구성요소들을 도시하고;
도 8은 도 7의 시스템에 대한 수정예로서, 무한 임펄스 응답(IIR)을 제공하는 것을 도시하고;
도 9는 도 7의 시스템에 대한 수정예로서, 움직임 보상을 제공하는 것을 도시하고;
도 10은 무한 임펄스 응답(IIR)을 부가함으로써 도 9의 시스템을 수정한 것이고;
도 11은 움직임 보상 이전에 기준 화상 및 원 화상에 지각 변환을 적용함으로써 도 10의 시스템을 수정한 것이고;
도 12는 무한 임펄스 응답(IIR)을 부가함으로써 도 11의 시스템을 수정한 것이고; 그리고
도 13은 본 발명의 실시형태에 따른 시스템들의 구성요소들의 동작을 예시하기 위한 대표 이미지들을 도시한다.
본 발명의 실시형태는 인코딩되고 있는 비디오 데이터에 대한 화상 품질을 개선시키기 위해 사용되는 사람의 시선 유인 매핑의 사용을 제공한다. 종래의 시스템들에서, 시선 유인 매핑은 인코더에서 처리하기 위한 화상들을 클리닝하기 위해 사용되었다. 본 발명의 실시형태의 주제인 제2 버전에서, 시선 유인 매핑은, 사람의 시선이 자연스럽게 유인되는 화상의 영역들에 더 많은 비트들을 할당하는 한편 다른 영역들에 더 적은 비트들을 제공하는 방식으로 데이터의 인코딩을 가능하게 하기 위해 인코더에 제공되는 양자화 필요 메타데이터의 발생을 가능하게 하기 위해 수행된다. 이 제2 버전에서, 임의의 화상이 인코더에 제공될 수 있고, 클리닝은 필요하지 않다.
A. 인코딩 이전에 지각 안내를 사용하여 화상을 클리닝
도 1은 인코더에서의 압축 이전에 화상의 클리닝을 제공하는 비디오 처리 시에 잡음을 저감시키기 위한 시스템(100)의 블록도를 도시한다. 시스템(100)은 입력 모듈(102), 3차원 잡음 저감기(3DNR)(110) 및 적응형 디테일 저감기(ADR)(120)를 포함한다. 입력 모듈(102)은 비디오 시퀀스에서의 원 화상(124)을 수신하도록 구성된다. 3DNR은 2개의 공간적 차원들 및 하나의 시간적 차원에 있어서 원 화상(124)에 대한 3차원 잡음 저감을 수행한다. ADR(120)은 원 화상(124)에 대해 선택된 추적하기 어려운 디테일들에 대한 적응형 디테일 저감을 수행한다. 이 섹션 A에서 설명되는 시스템들은, 전체적으로 본 명세서에 참고로 포함되는 2010년 4월 16일에 출원되고 발명의 명칭이 "System For Reducing Noise In Video Processing"인 미국 특허 출원 제12/761,581호에 상세하게 기술되어 있다.
시스템(100)은 가중치 맵(112)을 사용하여 원 화상(124)으로부터 처리된 화상(130)을 형성한다. 가중치 맵(112)은 망막에서 세포들의 응답 기능 및 자연 이미지들(natural images)의 통계를 고려하는 사람의 시각 시스템의 모델을 사용하여 시스템(100)에 의해 생성된다. 가중치 맵(112)은 사람의 시각 시스템의 모델에 기초한 원 화상(124)의 픽셀 맵이다. 가중치 맵(112)은 시지각(visual perception)에 대한 난이도 및/또는 압축에 대한 난이도를 식별하는 각 픽셀에 대한 값 또는 가중치를 포함할 수도 있다. 압축에 대한 난이도는 이미지의 영역 또는 픽셀을 인코딩하기 위해 필요한 비트들의 개수를 측정하는 연속 스케일일 수도 있다. 유사하게, 시지각에 대한 난이도는 이미지의 영역 또는 픽셀을 인코딩하기 위해 필요한 비트들의 개수를 측정하는 연속 스케일이다.
상이한 가중치 맵들(112)이 3DNR(110) 및 ADR(120)에서 사용될 수도 있다. 예를 들면, 시스템(100)은 가중치 맵(112) 및 3DNR(110)을 사용하여 원 화상(124)에서의 잡음을 저감시킴으로써 처리된 화상(130)을 형성하도록 구성될 수도 있다. 추가적으로 또는 대안적으로, 시스템(100)은 가중치 맵(112) 및 ADR(120)을 사용하여 원 화상(124)에서의 추적하기 어려운 디테일들을 저감시켜 처리된 화상(130)을 형성할 수도 있다. 추적하기 어려운 디테일들은 가중치 맵(112)에 기초하여 미리 결정된 임계치를 사용하여 결정될 수도 있다.
처리된 화상(130)은 도 2에 관하여 후술되는 바와 같이 3DNR(110)에 의해 처리된 후의 클리닝된 화상(125), 도 4에 관하여 후술되는 바와 같이 ADR(120)에 의해 처리된 후의 수정된 화상, 또는 3DNR(110) 및 ADR(120)에 의해 처리된 후의 클리닝되고 수정된 화상을 포함할 수도 있다. 클리닝된 화상(125)은 저감된 양의 잡음을 포함하고, 수정된 화상은 저감된 양의 적응된 디테일들을 포함한다. 적응된 디테일들은, ADR(120)에 의해 보존되고 이미지를 지각하는 데에 유용하다고 결정되는 면들 및 에지들과 같은, 중요한 특징부들이다.
시스템(100)은 기준 화상(126)을 사용하여 원 화상(124)을 클리닝하거나 수정한다. 기준 화상(126)은 시스템(100)에 의해 이전에 처리된 화상, 예를 들면 비디오 시퀀스에서의 선행 원 화상(124)으로부터의 클리닝된 화상(125)을 포함할 수도 있다. 대안적으로, 기준 화상(126)은 미처리 화상을 포함할 수도 있다.
시스템(100)은 뚜렷한 처리 아티팩트들(noticeable processing artifacts)의 최소한의 도입으로 잡음 및 추적하기 어려운 디테일들을 선택적으로 저감시키기 위한 정보를 사용한다. 게다가, 시스템(100)에서 사용되는 프로세스들은 가중치 맵(112)을 사용하여 모션 블러(motion blur), 모션 불연속성들, 및 인공적으로 보이는 에지들(artificial-looking edges)과 같은 아티팩트들을 저감 및/또는 제거한다. 시스템(100)은 지각 마스킹을 저감시키며, 스미어링(smearing)을 회피하기 위해 사용될 수도 있다. 3DNR(110)은 잡음 레이어를 추출함으로써 비디오 시퀀스에 대한 자동 적응 잡음 저감을 수행하도록 구성될 수도 있고, ADR(120)은 공간적 레이어를 추출함으로써 비디오 시퀀스에 대한 적응형 디테일 저감을 수행하기 위해 사용될 수도 있다. 3DNR(110) 및 ADR(120)은 완전히 분리가능하고, 시스템(100)은 단일 3DNR(110) - 그 동작은 하기에서 도 2에 관하여 설명됨 -, 또는 단일 ADR(120) - 그 동작은 하기에서 도 4에 관하여 설명됨 - 을 포함할 수도 있다.
도 2는 3DNR(110)에 대한 데이터 흐름도(200)를 예시한다. 원 화상(124)은 화상 분해(204)를 사용하여 잡음 레이어(206) 및 가중치 맵(112)으로 분해된다. 화상 분해(204)는 사람의 시각 시스템의 모델(208)을 사용하여 원 화상(124)에 기초한 픽셀 맵을 결정한다.
사람의 시각 시스템의 모델(208)은 사람의 공간 지각력의 모델 및 사람의 시간 지각력의 모델을 포함할 수도 있다. 가중치 맵(112)을 생성할 때에 사용되는 사람의 시각 시스템의 모델은, 그 전체가 참고로 포함되는, 2000년 1월 11일에 허여되고 발명의 명칭이 "Apparatus and Methods for Image and Signal Processing"인 미국 특허 제6,014,468호, 2002년 3월 19일에 허여되고 발명의 명칭이 "Apparatus and Methods for Image and Signal Processing"인 미국 특허 제6,360,021호, 2006년 5월 16일에 허여되고 미국 특허 제6,360,021호의 계속출원이며, 발명의 명칭이 "Apparatus and Methods for Image and Signal Processing"인 미국 특허 제7,046,857호, 및 2000년 1월 28일에 출원되고 발명의 명칭이 "Apparatus and Methods for Image and Signal Processing"인 국제 출원 PCT/US98/15767호에 더욱 상세하게 기재된, 통합된 지각 가이드(integrated perceptual guide, IPeG) 시스템이다. IPEG 시스템은 시각적 디테일들을, 지각 중요성, 및 특정 비디오 디테일들을 추적하는 뷰어의 능력을 나타내는 메트릭으로 조직화하는 신호들의 세트를 포함하는 정보를 제공한다.
잡음 레이어(206)는 사람의 공간 지각력의 모델에 기초한 각 픽셀에 대한 값을 포함한다. 예를 들면, 잡음 레이어(206)는 수학식(1)을 사용하여 결정될 수도 있는데:
Figure 112015093413763-pct00001
여기서, i, j는 처리되고 있는 이미지 영역 내의 N개의 픽셀들의 픽셀 좌표들이고, E(i, j)는 공간적 디테일 레이어(304)를 형성하는 공간적 디테일 레이어 값들의 픽셀 맵이고, P(i, j)는 가중치 맵들(112)을 계산하기 위한 입력들인 P-함수들이다. 잡음 레이어(206)에 대한 P-함수는 수학식(2)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00002
람다(λ)로서 표기된 파라미터들은 3DNR(110) 및 ADP(120)의 전체 강도를 변경하기 위해 사용되는 튜닝 파라미터들이다. 예를 들면, 6개의 강도 레벨들("가장 강함", "강함", "중간", "약함", "가장 약함", 및 "무효")이 독립적으로 3DNR(110) 및 ADP(120)에 대해 제공될 수도 있다. 각 강도 레벨은 람다 값들 및 알파 값들(비대칭 IIR의 온 및 오프 레이트들임)의 세트와 연관된다. 서비스 제공자는 고객들이 비디오 품질 및 비트 레이트 요구를 충족하는 것을 돕는 방식으로 각 강도 레벨에 대한 디폴트 람다 값들을 경험적으로 선택한다. 3DNR(110) 및 ADP(120)와 연관된 값들은 더 많은 제어를 제공하기 위해 맞춤화될 수도 있다. P-함수를 발생시키고, 맞춤화를 위한 기회를 제공하고, 임계치 동작에 의해 부과되는 "양단간의(all-or-none)" 결정의 경계 근처에서 일어날 수도 있는 시각적 왜곡을 회피하기 위해 연속 값의 함수들(continuously valued functions)이 사용될 수 있다. P-함수에 대한 첨자 n은 잡음 레이어(206)를 지칭한다.
가중치 맵(112), W(i,j)는 사람의 시간 지각력의 모델에 기초한 각 픽셀에 대한 값을 포함한다. 분해 후에, 잡음 레이어(206)는 가중치 맵(112)과 재조합되어 수정된 잡음 레이어(210)를 형성한다. 수정된 잡음 레이어(210)는 원 화상(124)으로부터 감산되어 클리닝된 화상(125)을 생성한다.
3DNR(110)은 도 3에 관하여 나타낸 바와 같은 지각 마스킹 및 보존을 위해 사용될 수도 있다. 지각 마스킹에 대한 P-함수는 수학식(3)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00003
지각 비디오는, 사람의 망막이 보는 시야 중에서 이미지의 지각에 영향이 적은 부분들을 식별하고, 인코딩할 데이터의 양이 감소되도록 시스템(100)이 이미지의 그 대응하는 저영향 부분들을 저감시킬 수 있게 한다. P-함수에 대한 첨자 s은 공간적 디테일 레이어(304)를 지칭한다.
도 3에 도시된 바와 같이, 원 화상(124)이 화상 분해(204)에 제공되어 공간적 디테일 레이어(304)를 결정할 수도 있다. 예를 들면, 공간적 디테일 레이어(304)는 수학식(4)을 사용하여 결정될 수도 있는데:
Figure 112015093413763-pct00004
여기서 Y(i,j)는 루마 값들의 픽셀 맵이고,
Figure 112015093413763-pct00005
는 루마 값들의 픽셀 맵의 평균값으로서, 수학식 (5)에 의해 결정될 수도 있다:
Figure 112015093413763-pct00006
루마 값들은 이미지에서의 밝기를 표현하고 크로마 값들과 쌍을 이루어 알려져 있는데, 이들은 어떤 이미지를 전달하기 위한 컬러 정보를 전달한다. B(i,j)는 기저 레이어 값들의 픽셀 맵이다. N은 픽셀 맵에서의 픽셀들의 총 개수를 지칭한다. 기저 레이어는 수학식(6)을 사용하여 결정될 수도 있는데:
Figure 112015093413763-pct00007
여기서 h(k,l)은 IPeG 변환으로부터 발생되는 콘벌루션 커널(convolution kernel)이다.
원 화상(124)은 기준 화상(126)과 함께 또한 움직임 보상 엔진(302)에 제공될 수도 있다. 그 후에, 움직임 보상 엔진(302)은 원 화상(124)과 기준 화상(126) 사이의 움직임 보상된 차이(306)를 결정한다. 예를 들면, 움직임 보상 엔진(302)은 수학식(7) 내지 수학식(9)를 사용하여 움직임 보상 에러들을 결정할 수도 있는데:
Figure 112015093413763-pct00008
Figure 112015093413763-pct00009
Figure 112015093413763-pct00010
여기서 U(i,j) 및 V(I,j)는 크로마 값들의 픽셀 맵들이다. 움직임 보상 에러에 대한 P-함수는 수학식(10)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00011
그 후에, 3DNR(110)에 대한 P-함수는 수학식(11)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00012
움직임 보상된 차이(306), 공간적 디테일 레이어(302), 및 기준 화상(126)의 기준 공간적 디테일 레이어(308)가 모두 복합 및 압신 엔진(compounding and companding engine)(310)에 제공될 수도 있다. 복합 및 압신 엔진(310)을 사용한 화상 처리 결과는 장면 전환 리셋 동작을 이용하여 비대칭(무한 임펄스 응답) IIR(312)에 제공될 수도 있다.
그 후에, 비대칭 IIR(312)은 가중치 맵(112)을 형성한다. 3DNR(110)에 대한 가중치 맵(112)은 수학식(12)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00013
3DNR(110)에 대한
Figure 112015093413763-pct00014
은 수학식(13)을 사용하여 비대칭 IIR(312)에 의해 결정될 수도 있다:
Figure 112015093413763-pct00015
원 화상(124)과 기준 화상(126) 사이의 움직임 보상된 차이(306)는 움직임 벡터들을 사용하여 결정될 수도 있다. 움직임 보상된 차이(306)는 픽셀단위(pixel by pixel) 기반으로 결정될 수도 있고, 원 화상(124)과 기준 화상(126) 사이의 차이를 측정하기 위해 사용된다. 원 화상(124)과 기준 화상(126) 사이의 차이의 일부 부분들은 보존될 필요가 있는 에지들의 영역들을 포함할 수도 있고, 다른 부분들은 이미지의 지각에 영향을 주지 않고 제거될 수도 있는 잡음을 포함할 수도 있다. 원 화상(124)에 대해 공급되는 공간적 디테일 레이어(304) 및 기준 화상(126)에 대해 공급되는 기준 공간적 디테일 레이어(308)는 지각적으로 중요하지 않은 영역들을 식별하기 위해 사용된다. 3DNR(110)에 의해 사용되는 가중치 맵(112)은 공간적 레이어들을 조합하여, 지각적으로 중요한 디테일들, 즉 특징 시점으로부터 중요한 디테일들을 보존하면서 잡음을 저감시킨다.
예를 들면, 잡음 추정치(noise estimate)가 수학식(14)을 사용하여 결정될 수도 있는데:
Figure 112015093413763-pct00016
여기서 b는 상수이다. 그 후에, 3DNR(110)은 수학식(15)을 사용하여 클리닝된 3DNR 이미지를 결정할 수도 있다:
Figure 112015093413763-pct00017
이제 도 5로 가면, ADR(120)의 동작이 더욱 예시된다. 원 화상(124)은 화상 분해(204)를 사용하여 공간적 디테일 레이어(302) 및 가중치 맵(112)으로 분해된다. 공간적 디테일 레이어(406)는 사람의 공간 지각력의 모델에 기초한 각 픽셀에 대한 값을 포함한다. 가중치 맵(112)은 사람의 시간 지각력의 모델에 기초한 각 픽셀에 대한 값을 포함한다. 분해 후에, 공간적 디테일 레이어(406)는 가중치 맵(112)과 재조합되어 수정된 디테일 레이어(410)를 형성한다. 수정된 디테일 레이어(410)는 원 화상(124)으로부터 감산되어 수정된 화상(426)을 생성한다.
ADR(120)은 또한 도 5에 관하여 나타낸 바와 같은 지각 마스킹 및 보존을 위해 사용될 수도 있다. 원 화상(124)은 화상 분해(204)에 제공되어 공간적 디테일 레이어(304)를 결정할 수도 있다. 예를 들면, ADR(120)은 수학식(16)을 사용하여 고에너지 공간적 디테일에 대한 P-함수를 결정할 수도 있다:
Figure 112015093413763-pct00018
유사하게, 추적하기 어려운 고에너지 디테일에 대한 P-함수가 수학식 (17)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00019
원 화상(124)은 기준 화상(126)과 함께 또한 움직임 보상 엔진(302)에 제공될 수도 있다. 그 후에, 움직임 보상 엔진(302)은 원 화상(124)과 기준 화상(126) 사이의 움직임 보상된 차이(306)를 결정한다. 움직임 보상된 차이(306)는 복합 및 압신 엔진(310)에 제공될 수도 있다. 복합 및 압신 엔진(310)을 사용한 화상 처리 결과는 장면 전환 리셋 동작을 이용하여 비대칭 (무한 임펄스 응답) IIR(312)에 제공될 수도 있다.
그 후에, 비대칭 IIR(312)은 가중치 맵(112)을 형성한다. ADR(120)에 대한 가중치 맵(112)은 수학식(18)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00020
ADR(120)에 대한
Figure 112015093413763-pct00021
은 수학식(19)을 사용하여 비대칭 IIR(312)에 의해 결정될 수도 있다:
Figure 112015093413763-pct00022
기준 화상(126)은 3DNR(110)로부터의 비디오 시퀀스에서의 이전의 클리닝된 화상(125)을 포함할 수도 있다. 대안적으로, 기준 화상(126)은 ADR(120)로부터의 비디오 시퀀스에서의 이전의 수정된 화상(426)을 포함할 수도 있다. 그러나, 이전의 수정된 화상(426)이 사용되는 예시에서는, 공간적 디테일 저감을 증대시키고 2차 시간 의존성(second-order temporal dependence)을 부가하는 움직임 불일치(motion mismatch)가 도입될 수도 있다. 3DNR(110)로부터의 비디오 시퀀스에서의 이전의 클리닝된 화상(125)을 사용함으로써, ADR(120)은 인코딩 프로세스에 대한 예측불가능성이 감소되도록 원 화상(124)과 기준 화상(126) 사이의 예측불가능한 차이를 가능한 한 가깝게 추종한다. 이전의 수정된 화상(426)을 기준 화상(126)으로서 사용하는 것은 인공적 예측불가능성(artificial unpredictability)을 효과적으로 도입한다.
ADR(120)은 동시에 지각하기 어렵고 압축하기 어려운 디테일들을 선택적으로 감쇠시키도록 원 화상(124)을 처리하여, 중요한 특징들(예컨대, 면들, 에지들)을 보존하고 블러링(blurring)을 회피할 수도 있다. 예를 들면, 추적하기 어려운 고에너지 디테일이 수학식(20)을 사용하여 결정될 수도 있다:
Figure 112015093413763-pct00023
그 후에, ADR(120)은 수학식(21)을 사용하여 ADP 이미지를 결정할 수도 있다:
Figure 112015093413763-pct00024
고에너지 배경 움직임(high-energy background motion)에 대한 증가된 압축 효율 향상, 예컨대 최대 50%가 바람직하게 획득될 수도 있다. ADR(120)은 원 화상(124)으로부터 예측불가능한 고에너지 디테일을 감산한다. 보다 구체적으로, ADR(120)은 공간적 디테일 레이어를 추출하고, 지각 마스킹을 설명하고, 블러링을 회피하기 위해 사용될 수도 있다. ADR(120)은 움직임 추정을 통해서 생성될 수도 있는 공간적 레이어들 및 시간적 에러 레이어들을 사용하여, 지각 마스킹 및 보존을 수행할 수도 있다. ADR(120)은 레이어들에서의 각 픽셀에 대해 0 내지 1의 숫자를 결정하고, 상이한 유형의 처리를 행하도록 상이한 영역들을 사용하여, 공간적 레이어들 및 시간적 에러 레이어들을 오버레이(overlay)할 수도 있다.
ADR(120)은 가중치 함수를 사용해 각 픽셀에 대한 시간적 에러 레이어의 차이가 없음을 매핑시키기 위해 복합 및 압신 엔진(310)에서 움직임 보상된 차이(306)를 사용한다. 움직임 추정 스테이지에서 움직임 보상된 차이(306)는, 픽셀이 잘못된 예측에 대한 후보인지를 나타내는 차이의 크기로, 1 내지 255의 범위에 이를 수도 있다. 가중치 함수는 움직임 보상된 차이(306)에 대한 0 내지 1의 스케일로 비교적 양호한 예측 내지 비교적 불량한 예측의 범위를 나타내는 P-함수 맵들을 포함할 수도 있다. 작은 에러들은 P-함수 맵들에 선형으로 매핑하고, 큰 에러들은 P-함수 맵들에 비선형으로 매핑한다.
움직임 보상된 차이(306)는 복합 및 압신 엔진(310)에 의한 압축 스케일로 0 내지 1의 값들의 범위에서 결정된다. 복합 및 압신 엔진(310)은 비선형 압신 스케일을 사용하고, 2개의 다른 P-함수들에 부가한다. P-함수들 각각은, 높은 중요성을 갖는 것이 되고 쉽게 추적되는 경향이 있는 원 화상(124)의 부분들 및 높은 중요성을 갖는 것이 되고 정지 이미지들로서 쉽게 추적되는 경향이 있는 기준 화상(126)의 부분들을 나타낸다. 2개의 이미지들은 함께 곱셈되고, 부정확한 예측의 가능성이 더 높은 차이 맵의 영역들을 매핑하기 위해 사용된다. 결과적인 가중치 맵(112)은 디테일들이 추적하기 쉽고 쉽게 예측될 때의 거의 0으로부터, 디테일들이 추적하기 어렵거나, 쉽게 예측되지 않거나 또는 추적하기 어렵고 쉽게 예측되지도 않는 조합 중 어느 하나일 때의 1까지의 범위에 이르는 복합 맵이다. 가중치 맵(112)은 낮은 지각 중요성을 갖고 아마도 예측이 거의 되지 않는 영역들을 강조하기 위해 사용될 수도 있다.
비디오 처리 시에 잡음을 감소시키기 위해 시스템(100)이 채용될 수도 있는 방법들의 예가 이제 도 6에 나타낸 하기 흐름도에 관하여 설명될 것이다.
단계 601에서, 도 6에 도시된 바와 같이, 시스템(100)은 시스템(100)의 입력 모듈(102)에서 원 화상(124)을 수신한다. 예를 들면, 원 화상(124)은 서비스 제공자에 의해 처리되는 비디오 시퀀스에서의 화상일 수도 있고, 한편 시스템(100)은 케이블 헤드 엔드(cable head end)에서 인코딩 시스템을 위태롭게 할 수도 있다.
단계 602에서, 시스템(100)은 사람의 시각 시스템의 모델 및 화상 분해(204)를 사용하여 픽셀 맵을 생성한다. 예를 들면, 원 화상(124)은 사람의 시각 시스템의 모델에 대한 IPEG 시스템을 사용하고 화상 분해(204)를 이용해 IPEG 분해를 수행하는 IPEG 신호로서 이중 형태로 표현될 수도 있다. 시스템(100)은 픽셀 맵을 병렬 모델로 생성한다. 원 화상(124)은 그것이 사람의 망막에서 매핑될 때 픽셀 단위로 매핑된다. IPEG 분해는 매핑된 원 화상(124)을, 높은 지각 디테일 특징들 및 낮은 지각 디테일 특징들의 관점에서 계층화한다.
단계 603에서, 시스템(100)은 화상 분해(204)를 사용하여 픽셀 맵으로부터 제1 레이어를 결정한다. 제1 레이어는 3DNR(110)을 사용하여 시스템(100)에 의해 결정되는 잡음 레이어(206)이다. 잡음 레이어(206)는 사람의 시각 시스템의 모델에 기초한 각 픽셀에 대한 값을 포함한다. 예를 들면, 움직임 보상을 통해서 미리 결정된 정확도 레벨로 예측될 수 없고 낮은 지각 디테일 특징들인 매핑된 원 화상(124)의 부분들은 잡음에 대한 후보들이 된다. 움직임이 미리 결정된 정확도 레벨로 예측될 수 없는 원 화상(124)의 부분들은 압축하기 어려울 것이다. 압축 어려움은 원 화상(124)의 다른 부분들에 관해 상대적으로 또는 미리 결정된 스케일에 기초하여 결정될 수도 있다.
제1 레이어는 ADR(120)을 사용하여 시스템(100)에 의해 결정되는 공간적 디테일 레이어(406)이다. 공간적 디테일 레이어(406)는 사람의 공간 지각력의 모델에 기초한 각 픽셀에 대한 값을 포함한다.
단계 604에서, 입력 모듈(102)은 기준 화상(126)을 수신한다. 기준 화상(126)은 3DNR(110)로부터의 비디오 시퀀스에서의 이전에 클리닝된 화상(125)을 포함할 수도 있다. 기준 화상(126)은 ADR(120)로부터의 시퀀스에서의 이전에 수정된 화상(426)을 포함할 수도 있다.
단계 605에서, 시스템(100)은 원 화상(124)과 기준 화상(126) 사이의 움직임 보상된 차이(306)를 결정한다. 예를 들면, 시스템(100)은 움직임 보상 엔진(302)을 사용하여 움직임 보상된 차이(306)를 결정할 수도 있다.
단계 606에서, 시스템(100)은 원 화상(124)과 기준 화상(126) 사이의 움직임 보상된 차이로부터 가중치 맵(112)을 결정한다. 예를 들면, 시스템(100)은 화상의 일부분에서의 에너지가 쉽게 지각되고 압축될 수 있는 잡음 또는 무언가 때문일 것 같은지를 나타내는 0 내지 1의 스케일을 사용하여 가중치 맵(112)을 생성할 수도 있다.
단계 607에서, 시스템(100)은 가중치 맵(112) 및 제1 레이어를 사용하여 원 화상(124)으로부터 처리된 화상을 결정한다. 결정되는 처리된 화상은 클리닝된 화상(125)이고, 클리닝된 화상(125)을 결정하기 위해 사용된 제1 레이어는 잡음 레이어이다. 시스템(100), 보다 구체적으로 3DNR(110)은, 잡음 레이어(206) 및 가중치 맵(112)을 사용하여 수정된 잡음 레이어(210)를 형성한다. 3DNR(110)은 사람의 지각력의 모델에 기초하여 수정된 잡음 레이어(210)에서의 각 픽셀에 대한 값을 포함한다. 3DNR(110)은 원 화상에서의 픽셀들로부터 수정된 잡음 레이어(210)에서의 픽셀들을 감산하여, 압축하기 어렵고 지각하기 어려운 데이터를 제거함으로써 클리닝된 화상(125)을 결정한다.
B. 지각 안내를 사용하여 양자화 필요 데이터에 기초한 인코더 비트 할당
도 7 및 후속 도면들은, 인코더로 하여금 사람의 지각 안내를 고려하여 데이터를 압축할 수 있도록 하기 위해 양자화 파라미터들이 인코더에 제공되는 시스템을 예시한다. 비디오 데이터는 이들 후속 실시형태에서 압축기에 직접 제공되고, 도 7 이전의 도면들에서 설명된 시스템들에서와 같은 데이터의 클리닝이 필요하지 않다.
도 7은 인코딩을 제어하기 위해 사람의 지각 안내에 기초하여 양자화 필요 데이터를 결정하기 위한 시스템의 제1 실시형태의 구성요소들을 도시한다. 시스템은 인코더(712)뿐만 아니라 양자화 데이터 제어 프로세서(700)에 입력될 원 입력 화상(124)을 수신한다. 양자화 데이터 제어 프로세서(700)는 인코더(712)에서의 압축을 제어하기 위해 사용될 수 있는 양자화 필요 데이터 신호들을 발생시킬 것이다.
제어 프로세서는 입력 화상을 수신하는 지각 변환 블록(701)을 포함한다. 지각 변환 블록(701)은 사람의 공간 지각력의 모델 및 사람의 시간 지각력의 모델을 포함할 수도 있는 사람의 시각 시스템의 모델(208)을 적용한다. 지각 변환 블록(701)에 의해 수행되는 프로세스의 하나의 비제한적인 예는, 앞서 참고된 미국 특허 제6,014,468호, 제6,360,021호, 및 제7,046,857호에 더욱 상세하게 기재된, 가중치 맵(112)의 생성 시에 사람의 시각 시스템의 모델을 사용하는 통합된 지각 가이드(IPeG)이다. IPeG 시스템은 시각적 디테일들을, 지각 중요성, 및 특정 비디오 디테일들을 추적하는 뷰어의 능력을 나타내는 메트릭으로 조직화하는 신호들의 세트를 포함하는 정보를 제공한다.
일 실시형태에서, IPeG 시선 추적 맵은 지각 비디오 프로세서(PVP) 플러그인 모듈에서 생성될 수 있다. 이러한 PVP의 예에는 Motorola Mobility, Inc.에 의해 제조되는 SE6601이 있다. 일 실시형태에서, PVP는 미국 특허 출원 제12/761,581호(대리인 관리번호 BCS05793을 가짐)에 기재된 적응형 디테일 보존 프로세스의 공간적 시간적 "P 함수"를 사용한다. PVP는 지각 변환 블록(701)의 일부분을 구성할 수 있거나, 또는 전체 양자화 데이터 제어 프로세서(700) 내의 기능들을 제공하는 하나 이상의 다른 프로세서들과는 별개의 프로세서로부터 제공될 수 있다. 본 발명의 일 실시형태에서의 하나의 특징은 PVP에서 발생되는 시선 추적 데이터가 그 후에 이들 다른 처리 요소들로 전송될 수 있다는 점이다.
PVP 및 다른 프로세서들은 본 발명에서 프로세서들로 하여금 양자화 데이터를 발생시키기 위해 후속하여 설명되는 기능들을 제공하도록 동작할 수 있게 하는 코드를 저장하기 위해 포함된 메모리를 구비할 수 있다. PVP는 단일 집적 회로 상에 인코더 및 메모리를 구비할 수 있거나, 또는 각 구성요소가 별개로 제공될 수 있다.
Y개의 픽셀 값들로서 표현되는 원 입력 화상(124)에 대하여, 지각 변환 블록(702)은 공간적 디테일 맵 eY를 생성한다. 절대값 블록(702)은 그 후에 공간적 디테일 맵 내의 숫자들의 절대값 |eY|을 제공한다. 이어서, 압신기 블록(704)은 압축된 범위의 0과 1 사이의 신호에 대해 디테일 맵 값들을 배열한다. 하나의 예에서, 압신된 픽셀 값들은 다음과 같이 pY로서 결정될 수 있고:
pY = 1 - exp(-|eY|/(CF*람다Y)
여기서 CF = 압신 인자이고, 람다Y = |eY|의 평균값이다.
압신기(706)로부터의 값들은 다음에 데시메이션 블록(708)에 제공된다. 데시메이션 블록(708)은 인코딩 시스템의 파라미터들에 적합하게 하기 위해 압신 신호로부터 데이터를 축적한다. 예를 들어, 일 실시형태에서, 인코더는 입력 데이터에서의 픽셀들의 각 16x16 매크로블록에 대한 단일 QP 값을 선택하고, 데시메이터(decimator)는 그 후에 양자화 필요 값들과 QP 값들 사이의 일대일 매핑이 존재하도록 압신된 공간적 디테일 값들의 각 대응하는 16x16 블록을 양자화 필요 값으로 변환시킬 것이다. 일 실시형태에서, 데시메이터는 평균함으로써 값들을 변환시킨다.
다음으로, 데시메이션 블록(708)으로부터의 값들은 양자화 파라미터(QP) 룩업 테이블(LUT)로부터의 값들을 찾아내기 위해 사용된다. QP LUT 값들은 일 실시형태에서 사람의 시선이 통상 유인되는 픽셀들에 비트들이 할당되는 효율적인 방식으로 데이터 압축을 제어하기 위해 사용될 수 있는 사람의 시각 데이터의 연구에 기초하여 생성되는 메타데이터이다. 데이터 압축은 그때 고품질 화상들이 사람의 시지각에 따라 제공되면서 효율적인 방식으로 제공될 수 있다.
블록(708)에서의 QP LUT로부터의 데이터는 그 후에 양자화 필요 데이터 블록(710)을 사용하여 양자화 필요 데이터 값들로서 인코더(712)에 제공된다. 인코더(712)는 양자화 필요 데이터 값들 또는 메타데이터를 사용하여 데이터 압축을 제어한다.
도 7에 관하여 설명된 절차는, 화상을 인코더(712)에 제공하기 이전에 화상에서 직접 픽셀 정보를 클린업하기 위해 사람의 시각 데이터에 기초하여 지각 변환들을 제공한 종래의 절차들과는 다르다. 종래의 인코더들은 하기와 같은 몇개의 메트릭들 중 하나에 기초하여 화상들에 대한 QP 값들(양자화 값들)을 선택하였다: 1) 예측된 화상과 기준 화상 사이의 절대 차이의 합(sum-of-absolute difference, SAD)(예측 가능성의 지표로서 사용됨); 2) 입력 화상의 블록단위 하다마드 변환(Hadamard transform)(압축성의 지표로서 사용됨). 이들 이전의 경우들에서, QP 값의 선택은 인코딩 루프 내에서 발생된다. 본 발명의 실시형태에서, 시선 추적의 지표는 인코딩 루프 내부에서의 사용을 위해 인코딩 루프 외부에서 생성되고, 인코딩 이전의 화상의 클리닝이 요구되지 않는다.
도 8은 도 7의 시스템에 대한 수정예로서, 블록(708)에서의 데시메이션을 수행하기 이전에 블록(704)으로부터의 압신된 픽셀 값들을 수정하기 위해 무한 임펄스 응답(IIR) 블록(802)을 제공하는 것을 도시한다. IIR 블록(802)은 인코딩되고 있는 화상의 이전의 화상을 검토하고 이전의 화상으로부터의 더 점진적 변화를 생성한다. 일 실시형태에서, 지각 변환 블록(701), 압신기(704) 및 절대값 블록(702)에서 수행되는 계산들 모두는 PVP에서 수행될 수 있다.
도 9는 도 7의 시스템에 대한 수정예로서, 움직임 보상을 제공하는 것을 도시한다. 도 9의 시스템은 양자화 데이터 제어 프로세서(900)와는 별개인 기준 화상(902)을 사용한다. 기준 화상(902)은 이전 도면들에서와 같이, 이전에 처리된 화상일 수도 있고, 또는 대안적으로 그것은 미처리 화상일 수 있다. 양자화 제어 프로세서(900)는 단일 PVP일 수도 있고, 또는 다른 프로세서들과 조합되는 PVP일 수도 있다.
도 9에서, 블록(902)으로부터의 기준 화상 및 블록(124)으로부터의 입력 화상은 움직임 보상 결정 블록(906)에 제공된다. 움직임 보상 결정 블록(906)은 블록(124)으로부터의 원 입력 화상과 블록(902)으로부터의 기준 화상 사이의 움직임 보상된 차이를 결정하고, 도 3에 관하여 설명된 움직임 보상 엔진(302)과 유사하게 기능할 수 있다.
지각 변환 블록(904)은 기준 화상 블록(902)의 출력을 수신하고, 다른 지각 변환 블록(908)은 움직임 보상 블록(906)으로부터 움직임 보상된 차이 출력을 수신한다. 지각 변환 블록들(904 및 908)은 이전에 도 7 및 도 8의 블록(701)에 대해 설명된 바와 같은 사람의 공간 지각력의 모델 및 사람의 시간 지각력의 모델을 포함할 수도 있는 사람의 시각 시스템의 모델을 적용한다. 그 후에 지각 변환 블록들(904 및 908)의 출력은 감산되고, 절대값 블록(702)에 제공된다. 화상을 클리닝하기 위해 지각 변환들이 수행된 종래의 시스템들에서, 움직임 보상된 출력을 기준 화상 출력으로부터 (감산하지 않고) 합산하였지만, 본 발명의 시스템은 화상들 사이의 차이를 구하여 화상을 클리닝하지 않고 양자화 파라미터들을 결정한다. 그 후에 도 9의 시스템은 절대값 블록(702) 이후에 도 7과 유사한 방식으로 진행하여 양자화 데이터 값들을 결정해서 인코더(712)에 제공한다. 일 실시형태에서, 지각 변환 블록(701), 압신기(704) 및 절대값 블록(702)에서 수행되는 계산들 모두는 PVP에서 수행될 수 있다.
도 10은 무한 임펄스 응답(IIR) 블록(1002)을 부가함으로써 도 9의 시스템을 수정한 것이다. 도 8에 관하여 설명된 바와 같이, IIR 블록(802)은 인코딩되고 있는 화상의 이전의 화상을 검토하고 이전의 화상으로부터의 더 점진적 변화를 생성한다.
도 11은 움직임 보상 이전에 기준 화상 및 원 화상에 지각 변환을 적용함으로써 도 10의 시스템을 수정한 것이다. 도 10의 시스템과 대조적으로, 도 11에서는, 움직임 보상이 블록(1106)에서 수행되기 이전에 블록(902)으로부터의 기준 화상에 블록(902)에서 지각 변환이 적용된다. 유사하게, 블록(124)으로부터의 원 입력 화상은 움직임 보상 블록(1106) 이전에 지각 변환 블록(1108)을 통과하여 제공된다. 움직임 보상은 변환된 입력들의 차이를 취하고, 블록(1104)의 출력으로부터 감산되어 절대값 블록(702)에 제공된다. 움직임 보상 이전에 변환함으로써, 사람의 시선 유인 패턴들이 더 인식가능하게 될 수 있다. 도 12는 무한 임펄스 응답(IIR) 블록(1102)을 부가함으로써 도 11의 시스템을 수정한 것이다.
본 발명의 실시형태들은 종래의 시스템들에 비해 많은 개선점을 제공한다. 이러한 개선점들은 다음을 포함한다: (1) 개선된 압축 효율. (2) 개선된 시각적 품질. (3) PVP에서 제공된 것들과 같은 기존의 움직임 추정 및 보상 구성요소들을 사용할 수 있다. (4) 디코더 또는 셋톱박스에 변화를 요구하지 않는다. (5) 인코더에서 사용되는 기존의 압축 ASIC에 대한 "힌트"를 발생시키기 위해 사전 분석 프로세스로서 사용될 수 있다. (6) IPeG 공간적 디테일 맵 및 공간적-시간적 지각 가중치 맵을 발생시키는 주요 처리 단계는 현재의 PVP에서 이미 구현되어 있다.
참고로, 도 13은 본 발명의 실시형태에 따른 시스템들의 구성요소들의 동작을 예시하기 위한 대표 이미지들을 도시한다. 설계 이미지(1302)는 시스템에 제공되는 입력 원 화상으로서 도시되어 있다. IPeG 변환 디바이스(1304)로부터 공간적 디테일 이미지(1306)가 제공되는 것으로 도시되는데, IPeG 변환은 도 7에 도시된 지각 변환 구성요소(701)와 같은 구성요소에 의해 제공될 수 있다. 공간적 디테일 이미지(1306)의 절대값을 취하는 것은 이미지(1310)를 제공하는데, 절대값은 도 7의 구성요소(702)에 의해 수행될 수 있다. 공간적 디테일 이미지(1306)의 표시(sign)를 취하여 생성되는 이미지는 이미지(1310)와 비교를 위해 1308로서 도시되어 있다. 절대값 이미지(1310)는 그 후에 압신기(704)를 통과하여 예측된 시선 유인 이미지(predicted eye attractor image)(1312)를 제공한다.
본 발명이 상세하게 위에서 설명되었지만, 이는 단지 본 발명을 제조하고 사용하는 방식을 관련 기술분야에서의 통상의 기술자에게 교시하기 위함이었다. 본 발명의 범주는 하기 청구범위에 의해 정의되고, 많은 추가적인 수정예들이 본 발명의 범주 내에 있을 것이다.

Claims (23)

  1. 비디오 신호 처리 및 압축을 위한 비트 할당 시스템으로서,
    비디오 시퀀스에서의 원 화상(original picture)을 수신하도록 구성된 입력 모듈;
    압축 효율을 개선하기 위해 비디오 신호에서 상기 원 화상을 수정하기 위한 잡음 저감 비디오 처리 모듈 - 상기 잡음 저감 비디오 처리 모듈은
    상기 입력 모듈로부터 원 화상을 수신하고,
    시선 추적(eye tracking)의 예측들을 사용하여 상기 원 화상에 대한 지각 중요성 픽셀 맵(perceptual significance pixel map)을 획득하고,
    상기 중요성 픽셀 맵에서의 숫자들에 대한 절대값을 제공하고,
    압신(companding)을 수행하여 상기 픽셀 값들의 결정된 절대값을 0 내지 1의 범위의 값들로 감소시켜서 가중치 맵을 생성하고,
    상기 가중치 맵을 상기 원 화상에 적용하여, 픽셀단위(pixel-by-pixel) 기반으로 선택적으로 상기 원 화상에서 잡음을 감소시켜 잡음-저감된 화상을 생성하고,
    상기 잡음-저감된 화상을 출력하고,
    상기 가중치 맵 값들을 제어 프로세서로 출력하도록 구성됨 - ;
    제어 프로세서 - 상기 제어 프로세서는
    상기 잡음 저감 비디오 처리 모듈로부터 가중치 맵 값들을 수신하고,
    인코딩될 양자화 파라미터(QP) 값들의 공간 분해능에 일치하도록 상기 가중치 맵 값들에 대한 데시메이션(decimation)을 수행하고,
    양자화 파라미터(QP) 룩업 테이블(LUT)로부터 상기 데시메이션으로부터 제공되는 픽셀들에 대한 양자화 파라미터들을 결정하고,
    상기 시선 추적의 예측들에 따라 매크로블록 내의 픽셀들에 비트들이 할당되도록 하는 방식으로 상기 원 화상의 압축을 가능하게 하기 위한 메타데이터로서 상기 QP LUT 테이블 값들을 제공하도록 구성됨 - ; 및
    상기 입력 모듈로부터 원 비디오(original video)를 수신하는 제1 입력, 및 양자화 메타데이터를 수신하고 상기 양자화 메타데이터를 사용하여 상기 원 비디오를 인코딩하는 제어 입력을 갖는 인코더
    를 포함하는 비트 할당 시스템.
  2. 제1항에 있어서, 상기 지각 중요성 맵이 지각적으로 중요하다고 식별되는 이미지 내부에 지각적으로 중요하다고 식별되지 않는 영역들보다 더 많은 비트들을 우선적으로 수신하는 픽셀들을 갖도록 로컬 양자화 강도가 조정되는 비트 할당 시스템.
  3. 제1항에 있어서, 상기 시선 추적의 예측은 시각 집중(visual attention)의 예측을 포함하는 비트 할당 시스템.
  4. 제3항에 있어서, 상기 시각 집중의 예측은 사람의 시각 시스템의 공간적 측면 및 시간적 측면 둘 모두를 모델링하는 시선 유인 맵(eye attractor map)을 생성하는 것을 포함하는 비트 할당 시스템.
  5. 제3항에 있어서, 상기 시각 집중의 예측은 사람의 시각 시스템의 공간적 측면 또는 시간적 측면을 모델링하는 시선 유인 맵을 생성하는 것을 포함하는 비트 할당 시스템.
  6. 제5항에 있어서, 상기 시선 유인 맵은 지각 비디오 프로세서(perceptual video processor, PVP)에서 발생되는 비트 할당 시스템.
  7. 제6항에 있어서, 상기 시선 유인 맵은 적응형 보존 프로세스(adaptive preservation process)의 공간적 시간적 함수를 사용하여 발생되는 비트 할당 시스템.
  8. 제6항에 있어서, 상기 제어 프로세서는 지각 중요성 픽셀 맵을 획득하는 단계를 수행하기 위해 상기 제어 프로세서의 다른 기능들을 수행하는 데 사용되는 상기 제어 프로세서에 포함된 하나 이상의 프로세서들과는 별개인 상기 PVP 프로세서를 포함하는 비트 할당 시스템.
  9. 제1항에 있어서, 상기 데시메이션은 압신된 공간적 디테일 값들의 각 블록을 양자화 필요 값으로 변환하여 양자화 필요 값들과 QP LUT 값들 사이의 일대일 매핑을 제공함으로써 수행되는 비트 할당 시스템.
  10. 제9항에 있어서, 상기 데시메이션은 픽셀들의 그룹들에 대한 값들을 평균함으로써 수행되는 비트 할당 시스템.
  11. 제1항에 있어서, 상기 데시메이션 이전에 상기 제어 프로세서는,
    현재 화상의 픽셀 값들 이전에 인코딩하기 위한 이전 화상으로부터의 시간 평균 점진적 변화(time average gradual change)를 제공하기 위해 압신된 픽셀 값들에 대한 입력 임펄스 응답(IIR)을 수행하도록 구성된 비트 할당 시스템.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 비디오 처리 방법으로서,
    입력 모듈로부터 원 화상을 수신하는 단계;
    시선 추적의 예측들을 사용하여 상기 원 화상에 대한 지각 중요성 픽셀 맵을 획득하는 단계;
    상기 중요성 픽셀 맵에서의 숫자들에 대한 절대값을 제공하는 단계;
    압신을 수행하여 픽셀 값들의 결정된 절대값을 0 내지 1의 범위의 값들로 감소시켜서 가중치 맵을 생성하는 단계;
    상기 가중치 맵을 상기 원 화상에 적용하여, 픽셀단위(pixel-by-pixel) 기반으로 선택적으로 상기 원 화상에서 잡음을 감소시켜 잡음-저감된 화상을 생성하는 단계;
    인코딩될 양자화 파라미터(QP) 값들의 공간 분해능에 일치하도록 가중치 맵 값들에 대한 데시메이션을 수행하는 단계;
    양자화 파라미터(QP) 룩업 테이블(LUT)로부터 상기 데시메이션으로부터 제공되는 픽셀들에 대한 양자화 파라미터들을 결정하는 단계; 및
    상기 시선 추적의 예측들에 따라 매크로블록 내의 픽셀들에 비트들이 할당되도록 하는 방식으로 인코더로 하여금 상기 원 화상의 압축을 수행할 수 있게 하기 위해 상기 인코더에 메타데이터로서 상기 QP LUT 테이블 값들을 제공하는 단계
    를 포함하는 비디오 처리 방법.
  17. 제16항에 있어서, 시각 집중의 예측은 사람의 시각 시스템의 공간적 측면 또는 시간적 측면을 모델링하는 시선 유인 맵을 생성하는 것을 포함하는 비디오 처리 방법.
  18. 제16항에 있어서, 현재 화상의 픽셀 값들 이전에 인코딩하기 위한 이전 화상으로부터의 시간 평균 점진적 변화를 제공하기 위해 압신된 픽셀 값들에 대한 입력 임펄스 응답(IIR)을 수행하는 단계를 더 포함하는 비디오 처리 방법.
  19. 제1항에 있어서,
    상기 비디오 처리 모듈은 중요성 픽셀 맵으로부터 얻어진 가중치 맵에 따라 화상에서 특징들을 선택적으로 부드럽게 하기(soften) 위해 비디오에서 비-잡음 공간적 디테일을 적응적으로 감소시키기 위한 시스템을 포함하는, 비트 할당 시스템.
  20. 제1항에 있어서,
    상기 비디오 처리 모듈은 적응형 디테일 저감기(adaptive detail reducer:ADR)를 포함하는, 비트 할당 시스템.
  21. 제1항에 있어서,
    상기 지각 중요성 픽셀 맵에 대한 가중치 맵은 통신 네트워크를 통해 원격의 인코더에 송신되는, 비트 할당 시스템.
  22. 제1항에 있어서,
    상기 지각 중요성 픽셀 맵은 원 화상 및 기준 화상 모두로부터의 시선 추적의 예측들로부터 획득되는, 비트 할당 시스템.
  23. 제22항에 있어서,
    상기 원 화상 또는 상기 기준 화상에 대한 상기 지각 중요성 픽셀 맵에 움직임 보상이 적용되는, 비트 할당 시스템.
KR1020157026581A 2013-03-15 2014-03-01 지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법 KR101715547B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/841,865 2013-03-15
US13/841,865 US9661328B2 (en) 2013-03-15 2013-03-15 Method of bit allocation for image and video compression using perceptual guidance
PCT/US2014/019722 WO2014149576A1 (en) 2013-03-15 2014-03-01 Improved method of bit allocation for image & video compression using perceptual guidance

Publications (2)

Publication Number Publication Date
KR20150122745A KR20150122745A (ko) 2015-11-02
KR101715547B1 true KR101715547B1 (ko) 2017-03-13

Family

ID=50382587

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157026581A KR101715547B1 (ko) 2013-03-15 2014-03-01 지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법

Country Status (6)

Country Link
US (1) US9661328B2 (ko)
EP (2) EP3817384A1 (ko)
KR (1) KR101715547B1 (ko)
CA (1) CA2904613C (ko)
MX (1) MX352633B (ko)
WO (1) WO2014149576A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804093A1 (en) * 2013-05-13 2014-11-19 Sony Corporation A method for stabilization and a system thereto
US10735737B1 (en) * 2017-03-09 2020-08-04 Google Llc Bit assignment based on spatio-temporal analysis
TW201942870A (zh) * 2018-04-03 2019-11-01 香港商科科串流股份有限公司 位元率優化系統及方法
CN108932707B (zh) * 2018-08-17 2022-06-07 一艾普有限公司 一种图像处理方法及装置
CN111200734B (zh) * 2018-11-19 2022-03-11 浙江宇视科技有限公司 视频编码方法及装置
US10750182B2 (en) 2018-11-20 2020-08-18 Sony Corporation Embedded codec circuitry for visual quality based allocation of refinement bits
EP3713237A1 (en) * 2019-03-20 2020-09-23 InterDigital VC Holdings, Inc. A method and apparatus for depth encoding and decoding
CN112218088A (zh) * 2019-07-09 2021-01-12 深圳先进技术研究院 一种图像与视频压缩方法
CN110536134B (zh) * 2019-09-27 2022-11-04 腾讯科技(深圳)有限公司 视频编码、解码方法和装置、存储介质及电子装置
US11638025B2 (en) * 2021-03-19 2023-04-25 Qualcomm Incorporated Multi-scale optical flow for learned video compression
US11930189B2 (en) 2021-09-30 2024-03-12 Samsung Electronics Co., Ltd. Parallel metadata generation based on a window of overlapped frames

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090074075A1 (en) * 2007-09-14 2009-03-19 The Hong Kong University Of Science And Technology Efficient real-time rate control for video compression processes
US20100265404A1 (en) * 2009-04-17 2010-10-21 General Instrument Corporation System for reducing noise in video processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113256A (en) 1991-02-08 1992-05-12 Zenith Electronics Corporation Method of perceptually modeling a video image signal
KR20010022487A (ko) * 1997-07-31 2001-03-15 추후제출 이미지 및 신호 처리를 위한 장치 및 방법
US7046857B2 (en) 1997-07-31 2006-05-16 The Regents Of The University Of California Apparatus and methods for image and signal processing
US6360021B1 (en) 1998-07-30 2002-03-19 The Regents Of The University Of California Apparatus and methods of image and signal processing
US6670963B2 (en) 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
JP4157484B2 (ja) 2004-03-17 2008-10-01 株式会社日立製作所 半導体集積回路およびそれを用いた磁気記憶装置
US9503756B2 (en) 2011-12-09 2016-11-22 Arris Enterprises, Inc. Encoding and decoding using perceptual representations
US20130195206A1 (en) 2012-01-31 2013-08-01 General Instrument Corporation Video coding using eye tracking maps
US9085669B2 (en) 2013-01-28 2015-07-21 Exxonmobil Chemical Patents Inc. Alkyl aromatic hydroalkylation for the production of plasticizers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090074075A1 (en) * 2007-09-14 2009-03-19 The Hong Kong University Of Science And Technology Efficient real-time rate control for video compression processes
US20100265404A1 (en) * 2009-04-17 2010-10-21 General Instrument Corporation System for reducing noise in video processing

Also Published As

Publication number Publication date
US20140269903A1 (en) 2014-09-18
EP2982111A1 (en) 2016-02-10
CA2904613A1 (en) 2014-09-25
KR20150122745A (ko) 2015-11-02
US9661328B2 (en) 2017-05-23
EP3817384A1 (en) 2021-05-05
MX2015012002A (es) 2015-12-01
WO2014149576A1 (en) 2014-09-25
CA2904613C (en) 2018-05-01
MX352633B (es) 2017-12-01

Similar Documents

Publication Publication Date Title
KR101715547B1 (ko) 지각 안내를 사용한 이미지 및 비디오 압축을 위한 개선된 비트 할당 방법
KR102149115B1 (ko) 높은 동적 범위 이미지들의 프로세싱
KR101591825B1 (ko) 비디오 신호의 인코딩 또는 디코딩 방법 및 장치
CA2770054C (en) System for reducing noise in video processing
EP2603000B1 (en) Guided prediction-filtering in layered vdr image coding
EP3375190B1 (en) High dynamic range color conversion correction
US8369417B2 (en) Optimal denoising for video coding
JPWO2009050889A1 (ja) 映像復号方法及び映像符号化方法
JP2008533937A (ja) Dctコード化されたビデオの品質を、オリジナルビデオシーケンスを用いて、もしくは用いずに客観評価する装置及び方法
Sun et al. An efficient DCT-based image compression system based on Laplacian transparent composite model
Jin et al. Composite model-based dc dithering for suppressing contour artifacts in decompressed video
US20160012573A1 (en) Method and device for selecting an image dynamic range conversion operator
CN106664404A (zh) 视频编码中的块分割方式处理方法和相关装置
KR100389891B1 (ko) 시감오차 처리방법 및 이를 이용한 영상 부호화장치
Boitard et al. Impact of temporal coherence-based tone mapping on video compression
Watanabe et al. Lossless two-layer coding using histogram packing technique for HDR images
JP2001346208A (ja) 画像信号復号化装置および方法
Amor et al. A block artifact distortion measure for no reference video quality evaluation
Zhang et al. Visually lossless perceptual image coding based on natural-scene masking models
JP6584538B2 (ja) 高ダイナミックレンジ画像の処理
US10715772B2 (en) High dynamic range color conversion correction
RU2646358C2 (ru) Способ устранения избыточности при сжатии последовательности изображений
WO2019071045A1 (en) HIGH DYNAMIC RANGE COLORING CORRECTION
KR100864238B1 (ko) 압축 영상의 블록킹 현상 제거 방법
CN116546295A (zh) 一种视频拍摄处理方法以及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200226

Year of fee payment: 4