KR20070114797A - 비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩 - Google Patents

비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩 Download PDF

Info

Publication number
KR20070114797A
KR20070114797A KR1020077022482A KR20077022482A KR20070114797A KR 20070114797 A KR20070114797 A KR 20070114797A KR 1020077022482 A KR1020077022482 A KR 1020077022482A KR 20077022482 A KR20077022482 A KR 20077022482A KR 20070114797 A KR20070114797 A KR 20070114797A
Authority
KR
South Korea
Prior art keywords
roi
frame
video
region
interest
Prior art date
Application number
KR1020077022482A
Other languages
English (en)
Other versions
KR100957472B1 (ko
Inventor
하오홍 왕
할레드 헬미 엘-말레
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20070114797A publication Critical patent/KR20070114797A/ko
Application granted granted Critical
Publication of KR100957472B1 publication Critical patent/KR100957472B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 비디오 전화통신 (VT) 에 대한 관심-영역 (ROI) 코딩에 대한 기술에 관한 것이다. 개시된 기술들은, 그 ROI로의 할당을 위한 인코딩 비트들을 보존하기 위해, 비-ROI (즉, 배경) 영역들의 적응성 스킵핑을 포함한다.
관심-영역 (ROI), 비-관심 영역 (비-ROI), 비트 할당, 적응성 스킵핑

Description

비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩{REGION-OF-INTEREST CODING WITH BACKGROUND SKIPPING FOR VIDEO TELEPHONY}
본 특허 출원은 2005년 3월 1일자로 출원된 미국 가출원 제 60/658,008 호를 우선권 주장한다.
기술분야
본 발명은 디지털 비디오 인코딩에 관한 것으로, 더 상세하게는, 비디오 전화통신 (VT) 애플리케이션을 위해 관심-영역 (ROI) 정보를 인코딩하는 기술에 관한 것이다.
배경
다수의 상이한 비디오 인코딩 표준들이 디지털 비디오 시퀀스들을 인코딩하기 위해 확립되어 왔다. 예를 들어, MPEG (Moving Picture Experts Group) 는, MPEG-1, MPEG-2, 및 MPEG-4를 포함하는 다수의 표준들을 개발하였다. 다른 예들은, ITU (International Telecommunication Unit) H.263 표준, 및 이머징 (emerging) ITU H.264 표준을 포함한다. 일반적으로, 이러한 비디오 인코딩 표준들은 압축된 방식으로 데이터를 인코딩함으로써 비디오 시퀀스들의 개선된 송신 효율을 지원한다.
비디오 전화통신 (VT) 은, 사용자가 화상회의와 같은 애플리케이션을 지원하기 위한 비디오 및 오디오 정보를 공유할 수 있게 한다. 예시적인 비디오 전화 통신 표준들은, SIP (Session Initiation Protocol) 에 의해 정의된 표준, ITU H.323 표준, 및 ITU H.324 표준을 포함한다. VT 시스템에서, 사용자는 비디오 정보를 전송 및 수신할 수도 있거나, 단지 비디오 정보를 수신할 수도 있거나, 단지 비디오 정보를 전송할 수도 있다. 일반적으로, 수신자는 수신된 비디오 정보가 전송자로부터 송신된 형태로 그 정보를 본다.
비디오 정보의 선택된 부분의 우선적인 인코딩이 제안되어 왔다. 예를 들어, 전송자는 수신자로의 송신을 위해 더 높은 품질로 인코딩될 관심-영역 (ROI) 을 특정할 수도 있다. 전송자는 원격 수신자들에 대하여 ROI를 강조하길 원할 수도 있다. 전송자가 비디오 장면내에서의 다른 물체에 주의를 집중시키길 원할 수도 있지만, ROI의 통상적인 예는 사람의 얼굴이다. ROI의 우선적인 인코딩에 의해, 수신자는 비-ROI 영역보다 더 분명하게 ROI를 볼 수 있다.
요약
본 발명은 비디오 전화통신 (VT) 을 위한 관심-영역 (ROI) 코딩에 대한 기술에 관한 것이다. 개시된 기술은, ROI로의 할당을 위한 인코딩 비트를 보존하기 위해, 비디오 프레임의 비-ROI 영역의 적응성 스킵핑에 대한 기술을 포함한다. 또한, 개시된 기술은, ρ도메인내의 매크로블록 (MB) 레벨에서 가중된 비트 할당 모델을 사용하여, ROI로의 비트의 할당에 대한 기술을 포함한다. 또한, 본 기술은, ROI 비디오에 대한 품질 메트릭의 생성을 위한 기술을 포함하며, 그 품질 메트릭은, 인코딩된 비디오 시퀀스의 품질을 평가할 시에, ROI, ROI 비디오 충실도 (fidelity), 및 ROI 지각적인 (perceptual) 품질에서 사용자의 관심의 정도를 공동 으로 고려한다.
비-ROI 스킵핑 기술은, 비-ROI 영역의 이미지 품질을 현저하게 열화시키지 않고, ROI의 이미지 품질을 향상시키도록 서빙한다. 특히, 비-ROI 스킵핑 기술은, ROI로의 할당을 위한 부가적인 비트를 제공하기 위해 비-ROI 비트를 보존할 수 있다. 품질 메트릭은, 인코딩된 비디오 장면에서의 주관적인 (subjective) 이미지 품질을 향상시키기 위해 비트 할당 기술을 바이어스하도록 적용될 수도 있다. ρ도메인에서의 비트 할당은, 향상된 시각적 품질을 위해 ROI 양자화의 더 정확하고 일관된 제어를 제공할 수 있다. 비-ROI 스킵핑, ρ도메인 비트 할당, 및 품질 메트릭은, ROI 및 비-ROI 인코딩의 효율적인 제어를 달성하는데 공동으로 또는 개별적으로 이용될 수 있다.
일 실시형태에서, 본 발명은, 선행 프레임의 비디오 충실도, 선행 프레임의 지각적인 품질, 및 관심 영역에서의 사용자 선호도에 기초하여 관심-영역을 포함하는 인코딩된 비디오 프레임에 대한 품질 메트릭을 생성하는 단계를 포함하는 방법을 제공한다.
또 다른 실시형태에서, 본 발명은, 관심 영역을 포함하는 비디오 프레임을 인코딩하는 비디오 인코더, 및 선행 프레임의 비디오 충실도, 선행 프레임의 지각적인 품질, 및 관심 영역에서의 사용자 선호도에 기초하여 비디오 프레임에 대한 품질 메트릭을 생성하는 품질 메트릭 계산기를 구비하는 디바이스를 제공한다.
또 다른 실시형태에서, 본 발명은, 비디오 프레임내의 관심 영역의 정의 (definition) 를 획득하는 단계, 그 프레임에 이용가능한 인코딩 비트들의 수를 정 의하는 프레임 버짓 (budget) 을 획득하는 단계, 및 그 관심 영역내에 존재하지 않는 비디오 프레임의 영역내의 매크로블록과 그 관심 영역내의 매크로블록 사이의 가중치 및 그 프레임 버짓에 기초하여, 그 프레임내의 매크로블록에 로 (rho) 값을 할당하는 단계를 포함하는 방법을 제공한다.
또 다른 실시형태에서, 본 발명은, 비디오 프레임내의 관심 영역의 정의를 생성하는 관심 영역 매핑기, 그 프레임에 이용가능한 인코딩 비트들의 수를 정의하는 프레임 버짓을 생성하는 프레임-레벨 레이트 제어기, 및 그 관심 영역내에 존재하지 않는 비디오 프레임의 영역내의 매크로블록과 그 관심 영역내의 매크로블록 사이의 가중치 및 그 프레임 버짓에 기초하여, 그 프레임내의 매크로블록에 로 값을 할당하는 비트 할당 모듈을 구비하는 디바이스를 제공한다.
또 다른 실시형태에서, 본 발명은, 연속하는 프레임들을 프레임 유닛으로 그룹화하는 단계, 그 프레임 유닛의 각각의 프레임내의 관심 영역을 인코딩하는 단계, 및 그 프레임 유닛의 프레임들 중 하나 이상의 프레임에 대해 각각의 관심 영역내에 존재하지 않는 영역의 인코딩을 스킵핑하는 단계를 포함하는 방법을 제공한다.
또 다른 실시형태에서, 본 발명은, 비디오 프레임내의 관심 영역의 정의를 생성하는 관심-영역 매핑기, 그 비디오 프레임을 인코딩하는 비디오 인코더, 및 연속하는 프레임을 프레임 유닛으로 그룹화하고, 그 프레임 유닛의 각각의 프레임내의 관심 영역을 인코딩하도록 그 비디오 인코더에게 지시하며, 그 프레임 유닛의 프레임들 중 하나 이상의 프레임에 대해 각각의 관심 영역내에 존재하지 않는 영역 의 인코딩을 스킵핑하도록 그 비디오 인코더에게 지시하는 스킵핑 모듈을 구비하는 디바이스를 제공한다.
여기에 설명된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 그 기술들은, 실행될 경우 여기에 설명된 하나 이상의 방법들을 수행하는 명령들을 포함하는 프로그램 코드를 포함한 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다.
하나 이상의 실시형태들의 세부사항은, 첨부한 도면 및 아래의 설명에서 설명된다. 다른 특성, 목적, 이점들은 설명 및 도면, 및 청구항으로부터 명백할 것이다.
도면의 간단한 설명
도 1은 ROI-인에이블된 비디오 인코더-디코더 (코덱; CODEC) 를 통합한 비디오 인코딩 및 디코딩 시스템을 도시한 블록도이다.
도 2는 무선 통신 디바이스와 관련된 디스플레이상에서 제공된 비디오 장면내의 ROI의 정의를 도시한 다이어그램이다.
도 3a 및 3b는, 도 2에 나타낸 비디오 장면의 ROI 및 비-ROI 영역을 도시한 다이어그램이다.
도 4는, 비-ROI 스킵핑 모듈, ROI ρ도메인 비트 할당 모듈, 및 ROI 가중치 계산기와 ROI-인에이블된 인코더를 통합한 비디오 통신 디바이스를 도시한 블록도이다.
도 5는 ROI 품질 메트릭 계산기를 도시한 블록도이다.
도 6은, ROI 품질 메트릭 계산에 대한 ROI 사용자 선호도 입력 디바이스를 통합한 무선 통신 디바이스를 추가적으로 도시한 다이어그램이다.
도 7은, 비디오 인코더에 의해 적용된 코딩 파라미터의 최적화를 위해 비디오 시퀀스를 분석하기 위한 ROI 품질 메트릭 계산기의 사용을 도시한 블록도이다.
도 8은, 비디오 인코더에 의해 적용된 코딩 파라미터의 조정을 위해 인코딩된 비디오를 분석하기 위한 ROI 품질 메트릭 계산기의 사용을 도시한 블록도이다.
도 9는 인코딩된 비디오에 대한 ROI 품질 메트릭 계산을 도시한 흐름도이다.
도 10은 비디오 시퀀스에 대한 ROI 품질 메트릭 계산을 도시한 흐름도이다.
도 11은 ROI ρ도메인 비트 할당을 도시한 흐름도이다.
도 12는, 가중된 비트 할당 모델 및 최적화 솔루션을 사용하는 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 13은 비-ROI 스킵핑에 대한 기술을 도시한 흐름도이다.
도 14는, 비-ROI 스킵핑을 지원하기 위해, 연속하는 프레임들의 프레임 유닛으로의 그룹화를 도시한 다이어그램이다.
도 15는, 비-ROI 스핍핑을 지원하기 위해, 공통 비-ROI 영역으로 연속하는 ROI 영역의 인코딩을 도시한 다이어그램이다.
도 16은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.9를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 17은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α= 0.9를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 비디오 충실도를 비교한 그래프이다.
도 18은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.9를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 ROI 비디오 충실도를 비교한 그래프이다.
도 19는, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.9를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 비-ROI 비디오 충실도를 비교한 그래프이다.
도 20은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.7을 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 21은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.7을 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 비디오 충실도를 비교한 그래프이다.
도 22는, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.5를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 23은, 표준 비트 할당, 가중된 비트 할당, 및 사용자 선호도 인자 α=0.5를 갖는 배경 스킵핑을 사용하는 ROI 인코딩 기술의 전체 비디오 충실도를 비교한 그래프이다.
도 24는, 다양한 사용자 선호도 인자 값들에서 표준 프레임 스킵핑 및 비-ROI 스킵핑을 사용하는 ROI 인코딩 기술의 지각적인 품질을 비교한 그래프이다.
도 25는, 비-ROI 스킵핑이 온 및 오프 (on and off) 되는 경우, ROI 인코딩 기술의 지각적인 품질을 비교한 그래프이다.
도 26은 예시적인 비디오 시퀀스상의 비-ROI 스킵핑에 의해 야기되는 왜곡을 도시한 그래프이다.
도 27은, 비-ROI 스킵핑, 비-ROI 스킵핑 없음, 및 적응성 비-ROI 스킵핑을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 28은, 인코딩 레이트의 범위에 걸친 예시적인 비디오 시퀀스에 대한 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 29는 40Kb/s (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
도 30은 40Kb/s (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 전체 비디오 충실도를 비교한 그래프이다.
도 31은 40Kb/s (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 ROI 비디오 충실도를 비교한 그래프이다.
도 32는 40Kb/s (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 비-ROI 비디오 충실도를 비교한 그래프이다.
도 33은, 인코딩 레이트의 범위에 걸친 또 다른 예시적인 비디오 시퀀스에 대한 다양한 비트 할당 기술을 사용하는 ROI 인코딩 기술의 전체 지각적인 품질을 비교한 그래프이다.
상세한 설명
도 1은 ROI-인에이블된 비디오 인코더-디코더 (코덱) 를 통합한 비디오 인코딩 및 디코딩 시스템 (10) 을 도시한 블록도이다. 도 1에 도시된 바와 같이, 시스템 (10) 은, 제 1 비디오 통신 디바이스 (12) 및 제 2 비디오 통신 디바이스 (14) 를 포함한다. 통신 디바이스들 (12, 14) 은 송신 채널 (16) 에 의해 접속된다. 송신 채널 (16) 은 유선 또는 무선 통신 매체일 수도 있다. 시스템 (10) 은, 비디오 전화통신을 위해, 비디오 통신 디바이스들 (12, 14) 사이에서 양-방향 비디오 송신을 지원한다. 디바이스들 (12, 14) 은 실질적으로 대칭적인 방식으로 동작할 수도 있다. 그러나, 일부 실시형태에서, 비디오 통신 디바이스들 (12, 14) 중 하나 또는 양자는 ROI-인에이블된 비디오 스트리밍을 지원하기 위해 단-방향 통신만을 위해 구성될 수도 있다.
여기에 설명된 바와 같이, 비디오 통신 디바이스들 (12, 14) 중 하나 또는 양자는 비디오 전화통신 (VT) 을 위한 ROI 코딩에 대한 기술을 적용하도록 구성될 수도 있다. ROI 코딩 기술들은, ROI로의 할당용 인코딩 비트를 보존하기 위한 비-ROI 영역의 적응성 스킵핑, ρ도메인내의 비디오 블록 레벨, 예를 들어, 매크로블록 (MB) 레벨에서 가중된 비트 할당 모델을 사용하는 비트의 ROI로의 할당, 및 ROI 비디오에 대한 ROI 비디오 품질 메트릭의 생성을 포함하며, 그 비디오 품질 메트릭은, 인코딩된 비디오 시퀀스의 품질을 평가할 시에, ROI, ROI 비디오 충실도, 및 ROI 지각적인 품질에서 사용자의 관심의 정도를 고려한다. ρ (로) 파라미터는 MB와 같은 비디오 블록에서 0-아닌 AC 계수들의 수를 나타낸다. ρ도메인에서의 레이트 제어는 QP 도메인에서의 레이트 제어보다 더 정확한 경향이 있다. 비-ROI 스킵핑, ρ도메인 비트 할당, 및 품질 메트릭은 ROI 및 비-ROI 인코딩의 효율적인 제어를 달성하기 위해 공동으로, 또는 개별적으로 사용될 수 있다.
매크로블록은 프레임의 일부를 형성하는 비디오 블록이다. MB의 사이즈는 16×16 픽셀일 수도 있다. 그러나, 다른 MB 사이즈가 가능하다. 설명의 목적을 위해 매크로블록이 여기에서 설명될 것이며, 매크로블록들 또는 다른 비디오 블록들이 다양하고 상이한 사이즈를 가질 수도 있다는 것을 알 수 있다.
양-방향 애플리케이션에 있어서, 상반된 인코딩, 디코딩, 멀티플렉싱 (MUX) 및 디멀티플렉싱 (DEMUX) 컴포넌트들이 채널 (16) 의 대향 말단에 제공될 수도 있다. 도 1의 예에서, 비디오 통신 디바이스 (12) 는, MUX/DEMUX 컴포넌트 (18), ROI-인에이블된 비디오 코덱 (20) 및 오디오 코덱 (22) 을 포함한다. 유사하게, 비디오 통신 디바이스 (14) 는, MUX/DEMUX 컴포넌트 (26), ROI-인에이블된 비디오 코덱 (28) 및 오디오 코덱 (30) 을 포함한다.
시스템 (10) 은 SIP, ITU H.323 표준, ITU H.324 표준, 또는 다른 표준들에 따라 비디오 전화통신을 지원할 수도 있다. 각각의 비디오 코덱 (20, 28) 은, MPEG-2, MPEG-4, ITU H.263, 또는 ITU H.264와 같은 비디오 압축 표준에 따라, 인코딩된 비디오 데이터를 생성한다. 도 1에 추가적으로 도시된 바와 같이, 비디오 코덱 (20, 28) 은 각각의 오디오 코덱 (22, 30) 에 통합될 수도 있고, 데이터 스트림의 오디오 및 비디오 부분을 처리하기 위해 적절한 MUX/DEMUX 컴포넌트 (18, 26) 를 포함할 수도 있다. 오디오 부분은 보이스 또는 다른 오디오 콘텐츠를 운송할 수도 있다. MUX-DEMUX 유닛 (18, 26) 은 ITU H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜 (UDP) 과 같은 다른 프로토콜들에 부합할 수도 있다.
각각의 ROI-인에이블된 비디오 코덱 (20, 28) 은, 각각의 비디오 통신 디바이스 (12, 14) 의 로컬 사용자에 의해 로컬적으로 제공된 ROI 정보, 또는 다른 비디오 통신 디바이스 (12, 14) 의 원격 사용자로부터 원격으로 제공된 ROI 정보를 프로세싱할 수 있을 수도 있다. 예를 들어, 비디오 통신 디바이스 (12) 의 로컬 사용자는, 비디오 통신 디바이스 (12) 에 의해 로컬적으로 생성된 "근단 (near-end)" 비디오에서 ROI를 특정하여 디바이스 (14) 의 원격 사용자로 송신된 비디오의 영역을 강조할 수도 있다. 이와 대조적으로, 비디오 통신 디바이스 (12) 의 로컬 사용자는 비디오 통신 디바이스 (14) 에 의해 원격으로 생성된 "원단 (far-end)" 비디오에서 ROI를 특정할 수도 있고, 그 ROI를 원격 비디오 통신 디바이스로 전달할 수도 있다. 이러한 경우, 비디오 통신 디바이스 (12) 의 사용자는, 예를 들어, 비디오 통신 디바이스 (14) 로부터 수신된 비디오에서의 ROI를 더 분명하게 볼 수 있도록 비디오 통신 디바이스 (14) 에 의한 ROI의 우선적인 인코딩을 원격으로 제어한다.
비디오 통신 디바이스 (12, 14) 는, 비디오 스트리밍, 비디오 전화통신, 또는 그 양자를 위해 장비된 무선 이동 단말기 또는 유선 단말기로서 구현될 수도 있 다. 그러한 목적으로, 비디오 통신 디바이스 (12, 14) 는, 무선 통신을 지원하기 위해, 적절한 무선 송신기, 수신기, 모뎀, 및 프로세싱 전자기기를 또한 포함할 수도 있다. 무선 이동 단말기의 예는, 이동 무선 전화기, 이동 개인 휴대 정보 단말기 (PDA), 이동 컴퓨터, 또는 무선 통신 능력 및 비디오 인코딩 및/또는 디코딩 능력을 장비한 다른 이동 디바이스를 포함한다. 유선 단말기의 예는, 데스크탑 컴퓨터, 비디오 전화기, 네트워크 기구, 셋-탑 박스, 대화형 (interactive) 텔레비전을 포함한다. 어느 비디오 통신 디바이스 (12, 14) 든지 비디오 정보를 전송, 비디오 정보를 수신, 또는 비디오 정보를 송신 및 수신하도록 구성될 수도 있다.
비디오 전화통신 애플리케이션에 있어서, 일반적으로, 디바이스 (12) 가 비디오 전송 능력 및 비디오 수신 능력 양자를 지원하는 것이 바람직하다. 그러나, 스트리밍 비디오 애플리케이션이 또한 고려된다. 비디오 전화통신, 및 특히 무선 통신에 의한 이동 비디오 전화통신에서, 매우 낮은 비트레이트가 종종 요구되므로 대역폭이 중대한 관심사이다. 특히, 통신 채널 (16) 은 제한된 대역폭을 가질 수도 있으므로, 이는 채널 (16) 을 통한 양질의 비디오 시퀀스의 효율적인 실-시간 송신을 매우 힘들게 한다. 예를 들어, 통신 채널 (16) 은, 채널 (16) 에서의 물리적 제약, 또는 가능하게는 통신 채널 (16) 의 제공자에 의해 부과된 대역폭 할당 제약 또는 서비스-품질 (QoS) 제한으로 인해, 제한된 대역폭을 갖는 무선 통신 링크일 수도 있다.
따라서, 부가적인 인코딩 비트의 ROI에 대한 선택적인 할당, 더 강한 에러 보호, 또는 다른 우선적인 인코딩 단계들은, 전체 인코딩 효율을 유지하면서 비디오의 일부의 이미지 품질을 개선시킬 수 있다. 우선적인 인코딩에 있어서, 감소된 수의 비트가 비디오 장면에서의 배경과 같은 비-ROI 영역에 할당될 수도 있지만, 부가적인 비트가 ROI에 할당될 수도 있다. 더 일반적으로, 비-ROI 영역이 ROI의 일부를 형성하지 않는 비디오 장면의 임의의 영역을 포함하지만, 비-ROI 영역은 "배경" 영역으로 지칭될 것이다. 따라서, 비-ROI 및 배경이라는 용어는, 특정된 ROI내에 존재하지 않는 영역을 지칭하기 위해, 본 명세서 전반에 걸쳐 상호교환적으로 사용될 수도 있다.
일반적으로, 시스템 (10) 은 비디오 전화통신 (VT) 애플리케이션에 대한 관심-영역 (ROI) 프로세싱용 기술을 이용한다. 그러나, 상술된 바와 같이, 그러한 기술은 또한 비디오 스트리밍 애플리케이션에 적용가능할 수도 있다. 예시의 목적을 위해, 각각의 비디오 통신 디바이스 (12, 14) 는 비디오 정보의 전송자 및 수신자 양자로서 동작할 수 있으며, 그에 의해, VT 세션에서 완전한 참여자 (full participant) 로서 동작할 수 있다고 가정한다. 비디오 통신 디바이스 (12) 로부터 비디오 통신 디바이스 (14) 로 송신된 비디오 정보에 있어서, 비디오 통신 디바이스 (12) 는 전송 디바이스이고, 비디오 통신 디바이스 (14) 는 수신 디바이스이다. 이와 대조적으로, 비디오 통신 디바이스 (14) 로부터 비디오 통신 디바이스 (12) 로 송신된 비디오 정보에 있어서, 비디오 통신 디바이스 (12) 는 수신 디바이스이고, 비디오 통신 디바이스 (14) 는 전송 디바이스이다. 또한, 여기에 설명된 기술들은 단지 그러한 비디오를 전송 또는 단지 그러한 비디오를 수신 하는 디바이스들에 적용가능할 수도 있다. 로컬 비디오 통신 디바이스 (12, 14) 에 의해 인코딩 및 송신될 비디오 정보를 설명할 경우, 상술된 바와 같이, 비디오 정보는 "근단" 비디오로 지칭될 수도 있다. 원격 비디오 통신 디바이스 (12, 14) 에 의해 인코딩 및 그 원격 비디오 통신 디바이스로부터 수신될 비디오 정보를 설명할 경우, 비디오 정보는 "원단" 비디오로 지칭될 수도 있다.
개시된 기술에 따르면, 수신 디바이스로서 동작하는 경우, 비디오 통신 디바이스 (12 또는 14) 는, 전송 디바이스로부터 수신된 원단 비디오 정보에 대한 ROI 정보를 정의한다. 또한, 전송 디바이스로부터 수신된 비디오 정보는, 통신 채널의 원단에 위치되는 다른 (전송) 디바이스로부터 수신된다는 의미에서, "원단" 비디오 정보로 지칭될 것이다. 유사하게, 전송 디바이스로부터 수신되는 비디오 정보에 대해 정의된 ROI 정보는 "원단" ROI 정보로서 지칭될 것이다. 일반적으로, 원단 ROI는, 원단 비디오의 수신기에 가장 관심있는 원단 비디오내의 영역을 지칭한다. 수신 디바이스는 원단 비디오 정보를 디코딩하여 그 디코딩된 원단 비디오를 디스플레이 디바이스를 통해 사용자에게 제공한다. 사용자는 원단 비디오에 의해 제공된 비디오 장면내에서 ROI를 선택한다. 다른 방법으로, ROI가 자동적으로 정의될 수도 있다.
수신 디바이스는, 그 수신 디바이스에서 사용자에 의해 선택된 ROI에 기초하여 원단 ROI 정보를 생성하고, 전송 디바이스가 그러한 정보를 사용할 수 있도록 그 원단 ROI 정보를 그 전송 디바이스에 전송한다. 원단 ROI 정보는, ROI내에 상주하는 MB의 관점에서 ROI를 정의하는 ROI 매크로블록 (MB) 맵을 형성할 수도 있 다. ROI MB 맵은, ROI내에 있는 MB를 1로, 및 ROI 외부의 MB를 0으로 플래그 (flag) 하여, ROI에 포함되는 (1) 및 ROI로부터 배제되는 (0) MB를 용이하게 식별할 수도 있다.
수신 디바이스에 의해 송신되는 원단 ROI 정보를 사용하여, 전송 디바이스는 비디오 장면내의 대응하는 ROI에 우선적인 인코딩을 적용한다. 특히, 감소된 양의 인코딩 비트가 비-ROI 영역에 할당될 수도 있는 동안 부가적인 인코딩 비트가 ROI에 할당될 수도 있으므로, 그에 의해 ROI의 이미지 품질을 개선시킨다. 이러한 방식으로, 수신 디바이스는 전송 디바이스에 의한 원단 비디오 정보의 ROI 인코딩을 원격으로 제어할 수 있다.
우선적인 인코딩은, 예를 들어, ROI 영역에서의 우선적인 비트 할당 또는 우선적인 양자화에 의해, 비디오 장면의 비-ROI 영역보다는 ROI 영역에 더 높은 품질의 인코딩을 적용한다. 우선적으로 인코딩된 ROI는, 수신 디바이스의 사용자가 물체 또는 영역을 더 분명하게 볼 수 있게 한다. 예를 들어, 수신 디바이스의 사용자는 비디오 장면의 배경 영역보다 얼굴 또는 일부 다른 물체를 더 분명하게 보기를 원할 수도 있다.
전송 디바이스로서 동작할 경우, 비디오 통신 디바이스 (12 또는 14) 는 전송 디바이스에 의해 송신되는 비디오 정보에 대한 ROI 정보를 또한 정의할 수도 있다. 또한, 전송 디바이스에서 생성된 비디오 정보는, 통신 채널의 근단에서 생성된다는 의미에서 "근단" 비디오로 지칭될 것이다. 전송 디바이스에 의해 생성된 ROI 정보는 "근단" ROI 정보로 지칭될 것이다.
일반적으로, 근단 ROI는, 전송자가 수신기에 대해 강조하기를 원하는 근단 비디오의 영역을 지칭한다. 따라서, ROI는 수신 디바이스 사용자에 의해 원단 ROI 정보로서, 또는 전송 디바이스 사용자에 의해 근단 ROI 정보로서 특정될 수도 있다. 전송 디바이스는 디스플레이 디바이스를 통해 근단 비디오를 사용자에게 제공한다. 전송 디바이스와 관련된 사용자는, 근단 비디오에 의해 제공된 비디오 장면내에서 ROI를 선택한다. 전송 디바이스가 사용자-선택된 ROI를 사용하여 근단 비디오를 인코딩하므로, 근단 비디오에서의 ROI는, 예를 들어, 비-ROI 영역에 비해 더 높은 품질 인코딩으로 우선적으로 인코딩된다.
전송 디바이스에서의 로컬 사용자에 의해 선택 또는 정의된 근단 ROI는, 전송 디바이스의 사용자가 비디오 장면내의 영역들 또는 물체들을 강조하게 하므로, 그에 의해, 그러한 영역들 또는 물체들에 수신 디바이스 사용자의 주의를 안내한다. 특히, 전송 디바이스 사용자에 의해 선택된 근단 ROI는 수신 디바이스로 송신될 필요가 없다. 대신, 전송 디바이스는, 선택된 근단 ROI 정보가 수신 디바이스에 송신되기 이전에, 근단 비디오를 로컬적으로 인코딩하기 위해 그 선택된 근단 ROI 정보를 이용한다. 그러나, 일부 실시형태에서, 전송 디바이스는, 더 높은 품질 에러 정정 또는 사후-프로세싱 (post-processing) 과 같은 우선적인 디코딩 기술들의 애플리케이션을 용인하기 위해, ROI 정보를 수신 디바이스에 전송할 수도 있다.
ROI 정보가 전송 디바이스 및 수신 디바이스 양자에 의해 제공되면, 전송 디바이스는, 수신 디바이스로부터의 수신된 원단 ROI 정보 또는 로컬적으로 생성된 근단 ROI 정보를 적용하여, 근단 비디오를 인코딩한다. 전송 디바이스 및 수신 디바이스에 의해 제공된 근단 ROI 선택과 원단 ROI 선택 사이에서 ROI 충돌이 발생할 수도 있다. 그러한 충돌은, 로컬 사용자에 의한 활성적인 해상도 (resolution) 또는 특정된 액세스 권리 및 레벨에 따른 해상도와 같은 해상도를 요구할 수도 있다. 어느 경우이든, 전송 디바이스는, 전송 디바이스에 의해 로컬적으로 또는 수신 디바이스에 의해 원격으로 제공된 근단 ROI 정보에 기초하여 ROI를 우선적으로 인코딩한다.
로컬 사용자 또는 원격 사용자 중 어느 한 사용자에 의해 특정된 ROI가 제공되면, 본 발명은 일반적으로 ROI 인코딩에 대한 기술들에 촛점을 맞춘다. 특히, 본 발명은, 비디오 장면내의 ROI 영역과 비-ROI 영역 사이에서의 비트 할당의 관점으로, ROI가 우선적으로 인코딩되는 방식을 다룬다. ROI 비디오 품질 메트릭은, ROI 영역과 비-ROI 영역 사이의 가중된 비트 할당을 바이어스하도록 적용될 수도 있다. 비디오 품질 메트릭은 사용자의 선호도의 정도, 즉, 인코딩된 비디오 시퀀스의 품질을 평가할 시에, ROI, ROI 비디오 충실도, 및 ROI 지각적인 품질에 대한 관심도를 고려한다. 가중된 비트 할당은 ρ도메인내에서 적용된다. 또한, 비-ROI 또는 "배경" 스킵핑 알고리즘은 ROI로의 할당을 위한 인코딩 비트를 보존하도록 적용될 수도 있다.
도 2는 무선 통신 디바이스 (36) 와 관련된 디스플레이 (34) 상에서 제공된 비디오 장면 (32) 내의 ROI의 정의를 도시한 다이어그램이다. 도 2의 예에서, ROI는 사각형의 ROI (38) 또는 비-사각형 ROI (40) 중 하나로 나타낸다. 비-사 각형 ROI (40) 는 원형 또는 부정형 (irregular) 형상을 가질 수도 있다. 각각의 경우, ROI (38) 또는 ROI (40) 는 비디오 장면 (32) 에서 제공된 사람의 얼굴 (42) 을 포함한다. 도 3a 및 3b는 도 2에서 나타낸 비디오 장면 (32) 의 ROI (38) 및 비-ROI 영역 (43) 을 도시한 다이어그램이다. 비-ROI 영역 (43), 즉 배경은 도 3b에 음영을 넣음으로써 강조된다.
ROI (38 또는 40) 는, 사용자에 의해 수동으로, 디바이스 (36) 에 의해 자동으로, 또는 사용자에 의한 수동적 ROI 설명과 디바이스 (36) 에 의한 자동적 ROI 정의의 조합을 사용하여 정의될 수도 있다. 사각형 ROI (38) 는 사용자에 의해 선택될 수도 있다. 비-사각형 ROI (40) 는, 예를 들어, 스타일러스 (stylus) 및 터치스크린을 사용하여 사용자에 의해 도시될 수도 있거나, 임의의 다양한 물체 검출 또는 세그먼트화 기술을 사용하여 디바이스 (36) 에 의해 자동적으로 선택될 수도 있다. VT 애플리케이션에 있어서, ROI (38 또는 40) 는 화상회의에서의 참가자의 얼굴 (42) 을 포함하는 비디오 장면 (32) 의 일부를 포함할 수도 있다. ROI (38 또는 40) 의 사이즈, 형상 및 위치는 고정 또는 조정가능할 수도 있고, 다양한 방식으로 정의, 설명 또는 조정될 수도 있다.
ROI (38 또는 40) 는, 비디오 전송자가 사람의 얼굴 (42) 과 같은, 송신된 비디오 장면 (32) 내의 개별 물체들을 강조할 수 있게 한다. 이와 대조적으로, ROI (38 또는 40) 는 비디오 수신자가 수신된 비디오 장면 (32) 내의 원하는 물체들을 더 분명하게 볼 수 있게 한다. 어느 경우이든, ROI (38 또는 40) 내의 얼굴 (42) 은, 비디오 장면 (32) 의 배경 영역과 같은 비-ROI 영역에 비해 더 높은 이미지 품질로 인코딩된다. 이러한 방식으로, 사용자는, 표정, 입술의 움직임, 눈의 움직임 등을 더 분명하게 볼 수 있다.
그러나, ROI (38 또는 40) 는 얼굴 이외의 물체들을 특정하는데 사용될 수도 있다. 일반적으로, VT 애플리케이션에서의 ROI는 매우 주관적일 수 있고, 사용자마다 상이할 수도 있다. 또한, 원하는 ROI는 VT가 사용되는 방법에 의존한다. 일부 경우, VT는 화상회의와는 달리 물체를 보고 평가하기 위해 사용될 수도 있다. 예를 들어, 사용자는, 특히, 상연물이 카메라로부터 이격되어 화이트보드를 향할 경우에 발표자의 얼굴보다는 수학식 또는 도면을 포함하는 화이트보드의 섹션에 촛점을 맞추길 원할 수도 있다. 일부 경우, 비디오 장면은, 우선적인 인코딩에 대해 지정된 2개 이상의 ROI들을 포함할 수도 있다.
도 4는 비디오 통신 디바이스 (12) 에서의 사용을 위한 ROI-인에이블된 비디오 인코딩 시스템 (44) 을 도시한 블록도이다. 도 4에 도시된 바와 같이, 시스템 (44) 은, ROI 가중치 계산기 (46), ROI ρ도메인 비트 할당 모듈 (48), 비-ROI (즉, 배경) 스킵핑 모듈 (50), ROI 매크로블록 (MB) 매핑기 (52), 프레임-레벨 레이트 제어기 (54), ρ-양자화 파라미터 (QP) 매핑기 (56), 비디오 인코더 (58), 및 왜곡 분석기 (60) 를 포함한다. 도 4에서, MUX-DEMUX 및 비디오 컴포넌트들은 도시의 용이함을 위해 생략된다.
도 4에 나타낸 다양한 컴포넌트들은, 별개의 기능성 모듈들 또는 각각의 모듈에 속하는 기능을 포함하는 모놀리스식 (monolithic) 모듈로서, 다양한 방식으로 형성될 수도 있다. 임의의 이벤트에서, 비디오 인코딩 시스템 (44) 의 다양한 컴포넌트들은, 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 실현될 수도 있다. 예를 들어, 그러한 컴포넌트들은, 하나 이상의 마이크로프로세서 또는 디지털 신호 프로세서 (DSP), 하나 이상의 주문형 집적회로 (ASIC), 하나 이상의 필드 프로그램가능 게이트 어레이 (FPGA), 또는 다른 동등한 집적 회로 또는 별개의 로직 회로상에서 실행하는 소프트웨어 프로세스들로서 동작할 수도 있다.
도 4의 예에서, ROI 가중치 계산기 (46) 는, 비디오 통신 디바이스 (12) 의 로컬 사용자 또는 비디오 통신 디바이스 (14) 의 원격 사용자에 의해 입력된 사용자 선호도 인자 α를 수신한다. 사용자 선호도 α는 ROI에 대한 지각적인 중요 인자이며, 실제 사용자의 원근감으로부터의 ROI의 시각적인 품질의 중요도를 표현한다. 사용자 선호도 α는, ROI내의 시각적인 품질을 평가하는 정도를 정량화한다. 사용자가 ROI 시각적인 품질을 강하게 평가하면, α는 더 높아질 것이다. ROI의 시각적인 품질이 덜 중요하면, α는 더 낮아질 것이다. 선호도 α에 기초하여, ROI 가중치 계산기 (46) 는, 비디오 인코더 (58) 에 의해 인코딩될 비디오 프레임의 ROI 영역과 비-ROI 영역 사이에서 가중된 비트 할당을 바이어스하기 위해, ROI ρ도메인 비트 할당 모듈 (48) 에 적용되는 가중치 wi의 세트를 생성한다. 가중치 wi는 비디오 프레임내의 매크로블록 (MB) 과 같은 개별 비디오 블록에 대해 지정될 수도 있다. ROI 가중치 계산기 (46) 는 ROI MB 매핑기 (52) 로부터 ROI MB 맵을 수신하고, ROI MB 매핑기 (52) 에 의해 식별된 ROI MB 및 비-ROI MB에 각각의 가중치 wi를 할당한다. 더 높은 가중치 wi를 갖는 매크로블록 은 더 높은 수의 코딩 비트를 수신할 것이다.
ρ도메인 비트 할당 모듈 (48) 은 ROI 가중치 계산기 (46) 로부터의 가중치 입력 wi, 비-ROI 배경 스킵핑 모듈 (50) 로부터의 스킵핑 표시 (스킵 온/오프), ROI MB 매핑기 (52) 로부터의 ROI MB 맵, 프레임-레벨 레이트 제어기 (54) 로부터의 레이트 버짓 (budget) RBUDGET, 및 비디오 인코더 (58) 로부터의 인코딩된 MB에 대한 표준 편차 σ를 수신한다. 표준 편차 σ는 모션 추정이후에 획득된 실제 잔류물의 표준 편차일 수도 있고, 이전의 프레임으로부터의 저장된 잔류물 통계일 수 있다. ROI 매핑기 (52) 에 의해 제공된 ROI MB 맵은 특정된 ROI의 범위에 있는 소정의 비디오 프레임내의 MB를 식별한다. ROI MB 맵을 사용하면, ρ도메인 비트 할당 모듈 (48) 은, 즉, ROI 가중치 계산기 (46) 에 의해 제공된 가중치 wi를 사용하여, ROI MB에 대한 우선적인 비트 할당의 목적을 위해 비-ROI MB로부터 ROI MB를 구별한다. 비트 할당 모듈 (48) 은 각각의 MB에 대한 ρ파라미터를 생성한다. ρ파라미터는 MB에서의 0-아닌 AC 계수들의 수를 나타낸다. ρ도메인에서의 레이트 제어는 QP 도메인에서의 레이트 제어보다 더 정확한 경향이 있다.
본 발명의 목적을 위해, ROI MB의 생성을 위한 적절한 프로세스가 이용가능하다고 가정한다. 예를 들어, ROI 매핑 프로세스는, 예를 들어, 얼굴의 검출, 얼굴의 세그먼트화, 및 수용가능한 정확도로 타겟 추적과 같은 종래의 기술들을 사용하는 ROI의 자동적 정의 또는 자동적 검출, 또는 ROI를 정의하는 사용자로부터의 수동적 입력에 기초할 수도 있다. 본 발명에서, 예시의 목적을 위해, 머리 또 는 머리-및-어깨 비디오 시퀀스가 고려되지만, 여기에서 설명된 기술들이 사람 이외의 다양한 물체들 또는 대안으로서 다양한 물체들을 포함하는 다른 타입의 비디오 시퀀스에 적용가능할 수도 있다.
프레임-레벨 레이트 제어기 (54) 는 비디오 시퀀스내의 개별 프레임에 대한 비트의 할당을 생성한다. 특히, 프레임-레벨 레이트 제어기 (54) 는, 현재의 프레임내의 모든 MB들, 즉 ROI MB 및 비-ROI MB 양자를 인코딩하는데 이용가능한 비트들의 수를 나타내는 값 RBUDGET를 생성한다. 도 4에 추가적으로 도시된 바와 같이, ρ도메인 비트 할당 모듈 (48) 은 비-ROI 배경 스킵핑 모듈 (50) 로부터 스킵 표시 (스킵 온/오프) 를 수신하며, 그 표시는 현재의 프레임에서의 배경이 인코딩 또는 스킵핑될지의 여부를 나타낸다. 배경이 스킵핑되면, ρ도메인 비트 할당 모듈 (48) 은, 실제로, 비-ROI에 할당될 비트들을 재캡쳐 (recapture) 하여, ROI를 인코딩하는데 이용가능한 비트들의 풀 (poll) 에 그 비트들을 재할당할 수 있다. 따라서, 스킵핑이 특정 프레임에서 온이면, ρ도메인 비트 할당 모듈 (48) 은 ROI에 할당하기 위해 RBUDGET내에서 더 많은 비트들을 갖는다. 배경이 특정 프레임에서 스킵핑되면, 이전에 인코딩된 프레임으로부터의 배경이 그 위치에 대체될 수도 있다. 다른 방법으로, 스킵핑된 배경이 보간에 의해 생성될 수도 있다.
가중치 wi, ROI MB 맵, RBUDGET, 스킵 온/오프 표시, 및 표준 편차 σ를 사용하여, ρ도메인 비트 할당 모듈 (48) 은 각각의 MB에 대한 ρ버짓을 표시하는 ρ도 메인 출력을 생성한다. ρ도메인 출력은, 각각의 MB에 대한 대응하는 QP 값에 ρ값을 매핑하는 ρ-QP 매핑기 (56) 에 적용된다. 프레임내의 MB에 대한 QP 값을 사용하여, 비디오 인코더 (58) 는 입력 비디오를 인코딩하여 인코딩된 비디오를 생성한다. 또한, 스킵핑 모듈 (50) 은 스킵 표시 (스킵 온/오프) 를 비디오 인코더 (58) 에 제공하여, 그 비디오 인코더에게, 프레임 유닛으로 연속하는 프레임들을 그룹화하고, 그 프레임들의 ROI 영역들을 인코딩하며, 그 프레임 유닛내의 프레임들 중 하나의 프레임에 대한 비-ROI 영역의 인코딩을 스킵핑하도록 지시한다. 스킵핑 모듈 (50) 이, 선행 프레임 유닛과 관련된 왜곡값이 임계값 미만이면 프레임 유닛에서 프레임들 중 하나의 프레임에 대한 비-ROI 영역의 인코딩을 스킵핑하도록 비디오 인코더 (58) 에게 지시할 수도 있다는 의미에서 스킵핑은 적응성일 수도 있다. 이러한 방식으로, 스킵핑 모듈 (50) 은, 시각적인 품질을 유지하기 위해 왜곡의 레벨에 기초하여 적응성 스킵핑을 적용할 수도 있다.
입력 비디오는, 비디오 통신 디바이스 (12) 에 통합되거나 동작가능하게 커플링된 비디오 카메라와 같은 비디오 캡쳐 디바이스로부터 획득될 수도 있다. 일부 실시형태에서, 예를 들어, 비디오 캡쳐 디바이스는 이동 전화기에 통합되어 이른바 카메라 전화기 또는 비디오 전화기를 형성할 수도 있다. 이러한 방식으로, 비디오 캡쳐 디바이스 (40) 는 이동 VT 애플리케이션을 지원할 수도 있다. 비디오는 비디오 통신 디바이스 (12) 상에서 로컬적으로 제공될 수도 있고, 송신시에, 액정 표시 디바이스 (LCD), 플라즈마 스크린 등과 같은 디스플레이 디바이스를 통해 비디오 통신 디바이스 (14) 상에서 제공될 수도 있으며, 그 디스플레이 디바 이스는 비디오 통신 디바이스 (12 또는 14) 와 통합될 수도 있거나 동작가능하게 커플링될 수도 있다.
왜곡 분석기 (60) 는 본래의 입력 비디오에 대해 인코딩된 비디오를 분석한다. 예를 들어, 왜곡 분석기 (60) 는 본래의 입력 비디오 프레임 F를 재구성된 비디오 프레임 F' 와 비교한다. 왜곡 분석기 (60) 는, 비-ROI 배경 스킵핑 모듈 (50) 로의 적용을 위한 왜곡값 DNONROI_SKIP를 생성한다. 왜곡값 DNONROI_SKIP은, 다음의 비디오 프레임의 비-ROI 영역이 스킵핑되어야 하는지의 여부를 나타낸다. 따라서, 현재의 프레임에서의 적응성 비-ROI 스킵핑에 있어서, 일반적으로 비-ROI 스킵핑 모듈 (50) 은, 2개 이상의 프레임들을 포함하는 프레임 유닛 또는 선행 프레임에 관한 왜곡 정보에 의존할 수도 있다.
왜곡값 DNONROI_SKIP이 원하는 임계값을 초과하면, 비-ROI 배경 스킵핑 모듈 (50) 은 다음의 프레임에서의 비-ROI가 스킵핑되지 않아야 한다고 나타낸다. 이러한 경우, ROI 및 비-ROI 영역 모두 인코딩된다. 그러나, 왜곡값이 원하는 임계값 미만이면, 비-ROI 영역은 과도한 레벨의 왜곡없이 스킵핑될 수 있다. 이러한 경우, 이전의 프레임에 대해 인코딩된 비-ROI 영역이 현재의 프레임에서 사용된다. 설명될 바와 같이, 선행 프레임 유닛, 즉, 현재 인코딩될 프레임에 선행하는 프레임을 포함하는 프레임 유닛에 대한 왜곡값 DNONROI_SKIP에 의존하여, 비-ROI 스킵핑 모듈 (50) 은 연속하는 프레임들을 프레임 유닛으로 그룹화하고, 그 프레임들 중 하나의 프레임에 대한 비-ROI의 인코딩을 스킵핑하도록 비디오 인코더 (58) 에게 지시할 수도 있다.
도 5는 본 발명의 또 다른 실시형태에 따른 ROI 품질 메트릭 계산기 (61) 를 도시한 블록도이다. 도 4의 ROI 가중치 계산기 (46) 는 ROI 품질 메트릭 계산기 (61) 의 일부를 형성할 수도 있다. 따라서, ROI 품질 메트릭 계산기 (46) 의 하나의 프로덕트는 가중치 wi의 세트이며, 그 세트는, 비디오 충실도 값, 공간 품질값, 및/또는 시간 품질값뿐만 아니라 사용자 선호도 인자 α에 기초할 수도 있다. 도 5에 도시된 바와 같이, ROI 품질 메트릭 계산기 (61) 는 사용자 선호도 값 α 및 하나 이상의 비디오 왜곡값들을 수신한다. 비디오 왜곡값들은 ROI값들 및 비-ROI 값들로 분할될 수도 있으며, 비디오 충실도 값들 DRF, DNF, 공간 품질값들 DRS, DNS, 및 시간 품질값들 DRT, DNT를 포함할 수도 있다. DRF는 ROI내의 비디오 충실도를 나타내지만, DNF는 비-ROI 영역내의 비디오 충실도를 나타낸다. DRS는 ROI 영역내의 공간 품질을 나타내지만, DNS는 비-ROI 영역내의 공간 품질을 나타낸다. DRT는 ROI 영역내의 시간 품질을 나타내지만, DNT는 비-ROI 영역내의 시간 품질을 나타낸다. ROI 품질 메트릭은, 인코딩된 비디오 시퀀스의 품질을 평가할 시에, 사용자의 관심도, 비디오 충실도 및 지각적인 품질 (공간, 시간 또는 그 양자) 을 공동으로 고려한다. 일부 실시형태에서, 메트릭은, 더 양호한 주관적인 시각적 품질을 달성하기 위해, ρ도메인 비트 할당 모듈 (48) 에 의해 적용된 비트 할당 알고리즘을 바이어스하는데 사용될 수도 있다.
ROI 비디오 코딩이 광범위하게 연구되어 왔지만, ROI 비디오에 대한 품질 측정법은 충분히 상세하게 해결되지는 않았다. 대부분의 품질 측정 기술들은, 비디오 프레임의 ROI 부분 및 비-ROI 부분의 품질을 평가하기 위해, 왜곡 측정법으로서 잡음 대 피크 신호 비 (PSNR) 를 사용한다. ROI 비디오 품질 메트릭은 분석 목적뿐만 아니라, 주관적인 시각적 선호 솔루션에 대한 (예를 들어, 도 4의 비트 할당 모듈 (48) 에 의해 적용될 때) 가중된 비트 할당 기술을 바이어스하기 위한 입력으로서 유용하다. 일반적으로, 상술된 바와 같이, ROI 비디오 품질의 평가는, 3개 이상의 양태들, 즉 사용자의 ROI 시각적 품질 관심도 또는 선호도 α, 재구성된 비디오 데이터의 비디오 충실도, 및 재구성된 비디오 데이터의 지각적인 품질 (공간, 시간, 또는 그 양자) 를 고려한다.
사용자의 선호도 α는 비디오 프레임의 ROI 부분 및 비-ROI 부분으로의 분류 및 그 부분들의 관련 지각적 중요 인자들을 직접 결정한다. 비디오 전화통신 애플리케이션에서, 사람의 표정은 매우 복잡하고 작은 변화가 큰 양의 정보를 운송할 수 있기 때문에, 화자의 얼굴 영역은 통상적인 ROI이다. 비디오 충실도 인자에 있어서, PSNR은, 본래의 프레임과 비교되는 재구성된 비디오 프레임의 왜곡의 총양을 나타내는 양호한 측정법이다. 재구성된 프레임은 인코딩된 비디오 프레임을 디코딩함으로써 생성되지만, 본래의 프레임은 인코딩 이전의 비디오 프레임이다.
많은 경우, 비디오 충실도는, 임의의 개선이 더 양호한 주관적인 시각적 품질을 야기할 수도 있는, 비디오 코딩에 대한 가장 중요한 고려사항일 것이다. 그러나, 지각적인 품질 인자들이 일부 경우들에서 또한 고려되어야하기 때문에, 이는 항상 그러한 경우이지는 않다. 지각적인 품질은 공간 에러들 및 시간 에러들 양자를 고려한다. 공간 에러들은 블록킹 (즉, 블록키니스 (blockiness)), 링잉 인공물 (ringing artifact), 또는 그 양자의 존재를 포함할 수도 있다. 시간 에러들은 시간적 플리커 (flicker) 의 존재, 즉, 비디오 프레임의 시각적 품질이 시간축을 따라 비-균일하게 변하는 경우를 포함할 수도 있다. 시간 에러들은 비디오 시퀀스에서 초피 모션 (choppy motion) 을 초래할 수 있으며, 이는 바람직하지 않다.
DR 및 DNR은 ROI 및 비-ROI의 픽셀당 노멀화된 왜곡을 나타내고, α는 ROI 지각적인 중요 인자를 나타낸다. 상술된 양태들 사이의 관계가 비디오 품질 평가에서 선형 함수로 간략화될 수 있다고 가정하면, 비디오 시퀀스의 전체 왜곡은,
Figure 112007070807373-PCT00001
와 같이 나타낼 수 있으며, 여기서,
Figure 112007070807373-PCT00002
Figure 112007070807373-PCT00003
는 비디오 시퀀스에서의 M개의 프레임들내의 i번째 본래의 프레임 및 i번째 재구성된 프레임이고, β 및 γ는 가중 인자 이고, DR 및 DNR은 ROI 및 비-ROI에 대한 총 왜곡이고, DRF, DRS, 및 DRT는 충실도에서의 ROI의 노멀화된 에러, 공간 지각적 품질 및 시간 지각적 품질이며, DNF, DNS 및 DNT는 비-ROI 영역에 대한 그들의 대응부 (counterpart) 이다. α, β, 및 γ는 0과 1사이의 실수값을 할당받아야 한다. 결과적인 품질 메트릭은, 가중된 비트 할당에서의 로 파라미터에 대한 최적화 문제를 공식화하기 위해 비용 함수 (cost function) 로서 사용될 수 있거나, ROI 프로세싱에서의 다른 문제에 대해 사용될 수 있다.
무선 비디오 전화통신과 같은 낮은-비트레이트 비디오 애플리케이션에서, 블록킹 (즉, 블록키니스) 인공물은 공간 지각적 품질의 주요한 관심사이다. 이러한 종류의 인공물은, 대부분의 높은-주파수 계수들이 제거되는, 즉, 0으로 설정되는 양자화에 의해 야기된다. 결과적인 효과는 평활화된 이미지 블록들이 블록 경계들을 완전히 명백하게 한다는 것이다. 매우 낮은 비트-레이트의 경우, DC 계수들만이 코딩될 것이며, 이는 디코딩된 이미지에 불연속적인 일정한 블록들을 만든다. 본 발명에서, (DNS와 유사한) ROI 공간 품질값 DRS는 노멀화된 블록키니스 왜곡으로 정의되고,
Figure 112007070807373-PCT00004
= 불연속을 갖는 경계들/경계들의 수
와 같이 나타낼 수도 있으며, 여기서, 블록들 사이의 경계들은, 지각할 수 있는 불 연속이 존재하는지의 여부를 관측하도록 체크된다. 블록 경계에 걸친 강도 슬로프의 평균 제곱 차이의 합을 체크하는 적절한 불연속 검출 접근법은, 1995년 4월자 IEEE Trans. Circuits Systems for Video Technology, Vol. 5, No. 2, pp. 74-82에서의 S. Minami 및 A. Zakhor의 "변환 코딩에서 블록킹 효과를 제거하기 위한 최적 접근법 (An Optimization approach for removing blocking effects in transform coding)" 에 설명되며, 그의 전체 콘텐츠는 본 명세서에 참조로서 포함된다. 이러한 접근법의 가정은, 블록 경계의 양 측면상의 슬로프가 동일하고 슬로프에서의 급격한 변화가 양자화에 의한 것일 수도 있다는 것이다.
수학식 1에서, DRT (또는 DNT) 값은, 비디오 시퀀스에서의 모든 프레임들에 대한 DRS (또는 DNS) 의 분산에 기초하여 [0, 1] 의 범위에서 할당된 스코어 (score) 로서 정의된다. 이러한 방식으로, 비디오 충실도, 공간 지각적 품질 및 시간 지각적 품질에 대한 항들은 노멀화되고, 제어가능한 비디오 품질 측정법을 형성하기 위해 가중 파라미터들 α, β, γ에 의해 브리지될 수 있다. 이러한 가중 파라미터들은, 사용자들의 요건 및 기대에 기초하여, 그 사용자들에게 의존한다. 또한, 이러한 측정법은, 선호하는 주관적 인식에 대한 비트 할당 프로세스를 바이어스하기 위한 입력으로서 유용할 수도 있다. 그 결과, 사용자는 ROI 코딩에서 더 시각적으로 만족스러운 결과를 달성할 수도 있다.
도 6은 ROI 품질 메트릭 계산용 ROI 사용자 선호도 입력 디바이스 (62) 를 통합한 무선 통신 디바이스 (36) 를 도시한 다이어그램이다. 도 6에서, 일반적 으로 무선 통신 디바이스 (36) 는 도 2에 부합하지만, 또한, 사용자 선호도 α를 캡쳐하기 위한 입력 디바이스 (62) 를 통합하며, 그 입력 디바이스는 비디오 장면 (32) 의 ROI 및 비-ROI 부분에 할당된 상대적 중요도를 특정한다. 도 6의 예에서, 입력 디바이스 (62) 는, 사용자 선호도 α의 정도를 표시하는 슬라이더 바의 길이에 따라 이동될 수 있는 슬라이더 (64) 를 갖는 슬라이더 바의 형태로 도시된다.
입력 디바이스 (62) 를 사용하여, 사용자는 동적 기준으로 ROI 비트 할당에 영향을 주기 위해 사용자 선호도 α를, 예를 들어, 품질 메트릭 계산기 (61) 에 의해 선택적으로 조정할 수 있다. 사용자 선호도 α가 변함에 따라, 비디오 프레임의 ROI 부분과 비-ROI 부분 사이의 비트 할당이 변할 수도 있다. 수평 슬라이더 바가 도 6에 도시되어 있지만, 입력 디바이스 (62) 는, 수직 슬라이더 바, 버튼, 다이어, 드롭-다운 (drop-down) 퍼센트 메뉴 등과 같은 임의의 다양하고 동등한 입력 매체에 의해 실현될 수도 있다. 그러한 입력 매체는, 터치스크린, 또는 임의의 다양한 핸드 키, 소프트 키, 포인팅 디바이스 등을 통해 조작될 수도 있다.
도 7은 ROI-인에이블된 비디오 인코더 (63) 에 의해 적용된 코딩 파라미터들의 최적화에 대해 비디오 시퀀스를 분석하기 위한 ROI 품질 메트릭 계산기 (61) 의 사용을 도시한 블록도이다. 도 7에 도시된 바와 같이, ROI 품질 메트릭 계산기 (61) 는, 비디오 시퀀스가 ROI-인에이블된 비디오 인코더 (63) 에 의해 인코딩되기 전에, 인커밍 비디오 시퀀스에 대한 왜곡값을 분석하기 위해 적용된다. 따라 서, ROI 품질 메트릭 계산기는, 도 5를 참조하여 설명된 바와 같이, 비디오 비트스트림에 대한 왜곡값을 분석한다. 왜곡값 및 사용자 선호도 값 α에 기초하여, ROI 품질 메트릭 계산기는, 인커밍 비디오 시퀀스를 인코딩할 시에 비디오 인코더 (63) 에 의한 사용을 위해 최적화된 파라미터들의 세트를 생성한다. 최적화된 파라미터들은, 비디오 프레임의 ROI 영역과 비-ROI 영역 사이에 인코딩 비트들을 할당하기 위한 비트 할당 모듈에 의해 사용되는 가중치들, 또는 가중치 인자들 β 및 γ와 같이, 비트 할당에서 사용되는 다른 파라미터들에 대한 값들을 포함할 수도 있다. 이런 의미에서, 도 7은, ROI 품질 메트릭 계산기 (61) 가 인코딩이전에 인커밍 비디오 스트림을 분석하지만 인코딩된 비디오를 분석하지는 않는 개방-루프 (open-loop) 구현을 나타낸다. 품질 메트릭은 인코더 (63) 에 의한 사용을 위한 최적의 코딩 파라미터들의 생성을 초래한다.
도 8은 ROI-인에이블된 비디오 인코더 (63) 에 의해 적용된 코딩 파라미터들의 조정을 위해 인코딩된 비디오를 분석하기 위한 ROI 품질 메트릭 계산기 (61) 의 사용을 도시한 블록도이다. 도 8의 예에서, ROI 품질 메트릭 계산기 (61) 는, ROI-인에이블된 비디오 인코더 (63) 에 의해 사용된 코딩 파라미터들에 대한 조정치를 생성하기 위해, 인코딩된 비디오와 관련된 왜곡값 뿐만 아니라, 사용자 선호도 값 α를 분석한다. 따라서, ROI 품질 메트릭 계산기 (61) 는 ROI-인에이블된 비디오 인코더 (63) 에 의해 인코딩된 이후에 비디오를 분석하고, 예를 들어, 비디오 인코더의 성능 및 인코딩된 비디오의 품질을 개선시키기 위해, 폐쇄 루프 기반으로 조정치를 생성한다. 코딩 파라미터들에 대한 조정은, 비디오 프레임 의 ROI 영역과 비-ROI 영역 사이에 인코딩 비트들을 할당하기 위한 비트 할당 모듈에 의해 사용된 가중치들, 및 가중 인자들 β 및 γ와 같이 비트 할당에서 사용되는 다른 파라미터들에 대한 값들에 대한 조정을 포함할 수도 있다. 도 8의 예에서, 품질 메트릭은, 임계값과 품질 메트릭의 비교가 만족될 때까지 루프에서 인터랙티브하게 인코딩 및 품질을 평가하는데 사용된다. 각각의 반복에서, 품질 메트릭 계산기 (61) 는 코딩 파라미터들의 개선된 세트를 전송한다. 결국, 반복은 품질 메트릭 임계값의 만족 또는 결과들의 컨버전스 (convergence) 로 인해 중지한다.
도 9는 ROI 품질 메트릭 계산을 도시한 흐름도이다. 도 9에 도시된 바와 같이, 적용가능한 ROI MB 맵이 주어지면, ROI 품질 메트릭 계산기 (46) 는 ROI 사용자 선호도 α를 획득하고 (68), 비디오 프레임의 ROI 부분 및 비-ROI 부분을 인코딩한다 (70). 인코딩된 비디오 프레임의 재구성시에, 왜곡 분석기 (60) 는 이전에 인코딩된 비디오 프레임 및 본래의 비디오 프레임을 분석하여, 각각, 선행 비디오 프레임의 ROI 부분 및 비-ROI 부분의 비디오 충실도 DRF 및 DNF를 결정한다. 또한, 왜곡 분석기 (60) 는, 각각, ROI 지각적인 시간 품질값 DRT 및 비-ROI 지각적인 시간 품질값 DNT뿐만 아니라, ROI 지각적인 공간 품질값 DRS 및 비-ROI 지각적인 공간 품질값 DNS를 생성한다. ROI 품질 메트릭 계산기 (46) 는 왜곡 분석기 (60) 로부터, 비디오 충실도 (72), ROI 및 비-ROI 시간 품질 (74), 및 ROI 및 비-ROI 공간 품질 (76) 을 획득한다.
사용자 선호도 α, 비디오 충실도, 공간 품질 및 시간 품질에 기초하여, ROI 품질 메트릭 계산기 (46) 는 ROI 품질 메트릭을 결정한다 (78). 비디오 충실도는, 예를 들어, 픽셀 단위의 컬러 강도의 관점에서 본래의 프레임에 대한 재구성된 비디오 프레임에서 비디오 에러들을 측정한다. 공간 품질은, 본래의 프레임에 대한 재구성된 프레임에서 블록킹 및 링잉 인공물과 같은 공간 에러들을 측정한다. 공간 품질은, 프레임의 시각적인 품질이 시간축을 따라 비-균일하게 변하는 시간적 플리커와 같은 에러들을 측정한다.
특히, 사용자 선호도 α는 사용자에 의해 적용된 현재의 값이지만, 비디오 충실도, 공간 품질 및 시간 품질은 비트 할당 모듈 (48) 에 의해 처리된 현재의 프레임에 선행하는 하나 이상의 프레임들로부터 유도된다. 사용자가 값을 변화시키는 시간까지는, 사용자 선호도 α가 프레임에 따라 고정될 수도 있다. 사용자가 특정된 값을 갖지 않으면, 디폴트 값이 사용자 선호도 인자 α에 할당될 수도 있다. 도 5를 참조하여 상술된 바와 같이, ROI 품질 메트릭은 현재의 비디오 프레임의 ROI와 비-ROI 사이에서 비트 할당을 바이어스하도록 적용될 수도 있다 (80). 예를 들어, 품질 메트릭은 ROI 비트 할당에 대한 가중치를 조정하는데 사용될 수도 있다. 일부 실시형태에서, 도 9에 도시된 기능은, 도 8의 "폐쇄-루프" 예에서 ROI 품질 메트릭 계산기 (61) 에 의해 수행된 동작들을 나타낼 수도 있다.
도 10은 비디오 시퀀스에 대한 ROI 품질 메트릭 계산을 도시한 흐름도이다. 도 10은 도 9에 실질적으로 대응하지만, 비디오 스트림이 인코딩되기 전에 품질 메트릭 계산이 그 비디오 스트림에 대해 수행되는 일 실시형태를 나타낸다. 따라서, 도 10의 프로세스는 그 비디오 스트림을 획득하는 단계를 더 포함한다 (67). 또한, 도 9와는 대조적으로, ROI/비-ROI 비트 할당을 바이어스한 (80) 이후, 비디오 인코딩 (70) 이 수행된다. 일부 실시형태에서, 도 9에 도시된 기능은, 도 7의 "개방-루프" 예에서 ROI 품질 메트릭 계산기 (61) 에 의해 수행되는 동작들을 나타낼 수도 있다.
도 11은 ROI ρ도메인 비트 할당을 도시한 흐름도이다. 도 11에 도시된 바와 같이, 비트 할당 모듈 (48) 은 ROI 정의 (82) 및 프레임에 대한 레이트 버짓 (84) 양자를 획득한다. ROI 정의는, ROI 범위내에 있는 MB들 또는 다른 비디오 블록들을 식별하는 ROI MB 맵의 형태를 취할 수도 있다. 레이트 버짓은, ROI 영역 및 비-ROI 영역을 포함하는 전체 프레임을 인코딩하는데 이용가능한 비트들의 수를 제공한다. 또한, 비트 할당 모듈 (48) 은, ROI와 비-ROI 사이에서 비트 할당을 바이어스하는 ROI 가중치 계산기 (46) 로부터 ROI 가중치들 wi를 획득한다 (86). 프레임에 대한 비-ROI 스킵 모드를 결정, 즉, 스킵핑이 그 프레임에 대해 온 또는 오프인지의 여부를 판정할 시에, 비트 할당 모듈 (48) 은 현재의 프레임에 대한 통계를 획득한다 (89). 그 후, 현재의 프레임 통계는 후속 프레임 또는 프레임들에 대한 스킵핑 모드 결정을 수행하는데 이용될 수 있다. 프레임 통계는, 예를 들어, 모션 추정에 선행하는 프레임의 잔류물의 표준 편차를 포함할 수도 있다. 다른 방법으로, 프레임 통계는 이전의 프레임 또는 프레임들에 대 해 획득될 수도 있다. 스킵 모드 표시 (88) 에 의하면, 비트 할당 모듈 (48) 은, 모든 이용가능한 비트들이 ROI에 전용될 수 있는지의 여부 (비-ROI 프레임 스킵핑 온), 또는 그 비트들이 ROI와 비-ROI 사이에서 공유되어야 하는지의 여부 (비-ROI 프레임 스킵핑 오프) 를 판정할 수 있다.
ROI 정의, 프레임 레이트 버짓, 품질 메트릭 바이어스, 및 비-ROI 스킵 모드를 사용하여, 비트 할당 모듈 (48) 은 ROI MB와 비-ROI MB 사이에서 가중된 ρ도메인 할당의 비트들을 생성한다 (90). ρ도메인 비트 할당의 결정시에, 매핑기 (56) 는 ρ-QP 매핑을 수행하여 (92), 비디오 인코더 (58) 로의 적용 (92) 을 위해 MB QP 값을 제공한다. 매핑기 (56) 는 ρ-QP 매핑 테이블, 또는 특정 ρ에 대한 QP를 생성하는 수학식 또는 함수를 적용할 수도 있다. 비디오 인코더 (58) 는 비트 할당 모듈 (48) 및 매핑기 (56) 에 의해 제공된 QP 값들을 이용하여, 적용가능한 비디오 프레임내의 개별 ROI MB 및 비-ROI MB를 인코딩한다. 결과적인 비트 할당은, 적용가능한 프레임 버짓뿐만 아니라, 비디오 시퀀스에서 비-ROI 스킵핑의 이용가능도 및 선행 프레임 또는 프레임들과 관련된 품질 메트릭을 고려할 수도 있다. 비트 할당 모듈 (48) 의 동작은 아래에서 더 상세히 설명될 것이다.
일반적으로, 본 발명에서 설명된 비트 할당 기술은, 충분한 ROI 검출 또는 정의의 이용가능도, 및 수용가능한 프레임-레벨 레이트 제어의 이용가능도를 가정한다. 이에 기초하여, 비트 할당 기술은 일반적으로 ROI MB와 비-ROI MB 사이의 MB-레벨 레이트 제어에 촛점을 둔다. 대부분의 종래 ROI 비트 할당 알고리즘은 ITU H.263+TMN8 모델의 가중된 버전에 기초하며, 그 모델에서, 비용 함수가 생성되고 그 함수에서의 다양한 영역에 대한 왜곡 컴포넌트들은 소정의 가중치의 세트를 사용함으로써 상이하게 퍼니싱 (punish) 된다. 대부분의 다른 비디오 표준들과 유사하게, TMN8은, QP의 함수들로 레이트 및 왜곡을 모델링하는 Q-도메인 레이트 제어 방식을 사용한다. 그러나, 본 발명에서 설명된 비트 할당 기술은 ρ도메인 레이트 제어 모듈을 사용하며, 여기서, ρ는 비디오 코딩에서 MB에서의 0-아닌 양자화된 AC 계수들의 수를 나타낸다. 여기에서 설명된 바와 같이, ρ도메인 비트 할당의 사용은, QP 도메인 레이트 제어보다 더 정확한 경향이 있고, 레이트 변동을 효율적으로 감소시킬 수도 있다.
비디오 코딩 애플리케이션에서, 통상적인 문제점은 비디오 시퀀스에 대한 소정의 비트 버짓을 갖는 왜곡 값 Dsequence를 최소화한다는 것이다. 이러한 복잡한 문제에 대한 최적의 솔루션은 최적의 프레임-레벨 레이트 제어 알고리즘 및 최적의 매크로블록-레벨 비트 할당 방식에 의존한다. 그러나, 장래의 프레임에 대한 매우 제한된 정보가 현재의 프레임을 코딩할 때 이용가능한, 비디오 전화통신과 같은 실-시간 애플리케이션에 있어서, 최적의 프레임-레벨 레이트 제어를 추구하는 것은 실용적이지 않거나 가능하지 않다. 통상적으로, 일반적인 알고리즘 ("그리디 (greedy)" 알고리즘) 이 적용된다. 그리디 알고리즘은, 비디오 콘텐츠의 복잡도가 비디오 시퀀스에서의 프레임들을 따라 균일하게 분포된다고 가정한다. 이에 기초하여, 그리디 알고리즘은 이용가능한 비트들의 일부를 시퀀스에서의 프레임들의 각각에 할당한다. 실-시간 애플리케이션에서, 또한 장래의 프레임 정 보의 제한된 이용가능도는 레이트 제어에서 시간 품질을 고려하는 것을 어렵게 한다.
본 발명에서, 실용적인 솔루션을 발견하고 비트 할당 문제를 간략화하기 위해, 일반적으로 양호한 프레임-레벨 레이트 제어가 이용가능하다고 가정한다. 이러한 가정은 매크로블록-레벨 비트 할당에 대한 비트 할당 문제를 감소시킨다. 동시에, 비트 할당 방식은 비-ROI 스킵핑 접근법을 이용할 수도 있다. 스킵핑된 영역이 이전의 프레임의 스킵핑된 영역과 동일한 지각적인 품질을 제공할 것이기 때문에, 비-ROI 스킵핑은 시간 왜곡항
Figure 112007070807373-PCT00005
의 값을 감소시킬 기회를 증가시킨다. 따라서, 비-ROI 영역의 스킵핑은 연속하는 프레임들 사이의 지각적인 품질의 변동을 감소시킬 수도 있다.
예시의 목적을 위해, 비디오 프레임의 이미지 품질은 수학식 (1) 에 따라 평가된다. 그러나, 간략화를 위해, β 및 γ는 β+γ=1이 되도록 설정된다. 소정의 프레임 f에 대한 총 비트 버짓으로서 Rbudget 및 프레임을 코딩하기 위한 비트 레이트로서 R을 나타내면, 문제는 다음의 함수에 의해 표현될 수 있다.
R≤Rbudget가 되도록
Figure 112007070807373-PCT00006
를 최소화함.
상기 최적화 문제는 라그랑지안 완화 (lagrangian relaxation) 및 동적 프로그래밍에 의해 해결할 수 있다. 그러나, 그러한 접근법의 계산 복잡도는 실-시 간 시스템이 견딜 수 있는 것보다 훨씬 더 높다. 따라서, 본 발명에 따르면, 낮은-복잡도 근사-최적 솔루션이 바람직하다. 특히, 본 발명에서, ρ도메인에서 2-스테이지 비트 할당 알고리즘이 적용된다. 제 1 스테이지는 다음의 최적화 문제를 수반한다.
R≤Rbudget가 되도록
Figure 112007070807373-PCT00007
를 최소화함.
수학식 (4) 에 대한 최적의 코딩 파라미터들이 획득된 이후, 제 2 스테이지는 그 코딩 파라미터들을 반복적으로 조정하여, 로컬 최소값에 도달할 때까지
Figure 112007070807373-PCT00008
항을 감소시킨다. 이러한 2-스테이지 알고리즘의 결과는, β가 비교적 큰 수일 경우, 최적화 솔루션에 매우 근접할 수도 있다. β=1인 경우, 문제 (3) 및 (4) 는 동일하다. 본 발명에서, 초점이 제 1 스테이지 및 문제 (4) 에 대한 솔루션에 맞춰진다.
ROI 비디오 코딩에서, N은 프레임에서의 MB들의 수이고, {ρi}, {σi}, {Ri}, 및 {Di}는, 각각, i번째 매크로블록에 대한, ρ들, 표준 편자, 레이트 및 왜곡 (제곱된 에러의 합) 의 세트이다. 따라서,
Figure 112007070807373-PCT00009
이다. 가중치들의 세트 {wi}는,
Figure 112007070807373-PCT00010
와 같이 프레임에서의 모든 MB들에 대해 정의되며, 여기서, K는 ROI내의 MB들의 수이다. 수학식 (5) 는, 예를 들어, ROI 가중치 계산기 (46) 에 의해 구현될 수도 있다. 따라서, 프레임의 가중된 왜곡은 다음과 같다.
Figure 112007070807373-PCT00011
그러므로, 문제 (4) 는 다음과 같이 정정될 수 있다.
R≤Rbudget가 되도록, D를 최소화함.
수학식 (7) 은 모델링-기반 비트 할당 접근법을 사용함으로써 해결된다. 내추럴 이미지 (nature image) 의 AC 계수들의 분포는, 라플라스 분포
Figure 112007070807373-PCT00012
에 의해 최상으로 근사 (approximate) 될 수 있다. 따라서, i번째 매크로블록의 레이트 및 왜곡은, ρ의 함수로서 아래의 수학식 (8) 및 (9) 에서 모델링될 수 있다.
예를 들어, 레이트는,
Ri=Aρi+B
와 같이 나타낼 수 있으며, 여기서, A 및 B는 일정한 모델링 파라미터들이며, A는 0-아닌 계수들을 인코딩하는데 필요한 비트들의 평균 수로서 간주할 수 있고, B는 비-텍스쳐 정보로 인한 비트로서 간주될 수 있다.
또한, 왜곡은,
Figure 112007070807373-PCT00013
와 같이 나타낼 수 있으며, 여기서, θ는 미지의 상수이고, σ는 잔류 데이터의 표준 편차이다. 여기에서, 임의의 선택된 ρi로부터 수용가능한 양자화기 (quantizer) 를 생성하는데 이용가능한 충분히 정확한 ρ-QP 테이블이 존재한다고 가정하기 때문에, 비트 할당 기술은 양자화기 대신 ρi를 최적화한다. 일반적으로, 수학식 (7) 은,
Figure 112007070807373-PCT00014
와 같이 제약된 문제가 제약되지 않은 문제로 변환되는 라그랑지안 완화를 사용하여 해결될 수 있으며, 여기서,
Figure 112007070807373-PCT00015
Figure 112007070807373-PCT00016
를 인에이블하는 솔루션이다. 수학식 (10) 에서 편미분 도함수 (partial derivative) 를 0으로 설정함으로써, 최적화된 ρi에 대한 다음의 식이 획득된다.
Figure 112007070807373-PCT00017
이를 계산하면,
Figure 112007070807373-PCT00018
이며,
그러므로,
Figure 112007070807373-PCT00019
이며,
따라서,
Figure 112007070807373-PCT00020
이다. 한편,
Figure 112007070807373-PCT00021
때문에, 다음의 관계식을 유지한다.
Figure 112007070807373-PCT00022
수학식 (14) 및 (16) 으로부터, 비트 할당 모델 I가 다음과 같이 획득된다.
Figure 112007070807373-PCT00023
그 후, 결과적인 ρ는 대응하는 QP에 매핑되고, 적절한 수의 코딩 비트들을 각각의 ROI MB 또는 비-ROI MB에 할당하기 위해 사용된다.
또 다른 비트 할당 모델 (비트 할당 모델 II) 은 또 다른 왜곡 모델을 사용하여 획득될 수도 있다. 그 또 다른 왜곡 모델에 따라서, 단계 사이즈 q를 갖는 균일한 양자화기의 이용가능도를 가정하면, 양자화에 의해 야기되는 왜곡은,
Figure 112007070807373-PCT00024
Figure 112007070807373-PCT00025
와 같이 주어지며, 0들의 퍼센트는 다음과 같이 주어진다.
Figure 112007070807373-PCT00026
따라서,
Figure 112007070807373-PCT00027
이다. 라플라스 소스에 대한, Wiley, New York, NY 1991, T.M. Cover 및 J.A. Thomas의 "정보 이론의 엘리먼트들 (Elements of information theory)" 에서 설명된 바와 같이, 섀넌의 소스 코딩 이론에 따르면, 심볼을 나타내는데 필요한 비트들의 최소의 수는 다음과 같이 주어진다.
Figure 112007070807373-PCT00028
이 되도록,
Figure 112007070807373-PCT00029
Figure 112007070807373-PCT00030
이고, 여기서, 384는 4:2:0 비디오에 대한 i번째 매크로블록에서의 계수들의 총 수이므로, 수학식 (21) 은,
Figure 112007070807373-PCT00031
와 같이 테일러 확장 (Taylor expansion) 및 비트 레이트와 ρ 사이의 관계식을 사용하여 확장될 수 있으며, 여기서, A 및 B는 일정한 모델링 파라미터들이며, A는 0-아닌 계수들을 인코딩하는 필요한 비트들의 평균 수로서 간주될 수 있고, B는 비-텍스쳐 정보로 인한 비트로서 간주될 수 있다.
또한, 계수들의 분산은 다음과 같이 나타낸다.
Figure 112007070807373-PCT00032
그 결과, i번째 매크로블록의 왜곡은 다음과 같이 나타낼 수 있다.
Figure 112007070807373-PCT00033
비트 할당 모델 I에서와 같이, 최적의 비트 할당 방식은 최적화 문제 (7), 즉, 다음의 문제를 해결함으로써 달성될 수 있다.
Figure 112007070807373-PCT00034
R≤Rbudget가 되도록, D를 .
일반적으로, 수학식 (25) 은,
Figure 112007070807373-PCT00035
와 같이, 제약된 문제를 제약되지 않은 문제로 변환되는 라그랑지안 완화를 사용함으로써 해결될 수 있으며, 여기서,
Figure 112007070807373-PCT00036
Figure 112007070807373-PCT00037
를 인에이블하는 솔루션이다. 수학식 (26) 에서 편미분 도함수를 0으로 설정함으로써, 최적화된 ρi에 대한 다음의 식이 획득된다.
Figure 112007070807373-PCT00038
이를 계산하면,
Figure 112007070807373-PCT00039
이며,
그러므로,
Figure 112007070807373-PCT00040
이다. 한편,
Figure 112007070807373-PCT00041
이기 때문에,
Figure 112007070807373-PCT00042
이다. 수학식 (28) 및 (30) 으로부터,
Figure 112007070807373-PCT00043
와 같은 식이 획득되며, 여기서, ρbudget는 프레임에 대한 총 ρ버짓이다. 왜곡이 수학식 (32) 에서와는 상이하게 모델링되지만, 그러한 모델에 기초하여, 다음과 같은 비트 할당 모델 II가 획득된다.
Figure 112007070807373-PCT00044
수학식 (33) 은, 예를 들어, 비트 할당 모듈 (48) 에 의해 구현될 수도 있다.
도 12는 가중된 비트 할당 모델들 I 및 II 및 최적화 솔루션을 사용하는 인 코딩 기술들의 전체 지각적인 품질을 비교한 그래프이다. 최적화 솔루션은 라그랑지안 완화에 의해 달성되지만, 비트 할당 모델들 I 및 II는 상술된 바와 같이 구현된다. 도 12는, 표준 포어맨 (Foreman) 비디오 테스트 시퀀스의 첫번째 100프레임의 ROI 코딩 동안, 프레임 번호에 대한 데시벨 단위의 PSNR을 도시한다. 도 12에서, 최적화 솔루션, 비트 할당 모델 I, 및 비트 할당 모델 II은, 각각, 참조 부호 (91, 93, 및 95) 에 의해 식별된다. 비트 할당 모델 I 및 II에 있어서, α의 값은 비트 할당 가중 수학식 (5) 에 대해 0.9이다. 도 12에 도시된 바와 같이, 비트 할당 모델 I 및 II는 최적화 솔루션과 비교하여 매우 양호하게 수행된다.
도 13은 비-ROI ("배경") 스킵핑에 대한 기술을 도시한 흐름도이다. 비디오 프레임의 비-ROI 영역들의 인코딩을 스킵핑하는 능력은, 비트 할당에서의 현저한 절약을 초래할 수 있다. 비-ROI가 인코딩되지 않으면, 즉, 스킵핑되면, 그렇지 않으면 비-ROI에 할당되었을 비트들이, 대신, ROI에서의 MB들의 시각적인 품질을 개선시키기 위해 ROI를 인코딩하도록 재-할당될 수 있다. 비-ROI가 소정의 프레임에 대해 스킵핑되면, 선행 프레임에 대해 인코딩되는 비-ROI는 반복되거나, 현재의 프레임에서 보간된 비-ROI 영역에 의해 대체된다. ROI 인코딩에 대한 비트들을 보존하는 것 이외에, 비-ROI 영역의 스킵핑은 현재의 프레임의 시간적인 품질을 개선시킬 수도 있다. 특히, 2개 이상의 연속하는 프레임들에서 동일한 비-ROI 영역을 제공하는 것은, 비-ROI 영역에서 시간적 플리커를 감소시키는 경향이 있다.
매우 낮은 비트레이트, 예를 들어, 32Kbps에서, 플리커링과 같은 시간적인 시각적 품질 이슈들이 중요하게 되는 경우, 비트들이 MB들 사이에서 균일하게 분포된다 하더라도, 일반적으로 비-ROI 영역들은 코오스하게 코딩된다. 한편, 배경이 비-ROI인 비디오 전화통신 애플리케이션의 대부분의 경우에서는, 배경에서 이동이 매우 제한된다. 따라서, 배경 스킵핑이 비디오 충실도를 매우 심각하게 열화시키지 않는 한, 그 배경 스킵핑은 ROI 및 코딩된 비-ROI 영역의 품질을 개선시키도록 비트들을 재할당하는 솔루션이다.
프레임 스킵핑은, 코딩 비트들을 보존하기 위해 매우 낮은-비트레이트 애플리케이션에서 사용되는 일반적인 접근법이다. 비-ROI 스킵핑과 프레임 스킵핑 사이의 차이는, 각각의 프레임에 대한 ROI가 ROI의 양호한 시각적인 품질을 보장하기 위해 비-ROI 스킵핑 접근법으로 코딩되는 것이다. 프레임 스킵핑은 많은 애플리케이션에서 매우 유용하다. 그러나, ROI 비디오 코딩에서, ROI의 임의의 왜곡이 매우 퍼니싱되어 전체 성능을 열화시킬 수 있으므로, 프레임 스킵핑은, 특히, α가 수학식 (1) 에서 큰 값으로 설정되는 경우, 표정과 같은 중요한 정보를 손실할 위험이 있다. 따라서, 비-ROI 스킵핑이 더 양호한 선택이며, 배경 MB들의 수가 일반적인 비디오 프레임에서 우세하기 때문에, 일반적으로 ROI 품질을 개선시키기 위한 현저한 수의 비트들을 절약할 수 있다.
도 13에 도시된 바와 같이, 비-ROI 스킵핑 기술은 유닛으로의 연속하는 프레임들의 그룹화와 관련있으며, 그 유닛은 그 프레임들에 대한 ROI 영역 및 그 프레임들 사이에서 공유되는 공통적인 비-ROI 영역을 포함한다. 도 13의 예에서, 2 개의 연속하는 프레임들이 그룹화된다. 비-ROI 배경 스킵핑 모듈 (50) 은 프레임 i 및 프레임 i+1을 프레임 유닛으로 그룹화하고 (96), 비-ROI 영역이 스킵핑될 프레임을 비디오 인코더 (58) 에게 통지한다. 응답하여, 비디오 인코더 (58) 는, 비트 할당 모듈 (48) 에 의해 제공된 가중된 비트 할당을 사용하여 프레임 i 및 프레임 i+1의 각각의 ROI 영역을 인코딩한다 (98). 또한, 비디오 인코더 (58) 는 가중된 비트 할당을 사용하여 프레임 i의 비-ROI 영역을 인코딩한다 (100). 그러나, 비디오 인코더 (58) 는 프레임 i+1의 비-ROI 영역을 인코딩하지 않는다. 대신, 프레임 i+1의 비-ROI 영역은 스킵핑되며, 선행 프레임 i의 비-ROI 영역이 그 대신 제공된다.
비-ROI 스킵핑은 전체-시간 기반으로 제공될 수도 있다. 예를 들어, 매 2개의 프레임들이, 교호하는 프레임 기반으로 비-ROI의 연속적인 전체-시간 스킵핑을 위해, 일 유닛으로 그룹화될 수도 있다. 즉, 매 2번째 프레임에서의 ROI는 전체-시간 기반으로 스킵핑될 수도 있다. 또 다른 방법으로, 스킵핑은 적응성 기반으로 활성화 및 비활성화될 수도 있다. 스킵핑은, 최근의 이전 프레임에 의해 제공된 비-ROI 왜곡이 왜곡 임계값을 초과하는 경우 비활성화될 수도 있다. 예를 들어, 도 13에 도시된 바와 같이, 이전 프레임의 비-ROI 영역에서의 왜곡이 임계값 미만이면 (102), 프레임 i+1에 대한 비-ROI가 스킵핑되며 (104), 프레임 증분 i=i+2에 의해 나타낸 바와 같이 (106), 2개의 연속하는 프레임들의 다음 그룹화로 프로세스는 진행한다. 이러한 경우, 비-ROI 왜곡의 레벨은 수용가능하고 스킵핑이 활성화된다. 그러나, 비-ROI 왜곡이 왜곡 임계값보다 크면 (102), 프레임 i+1의 비-ROI 영역은 가중된 비트 할당을 사용하여 인코딩된다 (108). 이러한 경우, 과도한 비-ROI 왜곡, 즉, 관련 비디오 장면의 비-ROI 영역내의 과도한 왜곡으로 인해 스킵핑이 비활성화된다.
도 14는 비-ROI 스킵핑을 지원하기 위해 유닛으로의 연속하는 프레임들의 그룹화를 도시한 다이어그램이다. 도 14에 도시된 바와 같이, 프레임 0, 1, 2 및 3은 비디오 시퀀스내의 연속하는 프레임들을 나타낸다. 이러한 예에서, 프레임 0 및 프레임 1은 유닛 1으로 그룹화되고, 프레임 2및 프레임 3은 유닛 2로 그룹화된다. 각각의 유닛은 공통적인 비-ROI 영역을 공유한다. 특히, 수용가능한 왜곡을 갖는 적응성 스킵핑 또는 전체-시간 스킵핑 중 어느 한 경우에서, 프레임 0의 비-ROI 영역은 프레임 1에 대해 반복된다. 프레임 0의 비-ROI 영역이 프레임 1에 대해 반복되기 때문에, 프레임 1의 비-ROI 영역을 인코딩하는 것은 불필요하다. 유닛들로의 프레임들의 그룹화는 비디오 시퀀스 전반에 걸쳐 적용될 수도 있다. 도 14의 예에서, 2개의 프레임들이 일 유닛으로 그룹화된다. 그러나, 일부 애플리케이션에서, 2개 이상의 프레임들이 일 유닛으로 그룹화될 수도 있으며, 그 유닛에서의 프레임들 중 하나의 프레임을 제외하고 모든 프레임에서 비-ROI 영역이 스킵핑된다.
도 15는 공통적인 비-ROI 영역을 갖는 연속하는 ROI 영역들의 인코딩을 도시한 다이어그램이다. 특히, 유닛으로 연속하는 프레임 0 및 1을 그룹화할 시에, 프레임 0 및 1에서의 ROI 영역들 (110, 112) 은 각각 인코딩된다. 그러나, 프레임 0 비-ROI 영역 (114) 는 프레임 0 및 프레임 1 양자에 대해 반복되므로, 프레 임 1에 대한 ROI 영역 (미도시) 이 스킵핑된다. 이러한 방식으로, 그렇지 않으면 프레임 1 비-ROI를 인코딩하기 위해 요구되는 비트 소비를 회피할 수 있다. 도 15의 예에서, 비-ROI 영역 (114) 은, "배경" 으로 지칭되지만, 사람의 어깨와 같은 전경 (foreground) 특성을 포함할 수도 있다는 것을 알 수 있다. 따라서, ROI 외부의 임의의 영역을 지칭하기 위해 배경이 본 발명에서 일반적으로 사용되며, 비디오 장면내의 배경 이미지에 엄격히 제한되는 것으로 고려되어야 하지는 않는다. 비-ROI 스킵핑은 더 상세히 후술된다.
다음으로, 도 4의 비-ROI 스킵핑 모듈 (50) 의 구현을 위한 예시적인 프로토타입 (prototype) 시스템이 설명될 것이다. 프로토타입 시스템에서, 도 13 내지 15를 참조하여 상술된 바와 같이, 매 2개의 프레임들은 유닛으로 그룹화된다. 각각의 유닛에서, 제 1 비-ROI 영역은 코딩되지만, 제 2 비-ROI 영역은, 예를 들어, 0 모션 벡터를 갖는 예측된 MB들을 사용하여 스킵핑된다. 시퀀스에서의 비디오 프레임들의 콘텐츠 복잡도가 프레임들에 걸쳐 균일하게 분포된다는 가정으로, 각각의 유닛에 대한 비트 할당은 '그리디' 프레임-레벨 비트 할당과 동일한 로직에 기초할 수도 있다. 이러한 가정으로, 비트들은,
Figure 112007070807373-PCT00045
와 같이 2-프레임 유닛 사이에서 균일하게 할당되어야 하며, 여기서, ρsequence는 비 디오 시퀀스에서의 M개의 연속하는 프레임들의 그룹에 대한 총 ρ-버짓이고, ρunit i는 i번째 유닛에 대한 ρ 할당이며, ρused는 첫번째 (i-1)/2 유닛의 ρ 소비이다. 유닛내에서, ROI 및 비-ROI 영역내의 MB들에 비트를 할당하기 위해, 비트 할당 모델들 (I 또는 II) 중 하나의 모델이 사용될 수도 있다.
여기에서 설명된 바와 같이, 비-ROI 스킵핑의 결과를 평가하기 위해, 수개의 테스트들이 수행된다. 그 테스트들에서, (a) 모델 II에 기초하고 전체-시간 비-ROI 스킵핑을 갖는 가중된 비트 할당 알고리즘, (b) 모델 II에 기초하고 비-ROI 스킵핑 없는 가중된 비트 할당 알고리즘, 및 (c) ROI 및 비-ROI MB가 비트 할당에서 동등하게 처리되는 "그리디" 알고리즘과 같은 비트 할당 기술들이 비교되었다. 그 테스트들은 초당 15 프레임 (fps) 의 레이트에서 표준 "카폰 (Carphone)" QCIF 비디오 시퀀스의 첫번째 150프레임들에 대해 수행되었다. 그 비교의 결과들이 도 16 내지 23에 도시된다.
도 16은 상기 인코딩 기술들 (a), (b) 및 (c) 의 전체 지각적인 품질을 비교한 그래프이다. 특히, 도 16은 초당 킬로비트 (kbps) 단위의 인코딩 레이트들의 범위에 대한 데시벨 (db) 단위의 지각적인 PSNR을 플로팅 (plot) 한다. 도 17은 상기 인코딩 기술들 (a), (b) 및 (c) 의 전체 비디오 충실도를 비교한 그래프이다. "전체" 비디오 충실도라는 용어는 ROI 영역과 비-ROI 영역의 비교, 즉, 전체 프레임의 비디오 충실도를 지칭하고, 다른 방법으로, "프레임" 비디오 충실도로 지칭될 수도 있다. 도 17은 초당 킬로비트 (kbps) 단위의 인코딩 레이트들 의 범위에 대한 데시벨 (db) 단위의 "프레임" PSNR을 플로팅한다.
도 18 및 19는, 각각, 상기 인코딩 기술들 (a), (b), 및 (c) 의 ROI 비디오 충실도와 비-ROI 비디오 충실도를 비교한 그래프이다. 특히, 도 18 및 19는 초당 킬로비트 (kbps) 단위의 인코딩 레이트들의 범위에 대한 데시벨 (db) 단위의 PSNR을 플로팅한다. 도 18에 대한 ROI 비디오 충실도는 비디오 프레임의 ROI 영역내의 비디오 충실도를 지칭한다. 도 19에 대한 비-ROI 비디오 충실도는 비디오 프레임의 비-ROI 영역내의 비디오 충실도를 지칭한다. 도 16 내지 19는 가중된 비트 할당 알고리즘에서 사용자 선호도 인자 α=0.9의 애플리케이션을 나타낸다. 각각의 도 16 내지 19에서, (a) 전체-시간 비-ROI 스킵핑을 갖는 가중된 비트 할당, (b) 스킵핑없는 가중된 비트 할당, 및 (c) 그리디 알고리즘에 대한 커브는, 각각, 참조 부호 (116, 118, 120) 에 의해 식별된다.
도 20 및 21은, 각각, 상기 인코딩 기술들 (a), (b) 및 (c) 의 전체 지각적인 품질과 전체 비디오 충실도를 비교한 그래프이다. 특히, 도 20은 초당 킬로비트 (kbps) 단위의 인코딩 레이트들의 범위에 대한 데시벨 (db) 단위의 지각적인 PSNR을 플로팅한다. 도 21은 초당 킬로비트 (kbps) 단위의 인코딩 레이트들의 범위에 대한 데시벨 (db) 단위의 PSNR을 플로팅한다. 도 20 및 21은 가중된 비트 할당 알고리즘에서 사용자 선호 인자 α=0.7의 애플리케이션을 나타낸다. 도 22 및 도 23은, 각각, 인코딩 기술들 (a), (b) 및 (c) 의 전체 지각적인 품질과 전체 비디오 충실도를 비교한 그래프이다. 도 22 및 23은 가중된 비트 할당 알고리즘에서 사용자 선호도 인자 α=0.5의 애플리케이션을 나타낸다. 도 20내 지 23에서, (a) 전체-시간 비-ROI 스킵핑을 갖는 가중된 비트 할당, (b) 스킵핑없는 가중된 비트 할당, 및 (c) 그리디 알고리즘에 대한 커브는, 각각, 참조 부호 (116, 118, 120) 에 의해 식별된다.
도 16 내지 23에서 도시된 테스트 결과들에 있어서, 비디오 품질 측정의 4개 세트, 즉, 지각적인 PSNR, 프레임 PSNR, ROI PSNR, 및 비-ROI PSNR은 다음과 같이 정의된다.
1. 지각적인 PSNR = -10log10DFrame;
2. 프레임 PSNR = -10log10DF(f,
Figure 112007070807373-PCT00046
);
3. ROI PSNR = -10log10DRF(f,
Figure 112007070807373-PCT00047
);
4. 비-ROI PSNR = -10log10DNF(f,
Figure 112007070807373-PCT00048
);
상기 표현에서, DFrame은 프레임에 대한 전체 시간 왜곡 및 공간 왜곡이고, DF는 본래의 프레임과 재구성된 프레임 사이의 비디오 충실이고, DRF는 본래의 프레임의 ROI 영역과 재구성된 프레임의 ROI 영역 사이의 비디오 충실도이며, DNF는 본래의 프레임의 비-ROI 영역과 재구성된 프레임의 비-ROI 영역 사이의 비디오 충실도이다. 지각적인 PSNR은 도 16, 20, 및 23에 도시되어 있다. 프레임 PSNR은 도 17, 21, 및 23에 도시되어 있다. ROI PSNR은 도 18에 도시되어 있고, 비-ROI PSNR은 도 19에 도시되어 있다. 도 16 내지 23에 도시된 결과들은, 제안된 비-ROI 스킵핑 접근법이 모든 테스트들에서의 다른 접근법들과 비교된 지각적인 PSNR에서 1dB 이상의 이득을 갖는다는 것을 설명한다. 도 18 및 19에 도시된 바와 같이, 그 이득은, 주로, 프레임들을 코딩할 시에 비-ROI로부터 ROI로 비트들을 재할당함으로써 ROI 품질의 개선으로부터 생성된다.
도 17, 21, 및 23에 도시된 바와 같이, 흥미있는 관측은, 비-ROI (배경) 스킵핑 접근법이 낮은 비트 레이트에서 프레임 PSNR의 관점에서의 다른 접근법들보다 또한 성능이 뛰어나다는 것이다. 또한, 그래프들은, 프레임 PSNR에서의 이득이 사용자 선호도 인자 α의 감소로 증가한다는 것을 나타낸다. 이러한 관측들은, 비-ROI 스킵핑 접근법이 비디오 충실도뿐만 아니라 시각적인 품질의 관점에서 다른 접근법들보다 성능이 뛰어나기 때문에, 그 접근법이 무선 VT와 같은 매우 낮은-비트레이트 애플리케이션에 대해 매우 매력적이라는 것을 나타낸다. α가 더 큰 값, 예를 들어, 도 16의 α=0.9를 할당받는 경우 가중된 비트 할당 접근법이 그리디 알고리즘보다 성능이 뛰어날 것이라고 기대된다. 그러나, 도 20 및 22에 도시된 바와 같이, 이점은 α의 감소로 감소한다.
부가적인 테스트들이, 프레임 스킵핑, 즉, 비-ROI 영역만을 스킵핑하는 대신에 전체 프레임의 스킵핑에 의존하는 가중된 비트 할당 기술들에 대한 비-ROI 스킵핑을 통합한 비트 할당 기술들의 성능을 평가하기 위해 수행된다. 도 24는 표준 프레임 스킵핑 및 배경 스킵핑을 사용하는 ROI 인코딩 기술들의 지각적인 품질을 비교한 그래프이다. 각각의 경우에서, 여기에서 설명된 가중된 비트 할당이 적용되었다. 일 경우에서, 비-ROI (배경) 스킵핑이 적용되었다. 다른 경우 에서, 매 다른 프레임마다 교대하는 것을 기반으로 스킵핑하도록, 전체-시간 프레임 스킵핑이 적용되었다. 도 24는 초당 킬로비트 (kbps) 단위의 레이트에 대한 데시벨 단위의 지각적인 PSNR을 플로팅한다. 도 24에서, 참조 부호 (122, 124 및 126) 는, 각각, 프레임 스킵핑을 갖는 가중된 비트 할당 및 사용자 선호도 인자 α=0,9, 0.7, 및 0.5에 대한 커브들을 식별한다. 참조 부호 (128, 130, 132) 는, 각각, 비-ROI 스킵핑을 갖는 가중된 비트 할당 및 사용자 선호도 인자 α=0,9, 0.7, 및 0.5에 대한 커브들을 식별한다. 도 24에 도시된 바와 같이, α의 모든 셋팅에서, 비-ROI 스킵핑을 갖는 가중된 비트 할당은 프레임 스킵핑을 갖는 가중된 비트 할당보다 성능이 뛰어났다. 비-ROI 스킵핑에 의해 제공된 성능 이득은 α 값에서의 증가로 증가한다. 더 큰 α에 따라 프레임 스킵핑에 대한 ROI에 관한 퍼니시먼트 (punishment) 가 더 심해지기 때문에, 이러한 결과는 합당하다.
도 16 내지 24에 의해 설명된 바와 같이, 비-ROI 배경 스킵핑 접근법은, 특히 비-ROI가 매우 낮은 이동을 유지하는 경우 양호한 성능을 초래한다. 그러나, 많은 양의 이동을 포함한 비-ROI 영역을 갖는 비디오 시퀀스에 있어서, 성능 이득은 작아질 수도 있다. 동시에, 중요한 배경 정보가 스킵핑될 수도 있으므로, 시스템 성능의 열화를 초래한다. 따라서, 배경 스킵핑은, 그 스킵핑이 비디오 충실도를 심하게 열화시키는 경우, 예를 들어, 배경 콘텐츠가 중요한 정보를 포함하는 경우 턴 오프 (turn off) 되는 것이 바람직하다. 일 예로서, 턴 온 및 턴 오프된 비-ROI 스킵핑을 갖는 가중된 비트 할당에 의한 ROI 코딩이, 배경이 신속하게 이동하는 표준 카폰 비디오 테스트 시퀀스의 180번째 내지 209번째 프레임들에 적용되었다. 도 25는 이러한 분석의 결과들을 도시한다. 더 상세하게, 여기에서 설명된 바와 같이, 도 25는, 비-ROI 스킵핑이 턴 온 및 턴 오프된 경우, 가중된 비트 할당에 대한 ROI 인코딩 기술들의 지각적인 품질을 비교한 그래프이다.
도 25는 초당 킬로비트 단위의 레이트에 대한 데시벨 단위의 지각적인 PSNR을 그래프로 도시한다. 도 25에서, 참조 부호 (134 및 136) 는, 각각, 턴 온된 비-ROI 스킵핑 및 사용자 선호도 인자 α=0.9 및 0.5를 갖는 가중된 비트 할당의 애플리케이션을 나타낸 커브들을 식별한다. 참조 부호 (138, 140) 는, 각각, 턴 오프된 비-ROI 스킵핑 및 사용자 선호도 인자 α=0.9 및 0.5를 갖는 가중된 비트 할당의 애플리케이션을 나타낸 커브들을 식별한다. 도 25에서의 결과들은, 비교된 비-ROI 스킵핑의 이점이, 예를 들어, 0.9로부터 0.5로, α의 감소로 감소한다는 것을 나타낸다. 또한, 이러한 결과는, 사용자 선호도 인자 α에 의해 나타낸 바와 같은 사용자의 관심도 레벨 및 비디오 시퀀스의 콘텐츠에 기초하여 비-ROI 스킵핑의 동적 제어를 인에이블하는 개발중인 적응성 비-ROI 스킵핑 접근법의 값을 나타낸다.
비-ROI 스킵핑을 갖는 가중된 비트 할당 및 비-ROI 스킵핑 없는 가중된 비트 할당에 의해 생성된 왜곡은,
Figure 112007070807373-PCT00049
Figure 112007070807373-PCT00050
와 같이 명시적으로 비교될 수 있으며, 여기서, DSkip_on은 비-ROI 스킵핑 모드가 온 (on) 되는 경우의 유닛 총 왜곡이고, DSkip_off는 배경 스킵핑 모드가 오프되는 경우의 유닛 총 왜곡이고, DNonROI_skip는 유닛의 두번째 프레임에서 비-ROI를 스킵핑함으로써 야기되는 왜곡이며, 수학식 (35) 의 ρ1 및 ρ2 및 수학식 (36) 의 ρ1', ρ2' 및 ρ3'는 ROI들 및 비-ROI에 할당된 AC 계수들 (ρ) 의 수이다.
일반적으로 다음의 표현이 적용되기 때문에 DNonROI_skip≫DNFunit―ρ1'―ρ2'―ρ3') 인 경우에만 DSkip_on>DSkip_off가 적용된다는 것을 수학식 (35) 및 (36) 으로부터 관측할 수 있다.
Figure 112007070807373-PCT00051
이러한 관측은, 도 26에 도시된 바와 같은 카폰 비디오 테스트 시퀀스에 대한 DNonROI_skip의 통계로부터 참이라는 것이 확인된다. 도 26은 예시적인 비디오 시퀀스상의 배경 스킵핑에 의해 야기되는 왜곡을 도시한 그래프이다. 특히, 도 26은 카폰 비디오 테스트 시퀀스의 첫번째 240 프레임들상의 프레임 번호에 대한 평균화된 비-ROI 영역 잔류 에너지 DNonROI_skip을 플로팅한다. 도 26으로부터, DNonROI_skip 값들이 프레임들 (180 내지 209) 동안 다른 값들보다 훨씬 더 크다는 것이 명백하며, 그 프레임들은 높은 정도의 모션을 포함하는 것을 특징으로 한다. 따라서, 비-ROI 스킵핑이 일반적으로 선호되지만, 프레임들 (180 내지 209) 에 의해 제공된 높은-모션 부분 동안에는 선호되지 않는다.
상기 관측에 기초하여, 배경 스킵핑 모드를 턴 온 및 턴 오프하는 기준을 추적하는 태스크는, DNonROI_skip의 왜곡에 대한 임계값을 찾는 태스크로 변환된다. 비디오 시퀀스에서의 유닛 왜곡이 일반적으로 참인 평활한 방식으로 변하면, 가장 최근에 프로세싱된 유닛 왜곡의 평균 값은 왜곡 임계값을 유도하기 위해 사용될 수 있다. 가장 최근의 n개의 유닛들의 평균 왜곡으로
Figure 112007070807373-PCT00052
를 나타내면,
Figure 112007070807373-PCT00053
가 유지되는 경우, 수학식 (35) 및 (36) 에 기초하여, DSkip_on>DSkip_off를 생성하는 것이 매우 가능하다. 즉, 비-ROI 스킵핑을 스위칭 오프하는 기준은
Figure 112007070807373-PCT00054
로서 특정될 수 있다. 이러한 기준은 적응성 비-ROI 스킵핑 알고리즘에 대한 기반으로서 서빙될 수 있다.
적응성 비-ROI 스킵핑 알고리즘은 도 13에 도시된 프로세스에 실질적으로 부합할 수도 있으며, 다음과 같이 추가적으로 설명될 수 있다.
단계 0: 데이타를 초기화하고,
Figure 112007070807373-PCT00055
=0 및 스킵핑 모드=온으로 설정함.
단계 1: 수학식 (34) 를 사용하여 현재의 유닛 (2개의 연속하는 프레임들 Fn 및 Fn+1의 그룹) 에 대한 ρ버짓을 할당함.
단계 2: 그 현재의 유닛내에서, 수학식 (32) 에 의해 각각의 매크로블록들에 대한 비트들을 할당함. 스킵핑 모드가 온이면, 유닛내의 제 2 프레임에 대한 비-ROI에 대해 비트들이 할당되지 않는다.
단계 3: 현재의 유닛에 대한 왜곡이 획득된 이후,
Figure 112007070807373-PCT00056
Figure 112007070807373-PCT00057
을 업데이트하며, 여기서
Figure 112007070807373-PCT00058
은 학습 인자 (learning factor) 이고 [0, 1] 의 범위이다.
단계 4: 다음의 유닛에 대한 데이터를 획득한다; 그 데이터가 마지막 유닛이면, 단계 6으로 진행한다.
단계 5: 신규한 유닛 (다음의 2개의 프레임들 Fn+2 및 Fn+3의 그룹) 에 대한 왜곡 DSkip_off를 계산한다.
Figure 112007070807373-PCT00059
이면, 스킵핑 모드를 턴 오프한다; 그렇지 않으면, 스킵핑 모드를 턴 온한다. 단계 1로 복귀한다.
단계 6: 적응성 스킵핑 알고리즘을 종료한다.
도 27은, 비-ROI 스킵핑, 비-ROI 스킵핑 없음, 및 적응성 비-ROI 스킵핑을 사용하는 ROI 인코딩 기술들의 전체 지각적인 품질을 비교한 그래프이다. 각각의 경우에서, 여기에서 설명된 바와 같은 가중된 비트 할당 알고리즘이 적용되었다. 도 27은, 표준 카폰 비디오 테스트 시퀀스의 프레임들 (180 내지 209) 의 ROI 비디오 코딩에 대하여, 초당 킬로비트 단위의 레이트에 대한 데시벨 단위의 지 각적인 PSNR을 플로팅한다. 참조 부호 (142 및 144) 는, 각각, 온된 비-ROI 스킵핑 및 사용자 선호도 인자 α=0.9 및 0.5를 갖는 가중된 비트 할당을 나타낸 커브를 식별한다. 참조 부호 (146 및 148) 는, 각각, 오프된 비-ROI 스킵핑 및 사용자 선호도 인자 α=0.9 및 0.5를 갖는 가중된 비트 할당을 나타낸 커브를 식별한다. 참조 부호 (150 및 152) 는, 각각, 적응성 비-ROI 스킵핑 및 사용자 선호도 인자 α=0.9 및 0.5를 갖는 가중된 비트 할당을 나타낸 커브를 식별한다. 이러한 평가에서, 값
Figure 112007070807373-PCT00060
Figure 112007070807373-PCT00061
=0.25로 설정되었다. 도 27에서의 결과들은, 적응성 비-ROI 스킵핑 접근법의 결과가 α의 다양한 값들에 대한 최상의 솔루션에 매우 근접한다는 것을 나타낸다.
도 28 내지 33은 본 발명에서 설명된 바와 같은 가중된 비트 할당 기술들을 적용한 ROI 코딩 기술들에 대한 부가적인 실험적 결과들을 도시한다. 도 28 내지 32는 표준 카폰 비디오 테스트 시퀀스에 대한 다양한 ROI 코딩 기술들의 애플리케이션을 나타낸다. 도 28 내지 32에 있어서, 가중된 비트 할당 접근법들 ("제안된 접근법" 및 "가중된 비트 할당") 에서 사용된 사용자 선호도 인자 α는 0.9로 설정되었다. "제안된 접근법" 이라는 라벨 (label) 은 비-ROI 스킵핑을 갖는 가중된 비트 할당을 지칭한다. "가중된 비트 할당" 이라는 라벨은 비-ROI 스킵핑 없는 가중된 비트 할당을 지칭한다.
도 28은 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 전체 지각적인 품질을 비교한 그래프이며, 레이트에 대한 지각적인 PSNR을 플로팅한다. 도 28에서, 참조 부호 (154, 156, 158, 160 및 162) 는, 각각, 프레임 스킵핑 접근법, 비-ROI 스킵핑을 갖는 가중된 비트 할당 접근법, 그리디 알고리즘, 일정한 QP 알고리즘, 및 비-ROI 스킵핑 없는 가중된 비트 할당 접근법의 애플리케이션을 나타내는 커브를 식별한다.
도 29는 초당 40킬로비트 (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 전체 지각적인 품질을 비교한 그래프이다. 특히, 도 29는, 비-ROI 스킵핑을 갖는 가중된 비트 할당, 그리디 알고리즘, 및 일정한 QP 알고리즘에 대하여, 프레임 번호에 대한 지각적인 PSNR을 플로팅한다.
도 30은 초당 40킬로비트 (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 전체 비디오 충실도를 비교한 그래프이며, 프레임 번호에 대한 PSNR을 플로팅한다. 도 31은 초당 40킬로비트 (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 ROI 비디오 충실도를 비교한 그래프이며, 프레임 번호에 대한 ROI에서의 PSNR을 플로팅한다. 도 32는 초당 40킬로비트 (kps) 의 인코딩 레이트에서 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 비-ROI 비디오 충실도를 비교한 그래프이며, 프레임 번호에 대한 비-ROI PSNR을 플로팅한다.
도 29 내지 32에서, 비-ROI 스킵핑을 갖는 가중된 비트 할당은 참조 부호 (164) 에 의해 나타내고, 그리디 알고리즘은 참조 부호 (166) 에 의해 나타내며, 일정한 QP 알고리즘은 참조 부호 (168) 에 의해 나타낸다. 일정한 QP 알고리즘은, 프레임에서의 모든 MB들이 동일한 양자화기를 할당받는 프레임-레벨만의 레이 트 제어 알고리즘이다. 그리디 알고리즘은 상술되었으며, MB-레벨에서 동작한다. 프레임 스킵핑 알고리즘은, 교대하는 것을 기반으로 매 다른 프레임의 콘텐츠를 인코딩하는 것을 회피하기 위해 표준 프레임 스킵핑을 적용하며, ROI 영역 및 비-ROI 영역 양자를 스킵핑한다. 비-ROI 스킵핑 없는 가중된 비트 할당 및 적응성 프레임 스킵핑을 갖는 가중된 비트 할당 ("제안된 접근법") 은 상술되었다.
도 28은, 제안된 접근법이 전체 비트레이트 범위에서 다른 모든 접근법들보다 성능이 뛰어났고 그 성능 이득이 최대 2dB이라는 것을 나타낸다. 도 29 내지 32에서, 제안된 접근법, 그리디 알고리즘 및 일정한 QP 알고리즘의 프레임-레벨 세부사항이 설명된다.
도 33은 인코딩 레이트들의 범위에 걸쳐 또 다른 예시적인 비디오 시퀀스에 대한 다양한 비트 할당 기술들을 사용하는 ROI 인코딩 기술들의 전체 지각적인 품질을 비교한 그래프이다. 특히, 도 33은 표준 포어맨 비디오 테스트 시퀀스의 첫번째 180 프레임들에 걸친 레이트에 대한 지각적인 PSNR을 플로팅한다. 도 33에서, 도면 부호 (154, 156, 158, 160 및 162) 는, 각각, 프레임 스킵핑 접근법, 비-ROI 스킵핑을 갖는 가중된 비트 할당 접근법, 그리디 알고리즘, 일정한 QP 알고리즘, 및 비-ROI 스킵핑 없는 가중된 비트 할당 접근법의 애플리케이션을 나타내는 커브를 식별한다.
도 33에 도시된 바와 같이, 포어맨 시퀀스의 얼굴이 카폰 시퀀스와 비교하여 훨씬 더 큰 모션을 포함하기 때문에, 프레임 스킵핑 접근법은 카폰 시퀀스에서와 같이 수행되지 않는다. 그 결과, 프레임 스킵핑은 포어맨 시퀀스에서 과도한 양의 ROI 정보를 분실하여, 불만족스러운 성능을 초래한다. 특히, 도 33에 의해 설명된 바와 같이, 적응성 비-ROI 스킵핑을 갖는 가중된 비트 할당의 제안된 접근법은 포어맨 시퀀스에 대해 매우 양호하게 수행된다.
본 발명에서, 특히, 매우 낮은 비트 레이트 요건으로, 예를 들어, 무선 비디오 전화통신에서 제공된 경우, 비디오 전화통신 또는 비디오 스트리밍 애플리케이션에 대한 ROI 코딩을 지원하기 위해 다양한 기술들이 설명되었다. 본 발명은, ROI 비디오 코딩에 대한 ρ-도메인에서 2개의 상이한 최적화된 가중된 비트 할당 방식들을 제공한다. 또한, 본 발명은 더 양호한 성능을 달성하기 위해 가중된 비트 할당 모델들과 공동으로 작동할 수 있는 적응성 비-ROI ("배경") 스킵핑 접근법을 제공한다. 또한, 본 발명은 ROI 비디오의 품질을 측정하기 위해 비디오 품질 메트릭을 제공한다. ROI 품질 메트릭은, ROI에서의 사용자 선호도, 비디오 충실도, 공간 지각적 품질 및 시간 지각적 품질을 공동으로 고려함으로써, 더 양호한 주관적인 시각적 품질을 생성하기 위해 최적화된 비트 할당 기술들을 안내하는데 사용될 수 있다. ROI 품질 메트릭은, 사용자 인터액션이 주관적인 지각적 품질 요건들을 충족시키도록 코딩 파라미터들을 바이어스할 수 있게 한다.
여기에서 설명된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다. 소프트웨어로 구현하는 경우, 기술들은, 실행될 경우 상술된 하나 이상의 방법들을 수행하는 명령들을 포함한 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다. 이러한 경우, 컴퓨터 판독가능 매체는, 동기식 동적 랜덤 액세스 메모리 (SDRAM), 판독-전용 메모 리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그램가능 판독-전용 메모리 (EEPROM), FLASH 메모리, 자성 또는 광학적 데이터 저장 매체 등과 같은 랜덤 액세스 메모리 (RAM) 를 포함할 수도 있다.
프로그램 코드는, 하나 이상의 디지털 신호 프로세서 (DSP), 범용 마이크로프로세서, 주문형 집적회로 (ASIC), 필드 프로그램가능 로직 어레이 (FPGA), 또는 다른 동등한 집적 또는 별개의 로직 회로와 같은 하나 이상의 프로세서들에 의해 실행될 수도 있다. 일부 실시형태에서, 여기에서 설명된 기능은 인코딩 및 디코딩을 위해 구성되거나 결합된 비디오 인코더-디코더 (CODEC) 에 통합된 하드웨어 유닛 또는 전용 소프트웨어 모듈내에서 제공될 수도 있다.
다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 다음의 청구항들의 범위내에 있다.

Claims (45)

  1. 연속하는 비디오 프레임들을 프레임 유닛으로 그룹화하는 단계;
    상기 프레임 유닛에서 각각의 프레임내의 관심 영역들을 인코딩하는 단계; 및
    상기 프레임 유닛에서 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들의 인코딩을 스킵핑 (skip) 하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 프레임 유닛에서 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들을 인코딩하는 단계, 및
    인코딩이 스킵핑되는 다른 프레임에서의 영역들에 대해 상기 인코딩된 영역들을 대체하는 단계를 더 포함하는, 방법.
  3. 제 1 항에 있어서,
    상기 영역들의 인코딩을 스킵핑하는 단계는, 선행 프레임 유닛과 관련된 왜곡값이 임계값 미만인 경우 인코딩을 스킵핑하는 단계를 포함하는, 방법.
  4. 제 1 항에 있어서,
    선행 프레임 유닛의 왜곡값에 기초하여 스킵핑을 선택적으로 턴 온 (turn on) 및 턴 오프 (turn off) 하는 단계를 더 포함하는, 방법.
  5. 제 1 항에 있어서,
    상기 인코딩 단계는, 프레임 버짓 (budget) 및 상기 관심 영역내의 매크로블록들과 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역내들의 매크로블록들 사이의 가중치에 기초하여, 프레임내의 매크로블록들에 로 (rho) 도메인 값들을 할당하는 단계를 포함하는, 방법.
  6. 제 5 항에 있어서,
    상기 매크로블록들의 각각에 다수의 인코딩 비트들을 할당하기 위해, 대응하는 양자화 파라미터 (QP) 값들에 상기 로 도메인 값들을 매핑하는 단계를 더 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 할당된 인코딩 비트들을 사용하여 상기 비디오 프레임의 매크로블록들을 인코딩하는 단계를 더 포함하는, 방법.
  8. 제 7 항에 있어서,
    상기 할당된 비트들의 수는 상기 프레임 버짓에 의해 특정된 비트들의 수보다 작거나 같은, 방법.
  9. 제 5 항에 있어서,
    상기 가중치는 선행 프레임의 왜곡에 적어도 부분적으로 기초하는, 방법.
  10. 제 5 항에 있어서,
    상기 가중치는 선행 프레임의 비디오 충실도 (fidelity), 상기 선행 프레임의 지각적인 (perceptual) 품질, 및 상기 관심 영역에서의 사용자 선호도에 적어도 부분적으로 기초하는, 방법.
  11. 제 10 항에 있어서,
    상기 지각적인 품질은 상기 선행 프레임에 대한 시간 품질값 및 공간 품질값을 포함하는, 방법.
  12. 제 11 항에 있어서,
    상기 시간 품질값은, 상기 관심 영역에 대한 제 1 시간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 시간 품질값을 포함하는, 방법.
  13. 제 11 항에 있어서,
    상기 공간 품질값은, 상기 관심 영역에 대한 제 1 공간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 공간 품질값을 포함하는, 방법.
  14. 제 11 항에 있어서,
    상기 공간 품질값은 상기 선행 프레임에서의 블록킹 인공물 (blocking artifact) 의 존재에 적어도 부분적으로 기초하고,
    상기 시간 품질값은 상기 선행 프레임에서의 시간적 플리커 (flicker) 인공물의 존재에 적어도 부분적으로 기초하는, 방법.
  15. 제 5 항에 있어서,
    상기 로 도메인 값들을 할당하는 단계는, 상기 관심 영역내에 존재하지 않는 영역들의 인코딩이 스킵핑될 것인지의 여부의 표시에 기초하여 상기 로 도메인 값들을 할당하는 단계를 포함하는, 방법.
  16. 비디오 프레임들내의 관심 영역의 정의를 생성하는 관심-영역 매핑기;
    상기 비디오 프레임들을 인코딩하는 비디오 인코더; 및
    연속하는 프레임들을 프레임 유닛으로 그룹화하고, 상기 프레임 유닛에서 각각의 프레임들내의 관심 영역을 인코딩하도록 상기 비디오 인코더에게 지시하며, 상기 프레임 유닛에서 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들의 인코딩을 스킵핑하도록 상기 비디오 인코더에게 지시하는 스킵핑 모듈을 포함하는, 디바이스.
  17. 제 16 항에 있어서,
    상기 스킵핑 모듈은, 상기 프레임 유닛에서 상기 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들을 인코딩하도록 상기 비디오 인코더에게 지시하고, 인코딩이 스킵핑되는 다른 프레임에서의 영역들에 대해 상기 인코딩된 영역들을 대체하도록 상기 비디오 인코더에게 지시하는, 디바이스.
  18. 제 16 항에 있어서,
    상기 스킵핑 모듈은, 선행 프레임 유닛과 관련된 왜곡값이 임계값 미만인 경우 스킵핑을 지시하는, 디바이스.
  19. 제 16 항에 있어서,
    상기 스킵핑 모듈은 선행 프레임 유닛의 왜곡값에 기초하여, 스킵핑을 선택적으로 턴 온 및 턴 오프하는, 디바이스.
  20. 제 16 항에 있어서,
    프레임 버짓 및 상기 관심 영역내의 매크로블록들과 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들내의 매크로블록들 사이의 가중치에 기초하여, 프레임내의 매크로블록들에 로 도메인 값들을 할당하는 비트 할당 모듈을 더 포함 하는, 디바이스.
  21. 제 20 항에 있어서,
    상기 매크로블록들의 각각에 다수의 인코딩 비트들을 할당하기 위해, 대응하는 양자화 파라미터 (QP) 값들에 상기 로 도메인 값들을 매핑하는 매핑기를 더 포함하며,
    상기 비디오 인코더는 상기 할당된 인코딩 비트들에 기초하여 상기 비디오 프레임내의 매크로블록들을 인코딩하는, 디바이스.
  22. 제 21 항에 있어서,
    상기 할당된 비트들의 수는 상기 프레임 버짓에 의해 특정된 비트들의 수보다 작거나 같은, 디바이스.
  23. 제 20 항에 있어서,
    상기 가중치는 선행 프레임의 왜곡에 적어도 부분적으로 기초하는, 디바이스.
  24. 제 20 항에 있어서,
    상기 가중치는 선행 프레임의 비디오 충실도, 상기 선행 프레임의 지각적인 품질, 및 상기 관심 영역에서의 사용자 관심도에 적어도 부분적으로 기초하는, 디 바이스.
  25. 제 24 항에 있어서,
    상기 지각적인 품질은 상기 선행 프레임에 대한 시간 품질값 및 공간 품질값을 포함하는, 디바이스.
  26. 제 25 항에 있어서,
    상기 시간 품질값은, 상기 관심 영역에 대한 제 1 시간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 시간 품질값을 포함하는, 디바이스.
  27. 제 25 항에 있어서,
    상기 공간 품질값은, 상기 관심 영역에 대한 제 1 공간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 공간 품질값을 포함하는, 디바이스.
  28. 제 25 항에 있어서,
    상기 공간 품질값은 상기 선행 프레임에서의 블록킹 인공물의 존재에 적어도 부분적으로 기초하고,
    상기 시간 품질값은 상기 선행 프레임에서 시간적 플리커 인공물의 존재에 적어도 부분적으로 기초하는, 디바이스.
  29. 제 26 항에 있어서,
    상기 관심 영역내에 존재하지 않는 영역들의 인코딩이 스킵핑될 것인지의 여부의 표시에 기초하여 상기 로 도메인 값들을 상기 프레임내의 매크로블록들에 할당하는 비트 할당 모듈을 더 포함하는, 디바이스.
  30. 제 26 항에 있어서,
    무선 통신 채널을 통해 인코딩된 비디오 프레임을 송신하는 무선 송신기를 더 포함하며,
    상기 디바이스는 이동 비디오 전화통신 (telephony) 을 지원하도록 구성되는, 디바이스.
  31. 프로세서로 하여금,
    연속하는 비디오 프레임들을 프레임 유닛으로 그룹화하고;
    상기 프레임 유닛에서 각각의 프레임들내의 관심 영역들을 인코딩하며;
    상기 프레임 유닛에서 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들의 인코딩을 스킵핑하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  32. 제 31 항에 있어서,
    상기 프로세서로 하여금, 상기 프레임 유닛에서 하나 이상의 프레임들에 대한 각각의 관심 영역내에 존재하지 않는 영역들을 인코딩하게 하고,
    인코딩이 스킵핑되는 다른 프레임에서의 영역들에 대해 상기 인코딩된 영역들을 대체하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  33. 제 31 항에 있어서,
    상기 프로세서로 하여금, 선행 프레임 유닛과 관련된 왜곡값이 임계값 미만인 경우 인코딩을 스킵핑하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  34. 제 31 항에 있어서,
    상기 프로세서로 하여금, 선행 프레임 유닛의 왜곡값에 기초하여 스킵핑을 선택적으로 턴 온 및 턴 오프하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  35. 제 31 항에 있어서,
    상기 프로세서로 하여금, 프레임 버짓 및 상기 관심 영역내의 매크로블록들과 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역내들의 매크로블록들 사이의 가중치에 기초하여, 프레임내의 매크로블록들에 로 도메인 값들을 할당하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  36. 제 35 항에 있어서,
    상기 프로세서로 하여금, 상기 매크로블록들의 각각에 다수의 인코딩 비트들을 할당하기 위해, 대응하는 양자화 파라미터 (QP) 값들에 상기 로 도메인 값들을 매핑하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  37. 제 35 항에 있어서,
    상기 프로세서로 하여금, 상기 할당된 인코딩 비트들을 사용하여 상기 비디오 프레임의 매크로블록들을 인코딩하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  38. 제 37 항에 있어서,
    상기 할당된 비트들의 수는 상기 프레임 버짓에 의해 특정된 비트들의 수보다 작거나 같은, 컴퓨터-판독가능 매체.
  39. 제 35 항에 있어서,
    상기 가중치는 선행 프레임의 왜곡에 적어도 부분적으로 기초하는, 컴퓨터-판독가능 매체.
  40. 제 35 항에 있어서,
    상기 가중치는 선행 프레임의 비디오 충실도, 상기 선행 프레임의 지각적인 품질, 및 상기 관심 영역에서의 사용자 관심도에 적어도 부분적으로 기초하는, 컴퓨터-판독가능 매체.
  41. 제 40 항에 있어서,
    상기 지각적인 품질은 상기 선행 프레임에 대한 시간 품질값 및 공간 품질값을 포함하는, 컴퓨터-판독가능 매체.
  42. 제 41 항에 있어서,
    상기 시간 품질값은, 상기 관심 영역에 대한 제 1 시간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 시간 품질값을 포함하는, 컴퓨터-판독가능 매체.
  43. 제 41 항에 있어서,
    상기 공간 품질값은, 상기 관심 영역에 대한 제 1 공간 품질값 및 상기 관심 영역내에 존재하지 않는 비디오 프레임의 영역들에 대한 제 2 공간 품질값을 포함하는, 컴퓨터-판독가능 매체.
  44. 제 41 항에 있어서,
    상기 공간 품질값은 상기 선행 프레임에서의 블록킹 인공물의 존재에 적어도 부분적으로 기초하고,
    상기 시간 품질값은 상기 선행 프레임에서의 시간적 플리커 인공물의 존재에 적어도 부분적으로 기초하는, 컴퓨터-판독가능 매체.
  45. 제 35 항에 있어서,
    상기 프로세서로 하여금, 상기 관심 영역내에 존재하지 않는 영역들의 인코딩이 스킵핑될 것인지의 여부의 표시에 기초하여 상기 로 도메인 값들을 할당하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
KR1020077022482A 2005-03-01 2006-02-28 비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩 KR100957472B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US65800805P 2005-03-01 2005-03-01
US60/658,008 2005-03-01
US11/199,937 US8693537B2 (en) 2005-03-01 2005-08-09 Region-of-interest coding with background skipping for video telephony
US11/199,937 2005-08-09

Publications (2)

Publication Number Publication Date
KR20070114797A true KR20070114797A (ko) 2007-12-04
KR100957472B1 KR100957472B1 (ko) 2010-05-14

Family

ID=36560365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077022482A KR100957472B1 (ko) 2005-03-01 2006-02-28 비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩

Country Status (5)

Country Link
US (1) US8693537B2 (ko)
EP (2) EP2046048A3 (ko)
JP (2) JP2008532429A (ko)
KR (1) KR100957472B1 (ko)
WO (1) WO2006094001A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100125387A (ko) * 2008-03-11 2010-11-30 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 비디오 부호화 방법

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060062478A1 (en) * 2004-08-16 2006-03-23 Grandeye, Ltd., Region-sensitive compression of digital video
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US7659920B2 (en) * 2005-03-22 2010-02-09 Microsoft Corp. System and method for very low frame rate teleconferencing employing image morphing and cropping
US7583287B2 (en) * 2005-03-22 2009-09-01 Microsoft Corp. System and method for very low frame rate video streaming for face-to-face video conferencing
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
CN101518088B (zh) * 2006-09-28 2013-02-20 汤姆森许可贸易公司 针对有效速率控制和增强视频编码质量的ρ域帧级比特分配的方法
US20080129844A1 (en) * 2006-10-27 2008-06-05 Cusack Francis J Apparatus for image capture with automatic and manual field of interest processing with a multi-resolution camera
US8761248B2 (en) * 2006-11-28 2014-06-24 Motorola Mobility Llc Method and system for intelligent video adaptation
US8446454B2 (en) 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
US9239958B2 (en) * 2007-11-09 2016-01-19 The Nielsen Company (Us), Llc Methods and apparatus to measure brand exposure in media streams
KR20090062049A (ko) * 2007-12-12 2009-06-17 삼성전자주식회사 영상 데이터 압축 전처리 방법 및 이를 이용한 영상 데이터압축 방법과, 영상 데이터 압축 시스템
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
EP2200319A1 (en) 2008-12-10 2010-06-23 BRITISH TELECOMMUNICATIONS public limited company Multiplexed video streaming
EP2219342A1 (en) 2009-02-12 2010-08-18 BRITISH TELECOMMUNICATIONS public limited company Bandwidth allocation control in multiple video streaming
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
FR2963190B1 (fr) * 2010-07-23 2013-04-26 Canon Kk Procede et dispositif de codage d'une sequence d'images
EP2697776A4 (en) * 2011-04-11 2015-06-10 Intel Corp IMAGE PROCESSING BASED ON THE OBJECT OF INTEREST
KR101764372B1 (ko) * 2011-04-19 2017-08-03 삼성전자주식회사 휴대용 단말기에서 영상 합성 방법 및 장치
US9414086B2 (en) * 2011-06-04 2016-08-09 Apple Inc. Partial frame utilization in video codecs
US8525883B2 (en) * 2011-09-02 2013-09-03 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for automatic video quality assessment
US20130286227A1 (en) * 2012-04-30 2013-10-31 T-Mobile Usa, Inc. Data Transfer Reduction During Video Broadcasts
US20140198838A1 (en) * 2013-01-15 2014-07-17 Nathan R. Andrysco Techniques for managing video streaming
US20140254659A1 (en) 2013-03-11 2014-09-11 Mediatek Inc. Video coding method using at least evaluated visual quality and related video coding apparatus
GB2514540B (en) * 2013-04-10 2020-01-08 Microsoft Technology Licensing Llc Resource for encoding a video signal
WO2014175919A1 (en) 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
TWI504240B (zh) 2013-05-31 2015-10-11 Vatics Inc 視訊處理方法、視訊顯示方法以及視訊處理裝置
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US9386275B2 (en) * 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
US9516220B2 (en) 2014-10-02 2016-12-06 Intel Corporation Interactive video conferencing
EP3029937B1 (en) 2014-12-03 2016-11-16 Axis AB Method and encoder for video encoding of a sequence of frames
US10021346B2 (en) 2014-12-05 2018-07-10 Intel IP Corporation Interactive video conferencing
US9729885B2 (en) * 2015-02-11 2017-08-08 Futurewei Technologies, Inc. Apparatus and method for compressing color index map
CN105407352A (zh) * 2015-11-23 2016-03-16 小米科技有限责任公司 图像压缩方法、装置及服务器
US20170359575A1 (en) * 2016-06-09 2017-12-14 Apple Inc. Non-Uniform Digital Image Fidelity and Video Coding
US10277914B2 (en) * 2016-06-23 2019-04-30 Qualcomm Incorporated Measuring spherical image quality metrics based on user field of view
RU2654126C2 (ru) * 2016-09-09 2018-05-16 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных
KR20180040451A (ko) * 2016-10-12 2018-04-20 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11019349B2 (en) * 2017-01-20 2021-05-25 Snap Inc. Content-based client side video transcoding
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
WO2021025717A1 (en) * 2019-08-07 2021-02-11 Google Llc Face-based frame rate upsampling for video calls
CN111277827B (zh) 2020-02-24 2022-12-20 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及可读存储介质
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
US11895336B2 (en) * 2021-04-02 2024-02-06 Qualcomm Incorporated Picture orientation and quality metrics supplemental enhancement information message for video coding

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290088A (ja) 1991-03-19 1992-10-14 Seiko Epson Corp テレビ電話
JPH04354489A (ja) 1991-05-31 1992-12-08 Fujitsu Ltd 画像符号化装置
JP2915248B2 (ja) 1993-05-07 1999-07-05 沖電気工業株式会社 画像通信システム
US5347311A (en) 1993-05-28 1994-09-13 Intel Corporation Method and apparatus for unevenly encoding error images
US6798834B1 (en) * 1996-08-15 2004-09-28 Mitsubishi Denki Kabushiki Kaisha Image coding apparatus with segment classification and segmentation-type motion prediction circuit
US5506844A (en) 1994-05-20 1996-04-09 Compression Labs, Inc. Method for configuring a statistical multiplexer to dynamically allocate communication channel bandwidth
US5881176A (en) * 1994-09-21 1999-03-09 Ricoh Corporation Compression and decompression with wavelet style and binary style including quantization by device-dependent parser
JP3086396B2 (ja) 1995-03-10 2000-09-11 シャープ株式会社 画像符号化装置及び画像復号装置
US6023301A (en) * 1995-07-14 2000-02-08 Sharp Kabushiki Kaisha Video coding device and video decoding device
GB2306831B (en) 1995-10-30 2000-05-24 Sony Uk Ltd Video data compression
EP0925689B1 (en) 1996-09-12 2002-07-03 University Of Bath Object-oriented video system
US6111991A (en) 1998-01-16 2000-08-29 Sharp Laboratories Of America Method and apparatus for optimizing quantizer values in an image encoder
FR2760872B1 (fr) 1997-03-17 2000-06-09 Alsthom Cge Alcatel Procede d'optimisation de la compression de donnees d'image, a selection automatique de conditions de compression
US5940124A (en) 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
SE512291C2 (sv) * 1997-09-23 2000-02-28 Ericsson Telefon Ab L M Inbäddad DCT-baserad stillbildskodningsalgoritm
JPH11136674A (ja) 1997-10-31 1999-05-21 Casio Comput Co Ltd 画像符号化方法及び記憶媒体
CN100481946C (zh) 1998-03-20 2009-04-22 三菱电机株式会社 编码和解码及压缩图像的方法和装置
JP3597780B2 (ja) 1998-03-20 2004-12-08 ユニヴァーシティ オブ メリーランド 注目領域に対する有損失/無損失の画像符号化
US6385345B1 (en) * 1998-03-31 2002-05-07 Sharp Laboratories Of America, Inc. Method and apparatus for selecting image data to skip when encoding digital video
US6633376B1 (en) * 1998-08-10 2003-10-14 Mitsubishi Denki Kabushiki Kaisha Apparatus for inspecting a printed circuit board
US6256423B1 (en) 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
KR100323683B1 (ko) 1998-09-18 2002-02-07 구자홍 움직임 추정을 수행하지 않고 프레임 스킵핑하는 방법
US6263021B1 (en) 1998-09-18 2001-07-17 Sarnoff Corporation Treating non-zero quantized transform coefficients as zeros during video compression processing
US6215779B1 (en) 1998-09-22 2001-04-10 Qualcomm Inc. Distributed infrastructure for wireless data communications
US6493023B1 (en) * 1999-03-12 2002-12-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Method and apparatus for evaluating the visual quality of processed digital video sequences
JP3889178B2 (ja) 1999-03-25 2007-03-07 富士通株式会社 解像度変換画像圧縮復号装置
GB9912079D0 (en) 1999-05-24 1999-07-21 Motorola Ltd An image encoding method and apparatus
JP2003501902A (ja) * 1999-05-27 2003-01-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ信号の符号化
US6263022B1 (en) * 1999-07-06 2001-07-17 Philips Electronics North America Corp. System and method for fine granular scalable video with selective quality enhancement
US6462264B1 (en) 1999-07-26 2002-10-08 Carl Elam Method and apparatus for audio broadcast of enhanced musical instrument digital interface (MIDI) data formats for control of a sound generator to create music, lyrics, and speech
JP2001045485A (ja) 1999-07-30 2001-02-16 Sony Corp 動画像符号化装置及び方法、復号装置及び方法、並びに画像記録再生装置
US6879723B1 (en) * 1999-11-12 2005-04-12 8X8, Inc. Method and apparatus for encoding frames of image data at a varying quality level
DE10006493C2 (de) * 2000-02-14 2002-02-07 Hilti Ag Verfahren und Vorrichtung zur optoelektronischen Entfernungsmessung
US7020335B1 (en) * 2000-11-21 2006-03-28 General Dynamics Decision Systems, Inc. Methods and apparatus for object recognition and compression
JP2002185966A (ja) 2000-12-15 2002-06-28 Matsushita Electric Ind Co Ltd 映像符号化装置
JP2002300581A (ja) 2001-03-29 2002-10-11 Matsushita Electric Ind Co Ltd 映像符号化装置、及び映像符号化プログラム
US6671324B2 (en) 2001-04-16 2003-12-30 Mitsubishi Electric Research Laboratories, Inc. Estimating total average distortion in a video with variable frameskip
US7209519B2 (en) * 2001-04-16 2007-04-24 Mitsubishi Electric Research Laboratories, Inc. Encoding a video with a variable frame-rate while minimizing total average distortion
KR100643454B1 (ko) 2001-11-17 2006-11-10 엘지전자 주식회사 영상 데이터 전송 제어방법
GB2382940A (en) * 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
JP4153202B2 (ja) * 2001-12-25 2008-09-24 松下電器産業株式会社 映像符号化装置
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
AU2003280512A1 (en) 2002-07-01 2004-01-19 E G Technology Inc. Efficient compression and transport of video over a network
KR100484148B1 (ko) * 2002-07-27 2005-04-18 삼성전자주식회사 개선된 비트율 제어 방법과 그 장치
US20060256867A1 (en) 2002-09-06 2006-11-16 Turaga Deepak S Content-adaptive multiple description motion compensation for improved efficiency and error resilience
JP4129913B2 (ja) 2002-12-12 2008-08-06 株式会社リコー 画像処理装置及び画像処理方法
US9667980B2 (en) * 2005-03-01 2017-05-30 Qualcomm Incorporated Content-adaptive background skipping for region-of-interest video coding
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US7724972B2 (en) 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8019170B2 (en) * 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) * 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100125387A (ko) * 2008-03-11 2010-11-30 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 비디오 부호화 방법

Also Published As

Publication number Publication date
EP2046048A3 (en) 2013-10-30
KR100957472B1 (ko) 2010-05-14
JP2012110002A (ja) 2012-06-07
US20060238445A1 (en) 2006-10-26
WO2006094001A2 (en) 2006-09-08
JP5301645B2 (ja) 2013-09-25
US8693537B2 (en) 2014-04-08
WO2006094001A3 (en) 2007-01-04
JP2008532429A (ja) 2008-08-14
EP2046048A2 (en) 2009-04-08
EP1854302A2 (en) 2007-11-14

Similar Documents

Publication Publication Date Title
KR100957472B1 (ko) 비디오 전화통신용 배경 스킵핑을 갖는 관심-영역 코딩
KR100926016B1 (ko) 로 도메인 비트 할당을 사용하는 비디오 전화통신에서의관심-영역 코딩
US7724972B2 (en) Quality metric-biased region-of-interest coding for video telephony
US9667980B2 (en) Content-adaptive background skipping for region-of-interest video coding
JP2008532428A5 (ko)
JP2008532427A5 (ko)
US9516325B2 (en) Region-of-interest aware video coding
CN101164342B (zh) 使用ρ域位分配的视频电话中的关注区编码方法及装置
US20070031050A1 (en) Method and apparatus for bit rate control for image encoding
Wang et al. Joint adaptive background skipping and weighted bit allocation for wireless video telephony

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee