KR20120114263A - 객체-인식 비디오 인코딩 전략 - Google Patents

객체-인식 비디오 인코딩 전략 Download PDF

Info

Publication number
KR20120114263A
KR20120114263A KR1020127015266A KR20127015266A KR20120114263A KR 20120114263 A KR20120114263 A KR 20120114263A KR 1020127015266 A KR1020127015266 A KR 1020127015266A KR 20127015266 A KR20127015266 A KR 20127015266A KR 20120114263 A KR20120114263 A KR 20120114263A
Authority
KR
South Korea
Prior art keywords
frame
frames
offset
interest
encoding
Prior art date
Application number
KR1020127015266A
Other languages
English (en)
Other versions
KR101882024B1 (ko
Inventor
시타람 바가바티
죠앙 라슈
동-칭 장
제우스 바콘스-팔라우
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20120114263A publication Critical patent/KR20120114263A/ko
Application granted granted Critical
Publication of KR101882024B1 publication Critical patent/KR101882024B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

복수개 프레임을 가진 비디오 시퀀스를 수신하는 단계; 적어도 2개 프레임을 선택하는 단계; 적어도 2개 프레임 각각에서 적어도 1개 관심 객체의 총 면적을 결정하는 단계; 총 면적을 임계 면적과 비교하는 단계; 적어도 2개 프레임 각각을 낮은 객체 가중 프레임 또는 높은 객체 가중 프레임으로 분류하는 단계로서, 낮은 객체 가중 프레임은 임계 면적을 초과하는 총 면적을 가진 프레임이고 높은 객체 가중 프레임은 임계 면적을 초과하지 않는 총 면적을 가진 프레임인, 단계; 및 각각의 낮은 객체 가중 프레임을 한가지 인코딩 모드에 따라 인코딩하고 각각의 높은 객체 가중 프레임을 상이한 인코딩 모드에 따라 인코딩하는 단계를 포함하는 객체-인식 비디오 코딩 방법이 제공된다.

Description

객체-인식 비디오 인코딩 전략{OBJECT-AWARE VIDEO ENCODING STRATEGIES}
<관련 출원에 대한 상호 참조>
이 출원은, 그 전체가 여기에 참고문헌으로 포함되어 있는, 2009년 12월 14일에 제출된 미국 가출원 제61/284151호에 대한 우선권을 주장한다.
본 발명은 객체-인식 비디오 코딩에 관한 것이다.
많은 비디오 코딩 애플리케이션에서, 비디오는, 예를 들어, 모바일 장치로의 전달을 위해 50-400 kbps가 통상적인, 비트-레이트(bit-rate)에 대한 제약 조건과 함께 인코딩되어야 한다. 비디오를 낮은 비트-레이트로 인코딩하는 것은 시각 정보의 손실을 초래함으로써 그것의 주관적 품질(subjective quality) 또는 시청 경험에 영향을 미친다. 이러한 손실 인코딩 조건하에서, 주관적 품질은 핵심적이거나 중요한 영역에서의 품질 손실을 감소시키는 것에 의해 개선될 수 있다.
도 1에 표시된 객체 강조 시스템과 같은 특정 시스템에서는, 관심 객체 또는 영역이 탐지되고 그것의 코딩된 품질은 중요한 객체를 좀더 양호하게 보존하도록 사전-처리하는 것에 의해 그리고/또는 객체-인식 인코더를 사용하는 것에 의해 개선된다. 이것은 축구 비디오의 공 또는 선수와 같은 비디오에서의 관심 객체를 시청자가 선명하게 볼 수 있는 것이 중요하기 때문에 행해진다.
통상적인 객체-인식 인코더는 비디오의 다양한 객체 또는 영역에 관한 정보를 수신할 수 있고 중요한 객체를 좀더 양호하게 보존하기 위해 이 정보를 사용할 수 있으며, 이렇게 하여 사용자의 시청 경험을 개선시킨다. 이러한 인코더는 대체로 객체 정보를 사용하는 것에 의해 리소스 할당 및 모드 판정과 같은 인코딩 동작들을 안내하도록 작동한다.
객체를 보존할 수 있는 복수개 방법이 존재하지만; 주어진 비디오에 대해, 한가지 방법의 선택이 전체 비디오를 위한 최적의 객체 보존을 산출하지 않을 수도 있다. 따라서, 전체 비디오를 최적으로 보존하기에 충분할 정도로 반사적인 객체 보존 방법이 필요하다.
복수개 프레임을 가진 비디오 시퀀스를 수신하는 단계; 적어도 2개 프레임을 선택하는 단계; 적어도 2개 프레임 각각에서 적어도 1개 관심 객체의 총 면적을 판정하는 단계; 총 면적을 임계 면적과 비교하는 단계; 적어도 2개 프레임 각각을 낮은 객체 가중 프레임 또는 높은 객체 가중 프레임으로 분류하는 단계 - 낮은 객체 가중 프레임은 임계 면적을 초과하는 총 면적을 가진 프레임이고 높은 객체 가중 프레임은 임계 면적을 초과하지 않는 총 면적을 가진 프레임임 -; 및 각각의 낮은 객체 가중 프레임을 한가지 인코딩 모드에 따라 인코딩하고 각각의 높은 객체 가중 프레임을 상이한 인코딩 모드에 따라 인코딩하는 단계를 구비하는 객체-인식 비디오 코딩 방법이 제공된다. 본 방법은 프레임의 어떤 매크로블록이 적어도 1개 관심 객체를 포함하는지 결정하는 단계; 적어도 2개 프레임 각각에 대한 초기 QP를 결정하는 단계; 낮은 객체 가중 프레임에 대한 초기 QP에 오프셋을 적용하는 단계; 및 적용하는 단계에 응답하는 적어도 1개 관심 객체에 포함된 매크로블록에 대한 비트 할당을 증가시키는 단계를 추가로 포함할 수 있다. 추가 단계는 연속적인 높은 객체 가중 프레임에 대해 프레임에서의 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여(△QPMasking)를 결정하는 단계(106); △QPMasking을 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합하는 단계(110); 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합되어 계산된 △QPMasking을 사용해 획득되는 비트 레이트를 사용해 연속적인 높은 객체 가중 프레임을 인코딩하는 단계(114); 연속적인 높은 객체 가중 프레임에 대한 프레임 복잡도를 계산하는 단계(102); 연속적인 높은 객체 가중 프레임의 GOP 각각에 대한 GOP 경계 및 GOP 코딩 패턴에 기초해 프레임 타입을 선택하는 단계(104); 및 프레임 타입에 기초한 프레임당 QP-오프셋 기여(△QPType)를 계산하는 단계(106)를 포함할 수 있는데, 프레임에서의 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여(△QPMasking)를 계산하는 단계(106)는
Figure pct00001
를 사용해 수행되고, 여기에서 ComplMasking(n)은 높은 객체 가중 프레임을 위해 사전 결정된 창 크기에서 현재 프레임의 이웃 프레임에 대한 평균으로서 계산되는 프레임의 시간 마스킹 복잡도를 구비한다. 본 방법은: 높은 객체 가중 프레임 모두에 대한 평균 △QPMasking을 계산하는 단계(108); △QPMasking을 정규화하는 단계(110); 최종적인 프레임당 △QP를 계산하는 단계(110); 계산된 최종적인 프레임당 △QP를 사용해 할당된 비트 버짓(allocated bit budget) 및 레이트 제어를 계산하는 단계(112)를 추가로 포함할 수 있다. 높은 객체 가중 프레임에 대한 각각의 프레임에 대한 프레임 복잡도를 계산하는 단계(102)는 순방향 프레임간 예측(forward inter-frame prediction)을 사용해 수행될 수 있다.
객체-인식 비디오 코딩 방법의 추가 실시예는: 복수개 프레임을 가진 비디오 시퀀스를 수신하는 단계; 적어도 2개 프레임을 선택하는 단계; 적어도 2개 프레임 각각에서 적어도 1개 관심 객체의 총 면적을 결정하는 단계; 총 면적을 임계 면적과 비교하는 단계; 적어도 2개 프레임 각각을 낮은 객체 가중 프레임 또는 높은 객체 가중 프레임으로 분류하는 단계; 각각의 낮은 객체 가중 프레임을 한가지 인코딩 모드에 따라 인코딩하고 각각의 높은 객체 가중 프레임을 상이한 인코딩 모드에 따라 인코딩하는 단계; 연속적인 높은 객체 가중 프레임에 대한 프레임에서의 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여(△QPMasking)를 결정하는 단계(106); △QPMasking을 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합하는 단계(110); 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합되어 계산된 △QPMasking을 사용해 획득되는 비트 레이트를 사용해 연속적인 높은 객체 가중 프레임을 인코딩하는 단계(114); 프레임의 어떤 매크로블록이 적어도 1개 관심 객체를 포함하는지 결정하는 단계; 적어도 2개 프레임 각각에 대한 초기 QP를 결정하는 단계; 및 낮은 객체 가중 프레임에 대한 초기 QP에 오프셋을 적용하는 것에 의해 적어도 1개 관심 객체에 포함된 매크로블록에 대한 비트 할당이 증가하는 단계를 구비한다.
본 방법의 추가 실시예는: 복수개 프레임을 가진 비디오 시퀀스를 수신하는 단계; 적어도 2개 프레임을 선택하는 단계; 적어도 2개 프레임 각각에서 적어도 1개 관심 객체의 총 면적을 결정하는 단계; 총 면적을 임계 면적과 비교하는 단계; 적어도 2개 프레임 각각을 낮은 객체 가중 프레임 또는 높은 객체 가중 프레임으로 분류하는 단계; 각각의 낮은 객체 가중 프레임을 한가지 인코딩 모드에 따라 인코딩하고 각각의 높은 객체 가중 프레임을 상이한 인코딩 모드에 따라 인코딩하는 단계; 낮은 객체 가중 프레임에 대한 하나보다 많은 코딩 모드에 대해 원본과 인코딩된 매크로블록 픽셀 사이의 SAD(sum of absolute differences)를 결정하는 단계; 낮은 객체 가중 프레임에 대해 SAD를 결정하는 단계에서 적어도 하나의 다른 코딩 모드보다 낮은 SAD를 가진 코딩 모드를 선택하는 단계; 및 선택하는 단계에서 선택된 개개 코딩 모드에 따라 낮은 객체 가중 프레임을 코딩하는 단계를 구비할 수 있다. 여기에서, 이들 실시예는 SAD를 결정하는 단계에서 객체의 픽셀에 비-객체 픽셀보다 큰 가중치가 할당되도록 인코더 가중치 어레이를 적용하는 단계를 포함할 수 있다.
본 발명의 추가 실시예는 비디오 시퀀스를 인코딩하기 위한 인코더를 포함하는데, 인코더는, 비디오 프레임에서 관심 객체의 영역을 결정하기 위한 수단; 모드 선택 임계 면적을 설정하기 위한 수단; 객체들의 객체 영역과 복수개 프레임의 임계 면적을 비교하기 위한 수단; 비교 수단에 응답하는 인코딩 모드를 선택하기 위한 수단 - 선택 수단은 상이한 프레임에 대해 상이한 인코딩 모드를 선택하도록 적응됨 -; 및 상이한 프레임을 상이한 인코딩 모드로 인코딩하도록 적응되는, 인코딩하기 위한 수단을 포함하도록 적응된다. 결정 수단은 관심 객체를 구성하는 픽셀 수를 결정할 수 있다. 선택 수단은 임계 면적을 초과하는 픽셀 수의 면적을 가진 프레임에 대해 지각적인 양자화 파라미터 오프셋 결정(perceptual quantization parameter offset determination)을 이용할 수 있는데, 인코딩 수단은 지각적인 양자화 파라미터 오프셋 결정에 응답하는 코딩 모드의 프레임을 코딩한다. 선택 수단은 다른 방법으로 단순 QP 오프셋 결정(naive QP offset determination)을 이용할 수 있는데, 이 경우 선택 수단은 임계값을 초과하지 않는 픽셀 수의 면적을 가진 적어도 2개 프레임 각각에 대해 초기 QP를 결정하여, 적어도 2개 프레임에 대한 초기 QP에 오프셋을 적용하도록; 그리고 오프셋에 응답하는 코딩 모드로 임계 프레임을 초과하지 않는 픽셀 수의 면적을 가진 적어도 2개 프레임을 인코딩 수단이 코딩하는 상태에서 오프셋에 응답하는 적어도 1개 관심 객체에 포함된 매크로블록에 대한 비트 할당을 증가시키도록 적응된다. 또한, 선택 수단은 단순 QP 오프셋 결정을 이용할 수 있는데, 이 경우 선택 수단은 임계값을 초과하지 않는 픽셀 수의 면적을 가진 적어도 2개 프레임 각각에 대해 초기 QP를 결정하여, 적어도 2개 프레임에 대한 초기 QP에 오프셋을 적용하도록; 그리고 오프셋에 응답하는 코딩 모드로 임계 프레임을 초과하지 않는 픽셀 수의 면적을 가진 적어도 2개 프레임을 인코딩 수단이 코딩하는 상태에서 오프셋에 응답하는 적어도 1개 관심 객체에 포함된 매크로블록에 대한 비트 할당을 증가시키도록 적응된다.
다음에서는 첨부 도면을 참조하여 본 발명이 예시의 방법으로 설명될 것인데:
도 1은 본 발명에 사용되도록 구성된 디지털 비디오에서 객체의 가시성을 향상시키기 위한 시스템의 블록도이고;
도 2는 도 1의 시스템에 의해 제공되는 대략적인 객체 위치 측정을 예시하며;
도 3은 본 발명에 따라 객체를 강조하는 플로우 차트이고;
도 4는 (a) 및 (b)에서는 객체-친화적인 매크로블록(MB) 파티셔닝의 실례를 나타내고 (c)에서는 "비친화적" MB 파티셔닝을 나타내며;
도 5는, 본 발명에 사용되는, 전역적으로 최적화된 R-QP 모델 기반 프레임-레벨 비트 할당에 지각적인 프레임-레벨 QP 오프셋을 사용하는 전체 비디오 세그먼트의 인코딩 프로세스에 대한 예시적 흐름도이고;
도 6은 본 발명에서 사용되는 비트 할당을 구현할 수 있는 예시적인 표준 비디오 인코더의 블록도이다.
본 발명은 양자화 파라미터(QP) 오프셋, 가중된 왜곡 메트릭, 및 지각적인 양자화(QP) 오프셋을 수반하는 하이브리드 방법론을 통해 객체 보존을 개선시키는 것에 관한 것이다.
본 발명은 다양한 유형의 객체-인식 인코더에 적용 가능하고 중요 객체 또는 영역을 구성하는 매크로블록에 대한 QP 또는 양자화 스텝 크기를 감소시키는 것을 수반할 수 있고, 중요하지 않은 객체 또는 영역을 구성하는 매크로블록에 대한 QP 또는 양자화 스텝 크기를 감소시키는 것을 추가로 수반할 수 있다.
본 발명의 일 실시예에서, 방법은 비디오의 중요 객체를 보존한다. 일부 기준에 기초해, 인코더는, 예를 들어, QP 오프셋, 가중된 왜곡 척도(weighted distortion measure), 및 지각적인 QP 오프셋(또는 이들의 조합)을 관련 매크로블록(MBs)에 사용할 수 있다. 객체 정보가 인코딩 모드 판정에 영향을 미칠 수 있게 하는 새로운 가중된 왜곡 척도가 도입된다.
도 1은 본 발명의 실시예에 적용 가능한 객체 강조 시스템을 나타낸다. 특히, 본 발명에 따라 구성된 객체 강화 시스템(object enhancing system)이 전송기(10)의 모든 컴포넌트를 포괄할 수 있거나, 객체 강화 컴포넌트가 수신기(20)에 존재할 수 있다. 객체 강조가 수행될 수 있는 프로세스 체인에는 3가지 단계: (1) 인코딩(즉, 압축) 단계 이전에 객체가 전송기(10)에서 강화되는 사전-처리; (2) 객체 및 그것의 위치에 관한 정보의 개량(refinement)에 의해 전송기(10)에서 객체를 포함하는 관심 영역에 특수 처리가 부여되는 인코딩; 및 (3) 비트스트림을 통해 메타데이터로서 전송기(10)로부터 전송되는 객체 및 그것의 위치에 관한 사이드-정보(side-information)를 이용해 디코딩 이후에 수신기(20)에서 객체가 강화되는 사후-처리가 존재한다. 본 발명에 따라 구성되는 객체 강화 시스템은 앞서 식별된 단계 중 하나에서만, 앞서 식별된 단계 중 2개에서, 또는 앞서 식별된 3가지 단계 모두에서 객체 강조를 제공하도록 배열될 수 있다.
디지털 픽처에서 객체의 가시성을 강화하기 위한 도 1의 시스템은 관심 객체를 포함하는 입력 비디오를 제공하기 위한 수단을 포함한다. 가시성이 강화되어야 하는 객체를 포함하는 디지털 픽처의 소스는 전통적인 구성과 동작의 TV 카메라일 수 있고 화살표 12로 표현된다.
또한, 도 1의 시스템은 관심 객체의 종류(nature)와 특징을 표현하는 정보(예를 들어, 객체 템플릿)를 저장하고, 비디오 입력 및 객체의 종류와 특징을 표현하는 정보에 응답하여, 객체를 식별하고 위치를 찾아내는 객체 위치 측정 정보(object localization information)를 개발하기 위한 수단을 포함한다. 도 1에서 객체 위치 측정 모듈(14)로서 식별되는 이러한 수단은 입력 비디오를 매 프레임 기반으로 스캔하여, 객체(즉, 객체가 무엇인지)를 식별하고, 관심 객체의 종류와 특징을 표현하는 저장 정보와 유사한 종류와 특징을 가진 그 객체의 픽처 내에서의 위치(즉, 객체가 어디에 있는지)를 찾아내기 위한 수단을 포함한다. 객체 위치 측정 모듈(14)은 입력 비디오의 디지털 픽처를 매 프레임 기반으로 스캔하고 스캔되는 입력 비디오의 디지털 픽처의 섹터들을 관심 객체의 종류와 특징을 표현하는 저장 정보와 비교하여, 특정 섹터의 스캔으로부터 개발된 정보가 객체의 종류와 특징을 표현하는 저장 정보와 유사할 때, 관심 객체를 식별하고, 디지털 픽처의 격자식 좌표에 의해, 위치를 찾아내는 전통적인 구성과 동작의 유닛일 수 있다.
일반적으로, 객체 위치 측정 모듈(14)은 관심 객체를 식별하고 위치를 찾아내는 다음 방법 중 하나 이상을 구현한다:
● 객체 추적 - 객체 추적기의 목표는 비디오에서 움직이는 객체(moving object)의 위치를 찾아내는 것이다. 통상적으로, 추적기는, 움직이는 객체의 이력이 선행 프레임으로부터 주어진 상태에서, 현재 프레임에서의 객체 파라미터(예를 들어, 위치, 크기)를 추정한다. 추적 접근 방식은, 예를 들어, 템플릿 정합, 광학 흐름, 칼만(Kalman) 필터, 평균 이동 분석(mean shift analysis), 숨겨진 마르코프 모델(hidden Markov models), 및 입자 필터에 기초할 수 있다.
● 객체 탐지 - 객체 탐지의 목표는 객체에 관한 사전 지식에 기초해 이미지 또는 비디오 프레임에서 객체의 존재와 위치를 탐지하는 것이다. 객체 탐지 방법은 일반적으로 하향식 접근 방식과 상향식 접근 방식의 조합을 이용한다. 하향식 접근 방식에서, 객체 탐지 방법은 탐지되는 객체의 인간 지식으로부터 파생되는 규칙에 기초한다. 상향식 접근 방식에서, 객체 탐지 방법은 객체를 낮은 수준의 구조적 사양 또는 패턴과 연관지은 다음 이들 사양 또는 패턴을 검색하는 것에 의해 객체의 위치를 찾아낸다.
● 객체 세분화 - 이 접근 방식에서, 이미지 또는 비디오는, 컬러 패치와 같은, 의미론적 실체 또는 시각적 구조를 포함할 수 있는 그것의 구성 "객체들"로 분해된다. 이 분해는 일반적으로 객체의 움직임, 컬러, 및 텍스처 속성에 기초한다. 객체 세분화는, 컴팩트 비디오 코딩, 자동 및 반-자동 컨텐츠-기반 설명, 영화 후반-작업, 및 화면 해석을 포함하는 몇가지 응용을 가진다. 특히, 세분화는 화면의 객체-기반 설명을 제공하는 것에 의해 객체 위치 측정 문제를 단순화한다.
도 2는 객체 위치 측정 모듈(14)에 의해 제공되는 대략적인 객체 위치 측정을 예시한다. 사용자는, 예를 들어, 객체가 배치되는 영역 주위에 타원을 그려 객체의 위치를 대략적으로 찾아낸다. 종내에는, 대략적인 객체 위치 측정 정보(즉, 타원의 중심점, 장축, 및 단축 파라미터)가 개량될 수 있다.
이상적으로, 객체 위치 측정 모듈(14)은 완전 자동 모드로 동작한다. 그러나, 실제로는, 시스템에 의해 발생된 오류를 정정하거나, 적어도, 시스템이 위치 측정하는 중요 객체를 정의하는 몇가지 수동 지원이 요구될 수 있다. 비-객체 영역을 강화시키는 것은 시청자를 현혹시키거나 실제 액션을 놓치게 할 수 있다. 이 문제를 방지하거나 최소화하기 위해, 사용자는, 앞서 설명된 바와 같이, 객체 주위에 타원을 그릴 수 있고, 그 다음 시스템은 지정된 위치로부터 객체를 추적할 수 있다. 객체가 프레임에 성공적으로 배치되면, 객체 위치 측정 모듈(14)은 해당 타원 파라미터(즉, 중심점, 장축, 및 단축)를 출력한다. 이상적으로는, 이 경계 타원의 윤곽이 객체의 그것과 일치할 것이다.
그러나, 파라미터가 단지 근사치일 뿐이고 결과 타원이 객체를 빽빽히 포함하지 않아 객체 강화가 적용되는 경우라면, 2가지 문제가 발생할 수 있다. 첫번째, 타원이 전체 객체를 포함하지 않기 때문에 객체가 전체적으로 강화되지 않을 수 있다. 두번째, 비-객체 영역이 강화될 수 있다. 이들 결과 모두가 바람직하지 않을 수 있기 때문에, 이러한 환경 하에서는, 강화 이전에 객체 영역을 개량하는 것이 유용하다. 객체 위치 측정 정보의 개량은 다음에서 좀더 상세하게 고려된다.
도 1의 시스템은 관심 객체를 포함하는 디지털 픽처의 그 부분에 대한 그리고 객체가 배치되는 영역에 대한 강화된 비디오를 개발하기 위해 비디오 입력 및 객체 위치 측정 모듈(14)로부터 수신되는 객체 위치 측정 정보에 응답하는 수단을 추가로 포함한다. 도 1에서 객체 강화 모듈(16)로서 식별되는 이러한 수단은 이 영역에 전통적인 이미지 처리 동작을 적용하는 것에 의해 관심 객체를 포함하는 디지털 픽처 영역의 가시성을 강화하는 전통적인 구조 및 동작의 유닛일 수 있다. 객체 위치 측정 모듈(14)로부터 매 프레임 기반으로 수신되는 객체 위치 측정 정보는 관심 객체가 배치되는 사전 결정된 크기의 영역에 대한 격자식 좌표를 포함한다. 또한, 앞서 지시된 바와 같이, 객체 강화는, 강화 단계에 후속되며 다음에서 설명되는 인코딩 단계 동안 객체의 열화를 감소시키는데 도움이 된다. 도 1의 시스템에 대한 이 시점까지의 동작이 앞서 언급된 사전-처리 동작 모드에 해당한다.
객체를 강화할 때, 객체의 가시성은 관심 객체가 배치되는 영역에 이미지 처리 동작을 적용하는 것에 의해 개선된다. 이들 연산은 객체 경계를 따라(예를 들어, 가장자리 선명화), 객체 내부에(예를 들어, 텍스처 강화), 그리고 어쩌면 객체 외부에도(예를 들어, 명암 증가, 객체 영역 바깥쪽 흐릿하게 하기) 적용될 수 있다. 예를 들어, 객체에 좀더 집중하게 하는 한가지 방법은 객체 내부에서 그리고 객체 윤곽을 따라 가장자리를 선명하게 하는 것이다. 이것은 객체의 세부 사항을 좀더 가시적이게 할 뿐만 아니라 객체가 배경으로부터 두드러지게 한다. 더 나아가, 가장자리가 선명할수록 인코딩을 좀더 양호하게 견뎌 내는 경향이 있다. 또 다른 가능성은, 예를 들어, 반드시 이 순서일 필요는 없지만, 스무딩(smoothing), 선명화, 및 객체 개량 동작을 반복적으로 적용하는 것에 의해 객체를 확대하는 것이다.
도 3에서 좀더 간략화된 도면으로 표시되는 이 객체 강조 시스템은 입력 비디오(305)에서 중요 객체를 탐지하고(310), 적절한 사전-처리에 의해 객체 강화를 수행하며(315), 객체를 보존하는 객체-인식 인코더(320)를 가진다. 객체-인식 인코더는 인코딩 프로세스 동안 관심 객체를 좀더 양호하게 보존하기 위해 객체 위치 측정 모듈로부터의 객체 정보를 사용한다.
비디오 프레임에 대한 객체 정보는, 프레임의 각 픽셀(x, y)에 대해 하나씩인, 값들의 시퀀스인 "인코더 가중치 배열" W(x, y)로써 표현된다. 좀더 중요한 객체는 자신의 구성 픽셀들에 대해 좀더 큰 가중치를 가진다. 배경 픽셀 가중치는 관례적으로 0으로 설정될 수 있다.
객체를 좀더 양호하게 보존하기 위해, 수개 방법이 객체-인식 비디오 인코더에 사용될 수 있다. 이들 보존 방법은 단순 QP 오프셋, 가중된 왜곡 척도 및 지각적인 QP 오프셋일 수 있다.
단순 QP 오프셋 방법은 일반적으로 프레임의 어떤 매크로블록(MB)이 관심 객체를 포함하는지 결정하는 것이 가능할 수 있도록 인코더 가중치 배열을 사용하는 것을 수반한다. MB에서의 객체 가중치 및 객체 픽셀 수에 따라, 적절한 오프셋을 적용하여 MB의 QP를 감소시킬 수 있다. 이것은 이들 MB에 좀더 많은 비트를 할당하여 좀더 양호한 인식 품질을 초래한다.
가중된 왜곡 척도는, 인코더가 각각의 MB에 대해 인트라/인터/생략/직접 코딩 및 도 4에 표시된 MB 파티셔닝 방법(16x16, 8x8, 4x4 등)과 같은 수개 모드 판정을 하게 하는 것을 수반한다. 이들 판정은 R-D(Rate-Distortion) 트레이드오프(tradeoff)에 기초하는데, 여기에서 레이트는 할당된 비트 수에 해당하고 왜곡은 코딩 충실도의 측정이다. 왜곡은 일반적으로 원본과 인코딩된 MB 픽셀 값 사이의 SAD로서 계산된다. 객체를 좀더 양호하게 보존하기 위해, 프로세스는 대신에 객체 픽셀에서의 차이가 비-객체 픽셀보다 높게 가중되는(즉, 1보다 큰 값이 곱해지는) 가중된 SAD를 사용한다. 객체 픽셀 가중치는 인코더 가중치 배열로부터 획득된다. 픽셀(x, y)의 가중치는 W(x, y) + 1로써 주어진다. 객체 픽셀에서의 왜곡을 강조하는 것에 의해, 가중된 왜곡 척도는 좀더 양호한 객체 보존을 초래하는데, R-D 최적화는 전반적인 MB 왜곡을 최소화하는 모드 선택을 시도하기 때문이다.
지각적인 QP 오프셋 방법은 지각적인 프레임-레벨 QP 오프셋 접근 방식으로서 특징 지워질 수 있다. 지각적인 QP 오프셋은 보존될 객체가 다수 MB에 걸쳐 있는 경우에 특히 유용하다. 기본적으로, 지각적인 QP 오프셋은 기준 프레임(I- 및 P-프레임)에서 좀더 양호한 품질을 산출한 다음 좀더 양호한 총 코딩 효율을 산출한다. 지각적인 QP 오프셋은 다음 관계를 전제로 하는데:
Figure pct00002
여기에서, QPI, QPP, 및 QPB는, 각각, I-, P- 및 B-프레임의 QP를 지시한다. 일정한 프레임 QP에 의한 레이트 제어의 수식에서, 프레임의 궁극적인 QP는 그 프레임의 특정한 QP 오프셋에 의해 가정된 일정한(즉, 모든 프레임에 대해 동일한) QP의 합이다. 이 경우, 각각의 프레임 타입에 대해 바람직한 QP 오프셋은 등가적으로 다음의 수학식 2와 같은데:
Figure pct00003
여기에서, △QPI, △QPP, 및 △QPB는, 각각, I-, P- 및 B-프레임의 QP 오프셋을 지시한다.
프레임-레벨의 QP 오프셋 계산을 위한 또 다른 중요 팩터는 HVS(human visual systems)의 시간 또는 움직임 마스킹 효과(temporal or motion masking effect)이다. 기본적으로, 사람 눈은 낮은 움직임 프레임보다 높은 움직임 프레임의 품질 열화에 덜 민감하다. 따라서, 코딩된 비디오에서 지각 품질의 동일 레벨이 여전히 인식될 수 있게 하면서, 낮은 움직임 프레임에 대한 QP보다 좀더 작은 QP가 높은 움직임 프레임에 적용되어야 하는데, 그것의 좀더 높은 시간 마스킹 효과 때문이다.
본 접근 방식은 프레임에서의 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여를 효과적으로 계산한 다음, 그것을 프레임 타입으로부터의 원래의 QP 오프셋 기여와 적당히 조합하는 것을 추구한다. 결과적인 프레임-레벨 QP 오프셋은 프레임 타입 및 시간 마스킹 효과 모두를 설명하고, 따라서 좀더 종합적이다. 본 접근 방식은 오프라인 비디오 코딩에서의 전체 비디오 클립 또는 시퀀스의 FBA(frame bit allocation)를 위해 미세 조정되었다. 이것에도 불구하고, 본 접근 방식은 일반적으로, 다양한 품질 개선 정도가 관련 미리보기 시간(look-ahead time)에 의존하는, 온라인 실시간 비디오 코딩에도 적용 가능하다. 광범위한 실험은, 오프라인 비디오 코딩에서 전역적으로 최적화된 FBA로부터 상당한 시각적 품질 개선을 보장하는기 위해 프레임 타입 팩터보다 프레임당 QP 오프셋에 대한 시간 마스킹 효과를 설명하는 것이 좀더 필요하고 중요하다는 것을 입증하였다.
온라인 또는 오프라인 비디오 코딩을 위한 대부분의 레이트 제어 방식은 FBA에서 프레임 타입 팩터만을 설명할 뿐, HVS 마스킹 효과로부터의 영향은 전혀 설명하지 않는다. 따라서, 오프라인 코딩의 경우, 평균 PSNR(peak signal-to-noise ratio)로 측정되는 그것의 주관적 코딩 효율이 프레임-타입 기반의 프레임당 QP 오프셋의 FBA를 통한 온라인 코딩에 비해 상당히 개선될 수 있는 경우라 하더라도, 중대한 지각적 품질 개선은 여전히 관찰될 수 없다. 시퀀스의 모든 프레임에 대한 비트 할당의 전역적 최적화 때문에, 높은 움직임 프레임에 온라인 코딩의 경우에서보다 좀더 많은 비트가 할당되고 높은 움직임 프레임이 좀더 많은 비트로 코딩된다는 것이 밝혀졌다. 온라인 코딩의 경우, 비트는 먼저 각각의 GOP(group of pictures)에 할당되고, CBR(constant bit rate)을 보장하기 위해, GOP의 할당된 비트는 수반되는 프레임 수, 즉, GOP 크기에만 비례할 뿐, 그것의 상이한 코딩 복잡도, 예를 들어, 높은 또는 낮은 움직임 등에 의해 영향받지 않는다. 따라서, 오프라인 코딩의 경우, 좀더 많은 비트가 주어지므로, 높은 움직임 프레임은 온라인 코딩에서보다 좀더 높은 PSNR로 코딩된다. 한편, 총 비트량은 동일하므로, 낮은 움직임 프레임은 좀더 낮은 PSNR로 코딩된다. PSNR 변화가 이 경우 확실히 크게 감소된다. 그러나, 좀더 일정한 PSNR이 좀더 일정한 지각 품질을 의미하지는 않는다. HVS 시간 마스킹 효과로 인해, 높은 움직임 프레임의 PSNR 이득은 낮은 움직임 프레임의 PSNR 감소보다 훨씬 덜 지각 가능하다. 이렇게 하여, 전반적인 지각 품질은, 대개, 온라인 코딩의 지각 품질보다 좀더 불량하다. 따라서, 본 접근 방식은 지각 품질 강화를 위해 전체 클립의 전역적 FBA에서 시간 마스킹 효과를 고려하는 것이 필요하고 중요하다는 것을 확인한다.
시간 마스킹을 설명하는 FBA를 수반하는 특정한 접근 방식은 종종, 레이트 제어를 위해 널리 채택되는 R-QP 모델링 접근 방식만큼 정확하고 일반적인 것은 아닌, 분류 기반이거나 프레임 복잡도 기반인 기본 레이트 모델을 가진다는 것에 주목하는 것이 중요하다. 더 나아가, 시간 마스킹을 고려하는 널리 채택된 FBA의 프레임당 QP 오프셋을 통한 것이 아니므로, R-QP 모델 기반 레이트 제어 솔루션에 적용될 수 없다.
따라서, 지각적인 프레임-레벨 QP 오프셋 접근 방식은 실제로, △QPMasking으로써 지시되는, 시간 마스킹으로 인한 QP 오프셋 부분과, △QPType으로써 지시되는, 프레임 타입으로 인한 부분의 적당한 조합이다. 이 방식은 실시간 단일 패스 코딩에 대해 오프라인 멀티-패스 코딩의 상당한 지각 품질 개선을 제공한다는 점에서 대단히 중요하다.
프레임 복잡도 메트릭에 의한 시간 마스킹 효과는 다음과 같이 정의되는데:
Figure pct00004
Figure pct00005
여기에서, Cmpl은 프레임의 복잡도를 지시한다.
Figure pct00006
는 프레임의 매 MB 당 평균 MV 코딩 비트를 지시한다.
Figure pct00007
는 프레임의 모든 MB에 대한 예측 잔여물의 평균된 MAD(mean-absolute-difference)를 지시한다. 따라서, 그들의 합은 정말로 현재 프레임의 움직임 강도를 표현하는데, 이는 또한 등가적으로 코딩 복잡도 및 프레임간 변화를 의미한다. 수학식 3에서의 간단한 합산 형태는 잘 된 추론(good heuristics)으로부터 광범위한 실험을 통해 유도된다.
인코더에서,
Figure pct00008
,
Figure pct00009
, 및 그에 따른 Cmpl 모두는 프레임의 인코딩 이전에 원래의 입력 프레임에 기초해 계산되고,
Figure pct00010
만이 루마 성분을 설명한다. 본 계산은, Inter16x16 및 Intra16x16 모드만을 점검하는 것 그리고 정수 움직임 벡터만을 검색하는 것을 포함하는 간략화된 인코딩 프로세스에 후속한다.
수학식 3으로부터 계산되는, 프레임의 복잡도는 수학식 4를 통해 추가로 제한된다. 복잡도가 0.1 미만인 경우, 예측 잔류물은 내재된 이미지 노이즈로 인해 존재하는 것으로 간주될 것이므로, 최소 복잡도를 0.1로 설정할 수 있는데, 이는 가능할 수 있는 "0으로 나누기" 오류를 방지하는 역할도 한다. 또한, 움직임 벡터 차이가 없는 상태에서도, 수학식 3에서의 최소 평균 움직임 벡터 비트
Figure pct00011
는 여전히 2이다. 따라서, 이 부분은 항상 제거된다.
여기에서 프레임 복잡도는, 프레임 디스플레이 또는 시청 순서가 순방향을 따르므로, 각각의 프레임에 대해 순방향 프레임간 예측을 통해서만 계산된다는 것에 주목해야 한다. 즉, 프레임의 유형(즉, I, P, 또는 B-프레임 중 어떤 것)에 상관없이, 모든 프레임에 대해, 수학식 3에서 계산된 프레임 복잡도만을 사용해 그것의 움직임 강도 및 그에 따른 움직임 마스킹 효과를 측정할 것이다.
다음의 수학식 10으로부터 알 수 있는 바와 같이, 최종적인 QP 오프셋은 실제로, △QPMasking으로써 지시되는, 시간 마스킹으로 인한 QP 오프셋 부분과, △QPType으로써 지시되는, 프레임 타입으로 인한 부분의 적당한 조합이다. 이 방식은 실시간 단일 패스 코딩에 대해 오프라인 멀티-패스 코딩의 상당한 지각적 품질 개선을 제공한다는 점에서 대단히 중요하다. 본 방식은 다음 계산을 수반한다:
● △QPMasking 계산하기: 프레임에 n에 대해:
Figure pct00012
● 프레임 n이 장면-변화 프레임이면, 수학식 5 대신에:
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
여기에서, K=1이다. 2K+1 = 3은 창 크기이다. Complmax = 40이다. a = 0.5이다. N은 비디오 클립의 총 프레임 수를 지시한다. △QPMasking,max = 8이고, △QPMasking,min = -8이다.
● △QPType 계산하기: 프레임 n에 대해:
● I-프레임인 경우:
Figure pct00017
Figure pct00018
● P-프레임인 경우:
그것이 B-프레임의 예측에 사용되면 -> △QPType(n) = -2
그렇지 않다면 -> △QPType(n) = 0
● B-프레임인 경우: -> △QPType(n) = +4
여기에서, GOPAvgCompl은 첫번째 I-프레임을 제외한 현재 GOP의 평균 프레임 복잡도이다.
● 최종적인 △QP 계산하기: 프레임 n에 대해:
Figure pct00019
여기에서, △QPmax = 15이고, △QPmin = -15이다.
수학식 5에서, 프레임의 시간 마스킹 복잡도는 특정 창 크기(즉, 2K+1)에서 현재 프레임의 이웃 프레임에 대한 평균 프레임 복잡도로서 계산된다. 이것은 어떤 저역-통과 필터링을 적용하여 프레임 복잡도의 가능할 수 있는 높은 동적 변화로 인한 프레임의 시간 마스킹 복잡도에 대한 높은 동적 변화를 방지하는 것이다.
화면-변화 프레임의 경우, 그것의 프레임 복잡도는 아주 높을 것이다. 따라서, 그것의 시간 마스킹 복잡도는 수학식 6에서와 같이 특별하게 계산되는데, 여기에서는 그것의 프레임 복잡도에 대해 최대 제약 조건이 적용되고 평균화는 동일 화면에서의 그것의 순방향 이웃 프레임에 대해서만 적용된다.
시간 마스킹 프레임 복잡도가 주어지면, 시간 마스킹 효과로부터의 QP 오프셋 부분이 수학식 7에서와 같이 선형 매핑을 통해 계산된다. 이것은, 복잡도 메트릭과 함께 효과적으로 작동하는 잘 된 추론으로부터 파생된다. 그 다음, 수학식 7로부터의 △QPMasking(n)은 평균 △QPMasking으로써 정규화되고, 수학식 9에서 표시된 바와 같이, 합리적인 특정 범위 이내로 한정된다.
본 발명의 △QPtype 계산은 수학식 2에서 설명되는 추론 규칙을 구현한다. 구체적으로, GOP가 좀더 많은 프레임을 갖거나 GOP가 좀더 낮은 움직임을 가지면, GOP의 첫번째 I-프레임에 대한 비트가 많을수록 좀더 바람직할 것인데, 이는 GOP에서의 다음 프레임에 대해 좀더 많은 코딩 효율성 이점을 가져올 것이기 때문이다. 따라서, 이 경우, 좀더 큰 음의 QP 오프셋이 요구될 것이고, 그 역도 또한 같을 것이다.
그 다음, 시간 마스킹 효과 및 프레임 타입 영향 모두로부터의 QP 오프셋 기여는, 수학식 10에서 간단한 덧셈 및 결합을 통해 함께 조합된다. 그 다음, 비트 할당시의 일정한 품질을 위해 일정한 QP를 가정하면서, 수학식 10으로부터의 결과적인 프레임당 QP 오프셋이 R-QP 모델링 기반의 레이트 제어 솔루션에 사용되어 시퀀스의 매 프레임에 대한 할당 비트를 계산할 것이다.
프레임-레벨 비트 할당을 위한 이러한 레이트 제어 솔루션의 간단한 설명이 다음과 같이 설명된다.
1. QPOpt로서 지시되는 최적 QP 검색하기:
2. QPOpt에 기초해 각 프레임에 대한 할당된 비트 버짓 계산하기:
Figure pct00021
여기에서, RTotal은 전체 비디오 시퀀스에 대한 총 비트 수를 지시한다. N은 비디오 시퀀스의 총 프레임 수이다. Ri는 프레임 i를 위한 비트 수이다. △QPi는 수학식 8에서 계산되는 바와 같은 지각적인 프레임-레벨 QP 오프셋이다. Ri , alloc은 프레임 i에 대한 할당 비트 수이다.
전역적으로 최적화된 R-QP 모델 기반 프레임-레벨 비트 할당에서 지각적인 프레임-레벨 QP 오프셋을 사용하는 전체 비디오 시퀀스의 프로세스(500) 일례가 도 5의 흐름도에서 예시된다. 표시된 바와 같이, 전체 입력 비디오 시퀀스가 수신되고, 각각의 프레임에 대해, 앞서 설명된 바와 같은 간략화된 인코딩(수학식 3 및 수학식 4)을 사용해 프레임 복잡도가 계산된다(502). 그 다음, 각각의 프레임에 대해, GOP 각각의 GOP 경계 및 GOP 코딩 패턴에 대한 판정을 사용해 프레임 타입이 선택된다(504). 그 다음, 각각의 프레임에 대해, 앞서 논의된 바와 같이 수학식 7 및 △QPType을 사용해 △QPMasking이 계산된다(506). 그 다음, 모든 프레임에 대한 평균 △QPMasking이 계산된다(508). 각각의 프레임에 대해, △QPMasking은 수학식 9를 사용해 정규화되고 수학식 10을 사용해 최종적인 △QP를 계산한다(510). 계산된 최종적인 △QP를 사용해, 수학식 11 및 수학식 12와 관련하여 앞서 설명된 바와 같이 R-QP 기반 레이트 제어를 사용해 다음으로 각각의 프레임을 위한 할당된 비트 버짓을 계산한다(512). 이 단계에서, 전체 시퀀스는 MB-레벨 레이트 제어 및 인코딩을 사용해 성취된 각각의 프레임을 위한 할당된 비트 버짓으로 인코딩된다(514).
광범위한 실험 결과는: 시간 마스킹 효과를 고려하지 않으면서, △QPType만을 프레임 QP 오프셋으로 사용하면, 수학식 9 및 수학식 10에서와 같이 이용 가능한 전체 시퀀스를 이용한 전역적으로 최적화된 레이트 제어가 이용 가능한 단 하나의 현재 GOP를 이용한 국지적으로 최적화된 레이트 제어보다 나을 것이 없다는 것을 나타낸다. 그러나, 본 발명의 실시예에서 명시된 바와 같이 시간 마스킹 효과를 추가로 고려하면, 상당한 지각적 품질 개선이 실현될 수 있다. 구체적으로, GOP 최적화된 레이트 제어에 비해, 제안된 프레임-레벨 QP 오프셋 접근 방식을 이용한 시퀀스 최적화된 레이트 제어가, 낮은 움직임 GOP에 대해서는 약간 악화된 품질을 실현하지만: (i) 높은 움직임 프레임과 인접한 낮은 움직임 프레임; 및 (ii) 화면 끝의 낮은 움직임 짧은 GOP에 대해서는 훨씬 양호한 코딩 품질을 달성할 수 있다. 전반적으로, 코딩된 비디오의 시각 경험은 항상 좀더 양호하다.
도 6은 본 발명이 적용될 수 있는 예시적 비디오 인코더(600)의 블록도를 나타낸다. 처음에, 프로세서(601) 및 메모리(602)는 인코더의 모든 요소와 신호 통신하고 있고 그들을 제어하도록 동작한다. 비디오 인코더(600)로의 입력은 서밍 정션(610;summing junction)의 비반전 입력과 신호 통신하도록 접속된다. 서밍 정션(610)의 출력은 트랜스포머/양자화기(620)와 신호 통신하도록 접속된다. 트랜스포머/양자화기(620)의 출력은 엔트로피 코더(640)와 신호 통신하도록 접속된다. 엔트로피(640)의 출력은 인코더(600)의 출력으로 이용 가능하다.
트랜스포머/양자화기(620)의 출력은 추가로 반전 트랜스포머/양자화기(650)와 신호 통신하도록 접속된다. 반전 트랜스포머/양자화기(650)의 출력은 디블록 필터(660;deblock filter)의 입력과 신호 통신하도록 접속된다. 디블록 필터(660)의 출력은 참조 픽처 저장소(670:reference pictures stores)와 신호 통신하도록 접속된다. 참조 픽처 저장소(670)의 제1 출력은 움직임 추정기(680)의 제1 입력과 신호 통신하도록 접속된다. 인코더(600)의 입력은 추가로 움직임 추정기(680)의 제2 입력과 신호 통신하도록 접속된다. 움직임 추정기(680)의 출력은 움직임 보상기(690)의 제1 입력과 신호 통신하도록 접속된다. 참조 픽처 저장소(670)의 제2 출력은 움직임 보상기(690)의 제2 입력과 신호 통신하도록 접속된다. 움직임 보상기의 출력은 서밍 정션(610)의 반전 입력과 신호 통신하도록 접속된다.
단순 QP 오프셋 프로세스와 관련하여, 그것은 프레임-레벨 레이트 제어 방법이 MB의 QP를 결정한 후 QP를 변경한다. 그러나, 많은 MB를 이런 식으로 변경하는 것은 레이트 제어 프로세스에 불안정을 초래할 수 있고 전반적인 인식 품질을 감소시킬 수 있다. 프레임-레벨 레이트 제어 프로세스 이전에 (그것의 소망되는 지각 품질에 기초해) 각각의 MB를 위해 소망되는 QP 오프셋을 명시하는 것이 좀더 양호하다는 것이 결정되었다. 그 다음, 레이트 제어 프로세스는 그에 따라 각각의 MB에 리소스를 할당하기 위해 모든 정보를 고려한다.
본 발명에 따라 관심 객체를 보존하는 전략은 상기 3가지 프로세스(즉, 단순 양자화 파라미터 (QP) 오프셋, 가중된 왜곡 메트릭, 및 지각적인 양자화 (QP) 오프셋)의 조합에 의해 결정될 수 있다. 본 조합은 보존될 객체와 화면의 특징을 고려할 수 있는 수개 기준에 의존할 수 있다.
한가지 전략은 프레임에서 관심 객체의 총 면적을 고려하는 것을 수반한다. 인코더 가중치가 0을 초과하는(즉, W(x, y) > 0인) 픽셀 수가 사전 결정된 임계 면적(Tarea)보다 작은 면적을 포함하면, 지각적인 QP 오프셋 방법이 활용되어야 한다.
제2 전략은 객체 픽셀을 포함하는 총 MB 수 또는 객체 픽셀 수를 고려하는 것을 수반한다. 객체 픽셀을 포함하는 총 MB 수 또는 객체 픽셀 수가 임계값(Tarea)보다 작은 면적을 가지면, 단순 QP 오프셋 방법 또는 가중된 왜곡 척도를 사용한다.
이 2개 전략은 보존될 MB 수가 큰 경우 지각적인 QP 오프셋 방법이 좀더 강력하다는 예상에 기초한다. 그러나, 단순 QP 오프셋 방법 및 가중된 왜곡 척도 방법은 수개 MB만이 수반되는 경우에도 좀더 양호한 결과를 제공한다.
전략을 결정하는 기준은 객체 수 그리고, 관심 객체의 면적, 객체의 중요도, 객체의 속도, 및 객체 보존의 이력(예를 들어, 선행 프레임의 해당 MB에 좀더 높은 QP가 부여되었는지의 여부)과 같은, 화면 특징에 기초해 결정된다.
본 발명의 한가지 응용에서는, 화상 회의 시스템 비디오에서 얼굴 영역이 탐지되어 배경 영역의 양자화 입도(quantization granularity)를 제어하는데 사용된다.
상기한 것은 본 발명을 실시하기 위한 가능성 중 일부를 예시한다. 본 발명의 범위 및 정신 내에서 다른 많은 실시예가 가능하다. 따라서, 상기 설명은 한정이 아닌 예시로서 간주된다는 것과 본 발명의 범위는 첨부된 청구항의 완전한 등가물 범위와 함께 첨부된 청구항에 의해 부여된다는 것이 의도된다.

Claims (16)

  1. 복수개 프레임을 가진 비디오 시퀀스로부터 적어도 2개 프레임을 선택하는 단계;
    상기 선택된 프레임 각각에서 적어도 1개 관심 객체의 총 면적을 결정하는 단계;
    각각의 총 면적을 임계 면적과 비교하는 단계;
    상기 임계 면적을 초과하는 총 면적을 가진 선택된 프레임 각각을 낮은 객체 가중 프레임으로 분류하는 단계;
    상기 임계 면적을 초과하지 않는 총 면적을 가진 선택된 프레임 각각을 높은 객체 가중 프레임으로 분류하는 단계; 및
    각각의 낮은 객체 가중 프레임을 제1 인코딩 모드에 따라 인코딩하고 각각의 높은 객체 가중 프레임을 상이한 인코딩 모드에 따라 인코딩하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    프레임의 어떤 매크로블록들이 상기 적어도 1개 관심 객체를 포함하는지 결정하는 단계;
    상기 적어도 2개 프레임 각각에 대한 초기 QP를 결정하는 단계;
    상기 낮은 객체 가중 프레임에 대한 상기 초기 QP에 오프셋을 적용하는 단계; 및
    상기 적용하는 단계에 응답하여 상기 적어도 1개 관심 객체에 포함된 상기 매크로블록들에 대한 비트 할당을 증가시키는 단계를 포함하는 방법.
  3. 제1항에 있어서,
    연속적인 높은 객체 가중 프레임들에 대해 프레임에서 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여(△QPMasking)를 결정하는 단계(106);
    상기 △QPMasking을 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합하는 단계(110); 및
    상기 프레임 타입으로부터 획득되는 QP 오프셋 기여(△QPType)와 조합되어 계산된 △QPMasking을 사용해 획득되는 비트 레이트를 사용해 상기 연속적인 높은 객체 가중 프레임들을 인코딩하는 단계(114)를 포함하는 방법.
  4. 제3항에 있어서,
    상기 연속적인 높은 객체 가중 프레임들에 대한 프레임 복잡도를 계산하는 단계(102);
    상기 연속적인 높은 객체 가중 프레임들의 GOP 각각에 대한 GOP 경계 및 GOP 코딩 패턴에 기초해 프레임 타입을 선택하는 단계(104); 및
    프레임 타입에 기초하여 프레임당 QP-오프셋 기여(△QPType)를 계산하는 단계(106)를 더 포함하는 방법.
  5. 제4항에 있어서,
    모든 높은 객체 가중 프레임에 대한 평균 △QPMasking을 계산하는 단계(108);
    △QPMasking을 정규화하는 단계(110); 및
    최종적인 프레임당 △QP를 계산하는 단계(110)를 더 포함하는 방법.
  6. 제5항에 있어서,
    상기 계산된 최종적인 프레임당 △QP를 사용해 할당된 비트 버짓 및 레이트 제어를 계산하는 단계(112)를 더 포함하는 방법.
  7. 제3항에 있어서,
    프레임에서 시간 마스킹 효과량으로부터 프레임당 QP 오프셋 기여(△QPMasking)를 계산하는 상기 단계(106)는
    Figure pct00022
    을 사용해 수행되며, 여기에서 ComplMasking(n)은 높은 객체 가중 프레임들에 대한 사전 결정된 창 크기에서 현재 프레임의 이웃 프레임들에 대한 평균으로 계산되는 프레임의 시간 마스킹 복잡도를 포함하는 방법.
  8. 제4항에 있어서,
    높은 객체 가중 프레임들에 대한 각각의 프레임에 대해 프레임 복잡도를 계산하는 상기 단계(102)는 순방향 프레임간 예측을 사용해 수행되는 방법.
  9. 제3항에 있어서,
    프레임의 어떤 매크로블록들이 상기 적어도 1개 관심 객체를 포함하는지 결정하는 단계;
    상기 적어도 2개 프레임 각각에 대해 초기 QP를 결정하는 단계; 및
    상기 낮은 객체 가중 프레임에 대한 상기 초기 QP에 오프셋을 적용함으로써, 상기 적어도 1개 관심 객체에 포함된 상기 매크로블록들에 대한 비트 할당이 증가하는 단계를 포함하는 방법.
  10. 제4항에 있어서,
    프레임의 어떤 매크로블록들이 상기 적어도 1개 관심 객체를 포함하는지 결정하는 단계;
    상기 적어도 2개 프레임 각각에 대해 초기 QP를 결정하는 단계; 및
    상기 낮은 객체 가중 프레임에 대한 상기 초기 QP에 오프셋을 적용함으로써, 상기 적어도 1개 관심 객체에 포함된 상기 매크로블록들에 대한 비트 할당이 증가하는 단계를 포함하는 방법.
  11. 제1항에 있어서,
    상기 낮은 객체 가중 프레임에 대한 하나보다 많은 코딩 모드에 대해 원본과 인코딩된 매크로블록 픽셀 사이의 SAD(sum of absolute differences)를 결정하는 단계;
    상기 낮은 객체 가중 프레임에 대해 SAD를 결정하는 상기 단계에서 적어도 하나의 다른 코딩 모드보다 더 낮은 SAD를 가진 코딩 모드를 선택하는 단계; 및
    상기 낮은 객체 가중 프레임을 상기 선택하는 단계에서 선택된 개개의 코딩 모드에 따라 코딩하는 단계를 포함하는 방법.
  12. 제11항에 있어서,
    상기 SAD를 결정하는 단계에서, 상기 객체의 픽셀들에 비-객체 픽셀들보다 좀더 큰 가중치가 할당되도록 인코더 가중치 배열을 적용하는 단계를 포함하는 방법.
  13. 비디오 시퀀스를 인코딩하기 위한 인코더로서,
    비디오 프레임에서 관심 객체들의 면적을 결정하기 위한 수단;
    모드 선택 임계 면적을 설정하기 위한 수단;
    상기 객체들의 면적을 복수개 프레임의 상기 임계 면적과 비교하기 위한 수단;
    상기 비교하는 수단에 응답하여 인코딩 모드를 선택하기 위한 수단 - 상기 선택하기 위한 수단은 상이한 프레임들에 대해 상이한 인코딩 모드들을 선택하도록 구성됨 -; 및
    상기 상이한 프레임들을 상기 상이한 인코딩 모드들로 인코딩하도록 구성된 인코딩 수단
    을 포함하는 인코더.
  14. 제13항에 있어서,
    상기 결정하기 위한 수단은 상기 관심 객체들을 구성하는 픽셀들의 수를 결정하고;
    상기 선택하기 위한 수단은 상기 임계 면적을 초과하는 상기 픽셀들의 수의 면적을 가진 프레임들에 대해 지각적인 양자화 파라미터 오프셋 결정을 이용하며;
    상기 인코딩 수단은 상기 지각적인 양자화 파라미터 오프셋 결정에 응답하는 코딩 모드로 상기 프레임을 코딩하는 인코더.
  15. 제14항에 있어서,
    상기 결정하기 위한 수단은 상기 관심 객체들을 구성하는 픽셀 수를 결정하고;
    상기 선택하기 위한 수단은 단순 QP 오프셋 결정을 이용하고 - 상기 선택하기 위한 수단은 임계값을 초과하지 않는 상기 픽셀들의 수의 면적을 가진 적어도 2개 프레임 각각에 대해 초기 QP를 결정하고 상기 적어도 2개 프레임에 대한 상기 초기 QP에 오프셋을 적용하도록 구성되어, 상기 오프셋에 응답하여 상기 적어도 1개 관심 객체에 포함된 매크로블록들에 대해 비트 할당을 증가시킴 -;
    상기 인코딩 수단은 상기 임계값을 초과하지 않는 상기 픽셀들의 수의 면적을 가진 상기 적어도 2개 프레임을 상기 오프셋에 응답하는 코딩 모드로 코딩하는 인코더.
  16. 제13항에 있어서,
    상기 결정하기 위한 수단은 상기 관심 객체들을 구성하는 픽셀들의 수를 결정하고;
    상기 선택하기 위한 수단은 단순 QP 오프셋 결정을 이용하고 - 상기 선택하기 위한 수단은 상기 임계값을 초과하지 않는 상기 픽셀들의 수의 면적을 가진 적어도 2개 프레임 각각에 대해 초기 QP를 결정하고 상기 적어도 2개 프레임에 대한 상기 초기 QP에 오프셋을 적용하도록 구성되어, 상기 오프셋에 응답하여 상기 적어도 1개 관심 객체에 포함된 매크로블록들에 대한 비트 할당을 증가시킴 -;
    상기 인코딩 수단은 상기 임계값을 초과하지 않는 상기 픽셀들의 수의 면적을 가진 상기 적어도 2개 프레임을 상기 오프셋에 응답하는 코딩 모드로 코딩하는 인코더.
KR1020127015266A 2009-12-14 2010-12-08 객체-인식 비디오 인코딩 전략 KR101882024B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US28415109P 2009-12-14 2009-12-14
US61/284,151 2009-12-14
PCT/US2010/003110 WO2011081639A2 (en) 2009-12-14 2010-12-08 Object-aware video encoding strategies

Publications (2)

Publication Number Publication Date
KR20120114263A true KR20120114263A (ko) 2012-10-16
KR101882024B1 KR101882024B1 (ko) 2018-07-25

Family

ID=44168390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127015266A KR101882024B1 (ko) 2009-12-14 2010-12-08 객체-인식 비디오 인코딩 전략

Country Status (6)

Country Link
US (1) US9118912B2 (ko)
EP (1) EP2514207A2 (ko)
JP (1) JP5969389B2 (ko)
KR (1) KR101882024B1 (ko)
CN (1) CN102656886B (ko)
WO (1) WO2011081639A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020055097A1 (ko) * 2018-09-10 2020-03-19 삼성전자 주식회사 객체를 인식하는 전자 장치 및 그 전자 장치를 제어하는 방법
WO2023140446A1 (ko) * 2022-01-19 2023-07-27 한화비전 주식회사 영상처리장치 및 그의 영상처리방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510644B2 (en) * 2011-10-20 2013-08-13 Google Inc. Optimization of web page content including video
WO2013086137A1 (en) 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9311746B2 (en) 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
US10045032B2 (en) 2013-01-24 2018-08-07 Intel Corporation Efficient region of interest detection
US9398302B2 (en) * 2013-03-08 2016-07-19 Mediatek Inc. Image encoding method and apparatus with rate control by selecting target bit budget from pre-defined candidate bit budgets and related image decoding method and apparatus
GB201312382D0 (en) 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding
WO2015143619A1 (en) * 2014-03-25 2015-10-01 Owtware Holdings Limited, BVI Video content classification
US20150288965A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Adaptive quantization for video rate control
FR3022095B1 (fr) * 2014-06-06 2017-09-01 Daniel Elalouf Dispositif et procede de transmission de donnees multimedia
US9549188B2 (en) * 2014-07-30 2017-01-17 Intel Corporation Golden frame selection in video coding
WO2016122024A1 (ko) * 2015-01-30 2016-08-04 디에스글로벌(주) 가상 촬영 서비스 시스템 및 방법
US10735755B2 (en) * 2015-04-21 2020-08-04 Arris Enterprises Llc Adaptive perceptual mapping and signaling for video coding
JP6391694B2 (ja) * 2015-07-31 2018-09-19 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd ビデオ符号化方法及びシステム
WO2017020184A1 (en) * 2015-07-31 2017-02-09 SZ DJI Technology Co., Ltd. Methods of modifying search areas
JP6537396B2 (ja) * 2015-08-03 2019-07-03 キヤノン株式会社 画像処理装置、撮像装置および画像処理方法
CN106920255B (zh) * 2015-12-24 2020-06-05 航天信息股份有限公司 一种针对图像序列的运动目标提取方法及装置
CN106231303B (zh) * 2016-07-22 2020-06-12 上海交通大学 一种hevc编码中使用预测模式进行复杂度控制的方法
CN106331707B (zh) * 2016-08-30 2020-03-13 上海大学 基于恰可觉察失真模型的非对称感知视频编码系统及方法
CN108347607B (zh) * 2017-01-25 2020-08-18 联咏科技股份有限公司 固定码率且基于行的嵌入式视频压缩方法和图像处理设备
KR20210072344A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 전자장치 및 그 제어방법
CN113011210B (zh) * 2019-12-19 2022-09-16 北京百度网讯科技有限公司 视频处理方法和装置
US11263261B2 (en) * 2020-02-14 2022-03-01 Alibaba Group Holding Limited Method and system for characteristic-based video processing
CN114979610A (zh) * 2021-02-26 2022-08-30 微软技术许可有限责任公司 用于3d场景重构的图像传输
WO2024040535A1 (zh) * 2022-08-25 2024-02-29 深圳市大疆创新科技有限公司 视频处理方法、装置、设备和计算机存储介质
WO2024076273A1 (en) * 2022-10-07 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Object-based qp adaptation
CN116614631B (zh) * 2023-05-17 2024-03-19 北京百度网讯科技有限公司 视频处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137132A (ja) * 1991-11-15 1993-06-01 Victor Co Of Japan Ltd 適応量子化装置
JPH08181992A (ja) * 1994-12-27 1996-07-12 Sharp Corp 動画像符号化装置および領域抽出装置
GB2371434A (en) * 2001-01-19 2002-07-24 Motorola Inc Encoding and transmitting video data
WO2009126258A1 (en) * 2008-04-11 2009-10-15 Thomson Licensing System and method for enhancing the visibility of an object in a digital picture

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227524A (ja) * 1991-09-30 1993-09-03 Victor Co Of Japan Ltd データ圧縮装置
US5214507A (en) 1991-11-08 1993-05-25 At&T Bell Laboratories Video signal quantization for an mpeg like coding environment
US6192075B1 (en) 1997-08-21 2001-02-20 Stream Machine Company Single-pass variable bit-rate control for digital video coding
US6782135B1 (en) * 2000-02-18 2004-08-24 Conexant Systems, Inc. Apparatus and methods for adaptive digital video quantization
US6944224B2 (en) * 2002-08-14 2005-09-13 Intervideo, Inc. Systems and methods for selecting a macroblock mode in a video encoder
US20060109902A1 (en) * 2004-11-19 2006-05-25 Nokia Corporation Compressed domain temporal segmentation of video sequences
EP1872590B1 (en) * 2005-04-19 2014-10-22 Telecom Italia S.p.A. Method and apparatus for digital image coding
US8149909B1 (en) * 2005-10-13 2012-04-03 Maxim Integrated Products, Inc. Video encoding control using non-exclusive content categories
JP4993676B2 (ja) * 2006-09-01 2012-08-08 キヤノン株式会社 画像符号化装置及び画像符号化方法
EP2193663B1 (en) * 2007-09-28 2017-11-08 Dolby Laboratories Licensing Corporation Treating video information
JP2011517228A (ja) * 2008-04-11 2011-05-26 トムソン ライセンシング デジタル画像内のオブジェクトの視認性を向上させるシステム及びその方法
WO2010057170A1 (en) * 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
US8634436B2 (en) * 2008-11-25 2014-01-21 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for statistical multiplexing
CN101494785B (zh) * 2008-12-19 2012-05-09 无锡云视界科技有限公司 一种h.264感兴趣区域编码的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137132A (ja) * 1991-11-15 1993-06-01 Victor Co Of Japan Ltd 適応量子化装置
JPH08181992A (ja) * 1994-12-27 1996-07-12 Sharp Corp 動画像符号化装置および領域抽出装置
GB2371434A (en) * 2001-01-19 2002-07-24 Motorola Inc Encoding and transmitting video data
WO2009126258A1 (en) * 2008-04-11 2009-10-15 Thomson Licensing System and method for enhancing the visibility of an object in a digital picture

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020055097A1 (ko) * 2018-09-10 2020-03-19 삼성전자 주식회사 객체를 인식하는 전자 장치 및 그 전자 장치를 제어하는 방법
US11410413B2 (en) 2018-09-10 2022-08-09 Samsung Electronics Co., Ltd. Electronic device for recognizing object and method for controlling electronic device
WO2023140446A1 (ko) * 2022-01-19 2023-07-27 한화비전 주식회사 영상처리장치 및 그의 영상처리방법

Also Published As

Publication number Publication date
US9118912B2 (en) 2015-08-25
WO2011081639A2 (en) 2011-07-07
CN102656886A (zh) 2012-09-05
US20120224629A1 (en) 2012-09-06
EP2514207A2 (en) 2012-10-24
KR101882024B1 (ko) 2018-07-25
CN102656886B (zh) 2016-08-10
JP2013513998A (ja) 2013-04-22
JP5969389B2 (ja) 2016-08-17
WO2011081639A3 (en) 2011-09-09

Similar Documents

Publication Publication Date Title
US9118912B2 (en) Object-aware video encoding strategies
CN103650504B (zh) 基于图像捕获参数对视频编码的控制
US11240496B2 (en) Low complexity mixed domain collaborative in-loop filter for lossy video coding
US8750372B2 (en) Treating video information
US5832115A (en) Ternary image templates for improved semantic compression
Meddeb et al. Region-of-interest-based rate control scheme for high-efficiency video coding
Shen et al. A novel H. 264 rate control algorithm with consideration of visual attention
Chen et al. Block-composed background reference for high efficiency video coding
US20100322300A1 (en) Method and apparatus for adaptive feature of interest color model parameters estimation
US20140321552A1 (en) Optimization of Deblocking Filter Parameters
WO2009094036A1 (en) Coding mode selection for block-based encoding
Zatt et al. Gop structure adaptive to the video content for efficient H. 264/AVC encoding
US10440384B2 (en) Encoding method and equipment for implementing the method
JP2010537489A (ja) 関心のある領域の情報を使用した改善されたビデオ符号化の方法及び装置
US20070291842A1 (en) Optimal Denoising for Video Coding
Zupancic et al. Two-pass rate control for improved quality of experience in UHDTV delivery
US20170374361A1 (en) Method and System Of Controlling A Video Content System
US20110317912A1 (en) Method, apparatus and computer-readable medium coding and decoding depth image using color image
Gorur et al. Skip decision and reference frame selection for low-complexity H. 264/AVC surveillance video coding
US9432694B2 (en) Signal shaping techniques for video data that is susceptible to banding artifacts
Sanchez Rate control for predictive transform screen content video coding based on RANSAC
US20120207212A1 (en) Visually masked metric for pixel block similarity
JP2005524353A (ja) 小さいレートのアプリケーションのためにデジタル画像を処理する方法
Hu et al. In-loop perceptual model-based rate-distortion optimization for HEVC real-time encoder
Wu et al. Constant frame quality control for H. 264/AVC

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant