KR20140016999A

KR20140016999A - 프레임 유사성들 및 시각적 품질 및 관심들에 기초한 프레임 인코딩 선택

Info

Publication number: KR20140016999A
Application number: KR1020137034938A
Authority: KR
Inventors: 더글라스 스콧 프라이스; 시아오송 주; 시-중 우
Original assignee: 애플 인크.
Priority date: 2011-07-01
Filing date: 2012-06-29
Publication date: 2014-02-10
Also published as: KR101602032B1; US20130003846A1; EP2727344B1; CN103636212A; WO2013006469A1; TWI511529B; JP2014523713A; EP2727344A1; JP5766877B2; CN103636212B; TW201306601A; US9723315B2

Abstract

높은 시각적 매력을 가지며, 코딩된 비디오의 프레임 레이트들이 움직이는 비디오의 인지적 감각들이 유실될만큼 낮은 레벨들로 떨어지는 경우 높은 품질에서 코딩될 수 있는 비디오 시퀀스로부터 프레임들을 선택하도록 결정하기 위한 시스템 및 방법. 메트릭은 후보 입력 프레임으로부터 유도되고, 이러한 메트릭은 후보 입력 프레임에 따라 가중치를 증가시킬지 또는 감소시킬지 결정하기 위해 사용된다. 실시예에서, 메트릭은 후보 입력 프레임과 연관된 자동 노출 데이터일 수 있다.

Description

프레임 유사성들 및 시각적 품질 및 관심들에 기초한 프레임 인코딩 선택{FRAME ENCODING SELECTION BASED ON FRAME SIMILARITIES AND VISUAL QUALITY AND INTERESTS}

관련 출원들에 대한 교차 참조

이 출원은 FRAME ENCODING SELECTION BASED ON FRAME SIMILARITIES AND VISUAL QUALITY AND INTERESTS라는 명칭으로 2011년 7월 1일에 출원된, 이전에 출원된 미국 가특허 출원 일련 번호 제61/503,795호의 이익을 주장한다. 상기 가출원은 그 전체 내용이 참조로 여기에 포함된다.

본 발명의 양상들은 일반적으로 비디오 프로세싱의 분야에 관한 것이며, 더 구체적으로는 예측 비디오 코딩 시스템에 관한 것이다.

비디오 디스플레이 시스템들은 다수의 이미지들이 10 프레임/초(fps) 또는 그 이상의 레이트로 디스플레이될 때 움직이는 비디오(moving video)의 느낌을 전한다. 비디오 코딩 시스템들은 비디오 시퀀스를 코딩하고, 그것을 대역폭-제한 채널을 통해 전송함으로써 모션을 전달하려고 시도한다. 그러나, 채널 대역폭은, 경고 없이, 많은 시스템들에서 달라질 수 있다. 채널 코딩 시스템들은 코딩된 비디오 데이터를 채널에 의해 제공되는 대역폭에 맞추기 위해 비디오 시퀀스의 파라미터들(양자화 파라미터, 코딩 모드들, 프레임 사이즈 및 프레임 레이트)을 동적으로 변경시킨다. 비디오 코딩 프로토콜들은 손실성 프로세스들이며, 따라서, 일부 코딩 파라미터들은 복원된 비디오의 인지적 품질을 저하시킬 수 있다.

그러나, 일부 경우들에서, 대역폭 제한들이 매우 엄격해져서, 인코더는 복원된 비디오가 "움직이는" 비디오로서 인지되는 것을 중단하는 레벨로 프레임 레이트를 떨어뜨려야 한다. 예를 들어, 1-3 fps에서, 복원된 비디오는 움직이는 비디오라기보다는 일련의 정지 이미지들(슬라이드 쇼 효과와 유사함)로서 인지된다. 소비자들은 시각적으로 매력없는 이미지들 - 흐릿한 이미지들, 노출되지 않은 이미지들 등 - 이 연장된 시간 기간 동안 단말에서 디스플레이되는 경우 코딩된 시퀀스들의 품질을 특히 나쁜 것으로 인지한다. 따라서, 본 발명자들은, 엄격한 대역폭 제한들 동안 코딩을 위한 높은 품질의 이미지들을 선택하는 코딩 제어 방식에 대한 당해 기술분야의 요구를 인지하고 있다.

도 1의 (a)는 본 발명의 실시예에 따른 비디오 코딩 시스템을 예시하는 간략화된 블록도이다.
도 1의 (b)는 본 발명의 실시예에 따른 단말의 컴포넌트들을 예시하는 간략화된 블록도이다.
도 2의 (a) 및 (b)는 본 발명의 실시예에 따라, 비디오 코더가 시간 데이터에 기초하여 기준 프레임들을 선택하는 코딩 동작을 예시하는 도면이다.
도 3은 본 발명의 실시예에 따라, 자동 노출 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법을 예시하는 간략화된 흐름도이다.
도 4의 (a) 및 (b)는 본 발명의 실시예에 따라, 공간 복잡도 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법을 예시하는 흐름도이다.
도 5는 본 발명의 실시예에 따라, 모션 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법을 예시하는 간략화된 흐름도이다.
도 6은 본 발명의 실시예에 따라, 시각적 관심 표시자들에 기초하여 기준 프레임들을 선택하기 위한 방법을 예시하는 간략화된 흐름도이다.
도 7은 본 발명의 실시예에 따라, 비디오 코더가 슬라이드 쇼 모드에 있는 경우의 방법을 예시하는 간략화된 흐름도이다.

본 발명의 실시예들은 비디오 시퀀스로부터, 시각적으로 매우 매력적이며 높은 품질로 코딩될 수 있는 프레임들을 선택하기 위해, 코딩된 비디오의 프레임 레이트들이 언제 움직이는 비디오의 인지적 감각들이 유실될만큼 낮은 레벨들로 떨어지는지, 그리고 언제 이러한 프레임 레이트들이 사용중인지를 결정하기 위한 기법들을 제공한다. 이러한 프레임들은 더 낮은 매력 및/또는 품질을 가지는 다른 프레임들에 걸쳐 코딩하기 위해 선택된다.

도 1의 (a)는 본 발명의 실시예에 따른 비디오 코딩 시스템(100)을 예시하는 간략화된 블록도이다. 도시된 바와 같이, 시스템(100)은 네트워크(130)를 통해 상호접속되는 복수의 단말들(110, 120)을 포함할 수 있다. 단말들(110, 120) 각각은 로컬 위치에서 비디오 데이터를 캡쳐하고, 네트워크(130)를 통한 다른 단말로의 전송을 위해 비디오 데이터를 코딩할 수 있다. 각각의 단말(110, 120)은 네트워크(130)로부터 다른 단말의 코딩된 비디오 데이터를 수신하고, 코딩된 데이터를 재구성하고, 이로부터 복원된 비디오 데이터를 디스플레이할 수 있다.

도 1의 (a)에서, 단말들(110, 120)은 스마트폰들로서 예시되지만, 본 발명의 원리들이 그렇게 제한되지는 않는다. 본 발명의 실시예들은 개인용 컴퓨터들(데스크톱 및 랩톱 컴퓨터들 모두), 태블릿 컴퓨터들, 컴퓨터 서버들, 미디어 플레이어들 및/또는 전용 화상 회의 장비와의 응용예를 찾는다.

네트워크(130)는, 예를 들어, 유선 및/또는 무선 통신 네트워크들을 포함하는, 단말들(110, 120) 사이에서 코딩된 비디오 데이터를 전달하는 임의의 개수의 네트워크들을 나타낸다. 통신 네트워크(130)는 회선 교환 또는 패킷 교환 채널들에서 데이터를 교환할 수 있다. 대표적인 네트워크들은 전기통신(telecommunications) 네트워크들, 로컬 영역 네트워크들, 광역 네트워크들 및/또는 인터넷을 포함한다. 본 논의의 목적으로, 네트워크(130)의 아키텍쳐 및 토폴로지는 하기에 설명되지 않는 한 본 발명의 동작에 대해 중요하지 않다.

도 1의 (b)는 본 발명의 실시예에 따른 단말(110)의 컴포넌트들을 예시하는 간략화된 블록도이다. 단말(110)는 비디오 코더(140), 카메라(150), 모션 센서(160), 및 얼굴 검출기(170)를 포함할 수 있다. 카메라(150)는 단말(110)에서 이미지들을 캡쳐할 수 있다. 카메라(150)는, 자동 노출 제어(155)(도 1의 (b)에서 별도로 도시됨)를 포함한, 다양한 제어 엘리먼트들을 포함할 수 있다. 비디오 코더(140)는 카메라(150)로부터 그것에 대한 비디오 데이터 입력을 압축하기 위해 코딩 프로세스들을 수행할 수 있다. 자이로스코프 또는 가속계와 같은 모션 센서(160)는 단말(110)의 움직임을 검출할 수 있다. 얼굴 검출기(170)는 카메라(150)에 의해 출력되는 프레임들을 분석할 수 있고, 사람의 얼굴들이 프레임 컨텐츠 내에서 가시적인지의 여부를 결정할 수 있다.

도 1의 (b)에 예시된 바와 같이, 비디오 코더(140)는 프레임 버퍼(141), 전처리기(142), 코딩 엔진(143), 기준 픽쳐 캐시(144), 송신기(145) 및 제어기(146)를 포함하는, 몇몇 기능 모듈들을 포함할 수 있다. 프레임 버퍼(141)는 코딩되기 이전에 카메라(150)에 의해 출력된 프레임들을 저장할 수 있다. 이러한 프레임들은 가용 비트 레이트를 포함하여, 비디오 코더(140)가 동작해야 하는 코딩 제약들에 대해 비디오 시퀀스의 프레임 레이트를 조정하기 위해 다양한 동작 모드들에서 버퍼(141)로부터 폐기될 수 있다.

전처리기(142)는 버퍼(141)에 저장된 비디오 데이터에 대해 다양한 분석 및 신호 컨디셔닝(conditioning) 동작들을 수행할 수 있다. 예를 들어, 전처리기(142)는 코딩 엔진(143)에 의해 적용되는 코딩 동작들의 효율성을 개선하기 위해 프레임 데이터에 다양한 필터링 동작들을 적용할 수 있다. 코딩 엔진(143)은 비디오 데이터에서 시간적 및 공간적 리던던시들을 활용함으로써 입력 비디오 데이터를 코딩할 수 있다. 통상적으로, 코딩 엔진(143)은 모션 보상 예측 코딩에 의해 입력 비디오 데이터를 코딩하며, 이는 입력 프레임에 대한 양호한 예측 기준을 제공하는 데이터를 발견하기 위해 기준 픽쳐 캐시(144) 전반에 걸친 탐색을 수반한다. 기준 픽쳐 캐시(144)는 재구성된 기준 프레임 데이터를 저장할 수 있다. 그 동작의 일부분으로서, 코딩 엔진(143)은 특정 프레임들을, 추후-수신 비디오 데이터에 대한 예측 기준으로서의 역할을 할 수 있는 "기준 프레임들"로서 지정할 수 있다. 코딩 엔진(143)은 기준 프레임들의 코딩된 데이터를 디코딩하고 기준 픽쳐 캐시(144) 내에 재구성된 데이터를 저장하기 위한 기능성(미도시)을 포함할 수 있다. 송신기(145)는 코딩 엔진(143)으로부터 코딩된 비디오 데이터를 버퍼링할 수 있고, 채널(131)을 통한 단말(120)로의 전송을 위한 데이터를 준비할 수 있다. 제어기(146)는 비디오 코더(140)의 동작들을 관리할 수 있다.

모션 센서(160)는 비디오 캡쳐 동안 단말(110)의 움직임을 검출할 수 있다. 모션 센서(160)는 가속계, 자이로스코프 또는 유사한 센서로서 구현될 수 있다.

얼굴 검출기(170)는, 그 명칭이 내포하는 바와 같이, 비디오 컨텐츠를 분석하여 사람 얼굴이 비디오 내에서 검출될 수 있는지의 여부를 결정하는 기능 유닛이다. 얼굴 검출기들은 통상적으로 각각의 프레임 내의 임의의 검출된 얼굴(들)의 좌표들을 나타내는 데이터 및 가능하게는 얼굴 검출이 정확할 추정된 가능성을 나타내는 신뢰도 점수를 출력한다.

얼굴 검출기(170)는 또한 검출된 얼굴의 특성들, 예를 들어, 얼굴이 미소짓고 있는지의 여부, 눈이 떠진 것으로서 검출되었는지의 여부 등을 식별하는 메타데이터를 출력할 수 있다.

단말(120)은 단말(110)에 의해 수행된 프로세싱 동작들을 반전시키는 기능 블록들(미도시)을 포함할 수 있다. 따라서, 단말(120)은 채널로부터 코딩된 데이터를 수신하기 위한 수신기 및 비디오 코더에 의해 수행되는 코딩 동작들을 반전시키기 위한 디코더를 포함할 수 있다. 디코더는 단말(120)의 디스플레이 디바이스 또는 디스플레이에 적합한 복원된 비디오를 생성할 수 있다.

양방향 통신을 지원하기 위해, 단말(120)은 카메라에 대응하는 자신의 고유한 기능 블록들(미도시), 비디오 코더(140), 모션 센서(160) 및 얼굴 검출기(170)를 포함할 수 있다. 이러한 실시예에서, 단말(120)은 로컬 환경의 비디오를 캡쳐하고 단말(110)로의 전달을 위해 그것을 코딩할 수 있다. 단말(110)은 자신의 고유한 수신기, 및 단말(120)에 의해 전송된 코딩된 비디오로부터 비디오를 복원하기 위한 디코더를 포함할 수 있다. 다시, 이들 기능 유닛들은 단지 편의상 도시되지 않는다.

본 발명의 일 실시예에서, 예측 기준들을 찾기 위한 비디오 코더들의 탐색들은 코딩되는 프레임에 시간상으로 가장 가까운 기준 프레임들을 강조할 수 있다. 도 2의 (a) 및 (b)는 본 발명의 실시예에 따라 비디오 코더가 시간 데이터에 기초하여 기준 프레임들을 선택하는 코딩 동작을 예시한다.

도 2의 (a)는 비디오 코더가 기준 픽쳐 캐시에 N개의 기준 프레임들(201-210)을 저장하는 코딩 동작을 예시한다. 이러한 기준 프레임들은 비디오 코더에 입력되는 새로운 프레임(220)에 대한 예측 기준들로서 사용하는 데 이용가능하다. 예측 기준들은 픽셀 블록별 기반으로 할당될 수 있다. 즉, 입력 프레임은 복수의 픽셀 블록들로 파싱(parse)될 수 있고, 이후 각각의 픽셀 블록은 입력 프레임으로부터 픽셀 블록에 매치하는 하나 이상의 기준 프레임 픽셀 블록들을 식별하기 위해 각각의 기준 프레임의 공동 위치된 데이터와 비교될 수 있다. 모션 추정 탐색들은 각각의 픽셀 블록의 공간 영역들에 걸쳐 탐색하여 매칭 예측 기준을 발견할 수 있다. 비디오 코더가 입력 픽셀 블록을 기준 프레임들 각각과 비교함에 따라, 그것은 입력 픽셀 블록과 대응하는 기준 프레임 사이의 매치의 품질을 나타내는 유사성의 정도를 결정할 수 있다.

도 2의 (b)는 예측 기준 탐색으로부터 전개된 유사성 척도들에 적용될 수 있는 예시적인 가중 함수들(230, 240)을 예시한다. 가중 함수(230)는 입력 프레임(220)에 시간상으로 가장 가까운 기준 프레임(201)에 대한 최대값으로부터, 입력 프레임으로부터 시간상으로 가장 먼 기준 프레임(210)에 대한 최소값으로 선형으로 천이하는 선형 함수이다. 가중 함수(240)는 입력 프레임(220)에 시간 상으로 가장 가까운 기준 프레임(201)에 대한 최대값 내지 입력 프레임으로부터 시간 상으로 가장 먼 기준 프레임(210)에 대한 최소값을 가지는 복수의 이산 값들 사이에서 천이는 계단 함수이다. 또다른 실시예에서, 가중 함수(250)는 미리 결정된 양을 초과하는 것만큼 입력 기준 프레임으로부터 시간적으로 떨어진 기준 프레임들에 대해 제로로 설정될 수 있다. 도 2의 (b)에 예시된 가중 함수는 단지 예시적이며; 본 발명은, 요구될 수 있는 대로, 임의의 개수의 가중 함수들(지수적 감소 함수들, 점근적 감소 함수들 등)을 수용한다.

동작 동안, 기준 예측 탐색 동안 전개된 유사성 척도들은 개별 기준 프레임과 연관된 가중 함수에 의해 스케일링될 수 있다. 가중 함수(230)를 사용하여, 예를 들어, 입력 픽셀 블록이 기준 프레임(202) 및 기준 프레임(208)과 동일한 유사성 척도를 생성하는 경우, 기준 프레임(202)에 대해 적용되는 가중치가 높을수록 그것이 기준 프레임(208)보다 우선적으로 선택될 수 있게 된다. 그러나, 기준 프레임(208)으로부터의 유사성 척도가, 그 값이 둘 모두 스케일링된 이후의 기준 프레임(202)의 유사성 척도를 초과할만큼 높은 경우, 기준 프레임(208)은 입력 픽셀 블록에 대한 예측 기준으로서 선택될 수 있다.

동작 동안, 유사성 척도들은 프레임 차이들 - 입력 픽셀 블록과 기준 프레임들의 공동 위치된 데이터 사이의 차이들의 결정 - 에 의해 생성될 수 있다. 대안적으로, 유사성 척도들은 모션 추정 탐색 또는 얼굴 검출기로부터의 검출된 얼굴들의 위치들에 의해 생성될 수 있다.

코딩되는 프레임에 시간상으로 더 가까운 기준 프레임들을 강조하는 것은 입력 프레임이 코딩되는 경우 엔트로피 감소를 초래할 것이며, 따라서 코딩된 프레임이 디코더에서 재구성되는 경우 더 높은 시각적 품질에 기여할 것이라는 점이 예상된다.

또다른 실시예에서, 코딩될 입력 프레임들의 선택은 디코더에서의 비디오 재구성 및 재생 동안 지터를 감소시키도록 수행될 수 있다. 슬라이드 쇼 모드가 움직이는 비디오의 인지가 유실되는 레벨로 프레임 레이트들을 떨어뜨리는 경향이 있지만, 지터가 재구성된 이미지들에서 최소화될 수 있는 경우 재구성된 이미지들의 인지된 품질이 유지될 수 있다. 비디오 코더는 각각의 버퍼링된 프레임과 연관된 지터의 양을 추정하고, 추정된 지터에 기초하여 프레임에 가중치를 할당할 수 있다.

비디오 코더는 좋은 이미지 품질을 가지는 것으로서 프레임들을 구별하는 메트릭들에 기초하여 코딩될 프레임을 선택할 수 있다. 도 3은 본 발명의 실시예에 따라 자동 노출 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법(300)을 예시하는 간략화된 흐름도이다. 도 3에서, 비디오 코더는 한가지 이러한 메트릭으로서 자동 노출(AE) 제어들을 사용할 수 있다. 많은 카메라 시스템들은 비디오 시퀀스 내의 밝기들을 변경하는 것에 응답하여 카메라 내의 노출 설정들을 동적으로 조정하는 알고리즘을 사용한다.

블록(310)에서, 방법(300)은 코딩될 후보인 입력 프레임에 대한 AE 설정 데이터를 판독할 수 있다. 이후, 블록(320)에서, 방법(300)은 입력 프레임이 카메라에 의해 캡쳐되었을 때 AE 설정들이 변경되었는지의 여부를 결정할 수 있다. AE 설정들이 변경되지 않은 경우, 블록(330)에서, 방법(300)은 입력 프레임에 따라 가중치를 증가시킬 수 있다. AE 설정들이 변경된 경우, 블록(340)에서, 방법(300)은 입력 프레임에 따라 가중치를 감소시킬 수 있다.

통상적으로, 카메라는 비디오 시퀀스 내의 밝기 변화들에 응답하여 그것의 AE 설정들을 변경시킨다. AE 설정들이 변경함에 따라 캡쳐된 프레임들은 이들이 과다노출되거나 부족노출되므로 열악한 이미지 품질을 가질 수 있다. 반면, AE 설정들이 안정될 때 캡쳐된 프레임은, 카메라가 캡쳐된 이미지의 밝기에 대해 적합한 AE 설정들을 사용하여 동작하므로 더욱 양호한 이미지 품질을 가질 수 있다.

또다른 실시예에서, 방법은 이전에 코딩된 프레임과 코딩을 위해 이용가능한 버퍼링된 입력 프레임들 사이의 노출에서의 차이들을 조사할 수 있다. 이전에 코딩된 프레임들과 유사한 노출 설정들을 가지는 버퍼링된 프레임들에는 상이한 노출 설정들을 가지는 다른 버퍼링된 프레임들보다 더 높은 가중치들이 할당될 수 있다.

추가적인 실시예에서, 방법은 각각의 버퍼링된 프레임의 휘도를 추정할 수 있고, 얼굴이 프레임들 내에서 검출되는 경우, 얼굴의 휘도를 추정할 수 있다. 방법은 얼굴들이 검출되며 얼굴들이 적정-노출되는 것으로 결정되는 프레임들의 가중치를 증가시킬 수 있다. 방법은 얼굴들이 검출되지만 부족노출되거나 과다노출되는 것으로 결정되는 프레임들의 가중치들을 감소시킬 있다.

도 4의 (a) 및 (b)는 본 발명의 실시예에 따라 공간 복잡도 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법을 예시한다. 도 4의 (a)는 공간 복잡도 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법(400)을 예시하는 흐름도이다. 구체적으로, 비디오 코더는 코딩될 후보(들)인 어느 프레임(들)이 좋은 이미지 품질을 가지는지를 식별하기 위한 메트릭으로서 공간 복잡도를 사용할 수 있다. 비디오 코더는 전처리 알고리즘을 사용하여 공간 복잡도를 추정할 수 있다.

블록(410)에서, 방법(400)은 코딩될 후보인 입력 프레임에 대한 복잡도 추정을 판독할 수 있다. 이후, 블록(420)에서, 방법(400)은 복잡도 추정을 임계값과 비교할 수 있다. 복잡도 데이터가 임계를 초과하는 경우, 블록(430)에서, 방법(400)은 입력 프레임에 따라 가중치를 증가시킬 수 있다. 복잡도 데이터가 임계를 초과하지 않는 경우, 블록(440)에서, 방법(400)은 입력 프레임에 따라 가중치를 감소시킬 수 있다.

공간 복잡도는 임의의 개수의 방식들로 결정될 수 있다. 전처리기는 프레임 내의 에지들의 수를 식별하기 위해 후보 프레임 내에서 에지 검출을 수행할 수 있다. 전처리기(코딩 엔진 단독으로 또는 코딩 엔진과 협력하는)는 이미지 데이터의 주파수 변환들 - 예를 들어, 이산 코사인 변환들 또는 웨이브릿 변환들 - 을 수행하고, 변환된 데이터 내에서 발견된 고주파수 컴포넌트들의 상대적 강도들을 결정할 수 있다. 이들 메트릭들로부터, 도 4의 (a)의 동작들이 수행될 수 있다.

실시예에서, 입력 프레임에 대한 공간 복잡도 데이터가 상대적 기반으로 결정될 수 있다(블록 410). 구체적으로, 후보 입력 프레임에 대한 공간적 복잡도 데이터가 결정되고, 이전에 선택된 입력 프레임의 공간 복잡도 데이터와 비교될 수 있다. 결과적인 델타가 이후 임계와 비교되어(블록 420) 입력 프레임의 가중치가 증가되어야 하는지 또는 감소되어야 하는지의 여부를 설정한다(블록 430 및 440).

도 4의 (b)는 본 발명의 실시예들에 따른 다양한 가중 함수들을 예시한다. 통상적으로, 높은 공간 복잡도를 가지는 이미지들은 이들이 디코더에서 충분한 이미지 충실도를 가지고 복원될 수 있는 경우 높은 이미지 품질을 갖는 것으로서 인지된다. 그러나, 특히 가용 비트 레이트들이 디코더가 슬라이드 쇼 모드를 이용할(engage)만큼 낮은 레벨들로 떨어지는 경우, 비디오 코딩 시스템에 있어서, 복잡한 이미지들에 대한 높은 이미지 품질을 보존하는 것이 어려울 수 있다. 따라서, 일 실시예에서, 그래프(450)에 예시된 바와 같이, 가중 함수는 더 높은 복잡도의 프레임들에 더 높은 가중치들을 할당할 수 있다. 또다른 실시예에서, 그래프(460)에 예시된 바와 같이, 또다른 가중 함수는 적절한 복잡도의 프레임들에 더 높은 가중치들을 할당할 수 있다.

추가적인 실시예에서, 방법(400)은 복잡도를 상이한 복잡도의 정도들을 나타내는 복수의 상이한 임계들과 비교하고, 상기 비교들에 응답하여 상이한 가중치들을 할당할 수 있다. 이러한 임계들은, 예를 들어, 도 4의 (b)의 그래프들(450, 460)에서 상이한 계단 레벨들 사이의 경계들에 대응할 수 있다. 일부 복잡도 값들은 주어진 입력 프레임을 코딩을 위한 후보로서의 자격이 없도록 할 수 있다.

도 5는 본 발명의 실시예에 따라, 모션 데이터에 기초하여 기준 프레임들을 선택하기 위한 방법(500)을 예시하는 간략화된 흐름도이다. 구체적으로, 비디오 코더는 코딩될 후보들인 어느 프레임(들)이 좋은 이미지 품질을 가지는지를 식별하기 위한 메트릭으로서 모션 데이터를 사용할 수 있다. 비디오 코더는 전처리기를 통해 비디오 시퀀스로부터 모션 데이터를 유도할 수 있거나 또는 카메라와 결속된 모션 센서로부터 이러한 데이터를 수신할 수 있다.

블록(510)에서, 방법(500)은 코딩될 후보인 입력 프레임에 대한 모션 데이터를 판독할 수 있다. 이후, 블록(520)에서, 방법(500)은 모션을 임계 값과 비교할 수 있다. 모션 데이터가 임계를 초과하는 경우, 블록(530)에서, 방법(500)은 입력 프레임에 따라 가중치를 감소시킬 수 있다. 복잡도 데이터가 임계를 초과하지 않는 경우, 블록(540)에서, 방법(500)은 입력 프레임에 따라 가중치를 증가시킬 수 있다.

실시예에서, 입력 프레임에 대한 모션 데이터는 상대적 기반으로 결정될 수 있다(블록 510). 구체적으로, 후보 입력 프레임에 대한 모션 데이터가 결정되고 이전에 선택된 입력 프레임의 모션 데이터와 비교될 수 있다. 결과적인 델타가 이후 임계와 비교되어(블록 520) 입력 프레임의 가중치가 증가되어야 하는지 또는 감소되어야 하는지의 여부를 설정한다(블록 530 및 540).

이전에 논의된 바와 같이, 모션 데이터는 비디오 코더 내의 전처리 알고리즘에 의해 생성될 수 있다. 이러한 알고리즘은 통상적으로 그 내부의 이미지 컨텐츠의 움직임 추정에 의해 더 큰 비디오 시퀀스 내의 프레임의 전체(global) 모션을 추정한다. 대안적으로, 예를 들어, 카메라(150)(도 1)를 하우징하는 단말(110)(도 1) 내의 자이로스코프 또는 가속계에 의해 제공되는 모션 센서 데이터가 이러한 데이터를 제공할 수 있다.

또다른 실시예에서, 모션 데이터는 얼굴 검출기(170)(도 1)에 의해 출력되는 데이터로부터 유도될 수 있다. 얼굴 검출기들은 통상적으로 얼굴의 좌표들을 나타내는 데이터를, 그것이 비디오 시퀀스 내에서 검출되는 경우 제공한다. 실시예에서, 방법은 프레임-대-프레임 좌표 데이터로부터 얼굴의 속도를 계산할 수 있고, 계산된 속도들에 기초하여 개별 프레임들에 가중치들을 할당할 수 있다.

통상적으로, 움직이는 카메라에 의해 캡쳐되는 이미지들은 인지된 이미지 품질을 감소시키는 모션 블러 또는 롤링 셔터(rolling shutter) 아티팩트들과 같은 아티팩트들을 보일 수 있다. 따라서, 가중 함수는 낮은 모션의 프레임들에 더 높은 가중치들을, 그리고 중간 내지 높은 모션을 가지는 프레임들에 더 낮은 가중치들을 할당할 수 있다.

도 6은 본 발명의 실시예들에 따라 시각적 관심 표시자들에 기초하여 기준 프레임들을 선택하기 위한 방법(600)을 예시하는 간략화된 흐름도이다. 구체적으로, 비디오 코더는 코딩될 후보들인 어느 프레임(들)이 좋은 시각적 관심을 가지는지를 식별하기 위한 메트릭들로서 시각적 관심 표시자들을 사용할 수 있다. 얼굴 검출 알고리즘은, 그 명칭이 내포하는 바와 같이, 비디오 시퀀스의 프레임들을 스캔하고, 사람 얼굴이 뷰 필드에 존재하는지의 여부를 결정하기 위한 프로세스들을 수행한다. 얼굴 검출기가 이미지 내의 얼굴을 식별하는 경우, 검출기는, 얼굴의 위치 및/또는 크기를 식별하는 데이터 및 예를 들어, 눈을 뜨고 있는지 또는 감고 있는지의 여부, 및 얼굴이 미소짓고 있는지의 여부를 표시하는 보조 데이터를 출력할 수 있다. 비디오 코더는 코딩을 위한 시각적으로 관심있는 프레임들을 선택하기 위해 이러한 표시자들을 사용할 수 있다.

블록(610)에서, 방법(600)은 입력 프레임에 대한 얼굴 검출기 데이터를 판독할 수 있다. 이후, 블록(620)에서, 방법(600)은 얼굴이 입력 프레임의 뷰 필드 내에서 검출되는지의 여부를 결정할 수 있다. 얼굴이 검출되는 경우, 블록(630)에서, 방법(600)은 입력 프레임과 연관된 가중치를 증가시킬 수 있다. 얼굴이 검출되지 않는 경우, 블록(640)에서, 방법(600)은 입력 프레임과 연관된 가중치를 감소시킬 수 있다. 그 결과, 방법(600)은 코딩을 위한 더 높은 시각적 관심을 가지는 프레임들을 강조할 수 있다.

선택적으로, 블록(650)에서, 얼굴들이 검출되는 프레임들에 대해, 방법(600)은 얼굴이 미소짓는 것으로 보여지는지의 여부를 결정하도록 확장될 수 있다. 만약 그러하다면, 블록(660)에서, 방법(600)은 입력 프레임과 연관된 가중치를 증가시킬 수 있다. 그렇지 않은 경우, 블록(670)에서, 방법(600)은 입력 프레임과 연관된 가중치를 감소시킬 수 있다. 또한, 블록(680)에서, 방법(600)은 눈이 떠진 것으로 검출되는지의 여부를 선택적으로 결정할 수 있다. 만약 그러하다면, 블록(690)에서 방법(600)은 입력 프레임과 연관된 가중치를 증가시킬 수 있다. 그렇지 않은 경우, 블록(700)에서, 방법(600)은 입력 프레임과 연관된 가중치를 감소시킬 수 있다.

방법(600)은 또한 각각의 프레임에 할당된 가중치들을 조정하기 위해 얼굴 검출기에 의해 제공되는 다른 메트릭들을 사용할 수 있다. 예를 들어, 방법(600)은 뷰 필드 내의 얼굴의 크기를 결정하고, 더 작은 얼굴들을 가지는 프레임들보다는 더 큰 얼굴들을 가지는 프레임들을 강조할 수 있다. 추가적으로, 방법(600)은 뷰 필드 내의 얼굴의 위치를 결정하고, 뷰 필드의 중심 밖에 제공되는 얼굴들을 가지는 프레임들보다 뷰 필드의 중심에 제공되는 얼굴들을 가지는 프레임들을 강조할 수 있다. 또한, 방법(600)은 후보 입력 프레임 내의 얼굴의 위치를 결정하고, 그것을 이전에 코딩된 입력 프레임 내의 얼굴의 위치와 비교할 수 있다. 방법(600)은 얼굴 위치의 차이가 작은 프레임들을 얼굴 위치에서의 차이가 큰 프레임들보다 강조할 수 있다.

방법(600)은 또한 얼굴이 자동 노출(AE) 계측 존 내에 있는 것으로 검출되는 프레임들에 우선적 가중치들을 할당할 수 있다. 예를 들어, 많은 자동 노출 제어 알고리즘은 뷰 필드의 중심 내의 이미지 컨텐츠에 기초하여 AE 제어를 전개한다. AE 제어 존 내의 얼굴들을 식별하는 프레임들은 이들에게 할당된 가중치들을 증가시켰을 수 있고, AE 제어 존 밖의 얼굴들을 식별하는 프레임들은 이들에게 할당된 가중치들을 감소시켰을 수 있다.

코딩 프레임 레이트가 매 10개 프레임 중 오직 하나만 코딩되도록 하는 예를 고려한다. 이 경우, 비디오 코더는 10개 프레임들 중 9개를 드롭시켜서 10, 20, 30, 40, 50 등의 디폴트 패턴을 산출한다. 그러나, 일부 환경들에서, 코딩 품질 고려사항들로 인해, 비디오 코더는 프레임(10)이 코딩된 이후 코딩하기 위해 프레임(15)을 선택할 수 있다. 이 예에서 지터는 프레임(15)으로부터 새로운 프레임 패턴을 구축함으로써 최소화될 수 있다. 따라서, 프레임(30)이 아닌 프레임(25)이 다음의 선택 결정을 위해 가장 높은 가중치를 획득할 것이다. 가중치들은, 코딩되었을 원래 프레임으로부터 떨어져서 항상 구동되지는 않는 재생 동안, 어느 프레임들이 최소 지터량을 생성하는지에 대한 추정에 기초할 수 있다.

도 7은 본 발명의 실시에에 따라 비디오 코더가 슬라이드 쇼 모드에 있는 경우의 방법(800)을 예시하는 간략화된 흐름도이다.

블록(810)에서, 비디오 코더는 정상 런타임 모드에서 동작할 수 있으며, 상기 경우, 그것은 디폴트 프레임 레이트를 수반하는 디폴트 코딩 정책들의 설정에 따라 입력 비디오 데이터를 버퍼링 및 코딩한다. 이후, 일부 동작 포인트에서, 비디오 코더는 슬라이드 쇼 모드에 진입할 수 있으며, 이 포인트에서, 프레임 레이트는, 재생 시 모션의 느낌을 전달하기 위해 충분히 높은 레이트에서 프레임들이 코딩될 수 없는 레벨로 떨어진다. 통상적으로, 이 레이트는 1-3 fps이다. 비디오 코더가 슬라이드 쇼 모드에 진입하는 경우, 그것은 코딩을 위한 후보로서 그것의 프레임 버퍼 내에 포함된 입력 프레임들 각각을 평가할 수 있다. 구체적으로, 예를 들어, 도 2에 기술된 탐색 방법에 따라, 비디오 코더는, 블록(820)에서, 가중된 탐색에 기초하여 입력 프레임에 대해 달성될 수 있는 코딩 품질을 랭킹할 수 있다. 이후, 블록(830)에서, 비디오 코더는, 예를 들어, 도 3-6에 기술된 기법들 중 하나 이상에 따라, 프레임에 대한 품질 메트릭들에 기초하여 입력 프레임에 대해 달성될 수 있는 코딩 품질을 랭킹할 수 있다. 마지막으로, 블록(840)에서, 비디오 코더는 박스들(820-830)에서 유도되는 랭킹들에 따라 버퍼링된 프레임들 중 하나를 선택하여 코딩할 수 있다. 통상적으로, 이것은 가장 높게 랭킹된 프레임을 선택하는 것을 수반한다.

비디오 코더가 슬라이드 쇼 모드에서 동작하는 동안, 블록(850)에서, 방법(800)은 카메라에 의해 캡쳐된 새로운 프레임들을 계속 버퍼링하고, 비디오 시퀀스가 끝나거나 비디오 코더가 슬라이드 쇼 모드를 빠져나갈 때까지 슬라이드 쇼 프레임 레이트에서 박스들(820-840)의 동작을 반복할 수 있다.

비디오 코더는, 프레임들 간의 시간적 이격의 일관성인 "저더(judder)"에 기초한 코딩을 위한 버퍼링된 프레임들을 선택할 수 있다. 현재 프레임-레이트가 초당 프레임들의 특정 개수, 예를 들어, 초당 1프레임인 경우, 비디오 코더는 코딩을 위한 각각의 선택된 프레임이 코딩을 위해 이전에 선택된 프레임으로부터 대략 1초 떨어지도록 코딩을 위한 프레임들을 선택할 수 있다.

비디오 코더는 또한 후보 버퍼링된 프레임들의 픽셀들과 얼굴 영역 상의 추가 가중치를 가지는 이전에 코딩된 프레임 사이의 절대적 차이들의 단순 가중 합산을 수행함으로써 코딩을 위한 버퍼링된 프레임들을 선택할 수 있다. 이러한 선택들은 매우 효율적인 코딩을 초래할 수 있다.

이전 논의는 본 발명의 다양한 실시예들에 따라 구성된 비디오 코딩 시스템들에서 사용될 수 있는 기능 블록들을 식별한다. 실제로, 이들 시스템들은 통합된 비디오 카메라들이 제공된 모바일 디바이스들(예를 들어, 카메라-인에이블 폰들, 엔터테인먼트 시스템들 및 컴퓨터들)과 같은 다양한 디바이스들 및/또는 화상회의 장비 및 카메라-인에이블 데스크톱 컴퓨터들과 같은 유선 통신 시스템들에 적용될 수 있다. 일부 응용예들에서, 위에서 기술된 기능 블록들은, 블록들이 컴퓨터 프로그램의 별도의 엘리먼트들로서 제공될 수 있는 통합 소프트웨어 시스템의 엘리먼트들로서 제공될 수 있다. 다른 응용예들에서, 기능 블록들은 디지털 신호 처리기 또는 주문형 집적 회로 내의 기능 유닛들과 같은, 프로세싱 시스템의 이산 회로 컴포넌트들로서 제공될 수 있다. 본 발명의 또다른 응용예들은 전용 하드웨어 및 소프트웨어 컴포넌트들의 하이브리드 시스템으로서 구현될 수 있다. 또한, 여기서 기술된 기능 블록들은 별개의 유닛들로서 제공될 필요는 없다. 예를 들어, 도 1의 (b)가 비디오 코더들의 컴포넌트들을 별개의 유닛들로서 예시하지만, 하나 이상의 실시예들에서, 이들의 일부 또는 전부는 통합될 수 있고, 이들은 별도의 유닛들일 필요가 없다. 이러한 구현 상세항목들은 위에서 다르게 주지되지 않는 한 본 발명의 동작에 대해 중요하지 않다.

또한, 여기서 예시된 도면들은 오직 본 발명의 발명 대상을 제시하기 위해 필요한 경우 매우 상세하게 제공되었다. 실제로, 비디오 코더들은, 여기서 기술된 것들에 추가하여, 오디오 프로세싱 시스템들, 예시된 바와 같은 코딩 파이프라인들의 도처에 데이터를 저장하기 위한 버퍼들, 및 통신 네트워크 및 상대 디코더 디바이스와의 통신을 관리하기 위한 통신 트랜시버들을 포함하는 기능 유닛들을 포함할 것이다. 이러한 엘리먼트들은 명료성을 위해 앞의 논의에서 생략되었다.

본 발명이 일부 실시예들에 대해 위에서 상세히 기술되었지만, 본 발명의 범위 및 사상 내에서의 변형예들이 당업자에게 명백할 것이다. 따라서, 본 발명은 첨부된 청구항들의 범위에 의해서만 제한되는 것으로서 간주되어야 한다.

Claims

비디오 코딩 방법으로서,
코딩 프레임 레이트가 미리 결정된 임계치 미만으로 떨어지는 경우:
카메라에 의해 생성된 복수의 입력 비디오 프레임들을 버퍼링하는 단계,
프레임 품질 메트릭(frame quality metric)에 기초하여 각각의 버퍼링된 입력 프레임에 가중치들을 할당하는 단계,
가장 높게 가중된 프레임을 코딩하는 단계, 및
코딩 없이 버퍼로부터 복수의 더 낮게 가중된 프레임들을 폐기하는 단계
를 포함하는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은, 상기 버퍼링된 입력 프레임들 각각의 캡쳐 동안 일어나는 카메라 자동 노출 설정들의 변경의 레이트로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임과 그 선행 프레임 사이의 노출 변경들로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 추정된 휘도로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임에 대해 수행되는 추정된 얼굴 검출로부터 도출되는 비디오 코딩 방법.
제5항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴의 영역의 추정된 휘도로부터 도출되는 비디오 코딩 방법.
제5항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 얼굴의 검출된 아티팩트로부터 도출되는 비디오 코딩 방법.
제5항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴의 위치로부터 도출되는 비디오 코딩 방법.
제5항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴과 연관된 신뢰도 점수(confidence score)로부터 도출되는 비디오 코딩 방법.
제7항에 있어서,
상기 아티팩트는 검출된 미소(detected smile)인 비디오 코딩 방법.
제7항에 있어서,
상기 아티팩트는 뜬 눈들(open eyes)의 검출인 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임 내의 공간 복잡도(spatial complexity)의 추정치로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 모션의 추정치로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 연관된 지터의 추정치로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 적어도 하나의 이전에 코딩된 프레임 사이의 시간적 일관성(temporal consistency)의 추정치로부터 도출되는 비디오 코딩 방법.
제1항에 있어서,
상기 코딩하는 단계는, 코딩될 상기 프레임의 각각의 픽셀 블록에 대해:
상기 코딩될 프레임의 개별 픽셀 블록과 복수의 로컬-저장된 기준 프레임들 사이에 모션 추정 탐색을 수행하는 단계,
상기 탐색에 의해 식별된 각각의 후보 기준 프레임에 대해, 코딩될 개별 픽셀 블록과 개별 후보 기준 프레임으로부터의 매칭 픽셀 블록 사이의 유사성 척도(similarity measure)를 결정하는 단계,
후보 기준 프레임들의 시간적 위치들에 따라 유사성 척도들을 스케일링하는 단계,
상기 스케일링된 유사성 척도들에 기초하여 코딩될 픽셀 블록에 대한 예측 기준으로서 매칭 픽셀 블록을 선택하는 단계, 및
상기 예측 기준을 참조하여 입력 픽셀 블록을 코딩하는 단계
를 포함하는 비디오 코딩 방법.
비디오 코딩 장치로서,
카메라, 및
비디오 코더 시스템
을 포함하고,
상기 비디오 코더 시스템은,
상기 카메라로부터의 비디오 시퀀스의 입력 프레임들을 저장하기 위한 버퍼,
시간적 예측 기법들에 따라 상기 버퍼로부터 선택된 프레임들을 코딩하기 위한 코딩 엔진,
코딩된 기준 프레임들의 재구성된(reconstructed) 비디오 데이터를 저장하기 위한 기준 픽쳐 캐시, 및
코딩 프레임 레이트가 미리 결정된 임계치 미만으로 떨어지는 경우, 프레임 품질 메트릭에 기초하여 각각의 버퍼링된 입력 프레임에 가중치들이 할당되고, 가장 높게 가중된 프레임이 코딩을 위해 선택되며, 복수의 더 낮게 가중된 프레임들이 코딩 없이 상기 버퍼로부터 폐기되는 비디오 코딩 시퀀스의 동작을 제어하기 위한 제어기
를 포함하는 비디오 코딩 장치.
제17항에 있어서,
상기 프레임 품질 메트릭은, 버퍼링된 상기 입력 프레임들 각각의 캡쳐 동안 일어나는 카메라 자동 노출 설정들의 변경의 레이트로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
상기 비디오 코더는 버퍼링된 프레임들의 노출을 추정하는 전처리기를 포함하고, 상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임과 그 선행 프레임 사이의 노출 변경들로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
상기 비디오 코더는 버퍼링된 프레임들의 휘도를 추정하는 전처리기를 포함하고, 상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 추정된 휘도로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
얼굴 검출기를 더 포함하고, 상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임에 대해 수행되는 추정된 얼굴 검출로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
상기 비디오 코더는 버퍼링된 프레임들의 공간 복잡도를 추정하는 전처리기를 포함하고, 상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임 내의 공간 복잡도의 추정치로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
모션 센서를 더 포함하고, 상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 모션의 추정치로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 연관된 지터의 추정치로부터 도출되는 비디오 코딩 장치.
제17항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 적어도 하나의 이전에 코딩된 프레임 사이의 시간적 일관성의 추정치로부터 도출되는 비디오 코딩 장치.
프로그램 명령어들이 저장되어 있는 컴퓨터 판독가능한 저장 디바이스로서,
상기 프로그램 명령어들은, 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금,
카메라에 의해 생성된 복수의 입력 비디오 프레임들을 상기 저장 디바이스에서 버퍼링하게 하고,
프레임 품질 메트릭에 기초하여 각각의 버퍼링된 입력 프레임에 가중치들을 할당하게 하고,
가장 높게 가중된 프레임을 코딩하게 하며,
코딩 없이 상기 저장 디바이스로부터 복수의 더 낮게 가중된 프레임들을 폐기하게 하는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은, 상기 버퍼링된 입력 프레임들 각각의 캡쳐 동안 일어나는 카메라 자동 노출 설정들의 변경의 레이트로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임과 그 선행 프레임 사이의 노출 변경들로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 추정된 휘도로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임에 대해 수행되는 추정된 얼굴 검출로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제30항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴의 영역의 추정된 휘도로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제30항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 얼굴의 검출된 아티팩트로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제30항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴의 위치로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제30항에 있어서,
상기 프레임 품질 메트릭은 또한 각각의 입력 프레임 내의 검출된 얼굴과 연관된 신뢰도 점수로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임 내의 공간 복잡도의 추정치로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 모션의 추정치로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 연관된 지터의 추정치로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 적어도 하나의 이전에 코딩된 프레임 사이의 시간적 일관성의 추정치로부터 도출되는 컴퓨터 판독가능한 저장 디바이스.
제26항에 있어서,
상기 프로세서에 의해 코딩하는 것은,
코딩될 상기 프레임의 개별 픽셀 블록과 복수의 로컬-저장된 기준 프레임들 사이에 모션 추정 탐색을 수행하는 것,
상기 탐색에 의해 식별된 각각의 후보 기준 프레임에 대해, 코딩될 개별 픽셀 블록과 개별 후보 기준 프레임으로부터의 매칭 픽셀 블록 사이의 유사성 척도를 결정하는 것,
후보 기준 프레임들의 시간적 위치들에 따라 유사성 척도들을 스케일링하는 것,
상기 스케일링된 유사성 척도들에 기초하여 코딩될 픽셀 블록에 대한 예측 기준으로서 매칭 픽셀 블록을 선택하는 것, 및
상기 예측 기준을 참조하여 입력 픽셀 블록을 코딩하는 것
에 의해 상기 프레임의 각각의 픽셀 블록을 코딩하는 것
을 포함하는 컴퓨터 판독가능한 저장 디바이스.
비디오 코딩 방법으로서,
코딩 프레임 레이트가 미리 결정된 임계치 미만으로 떨어지는 경우:
코딩을 위한 입력 프레임을 선택하는 단계,
상기 입력 프레임의 각각의 픽셀 블록에 대해:
개별 픽셀 블록과 복수의 로컬-저장된 기준 프레임들 사이에 모션 추정 탐색을 수행하는 단계,
상기 탐색에 의해 식별된 각각의 후보 기준 프레임에 대해, 개별 픽셀 블록과 개별 후보 기준 프레임으로부터의 매칭 픽셀 블록 사이의 유사성 척도를 결정하는 단계,
후보 기준 프레임들의 시간적 위치들에 따라 유사성 척도들을 스케일링하는 단계,
상기 스케일링된 유사성 척도들에 기초하여 입력 픽셀 블록에 대한 예측 기준으로서 매칭 픽셀 블록을 선택하는 단계, 및
상기 예측 기준을 참조하여 상기 입력 픽셀 블록을 코딩하는 단계
를 포함하는 비디오 코딩 방법.
제40항에 있어서,
상기 스케일링하는 단계는, 상기 입력 프레임과 각각의 버퍼링된 기준 프레임 사이의 시간적 거리가 증가함에 따라 상기 버퍼링된 기준 프레임에 대해 감소하는 스케일링 함수(scaling function)에 따라 일어나는 비디오 코딩 방법.
제40항에 있어서,
상기 선택하는 단계는,
프레임 품질 메트릭에 기초하여 복수의 버퍼링된 입력 프레임들 각각에 가중치들을 할당하는 단계, 및
코딩을 위해 가장 높게 가중된 입력 프레임을 선택하는 단계
를 포함하는 비디오 코딩 방법.
제42항에 있어서,
코딩 없이 버퍼로부터 다른 더 낮게 가중된 입력 프레임들을 폐기하는 단계를 더 포함하는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은, 상기 버퍼링된 입력 프레임들 각각의 캡쳐 동안 일어나는 카메라 자동 노출 설정들의 변경의 레이트로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임과 그 선행 프레임 사이의 노출 변경들로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 추정된 휘도로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임에 대해 수행되는 추정된 얼굴 검출로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임 내의 공간 복잡도의 추정치로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 버퍼링된 입력 프레임의 모션의 추정치로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 연관된 지터의 추정치로부터 도출되는 비디오 코딩 방법.
제42항에 있어서,
상기 프레임 품질 메트릭은 각각의 입력 프레임과 적어도 하나의 이전에 코딩된 프레임 사이의 시간적 일관성의 추정치로부터 도출되는 비디오 코딩 방법.