KR100957322B1

KR100957322B1 - 다양한 모션 모델들을 사용하는 인코더 보조 프레임 레이트상향 변환

Info

Publication number: KR100957322B1
Application number: KR1020087010199A
Authority: KR
Inventors: 팡 시; 세이풀라 하일트 오구즈; 수밋 싱 세티; 비제이아라크쉬미 알. 라빈드란
Original assignee: 콸콤 인코포레이티드
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2010-05-12
Also published as: WO2007038728A3; TW200737985A; JP2009510939A; WO2007038728A2; AR055184A1; US9258519B2; EP1941743A2; US20070071100A1; KR20080055965A

Abstract

본 발명은 움직이는 오브젝트들의 모델링, 압축 효율 및 재구성된 비디오 품질을 개선하기 위해 디코더에서 일어날 FRUC 프로세싱을 활용하기 위해 비디오 인코더에서 비디오 코딩 및 전처리 동작들에 부가하여 아핀 모델들과 같은 다양한 모션 모델들을 사용하는 인코더 보조 프레임 레이트 상향 변환(EA-FRUC)에 관한 것이다. 또한, 오브젝트들은 디코더 디바이스에서 오브젝트들을 렌더링하기 위해 인코딩에 필요한 정보의 양을 감소시키는 방식으로 식별된다.

Description

다양한 모션 모델들을 사용하는 인코더 보조 프레임 레이트 상향 변환{ENCODER ASSISTED FRAME RATE UP CONVERSION USING VARIOUS MOTION MODELS}

본 특허 출원은 (a) 2005년 9월 27일에 제출된 "서로 다른 모션 모델들을 사용하는 인코더 보조 프레임 레이트 상향 변환 방법"이라는 명칭의 임시 출원 번호 60/721,375 및 (b) 2005년 9월 27일에 제출된 "인코더 보조 프레임 레이트 상향 변환을 위한 방법 및 장치"라는 명칭의 임시 출원 번호 60/721,376에 우선권을 청구하며, 본 명세서에서 참조로서 통합된다.

본 개시물은 비디오 데이터를 인코딩하기 위한 방법 및 장치에 관한 것이다.

오늘날 다양한 프레임 레이트들을 지원하는 비디오 포맷들이 존재한다. 다음 포맷들은 현재 가장 널리 사용되고 있는 것들로서, 초당 지원되는 프레임들(fps)에 따라 순서대로 열거된다: 24(필름 네거티브), 25(PAL), 30(일반적으로 인터레이싱된(interlaced) 비디오), 및 60(고해상도(HD), 예컨대 720p). 상기 프레임 레이트들은 대부분의 애플리케이션에 적합하지만, 모바일 핸드셋 비디오 통신들에 필요한 낮은 대역폭을 달성하기 위해 프레임 레이트들은 때때로 15, 10, 7.5 또는 3 fps만큼 낮은 레이트들로 낮아진다. 이러한 낮은 레이트들은 더 낮은 계산 능력들을 갖는 로우 엔드 디바이스들이 일부 비디오를 디스플레이하게 하지만, 결과적인 비디오 품질은 모션이 부드럽기보다는 "단속 동작(jerkiness)"(즉, 슬라이드 쇼 효과를 갖는)을 겪게 된다. 또한, 누락된 프레임들은 종종 비디오에서 모션의 양을 정확히 트래킹하지 않는다. 예를 들어, 스포츠 이벤트에서 발생하는 것과 같은 "하이 모션" 비디오 콘텐츠 부분들 동안에는 더 적은 프레임들이 누락되어야 하는 한편, 토크쇼에서 발생하는 것과 같은 "로우 모션" 비디오 콘텐츠 부분들 동안에는 더 많은 프레임이 누락될 수 있다. 비디오 압축은 콘텐츠에 좌우되며, 비디오 압축 효율을 개선하기 위해 코딩될 시퀀스에서 움직임 및 텍스처 특징들을 분석하여 통합할 수 있다.

프레임 레이트 상향 변환(FRUC)은 재구성된 비디오의 프레임 레이트를 증가시키기 위해 비디오 디코더에서 비디오 보간을 사용하는 프로세스이다. FRUC에서, 보간된 프레임들은 레퍼런스들로서 수신 프레임들을 사용하여 생성된다. 현재, FRUC 프레임 보간(이하, "보간 프레임들")을 구현하는 시스템들은 모션 보상 보간과 전송된 모션 벡터들의 프로세싱에 기반한 접근법들을 포함한다. FRUC는 또한 다양한 비디오 포맷들 간의 변환에 사용된다. 예를 들어, 필름과 비디오 사이의 각각의 컬러 프레임 레이트 차를 조정하는 필름-대-비디오 테입 변환 기법인 텔레시네(Telecine) 및 역 텔레시네 애플리케이션들에서, 프로그레시브 비디오(24 프레임/초)는 NTSC 인터레이스된 비디오(29. 97 프레임/초)로 변환된다.

다른 FRUC 접근법은 모션 추정 및 블록 기반 프로세싱의 결함들에 의해 야기되는 블록 가공물(artifact)들을 줄이기 위해 가중-적응 모션 보상 보간(WAMCI)을 이용한다. 이러한 접근은 다수의 모션 보상 보간(MCI) 이미지들의 가중합에 의한 보간에 기초한다. 블록 경계들에 있는 블록 가공물들은 또한 오버랩된 블록 모션 보상(OBMC)과 유사한 기법을 적용함으로써 제안된 방법에서 줄어들게 된다. 구체적으로, 오버랩된 영역들을 처리하면서 블러링(blurring)을 줄이기 위해서, 상기 방법은 블록 모션의 타입을 결정하도록 모션 분석을 이용하고 적응적으로 OBMC를 적용한다. 실험에 의거한 결과들은 제안된 접근법이 블록 가공물들을 상당하게 줄여서 개선된 결과들을 달성한다고 제시하고 있다.

또 다른 FRUC 접근법은 인코더로부터 부정확하게 전송된 임의의 모션 벡터들의 사용에 의해 야기되는 가공물들을 줄이기 위해 벡터 신뢰성 분석을 이용한다. 이러한 접근법에서, 프레임 해석을 위한 가장 바람직한 접근법을 결정하기 위해 전송된 모션 벡터들과 비교되는 모션 벡터들을 구성하도록 모션 추정이 이용된다. 모션 추정을 이용하는 기존의 상향 변환 알고리즘들에서, 추정 프로세스는 프레임이 보간되게 할 모션 벡터들을 구성하기 위해 두 개의 인접한 디코딩된 프레임들을 이용하여 수행된다. 그러나 이러한 알고리즘들은 모션 추정 연산을 위해 요구되는 계산의 양에 대한 고려 없이 전송 대역폭의 활용을 향상시킬 것을 시도한다. 이와 비교하여, 전송된 모션 벡터들을 이용하는 상향 변환 알고리즘들에서는, 보간된 프레임들의 품질은 인코더에 의해 유도된 모션 벡터들에 크게 좌우된다. 이러한 두 가지 접근법들의 조합을 이용하여, 전송된 모션 벡터들은 먼저 이들이 보간 프레임들을 구성하는데 사용될 수 있는지 여부를 결정하도록 분석된다. 그 다음에, 보간에 사용되는 방법이 세 가지 방법: 로컬 모션-보상 보간, 글로벌(global) 모션-보상 보간 및 프레임-반복 보간으로부터 적응적으로 선택된다.

FRUC 기술들은 일반적으로 비디오 디코더의 후-처리 기능들로서 구현되지만, 비디오 인코더는 통상적으로 이러한 동작에 포함되지 않는다. 그러나 인코더-보조(encoder-assisted) FRUC(EA-FRUC)로서 지칭되는 접근법에서는, 디코더가 제거되는 벡터 또는 잔여 데이터 없이 프레임들의 중요 부분들을 자율적으로 재생성하게 하면서, 인코더가 모션 벡터들 또는 기준 프레임들(예를 들어, 잔여 데이터)과 관련된 특정 정보의 전송이 제거될 수 있는지 여부를 결정할 수 있다. 예를 들어, MPEG-2에서 B-프레임 코딩에 대한 개선으로서 양방향 예측 비디오 코딩 방법이 소개되었다. 이러한 방법에서, 모션-보상 예측 코딩에서 실제 모션 벡터들의 애플리케이션을 인에이블하기 위해 에러 기준의 사용이 제안된다. 왜곡 측정은 절대차 합계(SAD)에 기반하지만, 이러한 왜곡 측정은 특히 시퀀스에 있는 두 개의 프레임들 사이의 모션 양이 한정되어야 하는 실제 왜곡 측정을 제공하는데 있어서는 불충분하다고 알려져 있다. 또한, 임계치 변동에 대한 분류들은 가급적이면 콘텐츠 종속적이기 때문에, 최적으로는 이러한 임계치들이 가변적이어야 하는 경우에 임계치들의 변화는 고정된 임계치들을 이용하여 분류된다.

인코더 개선 정보의 사용을 포함하는 FRUC 비디오 압축 기술들은 비디오 프레임들 내의 오브젝트들의 모션을 모델링하기 위해 병진(translational) 모션 모델들에 의한 블럭-기반의 모션 예측을 사용한다. 블럭-기반의 모션 예측은 비디오 신호들에 고유한 시간 상관 구조를 이용한다. 블럭-기반의 모션 예측에 의해 사용되는 것과 같은 병진 모션 모델링은 비디오 포착 디바이스의 렌즈들과 더 평행하거나 덜 평행한 평면에서 병진 모션을 행하면서 고정된 형태를 유지하는 바디(body)들에 대한 비디오 신호들에서 시간 중복성을 감소시키거나 제거할 수 있다. 병진 모션 모델은 인코딩된 블럭당 2개의 파라미터를 사용한다.

모션-보상 예측 및 변환 코딩 기반 하이브리드 비디오 압축에서, 비디오 프레임들은 병진 모션 모델의 사용에 따라 종래의 인코더들에 의해 분할되며, 이 경우에 분할들은 병진 모션을 경험하면서 고정된 형태를 유지하는 오브젝트 바디들의 위치를 결정하기 위해 생성된다. 예를 들어, 자동차가 지나가는 동안 카메라에 포착되는 사람의 비디오 시퀀스는 시퀀스에 대한 고정된 배경을 표시하는 스틸 이미지, 말하고 있는 사람의 머리 부분을 표시하는 비디오 오브젝트, 사람과 관련된 음성을 표시하는 오디오 오브젝트, 및 직사각형의 지원 영역을 갖는 쪽화면(sprite)으로 움직이는 자동차를 표시하는 또 다른 비디오 오브젝트를 포함하는 오브젝트들로 분할될 수 있다. 스틸 이미지에서 쪽화면의 위치는 시간상 이동할 수 있다.

공교롭게도, 병진 모델 모션 예측은 블럭 당 3개 이상의 파라미터들을 요구하는 모션의 오브젝트들에 대한 모션을 정확히 예측하거나 설명할 수 없다. 카메라 모션 및 초점 거리 변화와 결합하여 독립적으로 움직이는 오브젝트들은 모션 예측을 위해 효율적으로 근사화되어야 하는 복잡한 모션 벡터로 이어진다. 따라서 나머지 신호(예측 에러라 공지됨)는 고려할만한 전력을 가지며, 따라서 이러한 움직임을 포함하는 비디오 프레임들은 압축이 효율적이지 않다. 이러한 오브젝트들을 포함하는 비디오 프레임들이 블럭-기반의 모션 예측을 사용하여 보간될 때, 보간된 프레임의 주관적인 또는 객관적인 품질은 모두 블럭 모션 다이내믹들을 설명하기 위해 병진 모션 모델 기본구조의 제한들로 인해 낮다. 또한, 비디오 시퀀스들이 병진 모델 모션 예측에 따라 분할될 때, 임의의 움직임 및 변형들을 경험하는 오브젝트의 보간들을 다루는 알고리즘의 효율이 제한된다.

보간을 수행하기 위한 정보를 전송하는데 잠재적으로 필요한 대역폭의 양을 감소시키면서 움직이는 오브젝트들을 적절히 모델링하는 디코더 디바이스에서 고품질의 보간된 프레임들을 제공하고, 또한 저전력 처리에 의존하는 멀티미디어 이동 디바이스들에 적합하도록 상기 프레임들을 생성하는데 잠재적으로 필요한 계산량을 감소시키는 접근 방식이 바람직하다.

본 명세서에 개시된 특정 양상들은 움직이는 오브젝트들의 모델링, 압축 효율 및 재구성된 비디오 품질을 개선하기 위해 디코더에서 발생할 FRUC 프로세싱을 활용하기 위한 비디오 인코더에서의 비디오 코딩 및 전처리 동작들 외에도 다양한 모션 모델들을 사용하는 인코더 보조 프레임 레이트 상향 변환(EA-FRUC)을 제공한다.

일 양상에서, 멀티미디어 데이터를 처리하는 방법이 개시된다. 상기 방법은 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할(partition)들로 분할하는 단계, 상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하는 단계 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―, 상기 모델링 정보에 기초하여 보간 프레임을 생성하는 단계, 및 상기 보간 프레임에 기초하여 인코딩 정보를 생성하는 단계를 포함하며, 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는(co-located) 비디오 프레임을 생성하기 위해 사용된다.

또 다른 양상에서, 멀티미디어 데이터를 처리하기 위한 장치가 개시된다. 상기 장치는 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하기 위한 수단, 상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하기 위한 수단 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―, 상기 모델링 정보에 기초하여 보간 프레임을 생성하기 위한 수단, 및 상기 보간 프레임에 기초하여 인코딩 정보를 생성하기 위한 수단을 포함하며, 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용된다.

추가 양상에서, 멀티미디어 데이터를 처리하기 위한 장치가 개시된다. 상기 장치는 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하도록 구성된 분할 모듈, 상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하도록 구성된 모델링 모듈 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―, 상기 모델링 정보에 기초하여 보간 프레임을 생성하도록 구성된 프레임 생성 모듈, 상기 보간 프레임에 기초하여 인코딩 정보를 생성하도록 구성된 인코딩 모듈, 및 상기 인코딩 정보를 디코더로 전송하도록 구성된 전송 모듈을 포함한다.

또 다른 양상에서, 멀티미디어 데이터를 처리하기 위한 명령들을 포함하는 기계 판독 가능한 매체가 개시된다. 상기 명령들은 실행시 기계로 하여금 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하게 하고, 상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하게 하고 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―, 상기 모델링 정보에 기초하여 보간 프레임을 생성하게 하고, 상기 보간 프레임에 기초하여 인코딩 정보를 생성하게 하며, 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용된다.

또 다른 양상에서 멀티미디어 데이터를 처리하기 위한 프로세서가 개시된다. 프로세서는 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하고, 상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하고 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―, 상기 모델링 정보에 기초하여 보간 프레임을 생성하며, 상기 보간 프레임에 기초하여 인코딩 정보를 생성하도록 구성되고, 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용된다.

다른 목적들, 특징들 및 장점들이 하기의 상세한 설명에서 당업자에게 명백할 것이다. 그러나 상세한 설명 및 특정 예들은 예시적인 양상들을 표시하면서 설명을 위해 제공되고 제한되지 않음이 이해되어야 한다. 하기의 설명에서 다양한 변경들 및 수정들이 본 발명의 사상을 벗어나지 않고 실행될 수 있다.

도 1A는 스트리밍 비디오의 전달을 위한 일 양상에 따라 다양한 모션 모델들을 사용하여 인코더 보조 프레임 레이트 상향 변환(EA-FRUC) 시스템을 구현하는 통신 시스템의 일 예의 설명이다.

도 1B는 스트리밍 비디오의 전달을 위한 일 양상에 따라 다양한 모션 모델들을 사용하도록 구성된 EA-FRUC 디바이스의 일 예의 설명이다.

도 2는 다양한 모델들을 사용하도록 구성된 도 1A의 EA-FRUC 시스템의 동작을 설명하는 흐름도이다.

도 3은 오브젝트 기반의 모델링 정보 및 디코더 정보를 사용하여 업샘플링하기 위한 인코딩 비디오 데이터를 설명하는 흐름도이다.

도 4는 본 발명의 일 양상에 따른 비디오 프레임에서 오브젝트들에 대한 모델링 정보를 결정하는 것을 설명하는 흐름도이다.

도 5는 아핀 모델들을 사용하여 비디오 프레임에서 오브젝트들에 대한 모션 벡터 침식 정보를 결정하는 것을 설명하는 흐름도이다.

도 6은 본 발명의 특정 양상들에 따라 병진 모션 모델 기본구조 내의 모션 모델들을 디코딩하도록 구성된 디코딩 디바이스를 사용하여 오브젝트 기반 모델링 정보 및 디코더 정보를 사용하여 업샘플링된 인코딩된 비디오 데이터 비트스트림을 디코딩하는 것을 설명하는 흐름도이다.

본 명세서에 개시된 것과 같은 인코더 보조-FRUC(EA-FRUC) 시스템의 일 양상에서, 인코더는 디코더에서 사용되는 FRUC 알고리즘의 사전 정보뿐만 아니라 소스 프레임들에 액세스한다. 인코더는 추가로 소스 프레임들에서 움직이는 오브젝트들을 정확히 모델링하기 위해 병진 모션 모델들을 포함하는 다양한 모션 모델들을 사용하도록 구성된다. 그와 함께 생성된 보간 프레임을 사용하는 인코더는 FRUC 수행시 디코더를 보조하고 보간 동안 이루어지는 결정들을 개선하기 위해 추가 정보를 전송한다. 디코더에서 FRUC가 수행될 것이라는 인식을 이용하여, EA-FRUC 시스템은 다양한 모션 모델들, 즉 비디오 인코더에서의 비디오 코딩 및 전처리 동작들을 사용하여 압축 효율을 개선하고(따라서 전송 대역폭의 사용을 개선하고), (재구성된 움직이는 오브젝트들의 표현을 포함하는) 재구성된 비디오 품질을 개선한다. 특히, 아핀 모션 모델링과 같은 인코더로부터의 다양한 모션 모델 정보는 일반적으로 인코더에 의해 전송되어 디코더에 제공되는 정보를 보충하거나 대체하여 모션 모델링 정보가 인코더 보조 FRUC에 사용될 수 있도록 한다.

일 양상에서, 인코더에 의해 제공되는 정보는 디코더에서 보간될 이미지의 공간(예컨대, 세부조정들, 모드 결정들, 이웃 특징들) 및 시간(예컨대, 모션 벡터(들) 결정들) 특징들뿐만 아니라 FRUC 프로세스에 의해 생성된 보간 프레임 및 정규 예측(B 또는 P) 프레임 코딩에 관한 서로 다른 정보와 같은 파라미터들을 포함한다. 인코더에 의해 제공되는 정보는 추가로 원래의 비디오 스트림으로부터 움직이는 오브젝트들을 정확하고 효율적으로 표현하기 위해 선택된 다양한 모션 모델들을 포함한다.

몇몇 모션 예측 기술들은 병진 모션 외에도 비디오 압축에 사용될 수 있다. 추가의 모션 타입들은 회전 모션; 줌-인 및 줌-아웃 모션; 장면 오브젝트들의 구조 및 형태 변경이 견고한 바디의 가설을 위반하는 변형들; 아핀 모션; 글로벌 모션; 및 오브젝트 기반 모션을 포함한다. 아핀 모션 모델들은 병진 모션, 회전 모션, 잘라내기(shearing), 평행이동, 변형들 및 줌-인 및 줌-아웃 시나리오들에 사용하기 위한 오브젝트 스케일링을 포함하는 다수의 모션 타입들을 지원한다. 아핀 모션 모델은 다른 모션 타입들을 통합하기 때문에 병진 모델보다 다용도로 사용된다. 아핀 모션 모델은 회전, 스케일링 및 잘라내기를 고려하여, 인코딩된 블럭당 6개의 파라미터를 사용한다. 따라서 한 장면에서 오브젝트들의 실제 동적 모션에 더 높은 적응성을 허용한다.

오브젝트 기반의 모션 예측 기술은 서로 다른 모션 타입들을 경험하는 다수의 오브젝트들을 포함하는 장면에 대한 비디오 프레임들에 사용된다. 이러한 상황들에서, 어떠한 단일 모션 모델도 서로 다른 다이내믹들(dynamics)을 효율적으로 캡처할 수 없지만 대신에 모델들의 크기가 사용될 수 있으며, 이 경우에 개별 모델들이 장면 내의 각각의 오브젝트에 대하여 개별적으로 맞춰진다.

본 명세서에서 논의되는 인코더 디바이스의 특정 양상들은 인코딩 디바이스에 의해 인코딩된 데이터를 디코딩하는데 사용될 디코더 디바이스의 속성들을 평가하며, 프레임들을 보간할 때 디코더 디바이스에서 압축 효율, 성능, 오브젝트 렌더링을 개선하기 위해 비디오 데이터의 인코딩을 최적화한다. 예를 들어, 디코더 디바이스는 FRUC 또는 에러 숨김을 개선할 수 있다. 일 양상에서, 비디오 프레임들은 동작들, 시간 변경 다이내믹들 또는 고유하게 식별가능한 오브젝트들에 기초하여 불균일한 크기와 불균일한 형태의 영역들의 집합으로 분할된다. 특정 양상들에 따라, 인코더 디바이스는 글로벌 모션의 위치를 결정하기 위해 (가변 지속 기간의 세그먼트들에서) 비디오 데이터를 분석한다. 글로벌 모션의 위치가 결정되면, 관련된 모델 파라미터들 및 신호들이 아핀 모션 모델들과 같은 다양한 모션 모델들을 사용하여 추정된다. 각각의 오브젝트 또는 분할들에 대한 병진, 회전, 스케일링 및 형태학적 변화 변환들을 설명하는 아핀 모션 모델이 생성될 수 있다. 분할 정보는 관련된 모델들과 함께 잔여 신호의 전력을 감소시킬 수 있는 예측 신호를 생성하는데 사용될 수 있다. 타입 및 파라미터 정보를 포함하는 분할 맵은 관련 모델과 함께 디코더 디바이스로 전송된다. 나머지 신호는 더 높은 품질의 재구성을 가능하게 하도록 개별적으로 압축되어 디코더 디바이스로 전송될 수 있다. 특정 양상들에서, 디코더 디바이스는 수정된 병진 모션 모델 기본구조 내의 인코딩된 모션 모델에 대한 정보를 사용하여 인코딩된 데이터를 분석할 수 있다.

특정 양상들은 인코딩이 디코더 디바이스에서 오브젝트들을 렌더링하는데 필요한 정보의 양을 상당히 감소시키는 오브젝트들을 식별하는 프로세스를 설명한다. 상기 양상들 중 몇몇에서, 하나의 배경 오브젝트 및 임의의 수의 전경 오브젝트들은 이미지 세분화, 그래프 기반 기술들 또는 장면 구성 정보를 사용하여 식별된다. 그 후에 배경 오브젝트가 분류된다. 비디오 시퀀스의 세부 부분 또는 전체 비디오 시퀀스에 대해 상기 두 단계들을 포함하는 오브젝트 기반의 장면 분석이 수행되어 완료되면, 각각의 오브젝트의 전개(evolution) 및 그 다이내믹 동작은 적절한 모션-변형 모델에 의해 정확히 기술될 수 있다. 예를 들어, 균일한 병진 모션을 경험하는 오브젝트에 대하여, 전체 궤도는 (공칭 프레임간 간격과 관련하여 정규화된) 모션 벡터에 의해 간단히 기술될 수 있다. 이 정보는 이 오브젝트의 단일 스냅샷의 시각 데이터와 결합하여 오브젝트가 장면 밖으로 이동하거나 그 모션 또는 시각적 속성들의 일부가 변화할 때까지 디코더 디바이스에서 이 오브젝트를 정확히 렌더링하는데 사용될 수 있다. 오브젝트에 대한 최소 불균일 시각적 샘플링 패턴을 식별하기 위해 오브젝트의 모션 또는 시각적 속성들 중 하나의 변경이 사용될 수 있다. 유사한 방식으로, 장면에서 이전에 식별된 오브젝트들에 대해 잠정적으로 어느 정도 복잡한 모션 궤도들(trajectories) 및 폐쇄(occlusion) 속성들이 결정될 수 있다.

하기의 설명에서, 본원 발명의 양상들의 충분한 이해를 제공하기 위해 특정 세부 설명들이 주어진다. 그러나 상기 양상들은 상기 특정 세부 설명들 없이 실행될 수 있음이 당업자에 의해 인식될 것이다. 예를 들어, 전자 소자들은 불필요하게 상세하여 양상들을 불명료하게 하지 않도록 블럭 다이어그램으로 도시될 수 있다. 다른 경우에, 이러한 컴포넌트들, 다른 구조들 및 기술들이 상기 양상들을 추가 설명하기 위해 상세히 도시될 수 있다.

본원 발명의 양상들은 순서도, 흐름도, 구조 다이어그램 또는 블럭 다이어그램으로 도시된 프로세스로서 설명될 수 있다. 흐름도는 순차적인 프로세스로서 동작들을 설명할 있지만, 상기 동작들 다수는 동시에 또는 순차적으로 수행될 수 있고, 상기 프로세스는 반복될 수 있다. 또한, 동작들의 순서는 재배열될 수 있다. 동작들이 완료되면 프로세스가 종료된다. 프로세스는 방법, 기능, 절차, 서브루틴, 서브프로그램 등등에 상응할 수 있다. 프로세스가 하나의 기능에 해당할 때, 그 종료는 상기 기능의 호출 기능 또는 주요 기능으로의 복귀에 해당한다.

도 1A는 스트리밍 비디오의 전달을 위한 일 양상에 따라 다양한 모션 모델들을 사용하여 인코더 보조 프레임 레이트 상향 변환(EA-FRUC) 시스템을 구현하는 통신 시스템의 일 예의 설명이다. 시스템(100)은 인코더 디바이스(105) 및 디코더 디바이스(110)를 포함한다.

인코더 디바이스(105)는 프레임 생성기(115), 모델러(120), 분할기(160), 멀티미디어 인코더(125), 메모리 컴포넌트(130), 프로세서(135), 및 수신기/송신기(140)를 포함한다. 프로세서(135)는 일반적으로 예시적인 인코더 디바이스(105)의 전체 동작을 제어한다.

분할기 컴포넌트(160)는 비디오 프레임들을 서로 다른 블럭들로 분할하여 모션 모델들이 비디오 프레임의 서브 세트 영역들과 관련될 수 있게 한다. 모션-변형 정보의 분석은 초기 장면/프레임을 분할하는데 성공적으로 사용될 수 있고, 전송된 프레임들의 데이터에 기초하여 성공적으로 보간될 수 있는 프레임들과는 대조적으로, 압축되어 전송될 필요가 있는 프레임들의 최소 시간 샘플링을 결정하는데 사용될 수 있다. 특정 양상들에서, 샘플링 인스턴스들의 (최소) 개수는 모션-변형 다이내믹들이 변화들을 경험하는 시점에 기초한다. 따라서 모션-변형 다이내믹들의 적절한 분할에 기초하여 적절한 프레임 보간이 실행될 수 있다.

모델러 컴포넌트(120)는 모션 모델들을 결정하여 이들을 장면을 포함하는 비디오 프레임들 내에서 발견되는 오브젝트들과 관련시키도록 구성된다.

프레임 생성기 컴포넌트(115)는 인코더 디바이스(105)에 의해 전송되는 데이터를 디코딩하는데 사용될 디코더에 관한 정보뿐만 아니라 원래의 비디오 스트림으로부터의 데이터를 사용하는 보간 프레임들을 생성한다. 보간 프레임들을 생성하기 위한 시스템 및 방법들은 "비디오 압축을 위한 인코더 보조-프레임 레이트 상향변환(EA-FRUC)을 위한 방법 및 장치"라는 명칭의 미국 특허 공개공보 2006/0165176에 개시되며, 본 명세서에서 참조로서 통합된다.

멀티미디어 인코더(125)는 공간 도메인으로부터 DCT(이산 코사인 변환)의 경우에 주파수 도메인과 같은 다른 도메인으로 비디오(또는 오디오 또는 비공개 캡션 텍스트) 데이터를 변환 및/또는 양자화하는 변환기/양자화기 컴포넌트를 포함하는 서브 컴포넌트들을 포함할 수 있다. 멀티미디어 인코더는 엔트로피(entropy) 인코더 컴포넌트를 포함할 수 있다. 엔트로피 인코더 컴포넌트는 컨텍스트-적응형(context-adaptive) 가변 길이 코딩(CAVLC)을 사용할 수 있다. 인코딩된 데이터는 양자화된 데이터, 변환된 데이터, 압축된 데이터 또는 이들의 임의의 조합을 사용할 수 있다. 메모리 컴포넌트(130)는 인코딩될 원본(raw) 비디오 데이터, 전송될 인코딩된 비디오 데이터, 헤더 정보, 헤더 디렉토리 또는 다양한 인코더 컴포넌트들에 의해 동작하는 중간 데이터와 같은 정보를 저장하기 위해 사용된다.

이 예에서, 수신기/송신기 컴포넌트(140)는 외부 소스(145)로부터 인코딩될 데이터를 수신하기 위해 사용되는 회로 및/또는 로직을 포함한다. 외부 소스(145)는 예를 들면, 외부 메모리, 인터넷, 라이브 비디오 및/또는 오디오 피드(feed)가 될 수 있고, 데이터를 수신하는 것은 유선 및/또는 무선 통신들을 포함할 수 있다. 송신기(140)는 또한 인코딩된 데이터를 네트워크(150)를 통해 전송(Tx)하기 위한 송신기와 같은 회로 및/또는 로직을 포함한다. 네트워크(150)는 전화기, 케이블 및 광섬유 또는 무선 시스템과 같은 유선 시스템의 일부가 될 수 있다. 무선 통신 시스템들의 경우에, 네트워크(150)는 코드 분할 다중 접속(CDMA 또는 CDMA 2000) 통신 시스템의 일부를 포함할 수도 있고, 대안으로 시스템은 주파수 분할 다중 접속(FDMA) 시스템, 직교 주파수 분할 다중 접속(OFDMA) 시스템, GSM/GPRS(범용 패킷 무선 서비스)/EDGE(개선된 데이터 GSM 환경) 또는 서비스 산업을 위한 TETRA(지상 중계 회선의 무선) 이동 전화기 기술과 같은 시분할 다중 접속(TDMA) 시스템, 광대역 코드 분할 다중 접속(WCDMA), 고속 데이터(1xEV-DO 또는 1xEV-DO 골드(Gold) 멀티캐스트) 시스템, 또는 일반적으로 상기 기술들의 조합을 사용하는 임의의 무선 통신 시스템이 될 수 있다. 전송된 데이터는 비디오, 오디오 및/또는 비공개 캡션과 같은 다수의 비트 스트림들을 포함할 수 있다.

도 1에 도시된 인코더 디바이스(105) 중 하나 이상의 엘리먼트들은 생략, 재배치 및/또는 결합될 수 있다. 예를 들어, 프로세서 컴포넌트(135)는 인코더 디바이스(105)의 외부 장치가 될 수 있다.

디코더 디바이스(110)는 멀티미디어 디코더(165), 메모리 컴포넌트(170), 수신기(175) 및 프로세서(180)를 포함하여 인코더 디바이스(105)와 유사한 컴포넌트 들을 포함한다. 디코더 디바이스(110)는 네트워크(150)를 통하거나 외부 저장장치(185)로부터 전송된 인코딩된 멀티미디어 데이터를 수신한다. 수신기(175)는 네트워크(150)와 결합하여 인코딩된 데이터를 수신하기(Rx) 위해 사용되는 회로 및/또는 로직뿐만 아니라 외부 저장장치(185)로부터 인코딩된 데이터를 수신하기 위한 로직을 포함한다. 외부 저장장치(185)는 예를 들면, 외부 RAM 또는 ROM 또는 원격 서버가 될 수 있다.

멀티미디어 디코더(165)는 수신된 인코딩 멀티미디어 비트스트림들을 디코딩할 때 사용되는 회로 및/또는 로직을 포함한다. 멀티미디어 디코더(165)의 서브 컴포넌트들은 역양자화 컴포넌트, 역변환 컴포넌트 및 다양한 에러 복원 컴포넌트들을 포함할 수 있다. 에러 복원 컴포넌트들은 더 낮은 레벨의 에러 검출 및 정정 컴포넌트들(리드-솔로몬(Reed-Solomon) 코딩 및/또는 터보-코딩)뿐만 아니라 더 낮은 계층의 방법들에 의해 정정할 수 없는 데이터를 대체 및/또는 숨기기 위해 사용되는 상위 계층 에러 복원 및/또는 에러 숨김을 포함할 수 있다.

디코딩된 멀티미디어 데이터는 디스플레이 컴포넌트(190)를 사용하여 디스플레이되거나, 외부 저장 장치(185) 내에 저장되거나 내부 메모리 컴포넌트(170) 내에 저장될 있다. 디스플레이 컴포넌트(190)는 디코더 디바이스(110)의 통합된 부분이 될 수 있다. 디스플레이 컴포넌트(190)는 디스플레이 스크린 및/또는 스피커들을 포함하여 비디오 및/또는 오디오 디스플레이 하드웨어 및 로직과 같은 부분들을 포함한다. 디스플레이 컴포넌트(190)는 또한 외부 주변 디바이스들이 될 수 있다. 상기 예에서, 수신기(175)는 외부 저장 컴포넌트(185) 또는 디스플레이 컴포넌트(190)에 디코딩된 멀티미디어 데이터를 전달하기 위해 사용되는 로직을 포함한다.

도 1에 도시된 디코더 디바이스(110)의 하나 이상의 엘리먼트들은 생략되거나, 재배치되거나 및/또는 조합될 수 있음이 주지되어야 한다. 예를 들어, 프로세서(180)는 디코더 디바이스(110)의 외부 장치가 될 수 있다.

도 1B는 스트리밍 비디오의 전달을 위한 일 양상에 따라 다양한 모션 모델들을 사용하도록 구성된 EA-FRUC 디바이스(155)의 일 예의 설명이다. 다양한 모션 모델들을 사용하도록 구성된 EA-FRUC 디바이스(100)는 제 1 비디오 스트림 및 제 2 비디오 스트림을 분할하기 위한 모듈(161), 모델링 정보를 결정하기 위한 모듈(121), 보간 프레임을 생성하기 위한 모듈(116) 및 인코딩 정보를 생성하기 위한 모듈(126)을 포함한다.

일 양상에서, 제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하기 위한 수단은 제 1 비디오 프레임 및 제 2 비디오 프레임을 분할하기 위한 모듈(161)을 포함한다. 일 양상에서, 상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하기 위한 수단은 모델링 정보를 결정하기 위한 모듈(121)을 포함한다. 일 양상에서, 모델링 정보에 기초하여 보간 프레임을 생성하기 위한 수단은 보간 프레임을 생성하기 위한 모듈(116)을 포함한다. 일 양상에서, 보가 프레임에 기초하여 인코딩 정보를 생성하기 위한 수단은 인코딩 정보를 생성하기 위한 모듈(126)을 포함한다.

도 2는 다양한 모션 모델들을 사용하도록 구성된 도 1A의 EA-FRUC 시스템의 동작을 설명하는 흐름도이다. 먼저, 단계(201)에서, 비디오 데이터는 도 3을 참조로 상세히 설명되는 것과 같이 오브젝트 기반의 모델링 정보 및 디코더 디바이스(110)에 관한 정보를 사용하여 업샘플링하기 위해 인코딩된다. 다음에, 단계 202에서, 인코딩된 정보는 디코더 디바이스(110)로 전송된다. 특정 양상들에서, 인코딩된 정보는 인코더 디바이스(105)의 송신기 모듈(140)로부터 디코더 디바이스(110)의 수신기(175)로 전송된다. 인코딩된 정보를 수신하면, 단계(203)에서 프로세스는 디코더 디바이스(110)가 인코딩된 정보를 디코딩할 때 종료하여, 인코딩된 오브젝트 기반의 모델링 정보를 사용하여 원래의 비디오 데이터의 압축된 버전을 재생한다. 단계(203)는 도 6을 참조하여 추가로 설명될 것이다.

도 3은 오브젝트 기반의 모델링 정보 및 디코더 정보를 사용하여 업샘플링하기 위해 비디오 데이터를 인코딩하는 것을 설명하는 흐름도이다. 먼저, 단계 301에서, 도 4를 참조하여 추가로 설명되는 것과 같이 비디오 프레임의 오브젝트들에 대하여 모델링 정보가 결정된다. 다음에, 단계 302에서, 인코딩된 비디오 데이터를 디코딩하는데 사용될 디코딩 시스템에 관한 정보가 인코딩된 비디오를 업샘플링하기 위해 추가로 사용된다. 마지막으로, 단계 303에서, 인코딩된 비디오 비트스트림은 "스케일 가능한 비디오 코딩에서 프레임 레이트 상향 변환 기술들을 사용하기 위한 방법 및 장치"라는 명칭의 미국 특허 공개공보 2006/0002465에서 논의되는 것과 같이 생성되며, 상기 특허는 본 명세서에서 참조로서 통합된다.

도 4는 본 발명의 일 양상에 따라 비디오 프레임에서 오브젝트들에 대한 모델링 정보를 결정하는 것을 설명하는 흐름도이다. 설명되는 양상에서, 움직이는 오브젝트들은 임의의 모션들 및 변형들을 경험하는 오브젝트들을 인식하는 것과 관련된 본 명세서의 특정 기술들을 사용하여 식별된다. 다른 양상들에서, 오브젝트들은 종래 기술에서 공지된 것과 같이 각각의 비디오 프레임에 모션-보상된 예측 및 변환 코딩 기반 하이브리드 비디오 압축 방식을 균일하게 적용함으로써 식별될 수 있다. 또한, 논의되는 양상에서, 오브젝트-기반의 아핀 모델 또는 로컬 GMC로 공통으로 지칭되는 아핀 모델들이 비디오 프레임의 일부분을 커버하기 위해 사용된다. 상기 경우에서, 인코더 디바이스(105)는 모션에서 오브젝트들의 위치를 결정하기 위해 오브젝트 분할을 수행하며, 그 후에 아핀 모델 자체와 오브젝트 서술자를 사용하여 아핀 모델 추정을 업데이트한다. 예를 들어, 이진 비트맵은 비디오 프레임 내의 서술된 오브젝트의 경계를 표시할 수 있다. 아핀 모델이 전체 비디오 프레임을 커버하는 양상들에서, 글로벌 움직임 보상(GMC)이 사용된다. GMC 경우들을 위해, 아핀 모델 모션에서 사용되는 6개의 파라미터는 프레임의 모션을 설명하기 위해 사용되며, 비트 스트림 내에 포함된 임의의 다른 모션 정보 없이 디코더 디바이스(110)로 전송된다. 또 다른 양상들에서, 아핀 모델들과 다른 모션 모델들이 사용될 수 있다.

먼저, 단계 401에서, 비디오 프레임은 블럭들로 분할된다. 특정 양상들에서, 블럭들은 고정된 크기와 형태를 갖는다. 다른 양상들에서, 프레임은 두드러지는 모션-변형 행동들, 영역들 내의 시간 변화 다이내믹들, 고유하게 식별할 수 있는 오브젝트들을 포함하는 인자들 중 하나 또는 조합에 기초하여 불균일한 크기 및/또는 불균일한 형태의 블럭들로 분할될 수 있다.

다음에, 단계 402에서, 하나의 배경 오브젝트가 식별되고 제로 또는 그 이상의 전경 오브젝트들이 식별된다. 특정 양상들에서, 이미지 분할을 사용하여 식별이 실행될 수 있다. 이미지 분할은 임계화와 관련하여 밝기 및 컬러 값들과 같은 픽셀 도메인 속성들뿐만 아니라 영역-기반 방법들과 관련하여 상기 속성들의 특정 통계치들, 예컨대 평균, 분산, 표준 편차, 최소-최대, 중간값 및 다른 통계들을 분석하는 것을 포함한다. 다른 양상들에서, 식별은 Markov 랜덤 필드 또는 Fractals를 사용하여 실행될 수 있다. 다른 양상들에서, 식별은 기울기 이미지들 및 형태 모델들로의 Watershed 변환을 포함하는 에지/윤곽 검출을 사용하여 실행된다. 추가 양상들에서, 식별은 일반적으로 활성 윤곽 모델이라 지칭되는 접속-유지 완화-기반의 분할 방법들을 사용하여 실행될 수 있다. 다른 양상들에서, 식별은 모션 필드들과 같은 시간 정보를 사용하여 실행될 수 있다. 특정 양상들에서, 이미지 분할은 단일 기본 구조 내에서의 전술된 이미지 분할 접근 방식들 중 몇몇 또는 전부의 조합을 사용하여 발생할 수 있다.

특정 양상들에서, 오브젝트들은 국부 및 전역, 의미론적 및 통계학적(강도/텍스처) 그룹 큐들(cues)과 같은 그래프-기반의 기술들을 사용하여 식별될 수 있다. 추가 양상들에서, 전술된 오브젝트들의 식별은 창작-툴로부터 입수할 수 있는 장면 구성 정보를 사용하여 실행될 수 있다. 특정 양상들에서, 배경 오브젝트 및 임의의 전경 오브젝트는 단일 기본구조 내에서의 전술된 식별 접근 방식들 중 몇몇 또는 전부의 조합을 사용하여 식별될 수 있다.

그 후에, 단계 403에서, 배경 오브젝트가 분류된다. 특정 양상들에서, 배경 오브젝트는 배경 오브젝트의 일 전송이 디코더 디바이스(110)에서의 향후 프레임 보간 및/또는 디코딩/재구성 작업들에 만족하는 스틸 이미지로 분류될 수 있다. 다른 양상들에서, 배경 오브젝트는 팬, 스크롤, 회전, 줌-인 또는 줌-아웃 모션과 같은 글로벌 모션을 경험하는 스틸(거의 고정적인) 이미지로 분류된다. 이 경우에, 인코더 디바이스(105)는 글로벌 모션 모델의 설명과 관련하여 배경 이미지의 특정 샘플 상태들을 전송할 것을 적절히 선택한다. 전송은 디코더 디바이스(110)에서 프레임 보간 및/또는 디코딩/재구성 작업들에 대하여 만족할 수 있다. 추가 양상들에서, 배경 오브젝트의 분류는 전술된 2개의 클래스 중 하나에 속하지 않을 수 있으며, 그 경우에 배경 이미지의 상태들의 잠정적으로 높은 밀도의 시간 샘플링은 디코더 디바이스(110)에서의 성공적인 프레임 보간 및/또는 디코딩/재구성을 지원하기 위해 인코더 디바이스(105)에 의해 전송될 수 있다.

다음에, 단계(404)에서, 비디오 데이터로부터 식별된 오브젝트들에 대한 모션 벡터 정보가 처리된다. 모션 벡터 정보는 "모션 벡터 처리를 위한 방법 및 장치"라는 명칭의 미국 특허 공개공보 2006/0018382에 개시된 시스템들 및 방법들을 사용하여 처리될 수 있고, 본 명세서에 참조로서 통합된다. 단계 405에서, 추정된 아핀 모델들은 움직이는 오브젝트들과 관련된다. 아핀 모델은 구분적인 평면 모션 벡터 필드 근사화의 수행시 최소한의 감소에 기초하여 추정될 수 있다. 각각의 식별된 움직이는 오브젝트와 관련된 각각의 아핀 모델은 도 5를 참조하여 하기에서 설명되는 것과 같이 모션 벡터 침식(erosion) 정보를 사용하여 단계(406)에서 특정되고, 그 후에 모션 기반의 오브젝트 분할을 사용하여 단계(407)에서 추가로 특정된다. 상기 추가 특정들은 단계(408)에서 각각의 개별 아핀 모델을 업데이트하기 위해 사용되고, 결국 프로세스는 단계(409)에서 오브젝트 서술자가 아핀 모델들을 위해 생성될 때 종료한다.

도 5는 아핀 모델들을 사용하여 비디오 프레임에서 오브젝트들에 대한 모션 벡터 침식 정보를 결정하는 것을 설명하는 흐름도이다. 먼저, 단계 501에서, 인코더 디바이스(105)는 움직이는 오브젝트와 관련하기 위한 아핀 모델을 결정한다. 인코더 디바이스(105)는 그 후에 단계 502에서 비디오 프레임에 대한 오브젝트 맵의 제 1 매크로블럭으로 진행하며, 단계 503에서, 오브젝트 맵의 각각의 매크로블럭에 대하여 인코더 디바이스(105)는 결정 단계 504에서 매크로블럭이 단계(501)로부터 결정된 아핀 모델과 정합하는지를 결정한다. 매크로블럭이 아핀 모델과 정합하지 않으면, 단계 505에서 정합하는 매크로블럭을 사용하여 아핀 모델 기반의 오브젝트 맵이 업데이트된다. 인코더 디바이스(105)는 단계(503)로 복귀함으로써 단계(506)에서 다음 매크로블럭으로 진행한다. 그러나 매크로블럭이 아핀 모델과 정합하지 않으면, 디코더 디바이스는 단계(503)로 복귀함으로써 단계(506)에서 다음 매크로블럭으로 즉시 진행한다. 그렇지 않으면, 프로세스는 종료한다.

병진 모델을 사용하는 블럭 기반의 모션 보상이 디코더 디바이스들(디바이스들의 소프트웨어 또는 하드웨어 양상들)에서 광범위하게 전개되지만, EA-FRUC가 디코더 디바이스들에서 구현될 서로 다른 모션 모델들을 사용하기 위해, 인코더 디바이스(105)로부터의 모션 정보는 병진 블럭 기반의 모션 벡터 기본구조 내에서 기술된다. 특정 양상들에서, 디코더 디바이스(110)의 병진 블럭 기반의 모션 기본구조에서 서로 다른 모션 모델을 기술하는 프로세스는 더 큰 블럭 사이즈에 대한 모션 벡터를 생성하기 위해 더 작은 블럭 사이즈들의 블럭 모션 벡터들에 대해 재귀적으로 실행될 수 있다.

비디오 비트 스트림 내에 인코딩된 모션 모델에서의 정보를 사용할 때, 디코더 디바이스(110)는 원래의 비디오의 오브젝트를 디스플레이하는데 사용되는 다수의 픽셀의 일부분을 사용하여 선택된 움직이는 오브젝트들에 대한 모션 벡터들을 생성한다. 특정 양상들에서, 선택된 픽셀들은 블럭 내에 고르게 분포될 수 있다. 다른 양상들에서, 픽셀들은 블럭으로부터 랜덤하게 선택될 수 있다.

특정 양상들에서, 블럭들의 다수의 모션 벡터들은 그 후에 블럭을 나타내는 단일 모션 벡터를 생성하도록 통합되고, 상기 모션 벡터는 추가로 전술된 것과 같은 벡터 평탄화와 같은 후처리가 수행될 수 있다. 다른 양상들에서, 선택된 픽셀 또는 오브젝트의 모션 벡터는 해당 블럭을 나타내는 모션 벡터를 생성하기 위해 모션 추정 모듈에 대한 시드(seed) 모션 벡터로서 사용될 수 있다.

도 6은 본 발명의 특정 양상들에 따라 병진 모션 모델 기본구조 내의 모션 모델들을 디코딩하도록 구성된 디코더 디바이스를 사용하여 오브젝트 기반의 모델링 정보 및 디코더 정보를 사용하여 업샘플링된 인코딩된 비디오 데이터 비트스트림을 디코딩하는 것을 설명하는 흐름도이다.

단계 601에서, 디코더 디바이스(110)는 2개의 기준 프레임들을 포함하는 비디오 비트스트림에 대하여 인코딩된 정보를 수신한다. 다음에, 결정 단계(602)에서, 디코더 디바이스(110)는 비트 스트림이 인코더 개선된 보간 프레임을 포함하는지의 여부를 결정한다. 인코더 개선된 보간 프레임이 포함된다면, 단계(603)에서 디코더 디바이스는 보간 프레임과 시간상 함께 위치하는(co-terminal) 비디오 프레임을 생성하기 위해 기준 프레임 외에도, 다양한 모션 모델들과 관련된 인코더 개선된 정보를 포함하는 보간 프레임을 사용한다. 다시 말해서, 디코더 디바이스는 보간 프레임을 대신하는 비디오 프레임을 생성하기 위해 인코더 개선된 보간 프레임과 함께 관련 기준 프레임을 사용한다. 그러나 단계(602)에서 디코더 디바이스(110)가 인코더 개선된 보간 프레임 정보가 비트 스트림에 삽입되지 않는다고 결정한다면, 단계(604)에서 디코더 디바이스(110)는 양방향 프레임(B-프레임)을 생성하기 위해 기준 프레임을 사용할 것이다.

당업자는 정보 및 신호들이 임의의 다수의 상이한 기술들 및 테크닉들을 사용하여 표현될 수 있음을 인식할 것이다. 예를 들어, 상기 설명을 통해 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 전자기장들, 또는 전자기 입자들, 광학계들 또는 광학 입자들, 또는 그들의 임의의 조합에 의해 표시될 수 있다.

당업자는 또한 본 명세서에 개시된 실시예들과 관련하여 설명된 논리적인 블럭들, 모듈들, 회로들, 및 알고리즘 단계들이 전자하드웨어, 컴퓨터 소프트웨어, 또는 그들의 조합으로서 실행될 수 있음을 인식할 것이다. 상기 하드웨어 및 소프트웨어의 상호교환가능성을 명백히 설명하기 위해, 다양한 요소들, 블럭들, 모듈들, 회로들, 및 단계들이 그들의 기능성에 관련하여 전술되었다. 상기 기능성이 하드웨어로 실행되는지 또는 소프트웨어로 실행되는지의 여부는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약에 따라 결정한다. 당업자는 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능성을 실행할 수 있지만, 상기 실행 결정들은 본 발명의 영역으로부터 벗어나는 것으로 해석될 수 없다.

본 명세서에서 개시된 실시예와 관련하여 다양하게 설명되는 논리 블럭들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 처리기(DSP), 응용 집적 회로(ASIC), 현장 프로그램가능한 게이트 어레이(FPGA), 또는 다른 프로그램가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 요소들, 또는 본 명세서에 개시된 기능을 수행하도록 설계된 그들의 임의의 조합을 사용하여 실행되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서가 될 수 있지만, 선택적으로 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 기계가 될 수 있다. 프로세서는 또한 예를 들어, DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 이상의 마이크로프로세서, 또는 임의의 다른 구성과 같은 컴퓨팅 장치들의 조합으로서 실행될 수 있다.

본 명세서에 개시된 실시예와 관련하여 설명되는 방법 또는 알고리즘의 단계는 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 그들의 조합에서 즉시 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드디스크, 제거가능한 디스크, CD-ROM 또는 임의의 다른 저장 매체 형태로 당업자에게 공지된다. 예시적인 저장 매체는 저장매체로부터 정보를 판독하고 정보를 기록할 수 있는 프로세서에 접속된다. 선택적으로, 저장 매체는 프로세서의 필수 구성요소이다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수 있다. ASIC은 사용자 터미널 내에 상주할 수 있다. 선택적으로, 프로세서 및 저장 매체는 사용자 디바이스 내에서 이산요소들로서 상주할 수 있다.

개시된 실시예의 전술된 설명은 당업자가 본 발명을 구현하고 이용하기에 용이하도록 하기 위하여 제공되었다. 이들 실시예에 대한 여러 가지 변형은 당업자에게 자명하며, 여기서 한정된 포괄적인 원리는 본 발명의 사용 없이도 다른 실시예에 적용될 수 있다. 따라서, 본 발명은 설명된 실시예에 한정되는 것이 아니며, 여기에 개시된 원리 및 신규한 특징에 나타낸 가장 넓은 범위에 따른다.

Claims

멀티미디어 데이터를 처리하는 방법으로서,

제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할(partition)들로 분할하는 단계;

상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트(object)에 대한 모델링 정보를 결정하는 단계 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―;

상기 모델링 정보에 기초하여 보간(interpolated) 프레임을 생성하는 단계; 및

상기 보간 프레임에 기초하여 인코딩 정보를 생성하는 단계 ― 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는(co-located) 비디오 프레임을 생성하기 위해 사용됨 ― 를 포함하며,

상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하는 단계는,

블럭 기반의 모션 필드 추정을 결정하는 단계;

상기 블럭 기반의 모션 필드 추정에 기초하여 적어도 하나의 오브젝트를 식별하는 단계; 및

상기 적어도 하나의 오브젝트에 대한 아핀(affine) 모델을 결정하는 단계를 포함하는, 멀티미디어 데이터를 처리하는 방법.
삭제
제 1항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 컬러 특징(feature)들을 사용하는 단계를 더 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 1항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 텍스처 특징들을 사용하는 단계를 더 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 1항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 픽셀 영역 속성들을 사용하는 단계를 더 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 1항에 있어서,

상기 분할들 중 하나와 관련된 모션 벡터 침식(erosion) 정보를 결정하는 단계를 더 포함하며, 상기 생성된 인코딩 정보는 상기 모션 벡터 침식 정보를 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 1항에 있어서,

상기 모델링 정보는 아핀 모델을 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 7항에 있어서,

상기 아핀 모델은 이동(translation), 회전, 잘라내기(shearing) 및 스케일링 모션 중 적어도 하나를 포함하는, 멀티미디어 데이터를 처리하는 방법.
제 1항에 있어서,

상기 모델링 정보는 글로벌(global) 모션 모델을 포함하는, 멀티미디어 데이터를 처리하는 방법.
멀티미디어 데이터를 처리하기 위한 장치로서,

제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하기 위한 수단;

상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하기 위한 수단 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―;

상기 모델링 정보에 기초하여 보간 프레임을 생성하기 위한 수단; 및

상기 보간 프레임에 기초하여 인코딩 정보를 생성하기 위한 수단 ― 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용됨 ― 을 포함하며,

상기 결정하기 위한 수단은,

블럭 기반의 모션 필드 추정을 결정하기 위한 수단;

상기 블럭 기반의 모션 필드 추정에 기초하여 적어도 하나의 오브젝트를 식별하기 위한 수단; 및

상기 적어도 하나의 오브젝트에 대한 아핀 모델을 결정하기 위한 수단을 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
삭제
제 10항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 컬러 특징들을 사용하기 위한 수단을 더 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
제 10항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 텍스처 특징들을 사용하기 위한 수단을 더 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
제 10항에 있어서,

상기 적어도 하나의 오브젝트의 경계들을 식별하기 위해 픽셀 영역 속성들을 사용하기 위한 수단을 더 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
제 10항에 있어서,

상기 분할들 중 하나와 관련된 모션 벡터 침식 정보를 결정하기 위한 수단을 포함하며, 상기 생성된 인코딩 정보는 상기 모션 벡터 침식 정보를 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
제 10항에 있어서,

상기 모델링 정보는 아핀 모델을 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
제 16항에 있어서,

상기 아핀 모델은 이동, 회전, 잘라내기 및 스케일링 모션 중 적어도 하나를 포함하는, 멀티미디어 데이터를 처리하기 위한 장치.
멀티미디어 데이터를 처리하기 위한 장치로서,

제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하도록 구성된 분할 모듈;

상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하도록 구성된 모델링 모듈 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―;

상기 모델링 정보에 기초하여 보간 프레임을 생성하도록 구성된 프레임 생성 모듈;

상기 보간 프레임에 기초하여 인코딩 정보를 생성하도록 구성된 인코딩 모듈; 및

상기 인코딩 정보를 디코더로 전송하도록 구성된 전송 모듈을 포함하며,

상기 모델링 모듈은,

블럭 기반의 모션 필드 추정을 결정하고;

상기 블럭 기반의 모션 필드 추정에 기초하여 적어도 하나의 오브젝트를 식별하며;

상기 적어도 하나의 오브젝트에 대한 아핀 모델을 결정하도록 추가 구성되는, 멀티미디어 데이터를 처리하기 위한 장치.
멀티미디어 데이터를 처리하기 위한 명령들을 포함하는 기계 판독 가능한 매체로서, 상기 명령들은 실행시 기계로 하여금,

제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하게 하기 위한 명령;

상기 다수의 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하게 하기 위한 명령 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―;

상기 모델링 정보에 기초하여 보간 프레임을 생성하게 하기 위한 명령;

상기 보간 프레임에 기초하여 인코딩 정보를 생성하게 하기 위한 명령 ― 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용 ― 을 포함하며,

상기 모델링 정보를 결정하게 하기 위한 명령은 상기 기계로 하여금,

블럭 기반의 모션 필드 추정을 결정하게 하고;

상기 블럭 기반의 모션 필드 추정에 기초하여 적어도 하나의 오브젝트를 식별하게 하며;

상기 적어도 하나의 오브젝트에 대한 아핀 모델을 결정하게 하는, 기계 판독 가능한 매체.
멀티미디어 데이터를 처리하기 위한 프로세서로서,

제 1 비디오 프레임 및 제 2 비디오 프레임 중 적어도 하나를 다수의 분할들로 분할하고;

상기 분할들 중 적어도 하나에서 적어도 하나의 오브젝트에 대한 모델링 정보를 결정하고 ― 상기 모델링 정보는 상기 제 1 비디오 프레임 및 상기 제 2 비디오 프레임과 관련됨 ―;

상기 모델링 정보에 기초하여 보간 프레임을 생성하며;

상기 보간 프레임에 기초하여 인코딩 정보를 생성하도록 구성되며, 상기 인코딩 정보는 상기 보간 프레임과 시간상 함께 위치하는 비디오 프레임을 생성하기 위해 사용되고, 상기 프로세서는,

블럭 기반의 모션 필드 추정을 결정하고;

상기 블럭 기반의 모션 필드 추정에 기초하여 적어도 하나의 오브젝트를 식별하며;

상기 적어도 하나의 오브젝트에 대한 아핀 모델을 결정하도록 추가 구성되는, 프로세서.