KR101414669B1

KR101414669B1 - 적응형 비디오 표현을 위한 방법 및 디바이스

Info

Publication number: KR101414669B1
Application number: KR1020097004095A
Authority: KR
Inventors: 지뽀 첸; 시아오똥 꾸; 추칭 첸
Original assignee: 톰슨 라이센싱
Priority date: 2006-09-01
Filing date: 2007-09-03
Publication date: 2014-07-03
Also published as: JP2014139681A; US20090244093A1; WO2008028334A1; EP2057531A1; CN101535941B; CN101535941A; KR20090045288A; US8605113B2; EP2057531A4; JP2010503006A; WO2008040150A1

Abstract

제한된 스크린 사이즈를 갖는 더 작은 디스플레이 상에 비디오의 콘텐츠 분석에 기초하여 스트림이 임베딩된 정보을 갖는 비디오를 자동적으로 표현하기 위한 적응형 비디오 표현 방법이 제공된다. 이 방법은, 상기 비디오의 각 프레임에 대하여 매크로블록의 인지적 중요도 값(interest value)에 기초하여 적어도 하나의 현저한 대상을 포함하는 현저한 대상 그룹을 결정하는 단계와, 비디오 장면에 대하여 현저한 대상 그룹을 포함하는 최소 사이즈를 갖는 창을 추출하는 단계를 포함하되, 더 작은 디스플레이 사이즈와 추출된 창의 사이즈를 비교하는 단계와, 비디오 장면에 대하여 상이한 모션 모드를 위해 비교 단계의 결과에 기초하여 상이한 동작 모드로 더 작은 디스플레이 상에 장면을 위해 현저한 대상 그룹의 적어도 일부를 포함하는 추출된 창의 적어도 선택된 영역을 표현하는 단계를 추가로 포함하는 것을 특징으로 한다.

디스플레이, 스크린, 비디오, 디코더, 인코더

Description

적응형 비디오 표현을 위한 방법 및 디바이스{METHOD AND DEVICE FOR ADAPTIVE VIDEO PRESENTATION}

본 발명은 비디오 표현을 위한 방법 및 디바이스에 관한 것으로서, 더 상세하게는 작은 디스플레이 상에서의 적응형 비디오 표현을 위한 방법 및 디바이스에 대한 것이다.

멀티미디어 응용 영역에서, 포켓 PC, 스마트폰, SPOT 시계, 타블렛 PC, 개인 휴대 정보 디바이스(Personal Digital Assistant device) 등과 같은 다양한 새로운 이동 디바이스는 사람들의 일상 생활속에서 점점 더 대중화되고 있다. 이들 디바이스는 수치 계산 및 데이터 저장 둘 다에서 점점 더 강력해 지고 있다. 더욱이, 사람들은 이들 이동 디바이스를 통하여 비디오를 보는 것에 열광하고 있다.

그러나, 낮은 대역폭 연결과 작은 디스플레이는 여전히 사람들의 일상 생활속에서 이들 디바이스의 유용성을 손상시키고 있는 2가지 심각한 장해물이다. 비록 원도우즈 미디어 플레이어 및 포켓 TV와 같은 몇몇 상업적인 비디오 플레이어가 개발되어 사용자로 하여금 소형 인수 디바이스로부터 비디오를 브라우징하는 것을 가능하게 할지라도, 제한된 대역폭과 작은 창 사이즈는 2개의 결정적인 방해물인 채로 남아 있다. 2.5G 및 3G 무선 네트워크의 급속하고 성공적인 개발에 따라, 대역 폭 인자는 가까운 장래에 제약이 덜할 것으로 기대된다. 그러나 동시에 디스플레이 사이즈에 대한 한계는 일정 시간 동안 변하지 않은 채로 남아 있을 것 같다.

이동 디바이스 상에 디스플레이하는 이미지의 토픽에 집중하는 몇 가지 기존의 작업이 있다. 이들 작업은 인간의 시각 반응을 자극하기 위해 이미지 주목 모델(image attention model)에 기초하여 최적 이미지 시청 경로를 계산하고 이 경로를 제공할 수 있다. 대부분의 귀중한 정보가 비디오에 의해 표현되므로, 작은 디스플레이 상에서 비디오 시청의 경험을 개선시키는 것은 이들 이동 디바이스의 능력을 개선시키기 위해 매우 중요하다.

제한된 그리고 이종의 스크린 사이즈 상에서 비디오를 시청하기 위해 사용자에게 더 좋은 경험을 제공하는 한 가지 솔루션이 X. Fan 등의 "Looking into Video Frames on Small Displays", ACM MM'03, 2003)에서 제안되었는데, 이는 3가지 브라우징 모드를 소개한다. 즉, 수동 브라우징 방법, 완전 자동 브라우징 방법 및 반자동 브라우징 방법이다.

그러나, 제안된 완전 자동 브라우징 방법에서, 방향 및 줌 제어 둘 다는 불가능하게 되어 있다. 결과로서 발생하는 비디오 스트림은 다른 부분을 잘라내면서 주목 받는 영역(attention-getting region)을 디스플레이하기 위해 더 많은 스크린 공간을 사용한다. 이러한 접근 방식은 비디오 프레임이 많은 별도 포커스를 갖고 있는 경우 종래의 다운 샘플링 방식과 별로 차이가 없을 것이다.

반자동 브라우징 방법에서, 인간 상호작용은 여전히 하나 보다 많은 중요한 주목 대상(AO)이 있는 경우 브라우징 포커스를 스위칭하도록 요구된다. 그러므로, 디스플레이 포커스는 사용자가 제어 버튼을 누른 이후에 계산되었고, 포커스가 변경된 경우 결점이 나타날 것이다.

그러므로, 현재의 방식은 특히 복수의 포커스 경우에서 작은 디스플레이 사이즈를 갖는 디바이스 상에서 비디오를 자동적으로 브라우징하고 비디오 디스플레이 품질과, 디스플레이 사이즈 제약 사이에서 더 좋은 절충을 유지하기 위한 우수한 솔루션을 제공할 수 없다.

본 발명은 사용자에게 최적의 비디오 시청 경험을 제공하기 위해 콘텐츠 분석에 기초하여 메타 데이터 정보에 따라 작은 사이즈를 갖는 디스플레이 디바이스 상에 비디오를 완전 자동으로 표현하기 위한 적응형 비디오 표현 솔루션을 제공한다.

본 발명의 제 1 측면에 따르면, 제 1 사이즈보다 더 작은 제 2 사이즈의 디스플레이 상에 제 1 사이즈의 비디오를 자동적으로 표현하기 위한 적응형 비디오 표현 방법이 제공되며, 이 방법은, 비디오 장면의 각 프레임에 대하여 적어도 하나의 현저한 대상을 포함하는 현저한(sailent) 대상 그룹을 결정하는 단계와, 결정된 현저한 대상 그룹과 관련된 사이즈와 제 2 사이즈 사이의 함수에 따라 제 2 사이즈의 더 작은 디스플레이 상에 결정된 현저한 대상 그룹 내에 있는 적어도 하나의 현저한 대상을 디스플레이하는 단계를 포함한다.

일실시예에 있어서, 프레임에 대하여, 현저한 대상 그룹에 관련된 사이즈는 이 프레임에서 현저한 대상 그룹을 커버하는 직사각형 사이즈이다.

또 다른 실시예에 있어서, 상기 더 작은 디스플레이 상에 적어도 하나의 현저한 대상 그룹을 표현하는 단계는 프레임 내의 모든 매크로블록의 모션 벡터를 추가로 따른다.

삭제

유리하게는, 이 프레임 내의 매크로블록의 모션 벡터의 평균 길이가 제 1 임계치보다 작은 경우 저속 모션 모드에서 제 2 사이즈의 더 작은 디스플레이 상에 현저한 대상 그룹이 디스플레이되고, 그렇지 않으면 상기 고속 모션 모드에서 상기 현저한 대상 그룹이 디스플레이된다.

바람직하게는, 상기 현저한 대상 그룹을 포함하는 프레임 내의 매크로블록의 모션 벡터의 평균 길이를 계산하는 경우, 상기 프레임의 현저한 대상 및 다른 부분에 있는 매크로블록의 모션 벡터 길이는 상이한 가중치를 갖는다.

일실시예에 있어서, 상기 장면 내에 있는 모든 프레임의 중심점의 평균점이 상기 고속 모션 모드 동안 제 2 사이즈의 디스플레이의 중심점으로 되어 있는 채로 제 2 사이즈의 더 작은 디스플레이 상에 현저한 대상 그룹이 디스플레이된다.

유리하게는, 상기 장면 내에 있는 모든 프레임의 모든 중심점은 상기 평균점을 계산할 때 가중된다.

또 다른 측면에 있어서, 상기 고속 모션 모드 동안, 만일 상기 현저한 그룹의 사이즈가 제 2 임계치 보다 작으면, 줌 인(zoom-in) 동작으로 상기 더 작은 디스플레이 상에 현저한 대상 그룹이 표현되고, 그렇지 않고, 만일 상기 현저한 그룹의 사이즈가 제 3 임계치 보다 크다면, 상기 현저한 대상 그룹은 줌 아웃(zoom-out) 동작으로 상기 더 작은 디스플레이 상에 디스플레이된다.

바람직하게는, 상기 제 2 임계치는 상기 더 작은 디스플레이의 사이즈 반과 같고, 상기 제 3 임계치는 상기 더 작은 디스플레이의 사이즈의 2배와 같다.
덧붙여, 한 장면 내에 있는 모든 프레임의 중심점은, 비디오 콘텐츠 모드, 지정된 의미론적 정보(semantic information), 및 사용자의 경험 중 적어도 하나에 의존한다.

상기 저속 모션 모드 동안, 만일 상기 현저한 그룹의 사이즈가 제 4 임계치보다 작으면, 상기 현저한 대상 그룹은 줌 인 동작으로 상기 더 작은 디스플레이 상에 디스플레이된다.

또 다른 측면에 있어서, 상기 저속 모션 모드 동안, 만일 현저한 대상 그룹의 사이즈가 상기 제 4 임계치 이상이고 제 5 임계치보다는 작으면, 상기 현저한 대상 그룹의 사이즈가 직접 디스플레이되고, 그렇지 않고 만일 상기 원래 장면의 길이가 제 6 임계치 이상이면, 상기 더 작은 디스플레이의 중심점이 상기 현저한 대상 그룹의 중심점의 이동에 따른 채로 팬 동작이 상기 현저한 대상 그룹 내에 있는 현저한 대상에 대하여 수행되고, 만일 원래 장면의 길이가 제 6 임계치보다 작고 현저한 대상 그룹 내에 하나의 현저한 대상만이 있다면, 제 2 사이즈의 디스플레이의 중심점은 줌 아웃 동작으로 현저한 대상 그룹의 중심점 이동에 따른다.

상기 저속 모션 모드 동안, 만일 상기 장면의 길이가 제 7 임계치보다 크다면, 줌 아웃 동작이 상기 현저한 대상 그룹에 수행된다.

일실시예에 있어서, 상기 저속 모션 모드 동안, 만일 상기 장면의 길이가 상기 제 6 임계치 보다 작고 상기 현저한 그룹 내에 하나의 현저한 대상만이 있다면, 상기 더 작은 디스플레이의 중심점은 줌 아웃 동작으로 상기 현저한 대상 그룹의 중심점 이동에 따르고, 그렇지 않으면, 상기 현저한 대상 그룹이 상기 더 작은 디스플레이 상에 직접 디스플레이된다.

바람직하게는, 상기 제 4 임계치는 상기 더 작은 디스플레이의 사이즈 반과 같고, 상기 제 5 임계치는 상기 더 작은 디스플레이의 사이즈와 같다.

추가 실시예에 있어서, 2개의 이웃하는 프레임 간의 중심점 허용 오차는 상기 더 작은 디스플레이의 중심점이 상기 현저한 대상 그룹의 중심점의 이동에 따르는 경우 디더링(dithering)을 제거하기 위해 사용된다. 상기 중심점의 변화에 대한 허용오차는 수평 방향 및 수직 방향에서 사용될 수 있다.

더 작은 디스플레이 상에 원래 큰 사이즈의 비디오를 자동적으로 표현하기 위한 장치가 제공된다. 이 장치는, 대상 그룹 분류 모듈을 포함하되, 상기 대상 그룹 분류 모듈은, 비디오 장면의 각 프레임에 대하여 적어도 하나의 현저한 대상을 포함하는 현저한 대상 그룹을 결정하여, 결정된 현저한 대상 그룹과 관련된 사이즈와 제 2 사이즈 사이의 함수에 따라 상기 더 작은 디스플레이 상에 현저한 대상 그룹을 디스플레이한다.

일실시예에 있어서, 상기 원래 비디오의 프레임으로부터 현저한 대상을 추출하기 위한 콘텐츠 분류 모듈을 추가로 포함한다.

또 다른 실시예에 있어서, 이 장치는, 각 프레임의 중심점, 한 장면 내에 있는 모든 프레임의 중심점의 가중치, 한 프레임 내에 있는 모든 매크로블록의 모션 벡터 가중치를 계산하는 성질 계산 모듈을 포함한다.

또 다른 실시예에 있어서, 이 장치는, 더 작은 디스플레이 상에 디스플레이될 영역을 결정하는 정지 포커스 모듈을 포함한다.

추가 실시예에 있어서, 이 장치는, 상기 이미지의 결함을 부드럽게 하고 제거하는 공간-시간적 처리 모듈을 포함한다.

본 발명의 이들 및 다른 측면, 특징 그리고 이점이 바람직한 실시예의 이하 상세한 설명으로부터 기술되거나 명백하게 될 것이며, 이는 첨부된 도면과 관련되어 읽어져야 할 것이다.

도 1은 본 발명에 따른 방법을 사용하는 시스템 프레임 워크의 제 1 실시예에 대한 개략도.

도 2는 본 발명에 따른 방법을 사용하는 시스템 프레임 워크의 제 2 실시예에 대한 개략도.

도 3은 본 발명에 따른 방법을 사용하는 시스템 프레임 워크의 제 3 실시예에 대한 개략도.

도 4는 하나의 프레임 내의 현저한 대상의 개략도.

도 5는 하나의 프레임 내의 현저한 대상 그룹의 개략도.

도 6은 적응형 비디오 표현 샘플 솔루션의 흐름도.

본 발명은 콘텐츠 분석 정보에 기초하여 스트림 임베딩된 메타 데이터를 이용하여 더 좋은 시청 경험을 하도록 하기 위한 적응형 비디오 표현(AVP: Adaptive Video Presentation)의 방법 및 디바이스에 관한 것이다.

1. AVP 의 기본 프레임 워크의 소개

도 1 내지 도 3에 도시된 바와 같이, 큰 해상도를 가지는 비디오는 사전 분류 모듈(11a), 대상 그룹 분류(OGC: Object Group Classification) 모듈(13a), 성질 계산(PC: Property Calculation) 모듈(12a), 정지 초점 결정(SFD: Still Focus Decision) 모듈(14a), 및 공간-시간적 처리 모듈(15a)에 의해 처리되며, 이후 이 처리된 비디오는 더 작은 디스플레이 상에 디스플레이된다.

본 발명에 따르면, 3가지 타입의 AVP 프레임 워크, 즉 각각 도 1 내지 도 3에 도시된 바와 같이, 디코더 엔드 솔루션(decoder end solution), 결합식 인코더-디코더 엔드 솔루션(joint encoder-decoder end solution), 및 인코더 엔드 솔루션이 제안된다.

도 1을 참조하면, 제 1 타입의 AVP 프레임워크 솔루션은 인코더 엔드(10a)에는 사전 분류 모듈(11a)만을 두고 있고, 반면에 디코더 엔드(20a)에는 다른 4개 기능 블록이 두고 있다. 사전 분류 모듈(11a)은 장면 변화 검출, 주목 영역 추출 및 콘텐츠/모션 분석의 동작을 포함한다. 이 콘텐츠/모션 분석은 현저한 대상 분석과 모션 활동성 분석 또는 다른 의미론적 분석을 포함한다. 다른 4개의 기능 블록은 사전 분류 모듈(11a)으로부터 장면과 주목 마스크 정보에 기초하여 대상/대상그룹을 분류하는 대상 그룹 분석(OGC) 모듈(12a)과, 각 현저한 대상/대상그룹의 통계학적 성질(예를 들면, 현저한 대상/대상그룹의 중심점, 의미론적 가중치를 들 수 있으나, 이에 한정되지는 않음)을 계산하는 성질 계산(PC) 모듈(13a)과, PC 모듈로부터 도출된 통계학적 정보(예를 들면, 중심점) 및 사전 분류 모듈(11)로부터 도출된 다른 메타 데이터 정보에 기초하여 특정 이미지 내에 있는 후보 초점 영역을 결정하는 정지 초점 결정(SFD) 모듈(14a)과, 비디오가 부드럽게 되고 용인할 수 있으며 결함을 제거하는 것을 보장하도록 공간-시간적 처리를 수행하는 공간-시간적 처리 모듈(15a)을 포함한다. 공간-시간적 처리 모듈(15a)의 동작은 이하 문단에서 소개될 중심 유동(gravity flowing), 직접 디스플레이(direct display), 현저한 구동 팬 또는 트루 모션 표시(motion exhibition)를 고려하여 더 작은 디스플레이 상에 디스플레이될 최근의 디스플레이 영역 결정을 포함한다.

우선, 큰 디스플레이 상에 디스플레이된 비디오는 사전 분류 모듈(11a)에 의해 처리되어 비디오의 각 프레임 내에 있는 현저한 대상을 추출하며, 이후 이 추출된 현저한 대상은 대상 분류(OGC) 모듈(12a)에 의해 적어도 하나의 현저한 대상 그룹으로 그룹화된다. 성질 계산(PC) 모듈(13a)은 한 비디오 장면 내에 있는 각 프레임의 중심점, 각 프레임의 중심점의 가중치, 한 프레임 내에 있는 모든 매크로블록의 모션 벡터의 가중치 등을 계산한다. 정지 초점 결정(SFD) 모듈(14a)은 더 작은 디스플레이 상에 디스플레이될 영역을 결정한다.

유사하게는, 도 2에 예시된 제 2 타입의 AVP 프레임 워크 솔루션에서, 사전 분석 모듈(11b), 대상 그룹 분류 모듈(12b), 성질 계산 모듈(13b) 및 정지 초점 결정 모듈(14b)이 후보 초점 영역을 생성하기 위해 인코더 엔드(10b) 내에 포함되고, 공간/시간적 처리 모듈(15b)이 디코더 엔드(20b) 내에 포함되어 시간적 및 공간적 품질 절충을 고려하여 후보 초점 영역에 기초하여 최적으로 디스플레한다.

도 3에 예시된 바와 같이 제 3 타입의 AVP 프레임 워크 솔루션에서, 사전 분류 모듈(11c), 대상 그룹 분류 모듈(12c), 성질 계산 모듈(13c), 정지 초점 결정 모듈(14c) 및 공간/시간적 처리 모듈(15c)이 모두 인코더 엔드(10c) 내에 포함되어 비디오 시퀀스 내에 있는 각 프레임의 최근 디스플레이 영역을 생성하고, 각 프레임의 적합한 디스플레이 영역을 설명하는 메타 데이터가 임베딩된 메타 데이터로서 디코더 엔드(20c)에 전송되어 적응형 디스플레이를 직접적으로 도울 수 있다.

2. 적응형 비디오 표현을 위한 기본 정의 소개

작은 사이즈의 디스플레이 창을 이용하여 디스플레이 상에서 사용자의 시청 경험을 최적화하기 위해, 비디오 프레임 내에 있는 주목 영역 블록 세트가 우선 디스플레이되는 것으로 고려되어야 하는데, 왜냐하면 관련 정보는 사용자의 시청 경험에 더 긍정적인 기여를 하기 때문이다. AVP를 위한 일부 기본 정의가 아래에 기술된다.

A. 현저한 대상

현저한 대상은 도 4의 MB의 그레이 영역에 의해 도시된 바와 같이, 서로 연 결된 주목 영역 매크로블록(MB: MacroBlock) 세트이다. 현저한 대상은 비주목 MB에 의해 분리되는데, 비주목 MB는 백색 MB에 의해 표기된다.

현저한 대상 O_i(i=1, 2, 3, ..., N)은 다음 파라메터에 의해 기술된다.

명칭	약어	설명
사이즈	SZ_i	현저한 대상 O_i 내에 포함된 주목 MB의 개수
윤곽선	CO_i	현저한 대상 O_i를 포함하는 최소 직사각형
대상의 직사각형 사이즈	RZO	도 4의 음역 영역에 의해 도시된 바와 같이, 현저한 대상 O_i를 포함하는 최소 직사각형 내에 포함된 매크로블록의 개수
대상 점유율	OOR	(SZ_i/RZO)x 100%

B. 현저한 대상 그룹

현저한 대상 그룹은 적어도 하나의 현저한 대상을 포함한다. 한 프레임 내에 수개의 현저한 대상 그룹이 있을 수 있다. 이는 다음 파라메터에 의해 기술될 수 있다.

명칭	약어	설명
사이즈	SZG	현저한 대상 그룹 내에 포함된 주목 MB의 개수
윤곽선	COG	현저한 대상 그룹을 포함하는 최소 직사각형
대상 그룹의 직사각형 사이즈	RZG	도 5의 음역 영역에 의해 도시된 바와 같이, 현저한 대상 그룹을 포함하는 최소 직사각형 내에 포함된 매크로블록의 개수
대상 점유율	OOR	(SZ_i/RZO)x 100%

C. 장면

샷(shot)은 단일 카메라 동작에서 기록된 일련의 프레임이다. 장면은 대상, 사람, 공간 및 시간에 있어서 의미론적 유사성을 갖는 연속적 샷의 모음이다. 또한 이는 2 프레임 사이에서 현저한 대상의 스위치를 구별하기 위해 정의된다. 한 장면 내에서의 디스플레이 방식은 명확해야 하고, 보통 일관성(consistent)이 있다.

장면을 위해 정의된 하나의 파라메터는 다음과 같다.

명칭	약어	설명
장면 길이	LOS	한 장면 내에 있는 프레임 개수

3. 구성 파라메터와 동작 세트의 소개

구성 파라메터는 디스플레이 하기 또는 하지 않기, 스케일링 다운하기 또는 하지 않기, 요약하기 또는 하지 않기 등과 같은, 적응형 디스플레이 모드 선택 결정을 하도록 돕기 위한 필수적인 파라메터이다. 비디오 시청 경로 프로그램밍을 지원하기 위해 정의된 4개 조건이 있다.

최소 인식 시간(MPT: Minimum Perceptual Time)

MPT는 현저한 대상을 시청하는 동안 고정을 위한 임계치로서 사용된다. 만일 현저한 대상이 MPT 임계치 MPT_so보다 더 길게 스크린 상에 머물러 있지 않는다면, 이는 사용자로 하여금 정보를 파악하도록 하기에 충분히 인식가능하지 않을 수 있다. 만일 장면이 임계치 MPT_sc 보다 더 길게 지속되지 않는다면, 그 안의 가장 중요한 부분만이 충분히 인식 가능할 수 있다. MPT_so와 MPT_sc는 다른 응용 시나리오 및 인간의 시각적 성질에 따라 선택될 수 있으며, 이들은 보통 실제 응용에 있어서 1/3초 및 2초로 설정된다.

최소 인식 사이즈(MPS: Minimum Perceptual Size)

MPS는 현저한 대상의 최소 공간 영역의 임계치로서 사용된다. 보통, 만일 현저한 대상 SO_i의 사이즈가 임계치 MPT_so 보다 작다면, 현저한 대상 O_i는 비주목 대상으로서 마킹되어야 하거나 그 이웃하는 현저한 대상으로 병합되어야 한다. 그러나, MPS 임계치는 항상 정확하지 않은데, 왜냐하면 더 작은 공간 영역을 갖는 현저한 대상이 가장 중요한 정보를 수반할 수 있고 이 대상은 병합되지 않거나 마킹되지 않을 수 있기 때문이다. 따라서, 일부 다른 의미론적 정보는 가중치 정보의 추가적인 구성 파라메터, 예를 들면 축구, 얼굴 등으로서 사용될 것이다. 보통 MPT_so는 5개 매크로블록으로 설정되거나 가장 큰 현저한 대상 사이즈의 5%-10%로 설정될 수 있다.

현저한 대상의 가중치(WSO: Weight of Sailent Object)

이 파라메터는 가장 의미론적인 중요한 정보를 수반하는 현저한 대상을 예약하기 위해 사용되며, 병합되지 않거나 또는 마킹되지 않을 수 있다. 보통, 각 현저한 대상의 가중치 값은 1로 설정된다. 만일 현저한 대상이 한 장면 내에 현재 프레임과 다음 프레임(프레임의 개수는 임계치 T_weight보다 커야 하며, 보통 T_weight=10이다) 내에서 가장 중요한 정보를 획득한다면, 그 사이즈는 다음식과 같이 재계산된다.

여기서, WSO_i는 각 현저한 대상의 의미론적 중요성에 의해 정의될 수 있으며, 이 의미론적 중요성은 콘텐츠 모드, 제 3 자의 지정된 의미론적 정보, 특히 사용자의 경험 등에 의존한다. 더욱이, 현저한 대상 그룹의 중심은 재계산된다.

중심 변화의 허용 오차(TGC: Tolerance of Gravity Change)

한 프레임의 현저한 대상 또는 현저한 대상 그룹의 중심점을 더 작은 디스플레이의 중심점으로서 이용하는 경우, 2개의 이웃하는 프레임 사이의 현저한 대상 또는 현저한 대상 그룹의 중심점의 미소한 변화에 의해 야기된 디스플레이의 디더링 효과를 회피하기 위해, 중심 변화의 허용 오차(TGC) 파라미터가 도입되어 중심점의 위치의 작은 변화(매크로블럭 단위로)가 더 작은 디스플레이의 중심점의 변화를 야기하지 않음을 보장한다. 2 종류의 임계치 TGC_H(수평 방향에서의 중심 변화의 허용 오차) 및 TGC_V(수직 방향에서의 중심 변화의 허용 오차)는 더 작은 디스플레이 스크린과 비디오 프레임 사이즈 사이의 관계에 따라 정의될 수 있다. 중심점의 변화(매크로블록 단위로)는 수평과 수직 방향에서 개별적으로 2 종류의 임계치 TGC_H와 TGC_V 보다 작은 경우, 디스플레이의 중심점은 디더링 효과를 피하기 위해 변화되지 않을 수 있다.

표 1은 적응형 비디오 표현의 요구조건을 위해 필요한 일부 동작을 보여준다.

적응형 비디오 표현을 위한 동작 세트

동작		예시
저속 모션 표시(Low Motion Exhibition) (MV_act<T_motion)	직접 디스플레이	현저한 대상 또는 현저한 대상 그룹은 더 작은 디스플레이 스크린 상이 직접적으로 놓이게 된다.
	중심 유동 쇼(Gravity Flowing Show)	DA(Display Area)의 이동은 OG(Object Group)의 중심점 이동을 따라 제어되어야 하고, 보통 TGC(Tolerance of Gravity Change) 파라메터는 부드러운 디스플레이 전략을 유지하기 위해 사용되어야 한다
	현저한 구동 팬(Saliency Driving Pan)	특히 큰 현저한 대상 또는 복수의 현저한 대상의 존재의 경우, 더 작은 디스플레이 창에 이 현저한 대상을 디스플레이하기 위해 현저한 분포를 고려하여 팬 동작
트루 모션 표시(True Motion Exhibition) (MV_act>=T_motion)		더 작은 디스플레이의 정지 초점 중심으로서 가중된 평균 중심점을 이용하여 비디오 장면을 위해 모든 현저한 대상 그룹을 표현

본 발명에 따르면, 적응형 비디오 표현 동작은 2가지 카테고리, 즉 저속 모션 모드와 고속 모션 모드에 각기 대응하는 저속 모션 표시 및 트루 모션 표시로 분류화될 수 있는데, 이들 모드들은 하나의 프레임 내에 있는 모든 매크로블록의 가중된 평균 모션 벡터 길이 MV_act에 의해 구별될 수 있다. 보통 임계치 T_MOTION은 이러한 분류를 하기 위해 선택될 수 있으며, 만일 MV_ACT가 T_MOTION보다 작으면, 저속 모션 모드가 결정되고, 그렇지 않으면, 고속 모션 모드가 결정된다.

저속 모션 모드에 있어서, 적어도 3가지 다른 표시 동작, 즉 직접 디스플레이, 중심 유동 쇼 및 현저한 구동 팬이 사용될 수 있다. 이들 3가지 동작 중에서, 특히 큰 현저한 대상 또는 복수의 현저한 대상이 존재하는 경우, 직접 디스플레이는 현저한 대상 또는 현저한 대상 그룹을 즉시 더 작은 디스플레이 상에 디스플레이하는 것이고, 중심 유동 쇼는 현저한 대상 그룹의 중심점의 이동을 따름으로써 더 작은 디스플레이의 디스플레이 영역의 이동을 제어하며, 보통 중심 변화의 허용 오차(TGC: Tolerance of Gravity Change) 파라메터는 부드러운 디스플레이 전략을 유지하도록 사용되며, 현저한 구동 팬은 기본적으로 더 작은 디스플레이 창 상에 현저한 영역을 디스플레이하기 위해 현저한 분포를 고려한 팬 동작이다.

고속 모션 모드에 있어서, 트루 모션 표시는 현저한 대상 또는 현저한 대상 그룹을 디스플레이하기 위해 도입된다. 시청자는 OG가 더 작은 디스플레이 창 상에서 앞뒤로 이동하는 것을 볼 수 있다. 비디오 장면의 경우, 이 장면 내에 있는 각 프레임의 중심점은 급속하게 이동하고, 이후 비디오 장면 내에 있는 모든 프레임의 가중된 평균 중심점은 더 작은 디스플레이의 정지 초점 중심으로서 결정될 것이다. 따라서, 시청자는 OG가 더 작은 디스플레이 창의 한쪽 면으로부터 다른 쪽면으로 이동하는 것을 볼 수 있다. 예를 들면, 만일 장면내에 있는 모든 프레임의 중심점 좌표가 (x1, y1), (x2, y2)...로서 기록된다면, 이들 중심점의 평균은 x=평균(x1, x2...), y=평균(y1, y2...)이어야만 한다.

4. 적응형 비디오 표현 동작의 결정

비디오는 정보 중심점 유동 평면으로서 다루어 질 수 있으며, 이 경우 상이한 현저한 대상은 정보의 중요성에 대해 다른 가중치를 가지며, MB는 각 현저한 대상 내에서 동일한 특성을 갖는다. 그러므로, 현저한 대상 또는 그룹의 중심점이 아니라 중심정이 더 작은 디스플레이의 중심이 되어야 한다.

비디오 콘텐츠를 위한 밀도 분포 종류가 존재하는 것이 상상될 수 있을 것이다. 더 작은 디스플레이는 그룹 또는 현저한 대상의 중심점에 의해 중앙화된 영역에 초점이 맞추어져야 하고, 또는 순차적으로 패닝(panning) 동작을 사용함으로써 이 영역을 디스플레이해야 하며, 이 패닝 동작은 정보의 밀도 분포에 의존한다.

STP(Spatial-Temporal Processing) 모듈은 AVP 프레임 워크에서 가장 중요한 모듈이다. 최적 공간-시간적 동작은 부드럽고 수용가능한 비디오 시청 경험을 보장하기 위해 모듈 내에서 취해질 것이다.

표2는 AVP 동작의 결정 샘플을 예시하며, 물론 실제 응용의 상세한 요구 조건으로 인해 다른 타입의 조합이 고려될 수 있다. 표2에서, DS는 대응하는 더 작은 디스플레이 디바이스의 디스플레이 사이즈를 의미한다.

AVP 동작의 결정 샘플

조건			AVP 동작
			저속 모션 모드 (MV_ACT< T_MOTION)	고속 모션 모드 (MV_ACT>=T_MOTION)
RZG=<DS/n (예를 들면, n=2,3,...)			직접 디스플레이(Direct Display) + 줌인(Zoom in)	트루 모션 표시(True Motion Exhibition) + 줌인
DS/n<RZG=<DS (예를 들면, n=2,3,...)			직접 디스플레이	트루 모션 표시
RZG>=DS			줌아웃	트루 모션 표시 + 줌 아웃
	LOS<MPT
		하나의 현저한 대상	중심 유동 쇼(TGC 제한을 가짐) + 줌 아웃
		복수의 현저한 대상	직접 디스플레이( 팬(pan)은 금지됨)
	LOS>m*MPT (예를 들면, m=2, 3...)		중심 유동 쇼(TGC 제한을 가짐) + 현저한 구동 팬 + 줌 아웃
	그 밖에		중심 유동 쇼(TGC 제한을 가짐) + 현저한 구동 팬

도 6은 본 발명에 따른 적응형 비디오 표현 솔루션의 결정을 위한 하나의 예시적 방식의 흐름도를 예시한다.

비디오 장면을 위해, 현저한 대상이 먼저 추출되어야만 한다. 종래 기술에서 이러한 작업을 하기 위해 많은 방법이 있으나, 여기에서는 기술되지 않을 것이다. 이후, 적어도 하나의 현저한 대상 그룹이 결정된다. 현저한 대상 그룹은 적어도 하나의 현저한 대상을 포함한다.

단계(100)에서, 비디오 장면의 모션 모드는 프레임을 위해 가중된 평균 모션 벡터 길이 MV_ACT와 사전 정의된 임계치 T_MOTION을 비교함으로써 결정된다. MV_ACT가 사전 정의된 임계치 T_MOTION보다 작은 경우, 다음 단계는 단계(200)로 가고, 그렇지 않으면 단계(400)로 간다. 단계(200)에서, 이는 현저한 대상 그룹을 커버하는 최소 사각형 RGZ의 사이즈가 DS/n(여기서, n=2,3...이고 바람직하게는 n=2가 됨) 이하인지를 결정할 것이다. 만일 단계(200)에서 RZG가 DS/n 이하인 것으로 결정되면, 프로세스는 단계(210)로 진행하고, 여기서 RZG을 갖는 추출된 창은 즉시 적합한 줌 인 동작으로 더 작은 디스플레이 상에 디스플레이된다. 만일 RZG가 DS 이상이면, 단계(220)에서, 이는 RZG가 DS 이상인지를 결정할 것이며, 만일 RZG가 DS보다는 작으나 DS/n보다는 크다면, 단계(230)에서 RZG를 갖는 추출된 창은 더 작은 디스플레이 상에 직접 디스플레이될 것이며, 만일 RZG가 DS보다 더 크면, 단계(240)에서 이는 장면 길이 LOS(Length Of Scence)가 최소 인지 시간 MPT 보다 작은지를 결정할 것이다. 이후, 단계(250)에서, 이는 현저한 대상 그룹이 하나의 현저한 대상만을 포함하는 지를 결정할 것이다. 하나의 현저한 대상만이 존재하고 LOS가 MPT보다 작은 조건에서, 비디오는 단계(260)에서 적합한 줌 아웃 동작을 이용하여 중심 유동 쇼 동작으로 더 작은 디스플레이 상에 표현될 것이다. 단계(270)에서, 복수의 현저한 대상이 존재하고 LOS는 MPT보다 작으며, 비디오는 더 작은 디스플레이 상에 직접 디스플레이될 것인데, 왜냐하면 이 조건에서 시청 경험을 부드럽게 하기 위해 표현 동작을 빈번하게 변경하는 것을 피하기 위해 팬 동작이 금지되기 때문이다. 단계(280)에서, 이는 LOS가 MPT의 m배(여기서, m=2,3...임)보다 큰지를 결정할 것이다. 만일 LOS가 MPT의 m배 보다 크면, 단계(290)에서처럼, 비디오는, 현저한 구동 팬 동작과 적합한 줌 아웃 동작과 함께 중심 유동 쇼로 더 작은 디스플레이상에 표현될 것이다. 만일 LOS가 MPT보다는 크지만 MPT의 m배 보다는 크지 않으면, 비디오는 줌 아웃 없이 현저한 구동 팬 동작과 함께 중심 유동 쇼 동작으로 표현될 것이다.

단계(100)에서 MV_ACT가 사전 정의된 임계치 T_MOTION 이상으로 결정되는 경우, 프로세스는 단계(400)로 진행한다. 단계(400)에서, RZG가 임계치 DS/2 미만인지가 결정된다. 만일 이 결정이 '예'이면, 프로세스는 단계(410)로 진행하고, 여기서 트루 모션 표시는 줌 인 동작으로 행하여진다. 반면에 만일 단계(400)의 결정이 '아니오'이면, 프로세스는 단계(420)로 진행하고, 여기서 RZG가 2DS보다 큰지가 결정된다. 만일 이 결정이 단계(420)에서 '예'이면, 프로세스는 단계(430)로 진행하고, 여기서 트루 모션 표시는 줌 아웃 동작으로 행하여진다. 만일 단계(430)의 결정이 '아니오'이면, 프로세스는 단계(440)로 진행하고, 여기서 트루 모션 표시가 행하여진다.

비록 본 발명의 교지를 병합한 본 실시예가 여기에 도시되고 상세하게 설명되었을 지라도, 당업자라면 이들 교지를 여전히 병합하는 많은 다른 다양한 실시예를 쉽게 발명할 수 있다. 개조 및 변형예가 위 교지를 비추어 만들어질 수 있음이 주목된다. 그러므로, 첨부된 청구항에 의해 개설된 본 발명의 범위 및 기술 사상 내에 있는 개시된 본 발명의 특정 실시예 내에서 변경이 이루어질 수 있음을 이해해야 할 것이다.

본 발명은 비디오 표현을 위한 방법 및 디바이스에 이용 가능하다. 더 상세하게는 작은 디스플레이 상에서의 적응형 비디오 표현을 위한 방법 및 디바이스에 이용 가능하다. 이 경우, 이 방법은, 원래 큰 사이즈의 비디오 장면의 각 프레임에 대하여 적어도 하나의 현저한 대상을 포함하는 적어도 하나의 현저한 대상 그룹을 결정하는 단계와, 적어도 하나의 현저한 대상 그룹과 관련된 사이즈와 더 작은 디스플레이의 사이즈 사이의 함수에 따라 더 작은 디스플레이 상에 결정된 적어도 하나의 현저한 대상 그룹을 표현하는 단계를 포함한다.

Claims

제 1 사이즈보다 더 작은 제 2 사이즈의 디스플레이 상에 제 1 사이즈의 비디오를 표현하기 위한 적응형 비디오 표현 방법으로서,

비디오 장면의 각 프레임에 대하여 적어도 하나의 현저한 대상을 포함하는 현저한 대상 그룹을 결정하는 단계와,

결정된 현저한 대상 그룹과 관련된 사이즈와 제 2 사이즈 사이의 함수에 따라 제 2 사이즈의 디스플레이 상에 결정된 현저한 대상 그룹 내의 적어도 하나의 현저한 대상을 디스플레이하는 단계를 포함하고,

현저한 대상 그룹을 포함하는 프레임 내의 매크로블록의 모션 벡터의 평균 길이가 제 1 임계치보다 작은 경우, 저속 모션 모드에서 제 2 사이즈의 디스플레이 상에 현저한 대상 그룹을 디스플레이하고, 그렇지 않으면 고속 모션 모드에서 대상 그룹을 디스플레이하며,

현저한 대상 그룹을 포함하는 프레임 내의 매크로블록의 모션 벡터의 평균 길이를 계산하는 경우, 프레임의 현저한 대상 및 다른 부분에 있는 매크로블록의 모션 벡터의 길이는 상이한 가중치를 갖는, 적응형 비디오 표현 방법.
제 1 항에 있어서,

한 프레임에 대하여, 현저한 대상 그룹에 관련된 사이즈는 프레임에서 현저한 대상 그룹을 커버하는 직사각형 사이즈인, 적응형 비디오 표현 방법.
제 1 항 또는 제 2 항에 있어서,

더 작은 디스플레이 상에 현저한 대상 그룹을 표현하는 것은 프레임 내의 모든 매크로블록의 모션 벡터를 추가로 따르는, 적응형 비디오 표현 방법.
삭제
삭제
제 1 항 또는 제 2 항에 있어서,

고속 모션 모드 동안, 장면 내에 있는 모든 프레임의 중심점의 평균점이 제 2 사이즈의 디스플레이의 중심점으로 되어 있는 채로 제 2 사이즈의 디스플레이 상에 현저한 대상 그룹을 디스플레이하는, 적응형 비디오 표현 방법.
제 6 항에 있어서,

고속 모션 모드 동안, 만일 현저한 대상 그룹의 사이즈가 제 2 임계치보다 작으면, 줌 인 동작으로 제 2 사이즈의 디스플레이 상에 현저한 대상 그룹이 디스플레이되고,

그렇지 않고, 만일 현저한 대상 그룹의 사이즈가 제 3 임계치보다 크다면, 현저한 대상 그룹은 줌 아웃 동작으로 제 2 사이즈의 디스플레이 상에 디스플레이되는, 적응형 비디오 표현 방법.
제 7 항에 있어서,

제 2 임계치는 제 2 사이즈의 절반과 같고, 제 3 임계치는 제 2 사이즈의 2배와 같은, 적응형 비디오 표현 방법.
제 6 항에 있어서,

한 장면 내에 있는 모든 프레임의 중심점은, 비디오 콘텐츠 모드, 지정된 의미론적 정보, 및 사용자의 경험 중 적어도 하나에 의존하는, 적응형 비디오 표현 방법.
제 1 항 또는 제 2 항에 있어서,

저속 모션 모드 동안, 만일 현저한 대상 그룹의 사이즈가 제 4 임계치보다 작으면, 현저한 대상 그룹이 줌 인 동작으로 제 2 사이즈의 디스플레이 상에 디스플레이되는, 적응형 비디오 표현 방법.
제 10 항에 있어서,

저속 모션 모드 동안, 만일 현저한 대상 그룹의 사이즈가 제 4 임계치 이상이고 제 5 임계치보다는 작으면, 현저한 대상 그룹이 제 2 사이즈의 디스플레이 상에 직접 디스플레이되고, 그렇지 않고 만일 제 1 사이즈의 비디오 장면의 길이가 제 6 임계치 이상이면, 제 2 사이즈의 디스플레이의 중심점이 현저한 대상 그룹의 중심점의 이동에 따른 채로 팬 동작이 현저한 대상 그룹 내에 있는 현저한 대상에 대하여 수행되고,

만일 제 1 사이즈의 비디오 장면의 길이가 제 6 임계치 보다 작고 현저한 대상 그룹 내에 하나의 현저한 대상만이 있다면, 제 2 사이즈의 디스플레이의 중심점은 줌 아웃 동작으로 현저한 대상 그룹의 중심점 이동에 따르는, 적응형 비디오 표현 방법.
제 11 항에 있어서,

저속 모션 모드 동안, 만일 장면의 길이가 제 7 임계치보다 크다면, 줌 아웃 동작이 현저한 대상 그룹에 수행되는, 적응형 비디오 표현 방법.
제 11 항에 있어서,

저속 모션 모드 동안, 만일 장면의 길이가 제 6 임계치 보다 작고 현저한 대상 그룹 내에 하나의 현저한 대상만이 있다면, 제 2 사이즈의 디스플레이의 중심점은 줌 아웃 동작으로 현저한 대상 그룹의 중심점 이동에 따르고, 그렇지 않으면, 현저한 대상 그룹이 제 2 사이즈의 디스플레이 상에 직접 디스플레이되는, 적응형 비디오 표현 방법.
제 11 항에 있어서,

제 4 임계치는 제 2 사이즈의 절반과 같고, 제 5 임계치는 제 2 사이즈와 같은, 적응형 비디오 표현 방법.
제 10 항에 있어서,

2개의 이웃하는 프레임 간의 중심점 허용 오차는, 제 2 사이즈의 디스플레이의 중심점이 현저한 대상 그룹의 중심점의 이동에 따르는 경우, 디더링(dithering)을 제거하기 위해 사용되는, 적응형 비디오 표현 방법.
제 15 항에 있어서,

중심점의 변화에 대한 허용오차는 수평 방향 및 수직 방향에서 사용될 수 있는, 적응형 비디오 표현 방법.
제 1 사이즈보다 더 작은 제 2 사이즈의 디스플레이 상에 제 1 사이즈의 비디오를 표현하기 위한 장치로서,

대상 그룹 분류 모듈로서, 비디오 장면의 각 프레임에 대하여 적어도 하나의 현저한 대상을 포함하는 현저한 대상 그룹을 결정하여, 결정된 현저한 대상 그룹과 관련된 사이즈와 제 2 사이즈 사이의 함수에 따라 제 2 사이즈의 디스플레이 상에 현저한 대상 그룹을 디스플레이하는, 대상 그룹 분류 모듈과,

한 장면 내의 각 프레임에 대한 중심점, 현저한 대상 그룹의 중심점, 한 장면 내에 있는 모든 프레임의 중심점의 가중치, 한 프레임 내에 있는 모든 매크로블록의 모션 벡터의 가중치를 계산하는 성질 계산 모듈을 포함하고,

성질 계산 모듈은, 현저한 대상 그룹을 포함하는 프레임 내의 매크로블록의 모션 벡터의 가중된 평균 길이를 계산하고, 프레임의 현저한 대상 및 다른 부분에 있는 매크로블록의 모션 벡터의 길이는 상이한 가중치를 갖고, 현저한 대상 그룹을 포함하는 프레임 내의 매크로블록의 모션 벡터의 가중된 평균 길이가 제 1 임계치보다 작은 경우, 저속 모션 모드에서 제 2 사이즈의 디스플레이 상에 현저한 대상 그룹을 디스플레이하고, 그렇지 않으면 고속 모션 모드에서 대상 그룹을 디스플레이하는, 비디오 표현 장치.
제 17 항에 있어서,

제 1 사이즈의 비디오의 프레임으로부터 현저한 대상을 추출하기 위한 콘텐츠 분석 모듈을 추가로 포함하는, 비디오 표현 장치.
삭제
제 17 항에 있어서,

제 2 사이즈의 디스플레이 상에 디스플레이될 영역을 결정하는 정지 포커스 모듈을 추가로 포함하는, 비디오 표현 장치.
제 20 항에 있어서,

비디오의 결함을 부드럽게 하고 제거하는 공간-시간적 처리 모듈을 추가로 포함하는, 비디오 표현 장치.
삭제