KR20100097173A

KR20100097173A - 비디오 요약을 생성하는 방법

Info

Publication number: KR20100097173A
Application number: KR1020107013655A
Authority: KR
Inventors: 헤드로 폰세카; 마우로 바비에리; 에노 엘. 엘러스
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2007-11-22
Filing date: 2008-11-14
Publication date: 2010-09-02
Also published as: CN101868795A; JP2011504702A; US20100289959A1; EP2227758A1; WO2009066213A1

Abstract

적어도 비디오 시퀀스(18)를 포함하는 콘텐트 신호의 비디오 요약을 생성하는 방법은, 비디오 시퀀스(18)의 세그먼트들을, 콘텐트 신호의 각각의 부분들의 특성들 및 제 1 클래스의 세그먼트들(19 내지 21)을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 적어도 제 1 및 제 2 클래스 중 하나로 분류하는 단계를 포함한다. 이미지들의 시퀀스(37)는 이미지들의 서브 시퀀스들(38 내지 40)을 연결함으로써 형성되어, 각각의 서브 시퀀스(38 내지 40)는 제 1 클래스의 각각의 세그먼트(19 내지 21)에 적어도 부분적으로 기초하고, 이미지들의 서브 시퀀스들(38 내지 40) 중 적어도 하나에서, 제 1 클래스의 각각의 세그먼트(19 내지 21)에 기초하는 동영상들이 제 1 유형의 윈도에서 디스플레이된다. 제 2 클래스의 세그먼트(25 내지 27)의 표현은 상이한 유형의 윈도(41, 42)에 이미지들의 시퀀스(37)의 적어도 일부 이미지들에 의해 디스플레이되도록 한다.

Description

비디오 요약을 생성하는 방법{METHOD OF GENERATING A VIDEO SUMMARY}

본 발명은 적어도 비디오 시퀀스(sequence)를 포함하는 콘텐트 신호(content signal)의 비디오 요약을 생성하는 방법에 관한 것이다.

본 발명은 또한 적어도 비디오 시퀀스를 포함하는 콘텐트 신호의 비디오 요약을 생성하기 위한 시스템에 관한 것이다.

본 발명은 또한 적어도 비디오 시퀀스를 포함하는 콘텐트 신호의 비디오 요약을 인코딩(encoding)하는 신호에 관한 것이다.

본 발명은 또한 컴퓨터 프로그램에 관한 것이다.

WO 03/060914는 압축된 도메인(domain)에서 추출된 움직임 활동의 시간 패턴(temporal pattern)들을 사용하여 압축된 비디오를 요약하기 위한 시스템 및 방법을 개시한다. 시간 패턴들은 오디오 특성들, 특히 오디오 볼륨에서의 피크(peak)들의 시간적 위치와 상관된다. 매우 간소화된 규칙들을 사용함으로써, 요약은 비디오의 관심없는 부분들을 버리고 관심 있는 이벤트들을 식별함으로써 생성된다.

공지되어 있는 방법의 문제는, 단지 관심 있는 이벤트들을 선택하기 위한 기준들을 보다 엄격하게 행함으로써 요약이 오히려 더욱 짧아져서, 결과적으로 요약의 품질이 손실될 수 있다는 점이다.

본 발명의 목적은 정보 콘텐트의 측면에서 상대적으로 고품질로서 인식되는 상대적으로 컴팩트(compact)한 요약들을 제공하기 위한, 개시 단락들에서 언급된 유형들의 방법, 시스템, 신호 및 컴퓨터 프로그램을 제공하는 것이다.

상기 목적은 본 발명에 따른 방법에 의해 달성되고, 상기 방법은:

비디오 시퀀스의 세그먼트들(segments)을 콘텐트 신호의 각각의 파트들의 특성들 및 상기 제 1 클래스의 세그먼트들을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 적어도 제 1 및 제 2 클래스(class) 중 하나로 분류하는 단계, 및

이미지들의 서브 시퀀스들을 연결시킴으로써 이미지들의 시퀀스를 형성하는 단계로서, 이미지들의 서브 시퀀스 각각이 상기 제 1 클래스의 각각의 세그먼트에 적어도 부분적으로 기초하고, 이미지들의 서브 시퀀스들 중 적어도 하나에서, 상기 제 1 클래스의 각각의 세그먼트에 기초하는 동영상들이 제 1 유형의 윈도에서 디스플레이되는, 상기 이미지들의 시퀀스를 형성하는 단계를 포함하고, 상기 방법은 상기 제 2 클래스의 세그먼트의 표현이 상이한 유형의 윈도에 상기 이미지들의 시퀀스의 적어도 일부 이미지들에 의해 디스플레이되도록 하는 단계를 추가로 포함한다.

유형의 상이함은 예를 들어 상이한 기하학적 디스플레이 포맷, 상이한 타겟(target) 디스플레이 디바이스 또는 상이한 스크린 위치 중 임의의 하나를 포함할 수 있다.

비디오 시퀀스의 세그먼트들을 상기 콘텐트 신호의 각각의 파트들의 특성들 및 제 1 클래스의 세그먼트들을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 적어도 제 1 및 제 2 클래스 중 하나로 분류함으로써, 상기 비디오 시퀀스 내의 하이라이트들(highlights)이 검출된다. 가장 대표적이거나, 또는 지배적인 세그먼트들과는 대조적으로, 제 1 기준들의 세트의 적절한 선택은 이들이 가장 유용한 세그먼트들에 대응할 수 있음을 보장한다. 예를 들어, 제 1 유형의 세그먼트들의 분류자의 값들에 기초하여 적절한 기준들의 선택으로, 플레잉 필드(playing field)(지배하는 파트들)를 표현하는 세그먼트들과는 대조적으로, 점수를 득점하는 스포츠 매치의 세그먼트들이 선택되는 것을 보장할 것이다. 이미지들의 서브 시퀀스들을 연결함으로써, 상기 제 1 클래스의 각각의 세그먼트에 적어도 부분적으로 기초하는 각각의 서브 시퀀스는 하이라이트들에 의해 결정되고, 요약 시퀀스들을 상대적으로 컴팩트하게 하는 것이 보장된다. 남은 입력 비디오 시퀀스의 세그먼트들을 적어도 상기 제 2 클래스로의 분류를 제공함으로써, 그리고 적어도 상기 이미지들의 시퀀스의 일부에 의해 상기 제 2 클래스의 세그먼트의 표현을 디스플레이함으로써, 상기 비디오 시퀀스를 요약한 이미지들의 시퀀스가 더욱 유용해진다. 상기 제 1 클래스의 각각의 세그먼트에 기초하는 동영상들이 제 1 유형의 윈도에서 디스플레이되고 상기 제 2 클래스의 각각의 세그먼트들의 표현들이 상이한 유형의 윈도 내에 있기 때문에, 상기 콘텐트 신호를 요약하는 이미지들의 시퀀스는 컴팩트하고 상대적으로 고품질이다. 시청자(viewer)는 상기 요약의 요소들의 다른 유형들 및 하이라이트들을 구별할 수 있다.

실시예에서, 상기 제 2 클래스의 세그먼트의 표현은 상기 이미지들의 시퀀스의 적어도 일부에 포함됨으로써, 상기 제 1 유형의 윈도가 상이한 유형의 윈도에 대해 시각적으로 지배한다.

그러므로 상대적으로 컴팩트한 요약은 하나의 스크린에 도시될 수 있고, 상대적으로 유용하다. 특히, 단순한 하이라이트들보다 많은 것이 도시될 수 있으나, 어떤 것이 하이라이트들이고 어떤 표현이 요약되었던 비디오 시퀀스에서 부차적으로 중요한 세그먼트들의 표현인지가 명백하다. 더욱이, 상기 제 1 클래스의 세그먼트들이 상기 서브 시퀀스를 통하여 상기 요약의 길이를 결정하기 때문에, 상기 이미지들의 시퀀스의 지배 파트들은 연속적이고, 반면에 상기 상이한 유형의 윈도는 존재할 필요가 없다.

실시예에서, 상기 제 1 클래스의 두 세그먼트들 사이에 위치되는 상기 제 2 클래스의 세그먼트의 표현은 상기 제 2 클래스의 세그먼트 이후의 상기 제 1 클래스의 두 세그먼트들 중 하나에 기초하는 이미지들의 서브 시퀀스 중 적어도 일부에 의해 디스플레이되게 된다.

그러므로, 비디오 요약은 요약되었던 상기 비디오 시퀀스에서의 시간 순서에 대응하는 요약 내의 시간 순서를 유지하는 것을 목적으로 하는 규칙에 따라 설정된다. 이는 동시에 디스플레이되는 두 개별 요약들로 전개되는 요약들을 혼동하지 않도록 하는 효과가 있다. 상기 제 1 클래스의 두 세그먼트들 사이에 위치된 상기 제 2 클래스의 세그먼트가 상기 제 1 클래스의 상기 두 세그먼트들 중 하나와 관련(즉 상기 제 1 클래스의 선행하는 또는 이후의 세그먼트 내의 이벤트에 이르기까지의 반응 또는 이벤트를 보이는)될 가능성이 다른 세그먼트보다 가장 크기 때문에, 상기 비디오 요약은 또한 더욱 유용하다.

실시예에서, 상기 상이한 유형의 윈도는 상기 제 1 유형의 윈도의 파트 상에서 중첩된다.

그러므로, 상기 제 1 유형의 윈도는 상대적으로 넓게 실행될 수 있고, 상기 제 1 클래스의 세그먼트들에 적어도 부분적으로 기초하는 상기 이미지들의 서브 시퀀스는 상대적으로 고해상도를 가질 수 있다. 상기 제 2 유형의 윈도에서 제공되는 여분의 정보는, 상기 상이한 유형의 윈도가 적절한 지점에서 중첩된다면, 상기 제 1 클래스의 세그먼트들에 대응하는 정보에 대한 상당한 비용을 야기하지 않을 것이다.

실시예에서, 상기 제 2 클래스의 세그먼트들은 상기 콘텐트 신호의 각각의 파트들 및 상기 제 2 클래스의 세그먼트들을 식별하기 위한 제 2 기준들의 세트의 분석에 기초하여 식별된다.

이는 상기 제 2 클래스의 세그먼트들이 상기 제 1 클래스의 세그먼트들을 선택하는데 사용되는 특성들과는 상이한 특성들에 기초하여 선택될 수 있는 효과가 있다. 특히, 예를 들어, 상기 제 2 클래스의 세그먼트들은 상기 제 1 클래스의 세그먼트들이 아닌 상기 비디오 시퀀스의 모든 남은 파트들에 의해서 형성될 필요가 없다. 상기 제 2 클래스의 어떤 세그먼트들이 식별되는지, 그리고 어떤 세그먼트들이 상기 제 2 기준들의 세트와 함께 사용되는지에 기초하는 분석은, 비록 그것이 가능할 수 있을지라도, 상기 제 1 클래스의 세그먼트들을 식별하는데 사용되는 것과 같은 유형의 분석일 필요가 없음이 명백할 것이다.

변형예에서, 상기 제 2 클래스의 세그먼트는 상기 두 세그먼트들 중 적어도 하나의 위치 및 콘텐츠 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제 1 클래스의 두 세그먼트들을 분리하는 세션 내에서 식별된다.

그러므로, 상기 방법은 상기 제 1 클래스의 가장 근접한 세그먼트들 중 적어도 하나에 대한 반응들 또는 선행하는 이벤트들(일반적으로 요약된 비디오 시퀀스의 하이라이트들)을 나타내는 상기 제 2 클래스의 세그먼트들을 검출할 수 있다.

실시예에서, 상기 제 2 클래스의 세그먼트의 표현은 상기 제 2 클래스의 세그먼트에 기초하는 이미지들의 시퀀스를 포함한다.

이는 디스플레이되는 요약된 비디오 시퀀스의 2차적인 파트들에 관련된 정보의 양을 증가시키는 효과가 있다.

변형예는, 상기 제 2 클래스의 세그먼트에 기초하는 이미지들의 시퀀스의 길이를, 상기 제 2 클래스의 세그먼트에 기초하는 이미지들의 시퀀스가 디스플레이되도록 하는 상기 제 1 클래스의 각각의 세그먼트에 기초하는 이미지들의 서브 시퀀스의 길이보다, 길이 면에서 더 짧거나 또는 동일하도록 조정하는 단계를 포함한다.

이는 상기 제 1 클래스의 세그먼트들이 상기 비디오 요약의 길이를 결정하도록 하고 시간 순서를 유지하는 동안 정보를 추가하도록 하는 효과가 있다.

다른 양태에 따르면, 본 발명에 따라 적어도 비디오 시퀀스를 포함하는 콘텐트 신호의 비디오 요약을 생성하기 위한 시스템은:

상기 콘텐트 신호를 수신하기 위한 입력부; 및

상기 콘텐트 신호의 각각의 파트들의 특성들 및 상기 제 1 클래스의 세그먼트들을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 상기 비디오 시퀀스의 세그먼트들을 적어도 제 1 및 제 2 클래스 중 하나로 분류하고,

이미지들의 서브 시퀀스들을 연결함으로써 이미지들의 시퀀스를 형성하고, 각각의 서브 시퀀스는 상기 제 1 클래스의 각각의 세그먼트에 적어도 부분적으로 기초하고, 이미지들의 서브 시퀀스들 중 적어도 하나에서 상기 제 1 클래스의 각각의 세그먼트에 기초하는 동영상들이 제 1 유형의 윈도에서 디스플레이되는, 신호 프로세싱 시스템을 포함하고,

상기 시스템은 상기 제 2 클래스의 세그먼트의 표현이 상이한 유형의 윈도에 상기 이미지들의 시퀀스 중 적어도 일부의 이미지들에 의해 디스플레이되게 하도록 구성된다.

실시예에서, 상기 시스템은 본 발명에 따른 방법을 수행하도록 구성된다.

다른 양태에서, 본 발명에 따라 적어도 비디오 시퀀스를 포함하는 콘텐트 신호의 비디오 요약을 인코딩하는 신호는 이미지들의 서브 시퀀스들의 연결을 인코딩하고, 각각의 서브 시퀀스는 적어도 제 1 및 제 2 클래스 중 제 1의 비디오 시퀀스의 각각의 세그먼트들에 적어도 부분적으로 기초하고, 상기 제 1 클래스의 세그먼트들은 상기 콘텐트 신호의 각각의 파트들의 특성들 및 상기 제 1 클래스의 세그먼트들을 식별하기 위한 제 1 기준들의 세트의 분석의 사용을 통해 식별 가능하고,

동영상들은 제 1 유형의 윈도 내의 각각의 서브 시퀀스에서 디스플레이되는 상기 제 1 클래스의 세그먼트에 기초하고,

상기 신호는 이미지들의 서브 시퀀스들의 적어도 일부를 연결함과 동시에 상이한 유형의 윈도에 상기 제 2 클래스의 세그먼트의 표현을 동시 디스플레이하는 데이터를 포함한다.

상기 신호는 상대적으로 컴팩트하고 - 자신의 길이 측면에서- 콘텐트 신호의 유용한 비디오 요약이다.

실시예에서, 상기 신호는 본 발명에 따른 방법을 실행하기 위해서 획득 가능하다.

본 발명의 다른 양태에서, 기계 판독 가능 매체에 통합될 때, 프로세싱 능력을 갖는 시스템이 본 발명에 따른 방법을 수행하도록 할 수 있는 명령들의 세트를 포함하는 컴퓨터 프로그램이 제공된다.

상술한 바와 같은 본 발명으로 인해, 정보 콘텐트의 측면에서 상대적으로 고품질로서 인식되는 상대적으로 컴팩트한 요약들이 제공될 수 있다.

도 1은 비디오 요약을 생성하고 디스플레이하기 위한 시스템을 도시하는 도면.
도 2는 요약된 비디오 시퀀스의 개략적인 도면.
도 3은 요약을 생성하는 방법의 흐름도.
도 4는 비디오 요약에 포함된 이미지들의 시퀀스의 개략도.

본 발명은 첨부 도면들을 참조하여 더욱 상세하게 설명될 것이다:

통합된 수신기 디코더(integrated receiver decoder: IRD)(1)는 디지털 텔레비전 방송들, VOD(Video-on-Demand) 서비스들 등을 수신하기 위한 네트워크 인터페이스(2), 복조기(3) 및 디코더(4)를 포함한다. 네트워크 인터페이스(2)는 디지털, 위성, 지상 또는 IP 기반 방송 또는 유선 방송 네트워크(narrowcast network)일 수 있다. 디코더의 출력은 예를 들어 MPEG-2 또는 H.264 또는 유사한 포맷인 (압축) 디지털 시청각 신호들을 포함하는 하나 이상의 프로그램 스트림들(streams)을 포함한다. 프로그램, 또는 이벤트에 대응하는 신호들은 대용량 저장 디바이스(5), 예를 들어, 하드디스크, 광학 디스크 또는 고체 메모리 디바이스에 저장될 수 있다.

대용량 저장 디바이스(5)에 저장된 시청각 데이터는 텔레비전 시스템(도시되지 않음)으로의 재생(playback)을 위하여 사용자에 의해 액세스될 수 있다. 이를 위해, IRD(1)에는 사용자 인터페이스(6), 예를 들어 원격 제어기 및 텔레비전 시스템의 스크린상에 디스플레이되는 그래픽 메뉴가 제공된다. IRD(1)는 메인 메모리(main memory)(8)를 사용한 컴퓨터 프로그램 코드를 실행하는 중앙 처리 장치(CPU)(7)에 의해 제어된다. 재생 및 메뉴들의 디스플레이를 위해, IRD(1)에는 텔레비전 시스템에 적절한 비디오 및 오디오 신호들을 생성하는 비디오 코더(9) 및 오디오 출력 스테이지(stage)(10)가 더 제공된다. CPU(7) 내의 그래픽 모듈(graphics module)(도시되지 않음)은 IRD(1) 및 텔레비전 시스템에 의해 제공되는 그래픽 사용자 인터페이스(Graphical User Interface: GUI)의 그래픽 컴포넌트들을 생성한다.

IRD(1)는 IRD(1)의 로컬 네트워크 인터페이스(12) 및 휴대용 미디어 재생기(11)의 로컬 네트워크 인터페이스(13)를 통해 휴대용 미디어 재생기(11)와 인터페이싱(interfacing)한다. 이로 인해 휴대용 미디어 재생기(11)로의 스트리밍(streaming), 아니면 IRD(1)에 의해 생성되는 비디오 요약들의 다운로딩이 가능하다.

휴대용 미디어 재생기(11)는 디스플레이 디바이스(14), 예를 들어 액정 디스플레이(Liquid Crystal Display: LCD) 디바이스를 포함한다. 그것은 메인 메모리(16)뿐만 아니라 대용량 저장 디바이스(17), 예를 들어 하드디스크 유닛(unit) 또는 고체 메모리 디바이스를 추가로 포함한다.

IRD(1)는 자체의 네트워크 인터페이스(2)를 통해 수신되고 대용량 저장 디바이스(5)에 저장된 프로그램의 비디오 요약들을 생성하도록 구성된다. 비디오 요약들은 휴대용 미디어 재생기(11)로 다운로드되어 모바일(mobile) 사용자가 스포츠 이벤트의 핵심을 파악할 수 있도록 한다. 상기 요약들은 또한 IRD(1) 및 텔레비전 세트에 의해 제공되는 GUI에서의 브라우징(browsing)을 용이하게 하는데 사용될 수 있다.

상기 요약들을 생성하는데 사용된 기술은 예를 들어 개인 스포츠 콘테스트들의 스포츠 방송들의 예를 사용하여 설명되지만, 광범위한 콘텐츠들, 예를 들어 영화들, 탐정물의 에피소드들(episodes) 등에 적용될 수 있다. 일반적으로, 처음 상황에 따른 플롯들, 클라이맥스에 이르는 등장 사건들 및 후속 해결 방식의 임의의 유형은 이 방식으로 편리하게 요약될 수 있다.

요약의 목적은 특정 시청각 콘텐트에 대한 핵심 정보를 제공하면서도 어떻게는 시청자에게 덜 중요하고 덜 의미가 있는 정보를 제외하는 것이다. 스포츠를 요약할 때, 관련 정보는 통상적으로 상기 스포츠 이벤트에서의 가장 중요한 하이라이트들(축구 경기들에서의 골들 및 놓친 기회들, 테니스에서의 세트 포인트들 또는 매치 포인트들 등)의 모음으로 구성된다. 사용자 관찰에 따르면, 자동 생성된 스포츠 요약에서, 시청자들은 가장 중요한 하이라이트들뿐만 아니라 예를 들어, 축구 시합에서의 골을 넣은 플레이어들의 반응, 관중 반응과 같은 이벤트의 추가적인 양태들을 보고자 한다고 한다.

IRD(1)는 요약에서 정보의 값에 따른 상이한 방식들로 상기 정보를 제공함으로써 강화된 요약을 제공한다. 이전에 생성되었던 보다 덜 관련된 파트들은 현재 보이는 핵심 파트와 동시에 디스플레이된다. 이는 비디오 요약들이 계속 매우 유용하게 컴팩트한 것을 가능하게 한다.

도 2를 참조하면, 프로그램 신호는 오디오 컴포넌트 및 비디오 시퀀스(18)를 포함하는 비디오 컴포넌트를 포함한다. 비디오 시퀀스(18)는 제 1, 제 2 및 제 3 하이라이트 세그먼트들(19 내지 21)을 포함한다. 이는 또한 제 1, 제 2 및 제 3 리드업(lead-up) 세그먼트들(22 내지 24) 및 제 1, 제 2 및 제 3 응답 세그먼트들(25 내지 27) 뿐만 아니라 다른 콘텐트에 대응하는 섹션들(28 내지 31)을 포함한다.

도 3을 참조하면, 비디오 요약은, 상기 세그먼트들의 특성들 및 하이라이트 세그먼트들을 식별하기 위한 적어도 제 1 발견법(heuristic)의 분석에 기초하여 하이라이트 세그먼트들(19 내지 21)을 검출함으로써(단계 32) 생성된다. 발견법에 의한 것이란 뜻은 문제를 해결하는, 이 경우에 스포츠 이벤트에서 하이라이트에 대응하는 이미지들의 시퀀스들을 식별하는 특정한 기술을 의미한다. 그것은 제공된 세그먼트가 하이라이트를 나타내는 것으로 고려되는지의 여부를 결정하는데 사용되는 분석 방법들 및 기준들을 포함한다. 하나 이상의 제 1 기준들의 세트는 하이라이트들을 식별하기 위해 사용되고, 반면에 하나 이상의 제 2 기준들의 세트는 세그먼트들의 다른 클래스들에 의해서 응해진다. 스포츠 이벤트들의 맥락에서, 하이라이트들로 분류될 수 있는 세그먼트들을 식별하기 위한 적합한 기술들은, Ekin, A.M 등의 "Automatic soccer video analysis and summarization", IEEE Trans.Image Processing, 2003년 6월; Cabasson, R. 및 Divakaran, A.의 "Automatic extraction of soccer video highlights using a combination of motion and audio features:, Symp.Electronic Imaging: Science and Technology: Storage and Retrieval for Media Database, 2002년1월 5021, pp.272 내지 276; 및 Nepal, S. 등의 "Automatic detection of goal segments in basketball videos", Proc.ACM Multimedia, 2001, pp.261 내지 269:에 기술되어 있다.

선택적인 다음 단계 33에서, 분류는 이전 단계 32에서 식별된 세그먼트들의 특정한 세그먼트들만을 선택함으로써 구별된다. 이 단계 33은 이전 단계 32에서 발견된 세그먼트들을 등급화하는 단계, 및 가장 높게 등급화된 것들만, 예를 들어 미리 결정된 세그먼트들의 수, 또는 특정 최대 길이와 같거나 낮은 총 길이를 갖는 세그먼트들의 수만을 선택하는 단계를 포함할 수 있다. 이 등급화 단계는 비디오 시퀀스(18)의 특정 세그먼트들, 즉 하이라이트들에 적용 가능한 기준들의 세트를 사용하여 결정된 특정 세그먼트들에 대해서만 수행되는 것이 주목되어야 한다. 그러므로, 이는 비디오 시퀀스(18)의 완전하지 않은 분할을 구성하는 세그먼트들의 세트의 등급이다.

추가 단계들 34 내지 36은, 제 2 클래스의 세그먼트들, 예를 들어 응답 세그먼트들(25 내지 27)이 검출되도록 한다. 하이라이트에 대한 반응은 전형적으로, 흔히 슬로우 모션으로의 다수의 각도들에서의 하이라이트의 리플레이; 흔히 클로즈업 샷들 상태의 플레이어들의 반응; 및 관중들의 반응의 리플레이를 포함한다.

단계들 34 내지 36은 두 하이라이트 세그먼트들(19 내지 21)을 분리하는 비디오 시퀀스(18)의 파트들에 기초하고 두 하이라이트 세그먼트들(19 내지 21) 중 적어도 하나, 일반적으로 두 하이라이트 세그먼트들(19 내지 21) 중 먼저 발생한 것의 위치 및 콘텐츠 중 적어도 하나에 부분적으로 기초하여 수행된다. 예를 들어, 위치는 응답 세그먼트(25 내지 27)가 각각의 하이라이트 세그먼트(19 내지 21)에 대해 검색될 때 사용된다. 콘텐츠는 특히 리플레이들이 검색되는 단계 35에서 사용된다. 어느 경우이든지, 세그먼트들은, 세그먼트들을 하이라이트 세그먼트들(19 내지 21)로 분류하는데 사용되는 방법과 상이한 발견법을 사용하여 응답 세그먼트들(19 내지 21)로 분류된다. 여기서, 상기 방법은, 비디오 시퀀스(18)의 완전한 분할을 나타내는 세그먼트들을, 전체 비디오 시퀀스(18)의 콘텐츠를 세그먼트들이 어떻게 대표하는지에 따른 세그먼트들로 등급화함으로써, 비디오 시퀀스(18)의 포괄적인 요약들을 제공하는 것이 목적인 방법들과는 상이하다.

클로즈업들을 검출하는 단계 34는 깊이 정보(depth information)를 이용할 수 있다. 적절한 방법은 WO 2007/036823에 기술된다.

리플레이들을 검출하는 단계 35는 리플레이 세그먼트들을 검출하는 다수의 공지된 방법들 중 임의의 방법을 사용하여 구현될 수 있다. 2000년 1월 Kobla, V. 등의 "Identification of sports videos using replay, text, and camera motion features", Proc. SPIE Conference on Storage and Retrieval for Media Database, 3972, pp.332 내지 343; Wungt, L. 등의 2004년 "Generic slow-motion replay detection in sports video", International Conference on Image Processing(ICIP), pp. 1585 내지 1588; 및 Tong, X.의 "Replay Detection in Broadcasting Sports Video", Proc.3^rd Intl.Conf.on Image and Graphics(ICIG'04)에 예들이 기술된다.

관중 이미지들을 검출하는 단계 36은 예를 들어 2005년 5월의 Sadlier, D. 및 O'Connor, N. "Event detection based on generic characteristics of field-sports", IEEE Intl.Conf.on Multimedia & Expo (ICME), pp.5 내지 17에 기술된 방법을 사용하여 구현될 수 있다.

도 3 및 도 4를 함께 참조하면, 비디오 요약을 형성하는 이미지들의 시퀀스(37)가 도시된다. 이는 각각의 제 1, 제 2 및 제 3 하이라이트 세그먼트들(19 내지 21)에 기초하는 제 1, 제 2 및 제 3 서브 시퀀스들(38 내지 40)을 포함한다. 서브 시퀀스들(38 내지 40)은 내부에 포함된 이미지들이 콘텐츠에 대응한다는 의미에서 하이라이트 세그먼트들(19 내지 21)에 기초할지라도, 세그먼트들(19 내지 21) 내의 원래 이미지들의 시간적 또는 공간적으로 서브 샘플링(sub sampling)된 버전들일 수 있다. 서브 시퀀스들(38 내지 40)에서의 이미지들은 예를 들어 디스플레이 디바이스(14) 또는 IRD(1)에 접속된 텔레비전 세트의 스크린상의 제 1 윈도의 모든 디스플레이를 점유하는 것과 같이 인코딩된다. 일반적으로, 제 1 윈도는, 디스플레이될 때 일반적으로 전체 스크린을 채우기 위해, 크기 및 형상 면에서 스크린 포맷에 대응할 것이다. 서브 시퀀스들(38 내지 40)은 단일 견본 이미지들과는 대조적으로, 동영상들을 표현하는 것이 관찰된다.

더 작은 포맷의 스크린상 윈도들(41, 42)을 채우는 이미지들은 응답 세그먼트들(25 내지 27)에 기초하여 생성된다(단계 43). 이 이미지들은 화면 속 화면(Picture-In-Picture) 방식으로 하이라이트 세그먼트(19 내지 21)의 표현을 포함하는 윈도의 파트 상에서 중첩된다(단계 44). 그러므로, 하이라이트 세그먼트들(19 내지 21)에 기초하는 동영상들은 자신에 추가된 응답 세그먼트(25 내지 27)의 표현 위에서 시각적으로 우세하다.

일 실시예에서, 응답 세그먼트들(25 내지 27)의 표현들은 단일 정적 이미지들, 예를 들어 견본들이다. 이 실시예에서, 상기 표현들은 예를 들어 관련된 응답 세그먼트(25 내지 27)의 키 프레임(key frame)에 대응한다. 다른 실시예에서, 응답 세그먼트들(25 내지 27)의 표현들은 응답 세그먼트들(25 내지 27)에 기초하는 동영상들의 시퀀스들을 포함한다. 실시예에서, 이들은 길이에 있어서 자신들이 추가된 서브 시퀀스(38 내지 40)의 길이보다 더 짧도록 또는 동일하도록 적응된 서브 샘플링 또는 트런케이팅(truncating)된 버전들이다. 결과적으로, 각각의 서브 시퀀스(38 내지 40)에 추가된 응답 세그먼트(25 내지 27) 중 기껏해야 하나의 표현만이 존재한다.

요약 시퀀스(37)의 정보 콘텐트를 강화하기 위해서, 원 비디오 시퀀스(18)의 시간 순서는 어느 정도 유지된다. 특히, 두 연속 하이라이트 세그먼트들(19 내지 21) 사이에 위치된 각각의 응답 세그먼트(25 내지 27)의 표현은 연관된 응답 세그먼트(25 내지 27) 이후의 두 하이라이트 세그먼트들(19 내지 21) 중 하나에 기초하는 이미지들의 서브 시퀀스(38 내지 40)에서의 적어도 일부에 의해서만 디스플레이된다. 그러므로, 도 2 및 도 4에 의해 도시된 예에서, 제 1 응답 세그먼트(25)의 표현은 제 2 하이라이트 세그먼트(20)에 기초하는 이미지들의 제 2 서브 시퀀스(39) 내의 이미지들의 제 1 그룹(45) 내의 윈도(41)에 포함된다. 윈도(41)는 제 2 서브 시퀀스(39) 내의 이미지들의 제 2 그룹에 존재하지 않는다. 제 2 응답 세그먼트(26)의 표현은 이미지들의 제 3 서브 시퀀스(40) 상에 중첩된 윈도(42) 내에 도시되고, 상기 제 3 서브 시퀀스(40)는 제 3 하이라이트 세그먼트(21)에 기초한다. 중첩된 윈도들(41, 42)을 구비한 서브 시퀀스들(38 내지 40)은 마지막 단계 47로 연결되어 출력 비디오 신호를 생성한다. 그러므로, 비디오 요약 시퀀스(37)가 디스플레이될 때, 보다 적게 관련된 이전의 하이라이트는 화면 속 화면으로 현재 하이라이트의 관련 정보와 동시에 디스플레이된다.

응답 세그먼트들(25 내지 27)이 다른 실시예에서의 하이라이트 세그먼트들(19 내지 21)의 표현들과 상이한 스크린에 디스플레이되는 것이 관찰된다. 예를 들어, 하이라이트 세그먼트들(19 내지 21)에 기초하는 이미지들의 서브 시퀀스들은 IRD(1)에 접속된 텔레비전 세트의 스크린에 디스플레이될 수 있고, 반면에 응답 세그먼트들(25 내지 27)의 표현들은 적절한 시간에 디스플레이 디바이스(14)의 스크린에 동시에 디스플레이된다.

응답 세그먼트들(25 내지 27)의 여러 표현들이 이미지들의 서브 시퀀스들(38 내지 40)의 적어도 일부에 동시에 중첩될 수 있음이 더 관찰된다. 예를 들어, 클로즈업들을 검출하는 단계 34에서 검출된 세그먼트들의 표현들을 위한 하나의 윈도, 리플레이들을 검출하는 단계 35에서 검출된 세그먼트들의 표현들을 위한 다른 윈도, 및 관중 이미지들을 검출하는 단계 36에서 검출된 세그먼트들의 표현들을 위한 부가 윈도가 존재할 수 있다.

다른 실시예에서, 윈도(41, 42)는 관련 정보를 불명확(obscure)하게 하지 않도록, 자신들이 중첩되는 이미지들의 콘텐츠에 따라 위치를 변경한다.

또 다른 실시예에서, 세그먼트들(22 내지 24)의 표현들은 또한 서브 시퀀스들(38 내지 40)을 형성하는 이미지들에 포함되거나 이들 이미지들에 중첩되는 윈도들(41, 42)에 디스플레이된다.

아무튼, 제한된 자원들을 갖는 장치에서 신속한 브라우징 또는 모바일 시청에 적합한 비디오 시퀀스(18)를 요약한 컴팩트하고 상대적으로 유용한 시퀀스(37)가 달성된다.

상술한 실시예들은 본 발명을 제한하기보다는 설명적이고 당업자들은 첨부된 청구항들의 범위를 벗어나지 않고 많은 대안 실시예들을 설계할 수 있음이 주목되어야 한다. 청구항들에서, 괄호들 사이에 배치된 임의의 참조 기호들은 청구항들을 제한하는 것으로 해석되지 말아야 한다. 동사 "포함하는" 및 그의 변형들의 사용은 청구항에서 진술된 것 이외의 요소들 또는 단계들의 존재를 배제하지 않는다. 요소들에 선행하는 단수 관사는 그와 같은 요소들의 복수의 존재를 배제하지 않는다. 본 발명은 여러 개별 요소들을 포함하는 하드웨어를 통해, 그리고 적절하게 프로그램된 컴퓨터를 통해 구현될 수 있다. 여러 수단들을 열거한 디바이스에서, 여러 이들 수단들은 하드웨어의 하나 및 동일한 아이템들에 의해 구현된다. 서로 상이한 종속항들에서 특정한 측정수단이 인용되는 단순한 사실이 이들 측정수단들의 조합이 유용하게 이용될 수 없음을 나타내지 않는다.

예를 들어, 하이라이트 세그먼트들(19 내지 21) 및 응답 세그먼트들(25 내지 27)을 검출하는 단계 32 내지 36 중 하나 이상은 추가적으로 또는 대안적으로, 요약된 비디오 시퀀스(18)와 동기화되고 동일한 콘텐트 신호에 포함되는 오디오 트랙의 특성들의 분석에 기초할 수 있다.

'컴퓨터 프로그램'은 인터넷과 같은 네트워크를 통해 다운로드 가능하거나 임의의 다른 방식으로 시장구입이 가능한 광학 디스크와 같은 컴퓨터 저장 가능 매체에 저장되는 임의의 소프트웨어 제품을 의미하는 것으로 이해될 것이다.

1 : 수신기 디코더 2 : 네트워크 인터페이스
3 : 복조기 4 : 디코더
5 : 대용량 저장 디바이스 6 : 사용자 인터페이스
7 : 중앙 처리 장치 8 : 메인 메모리
9 : 비디오 코더 10 : 오디오 출력 스테이지
37 : 이미지들의 시퀀스 38 내지 40 : 서브 시퀀스들

Claims

적어도 비디오 시퀀스(18)를 포함하는 콘텐트 신호의 비디오 요약을 생성하는 방법에 있어서:
상기 비디오 시퀀스(18)의 세그먼트들을, 상기 콘텐트 신호의 각각의 파트들의 특성들 및 제 1 클래스의 세그먼트들(19 내지 21)을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 적어도 제 1 및 제 2 클래스 중 하나로 분류하는 단계, 및
이미지들의 서브 시퀀스들(38 내지 40)을 연결함으로써 이미지들의 시퀀스(37)를 형성하는 단계로서, 각각의 서브 시퀀스(38 내지 40)는 상기 제 1 클래스의 각각의 세그먼트(19 내지 21)에 적어도 부분적으로 기초하고,
상기 이미지들의 서브 시퀀스들(38 내지 40) 중 적어도 하나에서, 상기 제 1 클래스의 각각의 세그먼트(19 내지 21)에 기초하는 동영상들이 제 1 유형의 윈도에 디스플레이되는, 상기 이미지들의 시퀀스(37) 형성 단계를 포함하고,
상기 방법은 상기 제 2 클래스의 세그먼트(25 내지 27)의 표현이 상이한 유형의 윈도(41, 42)에 상기 이미지들의 시퀀스(37)의 적어도 일부 이미지들에 의해 디스플레이되도록 하는 단계를 추가로 포함하는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 1 항에 있어서,
상기 제 2 클래스의 세그먼트(25 내지 27)의 표현은 상기 이미지들의 시퀀스(37)의 적어도 일부에 포함되어, 상기 제 1 유형의 윈도가 상기 상이한 유형의 윈도(41, 42)에 대해 시각적으로 우세한, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 1 항 또는 제 2 항에 있어서,
상기 제 1 클래스의 두 세그먼트들(19 내지 21) 사이에 위치되는 상기 제 2 클래스의 세그먼트(25 내지 27)의 표현은, 상기 제 2 클래스의 세그먼트(25 내지 27) 이후의 상기 제 1 클래스의 두 세그먼트들(19 내지 21) 중 하나에 기초하는 이미지들의 서브 시퀀스(38 내지 40)의 적어도 일부에 의해 디스플레이되게 하는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 2 항 또는 제 3 항에 있어서,
상기 상이한 유형의 윈도(41, 42)는 상기 제 1 유형의 윈도의 부분 상에서 중첩되는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 제 2 클래스의 세그먼트들(25 내지 27)은 상기 콘텐트 신호의 각각의 부분들 및 상기 제 2 클래스의 세그먼트들(25 내지 27)을 식별하기 위한 적어도 제 2 기준들의 세트의 분석에 기초하여 식별되는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 5 항에 있어서,
상기 제 2 클래스의 세그먼트(25 내지 27)는 상기 두 세그먼트들 중 적어도 하나의 위치 및 콘텐츠 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제 1 클래스의 두 세그먼트들(19 내지 21)을 분리하는 세션 내에서 식별되는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 제 2 클래스의 세그먼트(25 내지 27)의 표현은 상기 제 2 클래스의 세그먼트(25 내지 27)에 기초하는 이미지들의 시퀀스를 포함하는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
제 7 항에 있어서,
상기 제 2 클래스의 세그먼트(25 내지 27)에 기초하는 이미지들의 시퀀스의 길이를, 상기 제 2 클래스의 세그먼트(25 내지 27)에 기초하는 이미지들의 시퀀스가 디스플레이되도록 하는 상기 제 1 클래스의 각각의 세그먼트(19 내지 21)에 기초하는 이미지들의 서브 시퀀스(38 내지 40)의 길이보다, 길이 면에서 더 짧거나 또는 동일하도록 조정하는 단계를 포함하는, 콘텐트 신호의 비디오 요약을 생성하는 방법.
적어도 비디오 시퀀스(18)를 포함하는 콘텐트 신호의 비디오 요약을 생성하기 위한 시스템에 있어서:
상기 콘텐트 신호를 수신하기 위한 입력부; 및
상기 콘텐트 신호의 각각의 부분들의 특성들 및 상기 제 1 클래스의 세그먼트들(19 내지 21)을 식별하기 위한 적어도 제 1 기준들의 세트의 분석에 기초하여 상기 비디오 시퀀스(18)의 세그먼트들을 적어도 제 1 및 제 2 클래스 중 하나로 분류하고,
상기 이미지들의 서브 시퀀스들(38 내지 40)을 연결함으로써 이미지들의 시퀀스(37)를 형성하고, 각각의 서브 시퀀스(38 내지 40)는 상기 제 1 클래스의 각각의 세그먼트(19 내지 21)에 적어도 부분적으로 기초하고,
상기 이미지들의 서브 시퀀스들 중 적어도 하나에서, 상기 제 1 클래스의 각각의 세그먼트(19 내지 21)에 기초하는 동영상들이 제 1 유형의 윈도에 디스플레이되는, 신호 프로세싱 시스템을 포함하고,
상기 시스템은 상기 제 2 클래스의 세그먼트(25 내지 27)의 표현이 상이한 유형의 윈도(41, 42)에 상기 이미지들의 시퀀스(37)의 적어도 일부의 이미지들에 의해 디스플레이되도록 구성되는, 콘텐트 신호의 비디오 요약을 생성시키기 위한 시스템.
제 9 항에 있어서,
제 1 항 내지 제 8 항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 콘텐트 신호의 비디오 요약을 생성시키기 위한 시스템.
적어도 비디오 시퀀스(18)를 포함하는 콘텐트 신호의 비디오 요약을 인코딩하는 신호에 있어서:
상기 신호는 이미지들의 서브 시퀀스들(38 내지 40)의 연결을 인코딩하고, 각각의 서브 시퀀스(38 내지 40)는 적어도 제 1 및 제 2 클래스의 제 1의 상기 비디오 시퀀스(18)의 각각의 세그먼트에 적어도 부분적으로 기초하고, 상기 제 1 클래스의 세그먼트들(19 내지 21)은 상기 콘텐트 신호의 각각의 부분들의 특성들 및 상기 제 1 클래스의 세그먼트들(19 내지 21)을 식별하기 위한 제 1 기준들의 세트의 분석의 사용을 통해 식별 가능하고,
동영상들은 제 1 유형의 윈도 내의 각각의 서브 시퀀스(38 내지 40)에서 디스플레이되는 상기 제 1 클래스의 세그먼트(19 내지 21)에 기초하고,
상기 신호는 상기 이미지들의 서브 시퀀스들(38 내지 40)의 적어도 일부를 연결함과 동시에 상이한 유형의 윈도(41, 42)에 상기 제 2 클래스의 세그먼트(25 내지 27)의 표현을 동시 디스플레이하는 데이터를 포함하는, 콘텐트 신호의 비디오 요약을 인코딩하는 신호.
제 11 항에 있어서,
제 1 항 내지 제 9 항 중 어느 한 항에 따른 방법을 수행함으로써 획득 가능한, 콘텐트 신호의 비디오 요약을 인코딩하는 신호.
기계 판독 가능 매체에 통합될 때, 정보 프로세싱 능력을 갖는 시스템이 제 1 항 내지 제 9 항 중 어느 한 항에 따른 방법을 수행하도록 할 수 있는 명령들의 세트를 포함하는, 컴퓨터 프로그램.