KR20110023878A

KR20110023878A - 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치

Info

Publication number: KR20110023878A
Application number: KR1020117000276A
Authority: KR
Inventors: 밀란 파스테르나크; 페드로 폰세카
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2008-06-09
Filing date: 2009-06-02
Publication date: 2011-03-08
Also published as: EP2291844A2; US20110075993A1; WO2009150567A3; US8542983B2; JP2011523291A; WO2009150567A2; CN102057433A

Abstract

오디오/비주얼 데이터 스트림의 요약을 생성하는 방법이 제공되고, 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함한다. 오디오/비주얼 데이터 스트림의 복수의 샷들이 검출된다(단계 204). 오디오/비주얼 데이터 스트림의 복수의 세그먼트들이 결정되고(단계 206), 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 상기 데이터 스트림의 복수의 샷들을 포함한다. 결정된 복수의 세그먼트들 중 하나의 세그먼트가 선택된다(단계 208). 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해, 상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오가 추출된다(단계 210). 추출된 오디오를 토대로 샷들 중 적어도 하나가 선택된다(단계 212). 상기 샷들 중 상기 선택된 적어도 하나를 포함하는 요약이 생성된다(단계 214).

Description

오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR GENERATING A SUMMARY OF AN AUDIO/VISUAL DATA STREAM}

본 발명은 오디오/비주얼 데이터 스트림(data stream)의 요약을 생성하기 위한 방법 및 장치에 관한 것이다.

브로드캐스트 스포츠 이벤트들을 시청하는 것은, 증가하는 스포츠 채널들의 수에 의해 반영되는 바와 같이, 점차 대중화되고 있다. 그러나, 광대한 양의 이용 가능한 콘텐츠는 사용자가 그것 모두를 시청하는 것을 불가능하게 한다.

하나의 기존 해법은 주요 하이라이트들을 보여주는 이벤트의 요약을 이용자에게 제공하는 것이다. 기존 요약 시스템들은 전형적으로 미리-정의된 시간 간격에 꼭 맞는 비디오 시퀀스의 가장 양호한 세그먼트(segment)들을 선택하는 것을 목적으로 한다. 예를 들어, 이용자가 5분의 요약을 요청하는 경우, 상기 시스템은 어느 것이 그 5분의 요약에 꼭 맞는 가장 양호한 세그먼트들인지를 검출한다.

매우 대중적으로 시청되는 스포츠는 테니스이며 통상적으로 동시에 겨우 세 내지 네 토너먼트들이 방송될지라도, 경기의 총수(특히 시합들의 초기 라운드들 동안)가 충분히 많아 이용자가 상기 경기들의 전부를 시청할 수 없게 한다. 더욱이, 번갈아 일어나는 랠리들 및 브레이크(break)들의 시퀀스에 대응하는 테니스의 구조는, 매우 흔히 광고방송들로 채워진다. 결과적으로, 이용자는 완전한 경기에 대비되는 바의 하이라이트들을 시청하는, 특히 재밌고, 흥미진진하며, 최종 결과에 중요한 랠리들을 시청할 수 있는 것이 바람직하다.

US 2007/0292112는 테니스 경기의 필름에서 하이라이트를 탐색하는 방법을 개시한다. 복수의 롱-필드 뷰(long-field view) 샷(shot)들이 필름 내에서 검출되고 롱-필드 뷰 샷들의 오디오 에너지는 하이라이트들에 속하는 원하는 롱-필드 뷰 샷들을 결정하는데 이용된다. 예를 들어, 오디오 에너지는 롱-필드 뷰 샷들 동안 박수갈채를 식별하는데 사용되어 하이라이트들을 결정한다.

그러나, US 2007/0292112의 방법에서는, 가장 중요한(예를 들어 가장 재미있는) 하이라이트들을 결정하는 것이 가능하지 않다. 더욱이, 박수갈채를 식별하는데 사용되는 오디오 에너지는 특히 정확하지 않은데 왜냐하면 해설자의 보이스-오버(voice-over) 또는 스크림(scream)들, 볼 히트 등과 같이 플레이어들에 의해 발생되는 사운드들과 같은 원하지 않는 노이즈를 포함할 가능성이 있기 때문이다.

본 발명은 오디오/비주얼 데이터 스트림의 가장 중요한 하이라이트들을 포함하는 요약이 생성되는 방법을 제공하려고 한다. 본 발명은 부가적으로 가장 중요한 하이라이트들을 검출하기 위한 정확성을 개선하려고 하는 것이다.

이는, 본 발명의 양태에 따른, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법에 의해 달성되고, 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함하고, 상기 방법은: 오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하는 단계; 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하는 단계로서, 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 데이터 스트림의 복수의 샷들을 포함하는, 상기 결정 단계; 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하는 단계; 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해, 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계; 추출된 오디오를 토대로 샷들 중 적어도 하나를 선택하는 단계; 및 샷들 중 선택된 적어도 하나를 포함하는 요약을 생성하는 단계를 포함한다.

이는 또한, 본 발명의 다른 양상에 따른, 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 장치에 의해 달성되고, 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함하고, 상기 장치는: 오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하기 위한 샷 검출기; 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하기 위한 결정 수단으로서, 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 데이터 스트림의 복수의 샷들을 포함하는, 상기 결정 수단; 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하기 위한 제 1 선택기; 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해, 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하기 위한 추출기; 추출된 오디오를 토대로 샷들 중 적어도 하나를 선택하기 위한 제 2 선택기; 및 샷들 중 선택된 적어도 하나를 포함하는 요약을 생성하기 위한 요약 생성기를 포함한다.

이 방식으로, 요약(예를 들어, 테니스 하이라이트들과 같은 하이라이트들)을 시청하는 이용자의 경험이 풍부해지는데 왜냐하면 재미있는 샷들이 식별되어 원래의 오디오/비주얼 데이터 스트림으로부터 분리됨으로써 요약을 형성하기 때문이다. 유용하게도, 요약은 데이터 스트림 내의 각각의 샷이 얼마나 재미있는지에 좌우될 것이다. 더욱이, 샷이 "얼마나 재미있는지"의 기준이 조정될 수 있다. 이 응용예는 문턱값(threshold)을 낮추거나 높여서 그에 대응하도록 더 작거나 또는 더 큰 요약들을 획득할 수 있다. 이 제어는 매우 간단한 방식으로 사용자에게 제공될 수 있다. 이 제어의 결과로, 생성되는 요약은 오디오/비주얼 데이터 스트림의 가장 중요한(예를 들어 가장 재미있는) 하이라이트들을 포함한다. 그러므로 검출된 이벤트들은 더 개인의 요구에 맞는 포맷의 요약으로 결합되고 제공된다. 더욱이, 중요한 하이라이트들은 단지 샷들의 직후에 프레임들의 오디오를 추출하고 상기 오디오의 레벨을 토대로 샷들을 선택함으로써 정확하게 검출된다. 즉, 데이터 스트림의 선택된 세그먼트의 샷들 동안의 오디오는 무시된다. 이는 해설자의 음성 또는 플레이어들에 의해 발생되는 사운드와 같은 원치 않는 노이즈에 의해 생성될 수 있는 오디오 판독들에서의 임의의 에러들을 제거한다. 더욱이, 샷들 이후에 오디오를 추출하고 상기 오디오의 레벨을 토대로 샷들을 선택함으로써, 중요한 이벤트들에 대한 관중 반응에서의 자연적인 지연이 캡쳐(capture)된다. 이 방법은, 예를 들어, 경기 플레이 중에 관중이 소리를 내는 것이 금지되고 각각의 포인트가 플레이된 이후, 즉, 각각의 랠리 이후에 단지 반응할 수 있기 때문에 테니스에 관해서 사용될 때 특히 효과적이다.

오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하는 단계는: 데이터 스트림의 각각의 프레임의 비주얼 특성들을 데이터 스트림의 각각의 후속 프레임의 비주얼 특성들과 비교하는 단계; 및 복수의 샷들을 검출하는 단계를 포함할 수 있고, 각각의 샷은 비교된 비주얼 특성들이 유사한 복수의 연속 프레임들을 포함한다. 이는, 예를 들어 프레임들의 비주얼 특성들이 롱-필드 뷰 샷으로부터 쇼트 필드(short-field) 뷰 샷으로 변할 때, 연속 프레임들의 비주얼 특성들의 변화를 분석함으로써 동일한 이벤트에 초점을 맞추는 샷들을 결정하는 효과적인 방식을 제공한다. 유사한 비주얼 특성들을 포함하는 프레임들은 동일한 뷰 샷들을 지닐 가능성이 있으므로 용이하게 결정될 수 있다. 이 방식으로, 샷들 사이의 전이(transition)들이 식별됨으로써 간단하지만, 데이터 스트림 내에서 상이한 샷들을 검출하는 효과적인 방식을 제공한다.

오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하는 단계는: 데이터 스트림의 각각의 샷의 비주얼 특성들을 비교하는 단계; 및 비교된 비주얼 특성들이 유사한 복수의 샷들을 포함하는 복수의 세그먼트들을 결정하는 단계를 포함할 수 있다. 결과적으로, 유사한 비주얼 특성들을 포함하는 샷들은 세그먼트들을 규정한다. 이는 특정 이벤트들이 하이라이트들로서 결정되는 것을 가능하게 한다. 예를 들어, 데이터 스트림 내에 중요한 이벤트가 존재할 때, 중요한 이벤트를 포함하는 샷들은 동일한 비주얼 특성들을 포함할 가능성이 있는데 왜냐하면 중요한 이벤트는 비주얼이 유사한 복수의 샷들에 의해 커버될 것이기 때문이다. 예를 들어, 테니스 경기에서, 중요한 이벤트는 랠리일 수 있고 랠리를 포함하는 샷들의 비주얼 특성들은 유사할 가능성이 있다. 랠리가 끝나면, 비주얼 특성들은 특정 샷으로 변하여 이 샷은 상기 세그먼트에 포함되지 않을 가능성이 있다. 이는 데이터 스트림의 중요한 이벤트들이 간단하지만 효과적인 방식으로 결정되는 것을 가능하게 한다.

비주얼 특성들은 우세 컬러, 컬러 구조(color structure), 컬러 레이아웃(layout), 컬러 휴 히스토그램(hue histogram), 루마 히스토그램(luma histogram), 에지 히스토그램(edge histogram)들, 평균 히스토그램 변화 및 평균 픽셀 변화 중 적어도 하나를 포함할 수 있다. 예를 들어, 두 연속 프레임들 사이의 히스토그램의 변화는 프레임들의 비주얼 특성들의 변화를 나타내므로 동일한 이벤트를 포함하는 프레임들(동일한 비주얼 특성들을 가지는 프레임들)이 용이하게 결정될 수 있다.

결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하는 단계는: 결정된 복수의 세그먼트들 중 가장 긴 세그먼트를 선택하는 단계를 포함한다. 결과적으로, 가장 재미있는 세그먼트, 예를 들어 모든 테니스 랠리들을 포함하는 세그먼트가 덜 재미있는 세그먼트들과 구별될 수 있다.

비주얼 특성들은 또한 복수의 연속 프레임들의 각각의 프레임의 콘텐츠를 포함할 수 있고 상기 방법은: 복수의 연속 프레임들의 각각의 프레임의 콘텐츠를 검출하고 분석하는 단계를 더 포함할 수 있다. 이는 재미있는 프레임들의 더욱 리파인(refine)된 결정을 가능하게 한다. 예를 들어, 프레임들 내에 존재하는 코트 라인들이 검출되고 분석되어 중요한 세그먼트들의 더욱 정확한 결정을 가능하게 할 수 있다. 대안으로, 공의 움직임이 검출되고 분석되어 가장 재미있는 세그먼트들을 추출할 수 있다.

하나의 실시예에 따르면, 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계는: 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해서, 미리 정의된 주파수 대역에 대한 샷의 종료 이후에 발생하는 복수의 연속 프레임들의 오디오 전력을 계산하는 단계를 포함하고; 추출된 오디오를 토대로 하여 샷들 중 적어도 하나를 선택하는 단계는: 샷들 중 적어도 하나를 선택하는 단계를 포함하고, 미리 정의된 주파수 대역에 대한 샷의 종료 이후에 발생하는 복수의 연속 프레임들의 오디오 전력은 문턱값을 초과한다.

미리 정의된 주파수 대역은 주파수 스펙트럼의 전체로서 또는 주파수 스펙트럼의 일부로서 미리 정의될 수 있다.

이 방식으로 추출된 오디오를 주파수 필터링한 결과로서, 오디오/비주얼 데이터 스트림에서의 상이한 오디오의 유형들의 영향이 더 양호하게 분석된다. 예를 들어, 저주파수 대역들은 일반적으로 오디오 전력을 전달하고, 미세하게 더 높은 주파수들을 갖는 대역들이 전형적으로 인간의 음성(예를 들어 해설자의 음성)에 대한 정보를 전달하고, 훨씬 더 높은 주파수들을 갖는 대역들은 관중에 의해 발생되는 일반적인 노이즈에 관한 정보를 전달한다.

대안의 실시예에 따르면, 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계는: 데이터 스트림의 제 1 미리 결정된 길이에 걸쳐 데이터 스트림의 오디오 전력의 제 1 이동 평균(moving average)을 계산하는 단계; 데이터 스트림의 제 2 미리 결정된 길이에 걸쳐 데이터 스트림의 오디오 전력의 제 2 이동 평균을 계산하는 단계; 데이터 스트림의 제 1 미리 결정된 길이가 데이터 스트림의 제 2 미리 결정된 길이와 상이한 경우; 제 1 이동 평균 및 제 2 이동 평균을 비교하는 단계를 포함한다.

샷들 중 적어도 하나를 선택하는 단계는: 제 1 평균 및 제 2 평균 사이의 차가 문턱값을 초과하는 각각의 샷을 선택하는 단계를 포함할 수 있다.

이 방식으로, 하이라이트 검출 알고리즘은 브로드캐스트, 이벤트, 관중, 해설자 등의 특징들과는 더욱 무관하게 된다. 예를 들어, 각각의 주파수 대역에 대한(또는 대안으로 전체 오디오 스펙트럼에 대한) 오디오 전력은 전형적으로 특정 시간의 지속기간 동안 지속하는 오디오 프레임들의 그룹을 분석하는 실행 윈도(window)를 통해 계산된다. 그러나, 오디오 전력은 흔히 브로드캐스트, 이벤트, 관중, 해설자 등의 특징들에 좌우된다. 예를 들어, 경기장이 만원인 경우, 전체 오디오 레벨 또는 전력은 경기장이 절반만 들어차는 경우보다 훨씬 더 높을 것이지만 이는 반드시 경기가 덜 재미있음을 의미하지는 않는다. 제 2 평균화 윈도는 하이라이트 검출 알고리즘이 그와 같은 특징들에 더욱 무관하도록 오디오를 정규화한다.

문턱값은 미리 결정된 문턱값일 수 있다.

데이터 스트림은 라켓 스포츠를 나타낼 수 있고 결정된 복수의 세그먼트들은 랠리에 대응할 수 있다. 이 방식으로, 이용자는 테니스 경기를 예를 들어 자신의 개인용 비디오 녹화기에 기록할 수 있다. 그리고나서 상기 디바이스는 가장 재미있는 랠리들을 제공하고 관중의 관심을 얻지 못해서 관심이 높지 않은 것으로 간주되는 것들을 스킵(skip)할 수 있다. 더욱이, 이 기술은 개별 랠리들을 통해 네비게이션(navigation)을 제공하고 상업 광고들 및 랠리들 사이의 브레이크들을 스킵하거나 실제 게임의 포인트들을 제공하고 실제 테니스 경기에 속하지 않는 녹화분의 시작 및 끝을 스킵할 수 있다.

상술한 바와 같이, 본 발명에 의해 오디오/비주얼 데이터 스트림의 가장 중요한 하이라이트들을 포함하는 요약이 생성되어 가장 중요한 하이라이트들을 검출하기 위한 정확성이 개선된다.

도 1은 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 장치의 간소화된 개략도.
도 2는 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법의 흐름도.

본 발명의 더 완전한 이해를 위해서, 이제 첨부 도면들과 함께 취해지는 다음의 설명이 참조된다.

도 1을 참조하면, 장치(100)는 오디오/비주얼 데이터 스트림을 샷 검출기(110)로 입력하기 위한 입력 단자(102)를 포함한다. 샷 검출기(110)의 출력은 결정 수단(112)에 접속된다. 결정 수단(112)의 출력은 제 1 선택기(113)의 입력에 접속된다. 제 1 선택기(113)의 출력은 추출기(114)의 입력에 접속된다. 추출기(114)의 출력은 제 2 선택기(116)의 입력에 접속된다. 제 2 선택기(116)의 출력은 제 2 선택기(116)의 입력에 접속된다. 제 2 선택기의 출력은 요약 생성기(118)의 입력에 접속된다. 요약 생성기(118)는 출력 단자(120)를 통해 텔레비전 또는 다른 디스플레이 수단과 같은 디스플레이로 요약을 출력한다.

도 1의 장치의 동작은 이제 도 2를 참조하여 상세하게 기술될 것이다. 오디오/비주얼 데이터 스트림은 입력 단자(102) 상에서 수신되고(단계 202) 샷 검출기(110)로 입력된다. 오디오/비주얼 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함한다. 오디오/비주얼 데이터 스트림은 브로드캐스트 채널로부터 수신되거나, 또는 인터넷으로부터 다운로드되어 로컬 스토리지(local storage) 상에서 입수 가능할 수 있고, 예를 들어 테니스, 배드민턴, 스쿼시, 탁구 등과 같은 라켓 스포츠를 나타낼 수 있다.

샷 검출기(110)는 오디오/비주얼 데이터 스트림의 복수의 샷들을 검출한다(단계 204). 이는 샷 검출기(110)가 오디오/비주얼 데이터 스트림의 각각의 프레임의 비주얼 특성들을 데이터 스트림의 관련된 후속 프레임의 비주얼 특성들과 비교하고 비교된 비주얼 특성들이 유사한 복수의 연속 프레임들을 포함하는 복수의 샷들을 결정함으로써 달성된다. 즉, 샷 검출기(110)는 프레임들의 비주얼 특성들을 이용하여 연속 프레임들의 비주얼 특성들 내에서의 급격한 변화들을 검출한다. 비주얼 특성들의 급격한 변화들은 예를 들어 원래의 YCbCr 컬러 공간(비디오 시스템들에서 사용되는 컬러 공간들의 군으로서, Y는 휘도 성분이고, Cb 및 Cr은 블루 및 레드 색차 성분들이다)에서의 급격한 변화들과 같은, 원래의 컬러 공간들의 히스토그램의 세트들의 급격한 변화들일 수 있다. 비주얼 특성들의 급격한 변화들은 데이터 스트림에서의 샷들 사이의 전이들에 대응한다.

샷 검출기(110)는 오디오/비주얼 데이터 스트림의 검출된 복수의 샷들을 결정 수단(112)에 출력한다.

결정 수단(112)은 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하고(단계 206), 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 데이터 스트림의 복수의 샷들을 포함하고, 복수의 샷들은 모두 연속일 필요는 없다. 즉, 결정 수단(112)은 비주얼이 유사한 샷들을 함께 클러스터(cluster)화하여 세그먼트를 형성한다. 예를 들어, 결정 수단(112)은 두 샷들의 비주얼 특성들 사이의 차가 미리 결정된 값 이하인 경우 데이터 스트림의 두 샷들을 함께 클러스터화하여 세그먼트를 형성한다.

비주얼 특성들은 예를 들어 우세 컬러, 컬러 구조, 컬러 레이아웃, 컬러 휴 히스토그램, 루마 히스토그램, 에지 히스토그램들, 평균 히스토그램 변화 및 평균 픽셀 변화 중 적어도 하나를 포함한다. 비주얼 특성들은 또한 각각의 샷들의 콘텐츠를 포함할 수 있고 결정 수단(112)은 복수의 샷들의 각각의 샷의 콘텐츠를 검출하고 분석할 수 있다. 콘텐츠는 예를 들어 프레임들 내에서 검출되는 코트 라인들, 프레임들 내에서 검출되는 테니스 볼 드롭들, 프레임들 내에서 검출되는 얼굴들 또는 임의의 다른 콘텐츠를 포함한다.

결정 수단(112)은 결정된 복수의 세그먼트들을 제 1 선택기(113)로 출력한다.

제 1 선택기(113)는 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택한다(단계 208). 예를 들어, 제 1 선택기(113)는 결정된 복수의 세그먼트들 중 가장 긴 세그먼트를 선택한다. 이 방식으로, 제 1 선택기(113)는 유사한 샷들의 가장 큰 클러스터를 선택한다. 일부 예들에서, 가장 긴 세그먼트는 더 관심이 있는 또는 더욱 중대한 것을 나타낼 수 있다. 데이터 스트림이 라켓 스포츠를 나타내는 경우, 선택된 세그먼트는 예를 들어 랠리들에 대응할 수 있는데 왜냐하면 랠리들에 대응하는 샷들은 비주얼이 매우 유사하고 또한 라켓 스포츠의 브로드캐스트에서 가장 빈번하게 발생하는 샷들이다.

제 1 선택기 수단(113)은 선택된 세그먼트를 추출기(114)에 출력한다.

추출기(114)는, 데이터 스트림의 선택된 세그먼트의 각각의 샷들에 대해서, 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출한다(단계 210). 추출기(114)는 샷들 동안 오디오를 무시한다. 즉, 추출기(114)는 선택된 세그먼트의 샷들 사이의 간격들에서 오디오 전력 특성들을 추출한다. 샷들의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출함으로써, 추출기(114)는 단지 각각의 간격의 시작 및 확장된 종료 사이에서 오디오를 추출한다. 이는 예를 들어 관중 반응에 있어서의 자연적인 지연을 캡처한다.

하나의 실시예에서, 추출기(114)는 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해서, 미리 규정된 주파수 대역에 대한 샷의 종료 이후에 발생하는 복수의 연속 프레임들의 오디오 전력을 계산함으로써 오디오를 추출한다. 미리 정의된 주파수 대역은 주파수 스펙트럼의 특정 부분으로 미리 정의될 수 있다(예를 들어 1 내지 5 kHz의 주파수 대역). 이 경우에, 추출기(114)는 다만 주파수 스펙트럼의 상기 부분에 대한 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서의 오디오를 계산한다. 이 방식으로 추출된 오디오를 주파수 필터링함으로써, 오디오/비주얼 데이터 스트림에서의 상이한 오디오의 유형들의 영향이 더 양호하게 분석된다. 예를 들어, 저주파수 대역들은 오디오 전력을 전달하고, 미세하게 더 높은 주파수들을 갖는 대역들이 전형적으로 인간의 음성(예를 들어 해설자의 음성)에 대한 정보를 전달하고, 훨씬 더 높은 주파수들을 갖는 대역들은 관중에 의해 발생되는 일반적인 노이즈에 관한 정보를 전달한다. 대안으로, 주파수 대역은 주파수 스펙트럼의 전체(즉, 모든 주파수들)로서 미리 정의될 수 있다. 이 경우에, 추출기(114)는 주파수 스펙트럼의 전체에 대한(즉, 모든 주파수들에 대한) 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서의 오디오를 계산한다. 이 계산된 오디오는 전체 오디오 전력이다.

추출기(114)는 추출된 오디오를 제 2 선택기(114)로 출력한다.

제 2 선택기(116)는 추출된 오디오를 토대로 샷들 중 적어도 하나를 선택한다(단계 212). 예를 들어, 제 2 선택기(116)는 샷들 중 적어도 하나를 선택하고, 여기서 미리 정의된 주파수 대역에 대한 샷들 중 적어도 하나의 종료 이후에 발생하는 복수의 연속 프레임들의 오디오 전력은 문턱값을 초과한다.

이 방식으로, 더욱 강력한 응답을 일으키는 샷들이 결정된다. 이 샷들은 관중 또는 해설자에게 더 흥미가 있을 가능성이 가장 크다. 문턱값은 미리 결정될 수 있고 이용자에 의해 설정되거나 더 재미있는 또는 덜 재미있는 하이라이트들을 포함하고자 원하는 레벨에 대한 이용자의 반응에 응답하여 자동으로 조정될 수 있다.

대안의 실시예에서, 추출기(114)는 데이터 스트림의 두 상이한 길이들에 걸친 오디오 전력의 두 이동 평균들을 계산함으로써 오디오를 추출한다. 즉, 추출기(114)는 데이터 스트림의 제 1 미리 결정된 길이에 걸쳐 데이터 스트림의 오디오 전력의 제 1 이동 평균을 계산하고 데이터 스트림의 제 2 미리 결정된 길이에 걸쳐 데이터 스트림의 오디오 전력의 제 2 이동 평균을 계산한다. 데이터 스트림의 제 1 미리 결정된 길이는 데이터 스트림의 제 2 미리 결정된 길이와 상이하다. 예를 들어, 추출기(114)는 데이터 스트림의 짧은 윈도(예를 들어 1초)에 대한 제 1 이동 평균 및 데이터 스트림에 대한 긴 윈도(예를 들어 20초)에 대한 제 2 이동 평균을 계산한다. 제 2 평균 윈도는 전형적으로 제 1 평균보다 더 크고(통상적으로 10배 만큼) 오디오의 "전반적인" 특성들을 캡처한다. 그러므로 추출기(114)는 예를 들어 테니스 경기의 코트에서 이벤트들에 대한 관중의 반응을 분류하기 위해 데이터 스트림의 선택된 간격들 내의 오디오 전력 특성들을 프로세스한다. 그리고나서 추출기(114)는 제 1 및 제 2 이동 평균들을 비교한다.

추출기(114)는 각각의 샷에 대한 오디오 전력의 비교된 제 1 및 제 2 이동 평균들을 제 2 선택기(116)로 출력한다.

제 2 선택기(116)는 제 1 이동 평균 및 제 2 이동 평균 사이의 차가 문턱값을 초과하는 각각의 샷을 선택한다. 즉, 제 1 윈도에 대해 계산된 오디오 전력을 제 2 윈도에 대해 계산된 오디오 전력과 비교함으로써, 선택기(116)는 일반적인 특징들을 넘어서는 오디오 전력의 임의의 급격한 상승을 검출한다. 제 1 이동 평균 및 제 2 이동 평균 사이의 차가 문턱값을 초과하는 경우, 관중의 반응은 하이라이트를 반영하는 것으로 간주된다. 다시, 문턱값은 미리 결정될 수 있고 이용자에 의해 설정되거나 더 재미있는 또는 덜 재미있는 하이라이트들을 포함하고자 원하는 레벨에 대한 이용자의 반응에 응답하여 자동으로 조정될 수 있다.

제 2 선택기(116)는 샷들 중 선택된 적어도 하나를 요약 생성기(118)로 출력한다. 요약 생성기(118)는 샷들 중 선택된 적어도 하나를 포함하는 요약을 생성하고(단계 214) 요약을 예를 들어 텔레비전 또는 임의의 다른 디스플레이 수단에 의해 디스플레이하기 위해 출력 단자(120)를 통해 출력한다.

본 발명의 실시예들이 첨부 도면들로 도시되고 상술한 상세한 설명에 기술될었을지라도, 본 발명은 개시된 실시예들로 제한되지 않고, 다음의 청구항들에 진술되는 바와 같은 본 발명의 범위를 벗어나지 않고 수많은 변형들을 수행할 수 있다.

당업자에게 명확한 바와 같이 '수단'은 임의의 하드웨어(개별 또는 집적 회로들 또는 전자 소자들과 같은) 또는 동작 시에 재생되는 소프트웨어(프로그램들 또는 프로그램들의 일부들과 같은)를 포함하는 것으로 의도되거나, 단독으로 또는 다른 기능들과 함께, 별개로 또는 다른 소자들과 협력하여 특정 기능을 재생하도록 설계된다. 본 발명은 여러 개별 요소들을 포함하는 하드웨어에 의해, 그리고 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단을 포함하는 장치 청구항에서, 여러 개의 이 수단들은 하나의 그리고 동일한 아이템의 하드웨어에 의해 구현될 수 있다. '컴퓨터 프로그램 제품'은 플로피 디스크와 같은 컴퓨터-판독 가능 매체 상에 저장되고, 인터넷과 같은 네트워크를 통해 다운로드 가능하며, 또는 임의의 다른 방식으로 시장 구입 가능한 임의의 소프트웨어 제품을 의미하는 것으로 이해되어야 한다.

102 : 입력 단자 110 : 샷 검출기
112 : 결정 수단 113 : 제 1 선택기
114 : 추출기 116 : 제 2 선택기
118 : 요약 생성기 120: 출력 단자

Claims

오디오/비주얼 데이터 스트림의 요약을 생성하는 방법으로서, 상기 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함하는, 상기 요약 생성 방법에 있어서:
오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하는 단계(204);
상기 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하는 단계로서, 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 상기 데이터 스트림의 복수의 샷들을 포함하는, 상기 결정 단계(206);
상기 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하는 단계(208);
상기 데이터 스트림의 상기 선택된 세그먼트의 각각의 샷에 대해, 상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계(210);
추출된 오디오를 토대로 상기 샷들 중 적어도 하나를 선택하는 단계(212); 및
상기 샷들 중 상기 선택된 적어도 하나를 포함하는 요약을 생성하는 단계를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 추출된 오디오를 토대로 상기 샷들 중 적어도 하나를 선택하는 단계(212)는:
상기 샷들 중 적어도 하나를 선택하는 단계를 포함하고, 상기 샷들 중 상기 적어도 하나의 종료 이후에 발생하는 복수의 연속 프레임들에서 추출되는 오디오는 미리 결정된 문턱값을 초과하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하는 단계(204)는:
상기 데이터 스트림의 각각의 프레임의 비주얼 특성들을 상기 데이터 스트림의 각각의 후속 프레임의 비주얼 특성과 비교하는 단계; 및
복수의 샷들을 검출하는 단계를 포함하고, 각각의 샷은 비교된 비주얼 특성들이 유사한 복수의 연속 프레임들을 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하는 단계(206)는:
상기 데이터 스트림의 각각의 샷의 비주얼 특성들을 비교하는 단계; 및
비교된 비주얼 특성들이 유사한 복수의 상기 샷들을 포함하는 복수의 세그먼트들을 결정하는 단계를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하는 단계(208)는:
상기 결정된 복수의 세그먼트들의 가장 긴 세그먼트를 선택하는 단계를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 비주얼 특성들은 상기 샷들의 각각의 샷의 콘텐츠를 포함하고, 상기 방법은:
상기 샷들의 각각의 샷의 콘텐츠를 검출하고 분석하는 단계를 더 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계(210)는:
상기 데이터 스트림의 선택된 세그먼트의 각각의 샷에 대해서, 미리 정의된 주파수 대역에 대한 상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들의 오디오 전력을 계산하는 단계; 및
상기 추출된 오디오를 토대로 하여 상기 샷들 중 적어도 하나를 선택하는 단계(212)는:
상기 샷들 중 적어도 하나를 선택하는 단계를 포함하고, 상기 미리 정의된 주파수 대역에 대한 상기 샷의 종료 이후에 발생하는 상기 복수의 연속 프레임들의 오디오 전력은 문턱값을 초과하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 7 항에 있어서, 상기 미리 정의된 주파수 대역은 주파수 스펙트럼의 전체로서 미리 정의되는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 7 항에 있어서, 상기 미리 정의된 주파수 대역은 주파수 스펙트럼의 일부로서 미리 정의되는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서,
상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하는 단계(210)는:
상기 데이터 스트림의 제 1 미리 결정된 길이에 걸쳐 상기 데이터 스트림의 오디오 전력의 제 1 이동 평균을 계산하는 단계;
상기 데이터 스트림의 제 2 미리 결정된 길이에 걸쳐 상기 데이터 스트림의 오디오 전력의 제 2 이동 평균을 계산하는 단계;
상기 데이터 스트림의 상기 제 1 미리 결정된 길이가 상기 데이터 스트림의 상기 제 2 미리 결정된 길이와 상이한 경우;
상기 제 1 이동 평균 및 제 2 이동 평균을 비교하는 단계를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 10 항에 있어서, 상기 샷들 중 적어도 하나를 선택하는 단계(212)는:
상기 제 1 평균 및 제 2 평균 사이의 차가 문턱값을 초과하는 각각의 샷을 선택하는 단계를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항에 있어서, 상기 데이터 스트림은 라켓 스포츠를 나타내고, 상기 선택된 세그먼트는 랠리들에 대응하는, 오디오/비주얼 데이터 스트림의 요약을 생성하는 방법.
제 1 항 내지 제 12 항 중 어느 한 항에 따른 방법을 수행하기 위한 복수의 프로그램 코드 부분들을 포함하는 컴퓨터 프로그램 제품.
오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 장치(100)로서, 상기 데이터 스트림은 오디오 및 비주얼 특성들을 갖는 복수의 연속 프레임들을 포함하는, 상기 요약 생성 장치에 있어서:
오디오/비주얼 데이터 스트림의 복수의 샷들을 검출하기 위한 샷 검출기(110);
상기 오디오/비주얼 데이터 스트림의 복수의 세그먼트들을 결정하기 위한 결정 수단으로서, 각각의 세그먼트는 유사한 비주얼 특성들을 갖는 상기 데이터 스트림의 복수의 상기 샷들을 포함하는, 상기 결정 수단(112);
상기 결정된 복수의 세그먼트들 중 하나의 세그먼트를 선택하기 위한 제 1 선택기(113);
상기 데이터 스트림의 상기 선택된 세그먼트의 각각의 샷에 대해, 상기 샷의 종료 이후에 발생하는 복수의 연속 프레임들에서 오디오를 추출하기 위한 추출기(114);
추출된 오디오를 토대로 상기 샷들 중 적어도 하나를 선택하기 위한 제 2 선택기(116); 및
상기 샷들 중 상기 선택된 적어도 하나를 포함하는 요약을 생성하기 위한 요약 생성기(118)를 포함하는, 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 장치.