KR20070118635A

KR20070118635A - 오디오 및/또는 비주얼 데이터의 서머라이제이션

Info

Publication number: KR20070118635A
Application number: KR1020077023211A
Authority: KR
Inventors: 마우로 바르비에리; 네벤카 디미트로바; 라리타 아그니호트리
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2005-03-10
Filing date: 2006-03-03
Publication date: 2007-12-17
Also published as: JP2008533580A; CN101137986A; US20080187231A1; WO2006095292A1; EP1859368A1

Abstract

객체 유형 특징들의 클러스터화에 기초한 오디오 및/또는 비주얼 데이터의 서머라이제이션이 개시된다. 비디오, 오디오 및/또는 시청각 데이터의 서머리는 데이터에 존재하는 객체들의 진짜 아이덴티티에 대한 지식을 필요로 하지 않고 제공된다. 본 발명의 일 실시예에서 영화들의 비디오 서머리들이 제공된다. 서머라이제이션은 오디오 및/또는 비주얼 데이터가 입력되는 단계, 배우의 얼굴을 찾아내는 것과 같이 데이터의 프레임에 객체를 찾아내는 단계, 프레임에서 찾아낸 객체의 유형 특징을 추출하는 단계를 포함한다. 유형 특징들의 추출은 복수의 프레임들에 대해 행해지고 유사한 유형 특징들은 개별 클러스터로 함께 그룹화되고, 각 클러스터는 상기 객체의 아이덴티티에 링크된다. 비디오 콘텐트의 처리 후에 가장 큰 클러스터가 비디오에서 가장 중요한 사람들에 대응한다.

서머라이제이션, 오디오 데이터, 비주얼 데이터, 시청각 데이터, 클러스터, 유형 특징

Description

오디오 및/또는 비주얼 데이터의 서머라이제이션{Summarization of audio and/or visual data}

본 발명은 오디오 및/또는 비주얼 데이터의 서머라이제이션(summarization)에 관한 것이고, 특히 오디오 및/또는 비주얼 데이터에 존재하는 객체에 대한 유형 특징들의 클러스터링에 기초한 오디오 및/또는 비주얼 데이터의 서머라이제이션에 관한 것이다.

오디오 및/또는 비주얼 데이터의 자동 서머라이제이션은 브라우징, 검색 및 더욱 일반적으로 콘텐트를 관리하는 것을 용이하게 하기 위한 오디오 및/또는 비주얼 데이터의 효율적인 표현을 목표로 한다. 자동으로 생성된 서머리들은 큰 데이터 아카이브들을 통해 검색 및 네비게이팅하는 예를 들어, 콘텐트를 획득, 이동, 삭제하는 등에 관해 더욱 효율적인 결정을 하도록 사용자들을 지원한다.

예를 들어, 비디오 프리뷰 및 비디오 서머리의 자동 생성은 주연 배우 및 사람들의 비디오 세그먼트를 찾아내는 것을 필요로 한다. 현재 시스템들은 비디오에 나타난 사람들을 식별하기 위해 얼굴 및 음성 인식 기술들을 사용한다.

공개 특허 출원 US 2003/0123712는 얼굴 인식 및 음성 인식 기술들을 사용함으로써 이름-얼굴/음성-역할 관계를 제공하는 방법을 개시하여 사용자가 역할-이름 등을 입력함으로써 정보를 검색할 수 있게 한다.

종래 기술의 시스템들은, 예를 들어 사람 이름과 연관된 특징들의 데이터 베이스의 형태로 비디오에 나타난 사람의 사전 지식을 요구했다. 그러나, 시스템은 각각의 얼굴 또는 음성 모델에 대한 이름 또는 역할을 찾을 수 없다. 일반 비디오(예를 들어 TV 콘텐트 및 홈 비디오 영화들)에서 데이터베이스를 생성하고 유지하는 것은 매우 비싸고 어려운 일이다. 또한, 이러한 데이터베이스는 인식 단계 동안 느린 액세스가 생기는 것을 피할 수 없다. 홈 비디오들에 대한 이러한 데이터베이스는 노후되지 않도록 모든 새로운 얼굴들이 적절히 식별되고 라벨링되어야 하는 사용자로부터 지속적이고 장황한 업데이트를 요구할 것이다.

본 발명의 발명자들은 개선된 오디오 및/또는 비주얼 데이터의 서머라이제이션이 유익하다는 것을 인식하고, 그 결과 본 발명을 고안하였다.

본 발명은 오디오 및/또는 비주얼 데이터에 누가 또는 무엇이 있는지에 대한 사전 지식 없이 동작하는 시스템을 제공함으로써 개선된 오디오 및/또는 비주얼 데이터의 서머라이제이션 방법을 제공하고자 한다. 바람직하게 본 발명은 하나 이상의 상기한 또는 다른 단점들을 단독 또는 그 조합을 경감, 완화 또는 제거한다.

따라서, 제 1 양상에서, 오디오 및/또는 비주얼 데이터의 서머라이제이션 방법에 있어서:

- 오디오 및/또는 비주얼 데이터의 세트를 입력하는 단계로서, 상기 세트의 각 요소는 오디오 및/또는 비주얼 데이터의 프레임인, 상기 입력단계;

- 상기 오디오 및/또는 비주얼 데이터 세트의 주어진 프레임에서 객체를 찾아내는 단계;

- 상기 프레임에서 찾아낸 객체의 유형 특징들을 추출하는 단계를 포함하고,

상기 유형 특징들의 추출은 복수의 프레임에 대해 행해지고, 유사한 유형 특징들은 개별 클러스터들로 함께 그룹화되고, 각 클러스터는 객체의 아이덴티티(identity)와 링크되는, 서머라이제이션 방법이 제공된다.

오디오 및/또는 비주얼 데이터는 오디오 데이터, 비주얼 데이터 및 시청각 데이터, 예를 들어, 오디오 만의 데이터가 포함되고(사운드 데이터, 음성 데이터, 등), 비주얼 만의 데이터가 포함(스트리밍된 이미지들, 이미지들, 사진들, 스틸 프레임들, 등)될 뿐 아니라 오디오 및 비주얼 데이터 둘 다를 포함한다. 프레임은 오디오 프레임 예를 들어, 사운드 프레임 또는 이미지 프레임일 수 있다.

오디오 및/또는 비주얼 데이터의 서머라이제이션은 광범위하게 해석되고 서머리의 형태를 제한하는 것으로 해석되지 않고, 본 발명의 범주 내의 임의의 적절한 형태가 생각될 수 있다.

본 발명은 개별 클러스터에 함께 그룹화된 유사한 유형 특징들의 수에 기초한 서머라이제이션이다. 유형 특징들은 객체의 아이덴티티를 반영하는 오디오 및/또는 비주얼 데이터로부터 유도될 수 있는 특징들과 같은 문제의 객체의 특징 특성들이다. 유형 특징들은 수학적 루틴에 의해 유도될 수 있다. 유형 특징들의 클러스터로 그룹화하는 것은 다른 소스들에 의존하지 않고 데이터 자체로부터 유도될 수 있는 것에만 기초하여 데이터의 세트에서 중요한 객체들의 식별 및/또는 랭킹을 용이하게 한다. 예를 들어, 비디오 서머라이제이션에 관해 본 발명은 분석된 프레임의 사람의 진짜 아이덴티티로 결정되지 않고, 상기 시스템은 유형 특징들의 클러스터들, 및 예를 들어, 데이터에서 각 객체에 대해 검출된 유형 특징들의 수와 같은 그들의 클러스터들의 크기 또는 특히 객체들이 상기 비주얼 데이터에 나타난 빈도에 따라 사람들의 상대적 중요성을 액세스하는 것을 사용한다. 이러한 접근 방식은 어떠한 사전 지식도 필요로 하지 않고(예를 들어 알려진 특징 데이터베이스로 액세스) 오디오 및/또는 비디오 데이터의 임의의 유형에 적용가능하다.

객체의 인식에 대한 데이터베이스를 참고하는 것을 피할 수 있는 데이터 서머라이제이션 방법이 제공되기 때문에 데이터에 존재하는 객체의 진짜 아이덴티티에 관한 사전 지식을 이용하지 않고 오디오 및/또는 비주얼 데이터의 서머라이제이션이 가능한 것이 장점이다. 예를 들어 이러한 데이터베이스가 존재하지 않는 경우 또는 존재하더라도, 예를 들어 일반적인 비디오(예를 들어 TV 콘텐트 또는 홈 영화들)에 대해 데이터베이스를 생성하고 유지하는 것은 매우 비싸고 어려운 일이다. 또한 데이터베이스는 인식 단계 동안 매우 느린 액세스를 겪는 것을 피할 수 없다. 홈 비디오들에 대해 이러한 데이터베이스는 모든 새로운 얼굴이 식별되고 적절히 라벨링되어야 하기 때문에 사용자로부터 계속적이고 장황한 업데이트를 요구할 것이다. 상기 방법에 관련된 또 다른 장점은 상기 방법이 객체들의 통계적 샘플링에 의존하기 때문에 객체의 잘못된 인식에 강하다는 것이다.

청구항 2 항에 규정된 바와 같은 선택적인 특징들은, 오디오 및/또는 비주얼 데이터의 세트를 가짐으로써 데이터 스트림의 형태이고, 존재하는 오디오 및/또는 비주얼 시스템들은 CD-플레이어들, DVD-플레이어들 등과 같은 대부분의 가전제품의 데이터 포맷이 스트리밍된 데이터의 형태이기 때문에, 본 발명의 기능성들을 제공하도록 쉽게 적응된다는 장점을 갖는다.

청구항 3 항에 규정된 선택적인 특징들은, 다수의 객체 검출 방법들이 존재하고, 따라서 객체 검출부가 잘 제어되어 강인한 서머라이제이션 방법을 제공한다는 장점을 갖는다.

청구항 4항에 규정된 선택적인 특징들은, 얼굴 특징들에 기초한 비주얼 데이터의 서머라이제이션이 영화에서 중요한 사람을 찾아내거나 사진에서 사람을 찾아내는 방법을 용이하게 하기 때문에, 얼굴 특징들에 기초한 서머라이제이션 방법을 제공함으로써 다목적의 서머라이제이션 방법이 제공된다는 장점을 갖는다.

청구항 5항에 규정된 선택적인 특징들은, 오디오 데이터 자체의 서머라이제이션 뿐 아니라 사운드 특징들, 전형적으로 음성 특징들에 기초한 비디오 서머라이제이션이 용이하게 되기 때문에 사운드에 기초한 서머라이제이션 방법을 제공함으로써 다목적의 서머라이제이션 방법이 제공된다는 장점을 갖는다.

청구항 4 항 및 5 항의 두 특징들을 제공함으로써, 얼굴 검출 및/또는 음성 검출에 기초한 서머라이제이션 방법과 같은, 오디오 및 비주얼 데이터의 임의의 조합에 기초한 서머라이제이션을 지원하는 복잡한 서머라이제이션 방법이 가능하게 되기 때문에, 더 많은 다목적 서머라이제이션 방법이 제공될 수 있다.

청구항 6 항에 규정된 선택적인 특징들은, 서머리 유형과 같이 사용자에게 나타내기에 적절한 무한의 데이터 구조들이 특정 사용자 그룹들 또는 사용자들의 요구 및 필요로 적응되고 제공된다는 장점을 갖는다.

청구항 7 항에 규정된 선택적인 특징들은, 개별 클러스터의 유형 특징들의 수는 전형적으로 문제의 객체의 중요도와 상관되고, 따라서 이러한 정보를 사용자에게 운반하는 직접적인 수단이 제공된다는 장점을 갖는다.

청구항 8 항에 규정된 선택적인 특징들은, 객체를 클러스터화하는 동작들이 사전에 알려진 데이터에 독립적이지만, 데이터의 더욱 완전한 서머리를 제공하도록 사전 지식이 여전히 클러스터 데이터와 조합되어 사용될 수 있다는 장점을 갖는다.

청구항 9항에 규정된 선택적인 특징들은, 더 빠른 루틴이 제공된다는 장점을 갖는다.

청구항 10 항에 규정된 선택적인 특징들은, 시청각 데이터 내의 오디오 및 비주얼 데이터가 직접적으로 상관될 필요는 없기 때문에, 오디오 및 비주얼 데이터를 개별적으로 그룹화함으로써 더 많은 다목적 방법이 제공될 수 있고, 따라서 동작이 오디오 및 비주얼 데이터의 임의의 특정 상관에 독립적인 방법이 제공된다는 장점을 갖는다.

청구항 11 항에 규정된 선택적인 특징들은, 오디오 및 비주얼 데이터의 객체들 사이에 포지티브 상관이 발견되는 경우를 생각할 수 있고, 더 상세한 서머리를 제공하도록 하는 장점을 갖는다.

본 발명의 제 2 양상에 따라, 오디오 및/또는 비주얼 데이터의 서머라이제이션 시스템으로서:

- 오디오 및/또는 비주얼 데이터의 세트를 입력하기 위한 입력부로서, 상기 세트의 각 요소는 오디오 및/또는 비주얼 데이터의 프레임인, 상기 입력부;

- 상기 오디오 및/또는 비주얼 데이터 세트의 주어진 프레임에서 객체를 찾아내기 위한 객체 탐지부;

- 상기 프레임에서 상기 찾아낸 객체의 유형 특징들을 추출하기 위한 추출부를 포함하고,

상기 유형 특징 추출은 복수의 프레임에 대해 행해지고, 유사한 유형 특징들은 개별 클러스터들로 함께 그룹화되고, 각 클러스터는 상기 객체의 아이덴티티와 링크되는, 서머라이제이션 시스템이 제공된다.

상기 시스템은 입력부가 예를 들어 다른 오디오 및/또는 비주얼 장치의 출력부에 결합될 수 있는 가전제품의 독립된 박스 유형이어서 본 발명의 기능성이 이 기능성을 지원하지 않는 장치에 제공될 수 있다. 대안적으로 상기 시스템은 존재하는 장치에 본 발명의 기능성을 부가하기 위한 주변 기기 모듈일 수 있다. 존재하는 DVD-플레이어들, BD-플레이어들 등에 상기 기능성의 부가이다. 장치들은 기능성을 타고나고, 따라서 본 발명은 본 발명의 기능성이 제공된 CD-플레이어, DVD-플레이어, BD-플레이어 등과 또한 관련된다. 객체 탐지부 및 추출부는 전자회로, 소프트웨어, 하드웨어, 펌웨어 또는 이러한 기능성을 구현하는 임의의 적절한 방식으로 구현될 수 있다. 상기 구현은 범용 계산 수단을 이용해 행해질 수 있고 또는 시스템의 부분 또는 액세스를 얻는 시스템의 부분과 같이 존재하는 전용수단을 이용해 행해질 수 있다.

본 발명의 제 3 양상에 따라, 본 발명의 제 1 양상에 따른 방법을 구현하기 위한 컴퓨터 판독 가능 코드가 제공된다. 상기 컴퓨터 판독 가능 코드는 본 발명의 제 2 양상에 따른 시스템을 제어하는 것과 관련하여 또한 사용된다. 일반적으로 본 발명의 다양한 양상들이 본 발명의 범위 내에서 가능한 방법으로 조합되거나 결합될 수 있다.

이들 및 다른 본 발명의 양상들, 특징들 및/또는 이점들은 이하 설명될 실시예를 참고로 명백해 질 것이다.

본 발명의 실시예들이 단지 예를 위해 도면들을 참조로 설명된다.

도 1은 본 발명의 실시예의 흐름도를 개략적으로 도시한 도면.

도 2는 그룹화된 클러스터들을 비디오 서머리/서머리들로 변환하는 두 개의 실시예를 개략적으로 도시하는 도면.

도 3은 사진 콜렉션의 서머라이제이션을 개략적으로 도시하는 도면.

본 발명의 실시예가 비디오 콘텐트에서 주연 배우들(main/lead actors) 및 캐릭터들을 나타내는 세그먼트를 찾아내는 비디오 서머라이제이션 시스템에 관해 설명된다. 이 실시예의 요소들은 도 1 및 도 2에 개략적으로 도시된다. 그러나 객체 검출은 얼굴 검출에 한정되지 않고, 음성, 사운드, 차량, 전화기, 만화 캐릭터 등과 같은 객체의 임의의 유형이 검출될 수 있고, 서머리가 이러한 객체들에 기초할 수 있다.

제 1 스테이지 I, 즉 입력 단계에서 비주얼 데이터의 세트가 입력된다(10). 상기 비주얼 데이터의 세트는 영화로부터의 비디오 프레임들의 스트림일 수 있다. 비디오 스트림의 주어진 프레임(1)은 얼굴 검출기(D)에 의해 분석될 수 있다. 상기 얼굴 검출기는 프레임에서 객체(2)를, 이 경우 얼굴을 찾아낸다. 상기 얼굴 검출기는 상기 찾아낸 얼굴을 유형 특징들(3)을 추출하기 위한 얼굴 특징 추출기(E)에 제공할 것이다. 상기 유형 특징들은 당 기술 분야에 공지된 벡터 양자화 히스토그램에 의해 예시된다(2002년 9월, Kotani 등의 "Face Recognition Using Vector Quantization Histogram Method" Proc. of IEEE ICIP, pp. 105-108 참조). 이러한 히스토그램은 높은 확실성으로 얼굴을 유일하게 특징지운다(characterize). 따라서 주어진 얼굴(객체)의 유형 특징들은 얼굴의 진짜 아이덴티티를 아는지에 관계없이 제공될 수 있다. 이러한 단계는 얼굴에 숫자 아이덴티티(예를 들어 face#1)를 부여할 수 있다(또는 일반적으로 face#i, i는 라벨 숫자). 상기 얼굴의 유형 특징들은 유형 특징들이 유형 특징들의 유사성에 따라 함께 그룹화되는(4) 클러스터화 단계(C)로 제공된다. 유사한 유형 특징들이 앞선 프레임에서 이미 발견되었으면, 즉, 유사한 벡터 양자화 히스토그램이 앞선 프레임에서 이미 발견된 경우, 상기 특징들은 이 그룹(6-8)과 연관되고, 상기 유형 특징들이 새로운 경우, 새로운 그룹이 생성된다. 클러스터화를 위해, k-means, GLA(Generalized-Lloyd Algorithm) 또는 SOM(Self Organizing Maps)와 같은 공지된 알고리즘이 사용될 수 있다. 그룹의 객체의 아이덴티티는 상기 그룹의 특정 객체에 링크될 수 있고, 예를 들어 이미지들의 그룹은 이미지들 중 하나에 링크되거나 사운드들의 그룹은 사운드들 중 하나에 링크될 수 있다.

필름에서 누가 가장 중요한 사람인지 간파하기 위해 충분한 량의 데이터를 얻기위해, 복수의 프레임들이 유형 특징들의 추출에 대해 분석될 때까지, 예를 들어 객체들의 충분한 양이 함께 그룹화될 때까지 새로운 프레임이 분석되어(5), 비디오 콘텐트의 처리 후 가장 큰 클러스터들이 비디오의 가장 중요한 사람들에 대응한다. 필요한 프레임들의 특정 량은 다른 요소들에 의존할 수 있고 시스템의 파라미터, 예를 들어 분석될 프레임들의 수를 결정하도록 사용자 또는 시스템 조정가능한(예를 들어, 분석의 완전성과 분석에 소요된 시간 사이의 교환에서) 파라미터일 수 있다. 상기 파라미터는 오디오 및/또는 비주얼 데이터, 또는 다른 요소들에 의존할 수 있다.

영화의 모든 프레임들은 분석되지만, 가장 많은 얼굴들을 갖고 또한 일관되게 가장 큰 사이즈를 갖는 클러스터(잠재적으로 주연 배우 클러스터)를 찾기 위해 영화로부터 프레임들의 서브세트만을 분석할 필요 또는 요구가 있을 수 있다. 통상, 주연 배우는 많은 상영 시간이 주어지고 영화 지속기간 내내 등장한다. 단지 한 프레임만이 매 분마다(every minute) 분석되더라도 주연 배우가 영화에 대해 선택된 프레임들의 수(2시간 영화에 대해 120)로부터 다수의 프레임들에 존재할 수 있는 기회는 굉장하다. 또한, 그들이 영화에서 중요하기 때문에, 영화에서 중요한 장면들의 몇몇 포켓들만 갖는 다른 조연 배우들에 비해 훨씬 많이 클로징 업 샷에서 보여진다. 벡터 양자화 히스토그램 방법과 같은 유력한 방법 또는 고유한 유형 특징들이 높은 확실성으로 얼굴에 할당되는 다른 방법들에 대해, 모든 사건들을 고려하지 않으면 결정적이지 않으므로, 충분한 프레임들이 통계적으로 충분한 수의 진짜 검출들을 얻기 위해 분석되어, 영화 속에서 중요한 사람들이 여전히 발견되기 때문에 같은 주장이 얼굴의 잘못된 검출에 관해 방법의 견고성에 적용된다.

그룹화된 클러스터들은 서머리 생성기(S)에서 사용자에게 프리젠테이션되기에 적절한 데이터 구조로 변환될 수 있다. 무한한 가능성들이 그룹화된 클러스터들의 정보 변환을 위해 존재하고, 이러한 정보는 그룹들의 수, 그룹 내의 유형 특징들의 수, 그룹과 연관된 얼굴(또는 객체) 등을 포함하지만 이에 한정되는 것은 아니다.

도 2는 그룹화된 클러스터들(22)을 사용자에게 프리젠테이션되기에 적절한 데이터 구조로 변환하는, 즉 그룹화된 클러스터들을 서머리(25) 또는 서머리들의 구조(26)로 변환하는 두 개의 실시예를 도시한다.

서머리 생성기(S)는 예를 들어, 생성될 서머리의 유형을 지시하는 룰들 및 설정들과 같은 다수의 룰들 및 설정들(20)을 참조할 수 있다. 상기 룰들은 비디오 데이터를 선택하기 위한 알고리즘일 수 있고, 상기 설정들은 서머리의 길이, 고려할 클러스터의 수와 같은 사용자 설정들을 포함할 수 있고, 예를 들어 단지 3개의 가장 중요한 클러스터들(여기 도시된 바와 같이), 5개의 가장 중요한 클러스터로 고려한다.

단일 비디오 서머리(21)가 생성될 수 있다. 사용자는 예를 들어, 서머리의 길이를 설정하고 상기 서머리는 상기 3 개의 가장 중요한 배우들을 포함할 수 있다. 그 후 룰들은 서머리의 1/2이 가장 중요한 유형 특징들을 포함하는 클러스터와 연관된 배우 및 상기 배우와 관련된 비디오 시퀀스들을 선택하는 방법을 포함할 수 있고, 상기 서머리의 1/4은 두번째로 중요한 유형 특징들을 포함하는 클러스터와 연관된 배우를 포함할 수 있고, 나머지 1/4은 세번째로 중요한 유형 특징들을 포함하는 클러스터와 연관된 배우를 포함할 수 있다.

영화의 가장 중요한 배우들의 리스트(23)를 도시하는 비디오 서머리 구조가 생성될 수 있고, 상기 리스트는 상기 클러스터들의 유형 특징들의 수에 따라 순서 매겨진다(ordered). 사용자 설정은 상기 리스트에 포함될 배우들의 수를 결정한다. 상기 리스트의 각 아이템은 상기 배우의 얼굴의 이미지(23)와 연관될 수 있다. 상기 리스트로부터 아이템을 선택함으로써, 사용자는 문제의 배우가 나타나는 장면만을 또는 주요 장면을 포함하는 서머리(24)를 볼 수 있다.

다른 실시예에서는 오디오 트랙이 또한 고려된다. 상기 오디오 신호는 언어/비-언어로 자동으로 분류될 수 있다. 상기 언어 세그먼트들로부터 MPCC(Mel-Frequency Cepstral Coefficients)와 같은 음성 특징들이 추출되고 표준 클러스터화 기술들(예를 들어, k-means, SOM 등)로 클러스터화된다.

오디오 객체들은 함께 비주얼 객체들 또는 개별적으로 객체들로부터, 예를 들어 사운드 서머리들과 관련하여 고려될 수 있다.

얼굴 특징들 및 음성 특징들이 함께 예컨대 서머리에 둘 다 포함되도록 고려되는 경우, 상기 클러스터화는 개별적으로 행해진다. 얼굴 특징들과 음성 특징들의 단순한 링크는 얼굴이 비디오에 보여지는 사람에게 대응하는 오디오 트랙의 음성을 보장하지 않기 때문에 동작하지 않는다. 또한 더 많은 얼굴이 비디오 프레임에 보여지고 단지 한 사람만 말할 수도 있다. 대안적으로, 비디오와 오디오 특징들을 링 크하기 위해 얼굴-언어 매칭이 누가 말하는지 찾아내기 위해 사용될 수 있다. 서머라이제이션 시스템은 메인 얼굴 및 음성 클러스터들에 각각 속하는 얼굴 및 음성 특징들로 세그먼트를 선택한다. 세그먼트 선택 알고리즘은 전체 얼굴/음성 존재에 기초한 각 클러스터 내에 세그먼트들을 우선시킨다.

또 다른 실시예에서 사전에 알려진 정보가 분석에 포함된다. 유형의 아이덴티티는 알려진 객체들의 데이터베이스(DB)와 상관될 수 있고, 상기 클러스터의 아이덴티티와 상기 알려진 객체 사이에 매칭이 발견되면 알려진 객체의 아이덴티티는 상기 서머리에 포함될 것이다.

예를 들어, 영화의 스크립트/스크린플레이로부터 다이얼로그의 분석이 부가될 수 있다. 주어진 영화 제목에 대해, 상기 시스템은 인터넷 서치(W)를 수행하고 스크린플레이(SP)를 찾는다. 스크린플레이로부터 관련 다이얼로그 길이 및 랭킹 순으로 캐릭터가 계산된다. 스크린플레이-오디오 정렬에 기초하여 오디오(스피커) 클러스터들 각각에 대한 라벨이 얻어진다. 주연 배우 선택은 랭크된 리스트:오디오 기반 및 스크린플레이 기반 모두로부터 정보를 조합하는 것에 기초할 수 있다. 이는 영화 자체에 없지만 나레이터들이 스크린 시간을 점유하는 영화들에 유용하다.

또 다른 실시예에서 본 발명은 사진 콜렉션들의 서머라이제이션에 적용될 수 있고(예를 들어, 사진 슬라이드쇼의 브라우징 또는 자동 생성을 위해 사진 콜렉션의 대표 서브세트의 선택), 도 3에 개략적으로 도시된다. 많은 디지털 카메라 사용자들이 이미지가 찍힌 순서대로 저장된 방대한 양의 사진들(30)을 만들 수 있다. 본 발명은 이러한 콜렉션들의 관리를 용이하게 하도록 사용될 수 있다. 서머리는 예를 들어, 사진에 보여지는 사람이 누구인지에 기초하여 생성될 수 있고, 데이터 구조(31)는 예를 들어, 각 아이템이 어디서 사진 속의 사람에 대응하는지를 사용자에게 제공한다. 아이템을 선택함으로써, 이 사람의 모든 사진들이 보여질 수 있고, 상기 사진들의 선택의 슬라이드 쇼가 제공될 수 있다.

또한, 본 발명은 개인 비디오 레코더(personal video recorder), 비디오 아카이브들(video archives), (자동)비디오 편집 시스템들, 및 주문형 비디오 시스템들, 디지털 비디오 라이브러리들을 위한 비디오 서머라이제이션 시스템들에 적용될 수 있다.

본 발명이 양호한 실시예들과 관련하여 설명되었지만, 본 원에 언급된 특정 형태로 제한되는 것은 아니다. 오히려, 본 발명의 범위는 첨부된 청구항에 의해서만 제한된다.

본 단락에서, 특정 사용자들, 객체의 유형들, 서머리들의 형태 등과 같은 개시된 실시예의 특정 상세들이 제한이 아닌 예시의 목적으로 언급되었으며, 명확하고 본 발명의 완전한 이해를 제공한다. 그러나, 당업자는 본 발명이 본 원의 정신 및 범위를 크게 벗어나지 않고, 본 원에 언급된 상세들을 정확하게 따르지 않는 다른 실시예들이 실행될 수 있다는 것을 이해할 것이다. 또한, 본 원에서 간결성과 명확성을 위해 알려진 장치들의 상세한 설명, 회로들 및 방법론들은 불필요한 상세와 가능한 혼란을 피하기 위해 생략되었다.

참조 기호들이 청구항에 포함되었지만, 상기 참조 기호들의 포함은 명확성을 위함이고 본 청구항들의 범위를 제한하는 것으로 해석되지 않는다.

Claims

오디오 및/또는 비주얼 데이터의 서머라이제이션(summarization) 방법에 있어서:

- 오디오 및/또는 비주얼 데이터의 세트를 입력하는 단계(10)로서, 상기 세트의 각 요소는 오디오 및/또는 비주얼 데이터의 프레임(1)인, 상기 입력단계;

- 상기 오디오 및/또는 비주얼 데이터 세트의 주어진 프레임에서 객체(2)를 찾아내는 단계(D);

- 상기 프레임에서 찾아낸 객체의 유형 특징들(3)을 추출하는 단계(E)를 포함하고,

상기 유형 특징들의 추출은 복수의 프레임에 대해 행해지고, 유사한 유형 특징들은 개별 클러스터들(6-8)로 함께 그룹화되고(4), 각 클러스터는 객체의 아이덴티티(identity)와 링크되는, 서머라이제이션 방법.
제 1 항에 있어서,

상기 오디오 및/또는 비주얼 데이터의 세트는 오디오 및/또는 비주얼 데이터의 스트림인, 서머라이제이션 방법.
제 1 항에 있어서,

상기 데이터는 비주얼 데이터의 세트이고, 프레임 내의 상기 객체(1)는 그래 픽 객체이고 상기 유형을 찾아내는 단계(D)는 객체 탐지기에 의해 행해지는, 서머라이제이션 방법.
제 3 항에 있어서,

프레임 내의 상기 객체는 사람의 얼굴(2)이고 상기 객체를 찾아내는 단계(D)는 얼굴 탐지기에 의해 행해지는, 서머라이제이션 방법.
제 1 항에 있어서,

상기 데이터는 오디오 데이터의 세트이고, 상기 프레임은 오디오 프레임이고 상기 객체를 찾아내는 단계는 사운드 탐지기에 의해 행해지는, 서머라이제이션 방법.
제 1 항에 있어서,

상기 그룹화된 클러스터들(22)은 사용자에게 프리젠테이션되기에 적합한 데이터 구조(25, 26)로 변환되는(20), 서머라이제이션 방법.
제 6 항에 있어서,

상기 데이터 구조는 상기 개별 클러스터 내의 유형 특징들의 수를 반영하는, 서머라이제이션 방법.
제 6 항에 있어서,

상기 유형의 아이덴티티는 알려진 객체의 데이터베이스(DB)에 상관되고, 상기 유형의 아이덴티티와 알려진 객체의 아이덴티티 사이에 매칭이 발견되면, 상기 알려진 객체의 아이덴티티가 상기 데이터 구조에서 반영되는, 서머라이제이션 방법.
제 2 항에 있어서,

상기 복수의 프레임들은 상기 오디오 및/또는 비주얼 데이터의 스트림의 서브세트인, 서머라이제이션 방법.
제 2 항에 있어서,

상기 오디오 및/또는 비주얼 데이터의 스트림은 비주얼 및 오디오 데이터 모두를 포함하는 시청각 데이터이고, 상기 비주얼 및 오디오 데이터는 개별적으로 클러스터화되어, 비주얼 유형 특징들은 개별 비주얼 클러스터들로 함께 그룹화되고 오디오 유형 특징들은 개별 오디오 클러스터들로 함께 그룹화되는, 서머라이제이션 방법.
제 10 항에 있어서,

상기 비주얼 클러스터들의 아이덴티티는 상기 오디오 클러스터들의 아이덴티티에 상관되고, 상기 비주얼 및 오디오 클러스터의 아이덴티티 사이에 포지티브 상 관이 발견되면, 상기 비주얼 및 오디오 클러스터들이 서로 링크되는, 서머라이제이션 방법.
오디오 및/또는 비주얼 데이터의 서머라이제이션 시스템으로서:

- 오디오 및/또는 비주얼 데이터의 세트를 입력하기 위한 입력부(I)로서, 상기 세트의 각 요소는 오디오 및/또는 비주얼 데이터의 프레임인, 상기 입력부;

- 상기 오디오 및/또는 비주얼 데이터 세트의 주어진 프레임(1)에서 객체(2)를 찾아내기 위한 객체 탐지부(D);

- 상기 프레임에서 상기 찾아낸 객체의 유형 특징들(3)을 추출하기 위한 추출부(E)를 포함하고,

상기 유형 특징 추출은 복수의 프레임에 대해 행해지고, 유사한 유형 특징들은 개별 클러스터들(6-8)로 함께 그룹화되고(4), 각 클러스터는 상기 객체의 아이덴티티와 링크되는, 서머라이제이션 시스템.
컴퓨터 판독가능 코드로서 제 1 항의 상기 방법을 구현하기 위한, 컴퓨터 판독가능 코드.
오디오 및/또는 비주얼 데이터의 서머라이제이션을 위한 오디오 및/또는 비주얼 데이터의 객체의 유형 특징들의 클러스터화의 이용.