KR20040004354A

KR20040004354A - 멀티미디어 프리젠테이션들의 자동 콘텐트 분석 및리프리젠테이션

Info

Publication number: KR20040004354A
Application number: KR10-2003-7000014A
Authority: KR
Inventors: 라두 에스. 자신스치; 네벤카 디미트로바
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-05-01
Filing date: 2002-04-23
Publication date: 2004-01-13
Also published as: CN1284106C; KR100922390B1; US20020164151A1; EP1428147A2; WO2002089008A3; US7046914B2; JP2004533756A; CN1524237A; WO2002089008A2

Abstract

멀티미디어 신호들의 콘텐트를 분석할 수 있는 멀티미디어 분석 시스템을 이용하기 위한, 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블을 만들기 위한 장치 및 방법이 개시되어 있다. 하나의 유리한 실시예에서, 본 발명의 장치는 비디오퍼레이팅된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 수신할 수 있고, 비디오테이핑된 자료의 콘텐트들의 테이블을 만들도록 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 결합할 수 있는 멀티미디어 콘텐트들의 테이블 제어기를 포함한다. 제어기는 거친 및 미세 세그먼테이션 어플리케이션 둘 다로 비디오 신호들을 세그먼팅할 수 있다. 제어기는 또한 거친 및 미세 경계 검출 어플리케이션 둘 다로 비디오테이핑된 자료의 성분들의 경계들을 로케이팅할 수 있다. 제어기의 인덱스 모듈은 오디오, 비주얼, 및 트랜스크립트 큐들의 결합들과 콘텐트들의 테이블의 성분들을 링크한다. 검색 모듈은 이용자 요청에 응답으로 콘텐트들의 테이블을 검색하여 디스플레이한다.

Description

멀티미디어 프리젠테이션들의 자동 콘텐트 분석 및 리프리젠테이션 {Automatic content analysis and representation of multimedia presentations}

넓고 다양한 비디오 레코더들이 시장에서 이용 가능하다. 대부분의 사람들은 또한 비디오 테이프 레코더(video tape recorder : VTR)로 불리는, 비디오 카세트 레코더(video cassette recorder : VCR)를 소유하거나, 또는 그것에 익숙하다. 비디오 카세트 레코더는 자기의 카세트 테이프들 상에 비디오 프로그램들을 기록한다. 최근에, 비디오 프로그램들을 저장하도록 자기의 카세트 테이프들보다는 컴퓨터 자기의 하드 디스크들을 이용하는 비디오 레코더들이 시장에 나타난다. 예를 들어, 리플레이 TV™레코더 및 TiVO™레코더는 디지털적으로, 예를 들어 MPEG 비디오 압축 표준을 이용하여 하드 디스크 드라이브들 상에 텔레비전 프로그램들을 기록한다. 부가적으로, 일부 비디오 레코더들은 자기의 디스크보다는 판독가능/기록 가능한, 디지털 다기능 디스크(digital versatile disk : DVD) 상에 기록할 수 있다.

비디오 레코더들의 광범위한 이용은 대량의 비디오테이핑된 자료들을 생성하였고, 계속하여 생성하고 있다. 비디오 레코더는 비디오 신호들과 오디오 신호들 둘 다를 캡춰하기 때문에, 비디오테이핑된 자료들은 멀티미디어 자료들이다. 자동 컴퓨터화된 시스템들 및 방법들의 다수의 다른 유형들은 비디오테이핑된 멀티미디어 자료들을 검출, 인덱싱, 및 검색하기 위해 개발되었다.

비디오테이핑된 멀티미디어 자료들을 분석하기 위해 존재하는 자동 컴퓨터화된 시스템들 및 방법들은 일반적으로 이용자에 의해 식별된 토픽들을 포함하는 비디오 프로그램의 세그먼트들을 식별할 수 있다. 원하는 세그먼트들은 보통 이용자가 이 시스템에 제공하는 검색 키워드들에 기초되어 식별된다.

비디오테이핑된 멀티미디어 자료들의 부분들을 식별하여 선택하도록 이용자들을 허용하는 자동 컴퓨터화된 멀티미디어 검색 시스템은 보통 3 가지 요구들을 충족한다. 첫 번째로, 시스템 및 방법은 보통 비디오 신호를 그것의 비디오, 오디오, 및 텍스트 구성요소들로 파싱(parsing)하기 위해 이용 가능하다. 두 번째로, 시스템 및 방법은 보통 이용자 입력 기준에 관련하여 비디오테이핑된 멀티미디어 신호의 비디오, 오디오, 및 텍스트 구성요소들의 콘텐트를 분석하고 콘텐트에 기초되어 구성요소들을 세그먼팅에 이용가능하다. 세 번째로, 시스템 및 방법은 보통 이용자의 검색 기준을 매칭하는 프로그램 세그먼트들을 통합하여 저장하기에 이용 가능하다.

이런 요구들을 충족하는 시스템은 발명의 명칭이 " 유한 자동적 비디오 파서를 포함하는 스토리 세그먼테이션 능력을 가진 멀티미디어 컴퓨터 시스템과 그를 위한 0오퍼레이팅 프로그램(Multimedia Computer System with Story Segmentation Capability and Operating Program Therefor Including Finite Automation Video Parser)"인, Dimitrova 등. 에 의해 1998년 1월 13일에 출원된 미국특허 출원번호 09/006,657에 개시된다. 미국특허 출원번호 09/006, 657은 이로서 여기에 충분히 설명하는 것처럼 모든 목적들을 위해 이 문서 내에 참조로서 여기에 통합된다.

시스템 및 방법을 설명하는 미국특허 출원번호 09/006,657은 심벌들의 시퀀스를 승인하기 위한 모델들의 세트, 원하는 선택 기준을 식별하는 모델을 매칭 모델, 및 이 선택 기준에 기초되어 하나 이상의 비디오 스토리 세그먼트들 또는 시퀀스들을 검색 및 선택하기 위한 방법(methodology)을 제공한다.

이러한 요구들을 충족하는 또다른 시스템은 발명의 명칭이 "오디오/데이터/비주얼 정보 선택을 위한 장치 및 방법(Method and Apparatus for Audio/Data/Visual Information Selection)"인, Dimitrova 등. 에 의해 1999년 11월 18일에 출원된 미국특허 출원번호 09/442,960에 개시된다. 미국특허 출원번호 09/442,960은 이로서 여기에 충분히 설명한 것처럼 모든 목적들을 위해 이 문서 내에 참조로서 여기에 통합된다.

비디오테이핑된 멀티미디어 프리젠테이션들의 콘텐트를 자동적으로 분석하기 위한 개선된 시스템 및 방법에 대한 요구가 있다. 특히, 비디오테이핑된 멀티미디어 프리젠테이션의 콘텐트들의 테이블을 만들기 위해 개선된 시스템 및 방법에 대한 요구가 있다.

본 발명은 발명의 명칭이 " 유한 자동적 비디오 파서를 포함하는 스토리 세그먼테이션 능력을 가진 멀티미디어 컴퓨터 시스템과 그를 위한 오퍼레이팅 프로그램(Multimedia Computer System with Story Segmentation Capability and Operating Program Therefor Including Finite Automation Video Parser)"인, N. Dimitrova 등. 에 의해 1998년 1월 13일에 출원된 미국특허 출원번호 09/006,657에 개시된 이 발명에 관련되고, 발명의 명칭이 "오디오/데이터/비주얼 정보 선택을 위한 장치 및 방법(Method and Apparatus for Audio/Data/Visual Information Selection)"인, N. Dimitrova 등. 에 의해 1999년 11월 18일에 출원된 미국특허 출원번호 09/442,960에 개시된 이 발명에 관련되며, 발명의 명칭이 "멀티미디어 세그먼테이션 및 인덱싱을 위한 정보 처리 기반 콘텐트 및 콘텍스트(Context and Content Based Information Processing for Multimedia Segmentation and Indexing)"인, R. Jasinschi 에 의해 2001년 3월 9일에 출원된 미국특허 출원번호[개시 번호 701168]에 개시된 이 발명에 관련된다. 이 관련된 특허 출원서들은 공통적으로 본 발명의 양수인에 양도된다. 이 관련된 특허 출원서들의 개시물들은 여기에서 충분히 설명하는 것처럼 본 특허 출원서에 참조로서 여기에 통합된다.

본 발명은 일반적으로 멀티미디어 프리젠테이션들의 자동적인 콘텐트 분석에 관한 것이고, 특히, 비디오테이핑된(videotaped) 멀티미디어 프리젠테이션들에 대한 인덱스 및 콘텐트들의 테이블을 만드는 방법 및 시스템에 관한 것이다.

본 발명의 더 완성된 이해, 그리고 그것의 이점들을 위해, 여기서 첨부된 도면들에 관련하여 취해지는 다음 설명들이 참조되고, 같은 번호들은 같은 대상들을 가리킨다.

도 1은 본 발명의 유리한 실시예를 포함하는 예시적인 멀티미디어 분석 시스템을 도시한 블록다이어그램.

도 2는 본 발명의 유리한 실시예에서 이용될 수 있는 것을 도시한 컴퓨터 소프트웨어.

도 3은 비디오테이핑된 멀티미디어 프리젠테이션의 콘텐트들의 테이블을 만들기 위해 본 발명의 방법의 유리한 실시예를 도시한 순서도.

도 4는 본 발명의 유리한 실시예에 의해 만들어질 수 있는 멀티미디어 콘텐트들의 테이블의 하나의 예시적인 실시예를 도시한 도면.

도 5는 비디오테이핑된 멀티미디어 프리젠테이션의 멀티미디어 인덱스를 만들기 위해 본 발명의 방법의 유리한 실시예를 도시한 순서도.

도 6은 본 발명의 유리한 실시예에 의해 만들어질 수 있는 멀티미디어 인덱스의 하나의 예시적인 실시예를 도시한 도면.

비디오테이핑된 멀티미디어 프리젠테이션들의 콘텐트를 자동적으로 분석하기 위해 개선된 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.

또한 비디오테이핑된 멀티미디어 프리젠테이션들의 콘텐트들의 테이블을 만들기 위해 개선된 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.

하나의 유리한 실시예에서, 본 발명의 장치는 비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 수신할 수 있는 멀티미디어 콘텐트들의 테이블 제어기를 포함한다. 멀티미디어 콘텐트들의 테이블 제어기는 비디오테이핑된 자료의 콘텐트들의 테이블을 만들도록 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합한다. 멀티미디어 콘텐트들의 테이블 제어기는 거친(coarse) 세그먼테이션 처리에서 비디오 신호들을 첫 번째로 세그먼팅하고 그 후 미세 세그먼테이션 처리에서 비디오 신호들을 세그먼팅한다.

멀티미디어 콘텐트들의 테이블 제어기는 또한 비디오테이핑된 자료의 구성요소들의 경계들을 로케이팅할 수 있다. 멀티미디어 콘텐트들의 테이블 제어기는 첫 번째로 거친 경계 검출 처리를 이용하고 그 후 미세 경계 검출 처리를 이용한다. 멀티미디어 콘텐트들의 테이블 제어기는 오디오, 비주얼, 및 트랜스크립트 큐들(transcript cues)의 결합들과 콘텐트들의 멀티미디어 테이블의 구성요소들을 링크하는 인덱스 모듈을 포함한다. 멀티미디어 콘텐트들의 테이블 제어기는 또한 이용자 요청에 응답하여 콘텐트들의 테이블을 검색하여 디스플레이하는 검색 모듈을 포함한다.

또한 비디오테이핑된 멀티미디어 프리젠테이션들의 일반적인 멀티미디어 인덱스를 만들기 위한 개선된 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.

또한 비디오테이핑된 멀티미디어 프리젠테이션의 특정 화제의 멀티미디어 인덱스를 만들기 위해 개선된 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.

앞에 설명된 것은 이 기술 분야에 숙련된 자들이 이하에 이 발명의 상세한 설명을 더 잘 이해할 수 있도록 본 발명의 특징들 및 기술적인 이점을 보다 넓게 개괄하였다. 이 발명의 청구항들의 주제를 형성하는 이 발명의 추가적인 특징들 및이점들은 나중에 설명될 것이다. 이 기술 분야에 숙련된 자들은 그들이 본 발명의 동일한 목적들을 수행하기 위해 다른 구조들을 수정 또는 설계하기 위한 기초로서 개시된 구성 및 특정 실시예를 용이하게 이용할 수 있는 것이 이해될 것이다. 이 기술 분야에서 숙련된 자들은 또한 그런 등가의 구조들이 그것의 넓은 형태로 이 발명의 정신과 범위로부터 벗어나지 않음을 깨달아야 한다.

이 발명의 상세한 설명을 시작하기 전에, 이 출원 문서를 통해 이용되는 특정 단어들 및 어구들의 정의들을 설명하는 것이 유리할 수 있다: 용어들 "구비하다(include)"와 "포함하다(comprise)"와 그것들의 변형들은 제한이 없음이 포함하는 것을 의미한다; 용어 "또는(or)"는 및/또는(and/or)을 의미하는 것을 포함한다; 그것들의 변형들뿐만 아니라, 어구들 "관련되다(associated with)"와 "관련되다(associated therewith)"은 구비하다(include), 구비되다(be included within), 접속되다(interconnect with), 포함하다(contain), 포함되다(be contained with), ~로 또는 ~와 접속하다(connect to or with), ~에 또는 ~와 결합하다(couple to or with), 통신될 수 있다(be communicable with), 함께 작용하다(cooperate with), 삽입하다(interleave), 병렬하다(juxtapose), 근사되다(be proximate to),~로 또는 ~에 제한되다(be bound to or with), 가지다(have), 특징을 가지다(have a property of), 또는 그와 같은 것을 의미할 수 있다; 그리고 용어 "제어기(controller)", "처리기(processor)", 또는 "장치(apparatus)"는 적어도 하나의 동작을 제어할 수 있는 임의의 장치, 시스템 또는 그것의 부분을 의미하고, 그러한 장치는 하드웨어, 펌웨어(firmware) 또는 소프트웨어, 또는 동일한 것의 적어도 두 개의 일부 결합에서 구현될 수 있다. 임의의 특정 제어기와 관련된 기능성이 국부적인 지 또는 원격적인 지에 관계없이, 집중 또는 분산될 수 있음을 알아야 한다. 특히, 제어기는 하나 이상의 어플리케이션 프로그램들 및/또는 오퍼레이팅 시스템 프로그램을 실행하는, 하나 이상의 데이터 처리기들, 및 관련된 입력/출력장치들 및 메모리를 포함할 수 있다. 특정 단어들 및 어구들에 대한 정의들은 이 출원 문서를 통해 제공된다. 이 기술 분야의 숙련된 자들은 그런 정의들이 대부분의 경우는 아니더라도, 많은 경우에 미래에 그런 정의된 단어들 및 어구들의 이용뿐만 아니라, 이전에 적용된다는 것을 이해해야 한다.

이하에 논의된 도 1 내지 도 6, 및 이 출원 문서에서 본 발명의 원리들을 설명하는데 이용되는 다양한 실시예들은 단지 예시에 의한 것이고 이 발명의 범위를 제한하는 임의의 방식으로 해석되어서는 안된다. 이하에 예시적인 실시예의 설명에서, 본 발명은 멀티미디어 처리기에 통합되거나, 또는 멀티미디어 처리기에 접속하여 이용된다. 이 기술 분야의 숙련된 자들은 본 발명의 예시적인 실시예가 멀티미디어 신호들을 분석하기 위해 시스템들의 다른 유형들에서 이용하기 위해 용이하게 수정될 수 있음을 인식할 것이다.

도 1은 비디오테이핑된 멀티미디어 신호들을 분석하기 위한 예시적인 멀티미디어 분석 시스템(100)의 블록다이어그램을 도시한다. 멀티미디어 분석 시스템(100)은 멀티미디어 처리기(110)를 포함한다. 멀티미디어 처리기(110)는 비디오테이핑된 멀티미디어 신호들을 수신하고 그것들을 비디오, 오디오, 및 텍스트 성분들로 파싱할 수 있다. 멀티미디어 처리기(110)는 비디오테이핑된 멀티미디어 신호의 비디오, 오디오, 및 텍스트 성분들의 콘텐트를 파싱하고 콘텐트에 기초하여 성분들을 식별하여 세그먼팅한다. 멀티미디어 처리기(110)는 신호 성분들과 신호 세그먼트들을 메모리 유닛(120)에 저장한다. 하나의 유리한 실시예에서, 멀티미디어 처리기(110)는 미국특허 출원번호 09/006,657에 설명된 멀티미디어 처리기를 포함할 수 있다. 또다른 유리한 실시예에서, 멀티미디어 처리기(110)는 미국특허 출원번호 09/442,960에 설명된 멀티미디어 처리기를 포함할 수 있다.

메모리 유닛(120)은 랜덤 액세스 메모리(random access memory : RAM : 램) 또는 랜덤 액세스 메모리(RAM)와 롬(read only memory : ROM)의 결합을 포함할 수 있다. 메모리 유닛(120)은 플래시 메모리(flash memory)와 같은, 비-휘발성 램(non-volatile RAM)을 포함할 수 있다. 메모리 유닛(120)은 하드 디스크 드라이브(미도시)와 같은, 대량 저장 데이터 장치를 포함할 수 있다. 메모리 장치(120)는 또한 판독/기록 DVD들 또는 재-기록가능 CO-ROM들을 판독하는 (내장 또는 부착되는) 부착된 주변 장치 또는 제거가능 디스크 드라이브를 포함할 수 있다. 도 1에 도시된 바와 같이, 이런 유형의 제거가능 디스크 드라이브들은 재-기록가능 CD-ROM 디스크(125)를 수신하여 기록할 수 있다.

멀티미디어 처리기(110)는 본 발명의 제어기(130)에 비디오테이핑된 멀티미디어 자료들의 성분들인 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 제공한다. 제어기(130)는 멀티미디어 처리기(110)로부터 제어 신호들을 수신할 수 있고 멀티미디어 처리기(110)로부터 제어 신호들을 송신할 수 있다. 제어기(130)는 또한 메모리 유닛(120)을 통해 멀티미디어 처리기(110)에 결합된다. 충분히 설명될 것처럼, 제어기(130)는 멀티미디어 처리기(110)로부터 수신된 비디오 신호들, 오디오 신호들, 및 텍스트 신호들로부터 콘텐트들의 테이블을 만들 수 있다. 제어기(130)는 메모리 유닛(120)에 콘텐트들의 테이블을 저장한다. 멀티미디어 처리기(110)는이용자 요청에 대한 응답으로, 메모리 유닛(120)에 저장된 콘텐트들의 테이블을 액세스하고 이용자에 의해 보여지는 디스플레이(미도시)로 콘텐트들의 테이블을 출력한다.

제어기(130)는 비디오테이핑된 멀티미디어 자료의 콘텐트를 요약하는 정보를 디스플레이하는 콘텐트들의 테이블을 만든다. 일반적으로 콘텐트들의 테이블은 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 결합을 포함한다. 콘텐트들의 테이블은 (1) 텍스트, (2) 또한 단일 비디오 프레임을 포함하는 정지 비디오 이미지들, (3) 비디오 프레임들의 시리즈들을 포함하는 (비디오 "클립(clip)" 또는 비디오 "세그먼트(video segment)"로서 불리는) 움직임 비디오 이미지들, 및 (4) 오디오 신호들로부터 트랜스크립된 텍스트 및 (5) 그것들의 임의의 결합을 디스플레이할 수 있다.

도 1에 도시된 바와 같이, 제어기(130)는 추출 모듈(140) 및 검색 모듈(150)을 포함한다. 추출 모듈(140)은 콘텐트들의 테이블 모듈(160)과 인덱스 모듈(170)을 포함한다. 더 충분히 설명될 것처럼, 콘텐트들의 테이블 모듈(160)("토크(TOC) 모듈(160)"은 비디오테이핑된 멀티미디어 자료의 콘텐트를 분석한다. TOC 모듈(160)은 비디오테이핑된 멀티미디어 자료에서 토픽들을 식별한다. TOC 모듈(160)은 그것이 비디오테이핑된 멀티미디어 자료에서 식별하는 토픽들에 대한 콘텐트들의 테이블을 발생한다. 인덱스 모듈(170)은 콘텐트들의 테이블을 구성하는 다른 비디오 세그먼트들과의 링크를 만든다. 인덱스 모듈(170)은 또한 콘텐트들의 테이블에서 비디오 세그먼트들을 구성하는 다른 서브세그먼트들과의 링크들을 만든다.

검색 모듈(150)은 멀티미디어 처리기(100)를 통해 수신된 이용자 요청에 응답으로, 이용자 응답에 매칭하는 콘텐트들의 테이블에서 이러한 성분들을 액세스한다. 매칭이 발견되었을 때, 검색 모듈(150)은 멀티미디어 처리기(110)에 대한 적당한 콘텐트들의 테이블을 식별한다. 멀티미디어 처리기(110)는 그 후 이용자를 위해 디스플레이(미도시)에 콘텐트들의 테이블을 출력한다.

제어기(130)는 멀티미디어 콘텐트들의 테이블을 만드는데 이용될 적당한 비디오 이미지들을 식별해야 한다. 본 발명의 유리한 실시예는 비디오테이핑된 멀티미디어 자료에 대한 콘텐트들의 테이블을 만드는데 이용될 적당한 비디오 이미지들을 식별할 수 있는 컴퓨터 소프트웨어(200)를 포함한다. 도 2는 본 발명의 컴퓨터소프트웨어(200)를 포함하는 메모리 유닛(120)의 선택된 부분을 도시한다. 메모리 유닛(120)은 오퍼레이팅 시스템 인터페이스 프로그램(210), 거친(coarse) 콘텐트들의 테이블("TOC") 세그먼테이션 어플리케이션(220), 미세 콘텐트들의 테이블("TOC") 세그먼테이션 어플리케이션(230), 거친 비디오 경계 검출 어플리케이션(240), 미세 비디오 경계 검출 어플리케이션(250), 및 콘텐트들의 테이블 저장 로케이션들(260)을 포함한다.

제어기(130) 및 컴퓨터 소프트웨어(200)는 함께 본 발명을 수행할 수 있는 멀티미디어 콘텐트들의 테이블 제어기를 포함한다. 메모리 유닛(120) 내에 저장된 컴퓨터 소프트웨어(200)에 명령들의 지시 하에서, 제어기(130)는 비디오테이핑된 멀티미디어 자료에 대한 콘텐트들의 테이블을 만들고, 콘텐트들의 테이블 저장 로케이션들(260)에 콘텐트들의 테이블을 저장하고, 이용자의 요청으로 저장된 콘텐트들의 테이블을 재생한다. 오퍼레이팅 시스템 인터페이스 프로그램(210)은 제어기(130)의 오퍼레이팅 시스템으로 컴퓨터 소프트웨어(200)의 동작을 조정한다.

콘텐트들의 테이블을 만들기 위해, (제어기(130)와 소프트웨어(200)를 포함하는) 본 발명의 멀티미디어 콘텐트들의 테이블 제어기는 첫 번째로 비디오테이핑된 멀티미디어 자료의 비디오 신호를 세그먼팅한다. 멀티미디어 신호의 비디오 부분은 콘텐트들의 테이블을 만들기 위해 정보의 메인 소스인 것으로 가정된다.

제어기(130) 및 소프트웨어(200)의 오퍼레이션을 설명하기 위해, 비디오테이핑된 멀티미디어 자료는 슬라이드들에 의해 수반되는 비디오테이핑된 강의(lecture) 프리젠테이션을 포함하는 것으로 가정하라. 슬라이드들을 가진 통상적인 강의 프리젠테이션은 보통 (1) 프리젠테이션의 명칭, 저자들, 그들의 제휴를 진술하는 타이틀 페이지 슬라이들, (2) 프리젠테이션의 메인 성분들을 일반적으로 진술하는 요약 페이지 슬라이드(이것은 콘텐트들의 상세한 테이블은 아니다), (3) 작업의 동기, 방법, 및 결과들을 진술하는 도입 페이지 슬라이드, (4) 이용되는 방법을 상세하게 설명하는 방법 페이지 슬라이드, (5) 방법들을 적용하는 결과들을 설명하는 결과들 페이지 슬라이드, 및 (6) 저자들의 결론들을 진술하는 요약 페이지 슬라이드를 포함한다.

강의의 비디오테이핑된 자료는 일반적으로 (1) 강의 통화의 뷰들(views), (2) 슬라이드들, (3) 단일 비디오 프레임과 같은, 정적(즉, 비-이동) 이미지들, (4) 비디오 클립들, (5) 오디오 클립들, 및 (6) 청중(audience)들을 보인 비디오클립들을 묘사할 것이다. 그러므로, 제공된 정보는 멀티모드(multimodal)이다. 즉, 정보는 비주얼 도메인, 오디오 도메인, 및 텍스츄얼(textual)(즉, 트랜스크립트(transcript)) 도메인으로 제공된다. 메인스트림 방송 텔레비전 프로그램들과는 다르게, 강의 프리젠테이션들은 일반적으로 클로즈-캡션된(close-captioned : CC) 텍스트를 갖지 않는다. 그러므로, 강의의 오디오 부분들의 트랜스크립트(예를 들어, 스피치)는 스피치-투-텍스트(speech-to-text) 변환 기술들을 이용하여 획득되어야 한다. 이렇게 하기 위해, 오디오 정보는 스피치 인식 처리를 통해 전달된다. 스피치 인식 처리의 출력은 그 후 스피치-투-텍스트 변환 처리에 공급된다.

제어기(130)는 첫 번째로 비디오 신호를 세그먼팅하도록 소프트웨어(200)의 거친 콘텐트들의 테이블 세그먼테이션 어플리케이션(220)을 실행한다. 이것은 (1) 통상적인 헤드-앤드-숄더(head-and-shoulder) 뷰들에서 강의를 보이는 비디오 시퀀스들, (2) 프리젠테이션 슬라이드들, (3) 정적 이미지들, (4) 설명적인 비디오 클립들, 및 (5) 청중들을 보이는 비디오 시퀀스들을 제공할 것이다. 프리젠테이션 슬라이드들 및 정적 이미지들은 신호 잡음 때문에 아티팩트들(artifacts)을 제외한 다이내믹한 정보를 포함하지 않는다. 설명적인 비디오 클립들은 프리젠테이션의 부분인 비디오 시퀀스들이다. 강의자는 제공되는 슬라이드 또는 토픽을 도시 또는 설명하도록 설명적인 비디오 클립들을 이용한다.

소프트웨어(200)의 거친 콘텐트들의 테이블 세그먼테이션 어플리케이션(220)은 4 개의 스테이지들로 동작한다. 제 1 스테이지에서, 프리젠테이션 슬라이드들은 세그먼팅된다. 슬라이드들은 어두운 배경 상에서 포개지는(superimpose) 비주얼 텍스트를 포함하는 비디오 시퀀스들에서 도시된다. 슬라이드의 타이틀은, 보통 슬라이드의 상부에서 나타나고, 슬라이드의 전체 콘텐트를 결정한다. 슬라이드의 비주얼 텍스트는 텍스츄얼 문자 콘텐트(textual character content)를 결정하도록 광 문자 인식(optical character recognition : OCR) 시스템을 이용하여 처리된다. 예를 들어, 타이틀의 문자 콘텐트는 콘텐트들의 테이블에서 성분들로서 이용될 수 있다, 슬라이드 세그먼테이션 처리는 또한 프리젠테이션 슬라이드들을 보이는 모든 비디오 시퀀스들에 적용된다.

제 2 스테이지에서, 강의자들의 얼굴을 보이는 비디오 시퀀스들은 세그먼팅된다. 이러한 비디오 시퀀스들은 통상적으로 비디오 이미지 플레인(plane)의 중앙에서 강의자를 보인다. 강의자의 이미지는 배경으로부터 세그먼팅되어야 한다. 일부 경우들에서, 프리젠테이션 슬라이드들은 배경으로서 이용될 수 있다. 얼굴 검출 및/또는 얼굴 인식 기술들은 강의자의 이미지를 세그먼팅하는데 이용된다.

제 3 스테이지에서, 정적 이미지들은 세그먼팅된다. 정적 이미지들은 이 정적 이미지들이 일반적으로 텍스트 문자들을 포함하지 않는다는 점에서 프리젠테이션 슬라이드 이미지들과 다르다. 일부 경우들에서, 정적 이미지들은 텍스트 문자들을 포함하지만, 그러나 반드시 텍스트가 프리젠테이션 슬라이드 이미지들에 나타나는 포맷일 필요는 없다.

제 4 스테이지에서, 강의 프리젠테이션("강의 비디오 클립들(lecture video clips)")의 부분인 비디오 클립들은 세그먼팅된다. 강의 비디오 클립들은 그것들과프리젠테이션 슬라이드들의 비디오 시퀀스들, 강의자의 헤드-앤드-숄더 뷰들, 및 정적 이미지들을 비교함으로써 세그먼팅될 수 있다.

본 발명의 대안적인 유리한 실시예에서, 거친 콘텐트들의 테이블 세그먼테이션의 추가적인 제 5 스테이지는 또한 수행될 수 있다. 제 5 스테이지에서, "결합(combination)" 이미지들은 세그먼팅된다. "결합(combination)" 이미지는 하나 보다 많은 이미지의 유형을 포함하는 이미지이다. 예를 들어, 결합 이미지의 하나의 유형은 비디오 클립이 정적 이미지의 부분 상에 포개지는 정적 이미지를 포함한다. 결합 이미지들의 제 2 유형은 정적 이미지가 비디오 클립의 부분 상에 포개지는 비디오 클립을 포함한다. 결합 이미지들의 제 3 유형은 프리젠테이션 슬라이드가 비디오 클립의 부분 상에 포개지는 비디오 클립을 포함한다. 결합 이미지들의 다른 유형들은 또한 가능하다. 결합 이미지들이 제공되지 않으면, 거친 콘텐트들의 테이블 세그먼테이션의 제 5 스테이지는 필요하지 않다.

본 발명의 콘텐트들의 테이블에 엔트리들은 그런 비디오 이미지들, 텍스트, 오디오 발췌들 등과 같은 각각의 기술적인 성분들을 포함한다. 콘텐트들의 적당한 테이블을 얻기 위해서, 본 발명은 콘텐트들의 테이블에서 다양한 엔트리들에 대한 "시작(begin)" 시간들 및 "끝(end)" 시간들에 관한 정확하게 정보를 가져야 한다. 즉, 콘텐트들의 테이블에 다양한 엔트리들의 경계들은 정확하게 결정되어야 한다.

특히, 거친 콘텐트들의 테이블 세그먼테이션의 제 4 스테이지가 수행된 후에, 이미지들의 4 개의 세트들 사이에 비디오 경계들은 정확히 결정되어야 한다. 즉, 프리젠테이션 슬라이드들 사이에 비디오 경계들, 강의자들의 헤드-앤드-숄더뷰들, 정적 이미지들, 및 강의 비디오 클립들은 정확하게 로케이팅되어야 한다.

이 과제를 성취하기 위해, 제어기(130)는 소프트웨어(200)의 거친 경계 검출 어플리케이션(240)을 실행한다. 거친 경계 검출 어플리케이션(240)은 비디오 경계들을 로케이팅하기 위한 다수의 기술들을 포함한다. 그런 기술들의 예들은 발명의 명칭이 "멀티미디어 세그먼테이션 및 인덱싱을 위한 정보 처리 기반 콘텐트 및 콘텍스트(Context and Content Based Information Processing for Multimedia Segmentation and Indexing)"인, Radu S. Jasinschi 에 의해 2001년 3월 9일에 출원된 미국특허 출원번호[개시 번호 701168]를 참조한다. 제 1 경계 검출 기술에서, 경계 검출은 오디오 및 비디오 신호들을 이용하여 성취된다. 이 기술은 각각의 비주얼 컷(cut) 지점들 및 오디오 컷 지점들을 이용한다. 비주얼 컷 지점들은 컷 검색 후에 얻어진다. 오디오 컷 지점들은 (1) 오디오 레벨들의 간단한 임계값들, 또는 (2) 스피치, 사이런스(silence), 음악, 잡음의 카테고리들 및 이들 카테고리들의 결합들로의 오디오 세그먼테이션 및 카테고리 화를 이용함으로써 얻어진다. 간단한 결합은 시간 윈도우 내의 오디오 컷들 및 비디오 컷들의 시간 코드들의 발생 상에 기초하여 행해질 수 있다. 매우 정교한 통합은 위에 참조되는 미국특허 출원번호[개시 번호 701168]에 설명된 멀티모드 통합을 위한 확률적 프레임워크(probabilistic framework)를 이용하여 수행될 수 있다.

제 2 경계 검출 기술에서, 경계 검출은 트랜스크립트 정보를 이용하여 성취된다. 이 기술은 트랜스크립트와 오디오 및 비주얼 컷들로부터 각각의 문장들을 이용한다. 문장들은 문장들의 끝(예를 들어, 마침표(period), 감탄사 점(exclamationpoint), 질문 부호(question mark)에서 발생하는 구두 표시들(punctuation marks) 에 기초하여 트랜스크립트로부터 분리된다. 문장들의 시작과 끝에 대한 시간 코드들은 가장 가까운 오디오 컷 또는 가장 가까운 비주얼 컷에 매칭된다. "시작(begin)" 시간을 결정하기 위해, 더 작은 오디오 컷 또는 비주얼 컷이 취해진다. "끝(end)" 시간을 결정하기 위해, 가장 가까운 작은(또는 동일한) 오디오 사이런스 지점(silence point)을 취한다.

제 3 경계 검출 기술에서, 경계 검출은 트랜스크립트 정보와 오디오 및 비주얼 컷들을 이용하여 성취된다. 각각의 단락들의 경계들을 식별하기 위해 이 기술 분야에서 알려진 다양한 기술들이 있다. 예를 들어, 제목이 "텍스트 타일링 : 텍스트를 멀티-단락 서브토픽 구절들로의 세그먼팅(Text tiling : Segmenting Text Into Multi-Paragraph Subtopic Passages)"인 Computational Linguistics, volume 23(1), pages 33-64에서 M. Hearst에 의한 논문을 참조한다. 텍스트 단락들에 대해, "시작(begin)" 및 "끝(end)" 시간들이 추출된다. "시작(begin)" 시간은 더 이른 오디오 컷에 매칭된다. 더 이른 비주얼 컷이 특정 범위(예를 들어, 5 초) 내에 존재하면, "시작(begin)" 시간은 각각의 컷으로 조절된다. 트랜스크립트의 "끝(end)" 시간은 다음 (더 큰) 오디오 컷 (사이런스)과 매칭된다. 비주얼 컷이 바로 뒤에 이어지면, 우리는 "끝(end)" 시간으로서 비주얼 컷의 시간 코드를 취할 수 있다.

제 4 경계 검출 기술에서, 경계 검출은 (비주얼 세그먼트들로부터의 ) 매크로레벨 비주얼 연속성 및 토픽 연속성에 의해 지원되는 (오디오 세그먼트들로부터의) 오디오 연속성을 이용하여 성취될 수 있다. 이 기술에서, 큰 매크로레벨 세그먼트는 "메가-세그먼트(mega-segment)"로 불리고 그것의 더 작은 성분 세그먼트들은 "성분 세그먼트들(constituent segments)"로 불린다. 예를 들어, 연속적이고, 산재된 오디오 세그먼트들의 카테고리들로부터 판단되는 오디오 연속성의 경우를 고려하라. 2 개의 특정 카테고리들이 스피치 세그먼트들 및 사이런스 세그먼트들("성분 세그먼트들(constituent segments)")에 의해 표현되면, 매크로레벨에서 2 개의 특정 오디오 카테고리들은 연속성에 대한 단일 "메가-세그먼트(mega-segment)"로 통합될 수 있다. 유사하게, 2 개의 특정 오디오 카테고리들이 스피커(A)와 스피커(B) ("성분 세그먼트들(constituent segments)")에 의해 표현되면, 매크로레벨에서 스피커(A) 및 스피커(B)의 대화는 연속성에 대한 단일 "메가-세그먼트(mega-segment)"에 통합될 수 있다.

"메가-세그먼트(mega-segment)"에 대응하는 비주얼 샷들(shots)이 유사한 연속성을 나타내면(예를 들어, 그것들이 동일한 컬러 기술을 가지고 유사한 샷들의 그룹을 형성하면), "메가-세그먼트(mega-segment)"는 스토리 세그먼트로서 표시된다. 비주얼 샷들이 샷들의 다중 그룹들을 보이면, 더 큰 "메가-세그먼트(mega-segment)"는 다중 비주얼 양상들을 대응하도록 다중 세그먼트들에 나누어질 수 있다.

음악 세그먼트들에 대해(예를 들어, 음악의 역사에 강의에서), 전체 검출된 오디오 음악 세그먼트는 "시작(begin)" 및 "끝(end)" 시간들을 가진 스토리 세그먼트로서 표시된다. 이것은 사이런스 없이 음악 세그먼트를 위한 몇 분들에 대응해야한다. 음악 비디오들에서, 예를 들어, 노래들은 사이런스에 의해 분리될 수 있다, 그래서 2 개의 사이런스 세그먼트들 사이에 각각의 세그먼트는 "스토리(story)" 세그먼트(즉, 음악 세그먼트)이다.

제 5 경계 검출 기술에서, 경계 검출은 오디오 연속성 및 토픽 연속성에 의해 지원되는 비디오 연속성을 이용하여 성취된다. 시간 제한(예를 들어, 5분 또는 프로그램의 특정 부분) 내의 비주얼 연속성은 다음 "n" 샷들을 가진 각각의 샷의 샷 유사성에 기초되어 판단된다. "n"의 값은 연속적인 샷들이 비교되지 않도록 하나(1)보다 더 커야한다. 샷 유사성은 히스토그램들(histograms), 객체들(예를 들어, 얼굴들의 크기), 장면 구성, 텍스츄얼 구성, 또는 이러한 카테고리들의 결합에 기초될 수 있다. 예를 들어, 아파트 옥내의 몇 개의 샷들 다음에 도시의 옥외 장면의 샷들이 이어질 수 있다. 옥외 샷들은 특정 히스토그램(예를 들어, 더 따듯한 컬러들), 장면 구성, 및 텍스츄얼을 가질 수 있다. 옥외 샷들은 많은 회색 컬러들 및 더 많은 직선 에지들(예를 들어, 빌딩들)을 가진 히스토그램을 가질 수 있다. 비주얼 연속성으로부터 유도된 더 큰 스토리 세그먼트는 트랜스크립트로부터 오디오 카테고리들 또는 토픽 세그먼테이션을 이용하여 나눠질 수 있다.

위에 설명된 각각의 경계 검출 기술들에서, 메타-레벨 발견적 방법들(heuristic)은 세그먼팅되는 콘텐트의 유형(즉, 콘텍스트 정보)에 의존하여 이용될 수 있다. 유사하게, 비주얼 양상들에서, 2 개의 유사한 장면들이 산재되면(즉, 사람(A) 다음에 사람(B)이 이어지고 그 다음에 사람(A)이 이어지는), 각각의 샷들은 단일 "스토리(story)"에 통합된다.

거친 경계 검출 어플리케이션(240)은 4 가지 성분들(즉, 프리젠테이션 슬라이드들, 강의자의 헤드-앤드-숄더 뷰들, 정적 이미지들, 및 비디오 클립들) 사이에 비디오 경계들을 결정한다. 그 후 4 개의 성분들 사이의 간격들은 (1) 성분들의 유형을 가지고 인텍싱되고, 그리고 (2) 슬라이드들, 타이틀 텍스트에 대해 인덱싱된다.

제어기(130)는 그 후 위에 식별되는 4 개의 성분들 각각을 세그먼팅하도록 소프트웨어(200)의 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)을 실행한다. 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)은 콘텐트들의 거친 테이블 세그먼테이션 어플리케이션(220)에 대해 설명된 이들에 유사한 기술들을 이용한다. 그 후, 제어기(130)는 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)의 실행동안 식별되었던 4 개의 성분들 각각 내에 임의의 경계들을 로케이팅하도록 4 개의 성분들 각각에 대한 미세 경계 검출 어플리케이션(250)을 실행한다.

제어기(130)는 그 후 콘텐트들의 테이블에 대해 선택되었던 다른 엔트리들을 링크하도록 인덱스 모듈(170)을 액세스한다. 특히, 인덱스 모듈(170)은 선택된 비디오 세그먼트들(예를 들어, 강의자의 뷰들, 정적 이미지들, 프리젠테이션 슬라이드들, 강의자 비디오 클립들), 선택된 텍스트 및 선택된 텍스트의 출현의 시간 코드, 및 선택된 오디오 엔트리들을 링크한다. 인덱스 모듈(170)은 또한 오디오, 비주얼, 및 트랜스크립트 큐들의 결합들을 링크한다. 인덱스 모듈(170)은 스피치, 음악, 사이런스, 잡음 등과 같은 오디오 큐들을 얻도록 오디오 신호를 처리한다.

인덱스 모듈(170)은 또한 스피치 인식 처리를 수행한다. 강의 프리젠테이션들은 일반적으로 "스피치" 오디오 정보(즉, 강의자의 음성)를 포함한다. 때때로 음악은 배경 음악 또는 프리젠테이션(예를 들어, 오디오 클립 또는 비디오 클립에) 프리젠테이션의 부분 중 하나로서, 강의 프리젠테이션에 더해진다. 인덱스 모듈(170)에 의해 수행되는 스피치 인식 처리의 출력은 스피치-투-텍스트 처리에 입력으로서 이용된다. 스피치-투-텍스트 처리는 트랜스크립트의 형태로 스피치의 텍스트를 제공한다. 이 텍스트는 구문 및 의미상의 텍스츄얼 콘텐트 정보를 결정하도록 자연 언어 처리(natural language processing : NLP)로 입력으로서 이용될 수 있다.

텍스트의 트랜스크립트는 프리젠테이션 슬라이드들에 제공되는 텍스트의 매우 광범위한 설명을 포함한다. 예를 들어, 강의자는 초기에 프리젠테이션 슬라이드 텍스트를 읽을 수 있고 그 후 그것 상에 추가적인 코멘트들을 만들 수 있다. 강의자의 추가적인 코멘트들은 토픽적인 관계들, 간섭들 등을 포함할 수 있다. 강의자의 스피치의 텍스트는 그러므로 프리젠테이션 슬라이드 텍스트보다 더 많이 광범위하다. 이 프리젠테이션 슬라이드 텍스트는 강의자의 프리젠테이션에 요약 또는 "안내(guide)"를 제공한다.

인덱스 모듈(170)이 그것의 오퍼레이션들을 완성한 후에, 제어기(130)는 메모리 유닛(120)에서 콘텐트들의 테이블 저장 로케이션(260)에 결과하는 콘텐트들의 테이블을 저장한다. 검색 모듈(150)은 메모리 유닛(120)에 저장된 콘텐트들의 테이블을 검색할 수 있고 이전에 설명된 방법으로 검색될 콘텐트들의 테이블을 디스플레이되게할 수 있다.

도 3은 비디오테이핑된 멀티미디어 프리젠테이션의 콘텐트들의 테이블을 만들기 위해 본 발명의 방법의 유리한 실시예를 보인 순서도이다. 이 방법의 단계들은 참조 번호(300)로 총괄하여 불린다. 제어기(130)는 멀티미디어 처리기(110)로부터 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 얻는다(단계 305). 제어기(130)는 그 후 비디오 신호들을 세그먼팅하도록 거친 콘텐트들의 테이블 세그먼테이션 어플리케이션(220)을 실행한다(단계 310). 제어기(130)는 그 후 4 개의 성분들(즉, 프리젠테이션 슬라이드들, 강의자의 헤드-앤드-숄더 뷰들, 정적 이미지들, 및 비디오 클립들) 사이에 경계들을 로케이팅하도록 거친 경계 검출 어플리케이션(240)을 실행한다(단계 315).

제어기(130)는 그 후 4 개의 성분들 각각을 더 세그먼팅하도록 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)을 실행한다(단계 320). 제어기(130)는 그 후 4 개의 성분들 각각 내에 경계들을 로케이팅하도록 미세 경계 검출 어플리케이션(250)을 실행한다(단계 325). 인덱스 모듈(170)은 그 후 콘텐트들의 테이블을 형성하도록 다양한 성분들(즉, 선택된 비디오 세그먼트들, 선택된 텍스트 및 선택된 텍스트의 출현의 시간 코드, 및 이 선택된 오디오 엔트리들)을 링크한다(단계 330). 제어기(130)는 그 후 메모리 유닛(120) 내에 콘텐트들의 테이블 저장 로케이션(260)에 콘텐트들의 테이블을 저장한다(단계 335). 이용자에 의해 요청될 때, 검색 모듈(150)은 메모리 유닛(120)으로부터 콘텐트들의 테이블을 검색하고 콘텐트들의 테이블을 디스플레이되게 한다(단계 340).

도 4는 본 발명의 멀티미디어 분석 시스템의 유리한 실시예에 의해 만들어지는 예시적인 콘텐트들의 테이블(400)을 도시한다. 도 4는 콘텐트들의 테이블(400)의 통상적인 구조를 도시한다. 콘텐트들의 테이블(400)의 열(410)은 토픽들이 나타나는 순서로 강의에 설명되는 토픽들(토픽 1, 토픽 2,..., 토픽 N)을 연속적으로 나열하는 시간 라인을 디스플레이한다. 콘텐트들의 테이블 열(420)은 프리젠테이션 슬라이드들의 각각의 타이틀들(타이틀 1,..., 타이틀 N)을 디스플레이한다. 프리젠테이션 슬라이드 열(430)은 프리젠테이션 슬라이드들(슬라이드 1,..., 슬라이드 N)의 이미지들을 디스플레이한다. 각각의 프리젠테이션 슬라이드의 타이틀과 본체가 디스플레이된다.

본 발명은 비디오테이핑된 멀티미디어 프리젠테이션의 멀티미디어 콘텐트들의 테이블을 만들기 위한 장치 및 방법에 관련하여 설명된다. 그러나 본 발명은 또한 비디오테이핑된 멀티미디어 프리젠테이션의 멀티미디어 인덱스를 만들기 위한 장치 및 방법을 포함한다.

콘텐트들의 테이블과 멀티미디어 인덱스 둘 다는 비디오테이핑된 멀티미디어 프리젠테이션에 관한 요약된 정보를 포함한다. 그러나, 멀티미디어 인덱스와 콘텐트들의 테이블의 구조 및 기능은 상당한 방법들에서 다르다. 콘텐트들의 테이블은 프리젠테이션의 일반적인 개요 또는 "로드맵(roadmap)"을 제공한다. 이용자는 (1) 프리젠테이션의 토픽들과 서브토픽들 각각의 로케이션과, (2) 프리젠테이션의 토픽들과 서브토픽들의 일반적인 콘텐트를 배우도록 콘텐트들의 테이블을 이용할 수 있다.

한편, 멀티미디어 인덱스는 프리젠테이션에서 설명된 매우 특별한 아이템들의 로케이션을 식별한다. 멀티미디어 인덱스에 나타날 수 있는 이 아이템들은 제한 없이 각각의 이름들, 장소들의 이름들, 구상들의 이름들, 단어들의 약어들 및 정의들, 머리글자들, 역사적인 참조들, 출판물들의 참조들, 참조물의 인용들 등을 포함한다. 멀티미디어 인덱스는 통상적으로 인덱싱된 아이템이 설명되는 각각의 페이지를 나열한다. 또한, 멀티미디어 인덱스는 인덱스 엔트리들에 관한 정지 비디오 이미지들, 비디오 클립들, 및 오디오 클립들을 포함할 수 있다.

멀티미디어 인덱스는 상세한 검색 능력을 위해 상술된 토픽들에 대한 액세스를 제공한다. 특히, 키워드는 이 키워드가 프리젠테이션에 나타나는 모든 예들을 로케이팅하도록 멀티미디어 인덱스를 검색하는데 이용될 수 있다.

일반화된 멀티미디어 인덱스를 만드는 것이 외에, 본 발명의 장치 및 방법은 특별한 멀티미디어 인덱스을 만들 수 있다. 특정 멀티미디어 인덱스는 특정 토픽에 관련하는 인덱스 참조들의 리스트를 포함한다. 예를 들어, 특정 멀티미디어 인덱스는 비디오테이핑된 멀티미디어 프리젠테이션에서 설명되는 출판물들의 리스트(즉, 멀티미디어 목록(bibliography))를 포함한다. 멀티미디어 목록은 또한 멀티미디어 목록에서 엔트리들에 관한 정지 비디오 이미지들, 비디오 클립들, 및 오디오 클립들을 포함할 수 있다.

추가적인 예에 대해, 특정 멀티미디어 인덱스는 비디오테이핑된 멀티미디어 프리젠테이션에 나타나는 구별이 있는 단어들의 멀티미디어 용어집(glossary)을 포함할 수 있다. 이 멀티미디어 용어집은 또한 멀티미디어 용어집에서 엔트리들에 관한 정지 비디오 이미지들, 비디오 클립들, 및 오디오 클립들을 포함할 수 있다. 특정 멀티미디어 인덱스들의 다른 유형들은 또한 만들어질 수 있다.

도 5는 비디오테이핑된 멀티미디어 프리젠테이션의 멀티미디어 인덱스를 만들기 위한 본 발명의 방법의 유리한 실시예를 보인 순서도이다. 이 방법의 단계들은 참조 번호(500)에서 총괄적으로 나타나게 된다. 제어기(130)는 멀티미디어 처리기(110)로부터 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 얻는다(단계 505). 제어기(130)는 그 후 비디오 신호들을 세그먼팅하도록 거친 콘텐트들의 테이블 세그먼테이션 어플리케이션(220)을 실행한다(단계 510). 제어기(130)는 그 후 4 개의 성분들 사이에(즉, 프리젠테이션 슬라이드들, 강의자의 헤드-앤드-숄더 뷰들, 정적 이미지들, 및 비디오 클립들 사이에) 경계들을 로케이팅하도록 거친 경계 검출 어플리케이션(240)을 실행한다(단계 515).

제어기(130)는 그 후 4 개의 성분들의 각각을 더 세그먼팅하도록 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)을 실행한다(단계 520). 제어기(130)는 그 후 4 개의 성분들의 각각 내에 경계들을 로케이팅하도록 미세 경계 검출 어플리케이션(250)을 실행한다(단계 525). 인덱스 모듈(170)은 그 후 멀티미디어 인덱스를 형성하도록 다양한 성분들(즉, 선택된 비디오 세그먼트들, 선택된 텍스트와 이 선택된 텍스트의 출현의 시간 코드, 및 선택된 오디오 엔트리들)을 링크한다(단계 530). 제어기(130)는 그 후 메모리 유닛(120) 내에 콘텐트들의 테이블 저장 로케이션(260)에 멀티미디어 인덱스를 저장한다(단계 535). 이용자에 의해 요청될 때, 검색 모듈(150)은 메모리 유닛(120)으로부터 멀티미디어 인덱스를 검색하고 멀티미디어 인덱스를 디스플레이되게 한다(단계 340).

도 6은 본 발명의 멀티미디어 분석 시스템의 유리한 실시예에 의해 만들어지는 예시적인 멀티미디어 인덱스(600)를 도시한다. 도 6은 멀티미디어 인덱스(600)의 통상적인 구조를 도시한다. 멀티미디어 인덱스(600)의 열(610)은 강의에 논의되는 인덱스 엔트리들의 리스트(엔트리 1, 엔트리 2,...,엔트리 N)를 디스플레이한다. 하나의 유리한 실시예에서, 인덱스 엔트리들은 알파벳 순서로 나열된다. 대안적인 유리한 실시예에서, 이 인덱스 엔트리들은 각각의 그룹이 강의에 논의되는 토픽에 관련하는 그룹들에 로케이팅한다. 멀티미디어 인덱스(600)의 열(620)은 각각의 인덱스 엔트리들이 강의의 코스동안 설명되는 강의 내의 로케이션들(엔트리 1 로케이션들,...,엔트리 N 로케이션들)을 디스플레이한다. 멀티미디어 인덱스(600)의 열(630)은 인덱스 엔트리들에 관련하는 프리젠테이션 슬라이드들(엔트리 1 에 관련하는 슬라이드,...,엔트리 N에 관련하는 슬라이드)의 이미지들을 디스플레이한다.

본 발명은 멀티미디어 처리기(110)를 포함하는 멀티미디어 분석 시스템(100)을 이용하기 위한 시스템 및 방법으로서 설명되었다. 멀티미디어 분석 시스템(100)은 멀티미디어 통신 장비의 다수의 다른 유형들 내에 로케이팅될 수 있다. 예를 들어, 멀티미디어 분석 시스템(100)은 제한 없이, 텔레비전 수신기, 또는 텔레비전 수신기용 세트 톱 박스, 또는 인터넷으로부터 멀티미디어 신호를 수신할 수 있는 인터넷 어플리케이션 내에 로케이팅될 수 있다.

본 발명이 그것의 특정 실시예들에 관련하여 상세하게 설명되었지만, 이 기술 분야의 숙련된 자들은 그들이 그것의 가장 넓은 형태로 이 발명의 개념과 범위로부터 벗어나지 않고 본 발명의 다양한 변화들, 대용들 수정들, 대안들, 및 적용들을 만들 수 있음을 이해해야 한다.

Claims

멀티미디어 신호들의 콘텐트를 분석할 수 있는 멀티미디어 분석 시스템(100)에서 이용하기 위한, 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블(400)을 만들기 위한 장치(130, 200)에 있어서, 상기 장치는

상기 비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 수신할 수 있는 멀티미디어 콘텐트들의 테이블 제어기(130, 200)를 포함하고, 상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)는 상기 비디오테이핑된 자료의 콘텐트들의 테이블(400)을 만들도록 상기 비디오테이핑된 자료의 상기 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합할 수 있는, 장치.
제 1항에 있어서,

상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)는 상기 비디오테이핑된 자료의 성분들에 관한 비디오 세그먼트를 선택하고, 상기 비디오테이핑된 자료의 상기 콘텐트들의 테이블에 상기 비디오 세그먼트를 추가함으로써 상기 비디오테이핑된 자료의 상기 콘텐트들의 테이블(400)을 만들 수 있는, 장치.
제 2항에 있어서,

상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)는 거친 콘텐트들의 세그먼테이션 어플리케이션(220)을 이용하여 상기 비디오테이핑된 자료의 비디오 신호를 성분들로 세그먼팅하고, 거친 경계들 검출 어플리케이션(240)을 이용하여 상기 비디오테이핑된 자료의 상기 성분들의 비디오 경계들을 로케이팅함으로써 상기 비디오테이핑된 자료의 상기 콘텐트들의 테이블을 만들도록 상기 제어기(130)에 결합되는 메모리 유닛(120) 내에 포함되는 컴퓨터 소프트웨어 명령들(200)을 실행할 수 있는 제어기(130)를 포함하는, 장치.
제 3항에 있어서,

상기 제어기(130)는 미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)을 이용하여 상기 비디오테이핑된 자료의 비디오 신호를 성분들로 세그먼팅하고, 미세 경계 검출 어플리케이션(250)을 이용하여 상기 비디오테이핑된 자료의 상기 성분들의 비디오 경계들을 로케이팅함으로써, 상기 비디오테이핑된 자료의 상기 콘텐트들의 테이블(400)을 만들도록 상기 제어기(130)에 결합되는 메모리 유닛(120) 내에 포함되는 컴퓨터 소프트웨어 명령들(200)을 실행할 수 있는, 장치.
제 3항에 있어서,

상기 제어기(130)는 콘텐트들의 테이블(400)에 대해 선택되는 상기 비디오테이핑된 자료의 성분들을 링크할 수 있고, 오디오, 비주얼, 및 트랜스크립트 큐들의 결합들과 상기 성분들을 링크할 수 있는 인덱스 모듈(170)을 더 포함하는, 장치.
제 5항에 있어서,

상기 제어기(130)는 상기 메모리 유닛(120)에 저장된 콘텐트들의 테이블(400)의 테이블을 검색할 수 있고 이용자 요청에 대한 응답으로 콘텐트들의 테이블(400)이 디스플레이되게할 수 있는 검색 모듈(150)을 더 포함하는, 장치.
제 1항에 있어서,

상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)는 상기 비디오테이핑된 자료의 멀티미디어 인덱스(600)를 만들도록 상기 비디오테이핑된 자료의 상기 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합할 수 있는, 장치.
제 7항에 있어서,

상기 비디오테이핑된 자료의 상기 멀티미디어 인덱스(600)는 특성화된 화제의 멀티미디어 인덱스, 멀티미디어 목록, 및 멀티미디어 용어집 중 하나를 포함하는, 장치.
멀티미디어 신호들의 콘텐트를 분석할 수 있는 멀티미디어 분석 시스템(100)에 있어서,

상기 멀티미디어 분석 시스템(100)은 비디오테이핑된 자료의 콘텐트들의 테이블(400)을 만들기 위한 장치(130, 200)를 포함하고, 상기 장치(130, 200)는 상기비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 수신할 수 있는 멀티미디어 콘텐트들의 테이블 제어기(130, 200)를 포함하고; 콘텐트들의 테이블 제어기(130, 200)는 상기 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블(400)을 만들도록 상기 비디오테이핑된 자료의 상기 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합할 수 있는, 멀티미디어 분석 시스템.
멀티미디어 신호들의 콘텐트를 분석할 수 있는 멀티미디어 분석 시스템(100)에서 이용하기 위한, 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블(400)을 만들기 위한 방법에 있어서, 상기 방법은

상기 비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 수신하는 단계와;

상기 멀티미디어 콘텐트들의 테이블(400)을 만들도록 상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 상기 비디오테이핑된 자료의 상기 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합하는 단계를 포함하는, 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블을 만들기 위한 방법
멀티미디어 신호들의 콘텐트를 분석할 수 있는 멀티미디어 분석 시스템(100)에서 이용하기 위한, 비디오테이핑된 자료의 멀티미디어 콘텐트들의 테이블(130, 200)을 만들기 위해 컴퓨터-판독가능 저장 매체(125) 상에 저장되는 컴퓨터-실행가능 명령들에 있어서, 상기 컴퓨터-실행가능 명령들은

상기 비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들을 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 수신하는 단계와;

상기 멀티미디어 콘텐트들의 테이블(400)을 만들도록 상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 상기 비디오테이핑된 자료의 상기 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합하는 단계를 포함하는, 컴퓨터-실행가능 명령들.
청구항 25항에 청구된 바와 같이 컴퓨터-판독가능 저장 매체(125)에 저장된 컴퓨터-실행가능 명령들에 있어서,

멀티미디어 콘텐트들 테이블(400)을 만들도록 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에 상기 비디오테이핑된 자료의 비디오 신호들, 오디오 신호들, 및 텍스트 신호들의 부분들을 결합하는 단계들은

상기 비디오테이핑된 자료의 성분에 관련하는 비디오 세그먼트를 선택하는 단계와;

상기 비디오테이핑된 자료의 상기 콘텐트들의 테이블(400)에 상기 비디오 세그먼트를 추가하는 단계를 포함하는, 컴퓨터-실행가능 명령들.
청구항 26에 청구된 바와 같이 컴퓨터-판독가능 저장 매체(125) 상에 저장된 컴퓨터-실행가능 명령들에 있어서,

멀티미디어 콘텐트들의 테이블 제어기(130, 200)에 결합되는 메모리유닛(120)에 저장되는 컴퓨터 소프트웨어(200)로부터 명령들을 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 수신하는 단계와;

거친 콘텐트들의 테이블 세그먼테이션 어플리케이션(220)을 이용하여 상기 비디오테이핑된 자료의 비디오 신호를 성분들로 세그먼팅하도록 상기 멀티미디어 콘텐트들의 테이블 제어기에서 상기 명령들을 실행하는 단계와;

거친 경계 검출 어플리케이션(240)을 이용하여 상기 비디오테이핑된 자료의 상기 성분들의 비디오 경계들을 로케이팅하도록 상기 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 상기 명령들을 실행하는 단계를 더 포함하는, 컴퓨터-실행가능 명령들.
청구항 27항에 청구된 바와 같이 컴퓨터-판독가능 저장 매체(125) 상에 저장된 컴퓨터-실행가능 명령들에 있어서,

미세 콘텐트들의 테이블 세그먼테이션 어플리케이션(230)을 이용하여 상기 비디오테이핑된 자료의 비디오 신호를 성분들로 세그먼팅하도록 멀티미디어 콘텐트들의 테이블 제어기(130, 200)에서 상기 명령들을 실행하는 단계와;

미세 경계 검출 어플리케이션(250)을 이용하여 상기 비디오테이핑된 자료의 상기 성분들의 비디오 경계들을 로케이팅하도록 상기 멀티디어 콘텐트들의 테이블 제어기(130, 200)에서 상기 명령들을 실행하는 단계를 더 포함하는, 컴퓨터-판독가능 명령들.