KR20020074199A

KR20020074199A - 프로그램들의 요약 및/또는 인덱싱

Info

Publication number: KR20020074199A
Application number: KR1020027009104A
Authority: KR
Inventors: 랄리타 아그니호트리; 카비타 브이. 데바라; 네벤카 디미트로바
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-11-14
Filing date: 2001-11-12
Publication date: 2002-09-28
Also published as: WO2002041634A2; CN1483288A; WO2002041634A3; EP1380170A2; JP2004514350A

Abstract

문자화 정보를 사용하여 프로그램들의 요약 및/또는 인덱싱을 하기 위한 방법은, 프로그램과 관련있는 문자화 정보를 제공하는 단계(14), 및 프로그램의 요약 및/또는 인덱스를 얻기 위해 상기 문자화 정보를 처리하는 단계를 포함한다. 바람직한 요약 방법은, 프로그램의 타입을 분류하는 단계(13), 상기 분류된 프로그램의 타입에 기초하여 상기 문자화 정보에서 식별하기 위해 제1 단서를 결정하는 단계, 상기 문자화 정보에서 상기 제1 단서를 식별하는 단계(16, 18), 상기 문자화 정보에서 식별된 상기 제1 단서에 기초하여 상기 문자화 정보의 일부를 저장하는 단계, 및 상기 문자화 정보의 상기 저장된 부분에 기초하여 프로그램의 요약을 생성하는 단계를 포함한다.

Description

프로그램들의 요약 및/또는 인덱싱{SUMMARIZATION AND/OR INDEXING OF PROGRAMS}

케이블 텔레비전, 위성 텔레비전 및 인터넷 기반 기술의 발전 및 성공과 함께, 소비자들은 항시 증가하는 수의 텔레비전 프로그램들에 접근한다. 고 화질 콘텐츠(high definition content)를 기준으로, 이는 하루에 채널당 200 GB 이상의 정보량에 해당한다. 그래서, 소비자가 그 소비자에게 가장 시청에 관심이 되는 프로그램 또는 프로그램 세그먼트를 발견할 수 있도록, 소비자가 생방송 및 저장된 프로그램들의 콘텐츠 설명을 통해 신속히 훑어보는 능력을 갖는 것이 점점 더 중요해지고 있다. 그러나, 문제는 비디오 프로그램의 콘텐츠가 불명료하다는 것이다. 소비자들을 위한 현재의 선택들은, 관심이 되는 프로그램의 부분을 위치시키기 위해 전체 비디오 프로그램을 통해 보통 속도, 고속 감기로 전체 비디오 프로그램을 시청하거나 또는 프로그램의 가장 일반적인 프로그램 설명만을 제공하는 EPG 데이터(electronic programming guide data : 전자적 프로그래밍 가이드 데이터)를 사용하는 것이다.

그래서, 비디오 프로그램들과 같은 프로그램들의 요약 및 인덱싱을 제공하는 방법 및 장치를 제공하는 것이 본 발명의 목적이다. 이러한 목적을 위해, 본 발명은 독립항들에 규정된 것과 같은 프로그램 요약 및/또는 인덱싱을 제공한다. 종속항들은, 본 발명의 목적에 부합하도록 특히 적합한 것으로 보여지는 문자화 정보(transcription information)를 사용하는 유리한 실시예들을 규정한다.

유리한 실시예에서, 본 발명은, 인커밍(incoming) 오디오/데이터/비디오 신호를 처리하는 방법 및 장치를 제공하고, 상기 오디오/데이터/비디오 신호로부터 문자화 정보를 뽑아내고, 상업적 광고들 및 프로그램 말미의 경계들을 결정하고, 프로그램 요약, 콘텐츠의 테이블 및 프로그램 인덱스를 제공한다.

또 다른 유리한 실시예에서, 본 발명은, 알려진 비디오 프로그램 정보 추출 및 인덱싱 방법들(video program information extraction and indexing methods)의 타고난 불이익들을 극복하는 문자화 정보를 사용하여 비디오 프로그램의 요약 및 인덱싱을 위한 방법 및 장치를 제공한다.

본 발명의 상기한 그리고 그 밖의 목적들, 특징들 및 이점들은, 첨부된 도면들과 연관되어 읽혀져야할 다음의 상세한 설명으로부터 쉽게 명백해질 것이다.

본 발명은, 비디오와 같은 프로그램들의 요약 및/또는 인덱싱으로 방향지어 진다.

도1은, 본 발명의 바람직한 실시예에 따라 폐쇄적-자막 텍스트(closed-captioned text)를 사용하는 비디오 프로그램들의 요약 및 인덱싱을 위한 시스템의 블록 다이아그램이다.

도면을 참고하면, 문자화 정보를 사용하는 프로그램들의 요약 및 인덱싱을 위한 장치가 도시된다. 문자화 정보라는 용어는, 예를 들어 폐쇄적-자막 텍스트(closed-captioned text)와 같은, 전형적으로 비디오 프로그램의 전송(오디오/데이터/비디오) 신호와 함께 제공되고 비디오 프로그램의 스포큰 및넌-스포큰(spoken and non-spoken) 이벤트들 또는 EPG 데이터와 같은 다른 텍스트 자원에 대응하는, 텍스트를 가리키도록 의도된다. 문자화 정보는 비디오 텍스트 또는 스크린 텍스트로부터(가령, 비디오의 부제들을 검색함으로써) 얻어질 수 있고, 1999년 11월 17일 출원된 "Video Stream Classification Symbol Isolation Method and System"이라는 명칭의 WO 01/37212(attorneys' docket PHA 23.382) 및 "Symbol Classification with Shape Features Applied to a Neural Network"라는 명칭의 WO 01/37211(attorney's docket PHA 23.832)에서 논의된 것과 같은 발췌된 텍스트 상에서 광학적 문자 인식(optical character recognition : OCR)을 적용하여 얻어질 수도 있다. 이러한 것들의 전체적 공개는 여기에서 참고로서 통합되어 있다.

본 발명은, 문자화 정보가 키워드 검색과 통계적 텍스트 인덱싱 및 검색과 같은 알려진 검색 기술들을 사용하여 분석되고 검색될 수 있다는 인식에 기초한다. 일반적으로, 상기 장치는 프로그램의 문자화 정보(오디오, 비디오, 데이터 및 그와 상응하는 것들)를 분석하고 프로그램 요약(콘텐츠의 테이블을 제공하기 위해 사용되는) 및 프로그램 인덱스를 생성한다. 만일 오디오/데이터/비디오 신호가 텍스트 부분을 포함하지 않는다면(즉, 문자화 정보를 포함하지 않는다면), 문자화 정보는 업계에 알려진 스피치-투-텍스트 변환(speech-to-text conversion)과 같은 알려진 기술들을 사용하여 생성될 수 있다. 문자화 정보는 또한, 예를 들어 인터넷을 통한 TV 가이드와 같은 제3자 자원(third party resource)으로부터 얻어질 수 있다.

프로그램 요약 및 콘텐츠 테이블은, 특정 프로그램에 접근(즉, 시청)할 것인지 하지 않니할 것인지를 결정하기 위해 사용자에 의해 정밀하게 살펴지도록 설계된다. 더 나아가, 프로그램 요약 및 콘텐츠 테이블은, 관심이 되는 프로그램의 특정 부분들을 식별하는 때에 사용자를 보좌할 수 있다. 예를 들어, 비디오(즉, 텔레비전) 프로그램에 대해, 본 발명은 오디오/데이터/비디오 신호의 문자화 정보를 모니터링하고, 프로그램 요약에서 주목할 만한 어떤 이벤트가 일어났는지 또는 일어날 것인지를 가리키는 구체적 단서 단어들(cue words)에 대해 검색한다. 문자화 정보에서 단서 단어들의 위치를 알아낸 후에, 구체적 이벤트가 식별되고 상기 이벤트에 관련된 정보가 문자화 정보로부터 추출되고 시간 스탬프(time stamp : 프로그램의 방송 동안의 이벤트의 발생 시간)가 만들어진다. 만일 사용자가 이벤트의 발생에 기초하여 프로그램을 시청할 것인지 하지 않을 것인지에 대해 결정을 내린다면 상기 이벤트는 주목할 가치가 있다.

각각의 이벤트 발생 후에, 문자화 정보로부터 추출된 적절한 정보 및 대응 시간 스탬프가 저장된다. 프로그램 요약이 생성되고 그 후에, 프로그램 동안 무엇이 발생했는지, 및 프로그램의 어떤 시간 부분동안 어떤 이벤트들이 일어났는지를 결정하기 위해 사용자에 의해 접속될 수 있는 콘텐츠 테이블이 구성된다. 그래서, 만일 상기 프로그램이 메모리 디바이스에 저장/기록된다면(가령, 비디오테이프, 디스크, 컴퓨터 하드 드라이브 등 상에 아날로그적 또는 디지털적으로 저장된), 상기 프로그램을 후에 시청하는 사람은, 상기 프로그램이 사용자에게 관심이 되는 것인지를 결정하기 위해 프로그램 요약 및/또는 프로그램에 대해 생성된 콘텐츠 테이블을 자세히 살펴볼 수 있다. 만일 프로그램 요약 또는 콘텐츠 테이블을 자세히 살펴본 후 사용자가 단지 관심이 되는 프로그램의 일부분만에 관심이 있다면, 사용자는직접 상기 프로그램의 해당 부분으로 나아갈 수 있고 그래서 사용자에게 관심이 되지 않는 다른 세그먼트들을 시청하는 시간을 낭비하지 않게 된다.

본 발명은 구조화 및 비구조화 프로그램들(constructed and non-constructed programs) 둘 모두에 적용가능함이 인식되어야 한다. 구조화 프로그램들의 예는 토크쇼, 뉴스 프로그램 및 스포츠 이벤트를 포함한다. 구조화 프로그램들은 특정 포맷(가령, 토크쇼에 대해서는 : 모놀로그, 광고, 첫 번째 게스트, 광고, 두 번째 게스트, 광고, 마지막 게스트, 광고, 쇼의 말미)을 갖고 특정 언어가 매 프로그램마다 반복된다(가령, 토크쇼 호스트는 다음과 같이 말한다. : "이번에 모실 첫 번째 게스트는...입니다. 환영해주십시오."). 비구조화 프로그램의 예는 영화이다. 구조화 프로그램들에 대해서는, 프로그램 요약, 콘텐츠 테이블 및 프로그램 인덱스가 만들어질 수 있다. 그러나, 비구조화 프로그램들에 대해서는, 단지 프로그램 인덱스만이 만들어진다.

본 발명의 바람직한 실시예가 이제 설명될 것이다. 문자화 정보를 사용하는 비디오 프로그램들의 요약을 위한 장치(10)는, 바람직하게 문자화 정보를 포함하는 오디오/데이터/비디오 신호를 수신하기 위한 비디오 입력 포트(12)를 포함한다. 수신된 오디오/데이터/비디오 신호에 기초하여, 그 프로그램이 "구조화" 또는 "비구조화"인지에 대한 결정이 프로그램 타입 결정기(13)에 의해 이루어진다.

프로그램 타입 결정기(13)는, 프로그램의 분류 타입(구조화 또는 비구조화)을 결정하고 만일 상기 프로그램이 "구조화" 타입이라면 상기 프로그램이 토크쇼, 뉴스 프로그램, 게임 쇼, 또는 스포츠 이벤트인지를 결정하기 위해 전자적 프로그램 가이드(EPG) 데이터(업계에 알려진 바와 같이)를 바람직하게 분석한다. 만일 EPG 데이터가 이용가능하지 않다면, 상기 프로그램 타입 결정기는, 프로그램의 분류 타입을 결정하기 위해 문자화 정보를 분석하고 알려진 프로그램 포맷들과 비교한다. 프로그램의 분류 타입은 중요하다. 왜냐하면 이것은 문자화 정보에서 검색될 단서들의 구체적 타입을 결정하기 때문이다(이하에서 더 자세히 설명되는 바와 같이). 즉, 토크 쇼는 하나의 단서 집합을 갖고 있고, 뉴스 프로그램들은 또 다른 단서의 집합을 갖고 있는 등등이다.

오디오/데이터/비디오 입력 신호로부터 문자화 정보를 추출하는 문자화 정보 추출기(14)가 또한 비디오 입력 포트(12)에 연결되어 있다. 이전에 언급되었다시피, 만일 오디오/데이터/비디오 입력 신호가 문자화 정보(가령, 폐쇄적-자막 텍스트)를 포함하지 않는다면, 알려진 스피치-투-텍스트 생성 기술들을 사용하여 생성될 수 있다(또는 제3자 자원으로부터 얻어질 수 있다.). 일단 입력 신호의 문자화 정보 부분이 추출되면, 그것은 분석을 위해 단서 추출기(16)에 제공된다.

상기 단서 추출기(16)는 복수의 단서 집합을 담고 있는 지식 데이터베이스(knowledge database)(18)에 연결된다. 각각의 단서 집합은 프로그램의 특정 분류 타입에 관련되어 있다. 상기 지식 데이터베이스는 또한, 상기 지식 데이터베이스에 프로그램의 타입을 제공하는 프로그램 타입 결정기(13)에 연결된다. 상기 지식 데이터베이스는 프로그램의 특정 분류 타입에 대응하는 단서들에 대해 그것의 데이터베이스를 검색한다. 그리고 나서 지식 데이터베이스는, 상기 단서 추출기에 관련 단서들을 제공한다. 상기 단서들은, 프로그램의 알려진 포맷에 기초하여 선택된다. 단서 추출기는, 지식 데이터베이스에 의해 제공된 단서들의 발생을 위해 문자화 정보를 모니터링한다. 상기 단서들은 일반적으로, 어떤 이벤트가 프로그램 내에서 발생하려 하거나 또는 발생한다는 것을 가리키는 문장들, 어구들 또는 단어들에 관련된다. 예를 들어, 프로그램 타입 결정기(13)에 의해 토크쇼로서 분류된 프로그램과 관련하여, 지식 데이터베이스는 토크쇼와 관련된 단서들의 집합에 접속한다. 다음은, 어떤 토크쇼에 대해 지식 데이터베이스에 저장된 단서들의 타입들의 예이다.

도입 단서들 : 가령, 첫 번째 게스트, 다음 게스트...

중간 단서들 : 가령, 환영해주십시오. 오직 단 한명 뿐인...

광고를 표시하는 연결 단서들 : 가령, 잠시 후 뵙겠습니다...

퇴장 단서들 : 가령, 안녕히 주무십시오, 다음주에 뵙겠습니다, 시청해주셔서 감사합니다...

지식 데이터베이스(18)는 단서 추출기(16)로 하여금 어떤 이벤트가 발생하려고 한다는 것을 가리키는 진술들(게스트가 소개되고 있다는 것을 가리키는 "우리의 첫 번째 게스트", "우리의 다음 게스트", "우리의 두 번째 게스트", 우리의 세 번째 게스트", "우리의 마지막 게스트"와 같은 것들)에 대해 텍스트적 정보 추출기(14)에 의해 제공된 문자화 정보를 모니터링하도록 지시한다. 지식 데이터 베이스는 또한, 단서 추출기로 하여금 이벤트가 일어나고 있는 것(게스트가 무대 위를 걷고 있다.)을 가리키는 제2 단서의 위치를 알아내도록 지시할 수도 있다. 예를 들어, 제2 단서는 "환영해주십시오.", "큰 박수를 보내주시기 바랍니다." 및/또는 "오직 단 한명 뿐인..." 등이 될 수 있다. 시간적 데이터베이스(temporal database)(22)는, 단서 추출기에게 제1 및 제2 단서들이 시간에 있어 얼마나 가까이 위치하는지에 대한 정보를 제공한다. 만일 제2 단서가 제1 단서의 식별 후 특정된 미리 정해진 시간 내에 식별되지 않는다면, 상기 장치는 제1 단서가 부적절하게 식별되었거나 또는 제2 단서가 간과되었다고 판단한다. 그래서, 지식 데이터베이스는 단서 추출기로 하여금 새로운 제1 및 제2 단서 집합을 식별하도록 지시한다. 그러나, 만일 제2 단서가 특정된 미리 정해진 시간 기간 내에 식별된다면, 제1 및 제2 단서들에 근사한 텍스트적 정보는 메모리에 저장되고, 이하에서 설명되다시피, 적절한 정보를 추출하고 상기 텍스트적 정보에 기초하여 추론들을 만들기 위해 추론 엔진(inference engine)(20)으로 제공된다(토크쇼에 있어서 상기 추론들은 게스트 명성의 식별 및 분야를 포함한다.).

제1 및 제2 단서들이 텍스트적 정보에 위치지워졌다는 사실은 추론 엔진(20)에 제공된다. 추론 엔진은, 단서 추출기(16)로부터 제1 및 제2 단서들이 위치지워졌다는 사실 뿐 아니라 제1 및 제2 단서들에 근사한 텍스트적 정보를 얻는다. 추론 엔진(20)은, 특정 정보를 추출하고 그로부터 추론을 하기 위해 단서 추출기에 의해 식별되고 제공된 문자화 정보의 부분들을 분석한다(예를 들어, 게스트의 이름 및 명성의 분야). 바람직한 실시예에서, 추론 엔진(20)은, 그것과 함께 문자화 정보에 있는 특정 단어들의 발생과 상관있는 룩-업 테이블(look-up table)을 특정 영역들/주제들에 관련짓는다. 예를 들어, 만일 제1 및 제2 단서들(어떤 이벤트가 발생할 또는 발생한 것을 가리키는)에 관련된 문자화 정보가 배우, 여배우, 글래머, 스타,필름, 오스카 또는 스릴러와 같은 단어들을 포함한다면, 추론 엔진(룩-업 테이블에 접근한 후)은 이러한 단어들을 영화 산업에 관련짓는다. 게스트는 영화 산업에 종사한다는 추론이 만들어지는 것이다.

게스트의 이름을 결정하기 위해, 추론 엔진은, 예를 들어, "환영해주십시오."와 같은 단어들을 검색하고 후속하는 단어들 또는 이름을 추출할 수도 있다. 추출된 단어들은, 올바른 단어들(이름)이 추출되었는지를 체크하기 위해 이름 데이터베이스(가령, 유명인들 및 다른 잘 알려진 이름들)와 비교될 수도 있다. 만일 타당한 이름이 추출되지 않았다면, 적절한 이름을 식별하기 위해 문자화 정보에 대한 부가적 검색이 발생된다. 문자화 정보의 유사 추출 및 추론들이, 게스트와 관련된 다른 사실들에 대해 발생할 수도 있다. 이름 및 명성의 분야가 콘텐츠의 요약 및 테이블을 생성하기 위한 가장 유용한 것이 될 것이다.

그리고 나서 단서 추출기(16)는, 만일 있다면, 어떤 단서를 다음에 식별할 것인지를 결정하기 위해 지식 데이터베이스(18)에 접속한다. 식별된 프로그램 타입에 기초하여 지식 데이터베이스(18)로부터의 지시를 수신하자마자, 단서 추출기는 다음의 새로운 단서에 대한 문자화 정보를 검색한다. 프로그램 분류에 기초하여 제2의 새로운 단서가 요구되거나 또는 요구되지 않을 것이다(예를 들어, 만일 프로그램이 하키 게임이라면, 단서 추출기는 "스코어 또는 "골"과 같은 단어에 대해서만 문자화 정보를 모니터링하고, 식별된 단어에 근사하게 발생한 문자화 정보를 추출할 것이라는 것이 예상된다.). 다음 단서의 식별 후에, 추론 엔진 및 시간적 데이터베이스는, 위에서 설명되었다시피, 프로그램의 끝이 검출될 때까지 접속된다.

추론 엔진(20)에 의해 문자화 정보로부터 추출된 정보(즉, 이름 및 명성의 분야)는 대응 시간 스탬프와 함께 메모리(도시되지 않음)에 저장된다. 추론 엔진으로부터 얻어진 정보는 프로그램 요약 및 프로그램 콘텐츠 테이블로 조직된다. 바람직한 실시예에서, 프로그램 요약은, 다음과 같은 미리 결정된 텍스트에 각 게스트의 이름 및 명성의 분야를 삽입함으로써 생성된다. :

"첫 번째 게스트는 그의 전문분야가 (게스트의 명성 분야 삽입)인 (게스트 이름 삽입)이었습니다."

다음은 미리 결정된 및/또는 추론된 텍스트와 제1 및 제2 단서들 사이에서 발생하는 문자화 정보를 포함하는 토크쇼에 대한 프로그램 요약의 예이다.

토크쇼에 3명의 게스트가 있었다.

첫 번째 게스트는, 전문분야가 음악 분야인 아담 샌들러였다. 오늘밤 나의 첫 번째 게스트는 가장 큰 영화 스타들 중 하나이다. 그는 그의 새 CD, "스탄과 쥬디의 아이"에 삽입된 노래를 부르기 위해 오늘밤 여기에 나왔습니다. 나가서 구입하십시오. 그는 정말로 마음을 아프게 하고 있습니다.

두 번째 게스트는, 영화 분야로부터의 페타 윌슨이었다. 오늘밤 나의 다음 게스트는, 미국 네트워크의 "La Femme Nikita"에서 풍만한 비밀 요원 암살자로 변한 보잘것없는 거리 풋네기로서 연기한다.

마지막 게스트는, 영화 분야에서 일생을 보낸 크리스 에이그만이었다. 오늘 저녁 나의 다음 게스트는, 몇몇 매우 상큼한 영화들에 출연해 왔다. 그는 "메트로폴리탄", "바르셀로나" 및 "디스코의 마지막 나날들" 등에 출연해 왔다. 그는 현재ABC에서 방송 중인 "잇츠 라이크, 유 노우"라는 쇼에서 볼 수 있다.

프로그램 요약의 생성 후, 프로그램에 대한 콘텐츠 테이블이 생성된다. 콘텐츠 테이블은, 바람직하게는, 프로그램에 대한 적절한 이벤트 정보 및 이벤트가 발생했을 때 프로그램으로의 시간 오프셋(time offset)을 포함한다. 예를 들어, 만일 프로그램이 토크쇼라면, 콘텐츠 테이블은 각 게스트의 이름, 게스트 명성의 분야 및 각 게스트가 나온 프로그램 동안의 시간을 포함할 것이다. 다음은 토크쇼에 대한 콘텐츠 테이블의 예이다. :

제이 레노 호스트 - 1-14분

아담 샌들러 음악 - 15-29분

페타 윌슨 영화 - 30-44분

크리스 에이그만 영화 - 45-60

콘텐츠 테이블은 또한, 광고의 발생 또는 대화 주제와 같은 다른 추출된 정보를 포함할 수도 있다.

프로그램 요약 및 콘텐츠 테이블을 만들기 위한 문자화 정보의 분석에 수반하여, 프로그램 인덱스가 만들어진다. 한가지 실시예에서, 단서 추출기(16)는 문자화 정보에 있는 단어들의 발생에 유념하고 상기 정보를 지식 데이터베이스(18) 및 특정 단어들을 특정 주제들과 연관짓는 룩-업 테이블을 포함하는 추론엔진(20)에 제공한다. 문자화 정보는 미리 정해진 시간 기간동안 모니터링될 수 있고 가장 많은 단어들과 관련된 주제는 대응 시간 기간에 대한 주제로서 지정된다. 프로그램 인덱스는 프로그램에서 사용된 모든 "논스톱" 단어들을 열거할 것이고, 프로그램동안 상기 단어들이 사용된 대응 횟수를 제공할 것이다. "논스톱" 단어들은 "스톱" 단어들 이외의 단어들이다. "스톱" 단어들의 예는, "그리고", "또는", "그리고 나서", "만일", "은/는", "to", 및 "-할 때" 등이다.

본 발명의 방법은 다음과 같이 설명될 수 있다. 처음에 오디오/데이터/비디오 신호가 수신된다. 상기 오디오/데이터/비디오 신호는, 바람직하게는, 무엇보다도 그들로부터 추출된 문자화 정보 신호를 포함한다. 그 후에, 대응 EPG 신호 스캐닝 또는 문자화 정보를 분석하는 것과 같은 알려진 방법들을 사용하여, 프로그램의 분류 타입(구조화 또는 비구조화)이 결정된다. 만일 프로그램의 분류 타입이 구조화라면, 예를 들어 토크쇼, 뉴스 프로그램, 게임 쇼, 또는 스포츠 이벤트, 기타 등등으로서 프로그램 구조가 또한 식별될 수 있을 것이다.

프로그램의 분류 타입에 기초하여, 단서들의 특정 집합이, 프로그램의 구조에 대한 도메인 지식(즉, 프로그램 세그먼트들이 구조화된 방법)에 기초한 문자화 정보(폐쇄적-자막 텍스트)에서 찾아질 것이다. 예를 들어, 토크쇼는 각각의 게스트에 대한 세그먼트들을 갖는다. 스포츠 프로그램은, 게임의 정해진 부분들(가령, 하키에 있어서 피리어드, 농구 및 풋볼에 있어서 쿼터, 야구에 있어서 이닝, 테니스에 있어서 세트)에 또는 게임 동안의 이벤트들(가령, 득점)에 기초할 수 있는 세그먼트들을 갖는다. 하키 게임을 의미있는 세그먼트들로 요약하기 위해, 단서들은 게임의 득점 요약이 얻어질 수 있도록 "점수" 및 "골"과 같은 단어들을 포함할 수 있다. 만일 프로그램이 토크쇼라면, "첫 번째 게스트", "다음 게스트", "두 번째 게스트", "마지막 게스트", 및 "환영해주십시오"와 같은 단서들은, 프로그램 세그먼트들 뿐만 아니라 프로그램 이벤트들을 식별하기 위해 문자화 정보에서 식별될 수 있다. 프로그램을 특정 이벤트들이 일어나는 식별가능 부분들로 나누기 위해 콘텐츠 테이블이 생성될 때 프로그램 세그먼트들이 사용된다.

찾고 있는 단서들이 결정된 후, 문자화 정보는 제1 단서의 발생을 위해 모니터링된다. 상기 제1 단서가 문자화 정보에서 식별될 때, 상기 제1 단서가 식별된 프로그램의 시간을 표시한다. 그리고 나서 프로그램의 끝에 도달되었는지에 대한 결정이 내려진다. 만일 프로그램의 끝에 도달되지 않았다면, 제2 단서에 대해서 문자화 정보가 모니터링된다. 이러한 경우는, 상기 제2 단서가 상기 제1 단서의 발생 후 특정 시간 기간 내에 일어나도록, 프로그램의 알려진 구조(포맷)에 관해 생성된 규칙들에 기초하여 제한된 시간 기간 동안 문자화 정보에서 검색된다. 상기 제한된 시간 기간은 상기 제1 및 제2 단서들을 연관시키는 룩-업 테이블로부터 얻어진다. 상기 룩-업 테이블은, 상기 제1 및 제2 단서들 사이에 프로그램 동안의 최대 허용가능 시간 분리 거리를 가리킨다. 예를 들어, 이러한 정보는, 이전에 설명되었다시피, 시간적 데이터베이스(22)에 의해 제공된다. 이러한 시간적 체크는, 함께 연관되지 않아야 할 이벤트들을 연관시키는 데 있어서의 잠재적인 오류들을 제거하기 위해 수행된다. 예를 들어 토크쇼와 관련하여, 토크쇼 호스트들은 전형적으로 게스트의 명성 및 악명의 분야를 식별함으로써 게스트를 소개한다. 그리고 나서 게스트는 상대적으로 짧은 시간 기간 내(1분 이하)에 무대로 인도된다. 그런데, 만일 제1 단서(가령, "우리의 다음 게스트는...") 및 제2 단서(가령, "환영해 주십시오...")의 식별 사이에 1분 이상(가령, 10 또는 20분)의 분리가 있다면, 상기 제1 또는제2 단서를 식별하는 데 있어서 아마도 어떤 오류가 있었을 것이다. 따라서 상기 제1 단서의 식별 및 상기 제2 단서의 식별은 관련되지 않았다는 추론이 만들어진다.

만일 상기 제2 단서가 특정된 미리 결정된 시간 기간 내에 식별되지 않는다면, 상기 방법은, 광고가 탐지되었는지 보기 위해 체크하고, 프로그램에서 광고 시간을 표시하고, 프로그램 끝이 탐지되었는지 보기 위해 체크한다. 광고 및 프로그램 끝의 탐지는, 지식 데이터베이스(위에서 설명하다시피) 또는 "Automatic Signature-Based Spotting, Learning and Extraction of Commercials and Other Video Content"라는 명칭의 WO 01/28240(attorneys' docket PHA 23.803) 및 "Apparatus and Method for Location a Commercial Disposed Within a Video Stream"이라는 명칭의 US 6,100,941(attorneys' docket PHA 23.477) 및 여기에서 참고로서 통합된 전체 공개들에 공개된 것들과 같은 광고 및 프로그램 끝 탐지의 다른 알려진 수단에 의해 제공된 단서들을 통해 일어날 수 있다. 상기 제2 단서가 식별될 때, 상기 제2 단서가 식별된 프로그램의 시간이 표시된다. 만일 프로그램이 끝나면, 상기 방법은 이하에서 설명되는 것과 같이 진행한다. 만일 프로그램이 끝나지 않았다면, 상기 방법은 새로운 제1 및 제2 단서들이 결정되는 단계로 되돌아 간다.

만일 제2 단서가 미리 결정된 시간 기간 내에 식별된다면, 상기 제1 및 제2 단서들로부터 추론이 만들어진다. 즉, 제1 및 제2 단서들이 식별된 문자화 정보의 부분을 근사화하는 문자화 정보는, 상기 단서들에 관한 정보(가령, 상기 첫 번째토크쇼 게스트에 관한 정보)를 추출하도록 분석된다. 토크쇼에 대한 문자화 정보로부터 추출된 정보의 예들은 게스트의 이름, 명성의 분야, 및 현재 프로젝트 등이다. 이러한 정보는 메모리(도시되지 않음)에 저장된다. 더 나아가, 프로그램 동안 관련된 이벤트의 발생 시간은, 콘텐츠 테이블 내의 포함을 위해 표시된다. 그리하여 시스템 사용자는 프로그램의 어떤 지점에서 특정 이벤트가 일어나는지를 식별할 수 있을 것이다.

상기 제1 및 제2 단서들에 관련된 문자화 정보로부터 추출된 정보와 관련된 레프리젠테이션(가령, 오디오 또는 비디오 클립)을 추출하는 것이 또한 예견된다. 상기 레프리젠테이션은, 프로그램 요약 및 콘텐츠 테이블을 만들 때 상기 제1 및 제2 단서들과 관련된 문자화 정보로부터 추출된 정보와 연결되어 사용될 수 있다. 따라서, 사용자는, 프로그램 동안 일어난 이벤트들의 목록 및 상기 이벤트들이 일어난 프로그램동안의 시간들을 볼 수 있을 뿐 아니라, 상기 사용자는 이벤트의 시각적 레프리젠테이션을 보거나 이벤트의 오디오 클립을 들을 수 있다. 결과적으로, 시청자는 프로그램의 특정 부분이 시청되어야하는지에 대한 결정을 내리는 데 있어서 도움을 받는다.

그 후에, 상기 방법은 광고 브레이크가 일어났는지를 결정하기 위해 문자화 정보를 모니터링한다(단계 58). 광고 탐지는 지식 데이터베이스에 의해 제공되는 단서들을 통해 일어날 수 있다. 만일 광고가 탐지되면, 프로그램 동안의 광고 시간이 표시되고 저장된다(예를 들어, 프로그램에서 하나의 세그먼트의 끝 및 또 다른 세그먼트의 시작을 가리키는). 그리고 나서 상기 프로그램이 끝났는지에 대한 결정이 내려진다. 프로그램의 끝은 광고 탐지에 대해 위에서 설명된 것과 유사한 방법으로 결정된다. 구체적으로, 폐쇄적-자막 텍스트는, 토크쇼에 대해 "다음주에 뵙겠습니다.", "감사합니다.", 및 "안녕히 주무십시오."와 같은 어구들에 대해 모니터링될 수 있다. "Method and Apparatus for Recording Programs Prior to or Beyond Present Time Period"라는 제목의 PCT/EP01/00309(attorneys' docket PHUS000034)에 공개된 것과 여기에서 참고에 의해 통합된 전체 공개와 같은 다른 알려진 프로그램 끝 검출 방법들이 채용될 수 있다. 만일 프로그램의 끝이 검출되지 않는다면, 상기 방법은 새로운 제1 및 제2 단서들이 결정되는 것으로 되돌아 간다. 만일 프로그램의 끝이 검출된다면, 문자화 정보로부터 추출된 정보는 대응 시간 스탬프 및 사용자에 의한 접속을 위한 레프리젠테이션(가령, 오디오/비디오)과 함께 시간적 순서로 메모리에 저장된다. 프로그램 요약은 추출된 정보를 사용하여 생성되고 콘텐츠 테이블은 위에서 설명되었다시피 상기 프로그램 요약에 담겨있는 정보로부터 생산된다. 그 후에, 상기 방법은 끝난다.

문자화 정보에 있는 단서들의 탐지와 동시에, 본 발명은 프로그램 요약 및 콘텐츠 테이블과는 독립된 비디오 프로그램 문자화 정보의 프로그램 인덱스를 생성한다는 것이 구체적으로 다시 언급되어야 한다. 바람직한 실시예에서, 본 발명은 프로그램 동안 특정 단어들의 발생에 대한 텍스트적 정보를 모니터링 한다. 본 발명은, 텍스트에서 식별된 단어들을 특정 주제들과 연관짓는 룩-업 테이블을 포함한다. 다음은 주제들 및 관련 단어들의 몇몇 예이다.

영화 > 배우, 여배우, 글래머, 헐리우드, 스타들, 필름, 오스카, 아카데미상, 스릴러, 영화, 탤런트.

음악 > 가수, 노래, 앨범, 솔로, 레코드, 팝, 보컬, cd, 목소리, 음악, 공연, 탤런트.

정치 > 공화당원, 민주당원, 대통령, 상원의원, 대외적인, 정책, 선거, 투표, 총리, 리더, 정치.

프로그램 인덱스는 프로그램 동안 가장 자주 언급되는 단어들과 관련된 주제들 및 상기 주제들이 일어나는 시간을 열거한다. 프로그램 인덱스는 프로그램 동안 특정 주제가 논의되었는지 판단하기 위해 사용자에 의해 참고자료로서 사용될 수 있다. 더 나아가, 프로그램 인덱스는 프로그램 동안 사용된 단어들 및 상기 단어들이 사용된 프로그램의 부분의 목록을 포함한다. 상기 단어 또는 주제 인덱스는, 키워드 검색과 통계적 텍스트 인덱싱 및 검색과 같은 알려진 단어 및 주제 추출 방법들을 사용하여 생성될 수 있다. 더욱이, 상기 프로그램 인덱스는 프로그램 콘텐츠의 재공식화 테이블이 될 수도 있다. 예를 들어, 콘텐츠 테이블이 다음과 같을 때 :

데이비드 레터맨 00:00 내지 12:15

정치 1:42 내지 7:15

추수감사절 7:15 내지 9:30

모델 9:30 내지 12:15

게스트1 : 미쉘 파이퍼 16:17 내지 23:00

...(상기와 유사함)

광고 2:23:01 내지 28:00

게스트2 : 에단 호크 28:01 내지 28:15

...

광고 3:38:16 내지 44:00

게스트3 : 조니 미첼 44:01 내지 59:00

...(상기와 유사함)

끝 : 59:01 내지 60:00

그리고 결과적인 프로그램 인덱스는 주제들이 뒤따르는 이름들의 알파벳 순서 목록이다. :

데이비드 레터맨(David Letterman) 00:00 내지 12:15

에단 호크(Ethan Hawk) 28:01 내지 28:15

조니 미첼(Joni Mitchell) 44:01 내지 59:00

미쉘 파이퍼(Michelle Pfeiffer) 16:17 내지 23:00

모델(model) 9:30 내지 12:15

정치(politics) 1:42 내지 7:15

추수감사절(thanksgiving) 7:15 내지 9:30

비록 본 발명이 토크쇼와 관련하여 위에서 논의되었다고 할지라도, 본 발명은 어떤 타입의 프로그램에도 적용가능하다. 그러나, 본 발명은, 이미 알려진 포맷을 갖고 적절한 정보에 의해 뒤따르는 매 쇼마다 특정 어구들을 반복하는(가령, "오늘밤 우리의 첫 이야기는...", "우리의 첫 번째 게스트는...") 토크쇼, 뉴스 프로그램들, 게임 쇼 및 스포츠 이벤트들과 같은 고도로 구조화된 프로그램들과의 사용에 대해 가장 적합하다.

본 발명에 따른 장치는 셋톱 박스 또는 오디오/데이터/비디오 신호 프로세서에 연결된 독립형 디바이스, 또는 다른 시청 디바이스(viewing device : 가령, 컴퓨터)에 포함된다. 상기 방법은 또한, 비디오/오디오 프로그램들의 데이터베이스에 적용되거나 인터넷으로부터 서비스로서 제공될 수 있다.

본 발명이 텔레비전 방송 신호를 갖는 사용 환경에서 설명되는 반면에, 예를 들어 노래 인덱스를 제공하는 오디오 프로세서들(가령, 라디오), 인터넷 기반 신호들, 비디오 스트리밍, 오디오 스트리밍 또는 본 발명과 일치하여 검색되고 처리될 수 있는 텍스트 정보를 만드는 다른 저장된 콘텐츠를 스캔하기 위해 인터넷 접속성을 갖는 컴퓨터들을 갖는 시스템도 사용될 수 있다는 것이 예상된다.

첨부된 도면들을 참고하여 본 발명의 특정된 바람직한 실시예들을 설명해 놓았기 때문에, 본 발명이 그러한 정확한 실시예들에 한정되지 않고 다양한 변형들 및 수정들을 당업자 중 1인이 첨부된 청구항들에 의해 규정된 발명의 범위로부터 벗어남이 없이 영향받을 수 있다는 것이 인식될 수 있을 것이다. 예를 들어, 검색된 단서들은 사용자에 의해 사용자의 특정 목적에 적합하도록 변형될 수 있고, 그래서 특정 타입의 프로그램에 대해 반복 텍스트 정보에 기초한 시스템에 의해 상기 단서들이 학습될 수도 있다(가령, 인공 지능을 사용하여)는 것이 예견된다. 복수의 단서들이 동시에 검색될 수 있어서 본 발명이 한번에 하나의 단서에 대한 검색에 한정되지 않는다는 것이 또한 예견된다.

청구항들에서, 괄호들 안에 놓인 참조 기호들은 청구항을 한정하는 것으로 파악되지는 않을 것이다. "포함하는"이라는 단어는 청구항에 열거된 단어들 이외의 요소들 또는 단계들의 존재를 제외하지 않는다. 어떤 요소에 선행하는 "a" 또는 "an" 이라는 단어는 복수의 그러한 요소들의 존재를 제외하지는 않는다. 본 발명은 몇몇 별개 요소들을 포함하는 하드웨어를 통해, 그리고 적당하게 프로그램된 컴퓨터를 통해 구현될 수 있다. 몇몇 수단들을 열거하는 디바이스 청구항에서, 이러한 수단들의 몇몇은 하드웨어의 하나 또는 동일한 아이템으로 실재화될 수도 있다. 어떤 수단들은 서로 다른 종속항에 인용된다는 단순한 사실이 이러한 수단들의 조합이 유리한 입장에 사용되지 않을 수 있다는 것을 가리키지는 않는다.

Claims

프로그램 요약 방법에 있어서,

상기 프로그램과 관련있는 문자화 정보를 제공하는 단계(14);

프로그램의 타입을 분류하는 단계(13);

상기 분류된 프로그램 타입에 기초하여 상기 문자화 정보에서 식별하기 위해 복수의 단서들 중 적어도 제1 단서를 결정하는 단계(16);

상기 문자화 정보에서 적어도 제1 단서를 식별하는 단계(16, 18);

상기 문자화 정보에서 식별된 상기 적어도 제1 단서에 기초하여 상기 문자화 정보의 일부를 저장하는 단계; 및

상기 문자화 정보의 상기 저장된 일부에 기초하여 프로그램의 요약을 생성하는 단계(10)를 포함하는, 프로그램 요약 방법.
제1 항에 있어서,

상기 적어도 제1 단서가 상기 문자화 정보에서 식별되는, 프로그램의 시작에 대한 상대적 시간을 메모하는 단계를 더 포함하는, 프로그램 요약 방법.
제1 항에 있어서,

프로그램의 타입에 기초하여 상기 문자화 정보에서 식별하기 위해 복수의 단서들의 적어도 제2 단서를 결정하는 단계(116);

상기 적어도 제2 단서를 검색하기 위해 최대 시간 기간을 결정하는 단계(22);

상기 문자화 정보에서 상기 제2 단서를 식별하는 단계(16);

상기 최대 시간 기간의 만료 이전에 상기 문자화 정보에서 상기 적어도 제2 단서가 식별되었는지를 결정하는 단계(16, 22)로서, 여기에서 만일 상기 최대 시간 기간의 만료 이전에 상기 문자화 정보에서 상기 적어도 제2 단서가 식별되지 않았다면, 상기 문자화 정보에서 새로운 적어도 제1 및 적어도 제2 단서들을 정의하고 식별하는 단계를 더 포함하는, 프로그램 요약 방법.
제3 항에 있어서,

상기 제2 단서가 상기 문자화 정보에서 식별되는, 프로그램의 시작에 대한 상대적 시간을 메모하는 단계를 더 포함하는, 프로그램 요약 방법.
제3 항에 있어서,

상기 문자화 정보에 있는 적어도 제1 단서 및 적어도 제2 단서의 적어도 하나의 식별에 기초하여 상기 문자화 정보로부터 데이터를 추출하는 단계; 및

프로그램의 요약을 생성하기 위해 상기 추출된 데이터 및 상기 분류된 프로그램 타입을 사용하는 단계를 더 포함하는, 프로그램 요약 방법.
제5 항에 있어서,

프로그램과 관련된 오디오/데이터/비디오 신호를 수신하는 단계;

상기 추출된 데이터와 관련된 시각적 또는 청각적 레프리젠테이션의 적어도 하나를 식별 및 추출하기 위해 상기 오디오/데이터/비디오 신호를 분석하는 단계; 및

상기 시각적 또는 청각적 레프리젠테이션의 적어도 하나를 상기 프로그램 요약과 관련시키는 단계를 더 포함하는, 프로그램 요약 방법.
제3 항에 있어서,

상기 복수의 단서들 중 적어도 하나가 특정 단어들, 어구들 또는 문장들에 대응하여 문자화 정보에서 식별되는, 프로그램 요약 방법.
제1 항에 있어서,

상기 프로그램의 타입을 분류하는 단계가, 전자적 프로그램 가이드(EPG) 데이터, 그림 정보, 오디오 정보 및 상기 문자화 정보 중 적어도 하나를 분석하는 단계를 더 포함하는, 프로그램 요약 방법.
제3 항에 있어서,

상기 적어도 제1 단서 및 상기 적어도 제2 단서가 상기 분류된 타입의 프로그램에 기초하여 데이터베이스(18)로부터 선택되는, 프로그램 요약 방법.
제5 항에 있어서,

상기 문자화 정보로부터 추출된 데이터가, 상기 식별된 적어도 제1 단서 및 적어도 제2 단서에 근사하고 프로그램의 구조에 대한 지식에 기초하는, 프로그램 요약 방법.
제5 항에 있어서,

상기 프로그램이 토크쇼이고, 상기 추출된 정보가 게스트의 이름, 상기 게스트가 알려진 분야, 및 상기 게스트가 나온 비디오 프로그램 동안의 시간 기간 중 적어도 하나인, 프로그램 요약 방법.
제1 항에 있어서,

상기 문자화 정보에서 식별하기 위해 적어도 하나 더 단서를 결정하는 단계로서, 상기 적어도 하나 더의 단서가 프로그램의 상기 분류된 타입에 기초하여 데이터베이스로부터 선택되는 단계; 및

상기 문자화 정보에서 상기 적어도 하나 더의 단서를 식별하는 단계를 더 포함하는, 프로그램 요약 방법.
문자화 정보를 사용하는 프로그램 요약 장치로서,

오디오/데이터/비디오 신호를 수신하기 위한 오디오/데이터/비디오 입력 포트(12);

상기 수신된 오디오/데이터/비디오 신호에 기초하여 일반화된 프로그램의 타입 카테고리를 식별하는 프로그램 타입 탐지기(13);

프로그램에 대응하는 문자화 정보를 제공하는 오디오/데이터/비디오 입력 포트에 기능하도록 연결된 문자화 정보 추출기(14);

단서들의 복수의 그룹들을 저장하는 단서 데이터베이스(18)로서, 상기 단서들의 복수의 그룹들의 각각이 프로그램의 일반화된 타입 카테고리 하나와 관련되고 상기 문자화 정보에서 식별되는 복수의 단서들을 포함하는 단서 데이터베이스(18); 및

상기 문자화 정보 추출기로부터 문자화 정보를 수신하기 위해 상기 문자화 정보 추출기(14)에 동작하도록 연결된 단서 추출기(16)로서, 상기 단서 추출기(16)는 또한 상기 단서 데이터베이스(18)에 동작하도록 연결되고 상기 문자화 정보에서 어떤 단서들을 식별하는지에 대해서 상기 프로그램 타입 탐지기(13)에 의해 식별된 프로그램의 일반화된 타입 카테고리에 기초하여 상기 단서 데이터베이스(18)로부터 지시를 수신하고, 상기 단서 추출기(16)는 상기 식별된 일반화된 타입 카테고리의 복수의 단서들 중 적어도 하나의 단서에 대응하는 문자화 정보의 일부를 식별하는, 그러한 단서 추출기(16)를 포함하는, 프로그램 요약 장치.
제13 항에 있어서,

상기 단서 추출기(16)가 또한 상기 적어도 하나의 단서가 식별되는 프로그램의 시작에 대한 시간을 식별하는, 프로그램 요약 장치.
제13 항에 있어서,

상기 단서 추출기(16)는 상기 적어도 하나의 단서 및 제2 단서 각각과 관련된 문자화 정보의 부분들을 식별하고, 상기 단서 추출기(16)는 프로그램 동안 적어도 하나의 단서 및 제2 단서의 식별의 시간에 대응하는 제1 및 제2 시간 스탬프들을 가리키는, 프로그램 요약 장치.
제13 항에 있어서,

상기 단서 데이터베이스(18)에 동작하도록 연결된 시간적 데이터베이스(22)로서, 만일 상기 적어도 하나의 단서가 상기 문자화 정보에서 식별된다면, 상기 제2 단서는 특정 시간 기간 내에 나타나야 하는 시간 기간들에 관련되는 복수의 타이밍 규칙들을 저장하는 시간적 데이터베이스(22);

상기 시간적 데이터베이스(22) 및 상기 단서 추출기(16) 둘 모두에 동작하도록 연결된 추론 엔진(20)으로서, 상기 추론 엔진(20)은 상기 적어도 하나의 단서 및 제2 단서에 대응하여 상기 단서 추출기(16)에 의해 식별된 상기 문자화 정보의 일부를 수신하고, 상기 추론 엔진(20)은 또한 상기 복수의 타이밍 규칙들을 수신하고, 상기 추론 엔진(20)은 상기 적어도 하나의 단서 및 제2 단서에 대한 상기 문자화 정보의 일부들의 식별이 올바른지를 결정하기 위해 상기 복수의 타이밍 규칙들의 적어도 하나를 적용하고, 상기 추론 엔진(20)은 또한 상기 문자화 정보를 수신하고 상기 단서 추출기에 의해 상기 문자화 정보의 일부들 중 적어도 하나의 식별에 기초하여 정보를 추출하는, 추론 엔진(20); 및

상기 추론 엔진에 의해 추출된 정보를 저장하기 위한 메모리를 포함하는, 프로그램 요약 장치.
제13 항에 있어서,

상기 문자화 정보는 상기 오디오/데이터/비디오 신호로부터 얻어진 폐쇄적-자막 텍스트, 스피치-투-텍스트, 부제목들 또는 제3자 자원으로부터 얻어진 비디오 프로그램에 대응하는 텍스트 정보 중 어느 하나인, 프로그램 요약 장치.
프로그램을 인덱싱하는 방법에 있어서,

프로그램과 관련된 문자화 정보를 제공하는 단계로서, 상기 문자화 정보는 복수의 단어들을 포함하는 문자화 정보 제공 단계;

특정 단어들의 발생을 메모하기 위해 상기 문자화 정보를 모니터링하는 단계;

상기 특정 단어들의 발생에 대응하는 프로그램 동안의 시간을 메모하는 단계; 및

상기 특정 단어들과 상기 특정 단어들이 발생한 프로그램 동안의 상기 시간을 관련시키는 단계를 포함하는, 프로그램 인덱싱 방법.
제18 항에 있어서,

상기 특정 단어들의 발생을 복수의 주제들 중 어느 하나에 연결하는 단계; 및

상기 복수의 주제들과 상기 특정 단어들이 발생한 상기 비디오 프로그램 동안의 시간을 관련짓는 단계를 더 포함하는, 프로그램 인덱싱 방법.
프로그램을 요약 및/또는 인덱싱하는 방법에 있어서,

상기 프로그램과 관련된 문자화 정보를 제공하는 단계; 및

요약 및/또는 상기 프로그램의 인덱스를 얻기 위해 상기 문자화 정보를 처리하는 단계를 포함하는, 프로그램 요약 및/또는 인덱싱 방법.