KR100899296B1

KR100899296B1 - 주도적 멀티미디어 큐들을 선택하는 장치 및 컴퓨터로 구현되는 방법

Info

Publication number: KR100899296B1
Application number: KR1020027017707A
Authority: KR
Inventors: 라두에스. 자신치; 제니퍼 루이스
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-04-26
Filing date: 2002-04-22
Publication date: 2009-05-27
Also published as: JP2004520756A; EP1393207A2; WO2002089007A2; CN1284103C; US20020159750A1; CN1582440A; WO2002089007A3; JP4332700B2; KR20030097631A

Abstract

본 발명은 주어진 장르의 프로그램을 특징짓는 멀티미디어 큐들(multimedia cues)을 이용하여 비디오를 분할 및 인덱싱하는 방법에 관한 것이다. 본 발명에 따르면, 이들 멀티미디어 큐들은 비디오 세그먼트들의 각각의 프레임에 대해 계산된 멀티미디어 정보 확률에 의해 선택된다. 비디오 세그먼트들 각각은 서브-세그먼트들로 분할된다. 각각의 프레임에 대한 멀티미디어 정보를 이용하여 서브-세그먼트들 각각에 대해서도 역시 멀티미디어 정보의 확률 분포가 계산된다. 각각의 세그먼트들에 대한 확률 분포는 결합되어 결합된 확률 분포(combined probability distribution)를 형성한다. 나아가, 결합된 확률 분포에서 가장 높은 확률을 갖는 멀티미디어 정보가 주도적 멀티미디어 정보로서 선택된다.

멀티미디어 큐, 멀티미디어 정보 확률, 비디오 세그먼트, 분할, 인덱싱.

Description

주도적 멀티미디어 큐들을 선택하는 장치 및 컴퓨터로 구현되는 방법{A COMPUTER IMPLEMENTED METHOD AN APPARATUS OF SELECTING DOMINANT MULTI-MEDIA CUES}

본 발명은 대체로 비디오 데이터 서비스들 및 디바이스들에 관한 것으로, 보다 구체적으로는, 멀티미디어 큐들(multimedia cues)을 이용하여 TV 프로그램들을 분할 및 인덱싱하기 위한 방법 및 디바이스에 관한 것이다.

오늘날의 시장에는, 많은 비디오 데이터 서비스 및 디바이스들이 있다. 그 한 예가 TIVO 박스이다. 이 디바이스는, 위성, 케이블 또는 방송 TV를 지속적으로 기록할 수 있는 개인용 디지털 비디오 레코더이다. 또한, TIVO 박스는 이용자로 하여금 기록될 특정 프로그램이나 프로그램의 카테고리를 선택할 수 있도록 해주는 전자 프로그램 가이드(Electronic Program Guide; EPG)를 포함한다.

TV 프로그램들이 분류되는 한 가지 방법은 장르(Genre)에 따르는 것이다. 장르는 TV 프로그램들을 비지니스, 다큐멘터리, 드라마, 건강, 뉴스, 스포츠, 대담등과 같은 카테고리별로 기술한다. 장르 분류의 한 예는 Tribune Media Services EPG에서 볼 수 있다. 이 특정 EPG에서, "tf_genre_desc"라 표시된 필드(173 내지 178)들은 TV 프로그램 장르의 텍스트적 기술(textual description)을 위해 예약된 것이다. 따라서, 이들 필드들을 이용하여, 이용자는 특정 유형의 장르의 프로그램들을 기록하도록 TIVO-유형의 박스를 프로그래밍할 수 있다.

그러나, EPG-기반의 기술(description)을 이용하는 것이 항상 바람직한 것은 아니다. 우선, EPG 데이터가 항상 이용가능하거나 항상 정확한 것은 아니다. 나아가, 현재의 EPG들에서의 장르 분류는 전체 프로그램에 대한 것이다. 그러나, 하나의 프로그램에서의 장르 분류는 세그먼트별로 달라질 수도 있다. 따라서, EPG 데이터와는 독립적으로(1Y) 프로그램으로부터 직접적으로 장르 분류를 생성하는 것이 바람직하다.

본 발명은 다수의 비디오 세그먼트들로부터 주도적 멀티미디어 큐들(dominant multimedia cues)을 선택하는 방법에 관한 것이다. 이 방법은 비디오 세그먼트들의 각 프레임에 대해 멀티미디어 정보 확률을 계산하는 것을 포함한다. 비디오 세그먼트들의 각각은 서브-세그먼트들로 분할된다. 각 프레임에 대한 멀티미디어 정보를 이용하여 서브-세그먼트들 각각에 대해서도 멀티미디어-정보의 확률 분포가 계산된다. 각 서브-세그먼트에 대한 확률 분포는 결합되어 결합된 확률 분포(combined probability distribution)를 형성한다. 나아가, 결합된 확률 분포에서 가장 높은 결합된 확률을 갖는 멀티미디어 정보가 주도적 멀티미디어 큐로서 선택된다.

본 발명은 비디오를 분할 및 인덱싱하는 방법에도 역시 관련되어 있다. 이 방법은 비디오로부터 선택된 프로그램 세그먼트들을 포함한다. 프로그램 세그먼트들은 프로그램 서브-세그먼트들로 분할된다. 장르-기반의 인덱싱은 주어진 장르의 프로그램을 특징짓는 멀티미디어 큐들을 이용하여 프로그램 서브-세그먼트들에 수행된다. 나아가, 프로그램 서브-세그먼트들에서 객체-기반의 인덱싱도 수행된다.

본 발명은 비디오를 저장하는 방법에도 관련되어 있다. 이 방법은 비디오를 전-처리하는 것을 포함한다. 또한, 프로그램 세그먼트들이 비디오로부터 선택된다. 주어진 장르의 프로그램을 특징짓는 멀티미디어 큐들을 이용하여 프로그램 서브-세그먼트들에 장르-기반의 인덱싱이 수행된다. 나아가, 프로그램 서브-세그먼트들에서 객체-기반의 인덱싱도 수행된다.

본 발명은 비디오를 저장하기 위한 디바이스에도 관련되어 있다. 이 디바이스는 비디오를 전-처리하는 프리-프로세서(pre-processor)를 포함한다. 분할 및 인덱싱 유닛이 포함되어, 비디오로부터 프로그램 세그먼트들을 선택하고, 프로그램 세그먼트들을 프로그램 서브-세그먼트들로 분할하고, 주어진 장르의 프로그램을 특징짓는 멀티미디어 큐들을 이용하여 프로그램 서브-세그먼트들에 장르-기반의 인덱싱을 수행하여 인덱싱된 프로그램 서브-세그먼트들을 생성한다. 인덱싱된 프로그램 서브-세그먼트들을 저장하기 위해 저장 유닛도 역시 포함된다. 나아가, 분할 및 인덱싱 유닛은 프로그램 서브 세그먼트들에 객체-기반의 인덱싱도 수행한다.

도 1은 본 발명에 따른 멀티미디어-큐들을 결정하기 위한 방법의 한 예를 도시하는 흐름도이다.

도 2는 중간-레벨 오디오 정보에 대한 확률의 한 예를 도시하는 테이블이다.

도 3은 본 발명에 따른 투표들 및 문턱값들의 시스템의 한 예를 도시하는 테이블이다.

도 4는 도 3의 시스템을 이용하여 계산된 확률 분포를 도시하는 막대 그래프이다.

도 5는 본 발명에 따라 TV 프로그램들을 분할 및 인덱싱하는 방법의 한 예를 도시하는 흐름도이다.

도 6은 본 발명에 따른 멀티-미디어 큐들의 또 다른 예를 도시하는 막대 그래프이다.

도 7은 본 발명에 따른 비디오 기록 디바이스의 한 예를 도시하는 블럭도이다.

멀티미디어 정보는 (i) 오디오, (ii) 비주얼, 및 (iii) 텍스트를 포함하는 3개 영역으로 분할된다. 각 영역 내의 이 정보는 저, 중, 고-레벨을 포함하는 서로 다른 입도(level of granularity)로 분할된다. 예를 들어, 저-레벨 오디오 정보는 평균 신호에너지, 켑스트랄 계수(cepstral coefficients), 및 피치(pitch)와 같은 신호 처리 파라미터들에 의해 기술된다. 저-레벨 비주얼 정보의 한 예는, 각각의 픽셀에 나타나는 컬러, 모션, 형상, 및 텍스쳐와 같은 시각적 특성을 포함한 픽셀 또는 프레임-기반이다. 캡션(closed captioning; CC)의 경우, 저-레벨 정보는 문자나 단어와 같은 ASCII 문자들로 주어진다.

본 발명에 따르면, 중간-레벨 멀티미디어 정보를 이용하는 것이 바람직하다. 이와 같은 중간-레벨 오디오 정보는 묵음, 잡음, 음성, 음악, 음성 + 잡음, 음성 + 음성, 및 음성 + 음악 카테고리들로 이루어진다. 중간-레벨 비주얼 정보의 경우, 키-프레임들이 이용되며, 이 프레임들은, 새로운 비디오 장면(유사한 강도 프로파일을 갖는 비디오 프레임들의 시퀀스), 컬러, 및 비주얼 텍스트(비디오 영상에 중첩된 텍스트)의 제1 프레임으로서 정의된다. 중간-레벨 CC 정보의 경우, 한 세트의 키워드들(텍스트 정보를 나타내는 단어들)과, 날씨, 국제정세, 범죄, 스포츠, 영화, 패션, 테크 스톡(tech stock), 음악, 자동차, 전쟁, 경제, 에너지, 재난, 예술 및 정치와 같은 카테고리들로 이루어진다.

3개의 멀티미디어 영역들의 중간-레벨 정보로서 확률들이 사용된다. 이들 확률들은 0과 1 사이의 실수로서, 각 영역에 대해 각 카테고리가 주어진 비디오 세그먼트 내에서 어떻게 나타나는지를 결정한다. 예를 들어, 주어진 카테고리에 대해 1에 가까운 숫자들은 주어진 카테고리가 비디오 시퀀스부의 일부가 될 확률이 높은 반면, 0에 가까운 숫자들은 대응하는 카테고리가 비디오 시퀀스내에서 생성할 가능성이 다소 작다는 것을 의미한다. 본 발명은 상술한 중간-레벨 정보의 특정한 선택에 제한되지 않는다는 것에 주의된다.

본 발명에 따르면, 프로그램의 특정한 유형에 대해 주도적 멀티미디어 특성들 또는 큐들이 있다는 것이 발견되었다. 예를 들어, 프로그램 세그먼트들 내에서보다 광고방송 내에는 더 높은 퍼센트의 단위시간당 키-프레임들이 있다. 나아가, 토크쇼에는 대개 상당한 양의 음성(speech)이 있다. 따라서, 본 발명에 따르면, 도 2와 연계하여 이하에서 설명되는 바와 같이, 이들 멀티미디어 큐들이 TV 프로그램들을 분할하고 인덱싱하는데 이용된다. 특히, 이들 멀티미디어 큐들은 TV 프로그램 서브-세그먼트들에 대해 장르 분류 정보를 생성하는데 이용된다. 대조적으로, TIVO 박스와 같은 현재의 개인용 비디오 레코더들은 EPG에서의 간단한 기술적 텍스트 정보로서 전체 프로그램에 대한 장르 분류만을 포함한다. 나아가, 본 발명에 따르면, 멀티미디어 큐들은 광고방송 세그먼트들부터 프로그램 세그먼트들을 분리하는데에도 이용된다.

멀티미디어 큐들은, 이용하기 전에, 먼저 결정된다. 본 발명에 따른 멀티미디어 큐들의 결정 방법의 일례가 도 1에 도시되어 있다. 도 1의 방법에서, 각각의 프로그램에 대한 이산적 비디오 세그먼트들이 단계들(2-10)에서 처리된다. 나아가, 단계들(12-13)에서, 특정 장르에 대한 멀티미디어 큐들을 결정하기 위해 다수의 프로그램들이 처리된다. 본 논의를 위해, 비디오 세그먼트들은 케이블, 위성 또는 방송 TV 프로그래밍으로부터 생성할 수 있다고 가정한다. 이런 유형들의 프로그래밍은 프로그램 세그먼트들 및 광고방송 세그먼트들 양쪽 모두를 포함하기 때문에, 비디오 세그먼트는 프로그램 세그먼트일 수도 있고 광고방송 세그먼트일 수도 있다고 가정한다.

단계(2)에서, 비디오의 각 프레임에 대한 멀티미디어 정보 확률이 계산된다. 이것은, 비디오의 각 프레임에서의 오디오, 비디오 및 트랜스크립트와 같은 멀티미디어 정보의 생성 확률의 계산을 포함한다. 단계(2)를 수행하기 위해, 멀티미디어 정보의 카테고리에 따라 다른 기법들이 이용된다.

키프레임에서와 같은 비주얼 영역에서, 프레임 차이들을 결정하기 위해 DCT 계수들의 DC 성분들로부터의 매크로블럭 레벨 정보가 이용된다. 키프레임 생성 확률은 (실험적으로) 주어진 문턱값보다 더 큰 주어진 DC 성분 차이의 정규화된 숫자로서 0과 1 사이의 숫자이다. 2개의 연속된 프레임들에 대해, DC 성분들이 추출된다. 이 차이는 실험적으로 결정되는 문턱값과 비교된다. 또한, DC 성분 차이의 최대값이 계산된다. 이 최대값과 0(DC 차이는 문턱값과 동일함) 사이의 범위는 확률을 계산하는데 이용된다. 확률은 (DC_차이 - 문턱값) / 최대_DC_차이와 동일하다.

비디오 텍스트의 경우, 확률은, 에지 검출, 문턱값설정, 영역병합, 및 문자형상추출을 순차적으로 이용하여 계산된다. 현재의 구현에서, 프레임마다 텍스트 문자들의 존재 또는 부재만이 고찰된다. 따라서, 텍스트 문자들이 존재할 확률은 1이고, 텍스트 문자들이 부재할 확률은 0이다. 나아가, 면들(faces)에 대한 확률은, 면 표면 톤 컬러와 타원면 형상의 조합에 의존하는 주어진 확률로 검출함으로써 계산된다.

오디오 영역에서, 각각의 22 ms 시간 창 "세그먼트"에 대해, 묵음, 잡음, 음성, 음악, 음성 + 잡음, 음성 + 음성, 및 음성 + 음악 카테고리들 간의 분류가 이루어진다. 이것은 단지 하나의 카테고리만이 승리하는 "승자 독식(winner take all)" 결정이다. 그 다음, 이것은 약 2초의 지속기간을 갖는 이와 같은 연속된 100개의 세그먼트들에 대해 반복된다. 그 다음, 주어진 카테고리 분류를 갖는 세그먼트들의 개수에 대한 카운트(또는 투표)가 수행되고 이는 100으로 나누어진다. 이것은 매 2초 시간구간에 대해 각각의 카테고리에 대한 확률을 산출한다.

트랜스크립트 영역에서, 날씨, 국제정세, 범죄, 스포츠, 영화, 패션, 테크 스톡, 음악, 자동차, 전쟁, 경제, 에너지, 주식, 폭력, 금융, 국가, 바이오테크, 재난, 예술, 및 정치를 포함한 20개의 캡션(close captioning) 카테고리가 있다. 각각의 카테고리는 한 세트의 "마스터" 키워드와 연관되어 있다. 이들 키워드 세트에는 중복이 존재한다. 각각의 CC 패러그래프에 대해, 반복되는 단어들 및 20개 목록의 "마스터" 키워드와 매칭하는 단어들과 같은 키워드들이 심볼 ">>" 사이에서 결정된다. 둘 사이에 매칭이 있다면, 그 키워드에 대한 투표(vote)가 주어진다. 이것은 패러그래프 내의 모든 키워드들에 대해 반복된다. 마지막으로, 이들 투표들은 각각의 패러그래프 내의 이 키워드의 총 생성수에 의해 나누어진다. 따라서, 이것은 CC 카테고리 확률이다.

단계(2)에서, 양호하게는, 각 도메인 내의 멀티미디어 정보의 (중간-레벨) 카테고리들 각각에 대한 확률이 계산된다. 이것은 비디오 시퀀스의 각 프레임에 대해 수행된다. 오디오 영역에서의 이와 같은 확률들의 예가 도 2에 도시되어 있다. 이것은 앞서 정의된 바와 같은 7개의 오디오 카테고리들을 포함한다. 도 2의 처음 두 개 컬럼들은 비디오의 시작 프레임 및 끝 프레임에 대응한다. 반면, 마지막 7개 컬럼들은, 각각의 중간-레벨 카테고리 대해 하나씩, 대응하는 확률들을 포함한다.

다시 도 1을 참조하여, 단계(4)에서, 주어진 TV 프로그램 유형을 특징짓는 멀티미디어 큐들이 초기에 선택된다. 그러나, 이 때, 이 선택은 공통의 지식에 기초한다. 예를 들어, TV 광고방송은 대개 높은 커트율(=단위시간당 많은 장면 수 또는 평균 키-프레임들 수)을 가지며, 시각적 키프레임 레이트 정보를 이용한다는 것은 잘 알려져 있다. 또 다른 예에서, MTV 프로그램들에서, 대다수의 경우, 많은 음악이 있다는 것이 일반적이다. 따라서, 상식적으로 오디오 큐들이 사용되어야 하며, 특히, 음악 및 (때로는) "음성 + 음악" 카테고리에 중점을 두어야 한다. 따라서, 공통의 지식은 TV 프로그램들에서 (분야 검사로 확인되는) 통상적인 TV 제작 큐 및 요소들의 총체가 된다.

단계(6)에서, 비디오 세그먼트들은 서브-세그먼트들로 분할된다. 단계(6)은 비디오 세그먼트들을 임의의 동일한 서브-세그먼트들로 분할하거나 미리-계산된 모자이크식 세공(tessellation)의 이용을 포함한 다양한 방식으로 수행될 수 있다. 나아가, 비디오 세그먼트들은, 캡션 정보가 비디오 세그먼트들의 트랜스크립트 정보 내에 포함되어 있다면, 캡션 정보를 이용하여 분할될 수도 있다. 잘 알려진 바와 같이, 캡션 정보는, 주제나 화자의 변경을 나타내기 위해, 알파벳 문자들을 나타내는 ASCII 문자들 외에, 이중 화살표와 같은 문자들을 포함한다. 화자나 주제의 변경은 비디오 콘텐트 정보에서의 중요한 변경을 나타낼 수 있기 때문에, 각각의 화자 변경 정보에 관련된 방식으로 비디오 세그먼트들을 분할하는 것이 바람직하다. 따라서, 단계(6)에서, 이와 같은 문자들의 생성지점에서 비디오 세그먼트들을 분할하는 것이 바람직할 것이다.

단계(2)에서 계산된 확률을 이용하여, 서브-세그먼트들 각각 내에 포함된 멀티미디어 정보에 대한 확률 분포가 단계(8)에서 계산된다. 이것이 필요한 이유는, 계산된 확률들은 각각의 프레임에 대한 것이며 TV 프로그램들의 비디오에는 많은 프레임들, 전형적으로 초당 약 30 프레임들이 있기 때문이다. 따라서, 서브-세그먼트들당 확률 분포를 결정함으로써, 상당한 조밀성(compactness)이 얻어진다. 단계(8)에서, 각각의 확률을 멀티미디어 정보의 각각의 카테고리에 대한 (미리 결정된) 문턱값과 먼저 비교함으로써, 확률 분포가 얻어진다. 최대의 프레임량이 통과하는 것을 허용하기 위해, 0.1과 같은 낮은 문턱값이 양호하다. 만일 각각의 확률이 대응하는 문턱값보다 크다면, 그 카테고리에는 1이 연관된다. 각각의 확률이 그 대응하는 문턱값보다 크지 않다면, 0이 할당된다. 나아가, 각각의 카테고리에 0 및 1을 할당한 이후에, 이들 값들은 합산되어 비디오 서브-세그먼트에 대한 총 프레임 수에 의해 나누어진다. 이것은 문턱값 세트를 조건으로 한 주어진 카테고리 존재 횟수를 결정하는 수가 된다.

단계(10)에서, 단계(8)에서의 각각의 서브-세그먼트에 대해 계산된 확률 분포들이 결합되어 특정 프로그램 내의 모든 비디오 세그먼트들에 대해 하나의 확률 분포를 제공한다. 본 발명에 따르면, 단계(10)은 서브-세그먼트들 각각의 확률 분포의 평균 또는 가중 평균을 형성함으로써 수행될 수도 있다.

단계(10)에 대한 가중 평균을 계산하기 위해, 투표 또는 문턱값 시스템이 이용되는 것이 양호하다. 이와 같은 시스템의 예가 도 3에 도시되어 있다. 여기서, 처음 3개 컬럼들 내의 투표의 개수는 마지막 3개 컬럼들 내의 문턱값에 대응한다. 예를 들어, 도 3에서, 7개의 오디오 카테고리들 중 3개가 주도적이라고 가정된다. 이러한 가정은 도 1의 단계(4)에서 초기에 선택된 멀티미디어 큐에 기초한다. 타겟 비디오의 각각의 서브-세그먼트 및 7개의 오디오 카테고리들 각각에 대한 확률들은 0 내지 1 사이의 숫자로 변환된다. 여기서 100%는 확률 1.0에 대응한다. 우선, 서브-세그먼트 확률(P)가 해당하는 범위가 결정된다. 예를 들어, 도 3에서, 주어진 확률(P)에 대해, 4개 범위가 포함된다. 라인 1에서, 이들은 (i)(0 ≤P < 0.3), (ii) (0.3 ≤P < 0.5), (iii) (0.5 ≤P < 0.8), (iv) (0.8 ≤P < 1.0)이다. 3개의 문턱값들은 범위의 경계들을 결정한다. 두 번째, 투표는, P가 어느 범위에 해당되며 할당받는지에 따라 달라진다. 이 절차는 도 3에 도시된 모든 15개의 가능한 조합에 대해 반복된다. 이 절차의 끝에서, 서브-세그먼트당 주어진 개수의 총 투표가 얻어진다. 이 절차는 임의의 멀티미디어 카테고리에 공통적이다. 이 절차의 끝에서 주어진 프로그램 세그먼트 (또는 광고방송) 및 모든 프로그램 세그먼트들이 처리되어 전체 프로그램에 대한 확률 분포를 제공한다.

도 1을 다시 참조하면, 단계(10)을 수행한 이후에, 또 다른 프로그램의 비디오 세그먼트들의 처리를 개시하기 위해 단계(2)로 되돌아간다. 단지 한 프로그래만이 처리되고 있다면, 단계(13)으로 진행할 것이다. 그러나, 주어진 장르의 프로그램 또는 광고방송에 대해 다수의 프로그램들이 처리되는 것이 바람직하다. 더 이상 처리될 프로그램들이 없다면, 단계(12)로 진행할 것이다.

단계(12)에서, 동일한 장르의 다수의 프로그램들로부터의 확률 분포가 결합된다. 이것은 동일한 장르의 모든 프로그램들에 대한 확률 분포를 제공한다. 이와 같은 확률 분포의 예가 도 4에 도시되어 있다. 본 발명에 따르면, 단계(12)는 동일한 장르의 모든 프로그램들에 대한 확률 분포의 평균 또는 가중 평균을 계산함으로써 수행될 수 있다. 또한, 단계(12)에서 결합되는 확률 분포가 투표 및 문턱값 시스템을 이용하여 계산된다면, 단계(12)는, 간단히, 동일한 장르의 모든 프로그램들에 대한 동일한 카테고리의 투표를 합산함으로써 수행될 수도 있다.

단계(12)를 수행한 이후에, 보다 높은 확률을 갖는 멀티미디어 큐들이 단계(13)에서 선택된다. 단계(12)에서 계산된 확률 분포에서, 확률은 각각의 카테고리 및 각각의 멀티미디어 큐와 연관된다. 따라서, 단계(13)에서, 보다 높은 확률을 갖는 카테고리들은 주도적 멀티미디어 큐들로서 선택될 것이다. 그러나, 절대적으로 가장 큰 확률값을 갖는 하나의 카테고리는 선택되지 않는다. 그 대신, 연합된 가장 높은 확률을 갖는 카테고리들의 집합이 선택된다. 예를 들어, 도 4에서, 음성 및 음성+음악(SpMu) 카테고리들은 TV 뉴스 프로그램에 대해 가장 높은 확률을 가지므로 단계(13)에서 주도적 멀티미디어 큐로서 선택될 것이다.

본 발명에 따라 TV 프로그램들을 분할 및 인덱싱하는 방법이 도 5에 도시되어 있다. 알 수 있는 바와 같이, 제1 박스는 본 발명에 따라 분할되고 인덱싱될 비디오 입력(14)을 나타낸다. 본 논의를 위해, 비디오 입력(14)은 다수의 이산 프로그램 세그먼트를 포함하는, 케이블, 위성, 또는 방송 TV 프로그래밍을 나타낼 수 있다. 나아가, 대부분의 TV 프로그래밍에서와 같이, 프로그램 세그먼트들 사이에는 광고방송이 있다.

단계(16)에서, 광고방송 세그먼트들로부터 프로그램 세그먼트들(18)을 분리하기 위해 프로그램 세그먼트들은 비디오 입력(14)으로부터 선택된다. 단계(16)에서 프로그램 세그먼트들을 선택하기 위한 다수의 공지된 방법이 있다. 그러나, 본 발명에 따르면, 프로그램 세그먼트들은 주어진 유형의 비디오 세그먼트를 특징짓는 멀티미디어 큐들을 이용하여 선택되는 것이 바람직하다

앞서 기술된 바와 같이, 비디오 스트림 내의 광고방송을 식별할 수 있는 멀티미디어 큐들이 선택된다. 그 한 예가 도 6에 도시되어 있다. 알 수 있는 바와 같이, 프로그램보다 광고방송에서 키 프레임들의 퍼센트가 훨씬 더 높다. 따라서, 키 프레임 레이트는 단계(16)에서 이용되는 멀티미디어 큐의 좋은 예가 될 것이다. 단계(16)에서, 이들 멀티미디어 큐들은 (14)에서 세그먼트들에 비교된다. 멀티미디어 큐들의 패턴과 맞지 않는 세그먼트들은 프로그램 세그먼트들(18)로서 선택된다. 이것은, 테스트 비디오 프로그램/광고방송 세그먼트들의 각각의 멀티미디어 카테고리에 대한 확률들을 도 1의 방법에서 상기와 같은 얻어진 확률과 비교함으로써 이루어진다.

단계(20)에서, 프로그램 세그먼트들은 서브-세그먼트들(22)로 분할된다. 이 분할은, 프로그램 세그먼트들을 임의의 동등한 서브-세그먼트들로 분할하거나 미리-계산된 모자이크식 세공을 이용하여 이루어질 수도 있다. 그러나, 비디오 세그먼트들에 포함된 캡션 정보에 따라 단계(20)에서 프로그램 세그먼트들을 분할하는 것이 바람직할 것이다. 앞서 기술된 바와 같이, 캡션 정보는 주제 또는 화자 변경을 나타내기 위한 문자들(이중 화살표)을 포함한다. 화자나 주제 변경은 비디오 내에서의 상당한 변경을 나타내기 때문에, 이는 프로그램 세그먼트들(18)을 분할하기에 바람직한 장소이다. 따라서, 단계(20)에서, 이와 같은 문자의 생성시에 프로그램 세그먼트를 분할하는 것이 바람직할 것이다.

단계(20)을 수행한 이후에, 도시된 바와 같이, 단계(24 및 26)에서 프로그램 세그먼트들(22) 상에 인덱싱이 수행된다. 단계(24)에서, 장르-기반의 인덱싱이 프로그램 서브-세그먼트들(22)의 각각 상에 수행된다. 앞서 언급한 바와 같이, 장르는 TV 프로그램을 비지니스, 다큐멘터리, 드라마, 건강, 뉴스, 스포츠 및 대담과 같은 카테고리들로 기술한다. 따라서, 단계(24)에서, 장르-기반의 정보는 서브-세그먼트들(22)의 각각에 삽입된다. 이 장르-기반의 정보는 세브-세그먼트들(22)의 각각의 장르 분류에 대응하는 태그 형태일 수도 있다.

본 발명에 따르면, 장르-기반의 인덱싱(24)은 도 1에서 기술된 방법에 의해생성된 멀티미디어 큐들을 이용하여 수행될 것이다. 앞서 기술된 바와 같이, 이들 멀티미디어 큐들은 주어진 장르의 프로그램을 특징짓는다. 따라서, 단계(24)에서, 특정 장르의 프로그램을 특징짓는 멀티미디어 큐들이 서브-세그먼트들(22)의 각각에 비교된다. 여기에 하나의 멀티미디어 큐들 중 하나와 서브-세그먼트들 간에 매칭이 있다면, 장르를 나타내는 태그가 삽입된다.

단계(26)에서, 객체-기반의 인덱싱이 프로그램 서브-세그먼트들(22)에 수행된다. 따라서, 단계(26)에서, 서브-세그먼트 내에 포함된 객체들 각각을 식별하는 정보가 삽입된다. 이 객체-기반의 정보는 객체들 각각에 대응하는 태그 형태일 수 있다. 본 논의를 위해, 객체는 배경, 전경, 사람, 차량, 오디오, 페이스, 음악 클립 등일 수도 있다. 객체-기반의 인덱싱을 수행하기 위한 공지된 방법들이 다수 있다. 이와 같은 방법들의 예들이 코트니에 허여된 "모션 기반의 이벤트 검출 시스템 및 방법"이라는 제목의 미국특허 제5,969,755호와, 아르만 등에 허여된 "프레임들을 이용하여 싱글 비디오 샷의 콘텐트를 나타내는 방법"이라는 제목의 미국특허 제5,606,655호와, 디미트로바 등에 허여된 "비주얼 인덱싱 시스템"이란 제목의 미국특허 제6,185,363호와, 니블랙 등에 허여된 "비디오 쿼리 시스템 및 방법"이라는 제목의 미국특허 제6,182,069호에 기술되어 있다.

단계(28)에서, 단계(24, 26)에서 인덱싱된 이후에 서브-세그먼트들은 결합되어 분할되고 인덱싱된 프로그램 세그먼트들(30)을 생성한다. 단계(28)의 수행시에, 장르-기반의 정보 또는 태그들과 대응하는 서브-세그먼트들로부터의 객체-기반의 정보 또는 태그들이 비교된다. 둘 사이에 매칭이 있다면, 장르-기반의 정보와 객체-기반의 정보가 동일한 서브-세그먼트로 결합된다. 단계(28)의 결과로서, 분할되고 인덱싱된 프로그램 세그먼트들(30)의 각각은 장르와 객체 정보 양쪽 모두를 나타내는 태그들을 포함한다.

본 발명에 따르면, 도 1의 방법에 의해 생성된, 분할되고 인덱싱된 프로그램 세그먼트들(30)은 개인용 기록 디바이스에 이용될 수 있다. 이와 같은 비디오 기록 디바이스의 한 예가 도 7에 도시되어 있다. 알 수 있는 바와 같이, 비디오 기록 디바이스는 비디오 입력(video in)을 수신하는 비디오 프리-프로세서(32)를 포함한다. 동작 동안에, 프리-프로세서(32)는 필요하다면 멀티플렉싱 또는 디코딩과 같은 전-처리를 비디오 입력상에 수행한다.

분할 및 인덱싱 유닛(34)은 비디오 프리-프로세서(32)의 출력에 결합된다. 분할 및 인덱싱 유닛(34)은 도 5의 방법에 따라 비디오를 분할 및 인덱싱하도록 프리-프로세싱된 이후의 비디오 입력을 수신한다. 전술한 바와 같이, 도 5의 방법은, 비디오 입력을 프로그램 서브-세그먼트들로 분할하고, 그 다음, 서브-세그먼트들 각각 상에 장르-기반의 인덱싱 및 객체 기반의 인덱싱을 수행하여 분할되고 인덱싱된 프로그램 세그먼트들을 생성한다.

저장 유닛(36)은 분할 및 인덱싱 유닛(34)의 출력에 결합된다. 저장 유닛(36)은 분할 및 인덱싱된 이후의 비디오 입력을 저장하는데 이용된다. 저장 유닛(36)은 자기 또는 광학 저장 디바이스에 의해 구현될 수 있다. 알 수 있는 바와 같이, 이용자 인터페이스(38)도 역시 포함된다. 이용자 인터페이스(38)는 저장 유닛(36)을 액세스하는데 이용된다. 본 발명에 따르면, 이용자는 전술한 바와 같이, 분할되고 인덱싱된 프로그램 세그먼트들에 삽입된 장르-기반의 정보 및 객체 기반의 정보를 이용할 수 있다. 이것은 이용자가 이용자 입력(40)을 통해, 전체 프로그램, 프로그램 세그먼트 또는 특정한 장르나 객체에 기초한 프로그램 서브-세그먼트를 검색하는 것을 가능하게 해준다.

본 발명이 도시와 설명의 목적으로 기술되었다. 본 발명은 본 명세서에서 공개된 형태만으로 제한되는 것은 아니다. 전술한 바에 비추어, 많은 수정과 변형이 가능하다. 따라서, 본 발명의 영역은 상세한 설명에 의해 제한되지 않아야 한다.

Claims

다수의 주어진 장르의 비디오 세그먼트들로부터 주도적 멀티미디어 큐들(dominant multi-media cues)을 선택하는 컴퓨터로 구현되는 방법에 있어서, 상기 방법은:

상기 비디오 세그먼트들의 각각의 프레임에 대한 멀티미디어 정보 확률(a multi-media information probabality for each frame of the video segments), 즉 상기 비디오 세그먼트들의 각각의 프레임에서 멀티미디어 정보의 카테고리들에 대한 생성 확률,을 계산하는 단계;

상기 각각의 비디오 세그먼트들을 서브-세그먼트들로 분할하는 단계;

상기 각각의 서브-세그먼트들에 대한 상기 멀티미디어 정보의 카테고리들의 한 세트의 확률들을 계산하고 각 카테고리에 대해 각 프레임에 대한 상기 멀티미디어 정보 확률을 이용하고 문턱값보다 큰 프레임에 대한 카테고리의 확률을 합산하며 상기 합산된 확률을 상기 서브-세그먼트에 대한 총 프레임 수로 나누는 단계;

각 서브-세그먼트에 대한 상기 한 세트의 확률들을 결합하여 상기 한 세트의 확률들의 평균 또는 가중 평균들을 형성함으로써 각 카테고리에 대한 스코어를 형성하는 단계; 및

가장 높은 스코어를 갖는 상기 멀티미디어 정보의 카테고리 또는 카테고리들을 상기 주어진 장르를 특징짓는 상기 주도적 멀티미디어 큐들로서 선택하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
삭제
제 1 항에 있어서, 상기 비디오 세그먼트들을 서브-세그먼트들로 분할하는 단계는 상기 비디오 세그먼트들에 포함된 캡션 정보(closed caption information)에 따라 수행되는, 컴퓨터로 구현되는 방법.
삭제
삭제
삭제
제 1 항에 있어서, 상기 비디오 세그먼트들은 광고방송 세그먼트들 및 프로그램 세그먼트들로 이루어진 그룹으로부터 선택되는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서, 상기 각 서브-세그먼트에 대한 상기 한 세트의 확률들을 결합하여 각 카테고리에 대한 스코어를 형성하는 단계는 상기 한 세트의 확률들의 가중 평균을 형성함으로써 수행되고, 상기 가중 평균을 계산하기 위하여 투표들 및 문턱값들의 시스템이 이용되는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서, 상기 각 카테고리에 대한 스코어는 다수 프로그램들의 서브-세그먼트들의 상기 한 세트의 확률들로부터 형성되는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서, 주어진 TV 프로그램 유형 또는 광고방송을 특징짓는 멀티미디어 큐들을 초기에 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
다수의 주어진 장르의 비디오 세그먼트들로부터 주도적 멀티미디어 큐들을 선택하는 장치에 있어서:

상기 비디오 세그먼트들의 각각의 프레임에 대한 멀티미디어 정보 확률, 즉 상기 비디오 세그먼트들의 각각의 프레임에서 멀티미디어 정보의 카테고리들에 대한 생성 확률,을 계산하는 수단;

상기 각각의 비디오 세그먼트들을 서브-세그먼트들로 분할하는 수단;

상기 각각의 서브-세그먼트들에 대한 상기 멀티미디어 정보의 카테고리들의 한 세트의 확률들을 계산하고 각 카테고리에 대해 각 프레임에 대한 상기 멀티미디어 정보 확률을 이용하고 문턱값보다 큰 프레임에 대한 카테고리의 확률을 합산하며 상기 합산된 확률을 상기 서브-세그먼트에 대한 총 프레임 수로 나누는 수단;

각 서브-세그먼트에 대한 상기 한 세트의 확률들을 결합하여 상기 한 세트의 확률들의 평균 또는 가중 평균들을 형성함으로써 각 카테고리에 대한 스코어를 형성하는 수단; 및

가장 높은 스코어를 갖는 상기 멀티미디어 정보의 카테고리 또는 카테고리들을 상기 주어진 장르를 특징짓는 상기 주도적 멀티미디어 큐들로서 선택하는 수단을 포함하는, 장치.