KR100605463B1

KR100605463B1 - 상호 운용 멀티미디어 컨텐츠 설명 시스템 및 방법

Info

Publication number: KR100605463B1
Application number: KR1020017005766A
Authority: KR
Inventors: 백승엽; 베니테즈아나; 창시푸
Original assignee: 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕
Priority date: 1998-11-06
Filing date: 1999-11-05
Publication date: 2006-07-28
Also published as: EP1125227A1; AU1468500A; WO2000028440A1; KR20010092449A; EP1125227A4; JP2002529858A; WO2000028440B1; US7653635B1

Abstract

본 발명은 멀티미디어 정보로부터 표준 설명 레코드를 생성하는 시스템 및 방법을 제공한다. 이 시스템은 멀티미디어 정보를 수신하는 적어도 하나의 멀티미디어 정보 입력 인터페이스, 컴퓨터 프로세서, 및 상기 프로세서에 동작가능하게 결합되어 상기 적어도 하나의 설명 레코드를 기억하는 데이터 기억 시스템을 포함한다. 프로세서는 멀티미디어 정보로부터 멀티미디어 객체 설명(200, 201, 205)을 생성하는 객체 추출 처리, 및 멀티미디어 객체 계층 설명을 생성하는 객체 계층 처리(410, 420)를 실행하여 멀티미디어 정보 내에 포함된 컨텐츠에 대한 멀티미디어 객체 설명(200, 201, 205) 및 멀티미디어 객체 계층 설명을 포함하는 적어도 하나의 설명 레코드를 생성한다.

멀티미디어 정보, 표준 설명 레코드, 멀티미디어 정보 입력 인터페이스, 컴퓨터 프로세서, 데이터 기억 시스템, 멀티미디어 객체 설명, 객체 추출 처리, 객체 계층 처리.

Description

상호 운용 멀티미디어 컨텐츠 설명 시스템 및 방법 {SYSTEMS AND METHODS FOR INTEROPERABLE MULTIMEDIA CONTENT DESCRIPTIONS}

본 발명은 멀티미디어 정보를 설명하는 설명에 관한 것으로서, 보다 구체적으로는 비디오 및 영상 정보 양자 모두는 물론 이들 정보의 컨텐츠를 설명하는 설명서에 관한 것이다.

인터넷의 세계화 및 광범위하게 사용되고 있는 국가 네트워크 및 지역 네트워크의 발전으로, 소비자 및 비지니스에서 디지털 멀티미디어 정보에 접근할 수 있는 기회가 증대되고 있다. 따라서, 디지털 멀티미디어 정보를 처리, 필터, 검색 및 구성하는 시스템을 개발함으로써 늘어나고 있는 생정보(raw information)로부터 유용한 정보가 발췌될 수 있도록 하는 것이 보다 중요해 지고 있다.

본 출원을 제출할 때, 소비자 및 비지니스에서 텍스터 정보를 탐색할 수 있는 해법은 있다. 물리로, yahoo.com, goto.com, excite.com 및 다른 사이트와 같은 수많은 텍스트 베이스 검색 엔진이 월드 와이드 웹(World Wide Web: WWW) 상에서 이용가능하며, 이들 웹 사이트 중에서 이러한 정보 검색 설명에 대한 요구의 중요성을 나타내는 가장 많이 방문하는 웹 사이트이다.

불행하게도, 이것은 이 소재에 대한 일반적으로 인정된 설명이 없기 때문에 멀티미디어 컨텐츠에는 사실이 아니다. 이 점에 관해서, 사용자가 화상에 들어있는 비디오 물체의 색, 구성 및 형상 정보와 같은 특징을 사용하여 화상을 검색할 수 있는 멀티미디어 데이터베이스를 제공하려는 시도를 과거에 했었다. 그러나, 20세기가 끝나는 시점에도 이 소재에 대하여 광범위하게 인식된 설명이 존재하지 않기 때문에 멀티미디어 컨텐츠을 위하여 인터넷 또는 대부분의 국가 또는 지역 네트워크에 대한 일반적인 검색을 아직 실행할 수 없다. 또한, 멀티미디어 컨텐츠의 검색 필요성은 데이터베이스에만 한정되는 것이 아니라 디지털 텔레비전 방송 및 멀티미디어 전화 통신과 같은 다른 응용에도 해당된다.

당해 산업 분야에서 이러한 표준 멀티미디어 설명 체계의 개발은 "MPEG(Motion Pictures Expert Group)"의 MPEG-7 표준화 노력을 통해 시도되었다. 1996년 10월에 착수된 MPEG-7의 목적은 멀티미디어 데이터의 컨텐츠 설명을 표준화시켜 멀티미디어 서칭, 필터링, 브라우징 및 서머라이제이션 같은 컨텐츠-중심 응용을 용이하게 하려는 것이다. MPEG-7 표준의 목적에 대한 보다 완전한 설명은, 그 컨텐츠을 참조하여 본 명세서에 결합시킨 국제 표준화 기구(International Organisation for Standardisation) 문건 ISO/IEC JTC1/SC29/WG11 N2460(1998년 10월)에 포함되어 있다.

MPEG-7 표준의 목적은 설명자(descriptor)는 물론 설명자 및 그들 관계에 대한 구조("설명 개요"라고 함)의 표준 세트를 구체화하여 각종 유형의 멀티미디어 정보를 설명하려는 것이다. 또한, MPEG-7은 다른 설명자는 물론 설명자 및 그들 관계에 대한 "설명 개요"를 한정하는 방식의 표준화를 제안하고 있다. 이 설명, 즉 설명자 및 설명 개요의 조합이 컨텐츠 자체와 결합되어 사용자의 관심 소재에 대하여 신속하고 효과적으로 서칭 및 필터링할 수 있다. 또한, MPEG-7은 설명 개요, 즉 데이터 설명 언어(Description Definition Language: DDL) 및 멀티미디어 컨텐츠의 설명을 2진 부호화하는 개요를 구체화하는 언어의 표준화를 제안하고 있다.

본 출원의 제출 시, MPEG는 앞으로 MPEG-7 표준에 통합을 위해 필요한 설명 개요를 최적으로 실현시키는 설명에 대한 제안을 필요로 한다. 이러한 최적화된 설명 개요를 제공하기 위하여, 세 가지 상이한 멀티미디어-응용 배열이 고려될 수 있다. 분산 처리 시나리오, 컨텐츠-교환 시나리오, 및 멀티미디어 컨텐츠을 개인이 전용으로 볼 수 있는 포맷이 있다.

분산 처리에 대하여, 설명 개요는 임의의 플랫폼, 임의의 상인, 및 멀티미디어 컨텐츠을 분산 처리할 수 있는 임의의 응용과는 독립적으로 멀티미디어 소재의 설명을 교환할 수 있는 성능을 제공해야 한다. 상호 운용 가능한 컨텐츠 설명의 표준화란 각종 소스로부터의 데이터가 멀티미디어 프로세서, 편집기, 검색 시스템, 필터링 에이전트 등과 같은 각종의 분산 응용 내에 플러그로 끼워질 수 있다는 것을 의미한다. 이들 응용 중 일부는 멀티미디어 데이터의 표준화된 설명으로 작업할 수 있는 멀티미디어 도구 제공자의 서브-인더스트리를 생성시키며 3자에 의하여 제공될 수 있다.

사용자는 각종 컨텐츠 제공자의 웹 사이트에 접근하여 일부 저레벨 또는 고레벨의 처리에 의하여 얻어진 컨텐츠 및 결합된 인덱스 데이터를 다운로드 받을 수 있어야 하며, 여러 도구 제공자의 웹 사이트에 접근하여 도구(예를 들면 Java applets)를 다운로드 받아, 사용자의 개인 관심사에 따라, 이질적인 데이터 설명을 특정한 방식으로 조작할 수 있어야 한다. 이러한 멀티미디어 도구의 예가 비디오 편집기이다. MPEG-7 컴플라이언트 비디오 편집기는 각각의 비디오에 결합된 설명이 MPEG-7 컴플라이언트인 경우 각종 소스로부터의 비디오 컨텐츠을 조작 및 처리할 수 있다. 각각의 비디오는 카메라 동작, 장면 컷, 주석, 및 물체 구분과 같은 설명 상세 정도가 변한 상태로 나타날 수 있다.

상호 운용 가능한 컨텐츠 설명 표준으로부터 크게 도움을 받는 제2 시나리오는 이질적인 멀티미디어 데이터베이스 중의 멀티미디어 컨텐츠을 교환하는 것이다. MPEG-7의 목적은 멀티미디어 소재의 실재하는 설명을 표현, 교환, 번역, 및 재사용하는 수단을 제공하는 것이다.

현재, TV 방송국, 라디오 방송국, 및 다른 컨텐츠 제공자는 상당량의 멀티미디어 소재를 관리 및 보관하고 있다. 이 소재는 텍스트 정보 및 독점 데이터베이스를 사용하여 수동으로 현재 설명되고 있다. 상호 운용가능한 컨텐츠 설명없이, 컨텐츠 사용자는 각 방송국에서 사용된 설명을 그들 자체의 독점 개요로 수동으로 번역하기 위하여 인력을 투입할 필요가 있다. 멀티미디어 컨텐츠 설명의 상호 교환은 모든 컨텐츠 제공자가 동일 개요 및 컨텐츠 설명 개요를 포함하는 경우 가능할 수 있다. 이것이 MPEG-7의 목적 중 하나이다.

최종적으로, 멀티미디어 플레이어 및 설명 개요를 사용하는 시청자는 사용자에 의하여 구성된 복수개의 뷰 데이터와 같은 혁신적인 성능을 사용자에게 제공해 야 한다. 사용자는 데이터를 컨텐츠 방송국으로부터 상이한 포맷으로 다시 다운로드 받지 않고 디스플레이 구성을 변경시킬 수 있어야 한다.

상기 예는 MPEG-7에 따른 표준화 방식으로 전달된 풍부하게 구성된 데이터를 가능한 사용할 수 있음을 암시하는 것이다. 불행하게도, 분산 처리, 컨텐츠-교환, 또는 개인적으로 바라보는 시나리오를 일반적으로 충족시킬 수 있는 현재 이용가능한 종래 설명은 없다. 구체적으로, 종래 설명은 일반 특징 또는 의미 관계 중 어느 하나에 따른 멀티미디어 정보에 포함된 컨텐츠를 포착하는 설명은 제공하거나 , 또는 이러한 컨텐츠를 구성하는 설명을 제공하지 않았다. 따라서, 일반적인 멀티미디어 정보에 대한 효과적인 설명 개요가 필요하다.

본 발명의 목적은 일반적인 멀티미디어 정보에 대한 컨텐츠 설명 개요를 제공하는 것이다.

본 발명의 다른 목적은 표준화된 멀티미디어 컨텐츠 설명 개요를 실행하는 설명을 제공하는 것이다.

본 발명의 또 다른 목적은 사용자가 멀티미디어 컨텐츠에 대하여 인터넷 또는 국가 또는 지역 네트워크 상에서 일반적인 탐색을 실행할 수 있는 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 일반적인 특징 또는 의미 상의 관계 중 어느 하나에 따라 멀티미디어 정보에 포함된 컨텐츠를 포착하는 설명을 제공하는 것이다.

본 발명의 또 다른 목적은 일반적인 특징 또는 의미 상의 관계 중 어느 하나 에 따라 멀티미디어 정보에 포함된 컨텐츠를 구성하는 설명을 제공하는 것이다.

후술하는 추가 설명을 참조하여 명백하게 이해될 수 있는 상기 및 다른 목적을 충족시키기 위하여, 본 발명은 멀티미디어 정보로부터 설명 레코드를 생성하는 시스템을 제공한다. 시스템은 멀티미디어 정보를 수신하는 멀티미디어 정보 입력 인터페이스, 컴퓨터 프로세서, 및 상기 프로세서에 동작가능하게 결합되며 상기 적어도 하나의 설명 레크드를 기억하는 데이터 기억 시스템 중 적어도 하나를 포함한다. 본 발명의 목적을 충족시키기 위하여, 프로세서는 객체 추출 처리를 실행하여 멀티미디어 객체 설명을 생성하고, 객체 분류 처리를 실행하여 멀티미디어 객체 분류 설명을 생성하여 멀티미디어 정보 내에 포함된 컨텐츠의 멀티미디어 객체 설명 및 멀티미디어 객체 분류 설명을 포함하는 적어도 하나의 설명 레코드를 생성한다.

바람직한 배열에 있어서, 멀티미디어 정보는 영상 정보이고, 멀티미디어 객체 설명은 영상 객체 설명이고, 멀티미디어 분류 객체 설명은 영상 객체 분류 설명이다. 다른 바람직한 실시예에 있어서, 멀티미디어 정보는 비디오 정보이고, 멀티미디어 객체 설명은 비디오 객체 설명이고, 멀티미디어 객체 분류 설명은 비디오 객체 분류 설명이다.

멀티미디어 정보가 영상 정보인 경우, 객체 추출 처리는 영상 정보 내의 각 영상을 영역으로 분할하는 영상 분할 처리, 및 하나 이상의 영역에 대한 하나 이상의 특징 설명을 생성하는 특징 추출 처리를 포함하는 것이 상당히 바람직하다. 설명은 텍스트 주석, 색, 텍스처, 형상, 치수, 및 위치 정보를 포함할 수 있다.

마찬가지로, 객체 분류 처리는 객체의 공간 특징에 따른 영상 객체 설명의 물리적 객체 분류 설명을 생성하는 물리적 객체 분류 구성, 및 객체의 의미 상 특징에 따른 영상 객체 설명의 논리 객체 분류 설명을 생성하는 논리 객체 분류 구성을 포함함으로써, 영상 객체 분류 설명이 물리적 및 논리적 설명 양자 모두를 포함한다. 인코더를 시스템에 가하여 영상 객체 설명 및 영상 객체 분류 설명을 압축 설명 정보로 인코딩할 수 있다.

멀티미디어 정보가 비디오 정보인 경우, 객체 추출 처리는 비디오 정보를 하나 이상의 비디오 이벤트 또는 이벤트 그룹으로 시간적으로 분할하는 비디오 분할 처리, 비디오 이벤트를 영역으로 분할하고 영역에 대한 특징 설명을 생성하는 비디오 객체 추출 처리, 및 비디오 이벤트에 대한 하나 이상의 특징 설명을 생성하는 특징 추출 처리를 포함한다. 이벤트에 대한 특징 설명은 텍스트 주석, 슛 전이, 카메라 동작, 시간, 및 주요 프레임을 포함할 수 있다. 객체에 대한 특징 설명은 텍스트 주석, 색, 텍스처, 형상, 치수, 위치, 동작 및 시간을 포함할 수 있다.

마찬가지로, 비디오 이벤트 및 객체의 시간적인 특징에 따른 비디오 이벤트 및 객체 설명의 물리적 이벤트 및 객체 분류 구성을 생성하는 물리적 이벤트 및 객체 분류 구성, 및 상기 객체의 의미 상 특징에 따른 비디오 이벤트 및 객체 설명의 논리 이벤트 및 객체 분류 설명을 생성하는 논리 이벤트 및 객체 분류 구성 양자 모두를 포함하는 객체 분류 처리, 및 비디오 정보 내에 포함된 이벤트 및 객체에 대한 분류 설명을 생성하는 비디오 객체 분류 추출 처리가 바람직하다.

또한, 본 발명은 일반적인 멀티미디어 정보에 대한 컨텐츠 설명 개요를 제공하는 방법을 제공한다. 하나의 배열에 있어서, 이 방법은 멀티미디어 정보를 수신 하고, 이 멀티미디어 정보를 객체 추출 처리를 실행함으로써 멀티미디어 객체 설명을 생성하도록 처리하고, 이 생성된 멀티미디어 객체 설명을 객체 분류 처리에 의하여 멀티미디어 객체 분류 설명을 생성하도록 처리하는 단계를 포함함으로써, 객체 설명 및 분류 객체 설명을 포함하는 적어도 하나의 설명 레코드가 멀티미디어 정보 내에 포함된 컨텐츠에 대하여 생성되어 레코드를 기억한다. 멀티미디어 정보는 영상 또는 비디오 정보일 수 있다.

본 발명은 대응하는 멀티미디어 정보에 대한 멀티미디어 컨텐츠를 설명하는 적어도 하나의 멀티미디어 설명 레코드를 가진 디지털 정보를 포함하는 컴퓨터 판독가능한 미디어를 추가로 제공한다. 하나의 배열에 있어서, 미디어는 멀티미디어 정보 내에 포함된 대응하는 객체에 대한 적어도 하나의 객체 설명, 각 객체를 특징 지우는 하나 이상의 특징, 및 적어도 하나의 특징에 따라 객체의 적어도 일부에 관한 임의의 이용가능한 분류 정보를 포함한다. 멀티미디어 정보는 영상 또는 비디오 정보일 수 있고, 비디오 정보인 경우 객체는 비디오 정보 내에 포함된 이벤트 또는 비디오 객체일 수 있다.

다음에, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 바람직한 실시예의 시스템 도면.

도 2는 도 1의 시스템에 사용하기에 적합한 멀티미디어 컨텐츠 설명 시스템의 기능도.

도 3은 예시적인 영상 객체를 도시하는 영상의 도면.

도 4a 및 도 4b는 도 3에 도시된 예시적인 영상 객체의 한 세트의 영상 객체 및 예시적인 분류 구성을 도시하는 도면.

도 5는 예시적인 비디오 이벤트를 도시하는 비디오의 도면.

도 6a 및 도 6b는 도 5에 도시된 예시적인 비디오 객체의 한 세트의 비디오 이벤트 및 예시적인 분류 구성을 도시하는 도면.

도 7은 도 1의 시스템에 구현되어 영상 설명을 생성할 수 있는 프로세스 도면.

도 8은 도 1의 시스템에 구현되어 비디오 설명을 생성할 수 있는 프로세스 도면.

도 1을 참조하면, 본 발명의 예시적인 실시예가 제공된다. 시스템(100)의 구성은 클라이언트 컴퓨터(110) 및 서버 컴퓨터(120)를 포함한다. 서버 컴퓨터(120)는 디스플레이 인터페이스(130), 질문 디스패쳐(140), 퍼포먼스 데이터베이스(150), 질문 번역기(160, 161, 165), 목표 서치 엔진(170, 171, 175), 추가 클라이언트 컴퓨터(180), 및 멀티미디어 컨텐츠 설명 시스템(200, 201, 205)를 포함하며, 이들을 다음에 상세하게 설명한다.

다음 설명은 이 예시적인 클라이언트-서버 실시예를 참조하여 설명하였지만, 당업자는 특정의 시스템 배열은 본 발명의 범위 이내에서 변형될 수 있고, 공지된 수많은 지역 또는 분산된 구성을 포함한다는 점을 이해할 것이다. 예를 들면, 클 라이언트-서버 시스템의 모든 기능은 하나의 컴퓨터 내에 포함되거나, 또는 복수의 서버 컴퓨터가 기능을 공유 또는 분리하여 사용될 수 있다. 멀티미디어 컨텐츠 설명 시스템(200, 201, 205)은 서버 컴퓨터(120) 내의 범용 프로세서 상에서 실행하는 소프트웨어 루틴이 바람직하다.

시판 중인 메터서치 엔진이 사용자를 자동적으로 및 투명하게 복수의 텍스트-베이스 서치 엔진에 연결하는 게이트웨이로서 작용한다. 도 1의 시스템은 이러한 메타서치 엔진의 구성에서 일어나고 상이한 종류의 사용자 질문에 대한 그들의 성능을 분류함으로써 복수의 온-라인 멀티미디어 서치 엔진을 지능적으로 선택하여 인터페이스하도록 설계된다. 따라서, 질문 디스패쳐(140), 질문 번역기(160, 161, 165), 및 시판 중인 메타서치 엔진의 디스플레이 인터페이스(130)가 본 발명에 사용될 수 있다.

디스패쳐(140)는 사용자의 질문을 수신할 때 성능 데이터베이스(150)와 의논함으로써 질문을 받을 목표 서치 엔진을 선택한다. 이 데이터베이스(150)는 각각의 지지된 서치 옵션에 대한 과거 질문의 성공 및 실패의 성능 스코어를 포함한다. 질문 디스패쳐는 사용자의 질문을 충족시킬 수 있는, 예를 들면 질문 시킹 색 정보가 색 이네이블 서치 엔진을 트리거하는 서치 엔진을 단지 선택한다.

질문 번역기(160, 161, 165)는 사용자의 질문을 선택된 서치 엔지의 인터페이스에 일치되는 적합한 스트립트로 번역한다. 디스플레이부(130)는 성능 스코어를 사용하여 각 서치 엔진으로부터의 결과를 합쳐서 이들을 사용자에게 제시한다.

본 발명에 있어서, 사용자가 멀티미디어 컨텐츠에 대한 인터넷 또는 국가 또 는 지역 네트워크를 지능적으로 서치하도록, 서치 질문이 멀티미디어 정보에 포함된 컨텐츠에 대하여 만들어 질 수 있다. 컨텐츠 베이스 서치 질문은 본 발명의 설명 개요에 따라 예로서 또는 스케치로서 멀티미디어 컨텐츠의 설명에 의하여 만들어 질 수 있다. 각각의 서치 엔진(170, 171, 175)은 설명 개요, 예를 들면 후술하는 설명 개요를 사용하여 서치 엔진에 의하여 접근가능한 멀티미디어 정보의 컨텐츠를 설명하고 서치를 구현한다.

클라이언트 컴퓨터(110)를 거쳐 생성된 멀티미디어 정보에 대한 컨텐츠-베이스 서치 질문을 구현하기 위하여, 디스패쳐(140)는 멀티미디어 컨텐츠 설명 시스템(200)을 통하여 각각의 서치 엔진(170, 171, 175)에 의하여 사용된 질문 설명을 일치시켜 질문에서 사용자가 우선하는 질문을 확실하게 충족시킨다. 다음에, 성능 데이터베이스(150)와 의논함으로써 질문을 받을 목표 서치 엔진(170, 171, 175)을 선택한다. 클라이언트 컴퓨터(110)의 사용자가 색으로 서치하기를 원하고 하나의 서치 엔진이 임의의 색 설명을 지지하지 않는 경우, 특정의 서치 엔진의 질문에 유용하지 않다.

다음에, 질문 번역기(160)는 질문 설명을 각각의 선택된 서치 엔진과 일치되는 설명에 적용한다. 이 번역은 각각의 서치 엔진으로부터 이용가능한 설명 개요에 또한 좌우된다. 이 작업은 표준 설명자에 대한 추출 코드 및 특정의 서치 엔진으로부터 다운로드된 추출 코드를 실행하여 설명자를 변형시는 것이 필요할 수 있다. 예를 들면, 사용자가 166 빈의 색 코히어런스를 사용하여 객체의 색 특징을 구체화하는 경우, 질문 번역기는 이 특징을 각각의 서치 엔진에 의하여 사용된 특 정의 색 설명, 예를 들면 x빈의 색 코리어런스 및 색 히스토그램으로 번역한다.

사용자에게 결과를 표시하기 전에, 질문 인터페이스는 각각의 서치 옵션으로부터의 결과를 모든 결과 설명을 동종의 설명으로 번역하여 비교하고 분류시킴으로써 합치시킨다. 또한, 표준 설명자에 대한 유사 코드 또는 서치 엔진으로부터 다운로드된 유사 코드가 실행될 필요가 있을 수 있다. 사용자의 선호도에 따라 결과가 사용자에게 표시되는 방법을 결정한다.

대안으로서, 서치 질문은 목표 서치 엔진(170)과 직접 인터페이스되는 클라이언트 컴퓨터(180)을 거쳐 기입될 수 있다. 클라이언트 컴퓨터(110)를 통해 기입된 질문과 달리, 클라이언트 컴퓨터(180)는 복수의 서치 엔진을 거쳐 메타서치 가능하지 않다. 그러나, 멀티미디어 컨텐츠 설명 시스템(200)은 본 발명에 따른 서치에 따라 컨텐츠를 실행하도록 어느 하나의 배열을 사용할 수 있다.

다음에 도 2를 참조하면, 각각의 서치 엔진(170, 171, 175)에 의하여 사용된 본 발명에 따른 설명 시스템(200)에 관하여 설명한다. 여기에 개시된 바람직한 실시예에 있어서, 멀티미디어 컨텐츠를 설명하기 위하여 확장가능 마크업 언어(Extensible Markup Language: XML)를 사용하였다. XML은 문서 포맷을 결정하고 사용하는 마크업 언어(Standard Generalized Markup Language: SGML)의 서브셋이다. SGML로 인하여 문서가 자체적으로 설명될 수 있고, 즉 이들은 문서에 사용된 태그 세트 및 이들 태그가 나타내는 구조적 관계를 구체화함으로써 그들 자체으의 문법을 설명한다. XML은 완전 SGML 보다 배우고 사용하고 구현하는 것이 상당히 용이하도록 설계된 언어의 주요 SGML 장점을 유지한다. XML의 완전한 설명은 XML의 WWW 콘소시엄 웹 페이지, http://www.w3.org/XML/에서 찾을 수 있으며, 이 컨텐츠를 참조하여 본 명세서에 결합시켰다.

설명 시스템(200)은 여러 개의 영상 및 비디오 처리, 분석 및 주석 서브-시스템(210, 220, 230, 240, 250, 260, 270, 280)을 포함하여 영상 및 비디오 아이템(205)을 수집하도록 풍부한 각종 설명을 생성시키는 것이 바람직하다. 각각의 서브시스템을 다음에 설명한다.

제1 서브시스템(210)은 자동으로 분할된 비디오 시퀀스 영역에 대한 색, 텍스처, 동작, 형상, 및 치수와 같은 시각적인 특징을 추출하는 영역-베이스 인덱스 및 서치 시스템이다. 이 시스템(210)은 비디오를 분리 또는 변화(예를 들면, 분해, 페이드인/아웃, 와이프)일 수 있는 장면 변화 검출에 의하여 별개의 슛으로 분해시킨다. 각각의 슛에 대하여, 시스템(210)은 글로벌(즉, 우세한 배경 동작), 및 카메라 동작 양자 모두를 평가한 다음, 각각의 영역에 대한 상이한 시각 특징을 연산하는 슛의 프레임에 걸친 영역을 분할, 검출, 및 트랙한다. 각각의 슛에 대하여, 이 시스템에 의하여 생성된 설명은 시각 및 동작 특징과 카메라 동작을 가진 영역 세트이다. 영역-베이스 인덱스 및 서치 시스템(210)의 완전한 설명은 동일 출원인이 발명의 명칭 "An Algorithm and System Architecture for Object-Oriented Content-Based Video Search"으로 1998년 5월 5일 출원한 PCT 출원 일련번호 제 PCT/US98/09124호에 포함되어 있고, 이를 참조하여 본 명세서에 결합시켰다.

본 명세서에 사용된 바와 같이, "비디오 클립"은 식별가능한 속성, 한정하는 것이 아닌 예를 들면 야구 선수가 배트를 휘두르고, 서핑보드가 물 위를 가르고, 또는 말이 목장 위를 가로질러 달리는 것과 같은 하나 이상의 비디오 객체를 갖는 비디오 정보의 프레임 시퀀스를 지칭한다. "비디오 객체"는 하나 이상의 관심 특징, 예를 들면 텍스처, 색, 동작 및 형상이 동종인 연속하는 화소 세트이다. 따라서, 비디오 객체는 적어도 하나의 특징에서 일관성을 나타내는 하나 이상의 비디오 영역에 의하여 형성된다. 예를 들면 사람(여기서는 "객체")이 걸어가는 슛은 형상, 색 및 택스쳐와 같은 범주가 상이한 인접한 영역의 집합으로 분할되지만, 모든 영역은 그들의 동작 속성에서 일관성을 나타낼 수 있다.

제2 서브시스템(220)은 MPEG 압축 도메인의 페이스를 직접 효과적으로 및 자동적으로 검출하는 MPEG 도메인 페이스 검출 시스템이다. 사람의 얼굴은 비디오에 있어서 중요한 주체이다. 비디오 컨텐츠를 이해할 수 있도록 시청자에게 주요 정보를 제공하는 것은 뉴스, 다큐멘터리, 영화 등에서 흔한 일이다. 이 시스템은 얼굴 레이블을 가진 영역 세트를 제공한다. 시스템(220)의 완전한 설명은 발명의 명칭 "A Highly Efficient System for Automatic Face Region Detection in MPEG Video"로 1997년 11월 4일 출원된 PCT 출원 일련 번호 제 PCT/US97/20024호에 포함되어 있고, 이를 참조하여 본 명세서에 결합시켰다.

제3 서브시스템(230)은 자동 분할이 사용자의 입력에 일체로 되어 비디오 시퀀스의 의미 상의 객체를 추적하는 비디오 객체 분할 시스템이다. 일반적인 비디오 소스에 있어서, 시스템으로 인하여 사용자가 트레이싱 인터페이스를 사용함으로써 대략 객체 경계를 정할 수 있다. 소정의 대략 객체 경계로, 시스템은 경계를 자동으로 정제시키고 비디오 후속 프레임 내 객체의 이동을 추적한다. 시스템은 복잡한 객체, 신속하고 간헐적인 동작, 복잡한 배경, 복수의 움직이는 객체 및 부분적인 폐색을 포함하는 실재적인 어프로치에서 모델을 만들기가 곤란한 수많은 실세상 상황을 취급하기에 충분히 강하다. 이 시스템에 의하여 생성된 설명은 텍스트와 함께 수동으로 주석을 달 수 있는 결합된 영역 및 특징을 가진 의미 상의 객체 세트이다. 시스템(230)의 완전한 설명은 발명의 명칭 "An Active System and Algorithm for Semantic Video Object Segmentation"으로 1998년 9월 24일 출원된 미합중국 특허출원 제 09/405,555호에 포함되어 있으며, 이 내용을 참조하여 본 명세서에 결합시켰다.

제4 시스템(240)은 압축 MPEG 비디오 스트림을 분석하여 슛 경계, 움직이는 객체, 객체 특징, 및 카메라 동작 등을 추출하는 계층 비디오 브라우징 시스템이다. 또한, 비디오의 직관적인 명시화 및 편집을 위하여 계층 슛-베이스 브라우징 인터페이스를 생성한다. 이 시스템(240)의 완전한 설명은 발명의 명칭 "A Method and Architecture for Indexing and Editing Compressed Video Over the World Wide Web"으로 1997년 5월 16일 출원된 PCT 출원 제 PCT/US97/08266호에 포함되어 있으며, 이 내용을 참조하여 본 명세서에 결합시켰다.

제5 서브시스템(250)은 소형 텍스트 주석의 엔트리이다. 장면 분류에 대한 시각적인 특징 및 텍스트 특징을 일체화시키는 것이 바람직한 경우가 종종 있다. 온-라인 뉴스 소스, 예를 들면 Clarinet으로부터의 영상에 있어서, 각 영상과 결합된 캡션 또는 작품 형태의 텍스트 정보이다. 이 텍스트 정보는 설명에 포함될 수 있다.

제6 서브시스템(260)은 저 레벨 시각 특징에 따른 영상 및 비디오 슛의 고 레벨 의미 상의 분류에 대한 시스템이다. 시스템의 중심은 룰 유도, 클러스터링 및 가장 근접한 이웃 분류와 같은 각종 기계 습득 설명로 구성된다. 이 시스템은 영상 및 비디오 장면을 {자연 경관}, {도시/시골}, {실내}, 및 {실외}와 같은 고 레벨 의미 상의 장면 클라스로 분류시키는데 사용된다. 시스템은 동일 세트의 의미 상의 장면 클라스에서도, 하나의 언어 자료와 작업이 잘 될 수 있는 일정 세트의 룰이 다른 언어 자료와 작업이 잘 될 수 없다는 점을 알 수 있기 때문에 기계 습득 설명에 초점을 맞춘다. 시스템의 중심은 기계 습득 설명에 근거로 하기 때문에, 시스템은 각각의 언어 자료로부터의 예로 시스템을 훈련시킴으로써 상이한 언어 자료에 대하여 높은 성능이 달성될 수 있다. 이 시스템에 의하여 생성된 설명은 비디오 시퀀스의 슛과 결합된 각각의 영상 또는 각각의 키프레임에 대한 장면 클라스를 나타내는 텍스트 주석 세트이다. 이 시스템(260)의 완전한 설명은 S. Paek 등의 "Integration of Visual and Text based Apporaches for the Content Labeling and Classification of Photographs," ACM SIGIR'99 Workshop on Multimedia Indexing and Retrieval. Berkeley, CA(1999)에 포함되어 있으며, 이 내용을 참조하여 본 명세서에 결합시켰다.

제7 서브시스템(270)은 모델 베이스 분류 시스템이다. 수많은 자동 영상 분류 시스템은 클라스-특정 연산을 사용하여 분류를 실행하는 사전에 정해진 세트의 클라스를 기준으로 하는 시스템이다. 시스템(270)은 사용자가 자신들의 자체 클라 스를 정할 수 있고 시각 모델을 자동으로 습득하는데 사용되는 예를 제공할 수 있다. 시각 모델은 자동 분할된 영역, 그들의 결합된 시각 특징, 및 그들의 공간 관계를 기준으로 한다. 예를 들면, 사용자는 청색 옷을 입은 한 사람이 브라운 소파에 앉아 있고 다른 사람은 앉아 있응 사람의 우측에 서 있는 시각적인 사진 모델을 만들 수 있다. 이 시스템은 분류하는 도중에 게으른 학습, 의사 결정 분지도 및 전개 프로그램의 조합을 사용한다. 이 시스템에 의하여 생성된 설명은 텍스트 주석 세트, 즉 각각의 영상에 대하여 사용자가 정한 클라스이다. 시스템(270)의 완전한 설명은 제임스 등의 "Model Based Classification of visual Information for Content-Based Retireval," Symp.Elec.Imaging: Multimedia Proc. and App-Storage Retrieval and for Image and Video Database VII,IS&T/SPIE '99(1999)에 포함되어 있으며, 이 내용을 참조하여 본 명세서에 결합시켰다.

다른 서브시스템(280)을 멀티미디어 컨텐츠 설명 시스템(200), 예를 들면 협력자에 의하여 사용된 서브시스템에 가하여 설명을 생성시킬 수 있다.

동작 시, 영상 및 비디오 컨텐츠(205)는 스틸 영상 또는 움직이는 비디오의 데이터베이스, 브라우저 인터페이스(206)로부터의 버퍼 수신 컨텐츠, 또는 라이브 영상 또는 비디오 전송을 위한 리셉터클일 수 있다. 서브시스템(210, 220, 230, 240, 250, 260, 270, 280)은 영상 및 비디오 컨텐츠(205) 상에서 동작하여, 전술한 바와 같이, 자동으로 분할된 영역의 저 레벨 시각적 특징, 사용자가 정한 의미 상의 객체, 고 레벨 장면 성질, 분류 및 결합된 텍스트 정보를 포함하는 설명(211, 221, 231, 241, 251, 261, 271, 281)을 생성한다. 영상 및 비디오 작품에 대한 모 든 설명이 생성되어 집적되면(290),설명이 서치 엔진(170)이 접근하는 데이터베이스(295) 내에 입력된다.

설명(211, 221, 231, 241, 251, 261, 271, 281)을 표준 포맷으로 생성시키기 위하여 서브시스템(210, 220, 230, 240, 250, 260, 270, 280)에 의하여 구현된 프로세스를 도 7 내지 도 8을 참조하여 후술한다. 특정의 서브시스템, 즉 영역-베이스 인덱스 및 서치 서브시스템(210) 및 비디오 객체 분할 시스템(230)은 전체 설명 생성 프로세스를 구현할 수 있지만, 잔여 서브시스템은 프로세스의 일부분만 구현하거나 프로세스 도중에 서브시스템(210, 230)에 의하여 호출될 수 있다. 유사한 방식으로, 서브시스템(210, 230)은 프로세스의 특정 작업에 대하여 서로 호출될 수 있다.

영상에 대한 표준 설명 개요를 도 3 내지 도 4를 참조하여 후술한다. 도 3을 참조하면, 세 사람이 있는 예시적인 영상(300)이 도시되어 있다. <object> 요소는 기초적인 설명 요소이다. 각각의 <object> 요소는 소정의 영상 설명 내의 독특한 확인자를 갖는다. 확인자는 <object> 요소, 예를 들면 <객체 id="1">의 속성으로 표현된다. <object> 요소는 또한 속성 명칭 유형이 필요하여 물리적 객체와 논리적 객체 사이를 구별한다. 물리적 객체는 일반적인 일부 설명자(특징, 의미 등)를 가진 연속적인 영상 영역, 즉 영상의 물리 객체에 대응하는 것이 일반적이다. 논리적 객체는 일부 고 레빌 의미 관계에 따른 객체 그룹이다(예를 들면, 얼굴 또는 사람). <object> 요소는 두 가지 이상의 속성, object_ref 및 object_node_ref를 또한 포함할 수 있다. object_ref는 하나의 객체를 실재하는 하나로부터 유도해 낼 수 있고, object_node_ref는 객체 계층의 노드로 다시 링크시킬 수 있다. 영상에 일치된 객체 세트 모두는 객체 세트 요소(<object_set>) 내에 포함된다.

전체 가족 사진(300), 아버지(310), 어머니(320), 아이(330), 부모님(340), 아이들(350), 얼굴(360), 아버지 얼굴(311), 어머니 얼굴(321)을 포함하는 9가지 예시적인 객체가 도 3에 도시되어 있다. 이들 객체는, 도 4a에 도시된 바와 같이, 객체 세트 0, 1, 2, 3, 4, 5, 6, 7, 8로서, 즉 전체 가족 사진은 0, 아버지(310)는 1, 어머니(320)는 2, 아이(330)는 3, 부모님(340)은 4, 아이들(350)은 5, 얼굴(360)은 6, 아버지 얼굴(311)은 7, 어머니 얼굴(321)은 8로 나타낼 수 있다. 이 예에서, 인식된 객체는 논리 객체인 얼굴(360)을 제외하고는 각각 물리 객체이다. XML에서, 이들 영상 객체는 다음과 같이 나타낼 수 있다:

XML 설명에서, 각각의 객체 요소는 영상 설명 내에 독특한 인식기를 갖는다. 인식기는 객체 요소(id)의 속성으로 나타낸다. 객체 요소(type)의 다른 속성은 물리 객체와 논리 객체 사이를 구별한다. 각각의 객체 요소의 컨텐츠는 영상 설명의 전체적인 구조를 예시하도록 비워진 상태로 남았다.

영상 설명 개요는 하나 이상의 객체 계층 요소(<object_hierachy>) 내에 계층식으로 조합된 객체 요소로 구성된다. 계층은 객체 세트 요소 내에 객체 요소를 구성하는 방식이다. 각각의 객체 계층은 객체 노드 요소(<object_node>) 나무로 구성된다. 각각의 객체 노드는 객체를 가리킨다.

영상의 객체는 영상 내 그들의 위치 또는 그들의 의미 관계에 의하여 구성될 수 있다. 객체를 그룹으로 하는 이들 두 가지 방식은 두 가지 유형의 계층, 즉 물리 계층 및 논리 계층을 생성시킨다. 물리 계층은 영상 내 객체의 물리 위치를 설명하는 반면, 논리 계층은 의미 클러스터링과 유사한 그들 의미의 고레벨 이해에 따른 객체를 구성한다.

도3의 영상 예에 계속하여, 두 가지 가능한 계층은 도 4b에 도시되어 있고, 객체 계층을 물리로 구성하는 객체 계층(410)이 도시되어 있고, 즉 객체(4, 5)는 객체(0) 내에 물리한다. 객체를 논리적으로 구성하는 제2 객체 계층(420)이 도시되어 있고, 즉 객체(7, 8)는 객체(6) 내에 결합된다. XML에서, 이들 두개의 계층 은 다음과 같이 나타낼 수 있다:

계층 유형은 속성(type)으로서 객체 계층 요소 내에 포함된다. 객체 노드 요소는 속성(id)형태의 독특한 인식기와 결합된다. 객체 노드 요소는 속성의 독특한 인식기를 사용하여 객체 요소를 참조한다. 객체 요소에 대한 참조는 속성(object_ref)로서 포함된다. 객체 요소는 객체 계층의 노드에 속성으로서 다시 연결되는 링크를 포함할 수 있다.

객체 세트 요소 및 하나 이상의 객체 계층 요소는 영상 요소(<image>)를 형성한다, <object_set> 요소 내의 <object> 요소는 <object_hierarchy> 요소에 계층식으로 조합된다. <object> 요소의 속성 object_node_ref는 <object_hierarchy> 요소의 대응하는 노드를 가리킨다. 한 편, <event_node> 요소의 속성 event_ref는 <object> 요소로 다시 참조한다.

부록 I는 도 3에 도시된 바의 예시적인 영상에 대한 완전한 영상 설명을 나 타낸다. 영상 설명 개요는 아래 표 I에 요약되어 있다.

위치 요소는 영상 위치의 지시기를 포함한다. 주석는 텍스트, 영상 또는 멀티미디어일 수 있다. 이들 특징은 자동으로, 반자동으로 또는 수동으로 추출 또는 할당될 수 있다.

특징이 자동으로 추출될 때, 특징 설명자는 추출 및 유사 일치 코드로의 링크를 포함할 수 있고, 다음 예에 도시된 바와 같이 외부 설명자로부터의 주석 요소 를 포함할 수도 있다.

부록 II에 포함된 제2 예는 특정의 영상 컨텐츠를 예시하며, 이것은 영상이 기억된 위치, 텍스트 주석, 즉 화상의 이름, 화상 속 사람의 이름, 화상을 찍은 위치, 화상이 나타내는 이벤트, 화상의 일자, LUV 색, 영상의 타무라 텍스처, 및 치수 또는 크기의 텍스처 특징을 포함하는 각각의 객체를 포함할 수 있다. 따라서, 전체 화상에 관한 정보, 예를 들면 영상이 기억된 위치는 전체 영상을 나타내는 객체 "id=o0"을 나타낸다. 다른 정보는 영상 내의 다른 객체에 관한 것이다. 객체 "id=o1"에 있어서, 텍스트 주석(사람의 이름 포함), 색, 텍스처, 고유값 분석을 사용하는 형상, 치수 및 분할 마스크 분석에서의 위치 면에서 예로서 특히 설명되어 있다. 객체 "id=o2"에 있어서, 단지 텍스트 주석만 제공된다. 객체 "id=o3"는 얼글 컨셉에 대응하는 논리 객체이다.

다음에 비디오 표준 설명 개요를 도 5 내지 도 6을 참조하여 설명한다. 도 5를 참조하면, 5 가지 시간적인 비디오 이벤트를 가진 예시적인 비디오 클립(500)이 도시되어 있다. 비디오 설명 개요에 있어서, <event> 요소는 기초적인 설명 요소이다. 각각의 <event> 요소는 소정의 비디오 DS 설명 내에서 독특한 인식기를 갖는다. 인식기는 <event> 요소 속성, 즉 <event id="1">로서 나타나 있다.

<event> 요소는 상이한 유형의 이벤트를 구별하도록 다른 속성 유형을 필요로 한다. 속성 유형은 3가지 상이한 값: shot, 연속_group_shots, 및 불연속_group_shots를 가질 수 있다. 불연속 그룹의 슛은 공통의 특징(예를 들면, 배경 색) 또는 고레벨 의미 관계(예를 들면, 화면 상의 배우)에 따라 함께 결합되는 것이 일반적이다. <event> 요소는 두 개 이상의 속성, basic_event_ref 및 event_node_ref를 또한 포함할 수 있다. basic_event_ref는 실재하는 하나로부터 하나의 이벤트를 유도할 수 있고, event_node_ref는 이벤트 계층의 노드로 다시 연결될 수 있다. 모든 이벤트 세트는 <event_set> 요소 내에서 알 수 있다.

도 5에는 전체 비디오 시퀀스(500), 호랑이가 먹이에 접근하는 장면(510), 호랑이가 먹이를 쫓는 장면(520), 호랑이가 먹이를 포획하는 장면(530), 호랑이가 먹이를 먹는 장면(540)을 포함하는 9가지 예시적인 비디오 장면이 도시되어 있다. 마지막 장면에서는 두 가지 이벤트, 호랑이가 음식을 감추는 장면(550), 및 호랑이가 새끼에게 먹이를 주는 장면을 포함한다. 영상 객체와 평행인 이들 비디오 이벤트는 도 6a에 도시된 바와 같이 이벤트 세트 0. 1. 2, 3, 4, 5, 6으로 나타내어 질 수 있고, 전체 비디오 시퀀스(500)는 이벤트 0, 호랑이가 먹이에 접근하는 장면(510)은 1, 호랑이가 먹이를 쫓는 장면(520)은 이벤트 2, 호랑이가 먹이를 포획하는 장면(530)은 이벤트 3, 호랑이가 먹이를 먹는 장면(540)은 이벤트 4, 호랑이가 먹이를 감추는 장면(550)은 이벤트 5, 호랑이가 새끼에게 먹이를 주는 장면(560)은 이벤트 6으로 나타낸다. 이 예에서, 인식된 이벤트는 연속 그룹 슛 유형인 이벤트(4)를 제외하고는 각각 의 슛이다. 이벤트 1 및 3과 같은 시간과 관련없이 정렬된 이벤트는 불연속 그룹 슛 내에 구성될 수 있다. XML에서, 이들 영상 객체는 다음과 같이 나타낼 수 있다:

각각의 <event> 요소는 비디오 설명 개요가 비워진 상태로 전체적인 구조를 명확하게 나타내고 있음을 유의해야 한다. 소정의 비디오 이벤트의 선택 및 정의는 설명의 작가에 의해 결정된다는 점에 유의하는 것이 중요하다. <event> 요소는 비디오 슛 또는 장면, 혹은 이들의 조합 중 어느 하나에 대응할 수 있다.

비디오 설명 개요는 <event_hierarchy> 요소에 계층적으로 조합된 <event> 요소로 구성되는 것이 기본이다. <event_hierarchy> 요소는 하나의 <event-node> 요소를 반드시 포함해야 한다. <event_node>는, 영상 설명 개요에 대하여 전술한 바와 같이, 0 또는 그 이상의 <event_node> 요소 및 0 또는 그 이상의 <object_hierarchy> 요소를 포함한다. 각각의 <event_node> 요소는 독특한 인식기와 결합된다. 인식기는 요소 속성, 예를 들면 <event_node id="1">로서 나타낸다. 계층은 <event_set> 내에 <event> 요소를 구성하는 방식이다.

비디오 시퀀스를 형성하는 상이한 이벤트는 그룹으로 되거나 또는 비디오 시퀀스 내의 위치 또는 의미 관계에 의하여 두 가지 상이한 방식으로 구성될 수 있다. <event_hierarchy> 요소는 속성, 유형을 포함하여 물리 계층과 논리 계층 사이를 구별한다. 물리 계층은 영상의 이벤트의 시간 관계를 설명한다. 한 편, 논리 계층은 의미의 고레벨 이해에 따른 이벤트를 구성한다.

각각의 <event_node> 요소는 각각의 <event>와 결합된 독특한 인식기를 사용하여 <event> 요소에 대한 참조로 구성된다. <event> 요소에 대한 참조는 event_ref 속성으로 부여된다. 도 5의 비디오는 도 6b에 도시된 계층을 갖는다. 이 계층은 XML에 다음과 같이 나타낸다:

이벤트 세트 요소 및 하나 이상의 이벤트 계층 요소가 비디오 요소(<video>) 를 형성한다. 비디오 요소는 설명하고자 하는 비디오 시퀀스를 상징한다. <event_set> 요소 내의 <event> 요소는 <event_hierarchy> 요소 내에 계층적으로 조합된다. <event> 요소의 속성 event_node_ref는 <event_hierarchy> 요소의 대응하는 노드를 가리킨다. 한 편, <event_node> 요소의 속성 event_ref는 <event> 요소를 다시 참조한다.

비디오 설명 개요에 있어서, <event> 요소는 다음 요소를 포함할 수 있다:

<object_set> <text_annotation> 및 <location> 요소는 영상 설명 개요에 대하여 위에 설명하였다. <transition> 요소는 슛 사이의 이동을 설명한다. 따라서, 호항이 비디오의 이벤트 3은 다음과 같이 설명될 수 있다:

부록 III은 도 5에 도시된 예시적인 영상에 대한 완전한 비디오 설명을 나타낸다.

도시된 비디오 설명 개요에서, 이벤트 요소는 특히 위치, 슛 이동(즉, 각종의 슛 내 또는 슛 특정 효과), 카메라 동작, 시간, 주요 프레임, 주석 및 객체 세트 요소를 포함하는 특징을 포함한다. 객체 요소는 영상 설명 개요에 정해지고, 이것은 이벤트의 관련 객체를 나타낸다. 영상 설명에서와 같이, 이들 특징은 자동으로 또는 수동으로 추출되거나 또는 할당될 수 있다. 자동으로 추출된 이들 특징에 대하여, 특징 설명자는 추출 및 유사 일치 코드로의 링크를 포함할 수 있다. 예를 들면,

부록 IV에 포함된 제2 예는 하나 이상의 별개의 이벤트를 포함할 수 있는 특정의 비디오 시퀀스 컨텐츠를 설명하는 것으로서, 이들 이벤트의 특징은 비디오가 기억된 위치, 텍스트 주석, 즉 지디오 이름, 비디오 내의 사람 이름, 비디오를 찍은 위치, 비디오가 나타내는 이벤트, 및 비디오 일자, 비디오 시퀀스 내의 객체, 카메라 동작, 비디오 시퀀스의 프레임 개수, 및 키프레임 면에서의 총 시간을 포함한다. 전체 비디오 시퀀스에 관한 정보는 이벤트 id=E0을 나타낸다. 다른 정보는 영상 내의 다른 객체에 관한 것이다.

전술한 컨텐츠를 구성하는데 사용된 이벤트 계층은 물리 계층이며 시간 관계를 나타낸다. 이 경우, 단지 하나의 이벤트는 전체 비디오에 대응하는 id=E0이다. 이벤트 내에서, 두 개의 계층을 사용하여 이벤트 내의 객체, 즉 물리 계층 및 논리 계층을 설명하고, 영상 예에 대하여 전술한 물리 계층과 논리 계층과 평행이다.

시스템(200)에 의하여 구현된 프로세스는 영상을 생성하고, 도 3 내지 도 6을 참조하여 개시된 비디어 설명을 도 7 내지 도 8을 참조하여 설명한다. 도 7은 영상에 대한 설명을 생성하는 바람직한 프로세스를 예시하는 플로차트이다. 디지털 영상 데이터(710)를 링크(711)를 거쳐 컴퓨터 시스템에 가한다. 영상 데이터는 압축되지 않거나, 또는 임의의 적합한 압축 개요, 예를 들면 JPEG에 따라 압축될 수 있다.

컴퓨터 시스템은, 적합한 애플리케이션 소프트웨어의 제어 하에, 영상 데이터(710) 상에서 객체 추출(720)을 먼저 실행하여 영상 객체를 생성시킨다. 객체 추출(720)은 완전한 자동 프로세싱 작업, 반자동 프로세싱 작업, 또는 객체가 사용자 입력 장치와 같은 사용자 상호작용을 거쳐 주로 정해지는 실질적으로 수동 작업 형태를 취할 수 있다.

바람직한 방법에 있어서, 객체 추출(720)은 두 가지 보조 작업, 즉 영상 분할(725) 및 특징 추출과 주석(726)로 구성된다. 영상 분할(725) 단계에 있어서, 디지털 영상을 하나 이상의 공통 특징을 공유하는 영역으로 구분하는 임의의 영역 트래킹 설명이 사용될 수 있다. 마찬가지로, 특징 추출과 주석 단계(326)에 있어서, 분할된 영역으로부터 특징을 생성시키는 임의의 설명이 사용될 수 있다. 점ㄴ 전술한 영역-베이스 인덱스 및 서치 서브시스템(210)은 자동 영상 분할 및 특징 추출에 적합하고, 전술한 비디오 객체 분할 시스템9230)은 반자동 영상 분할 및 특징 추출의 예에 적합하다. 수동 분할 및 특징 추출은 대안으로서 사용될 수 있다.

객체 추출 프로세싱(720)은 영상 객체(721) 및 객체 계층 추출 및 구성 모듈(730)에 의하여 추가로 처리되는 것이 바람직한 주석(집합적으로 "영상 객체 설명")와 같은 선택적인 관련 특징을 생성시킨다. 대안으로서, 객체(721)는 데이터베이스(740) 내에 직접 기억되거나, 또는 XML 인코더(750) 또는 바이너리 인코더(760)에 의하여 인코딩된 다음 데이터베이스(740)에 기억된다(751, 752).

객체 계층 추출 및 구성 모듈(730)은 영상 객체 상에서 작업하여 영상 계층 설명(731)을 생성시킨다. 바람직하기로는, 물리 객체 계층 구성(735) 및 논리 객체 계층 구성(736) 양자 모두는 평행으로 실행되어 설명(731)을 생성시킨다. 전술한 영역-베이스 인덱스 및 서치 서브시스템(210)은 자동 영상 객체 계층 구조에 적합하고, 전술한 비디오 객체 분할 시스템(230)은 반자동 객체 계층 구조의 예에 적합하며, 수동 객체 계층 구조는 대안으로서 사용될 수 있다.

영상 객체 계층 설명(731)은 데이터베이스(740)에 직접 기억되거나 또는 XML 인코더(750) 또는 바이너리 인코더(760)에 의하여 인코딩된 다음 데이터베이스(740)에 영상 설명 코드로서 기억된다(751, 752). 영상 설명 레코드가 데이터베이스(740)에 기억되고 나면, 이들은 다른 애플리케이션(770), 예를 들면 서치, 필터 및 예를 들어 양방향 링크(771)를 거쳐 애플리케이션 파일 보관에 의하여 접근 및 사용될 수 있는 유용한 포맷으로 남는다.

도 8은 비디오에 대한 설명을 생성시키는 바람직한 프로세스를 예시하는 플로차트이다. 디지털 비디오 데이터(810)는 링크(811)를 거쳐 컴퓨터 시스템에 가해진다. 비디오 데이터는 압축되지 않거나, 또는 임의의 적합한 압축 개요, 예를 들면 MPEG-1, MPEG-2, MPEG-4, 동작 JPEG, H.261 또는 H.263에 따라 압축될 수 있다.

컴퓨터 시스템은, 적합한 애플리케이션 소프트웨어의 제어 하에, 비디오 데이터(810) 상에서 이벤트 및 객체 추출(820)을 먼저 실행하여 비디오 데이터(810)를 비디오 이벤트로 시간적으로 분할하여 비디오 객체를 이벤트 내에 위치시킨다. 비디오 이벤트 및 객체 추출(820)은 완전 자동 프로세싱 작업, 반자동 프로세싱 작업, 또는 객체가 사용자 입력 장치와 같은 사용자 상호작용을 통해 먼저 정해진 실질적으로 수동 작업 형태를 취할 수 있다.

바람직한 방법에 있어서, 비디오 이벤트 및 객체 추출 프로세스(820)는 3가지 보조 작업, 즉 시간적인 비디오 분할(825), 객체 추출(826) 및 특징 추출과 주석(827)로 구성된다. 분할(825) 단계에 있어서, 비디오는 슛, 연속 그룹의 슛, 또는 하나 이상의 특징을 공유하는 불연속 그룹의 슛으로 시간적으로 분할된다. 객체 추출(826) 단계에 있어서, 비디오 객체는 동작과 시간 정보가 사용될 수 있는 것을 제외하고는 스틸 영상으로부터 영상 객체를 추출하는 바와 동일 방식으로 비디오 슛으로부터 추출된다. 특징 추출 및 주석(827) 단계는 객체 추출 단계(826)와 평행으로 실행되고, 시간적으로 분할된 비디오 슛 상에서 작업하여 카메라 동작, 키 프레임 및 텍스트 주석와 같은 특징을 생성시킨다. 전술한 영역-베이스 인덱스 및 서치 서브시스템(210)은 자동 분할, 객체 추출 및 특징 추출에 적합하고, 전술한 비디오 객체 시스템(230)은 예를 들면 반자동 분할, 객체 추출 및 특징 추출에 적합하다. 수동 분할 및 추출은 대안으로서 사용가능하다.

이벤트 및 객체 추출 프로세싱(820)은 이벤트 및 비디오 객체 세트(821)와 이벤트 및 객체 계층 추출 및 구조 모듈(830)에 의하여 추가 처리되는 것이 바람직한 주석(집합적으로 "비디오 객체 설명")와 같은 선택적인 관련 특징을 생성시킨다. 대안으로서, 이벤트 및 비디오 객체(821)는 데이터베이스(840) 내에 직접 기억되거나, 또는 XML 인코더(850) 또는 바이너리 인코더(860)에 의하여 인코딩된 다음 데이터베이스(840)에 기억된다.

모듈(830)은 비디오 객체 설명 상에서 작업하여 비디오 객체 계층 설명(831)을 생성시킨다. 바람직하기로는, 비디오 객체 설명은 물리 작업 과 논리 작업 양자 모두에 의하여 평행으로 작업된다. 따라서, 비디오 객체 설명은 물리(시간) 이벤트 계층 구성(835) 및 논리 이벤트 계층 구성(836) 양자 모두를 평행으로 받은 다음, 물리 객체 계층 구성(837) 및 논리 객체 계층 구성(838)을 받아, 비디오 이벤트 및 이들 이벤트 내에 포함된 객체 양자 모두가 계층적으로 구성된다. 전술한 영역-베이스 인덱스 및 서치 서브시스템(210)은 자동 비디오 계층 구조에 적합하고, 전술한 비디오 객체 분할 시스템(230)은 예를 들어 반자동 비디오 객체 계층 구조에 적합하다. 수동 비디오 객체 계층 구조는 대안으로서 사용될 수 있다.

비디오 객체 계층 설명(831)은 비디오 객체 설명과 함께 데이터베이스(840)에 직접 기억되거나, 또는 XML 인코더(850) 또는 바이너리 인코더(860)에 의하여 인코딩된 다음 비디오 설명 레코드로서 데이터베이스(840)에 기억된다. 비디오 설명 레코드가 데이터베이스(840)에 기억되고 나면, 이들은 서치, 필터, 및 예를 들어 양방향 링크(871)을 거쳐 애플레케이션을 파일 보관하는 것과 같은 다른 애플리케이션(870)에 의하여 접근 및 사용하는 유용한 포맷이다.

전술한 설명은 본 발명의 원리를 단지 예시하는 것이다. 당업자는 출원인의 교시에 따라 전술한 실시예를 여러 가지로 변형 및 변경할 수 있다는 점을 이해할 것이다. 따라서, 당업자는 본 명세서에 도시되거나 설명되디 않았지만, 본 발명의 원리를 구현하는 여러 가지 시스템 및 방법으로 본 발명의 취지 및 범위를 벗어나지 않고 변경할 수 있다는 점을 이해할 수 있을 것이다.

Claims

멀티미디어 정보로부터 설명 레코드를 생성하는 시스템에 있어서,

(a) 상기 멀티미디어 정보를 수신하는 적어도 하나의 멀티미디어 정보 입력 인터페이스,

(b) 상기 적어도 하나의 멀티미디어 정보 입력 인터페이스에 결합되고, 상기 인터페이스로부터 상기 멀티미디어 정보를 수신하고, 상기 멀티미디어 정보를 상기 멀티미디어 정보로부터 멀티미디어 객체 설명을 생성하도록 객체 추출 처리를 실행함으로써 처리하고, 상기 생성된 멀티미디어 객체 설명을 상기 객체 설명의 구성을 나타내는 멀티미디어 객체 계층 설명을 생성하는 객체 계층 처리에 의하여 처리하는 컴퓨터 프로세서,

(c) 상기 프로세서에 동작가능하게 결합되고, 상기 적어도 하나의 설명 레코드를 기억하는 데이터 기억 시스템

을 포함하고,

적어도 하나의 설명 레코드는 상기 멀티미디어 객체 설명을 포함하며, 상기 말티미디어 객체 계층 설명은 상기 멀티미디어 정보 내에 포함된 컨텐츠용으로생성되는

설명 레코드 생성 시스템.
제1항에 있어서,

상기 멀티미디어 정보는 영상 정보를 포함하고, 상기 멀티미디어 객체 설명은 영상 객체 설명을 포함하고, 상기 멀티미디어 객체 계층 설명은 영상 객체 계층 설명을 포함하는

설명 레코드 생성 시스템.
제2항에 있어서,

상기 객체 추출 처리는

(a) 상기 영상 정보 내의 각 영상을 상기 영상 내의 영역으로 분할하는 영상 분할 처리, 및

(b) 하나 이상의 상기 영역에 대한 하나 이상의 특징 설명을 생성하는 특징 추출 처리

를 포함하고,

상기 생성된 객체 설명은 하나 이상의 상기 영역에 대한 상기 하나 이상의 특징 설명을 포함하는

설명 레코드 생성 시스템.
제3항에 있어서,

상기 하나 이상의 특징 설명은 텍스트 주석, 색, 텍스처, 형상, 치수 및 위치로 이루어지는 군에서 선택되는

설명 레코드 생성 시스템.
제2항에 있어서,

상기 객체 계층 처리는 상기 객체의 공간 특징에 따른 상기 영상 객체 설명의 물리 객체 계층 설명을 생성하는 물리 객체 계층 구성을 포함하고, 이로써 상기 영상 객체 계층 설명이 물리 설명을 포함하는

설명 레코드 생성 시스템.
제5항에 있어서,

상기 객체 계층 처리는 상기 객체의 의미 특징에 따른 상기 영상 객체 설명의 논리 객체 계층 설명을 생성하는 논리 객체 계층 구성을 추가로 포함하고, 이로써 상기 영상 객체 계층 설명이 물리 설명 및 논리 설명 양자 모두를 포함하는

설명 레코드 생성 시스템.
제6항에 있어서,

상기 객체 추출 처리는

(a) 상기 영상 정보 내의 각 영상을 상기 영상 내의 영역으로 분할하는 영상 분할 처리, 및

(b) 하나 이상의 상기 영역에 대한 객체 설명을 생성하는 특징 추출 처리

를 포함하고,

상기 물리 계층 구성 및 상기 논리 계층 구성이 상기 하나 이상의 영역에 대 한 상기 객체 설명의 계층 설명을 생성하는

설명 레코드 생성 시스템.
제7항에 있어서,

상기 영상 객체 계층 설명 및 상기 영상 객체 설명을 수신하고, 상기 영상 객체 계층 설명 및 상기 영상 객체 설명을 인코딩된 설명 정보로 인코딩하는 인코더를 추가로 포함하고, 상기 데이터 기억 시스템이 상기 인코딩된 설명 정보를 적어도 하나의 설명 레코드로서 기억하도록 동작하는

설명 레코드 생성 시스템.
제1항에 있어서,

상기 멀티미디어 정보는 비디오 정보를 포함하고, 상기 멀티미디어 객체 설명은 이벤트 설명 및 객체 설명 양자 모두를 포함하는 비디오 객체 설명을 포함하고, 상기 멀티미디어 계층 설명은 이벤트 계층 설명 및 객체 계층 설명 양자 모두를 포함하는 비디오 객체 계층 설명을 포함하는

설명 레코드 생성 시스템.
제9항에 있어서,

상기 객체 추출 처리는

(a) 상기 비디오 정보를 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹으로 시간적으로 분할하여 상기 비디오 이벤트에 대한 이벤트 설명을 생성하는 시간 비디오 분할 처리,

(b) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹을 하나 이상의 영역으로 분할하여 상기 영역에 대한 객체 설명을 생성하는 비디오 객체 추출 처리, 및

(c) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹에 대한 하나 이상의 이벤트 특징 설명, 및 상기 하나 이상의 영역에 대한 하나 이상의 객체 특징 설명을 생성하는 특징 추출 처리

를 포함하고,

상기 생성된 비디오 객체 설명이 상기 이벤트 특징 설명 및 상기 객체 설명을 포함하는

설명 레코드 생성 시스템.
제10항에 있어서,

상기 하나 이상의 이벤트 특징 설명은 텍스트 주석, 슛 천이, 카메라 동작, 시간 및 키 프레임으로 이루어지는 군에서 선택되고, 상기 하나 이상의 객체 특징 설명은 색, 텍스처, 형상, 치수, 위치, 동작 및 시간으로 이루어지는 군에서 선택되는

설명 레코드 생성 시스템.
제9항에 있어서,

상기 객체 계층 처리는

상기 비디오 객체의 시간 특징에 따른 상기 비디오 객체 설명의 물리 이벤트 계층 설명을 생성하는 물리 이벤트 계층 구성을 포함하고, 이로써 상기 비디오 계층 설명이 시간 설명을 포함하는

설명 레코드 생성 시스템.
제12항에 있어서,

상기 객체 계층 처리는

상기 비디오 객체의 의미 특징에 따른 상기 비디오 객체 설명의 논리 이벤트 계층 설명을 생성하는 논리 이벤트 계층 구성을 추가로 포함하고, 이로써 상기 계층 설명이 시간 설명 및 논리 설명 양자 모두를 포함하는

설명 레코드 생성 시스템.
제13항에 있어서,

상기 객체 계층 처리는

물리 및 논리 객체 계층 추출 처리, 상기 시간 및 논리 설명을 수신 및 상기 비디오 정보 내에 포함된 비디오 객체에 대한 객체 계층 설명의 생성을 추가로 포함하고, 이로써 상기 비디오 계층 설명이 시간 및 논리 이벤트와 객체 설명을 포함하는

설명 레코드 생성 시스템.
제14항에 있어서,

상기 객체 추출 처리는

(a) 상기 비디오 정보를 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹으로 시간적으로 분할하고 상기 비디오 이벤트에 대한 이벤트 설명을 생성하는 시간적 비디오 분할 처리,

(b) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹을 하나 이상의 영역으로 분할하고 상기 영역에 대한 객체 설명을 생성하는 비디오 객체 추출 처리, 및

(c) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹에 대한 하나 이상의 특징 설명, 및 상기 하나 이상의 영역에 대한 하나 이상의 객체 특징 설명을 생성하는 특징 추출 처리

를 포함하고,

상기 생성된 비디오 객체 설명은 상기 이벤트 특징 설명 및 상기 객체 설명을 포함하고, 상기 물리 이벤트 계층 구성 및 상기 논리 이벤트 계층 구성은 상기 이벤트 특징 설명으로부터 계층 설명을 생성하고, 상기 물리 객체 계층 구성 및 상기 논리 객체 계층 구조는 상기 객체 특징 설명으로부터 계층 설명을 생성하는

설명 레코드 생성 시스템.
제15항에 있어서, 상기 비디오 객체 계층 설명 및 상기 비디오 객체 설명을 수신하고, 상기 비디오 객체 계층 설명 및 상기 비디오 객체 설명을 인코딩된 설명 정보로 인코딩하는 인코더를 추가로 포함하고, 상기 데이터 기억 시스템은 상기 인코딩된 설명 정보를 상기 적어도 하나의 설명 레코드로서 기억하도록 동작하는

설명 레코드 생성 시스템.
멀티미디어 정보로부터 설명 레코드를 생성하는 방법에 있어서,

(a) 상기 멀티미디어 정보를 수신하는 단계,

(b) 상기 멀티미디어 정보로부터 멀티미디어 객체 설명을 생성하도록 객체 추출 처리를 실행함으로써 상기 멀티미디어 정보를 처리하는 단계,

(c) 상기 객체 설명의 구성을 나타내는 멀티미디어 객체 계층 설명을 생성하도록 객체 계층 처리를 실행함으로써 상기 생성된 멀티미디어 객체 설명을 처리하는 단계, 및

(d) 상기 적어도 하나의 설명 레코드를 기억하는 단계

를 포함하고,

적어도 하나의 설명 레코드는 상기 멀티미디어 객체 설명을 포함하고, 상기 멀티미디어 객체 계층 설명은 상기 멀티미디어 정보 내에 포함된 컨텐츠에 대하여 생성되는

설명 레코드 생성 방법.
제17항에 있어서,

상기 멀티미디어 정보는 영상 정보를 포함하고, 상기 멀티미디어 객체 설명은 연상 객체 설명을 포함하고, 상기 멀티미디어 객체 계층 설명은 영상 객체 계층 설명을 포함하는

설명 레코드 생성 방법.
제2항에 있어서,

상기 객체 추출 처리 단계는

(a) 상기 영상 정보 내의 각 영상을 상기 영상 내의 영역으로 분할하는 영상 분할 처리, 및

(b) 하나 이상의 상기 영역에 대한 하나 이상의 특징 설명을 생성하는 특징 추출 처리

의 서브-단계를 포함하고,

상기 생성된 영상 객체 설명은 하나 이상의 상기 영역에 대한 상기 하나 이상의 특징 설명을 포함하는

설명 레코드 생성 방법.
제19항에 있어서, 상기 하나 이상의 특징 설명은 텍스트 주석, 색, 텍스처, 형상, 치수, 및 위치로 이루어지는 군에서 선택되는

설명 레코드 생성 방법.
제18항에 있어서,

상기 객체 계층 처리 단계는 상기 객체의 공간 특징에 따른 상기 영상 설명 의 물리 객체 계층 설명을 생성하는 물리 객체 계층 구성의 서브-단계를 포함하고, 이로써 상기 영상 계층 설명이 물리 설명을 포함하는

설명 레코드 생성 방법.
제21항에 있어서,

상기 객체 계층 처리 단계는

상기 객체의 의미 특징에 따른 상기 영상 객체 설명의 논리 객체 계층 설명을 생성하는 논리 객체 계층 구성의 서브-단계를 포함하고, 이로써 상기 영상 객체 계층 설명이 물리 설명 및 논리 설명 양자 모두를 포함하는

설명 레코드 생성 방법.
제22항에 있어서,

상기 객체 추출 처리 단계는

(a) 상기 영상 정보 내의 각 영상을 상기 영상 내의 영역으로 분할하는 영상 분할 처리, 및

(b) 하나 이상의 상기 영역에 대한 객체 설명을 생성하는 특징 추출 처리하는

서브-단계를 포함하고,

상기 물리 객체 구성 서브-단계 및 상기 논리 객체 계층 구성 서브-단계는 상기 하나 이상의 영역에 대한 상기 객체 설명의 계층 설명을 생성하는

설명 레코드 생성 방법.
제18항에 있어서,

상기 영상 객체 설명 및 상기 영상 객체 계층 설명을 상기 레코드 기억 단계 전에 인코딩된 설명 정보로 인코딩하는 단계를 추가로 포함하는

설명 레코드 생성 방법.
제17항에 있어서,

상기 멀티미디어 정보는 비디오 정보를 포함하고, 상기 멀티미디어 객체 설명은 이벤트 설명 및 객체 설명 양자 모두를 포함하는 비디오 객체 설명을 포함하고, 상기 멀티미디어 계층 설명은 이벤트 계층 설명 및 객체 계층 설명 양자 모두를 포함하는 비디오 객체 계층 설명을 포함하는

설명 레코드 생성 방법.
제25항에 있어서,

상기 객체 추출 처리 단계는

(a) 상기 비디오 정보를 하나 이상의 비디오 이벤트 또는 바디오 이벤트 그룹으로 시간적으로 분할하고 상기 비디오 이벤트에 대한 이벤트 설명을 생성하도록 시간적으로 비디오 분할 처리하고,

(b) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹을 하나 이상의 영역으로 분할하고 상기 영역에 대한 객체 설명을 생성하도록 비디오 객체 추출 처리하고,

(c) 상기 하나 이상의 비디오 이밴트 또는 비디오 이벤트 그룹에 대한 하나 이상의 이벤트 특징 설명, 및 상기 하나 이상의 영역에 대한 하나 이상의 객체 설명을 생성하도록 특징 추출 처리하는

서브-단계를 포함하고,

상기 생성된 비디오 객체 설명은 상기 이벤트 특징 설명 및 상기 객체 설명을 포함하는

설명 레코드 생성 방법.
제26항에 있어서,

상기 하나 이상의 이벤트 특징 설명은 텍스트 주석, 슛 천이, 카메라 동작, 시간 및 키 프레임으로 이루어지는 군에서 선택되고, 상기 하나 이상의 객체 특징 설명은 색, 텍스처, 형상, 치수, 위치, 동작, 및 시간으로 이루어지는 군에서 선택되는

설명 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 처리 단계는

상기 비디오 객체의 시간 특징에 따른 상기 비디오 객체 설명의 물리 이벤트 계층 설명을 생성하는 쿨리 이벤트 계층 구성 서브-단계를 포함하고, 이로써 상기 비디오 계층 설명이 시간 설명을 포함하는

설명 레코드 생성 방법.
제28항에 있어서,

상기 객체 계층 처리 단계는

상기 비디오 객체의 의미 특징에 따른 상기 비디오 갹체 설명의 논리 이벤트 계층 설명을 생성하는 논리 이벤트 계층 구성의 서브-단계를 추가로 포함하고, 이로써 상기 계층 설명이 시간 설명 및 논리 설명 양자 모두를 포함하는

설명 레코드 생성 방법.
제29항에 있어서,

상기 객체 계층 처리 단계는

물리 및 논리 객체 계층 추출 처리, 상기 시간 및 논리 설명 수신 및 상기 비디오 정보 내에 포함된 비디오 객체에 대한 객체 계층 설명을 생성하는 서브-단계를 포함하고, 이로써 상기 비디오 계층 설명이 시간 및 논리 이벤트 및 객체 설명을 포함하는

설명 레코드 생성 방법.
제30항에 있어서,

상기 객체 추출 처리 단계는

(a) 상기 비디오 정보를 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹으로 시간적으로 분할하고 상기 비디오 이벤트에 대한 이벤트 설명을 생성하는 시간 비디오 분할 처리하고,

(b) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹을 하나 이상의 영역으로 분할하고 상기 영역에 대한 객체 설명을 생성하는 비디오 객체 추출 처리하고, 및

(c) 상기 하나 이상의 비디오 이벤트 또는 비디오 이벤트 그룹에 대한 하나 이상의 이벤트 특징 설명, 및 상기 하나 이상의 영역에 대한 하나 이상의 객체 특징 설명을 생성하는 특징 추출 처리하는

서브-단계를 포함하고,

상기 생성된 비디오 객체 설명은 상기 이벤트 특징 설명 및 상기 객체 설명을 포함하고, 상기 물리 이벤트 계층 구성 및 상기 논리 이벤트 계층 구성은 상기 이벤트 특징 설명으로부터 계층 설명을 생성하고, 상기 물리 객체 계층 구성 및 상기 논리 객체 계층 구성은 상기 객체 특징 설명으로부터 계층 설명을 생성하는

설명 레코드 생성 방법.
제15항에 있어서,

상기 비디오 객체 설명 및 상기 비디오 객체 계층 설명을 상기 데이터 기억 단계 전에 인코딩된 설명 정보로 인코딩하는 단계를 추가로 포함하는

설명 레코드 생성 방법.
대응하는 멀티미디어 정보에 대한 멀티미디어 컨텐츠를 나타내는 적어도 하나의 멀티미디어 설명 레코드를 가진 디지털 정보를 포함하는 컴퓨터 판독가능한 미디어에 있어서, 설명 레코드가

(a) 대응하는 멀티미디어 객체를 나타내는 하나 이상의 멀티미디어 객체,

(b) 상기 멀티미디어 객체 설명을 각각 특징으로 하는 하나 이상의 특징, 및

(c) 하나 이상의 특징에 따라 상기 하나 이상의 멀티미디어 객체 중 적어도 일부에 관련된 상기 객체 설명의 구성을 나타내는 하나 이상의 멀티미디어 객체 계층 설명

을 포함하는

컴퓨터 판독가능한 미디어.
제33항에 있어서,

상기 멀티미디어 정보는 영상 정보를 포함하고, 상기 멀티미디어 객체는 영상 객체를 포함하고, 상기 멀티미디어 객체 설명은 영상 객체 설명을 포함하고, 상기 멀티미디어 객체 계층 설명은 영상 객체 계층 설명을 포함하는

컴퓨터 판독가능한 미디어.
제34항에 있어서,

상기 하나 이상의 특징은 텍스트 주석, 색, 텍스처, 형상, 치수, 및 위치로 이루어지는 군에서 선택되는

컴퓨터 판독가능한 미디어.
제34항에 있어서,

상기 영상 객체 계층 설명은 상기 영상 객체의 공간 특징에 따른 상기 영상 객체 설명의 물리 객체 계층 설명을 포함하는

컴퓨터 판독가능한 미디어.
제36항에 있어서,

상기 영상 객체 계층 설명은 상기 영상 객체의 의미 특징에 따른 상기 영상 객체 설명의 논리 객체 계층 설명을 추가로 포함하는

컴퓨터 판독가능한 미디어.
제33항에 있어서,

상기 멀티미디어 정보는 비디오 정보를 포함하고, 상기 멀티미디어 객체는 이벤트 및 비디오 객체를 포함하고, 상기 멀티미디어 객체 설명은 이벤트 설명 및 객체 설명을 포함하는 비디오 객체 설명을 포함하고, 상기 특징은 비디오 이벤트 특징 및 비디오 객체 특징을 포함하고, 상기 멀티미디어 계층 설명은 이벤트 계층 설명 및 객체 계층 설명 양자 모두를 포함하는 비디오 객체 계층 설명을 포함하는

컴퓨터 판독가능한 미디어.
제38항에 있어서,

상기 하나 이상의 이벤트 특징 설명은 텍스트 주석, 슛 천이, 카메라 동작, 시간 및 키 프레임으로 이루어지는 군에서 선택되고, 상기 하나 이상의 객체 특징 설명은 색, 텍스처, 형상, 치수, 위치, 동작, 및 시간으로 이루어지는 군에서 선택되는

컴퓨터 판독가능한 미디어.
제38항에 있어서,

상기 이벤트 계층 설명은 시간 특징에 따른 상기 이벤트의 하나 이상의 물리 계층 설명을 포함하는

컴퓨터 판독가능한 미디어.
제40항에 있어서,

상기 이벤트 계층 설명은 의미 특징에 따른 상기 이벤트의 하나 이상의 논리 계층 설명을 추가로 포함하는

컴퓨터 판독가능한 미디어.
제38항에 있어서,

상기 객체 계층 설명은 시간 특징에 따른 상기 객체의 하나 이상의 물리 계층 설명을 포함하는

컴퓨터 판독가능한 미디어.
제39항에 있어서, 상기 객체 계층 설명은 의미 특징에 따른 상기 객체의 하나 이상의 논리 계층 설명을 추가로 포함하는

컴퓨터 판독가능한 미디어.