KR100734964B1

KR100734964B1 - 비디오 디스크립션 시스템 및 방법

Info

Publication number: KR100734964B1
Application number: KR1020017005773A
Authority: KR
Inventors: 백승엽; 베니테즈아나; 창시푸; 엘레프테리아디스알렉산드로스; 푸리애털; 황퀴앙; 리청쉥; 쥬디스찰리
Original assignee: 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕; 인터내셔널 비즈니스 머신즈 코오퍼레이션; 에이티 앤 티
Priority date: 1998-11-06
Filing date: 1999-11-05
Publication date: 2007-07-03
Also published as: JP2002532918A; WO2000028725A3; AU1243400A; EP1125245A1; JP2002529863A; AU1713500A; ATE540364T1; EP1147655A2; KR100697106B1; EP1125245A4; ATE528912T1; KR20020006623A; EP1147655B1; WO2000028725A2; EP1125245B1; WO2000028467A1; JP4382288B2; KR20020006624A; EP1147655A4

Abstract

비디오 컨텐트를 기술하기 위한 시스템 및 방법이 객체 세트(24), 객체 계층(26) 및 엔티티 관계 그래프(28)를 포함하는 비디오 디스크립션 레코드를 확립한다. 비디오 객체는 전역 객체, 세그멘트 객체 및 로컬 객체를 포함할 수 있다. 또한 비디오 객체는 클라스로 편성되어 있는 많은 수의 특징들에 의해 정의되며, 이 특징들은 다시 많은 수의 특징 스크립터(36, 38 및 40)에 의해 정의된다. 객체 세트(24)에서 객체들 사이의 관계(44)는 객체 계층(26) 및 엔티티 관계 그래프(28)에 의해 정의된다. 비디오 디스크립션 레코드는 후속 액세스를 위해, 또한 검색 엔진, 필터 및 보관 시스템과 같은 컴퓨터 애플리케이션에 의해 처리하기 위한 비디오 정보의 컨텐트 및 컨텍스트의 기술(記述)을 위한 표준 전달 수단을 제공한다.

비디오 컨텐트, 객체 세트, 객체 계층, 엔티티 관계 그래프, 전역 객체, 세그멘트 객체, 비디오 디스크립션 레코드, 스크립터

Description

비디오 디스크립션 시스템 및 방법 {VIDEO DESCRIPTION SYSTEM AND METHOD}

본 발명은 멀티미디어 정보를 기술(記述)하기 위한 기법, 특히 비디오 정보 및 이러한 정보의 내용을 기술하기 위한 기법에 관한 것이다.

글로벌 인터넷의 발달 및 광역 및 지역 네트워크의 대폭적인 보급과 더불어, 디지털 멀티미디어 정보는 개인 및 기업을 막론하고 점점 더 친숙해지고 있다. 따라서 디지털 멀티미디어 정보를 처리, 필터링(선별), 검색 및 편성하는 시스템의 개발이 그 중요도를 더해 가고 있으며, 그 결과 점증하는 방대한 양의 정보에서 유용한 정보를 가려낼 수 있게 되었다.

인스턴트 업무(instant application)를 정리 보관(filing)할 때에 개인 및 기업이 텍스트 정보를 검색할 수 있도록 하는 솔루션이 있다. yahoo.com, goto.com, excite.com 등에 의해 제공되는 실로 수많은 텍스트 기반의 검색 엔진이 World Wide Web에서 이용 가능하며, 그리고 가장 많이 방문하는 웹 사이트인 것을 보면, 그러한 정보 검색 기술에 대한 수요의 중요성을 알 수 있다.

불행히도, 일반적으로 이 정보 자료에 대한 공인된 기술 방법이 없는 멀티미디어 컨텐트에 있어선 그러하지 못하다. 이에 관하여, 화상 속에 내장되는 비디오 객체의 컬러, 텍스처 및 형상 정보와 같은 특성을 사용하여 유저가 검색할 수 있는 멀디미디어 데이터베이스를 제공하는 시도가 있었다. 그러나 20세기 말엽까지도 이 정보 자료를 기술할 수 있는 공인된 기술 방법이 없기 때문에, 멀티미디어 콘텐트에 대한 인터넷 또는 대부분의 광역이나 지역 네트워크를 통한 일반적인 검색이 불가능하였다. 또한 멀티미디어 컨텐트에 대한 검색의 수요가 데이터베이스에 국한된 것이 아니라 디지털 방송 텔레비젼 및 밀티미디어 전화 등 다른 응용으로 확대되고 있다.

MPEG(Motion Pictures Expert Group's)만이 MPEG-7 표준화 노력을 통해 멀티미디어 기술의 골격을 개발하려고 광범위하게 시도하였다. 1996년 10월에 착수된 MPEG-7은, 멀티미디어 검색, 필터링, 브라우징 및 요약 등 컨텐트에 초점을 맞춘 응용을 촉진하기 위해, 멀티미디어 데이터 컨텐트의 표준화를 목표로 하고 있다. MPEG-7 표준에 따른 객체에 대한 보다 완전한 기술은 ISO(International Organisation for Standardisation) 다큐먼트 ISO/IEC JTCI/SC29/WG11 N2460 (Oct.1998)에 포함되어 있으며, 참조로 그 내용이 본 명세서에 포함되어 있다.

MPEG-7 표준은 여러 가지 형식의 멀티미디어 정보를 기술하기 위한 디스크립터 및 그것들의 관계에 대한 구조(디스크립션 체계라 부름)는 물론, 디스크립터의 표준 세트를 명시하는 객체이다. 또한 MPEG-7은 디스크립터 및 그것들의 관계에 대한 "디스크립션 체계"는 물론 다른 디스크립터들을 정의하는 방법의 표준화를 제안하고 있다. 이 디스크립션, 즉 디스크립터와 디스크립션 체계의 조합은 컨텐트 자체와 연관되어, 유저가 관심을 가지는 정보 자료에 대한 빠르고 효율적인 검색 및 필터링을 가능하게 할 것이다. 또한 MPEG-7은 디스크립션 체계를 명시하는 언어, 즉 디스크립션 정의 언어(DDL, Discription Definition Language)의 표준화, 및 멀티미디어 컨텐트의 디스크립션을 2진 인코딩하기 위한 체계를 명시하는 언어의 표준화를 제안하고 있다.

인스턴트 업무를 정리 보관할 때에, MPEG은, 미래의 MPEG-7로의 통합을 위해 필요한 디스크립션 체계를 적절히 구현할 기법의 제안을 요청하고 있다. 이러한 적절한 디스크립션 체계를 제공하기 위하여, 상이한 3가지의 멀티미디어-응용 구조가 고려될 수 있다. 분산 처리 시나리오, 컨텐트 교환 시나리오, 및 멀티미디어 컨텐트를 개인적으로 볼 수 있는 포맷이 그것이다.

분산 처리 시나리오에 관하여, 디스크립션 체계는 어떤 플랫폼(제어장치), 어떤 벤더(메이커나 판매자) 및 어떤 응용 업무에 대한 멀티미디어 정보 자료의 디스크립션을 독립적으로 상호 교환하는 능력을 제공해야 하며, 이것은 멀티미디어의 분산 처리를 가능하게 할 것이다. 공통 운용이 가능한 컨텐트 디스크립터의 표준화는 다양한 정보 소스에서 나온 데이터가 멀티미디어 프로세서, 에디터(편집기), 검색 시스템, 필터링 에이전트 등의 다양한 분산 응용과 접속될 수 있음을 의미한다. 이러한 어플리케이션(응용 업무)은 부분적으로 제3자에 의해 제공될 수도 있으며, 이들은 멀티미디어 데이터의 표준화된 디스크립션에 의해 업무를 할 수 있는 멀티미디어 툴 공급자들에 의한 2차 산업(sub-industry)을 생성할 것이다.

유저는 컨텐트 및 관련 목록 데이터를 다운로드 받기 위해 컨텐트 공급자의 웹 사이트를 액세스하여, 고/저 수준의 처리에 의해 그것을 획득할 수 있어야 하며, 그다음 유저의 개인적인 기호에 따라 독특한 방법으로 다른 종류의 데이터 디스크립션을 다루기 위한 툴(예를 들면, 자바 에플릿)을 다운로드 받기 위해 몇몇 툴 공급자 웹 사이트를 액세스하게 된다. 그러한 멀티미디어 툴의 예가 멀티미디어 에디터이다. MPEG-7용의 비디오 에디터는, 각 비디오와 관련된 디스크립션이 MPEG-7용이면, 다양한 정보 소스에서 나온 비디오 컨텐트를 조작 및 처리할 수 있을 것이다. 각 비디오는 카메라 동작, 장면 컷(scene cut), 주석, 및 객체 분할 등 여러 등급의 디스크립션 세부 사항이 있다.

공통 운용이 가능한 컨텐트-디스크립션 표준으로부터 크게 혜택을 받을 두 번째 컨텐트 변경 시나리오는, 종류가 다른 멀티미디어 데이터베이스 사이의 멀티미디어 컨텐트의 상호 교환이다. MPEG-7은 멀티미디어 정보 자료의 기존 디스크립션을 표현, 교환, 번역, 및 재사용하는 수단의 제공을 목표로 하고 있다.

현재, TV 방송자, 라디오 방송 및 기타의 컨텐트 공급자들은 방대한 양의 멀티미디어 정보 자료를 운용 및 보관하고 있다. 공통 운용이 가능한 컨텐트 디스크립션이 없다면, 컨텐트 유저들은 각 방송자들이 사용하는 디스크립션을 그들 자신들이 보유한 체계로 수동으로 변역하기 위한 방대한 인력을 필요로 하게 될 것이다. 컨텐트 공급자들이 동일한 컨텐트 디스크립션 체계를 수용한다면 멀티미디어 컨텐트 디스크립션의 상호 교환이 가능하며, 이것은 MPEG-7이 겨냥한 목적 중 하나이다.

마지막으로, 디스크립션 체계를 채택한 멀티미디어 플레이어 및 뷰어(viewer)는, 유저에 의해 구성된 데이터의 멀티플 뷰(multiple view)와 같은 혁신적인 능력을 유저에게 제공해야만 한다. 유저는 컨텐트 방송자로부터 데이터를 다른 포맷으로 다시 다운로드 받지 않고 디스플레이의 구성을 변경할 수 있어야 한다.

전술한 예들은 MPEG-7 기반의 표준화된 방법으로 전달되는 풍부하게 구성된 데이터에 대해 가능한 사용을 암시만 하고 있다. 불행히도, 분산 처리 시나리오, 컨텐트-교환 시나리오, 또는 개인화된 뷰잉 시나리오를 전반적으로 만족시킬 수 있는 현재 이용 가능한 종래의 기술은 없다. 특히, 종래의 기술은 일반적 특성 또는 의미 관계 중 그 어느 것을 기반으로 하여 멀티미디어 정보에 내장된 컨텐트를 캡처링하기 위한 기술 및, 그러한 컨텐트를 편성하기 위한 기술을 제공하지 못하고 있다. 따라서 일반적 멀티미디어 정보를 위한 효율적인 컨텐트 디스크립션 체계에 대한 기술의 필요성이 존재한다.

비디오 컨텐트를 위한 디스크립션 체계를 제공하는 것이 본 발명의 목적이다.

확장이 가능한 비디오 컨텐트를 위한 디스크립션 체계를 제공하는 것이 본 발명의 또 다른 목적이다.

측정이 가능한 비디오 컨텐트를 위한 디스크립션 체계를 제공하는 것이 본 발명의 또 다른 목적이다.

MPEG-7 등의 제안된 미디어 표준의 요건을 만족시키는 디스크립션 체계를 제공하는 것이 본 발명의 또 다른 목적이다.

비디오 컨텐트를 기술하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또 다른 목적이다.

확장이 가능한 비디오 컨텐트를 기술하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또 다른 목적이다.

측정이 가능한 비디오 컨텐트를 기술하기 위한 시스템 및 방법을 제공하는 것이 본 발명의 또 다른 목적이다.

MPEG-7 등의 제안된 미디어 표준의 요건을 만족시키는 시스템 및 방법을 제공하는 것이 본 발명의 또 다른 목적이다.

본 발명에 따르면, 컴퓨터 데이터베이스 레코드에 비디오 컨텐트를 기술하는 제1의 방법은 비디오에 복수의 객체를 확립하는 단계이다; 이 단계는 객체의 복수의 특징에 의해 객체의 성격을 규정하며, 이 특징들에 따라 객체를 계층과 관련시키는 것이다. 또한 이 방법은 적어도 하나의 엔티티(entity, 구성 요소) 관련 그래프에 따라 객체를 관련시키는 추가적 단계를 포함할 수 있다.

바람직하게는, 객체는 로컬 객체(프레임 내의 화소 그룹 등), 세그멘트 객체(비디오 클립(오려 내기)의 하나 이상의 프레임을 표현하는) 및 전역(global) 객체의 형태를 취할 수 있다. 객체는 비디오 컨텐트로부터 자동적, 반자동적 또는 수동적으로 추출될 수 있다.

객체들을 정의하기 위해 사용되는 특징들은 시각 특징, 의미 특징, 매체 특징 및 시간 특징을 포함할 수 있다. 방법의 또 다른 단계는 특징들을 추가로 정의하기 위한 특징 디스크립터의 할당을 포함할 수 있다.

본 발명의 다른 실시예에 따르면, 컴퓨터 판독 가능 매체는 비디오 컨텐트를 기술하는 적어도 하나의 비디오 디스크립션 레코드에 의해 프로그램되어 있다. 전술한 방법에 따라 바람직하게 형성된 비디오 디스크립션 레코드는 일반적으로 비디오에 복수의 객체를 포함한다; 상기 객체의 성격을 규정하는 복수의 특징들, 및 상기 특징들에 따라 적어도 복수의 비디오 객체와 관련시켜지는 계층이 그것이다.

바람직하게는, 비디오 클립을 위한 디스크립션 레코드는 적어도 하나의 엔티티 관계 그래프를 포함한다. 또한 특징들은 시각 특징, 의미 특징, 매체 특징 및 시간 특징 중 적어도 하나를 포함하는 것이 바람직하다. 일반적으로 디스크립션 레코드의 특징들은 적어도 하나의 특징 디스크립터에 의해 추가로 정의될 수 있다,

본 발명에 따라 비디오 컨텐트를 기술하고, 비디오 디스크립션 레코드를 생성하기 위한 시스템은, 프로세서, 비디오 컨텐트를 수신하기 위해 프로세스에 착탈 가능하게 접속되는 비디오 입력 인터페이스, 프로세스에 착탈 가능하게 접속되는 비디오 디스플레이, 및 프로세서에 착탈 가능하게 접속되는, 컴퓨터 액세시블 데이터 스토리지 시스템을 포함한다. 프로세스는 비디오 컨텐트에 대한 비디오 객체 추출 처리, 엔티티 관계 그래프 처리 및 객체 추출 처리의 실행에 의해, 컴퓨터 액세시블 데이터 스토리지 시스템에 저장하기 위한 비디오 컨텐트의 비디오 디스크립션 레코드를 생성하기 위해 프로그램된다.

이 전형적인 시스템에서, 비디오 객체 추출 처리는 비디오 객체 추출 처리 작업 및 비디오 특징 추출 처리 작업을 포함할 수 있다.

본 발명의 또 다른 목적, 특징 및 장점은 발명의 도해적 실시예에 대한, 첨 부된 도면을 참조하는 다음의 상세한 설명을 통해 분명히 이해될 것이다.

도 1A는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 이미지이다.

도 1B는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 객체 계층이다.

도 1C는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 엔티티 관계 그래프이다.

도 2는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 블록도이다

도 3A는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 객체 계층이다.

도 3B는 본 발명의 이미지 디스크립션 시스템에 대한 또 다른 전형적인 객체 계층이다.

도 4A는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 이미지의 표현이다.

도 4B는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 클러스터화 계층(clustering hierarchy)이다.

도 5는 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 블록도이다.

도 6은 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 처리 흐름도이다.

도 7은 본 발명의 이미지 디스크립션 시스템에 대한 전형적인 블록도이다.

도 8은 본 발명의 이미지 디스크립션 시스템에 대한 또 다른 전형적인 블록 도이다.

도 9는 본 발명에 따른 비디오 디스크립션 체계(DS)의 개념도이다.

도 10은 그 속에 복수의 객체가 정의되어 있는 전형적인 비디오 클립의 그림 도면이다.

도 11은 도 10의 비디오 클립에서 객체들 사이의 전형적인 관계를 도시하는 전형적인 의미 계층에 대한 그래픽 표현이다.

도 12는 도 10의 비디오 클립에서 객체들 사이의 전형적인 관계를 도시하는 엔티티 관계 그래프의 그래픽 표현이다.

도 13은 본 발명에 따른 비디오 컨텐트 디스크립션을 생성하기 위한 시스템의 블록도이다.

도 14는 본 발명에 따른 비디오 컨텐트 디스크립션의 생성에 포함된 처리 작업을 도시하는 흐름도이다.

전체 도면들에서, 동일한 도면 번호 및 문자는 별도의 언급이 없는 한, 도시된 실시예와 유사한 특징, 요소, 부분을 가리킨다. 또한 지금부터 본 발명은 도면을 참조하여 도시된 실시예가 상세히 설명된다. 권리 청구항에 정의된 본 발명의 범위와 정신을 벗어나지 않고도 본 실시예는 변경 및 변화가 가능하다.

본 발명은 이미지를 위한 디스크립션 체계(DS)를 구성하며, 여기에는 일반적인 이미지 데이터를 대표하는 단순하지만 강력한 구조가 이용된다. 본 발명의 디스크립션 체계는 이미지 컨텐트를 기술하는 표준의 형식에 의해 사용될 수 있으며, 발명의 바람직한 실시예는 MPEG-7 표준을 사용한다. 디스크립션 정의 언어(DDL)가 본 발명의 DS를 구현하기 위해 사용될 수 있으며, 바람직한 실시예는 확장 가능한 표시 언어(XML, eXtensible Markup Language)를 사용하며, 이것은 WWW(World Wide Web)을 위해 특별히 개발된 SGML(Standard Generalized Markup Language, ISO 8897)의 최신 주제이다. SGML은 다큐먼트에 사용되는 태그 세트, 및 이들 태그가 가리키는 구조상의 관계를 지정함으로써 그 자체의 문법을 기술한다는 의미에서 다큐먼트의 셀프-디스크라이빙(self-describing)을 가능하게 한다. XML은 전체 SGML보다 배우고, 사용하고, 구현하기 휠씬 쉽도록 설계된 언어이다. XML의 완전한 디스크립션은 XML에 관한 WWW 컨소시엄의 웹 페이지인 http://www.w3.org/XML에서 찾아 볼 수 있으며, 그 내용은 참조로 본 명세서에 포함된다.

본 발명의 디스크립션 체계를 사용하는 이미지 성격 부여의 중요한 요소는, 객체, 특징 분류, 객체 계층, 엔티티 관계 그래프, 추출의 멀티플 레벨, 코드 다운로딩 및 양식 트랜스코딩(modalities transcoding)이며, 이 모든 것은 아래에서 별도로 상세히 설명한다. 본 발명의 디스크립션 체계에서, 이미지 다큐먼트는 객체 세트 및 객체들 사이의 관계에 의해 표현된다. 각 객체는 하나 이상의 관련 특징을 가질 수 있으며, 그 특징은 일반적으로 다음의 범위로 분류된다; 매체 특징(media features), 시각 특징(visual features) 및 의미 특징(semantic features). 각각의 특징은 외부 추출 코드 및 유사성 매칭 코드를 지시함으로써 코드 다운로딩을 도울 수 있는 디스크립터를 포함할 수 있다. 객체들 사이의 관계는 객체 계층 및 엔티티 관계 그래프에 의해 기술될 수 있다. 객체 계층은 또한 추출의 멀티플 레벨의 개념 을 포함할 수 있다.

양식 트랜스코딩에 의해, 유저 단말은 동일한 이미지 컨텐트를 다른 해상도 및/또는 다른 양식으로 수신하기 위한 다른 능력(예를 들면, 팜파이럿 (palmpilots), 셀룰러 전화, 또는 다른 형식의 퍼스널 컴퓨터(PC) 등)을 가질 수 있다. 전술한 바와 같이, 본 발명의 이미지 디스크립션 시스템의 바람직한 실시예는 MPEG-7 표준을 사용한다. 이 표준에 따라, 이 바람직한 실시예는 다른 차원으로 정의될 수 있는 여러가지 레벨의 이미지 컨텐트 기술(記述)의 기본적인 구성 요소로서 객체를 사용한다. 예를 들면, 객체는 이미지 영역 또는 이미지 영역 그룹의 기술에 사용될 수 있다. 하이-레벨 객체는 다시 의미 또는 시각 특징에 기반한 기본 객체 그룹을 기술하는데 사용될 수 있다. 또한 다른 형식의 특징은 다른 레벨의 객체와 연결되어 사용될 수 있다. 예를 들어, 시각 특징은 이미지 컨텐트의 물리적 요소에 대응하는 객체에 적용될 수 있다. 이에 반해, 의미 요소는 어떤 레벨의 객체에도 적용될 수 있다.

또한, 본 발명의 이미지 디스크립션 시스템은 유연성, 확장성, 측정성 및 사용 편의성을 제공한다. 본 발명의 이미지 디스크립션 시스템의 일부를 예로 들 수 있는 유연성 향상의 장점으로는, 클러스터화 계층의 방법에 의해 특징들의 유효한 분류 및 객체의 클러스터화를 사용한다는 점, 또한 외부의 특징 디스크립터 및 실행 코드와의 유효한 연결, 내장(embedding) 및 다운로딩을 지원한다는 점이다. 또한 본 발명은 다른 도메인을 위한 새로운 요소를 도출해 내는데 디스크립션 체계에 정의된 요소를 사용할 수 있게 하는 확장성을 제공한다. 측정성은 객체 계층을 사 용하는 어떤 임의의 기준 세트를 기반으로 한 다수의 추출 레벨을 정의하는 본 발명의 능력에 의해 주어진다. 이들 기준은 시각 특징(예를 들면, 크기 및 색상), 의미 검색 능력(예를 들면, 사용자가 관심을 가지는 프로파일에 대한 검색 능력), 및/또는 서비스 품질(예를 들면, 매체 특징)이라는 용어로 명시될 수 있다. 본 발명은 그것이 최소한의 요소 세트, 즉 객체, 특징 클라스, 객체 계층 및 엔티티 관계 그래프를 명시하기 때문에 사용이 편리하다. 모듈러식 및 플렉시블한 방법으로 추가적 객체 및 특징들이 추가될 수 있다. 또한, 여러 가지 형식의 객체 계층 및 엔티티 관계 그래프가 유사한 방식으로 각각 정의될 수 있다.

본 발명의 이미지 디스크립션 시스템 하에서는, 이미지는 객체 계층 및 엔티티 관계 그래프에 의해 서로 관계가 형성되는 이미지 객체 세트로서 표현된다. 이들 객체는 외부 추출 코드 및 유사성 매칭 코드와 링크될 수 있는 다수의 특징들을 가질 수 있다. 이들 특징들은 예를 들면, 매체 특징, 시각 특징 및 의미 특징으로 분류된다. 이미지 객체들은 다수의 다른 객체 계층들로 편성될 수 있다. 둘 이상의 객체들 사이의 비계층적 관계는 하나 이상의 다른 엔티티 관계 그래프들을 사용하여 기술될 수 있다. 대형의 이미지에 담겨진 객체에 대해서는, 그러한 객체의 클러스터화 및 뷰잉(viewing)의 다수의 추출 계층은 객체 계층을 사용하여 구현될 수 있다. 그러한 이미지의 클러스터화 및 뷰잉의 이들 다수의 추출 레벨은 예를 들면, 매체 특징, 시각 특징 및/또는 의미 특징을 기반으로 할 수 있다. 매체 특징의 하나의 예는 양식 트랜스코딩을 포함하며, 이것에 의해 유저는 자기가 만족하는 양식 및 해상도로 동일한 이미지 컨텐트를 액세스하기 위하여 다른 단말 사양을 가질 수 있다.

이제 본 발명에 따른 이미지 디스크립션 시스템의 특성 및 작용을 상세히 설명한다. 도 1A, 1B 및 1C는 본 발명의 이미지 디스크립션 시스템에 따른 전형적인 이미지의 전형적인 디스크립션를 도시하고 있다. 도 1A는 전형적인 이미지 객체 세트 및 이들 객체에 대한 전형적인 대응 객체 특징을 도시하고 있다. 더 상세하게는, 도 1A는 전형적인 사진에 대한 전형적인 특징(10)은 물론, Ｏ0(8, 전형적인 전체 사진)에 담겨진 이미지 객체 Ｏ1(2, 사람 A)), Ｏ2(6, 사람 B) 및 Ｏ3(4, 사람들)를 보여주고 있다. 도 1B는 도 1A에 설명된 이미지 객체에 대한 전형적인 공간적 객체 계층을 도시하고 있으며, 여기서 Ｏ0(8, 전체 사진)는 Ｏ1(2, 사람 A) 및 Ｏ2(6, 사람 B)를 담고 있다. 도 1C는 도 1A에 도시된 이미지 객체에 대한 전형적인 엔티티-관계(E-R)를 보여주고 있으며, 여기서 Ｏ1(2, 사람 A)은 Ｏ2(6, 사람 B)의 왼쪽에 위치하고 있으며 Ｏ2(6, 사람 B)와 악수하고 있다.

도 2는 종래의 유니파이드 모델링 랭귀지(UML, Unified Modeling Language)를 이용한 본 발명의 이미지 디스크립션 시스템의 전형적인 도형적 표현을 도시하고 있다. 특히, 마름모꼴 기호는 작성 관계를 나타낸다. 각 요소와 연관된 범위는 그 작성 관계에서의 빈도를 의미한다. 특히, 명명법 0..*는 0 보다 크거나 같음을 의미하며, 1..*는 1보다 크가나 같음을 의미한다.

다음의 토론에서, 문자 < 및 > 사이에 나타나는 텍스트는 아래에 제시되는 바람직한 XML 실시예에서의 기준 요소의 특성을 나태낸다. 도 2에 예시된 본 발명의 이미지 디스크립션 시스템에서, 이미지 디스크립션를 표현하는 이미지 요소(22, <image>)는 이미지 객체 세트 요소(24, <image_object_set>)를 포함하며, 또한 하나 이상의 객체 계층 요소(26, <object_hierarchy>) 및 하나 이상의 엔티티-관계 그래프(28, <entity_relation_graph>)를 포함할 수도 있다. 각 이미지 객체 세트 요소(24)는 하나 이상의 이미지 객체 요소(30)를 포함한다. 각 이미지 객체 요소(30)는 매체 특징 요소(36), 시각 특징 요소(38) 및/또는 의미 특징 요소(40, semantic feature elements) 등 하나 이상의 특징을 포함할 수 있다. 각 객체 계층 요소(26)는 객체 노드 요소(32)를 포함하며, 이 객체 노드 요소의 각각은 다시 하나 이상의 추가적 객체 노드 요소(32)를 포함할 수 있다. 각 엔티티-관계 그래프(28)는 하나 이상의 엔티티 관계 요소(34)를 포함한다. 각 엔티티-관계 요소(34)는 다시 관계 요소(44)를 포함하며, 또한 하나 이상의 엔티티 노드 요소(42)를 포함할 수도 있다. 객체 계층 요소(26)는 엔티티-관계 그래프(28)의 특수한 경우이며, 여기서 엔티티(entity)는 포함 관계(containment relation)를 갖는다. 본 발명의 이미지 디스크립션 시스템의 바람직한 실시예는 엔티티 관계 그래프(28) 외에 객체 계층 요소(26)를 포함하는데, 그 이유는 객체 계층 요소(26)가 엔티티 관계 그래프(28)보다 검색에 대해 더 유효한 구조이기 때문이다. 또한 객체 계층 구조(26)는 콤포지트 객체를 정의하는 가장 자연적인 방법이며, MPEG-4 객체는 계층 구조를 이용한 구조로 되어 있다.

유연성 및 보편성을 최대화하기 위해, 본 발명의 이미지 디스크립션 시스템은 객체의 정의를, 객체들 사이의 관계를 기술하는 구조로부터 분리시킨다. 이렇게하여, 상이한 객체 계층(26) 및 엔티티-관계 그래프(28)에 동일한 객체가 나타날 수 있다. 이것은 객체에 대한 특징의 바람직하지 못한 복사(duplication)가 하나의 객체 계층(26) 및/또는 엔티티-관계 그래프(28)보다 더 많이 나타나는 것을 피하게 한다. 또한 객체는 그것이 객체 계층(26) 또는 엔티티-관계 그래프(28) 등의 어떤 관계 구조에 포함될 필요없이 정의될 수 있다. 따라서 객체 및 객체들 사이의 관계의 추출은 다른 단계에서 실행될 수 있고, 그것에 의해 이미지 콘텐트(content)의 분산형 처리가 가능하다.

도 1A, 1B, 1C 및 도 2에 따르면, 이미지 객체(30)는 이미지의 하나 이상의 임의 영역에 관계하며, 따라서 연속적인 공간 또는 불연속적인 공간 중 어느 하나가 될 수 있다. 도 1A, 1B 및 1C에서, Ｏ1(2, 사람 A)), Ｏ2(6, 사람 B) 및 Ｏ0(8, 사진)은 단 하나의 연관된 연속 영역을 가진 객체이다. 한편, Ｏ3(4, 사람들)은 공간적으로 서로 분리된 다수 영역으로 구성된 객체의 예이다. 전역 객체(global object)는 전체 이미지에 공통한 특징을 포함하지만, 반면에 로컬 객체는 그 이미지의 특정 섹션의 특징만을 포함한다. 따라서 도 1A, 1B 및 1C에서 Ｏ0(8)는 기술된 전체 이미지를 표현하는 전역 객체이며, 반면, Ｏ1(2), Ｏ2(6) 및 Ｏ3(4)는 전체 이미지 내에 포함된 사람 또는 사람들을 표현하는 각각의 로컬 객체이다.

본 발명과 관련하여 사용될 수 있는 객체의 여러가지 형식은 시각 객체들을 포함하며, 이 시각 객체는 색상 또는 텍스처(texture) 등으로 정의되는 객체 및, 의미(simentic), 시각 및 매체 특징들의 조합으로 정의되는 객체이다. 이렇게 하여, 객체의 형식은 그 객체를 기술하기 위해 사용되는 특징에 의해 정해진다. 결과적으로, 객체의 새로운 형식은 필요에 따라 추가될 수 있다. 또한 객체의 다른 형 식은 MPEG-7 표준에 의해 지원되는 계승 관계를 이용하여 일반적 객체로부터 유도될 수 있다.

도 2에 도시된 바와 같이, 이미지에 기술된 모든 이미지 객체 요소(30, <image_object>) 세트는 이미지 객체 세트 요소(24, <image_object_set>) 내에 포함된다. 각 이미지 객체 요소(30)는 이미지 디스크립션 내에 독특한 식별자(unique identifier)를 가질 수 있다. 식별자 및 객체 형식(예를 들면, 로컬 또는 전역)은 각각 객체 요소(ID) 및 형식의 속성(attribute)으로서 표현된다. 도 1A, 1B 및 1C에 도시된 이미지를 기술하기 위한 전형적인 객체 세트의 전형적인 구현이 아래의 XML에 리스트되어 있다. 모든 XML 리스팅이 주어져 있으며, 문자(<!_ 및 -->)사이에 나타나는 텍스트는 XML 코드에 대한 코멘트를 의미한다:

도 2에 도시된 바와 같이, 이미지 객체(30)는, 예를 들면 이들 특징에 의해 전달되는 정보에 따라 특징들을 분류하는 3가지의 특징 분류 요소를 포함할 수 있다. 그러한 특징 분류 요소의 예는 매체 특징(36, <img_obj_media_ features>), 시각 특징(38, <img_obj_visual_features>), 및 의미 특징(40, <img_obj_media _features>)을 포함한다. 아래의 표 1은 이들 각 특징 분류에 대한 특징들의 전형 적인 리스트를 보여준다.

표 1: 전형적인 특징 분류 및 특징들

특징 분류 특징

의미: 텍스트 주석, 주체, 어떤 객체, 어떤 액션, 왜, 시기,

장소

시각: 색상, 텍스처, 위치, 사이즈(크기), 형상, 방향

미디어: 파일 포멧, 파일 사이즈, 색상 표현, 해상도, 데이터 파

일, 로케이션, 양식 트랜스코딩, 저자, 작성일

이미지 객체 요소(30)에서 특징 분류에 포함된 각 특징 요소는 MPEG-4 표준에 따른 디스크립터를 포함할 것이다. 아래의 표 2는 표 1에 예시된 전형적인 어떤 시각 특징과 연관될 수 있는 전형적인 디스크립터를 보여준다. 표 2에 예시된 것과 같은 특수한 디스크립터들은 외부 추출 코드 및 유사성 매칭 코드와의 링크를 포함할 수도 있다. 표 1 및 2가 전형적인 특징 및 디스크립터를 예시하고 있지만, 본 발명의 이미지 디스크립션 시스템은 확장 방식 및 모듈라 방식으로, 각 객체에 대한 어떤 수의 특징 및 디스크립터를 포함할 수 있다.

표 2: 전형적인 시각 특징 및 관련 디스크립터

특징 디스크립터

색상 색상 히스토그램, 기본 색상, 색상 가간섭성(可干涉性) 벡터,

시각 스프라이트 컬러(visual sprite color).

텍스처 타무라(Tamura), MSAR, 에지 방향 히스토그램,

DCT 계수 에너지, 시각 스프라이트 컬러.

형상 바운딩 박스(bounding box), 2진 마스크(binary mask), 다각형,

푸리에 형상, 경계, 사이즈, 대칭, 방향

아래의 XML 예는 특징 및 디스크립터가 이미지 객체(30)에 포함되는 것으로 정의될 수 있다. 특히, 아래의 예는, 도 1A, 1B 및 1C에 도시된 전역 객체(Ｏ0), 즉 2개의 의미 특징(어디 및 시기), 하나의 매체 특징(파일 포맷) 및 하나의 시각 특징(색상 히스토그램 디스크립터에 의한 색상)에 연관된 전형적인 특징((10)을 정의한다. 객체는 아래 예의 각 의미 카테고리에서 다른 개념(<concept>)으로 기술될 수 있다.

도 2에 도시된 바와 같이, 본 발명의 이미지 디스크립션 시스템에서, 객체 계층 요소(26)는, 매체 특징(36), 시각 특징(38) 또는 그것들의 어떤 조합 등의 다른 기준에 근거하여, 이미지 객체 세트(24)의 이미지 객체(30)를 편성하기 위해 사용될 수 있다. 각 객체 계층 요소(26)는, 링크(33)를 경유하여 이미지 객체 세트(24)의 이미지 객체 요소(30)를 참조하는 객체 노드(2)의 트리를 구성한다.

객체 계층(26)은 하나 이상의 자(子) 노드로부터 모(母) 노드까지의 컨테인먼트(포함) 관계를 포함한다. 이 포함 관계는, 예를 들면, 매체 특징(36), 시각 특징(38) 및/또는 의미 특징(40) 등 이용되는 특정 객체 특징에 따른 다수의 형식이 될 수 있다. 예를 들면, 도 1B에 도시된 공간적 객체 계층은 시각 컨테인먼트를 기술하는데, 그 이유는 시각 특징, 즉 공간 위치와 관련되어 만들어지기 때문이다. 도 3A 및 3B는 2개의 또다른 전형적인 객체 계층을 도시한다. 특히, 도 3A는 표 1에 예시된 "who" 의미 특징에 근거하여 도 1A에 도시된 이미지 객체용의 전형적인 계층을 도시한다. 이렇게 하여, 도 3A에서, Ｏ3(4, 사람들)은 Ｏ1(2, 사람 A) 및 Ｏ2(6, 사람 B)를 포함한다. 도 3B는 표 1에 예시된 것들과 같이 전형적인 색상 및 형상의 시각 특징에 근거한 전형적인 계층을 도시한다. 도 3B에서, Ｏ7(46)은 예를 들면, 어떤 특정의 색상 및 형상 조건을 만족시키는 객체의 대응 영역으로 될 수 있다. 따라서, 도 3B는 Ｏ4(48, 얼굴 영역 1) 및 Ｏ6(50, 열굴 영역 2)을 포함하는 Ｏ7(46, 피부 색조 및 형상)을 도시한다. 또한 다른 특징들을 조합하는 객체 계층(26)은 광범위한 응용 시스템의 요구를 만족시키도록 구성될 수 있다.

도 2에 도시된 바와 같이, 각 객체 계층 요소(26, <object_hierarchy>)는 객체 노드(32, ONs) 트리를 포함한다. 또한 객체 계층은 선택적 스트링 속성 형식을 포함할 수 있다. 그러한 스트링 속성 형식이 존재한다면, 시소러스(thesaurus, 사전)는 여러가지 용도가 기존의 계층 형식을 결정할 수 있도록, 이들 스트링 속성 형식의 값을 제공할 수 있다. 모든 객체 노드(32, <object_node>)들은 링크(33)를 경유하여 이미지 객체 세트(24)의 이미지 객체(30)를 참조한다. 또한 이미지 객체(30)는 링크(33)를 경유하여 그것들을 참조하는 객체 노드(32)를 역으로 참조할 수도 있다. 이 양방향 링킹 메커니즘은 이미지 객체 세트(24)의 이미지 객체(30)로부터 객체 계층(26)의 대응 객체 노드(32)까지 효율적인 횡단을 가능하게 하며, 그 반대도 마찬가지이다. 각 객체 노드(32)는 이미지 객체의 독특한 식별자를 사용하여 속성(object_ref)을 통해 이미지 객체(30)를 참조한다. 또한 각 객 체 노드(32)는 독특한 식별자를 속성의 형태로 포함할 수 있다. 객체 노드(32)에 대한 이들 독특한 식별자는 객체(30)로 하여금 다른 속성(object_node_ref)을 사용하여, 그것들을 참조하는 객체 노드들을 역으로 참조할 수 있도록 한다. 도 1B에 도시된 전형적인 공간적 객체 계층의 전형적인 XML 구현이 아래에 표현된다.

또한 객체 계층(26)은 클러스터화 계층(clustering hierarchies)의 구축 및 추상화(abstraction)의 다중 레벨을 생성하기 위하여 사용될 수 있다. 예를 들면, 위성 사진 이미지 등과 같은 비교적 큰 이미지의 기술(describing)에서는, 일반적으로 많은 수의 객체가 그러한 이미지에 포함되는, 효율적이며 측정 가능한 방식에서는 일반적으로 디스크립션 및 검색에서 문제가 발생한다.

도 4A 및 4B는 클러스터화 층 체계의 전형적인 사용을 도시하며, 여기서 객체는 그들 각각의 사이즈에 따라 계층적으로 클러스터화된다. 특히 도 4A는,예를 들면 위성 사진 이미지와 같은 비교적 큰 이미지의 표현을 도시하며, 여기서 객체 Ｏ11(52), Ｏ12(54), Ｏ13(56), Ｏ14(58) 및 Ｏ15(60)는 큰 이미지에 포함된, 예를 들면 지구 표면의 호수와 같은 여러 가지 사이즈의 이미지 객체를 표현한다. 도 4B 는 도 4A에 도시된 객체에 대한 전형적인 사이즈-기반의 클러스터화 계층을 보여주며, 여기서 객체 Ｏ11(52), Ｏ12(54), Ｏ13(56), Ｏ14(58) 및 Ｏ15(60)는 도 4A에 도시된 객체들이며, 추가된 객체 Ｏ16(62), Ｏ17(64) 및 Ｏ18(66)은 도 4B에 도시된 클러스터 계층에 대한 사이즈-기반의 기준을 지정하는 객체를 가리킨다. 특히, 객체 Ｏ16(62), Ｏ17(64) 및 Ｏ18(66)은 예를 들면, 중간 노드가 이미지 객체(30)로서 표현되는 객체 계층(26)의 중간 노드(32)를 가리킬 수 있다. 이들 객체는 도시된 클러스터 계층에서 객체들을 분류하기 위해 사용되는 사이즈 기구에 관련된 기준, 조건들을 포함한다. 도 4B에 도시된 예에서, 객체 Ｏ16(62), Ｏ17(64) 및 Ｏ18(66)은 사이즈에 근거한 3가지 계층 레벨을 가지는 클러스터화 계층을 형성하기 위해 사용된다. 객체 Ｏ16(62)는 클러스터화 계층을 형성하는 사이즈 기준을 나타낸다. 객체 Ｏ17(64)는 50 유닛보다 작은 사이즈 기준의 제2 레벨을 나타내며, 이러한 유닛은 예를 들면, 화소(pixel)를 의미할 수 있다. 객체 Ｏ18(66)은 10 유닛 이하의 사이즈 기준의 제3 레벨을 가리킨다. 도 4B에 도시된 바와 같이, 객체 Ｏ11(52), Ｏ12(54), Ｏ13(56), Ｏ14(58) 및 Ｏ15(60)은 어떤 유닛의 지정된 사이즈를 가진다. 이와 유사하게 객체 Ｏ13(56), Ｏ14(58) 및 Ｏ15(60)은 50 유닛 이하의 지정된 사이즈를 가지며, 객체 Ｏ15(60)는 10 유닛 이하의 지정된 사이즈를 가진다.

도 4A 및 4B가 단일 기준 세트에만 근거하여 단일 클러스터화 계층의 예를 도시하고 있지마는, 다수의 특징을 포함하는 여러가지의 다른 기준을 사용하는 다수 클러스터화 계층은 어떤 이미지에 대해 사용될 수도 있다. 예를 들면, 이러한 클러스터화 계층은 미디어, 시각 및/또는 의미 특징들의 어떤 조합에 근거하여 객체들을 분류할 수 있다. 이 절차는 시각 정보 검색 엔진에서 이미지들의 클러스터화에 사용되는 절차와 비슷하다. 전체의 대형 이미지 내에 포함된 각각의 이미지는 객체 세트(24)의 이미지 객체(30)에 할당되며, 또한 매체 특징(36), 시각 특징(38) 또는 의미 특징(40)과 같은 어떤 관련 특징이 할당될 수도 있다. 객체 계층(26)의 중간 노드(32)는 이미지 객체(30)로서 표현되며, 또한 특정 레벨에서 객체들을 분류하기 위해 사용되는 하나 이상의 특징에 관련된 기준 및 조건을 포함할 수도 있다. 도 4A 및 4B에 도시된 전형적인 클러스터화 계층이 아래의 전형적인 XML 구현에 나와있다.

도 4A 및 4B의 전형적인 다수 클러스트화 계층의 예에 도시된 바와 같이, 도시된 객체의 사이즈에 근거한 추상화의 3가지 레벨이 정의되어 있다. 이 멀티-레벨 추상화 체계는, 도 4A에 도시된 이미지의 객체들을 검색하고 보여주기 위한 측정이 가능한 방법을 제공한다. 또한 이러한 접근은, 예를 들면 여러가지 의미 클라스 등의 다른 특징에 근거한 다수 추상화 레벨의 표현에 사용될 수도 있다.

표 3: 각 추상화 레벨의 객체

추상화 레벨 객체

1 Ｏ11, Ｏ12

2 Ｏ11, Ｏ12, Ｏ13, Ｏ14

3 Ｏ11, Ｏ12, Ｏ13, Ｏ14, Ｏ15

이러한 계층 구조가 이미지 검색에 적합하지마는, 객체들 사이의 어떤 관계는 이러한 구조를 사용하여 충분히 표현될 수 없다. 도 1C 및 도 2에 도시된 바와 같이, 본 발명의 이미지 디스크립션 시스템은 또한 객체들 사이의 보다 복잡한 관계의 사양(specification)을 위한 엔티티-관계(E-R) 그래프(28)를 이용한다. 엔티티-관계 그래프(28)는 하나 이상의 엔티티 노드 및 그것들 사이의 관계에 대한 그래프이다. 아래의 표 4는, 각각의 특정한 예는 물론 그러한 관계의 몇 가지 상이한 전형적인 형식을 보여준다.

표 4: 관계 형식 및 관계의 예

관계 형식 관계

공간적 방향: 의 상부, 의 바닥, 의 우측, 의 좌측, 의 우좌측,

의 우상측, 의 좌하측, 의 우하측

접속 형태: 에 인접, 에 이웃함, 에 가까이, 의 내에, 포함

의미 의 의함, 에 속함, 의 일부, 에 관계됨, 와 같은,

A 임, 로 구성됨.

엔티티-관계 그래프는 어떤 일반적인 구조일 수도 있고, 여러가지 계승 관계를 이용함으로써 특정 용도를 위해 개별화될 수도 있다. 도 1C에 도시된 전형적인 엔티티-관계 그래프는 전형적인 공간 관계를 설명한다. 즉 "의 좌측", 및 도 1A에 도시된 객체 Ｏ1(2) 과 Ｏ2(6) 사이의 "와 악수하다" 등이다.

도 2에 도시된 바와 같이, 본 발명의 이미지 디스크립션 시스템은 제로 이상의 엔티티-관계 그래프(28, <entity_relation_graph>)를 허용한다. 엔티티-관계 그래프(28)는 하나 이상의 엔티티-관계 요소(34, <entity_relation>) 세트를 포함하며, 또한 2개의 선택적 속성, 즉 엔티티-관계 그래프(28)에 의해 표현되는 바인딩(binding)을 기술하기 위한 독특한 식별자 ID 및 스트링 형식을 포함한다. 이러한 형식에 대한 값(values)은 예를 들면, 시소러스에 의해 제공될 수 있다. 각 엔티티-관계 요소(34)는 하나의 관계 요소(44, <relation>)를 포함하며, 하나 이상의 엔티티 노드 요소(42, <entity_node>) 및 하나 이상의 엔티티-관계 요소(34)를 포함할 수도 있다. 관계 요소(44)는 기술된 특정 관계를 포함한다. 각 엔티티 노드 요소(42)는 속성, 즉 (object_ref.)를 이용함으로써, 링크(43)를 경유하여 이미지 객체 세트(24)의 이미지 객체를 참조한다. 또한 이미지 객체(30)는 속성 (event_code_refs)를 이용함으로써, 링크(43)를 경유하여 이미지 객체(30)를 참조하는 엔티티 노드(42)를 역으로 참조할 수도 있다.

도 1C의 전형적인 엔티티-관계 그래프(28)에 도시된 바와 같이, 엔티티-관계 그래프(28)는 객체 Ｏ1(2, 사람 A)과 객체 Ｏ2(6, 사람 B) 사이의 2개의 엔티티-관계(34)를 포함한다. 이러한 제1의 엔티티 관계(34)는 객체 Ｏ1(2)이 객체 Ｏ2(6)에 대해 어떻게 위치되어 있는가(즉 "의 좌측")에 대한 공간적 관계(44)를 기술한다. 도 1C에 도시된 이러한 제2의 엔티티 관계(34)는 객체 Ｏ1(2)이 객체 Ｏ2(6)와 "와 악수하다" 의 방법에 대한 의미 관계를 기술한다. 도 1C에 도시된 엔티티-관계 그래프 예의 전형적인 XML 구현이 아래에 나와 있다.

효율화를 위해, 엔티티-관계 요소(34)는 도 2에 도시된 바와 같은 하나 이상의 엔티티-관계 요소(34)를 포함할 수 있다. 이것은 동기화 멀티미디어 통합 언어(Synchronized Multimedia Integration Language, SMYL)와 같은 엔티티 관계의 효율적인 중첩형(nested) 그래프의 작성이 가능하도록 한다. 이 SMYL은 네스트된 병열 시퀀스 관계 시리즈를 사용하여 상이한 미디어 다큐먼트를 동기화한다. 객체 계층(26)은 엔티티-관계 그래프(28)의 독특한 형식이며, 따라서 엔티티-관계 그래프(28)를 사용하여 구현될 수 있다. 여기서 엔티티는 포함 관계이다. 포함 관계는 표 4에 도시된 것들과 같은 접속 형태(topology) 관계이다. 객체 계층(26)이 엔티티-관계 그래프(28)의 특정한 형식이다는 것을 설명하기 위하여, 도 1B에 도시된 전형적인 객체 계층(26)이 엔티티-관계 그래프(28)로서 아래의 XML에 나와 있다.

도 1B에 도시된 전형적인 계층은 객체 Ｏ1(2, 사람 A) 및 Ｏ2(6, 사람 B)를 공간적으로 포함하는 방법을 설명한다. 이렇게 특정한 요건을 근거로 하여, 어플리케이션은 엔티티-관계 그래프(28)의 포괄적인 구조의 편리성 또는 객체 계층(26)의 효율성을 이용하여 계층을 구현할 수 있다.

예를 들면, 매체 특징(36), 시각 특징(38) 또는 의미 특징(40)과 같은 어떤 형식의 특징과 연관된 이미지 디스크립터를 위해, 본 발명의 이미지 디스크립션 시스템은 아래의 XML에 예시된 바와 같이, 코드 다운로드를 쉽게 하기 위해 추출 코드 및 유사성 매칭 코드와 연결되는 링크를 포함할 수 있다. 이들 링크는 독점 디스크립터를 사용하여 상이한 소스로부터의 이미지 내용에 대해 효율적으로 검색 및 필터링을 하기 위한 매커니즘을 제공한다. 본 발명에 따른 이미지 디스크립션 시스템의 각 이미지 디스크립터는 디스크립터 값, 및 그 특정의 디스크립터를 위한 추출 코드 및 유사성 매칭 코드에 관한 정보를 포함하는 코드 요소를 포함할 수 있 다. 이 코드 요소(<code>)는 코드의 실행을 위한 입력 파라미터(<input_ parameter>) 및 출력 파라미터(<output_parameters>)의 디스크립션은 물론, 실행 가능 파일(<location>)을 지시하는 포인터를 포함할 수도 있다. 코드의 형식(즉, 추출 코드 또는 유사성 매칭 코드), 코드 언어(예를 들면, 자바(Java) 또는 C 등) 및 코드 버전에 관한 정보가 코드 요소의 특정 속성로서 정의되어 있다.

아래에 예시된 전형적인 XML 구현은, H.Tamura, S.Mori, and T.Yamawaki, "Textual Features Corresponding to Visual Perception," IEEE Transactions on Systems, Man and Cybernetics, Vol.8, No.6, June 1978에 소개된 소위 타무라 텍스처 특징(Tamura texture feature) 디스크립션을 제공한다. 타무라 텍스처 특징은 지정된 특징값(즉, 거칠기(coarseness), 콘트라스트 및 방향성)을 제공하며, 또한 특징 추출 및 유사성 매칭을 위한 외부 코드와의 링크를 제공한다. 아래에 제시된 특징 추출예에서, 입출력 파라미터에 관한 별도의 정보가 주어진다. 이러한 디스크립션은 예를 들면, 초(超, meta)검색 엔진으로부터의 텍스처 조회에 응답하여 검색 엔진에 의해 생성될 수 있다. 초검색 엔진은 유저를 위한 동종의 리스트를 생성하기 위해, 다른 검색 엔진으로부터 받은 결과에서 동일한 특징 디스크립터를 추출하기 위해 코드를 사용할 수 있다. 경우에 따라서는, 추출 및 유사성 매칭 코드뿐만아니라 특정 특징값도 포함된다. 필요하다면 예를 들어, 처리를 위한 특징값을 추출하기 위해 필터링 에이전트가 사용될 수 있다.

아래에 예시된 전형적인 XML 구현은, 본 발명의 이미지 디스크립션 속으로 입수되어 조합되는 디스크립터를 위한, 외부에서 정의된 디스크립션 체계를, XML 언어가 가능하게 하는 방법을 보여준다. 아래의 예에서, 크로마 키(Croma Key) 형상 특징은 XML 이름 공간(name space)을 사용하여 이미지 디스크립션 속으로 입수된다. 이 프레임워크(framework)를 사용하여, 새로운 특징, 특징의 형식 및 이미지 디스크립터는 확장이 가능한, 모듈러 방식으로 편리하게 포함될 수 있다.

또한 본 발명의 이미지 디스크립션 시스템은 양식 트랜스코딩(modality transcoding)을 지원한다. 컨텐트 방송자가 다양한 유저에게 이미지 컨텐트를 전달해야 하는 전형적인 예에서, 방송자는 유저의 여러가지 단말기 요건 및 대역폭 한 계를 수용하기 위하여, 이미지 컨텐트를 다른 미디어 양식 및 해상도로 트랜스코드해야 한다. 본 발명의 이미지 디스크립션 시스템은 로컬 및 전역 객체 양자에 대한 양식 트랜스코딩을 제공한다. 이 양식 트랜스코딩은 미디어 양식, 해상도 및 그 이미지 객체의 트랜스코딩된 버전의 위치를 트랜스코딩하거나 또는 외부 트랜스코딩 코드에 링크된다. 이 이미지 디스크립터는 또한 상이한 유저 단말기의 요건을 만족시키기 위하여 이미지 객체를 상이한 양식 및 해상도로 트랜스코딩하기 위한 코드를 지시할 수 있다. 아래에 예시된 전형적인 XML 구현은 이미지 객체에 대한 오디오 트랜스코디드 버전의 제공을 예시한다.

도 5는 본 발명의 이미지 디스크립션 시스템을 구현하기 위한 전형적인 컴퓨터 시스템의 블록도이다. 도시된 컴퓨터 시스템은, 예를 들면 이미지 입력 인터페이스(404)를 경유하여 이미지 컨텐트를 표현하는 디지털 데이터를 수신하는 컴퓨터 프로세서 섹션(402)을 포함한다. 또는 디지털 이미지 데이터는 양방향 통신 입/출력(I/O) 포트(406)를 경유하여 리모트 소스로부터 프로세서 섹션(402)으로 전달될 수도 있다. 또한 이미지 컨텐트는 종래 기술의 광학적 데이터 저장 또는 마그네틱 저장과 같은 비휘발성 컴퓨터 미디어(408)로부터 프로세서 섹션(402)으로 전달될 수도 있다. 프로세서 섹션(402)은 이미지 디스플레이 시스템(410)으로 데이터를 제공하며, 이 이미지 디스플레이 시스템은 일반적으로 예를 들어, 종래의 퍼스널 컴퓨터 시스템 및 워크스테이션에 흔히 채택되는 표준 SVGA 모니터 및 비디오와 같은 적당한 인터페이스 회로 및 고해상도 모니터를 포함한다. 키보드 및 디지털 포인팅 기구(예를 들면, 마우스, 트랙볼, 라이트 펜(light pen) 또는 터치 스크린)와 같은 유저 입력 기구는 유저의 컴퓨터 시스템과의 인터랙션(interactin, 대화)을 실행하기 위해 프로세서 섹션(402)에 연결된다. 도 5의 전형적인 컴퓨터 시스템은 또한 휘발성 및 비휘발성 컴퓨터 메모리(414)를 포함하며, 이 메모리는 처리 동작(processing operation) 동안 프로세서 섹션(402)에 의해 엑세스될 수 있다.

도 6은 본 발명의 이미지 디스크립션 시스템을 구현하기 위해 도 5에 도시된 컴퓨터 시스템이 담당하고 있는 처리 동작을 도시하는 플로 챠트이다. 디지털 이미지 데이터(310)는 링크(311)를 경유하여 컴퓨터 시스템에 적용된다. 컴퓨터 시스템은, 적당한 응용 소프트웨어의 제어하에서, 블록(320)에서 이미지 객체 추출을 수행하며, 이미지 객체(30) 및, 예를 들어 매체 특징(36), 시각 특징(38) 및 의미 특징(40)과 같은 관련 특징들이 생성된다. 이미지 객체 추출(320)은 완전 자동 처리 동작, 반자동 처리 동작, 또는 예를 들어 유저 입력 기구를 경유하는 등의 유저 인터랙션를 통해 객체가 주로 정의되는 실질적으로 수동 동작을 취할 수 있다.

바람직한 실시예에서, 이미지 객체 추출(320)은 2개의 종속 동작, 즉 블록(325)으로 도시된 이미지 세그멘테이션, 및 블록(326)으로 도시된 특징 추출 및 주석(annotation)으로 이루어진다. 이미지 세그멘테이션(325) 단계에 있어서는, 디지털 이미지를 하나 이상의 공통 특성을 공유하는 영역으로 분할하는 어떤 영역 트랙킹(추적) 기술이 채택될 수 있다. 마찬가지로, 특징 추출 및 주석 단계(326)에서는, 분할(segment)된 영역으로부터 특징을 생성하는 기술이 채택될 수 있다. 영역 기반의 클러스터화 및 검색 서브시스템이 자동화된 이미지 세그멘테이션 및 특징 추출에 적합하다. 이미지 객체 세그멘테이션 시스템은 반자동화된 이미지 세그멘테이션 및 특징 추출 시스템의 예이다. 수동 세그멘테이션 및 특징 추출도 대안으로 채택될 수 있다. 전형적인 시스템에서, 이미지 세그멘테이션(325)은 예를 들면, 이미지 객체(30)를 생성할 수 있으며, 특징 추출 및 주석(326)은 예를 들면, 매체 특징(36), 시각 특징(38) 및 의미 특징(40)과 같은 이미지 객체(30)와 관련된 특징을 생성할 수 있다.

객체 추출 처리(320)는 하나 이상의 이미지 객체(30)를 포함하는 이미지 객체 세트(24)를 생성한다. 그다음 이미지 객체 세트(24)의 이미지 객체(30)는, 블록(330)에 도시된 객체 계층 구성 및 추출 처리의 형태, 및/또는 블록(336)에 도시된 엔티티 관계 그래프 생성 처리 형태의 처리를 위해 링크들(321, 322 및 324)을 경유하여 제공될 수 있다. 바람직하게는, 객체 계층 구성 및 추출(330) 및 엔티티 관계 그래프 생성(336)은 링크(327)를 통해 병열로 일어난다. 또는 이미지 객체 세트(24)의 이미지 객체(30)는 링크(323)를 경유하여 객체 계층 구성 및 추출(330) 을 우회하도록 안내될 수도 있다. 이렇게 하여, 객체 계층 구성 및 추출(33)은 하나 이상의 객체 계층(26)을 생성하며, 엔티티 관계 그래프 생성(336)은 하나 이상의 엔티티 관계 그래프(28)를 생성한다.

그다음 프로세서 섹션((402)은 이미지 객체 세트(24), 객체 계층(26) 및 엔티티 관계 그래프(28)를 본 이미지 컨텐트를 위한 이미지 디스크립션 레코드로 병합한다. 이미지 디스크립션 레코드는 데이터베이스 스토리지(340)에 직접 저장되거나, 또는 링크(342, 361)를 경유하여 2진 인코더(360)에 의해 먼저 압축되거나, 또는 링크(341, 351)를 경유하여 XML 인코더(350)에 의한 디스크립션 정의 언어 인코딩(예를 들면 XML을 사용)에 의해 인코딩될 수 있다. 이미지 디스크립션 레코드가 일단 데이터베이스 스토리지(340)에 저장되면, 양방향 링크(371)를 경유하여, 예를 들면 검색, 필터 및 보관 용도 등의 다른 용도(370)에 의한 엑세스 및 사용을 위한 유용한 포맷으로 이용 가능하게 딘다.

도 7에는 본 발명의 이미지 디스크립션 시스템에 구현될 수 있는 클라이언트-서버 컴퓨터 시스템의 전형적인 실시예가 도시되어 있다. 시스템(100)의 아키텍처는 클라이어트 컴퓨터(110) 및 서버 컴퓨터(120)를 포함한다. 서버 컴퓨터(120)는 디스플레이 인터페이스(130), 조회 디스패처(140), 성능 데이터베이스(150), 조회 트랜스레이터(160, 161, 165), 목표 검색 엔진(170, 171, 175) 및 멀티미디어 컨텐트 디스크립션 시스템(200, 201, 205)을 포함하며, 이것들은 아래에서 더 상세히 설명된다.

다음의 공개가 이 전형적인 클라이언트-서버 실시예를 참조할 것이지만, 당 업자는 특정의 시스템 구조가, 수많은 공지의 로컬 또는 분산형 아키텍처를 포함하기 위하여 본 발명의 범위 내에서 변경될 수 있음을 이해해야 한다. 예를 들면, 클라이언트-서버 시스템의 모든 특징이 하나의 컴퓨터 내에 포함될 수도 있고, 공유 또는 독립된 특징을 가진 복수의 서버 컴퓨터가 이용될 수도 있다.

상업적으로 이용 가능한 초검색 엔진은, 유저를 다수의 텍스트 기반의 검색 엔진에 자동적으로 투명하게 연결하는 게이트웨이(gateway) 역할을 한다. 도 7의 시스템은 이러한 초검색 엔진의 아키텍처에 따라 생성되었으며, 유저 조회의 여러가지 클라스를 위해 그것들의 성능을 분류함으로써 다수의 온-라인 멀티미디어 검색 엔진을 현명하게 선택하여 접속하도록 설계되어 있다. 따라서 상업적으로 이용 가능한 초검색 엔진의 조회 디스패처(140), 조회 번역기(160, 161, 165) 및 디스플레이 인터페이스(130)는 본 발명에 채택될 수 있다.

디스패처(140)는 유저 조회의 수신에 따라 성능 데이터베이스(150)와 컨설팅함으로써 조회할 목표 검색 엔진을 선택한다. 이 데이터베이스(150)는 지원된 각 검색 옵션에 대한 조회 성공과 조회 실패의 과거의 성능 성적을 포함하고 있다. 조회 디스패처는 유저의 조회를 만족시킬 수 있는 검색 엔진(170, 171, 175)만을 선택한다. 즉, 색상 정보를 찾는 조회는 색상이 가능한 검색 엔진을 트리거한다. 검색 엔진(170, 171, 175)은 예를 들어, 검색 엔진(170) 및 관련 클라이언트(172)와 같은 클라이언트-서버 관계에서 배열될 수 있다.

조회 번역기(160, 161, 165)는 유저 조회를, 선택된 검색 엔진의 인터페이스에 알맞은 적절한 스크립트로 번역한다. 디스플레이 컴포넌트(130)는 각 검색 엔진 으로부터 나온 결과를 취합하기 위해 성능 성적을 이용하며, 유저에게 그것을 보여준다.

본 발명에 따라 유저가 시각 컨텐트를 위해 인터넷 또는 영역 또는 로컬 네트워크를 현명하게 검색하도록, 본 발명에 따라 만들어진 멀티미디어 컨텐트의 디스크립션, 또는 예(example)나 스케치 중의 어느 것에 의해 검색 조회가 이루어질 수 있다. 각 검색 엔진(170, 171, 175)은 예를 들어, 검색 엔진에 의해 엑세스 가능한 멀티미디어 정보의 컨텐트를 기술하기 위해, 그리고 검색을 구현하기 위해 아래에 설명되는 디스크립션 체계를 채택한다.

멀티미디어 정보를 위한 컨텐트 기반의 검색 조회를 구현하기 위해, 디스패처(140)는, 조회에서 유저가 선호하는 것을 만족시키기 위해 각 검색 엔진(170, 171, 175)에 의해 채택된 멀티미디어 컨텐트 디스크립션 시스템(200)을 통해 조회 디스크립션을 매칭한다. 그다음 성능 데이터베이스(150)와 컨설팅함으로써 조회될 목표 검색 엔진을 선택한다. 예를 들면, 유저가 색상을 검색하기 원하고 하나의 검색 엔진이 어떠한 색상 디스크립션도 지원하지 않는다면, 그 특정 검색 엔진으로의 조회는 불가능하다.

다음, 조회 번역기(160, 161, 165)는 선택된 각각의 검색 엔진에 알맞는 디스크립션으로 조회 디스크립션을 번역한다. 이 번역은 또한 각 검색 엔진으로부터 이용 가능한 디스크립션 체계를 기반으로 한다. 이 태스크(작업)은 특정 검색 엔진으로부터 변형 디스크립터까지 표준 디스크립터 또는 다운로드 받은 추출 코드에 대한 추출 코드의 실행을 요구할 수 있다. 예를 들면, 유저가 166 빈(bin)의 컬러 코히어런스(color coherence)를 사용하여 객체의 색상 특징을 지정하면, 조회 번역기는 그것을 각 검색 엔진에 의해 사용되는 특정 색상 디스크립터(예를 들면, x 빈의 색상 코히어런스 및 색상 히스토그램)로 번역한다.

유저에게 결과를 디스플레이하기 전에, 조회 인터페이스는 모든 결과적 디스크립션을, 비교 및 분류를 위해 동종의 것으로 번역함으로써 각 검색 옵션에서 나온 결과들을 취합한다. 다시, 표준 디스크립터를 위한 유사성 코드 또는 검색 엔진으로부터 다운로드 받은 유사성 코드가 실행될 필요가 있다. 결과가 유저에게 어떻게 디스플레이되는가 하는 것은 유저 선호도에 따라 결정된다.

다음의 도 8에는, 본 발명에 따라 각각의 검색 엔진(170, 171, 175)에 의해 채택된 디스크립션 시스템(200)이 도시된다. 여기에 공개된 바람직한 실시예에서, XML은 멀티미디어 컨텐트의 기술에 사용된다.

디스크립션 시스템(200)은 바람직하게는 멀티미디어 아이템(205)의 수집을 위해 매우 다양한 디스크립션을 생성하도록, 몇 가지의 멀티미디어 처리, 분석 및 주석 서브-시스템(210, 220, 230, 240, 250, 260, 270, 280)을 포함한다. 각 서브시스템은 다시 설명된다.

제1 서브시스템(210)은 비디오 시퀀스의 자동적으로 분할된 영역을 위한 색상, 텍스처, 동작, 형상 및 사이즈와 같은 시각 특징을 추출하는 영역 기반의 클러스터화 및 검색 시스템이다. 이 시스템(210)은 장면 변환 검출에 의해 비디오를 독립된 숏(shot)으로 분해하며, 이 장면 변환은 갑작스럽거나, 또는 서서히 변한다(디졸브(dissolve, 오버랩), 페이드 인/아웃, 와이프(wipe)). 각 숏에 대해, 시스템(210)은 전역 동작(global motion, 주배경 동작) 및 카메라 동작의 양자를 미리 판단한 다음, 각 영역을 대한 여러 가지 시각 특징을 계산하여 숏의 프레임을 가로질러 영역을 분할, 검출 및 추적한다. 각 숏에 대해, 이 시스템에 의해 생성되는 디스크립션은 시각 및 동작 특징을 가진 영역 세트, 및 카메라 동작이다. 영역 기반의 클러스터화 및 검색 시스템(210)의 완전한 디스크립션은 공동 출원 중인 PCT 출원 PCT/US98/09124호(1998년 5월 5일 출원, 제목:객체-지향 컨텐트 기반의 비디오 검색을 위한 알고리즘 및 시스템 아키텍쳐)에 포함되어 있으며, 그 내용이 참조용으로 본 명세서에 포함되어 있다.

여기에 사용되는 용어로서, "비디오 클립(vedio clip)"은 배트를 휘두르는 야구선수, 바다를 가로지르는 서핑 보드, 또는 초원을 가로질러 달리는 말 등과 같이, 동일함을 증명할 수 있는 속성을 가진 하나 이상의 비디오 객체를 가지는 비디오 정보 프레임의 시퀀스를 말하며, 이러한 용어는 제한이 아닌 단지 예시를 위한 것이다. "비디오 객체"는 하나 이상의 관심 있는 특징, 예를 들면, 텍스처, 색상, 동작 또는 형상에서 동종 화소의 연속하는 세트이다. 이렇게 하여, 비디오 객체는 적어도 하나의 특징에서 일치성을 보여주는 일치성을 보여주는 하나 이상의 비디오 영역에 의해 형성된다. 예를 들면, 걷고 있는 사람(여기서는 사람이 객체이다)의 숏은 형상, 색상 및 텍스처와 같이 기준이 다른 인접한 영역의 집합(collection)으로 분할되지만, 모든 영역은 그것들의 동작 속성에서 일치성을 보여줄 수 있다.

제2 서브시스템(220)은 MPEG 도메인 페이스 검출 시스템이며, 이 시스템은 MPEG 압축 도메인에서 효율적, 자동적으로 페이스를 직접 검출한다. 인간의 얼굴은 이미지 및 비디오에서 중요한 주제이다. 비디오 컨텐트의 이해를 위해 시청자에게 핵심 정보를 제공하는 것은 뉴스, 다큐먼트, 영화 등에서는 흔한 일이다. 이 시스템은 페이스 레벨을 가진 영역 세트를 제공한다. 시스템(220)의 완전한 디스크립션은 PCT 출원 PCT/US97/20024호(1997년 11월 4일 출원, 제목:MPEG 비디오에서 자동적인 페이스 영역 검출을 위한 고효율적 시스템)에 포함되어 있다. 이것의 내용은 참조용으로 본 명세서에 포함되어 있다.

제3 서브시스템(230)은 비디오 객체 분할 시스템이며, 이 시스템에서는 자동 분할이 비디오 시퀀스에서 의미 객체를 추적하기 위해 유저 입력에 의해 포함된다. 일반적인 비디오 소스에 있어서, 시스템은 트레이싱 인터페이스의 사용에 의해 유저가 대략적인 객체 경계를 정의할 수 있도록 한다. 대략적인 객체 경계가 주어지면, 시스템은 경계를 자동적으로 다듬으며, 비디오의 후속 프레임에서 객체의 움직임을 추적한다. 시스템은 복잡한 객체, 빠르고 단속적인 동작, 복잡한 배경, 다수의 동작 객체 및 부분적 차단을 포함한, 기존의 어프로치를 사용하여 모델링하기 어려운 많은 현실 상황을 다루기에 충분할 정도로 튼튼하다. 이 시스템에 의해 생성되는 디스크립션은 텍스트와 함께 수동으로 주석이 붙을 수 있는 연관된 영역 및 특징을 가진 의미 객체 세트이다. 시스템(230)의 완전한 디스크립션은 미국 특허 No.09/405,555호(1998년 9월 24일 출원, 제목: 의미 비디오 객체 분할을 위한 액티브 시스템 및 알고리즘)에 포함되어 있으며, 그 내용은 참조용으로 본 명세서에 포함되어 있다.

제4 서브시스템(240)은 숏 경계, 움직이는 객체, 객체 특징 및 카메라 동작 을 추출하기 위해 압축된 MPEG 비디오 스트림(stream)을 분석하는 계층적 비디오 브라우징(browsing) 시스템이다. 또한 이것은 직관적 가시화 및 비디오의 편집을 위한 계층적 숏 기반의 브라우징 인터페이스를 생성한다. 시스템(240)의 완전한 디스크립션은 PCT 출원 PCT/US97/08266G호(1997년 5월 16일 출원, 제목: 조인트 스페이셜(joint spatial)/특징 기반의 이미지 검색을 위한 효과적인 조회 및 인덱싱 방법)에 포함되어 있으며, 그 내용은 참조용으로 본 명세서에 포함되어진다.

제5 서브시스템(250)은 수동의 텍스트 주석 입력이다. 장면 분류를 위해 시각 특징 및 텍스트 특징을 포함하는 것이 바람직할 때가 있다. 예를 들면, 클라리넷(Clarinet)과 같은 온-라인 뉴스원에서 나온 이미지에, 가끔 각 이미지에 연관된 캡션 또는 기사 형태의 텍스트 정보가 있다. 이 택스트 정보는 디스크립션에 포함될 수 있다.

제6 서브시스템(260)은 로우-레벨 시각 특징에 기반으로 한 이미지 및 비디오 숏의 하이-레벨의 의미 분류를 위한 시스템이다. 시스템의 핵심은 룰 인덕션(rule induction), 클러스터화 및 니어리스트 네이버(nearest neighbor) 분류와 같은 여러가지의 머신 학습 기술로 이루어진다. 이 시스템은 자연 경관, 도시/교외, 옥내 및 옥외와 같은 하이 레벨의 의미 장면 클라스로 이미지 및 비디오 장면을 분류하는 데 사용된다. 이 시스템은 우리가, 하나의 코퍼스(corpus)와 잘 어울릴 수 있는 룰의 고정된 세트가, 의미 장면 클라스의 동일한 세트일지라도 다른 코퍼스와는 잘 어울릴 수 없다는 것을 발견했기 때문에, 머신 학습 기술에 초점을 맞추고 있다. 이 시스템의 핵심이 머신 학습 기술에 근거하고 있기 때문에, 이 시스템은 각 코퍼스에서 나온 예를 통해 시스템을 훈련함으로써 다른 코퍼스에 대해 고성능을 성취하기 위해 채택될 수 있다. 이 시스템에 의해 생성된 디스크립션은 비디오 시퀀스의 숏과 연관된 각 이미지 또는 각 키 프레임을 위한 장면 클라스를 표시하기 위한 텍스트 주석 세트이다. 이 시스템(260)의 완전한 디스크립션은, 미국 CA 버클리에서 1999년에 개최된 멀티미디어 인덱싱 및 검색에 관한 ACM SIGIR'99 워크샵에서 S. Paek 등이 발표한 "사진의 컨텐트 레벨링 및 분류를 위한 시각 및 텍스트 기반 어프로치의 포함" 에 포함되어 있으며, 그 내용이 본 명세서에 참조용으로 포함되어 있다.

제7 서브시스템(270)은 모델 기반의 이미지 분류 시스템이다. 많은 자동 이미지 분류 시스템은 클라스-지정 알고리즘이 분류의 실행에 사용되는 클라스의 미리 정의된 세트를 기반으로 하고 있다. 이 시스템에 의해 유저들은 그것들 자체의 클라스를 정의할 수 있으며, 시각 모델을 자동적으로 배우기 위해 사용되는 예를 제공받는다. 시각 모델은 자동적으로 분할되는 영역, 그것들의 연관된 시각 특징 및 그것들의 공간적 관계를 기반으로 하고 있다. 예를 들면, 유저는 청색 옷을 입은 사람 한 명이 갈색 소파에 앉아 있고, 앉은 사람의 우측에 두번째 사람이 서있는 초상화의 시각 모델을 만들 수 있다. 이 시스템은 분류 동안 느린 학습, 의사 결정 트리(decision tree) 및 전개 프로그램을 사용한다. 이 시스템에 의해 생성되는 디스크립션은 각 이미지를 위한, 예를 들면, 유저가 정의한 클라스 등의 텍스트 주석 세트이다. 이 시스템(270)의 완전한 디스크립션은 PCT 출원 PCT/US97/08266호(1997년 5월 16일 출원, 제목: 월드 와이드 웹에서 압축 비디오의 인덱싱 및 편집을 위한 방법 및 아키텍처)에 포함되어 있으며, 그 내용은 본 명세서에 참조용으로 포함되어 있다.

예를 들면, 디스크립션 또는 디스크립션의 일부를 생성하기 사용되는 협력 요소로부터 나온 서브시스템과 같은 다른 서브시스템(280)도, 멀티미디어 컨텐트 디스크립션 시스템(200)에 추가될 수 있다.

작동시, 이미지 및 비디오 컨텐트(205)는 정지한 이미지 또는 움직이는 비디오의 데이터베이스, 브라우저 인터페이스(206)로부터 컨텐트를 받는 버퍼, 또는 라이브 이미지나 비디오 전송을 위한 리셉터클일 수 있다. 서브시스템(210, 220, 230, 240, 250, 260, 270, 280)은 디스크립션(211, 221, 231, 241, 251, 261, 271, 281)을 생성하기 위해 이미지 및 비디오 컨텐트에 작용하며, 이들 디스크립션은 전술한 바와 같이 자동적으로 분할되는 영역의 로우-레벨 시각 특징, 유저가 정의한 분할 영역, 유저가 정의한 의미 객체, 하이레벨 장면 특성, 분류 및 연관 텍스트 정보 등을 포함한다. 이미지 또는 비디오 아이템을 위한 모든 디스크립션이 일단 생성되어 블록(290)에 포함되면, 디스크립션은 검색 엔진(170)이 액세스하는 데이터베이스 속으로 입력된다.

영역 기반의 클러스터화 및 검색 시스템(210) 및 비디오 객체 분할 시스템(230) 등의 어떤 서브시스템은 전체 디스크립션 생성 처리를 구현할 수 있으며, 한편 잔여 서브시스템은 처리의 일부분만을 구현하며, 처리 동안 서브시스템(210 및 230)에 의해 요청을 받을 수 있다. 비슷한 방법으로 서브시스템(210 및 230)은 처리에서 특정 태스크를 위해 서로 간에 요청을 받을 수 있다.

도 1 내지 6에서, 이미지 컨텐트를 기술하는 시스템 및 방법이 설명되었다. 이들 기술들은 물론 비디오 컨텐트로 쉽게 확장될 수 있다. 비디오 컨텐트 정보를 검색하고 처리하는 위한 시스템의 성능은, 그러한 비디오 컨텐트가 철저하고 효율적으로 기술될 수 있도록 하는 기준 및 표준의 채택으로부터 혜택을 볼 수 있다. 여기에 사용되는 "비디오 클립"이란 용어는 비디오 정보의 프레임의 시퀀스와 같은 비디오 컨텐트의 임의의 지속 시간을 가리킨다. 디스크립션 체계란 용어는 비디오 컨텐트를 기술하기 위해 사용되는 데이터 구조 또는 조직을 가리킨다. 디스크립션 레코드란 용어는, 데이터 구조의 데이터 필드가 특정 비디오 클립의 컨텐트를 기술하는 데이터에 의해 정의되는 디스크립션 체계를 가리킨다.

도 9에, 본 비디오 디스크립션 체계(DS, Discription Scheme)의 전형적인 실시예가 개념적 형태로 도시되어 있다. 비디오 DS는 이미지 디스크립션 체계의 모든 요소를 계승하며, 거기에 비디오 컨텐트에 특유한 시간 요소를 추가한다. 이렇게 하여, 비디오 디스크립션을 의미하는 비디오 요소(922)는 일반적으로 비디오 객체 세트(924), 객체 계층 정의(926) 및 엔티티 관계 그래프(928)를 포함하며, 이 모두는 도 2에 대해 기술된 것들과 비슷하다. 전형적인 비디오 DS 정의가 아래의 표 5에 예시된다.

표 5: 비디오 디스크립션 체계(DS)의 요소

1 이미지 DTD 7에 정의됨

본 비디오 디스크립션 체계(DS)의 기본 요소는 비디오 객체(900, <video_object>)이다. 비디오 객체(930)는 비디오 클립의 하나 이상의 프레임의 하나 이상의 임의의 영역을 가리킨다. 제한이 아니라, 예를 들면, 비디오 객체는 로컬 객체, 세그멘트 객체 및 전역 객체로서 정의될 수 있다. 로컬 객체는 하나 이상의 프레임에 발견되는 화소 그룹을 가리킨다. 세그멘트 객체는 비디오 클립의 하나 이상의 관련 프레임를 가리킨다. 전역 객체는 전체 비디오 클립을 가리킨다.

비디오 객체(930)는 비디오 객체 세트(924)의 요소이며, 도 1 내지 6에 대해 기술된 바와 같은 방식으로 객체 계층(926) 및 엔티티 관계 그래프(928)에 의해 객체 세트(924)의 다른 객체와 관계를 가진다. 다시, 비디오 디스크립션 체계와 전술한 바의 이미지 디스크립션 체계 사이의 근본적인 차이는 비디오 객체들 및 디스크립션 체계에서의 그것들의 상호 관계를 추가로 정의할 임시 파라미터의 포함에 있다.

본 비디오 디스크립션 체계를 구현하기 위해 XML을 사용함에 있어서, 비디오 객체가 연관된 의미 정보를 가지고 있는지를 지시하기 위해 비디오 객체는 사실 또는 거짓과 같은 지시값의 채택이 가능한 "의미" 이라는 속성을 포함할 수 있다. 객체가 연관된 물리적 정보(색상, 형상, 시간, 동작 및 위치 등)를 가지는가를 지시하기 위해, 객체는 사실 또는 거짓과 같은 지시값의 채택이 가능한 선택적인 "물리적" 이라는 속성을 포함할 수 있다. 객체의 영역들이 공간적으로 서로 인접(공간적 연속)하는지를 지시하기 위해, 객체는 사실 또는 거짓과 같은 값을 취하는 것이 가능한 선택적인 "공간 연속" 이라는 속성을 포함할 수 있다. 특정의 객체를 포함하는 비디오 프레임들이 임시로 서로 인접(시간적 연속)하는지를 지시하기 위해, 객체는 또한 "시간 연속" 이라는 속성을 포함할 수 있다. 이 속성은 사실 또는 거짓과 같은 지시값을 취할 수 있다. 객체가 비디오의 선택 프레임 내의 영역에 관련되는지, 비디오의 전체 프레임에 관련되는지, 또는 전체 비디오에 공통적으로 관련되는지(숏, 장면, 스토리 등)를 구별하기 위해, 객체는 일반적으로 각각 LOCAL, SEGMENT, 및 GLOBAL과 같은 다수의 지시값을 가질 수 있는 속성(형식)을 포함한다.

도 10은 그 속에 다수의 전형적인 객체가 확인되는 비디오 클립을 도시한 그림 도면이다. 객체 Ｏ0는 전체 비디오 클립과 관련되는 전역 객체이다. 객체 Ｏ1, 도서관은 비디오의 전체 프레임과 관련되며 세그멘트 형식 객체로서 분류된다. 객체 Ｏ2 및 Ｏ3은 각각 나레이터 A 및 나레이터 B에 관련된 로컬 객체이며, 이것은 시간과 공간이 연속적인 사람 객체이다. 객체 Ｏ4(나레이터)는 공간이 불연속적인 로컬 비디오 객체들(Ｏ2, Ｏ3)이다. 도 10은 또한 객체가 중첩(nest)될 수 있다는 도시하고 있다. 예를 들면, 객체 Ｏ1, 도서관은 로컬 객체 Ｏ2를 포함하며, 이들 객체는 둘다 전역 객체 Ｏ0 내에 포함된다. 도 10에 정의된 객체들의 XML 디스크립션이 아래에 나와 있다.

도 11은 둘 이상의 비디오 객체가 객체 계층(926)을 통해 어떻게 관련되고 있는지를 도시한다. 이 경우, 나레이터인 객체 Ｏ2 및 Ｏ3는 "어떤 객체" 라는 공통의 의미 특징을 가진다. 이렇게 하여, 이들 객체는 객체 계층 정의를 경유하여 새로운 객체 Ｏ4(나레이터)의 정의에 참조될 수 있다. 이러한 계층 정의의 상세는 도 3A의 설명을 따른다.

도 12는 비디오 디스크립션 체계의 엔티티 관계 그래프가 비디오 객체에 어떻게 관련되는지를 도시한다. 이 경우, 2개의 관계가 객체 Ｏ2 및 Ｏ3 사이에 주어진다. 첫째는 도 1C에 도시된 바와 같이, 이미지 디스크립션 체계의 경우에 나타날 수 있는 의미 관계의 형식과 동등한 "의 동료" 라는 의미 관계이다. 또한 도 12는 객체 Ｏ2 및 Ｏ3 사이의 시간 관계를 보여준다. 이 경우, 객체 Ｏ2는 비디오 클립 내에서 시간적으로 객체 Ｏ3에 선행하며, 따라서 "이전에"라는 시간인 관계가 적용될 수 있다. 이미지 디스크립션 체계에 대해 제시된 전형적인 관계 형식 및 관계들 외에, 비디오 디스크립션 체계는 아래의 표에 제시된 관계 형식 및 관계들을 채택 할 수 있다.

또한 비디오 객체(930)는 객체 특징이라는 용어로 표현할 수 있다. 특징의 어떤 개수 및 형식이, 모듈러 방식 및 확장 가능한 방식으로 비디오 객체를 표현하도록 정의될 수 있지마는, 유용한 전형적인 특징 세트는 의미 특징(940), 시각 특징(938), 매체 특징(936) 및 시간 특징(937)을 포함할 수 있다. 또한 각 특징은 특징 파러미터 또는 디스크립터에 의해 정의될 수 있다. 일반적으로 이러한 디스크립터는 필요한 시간 정보의 추가에 의해 이미지 디스크립션 체계에 대해 설명된 바를 따른다. 예를 들면, 시각 특징(938)은 동작 파라미터는 물론 형상, 색상, 텍스처 및 위치와 같은 디스크립터 세트를 포함할 수 있다. 시간 특징(937)은 일반적으로 시작 시각, 종료 시각 및 지속 시간과 같은 디스크립터를 포함한다. 표 6은, 특징의 이들 전형적인 클라스의 각각에 속할 수 있는 이미지 디스크립션에 대해 설명된 것들 외의 디스크립터 예를 보여주고 있다.

표 6: 특징 클라스 및 특징

요약하면, 전술한 바의 이미지 디스크립션 체계와 유사한 방식으로, 본 비디오 디스크립션 체계는 비디오 객체 세트(924), 객체 계층(926) 및 엔티티 관계 그래프(928)를 포함한다. 또한 비디오 객체(930)는 특징에 의해 정의된다. 객체 세트(924) 내의 객체(930)는 하나 이상의 객체 계층 노드(932) 및 참조(943)에 의해 계층적으로 관련될 수 있다. 또한 객체들(930) 사이의 관계는 도 2에 대해 설명된 방식에 실질적으로 대응하는 엔티티 관계(934), 엔티티 노드(942), 참조(943) 및 관계(944)를 포함하는 엔티티 관계 그래프(928)로 표현될 수 있다. 바람직하게는, 각 비디오 객체(930)는 외부 추출 코드 및 유사성 매칭 코드와 링크할 수 있는 특징들을 포함한다.

도 13은 도 5에서 설명한 시스템과 유사한 본 비디오 디스크립션 시스템 및 방법을 구현하기 위한 전형적인 컴퓨터 시스템의 블록도이다. 이 시스템은 비디오 입력 인터페이스(1304)의 경유와 같은, 비디오 컨텐트를 표현하는 디지털 데이터를 수신하는 컴퓨터 프로세서 섹션(1302)을 포함한다. 또는 디지털 비디오 데이터가 양방향 통신 입/출력 포트(1306)를 경유하여 원격 소스로부터 프로세서로 전달될 수도 있다. 또한 비디오 컨텐트는 종래 기술의 광학적 데이터 저장 시스템 또는 마 그네틱 저장 시스템과 같은 컴퓨터 액세시블 미디어(408)로부터 프로세서 섹션(1302)으로 전달될 수도 있다. 프로세서 섹션(1302)은 비디오 디스플레이 시스템(1310)으로 데이터를 제공하며, 이 디스플레이 시스템은, 일반적으로 종래의 퍼스널 컴퓨터 시스템 및 워크스테이션에 흔히 채택되는 표준 SVGA 모니터 및 비디오 카드와 같은 적절한 인터페이스 회로 및 고해상도 모니터를 포함한다. 키보드 및 디지털 포인팅 기구(예를 들면, 마우스, 트랙볼, 라이트 펜(light pen) 또는 터치 스크린)와 같은 유저 입력 기구(1312)는 유저의 컴퓨터 시스템과의 인터랙션(interactin)를 실행하기 위해 프로세서 섹션(1302)에 연결된다. 또한 이 시스템은 일반적으로 휘발성 및 비휘발성 컴퓨터 메모리(1314)를 포함하며, 이 메모리는 처리 동작 동안 프로세서 섹션에 의해 엑세스될 수 있다.

도 14는 도 9 내지 12에서 설명된 비디오 DS의 확립에 프로세서 섹션(1302)이 담당하는 처리 작업을 도시하는 흐름도이다. 비디오 클립을 표현하는 디지털 데이터는 비디오 입력 인터페이스(1304)를 경유하여 시스템에 적용되며, 프로세서 섹션(1302)과 연결된다. 프로세서 섹션(1302)은 적절한 소프트웨어의 제어하에서 비디오 객체 추출 처리(1402)를 수행하며, 여기서 비디오 객체(930), 특징(936, 937, 938, 940) 및 연관된 디스크립터들이 생성된다. 비디오 객체 추출 처리(1402)는 완전 자동 처리 작업, 반자동 처리 작업, 또는 예를 들어 유저 입력 기구를 경유하는 등의 유저 인터랙션를 통해 객체가 주로 정의되는 실질적으로 수동 작업을 취할 수 있다.

객체 추출 처리의 결과는 객체 세트(924)의 생성이며, 이 객체 세트는 하나 이상의 비디오 객체(930) 및 연관된 객체 특징(936, 937, 938, 940)을 포함한다. 객체 세트(924)의 비디오 이미지 객체(930)는 또한 객체 계층 구성 및 추출 처리((1404)의 형태, 및 엔티티 관계 그래프 생성 처리(1406)의 형태로 처리된다. 바람직하게는, 이들 처리 작업은 병열로 실행되는 것이다. 객체 계층 구성 및 추출 처리(1404)로부터의 출력 결과는 객체 계층(926)이다. 엔티티 관계 그래프 생성 처리(1406)의 출력 결과는 하나 이상의 엔티티 관계 그래프(928)이다. 프로세서 섹션(1302)은 객체 세트, 객체 계층 및 엔티티 관계 그래프를 적용된 비디오 컨텐트를 위한 본 비디오 디스크립션 체계에 따라 디스크립션 레코드로 합병한다. 디스크립션 레코드는 데이터베이스 스토리지(1410)에 저장되거나, 로우-레벨 인코딩(1412, 바이너리 코딩 등)되며, 또는 디스크립션 언어 인코딩(1414, 예, XML)될 수 있다. 데이터는 검색, 필터링, 보관용 등과 같은 다른 용도(1416)에 사용하기 위한 유용한 포맷으로 이용할 수 있다.

비디오 디스크립션 체계의 전형적인 다큐먼트 형식 정의

이 색션에서는, XML이 본 비디오 디스크립션 체계의 다큐먼트 형식 정의(DTD)를 구현하기 위해 사용된 하나의 실시예에 대해 토의한다. 전술한 표 1은 본 비디오 DS의 DTD를 요약하고 있다. 부록 A는 비디오 DS의 DTD에 대한 완전한 목록을 포함한다. 일반적으로, 다큐먼트 형식 정의(DTD)는 다큐먼트에 포함된 요소, 태그, 속성 및 엔티티의 목록, 및 서로간의 관계를 제공한다. 환언하면, DTD는 다큐먼트의 구조를 위한 룰 세트를 지정한다. DTD는 그것들이 기술하는 다큐먼트를 포함하는 컴퓨터 데이터 파일에 포함될 수도 있고, 또는 외부 유니버설 리소스 로케이션(URL)으로/로부터 링크될 수도 있다. 이러한 DTD는 여러가지 다른 다큐먼트 및 웹 사이트에 의해 공유될 수 있다. DTD는 일반적으로 XML 선언(declaration) 이후 및 실제 다큐먼트 데이터가 시작하기 전에 다큐먼트의 프롤로그에 포함된다. 유효 XML 다큐먼트에 사용되는 모든 태그는 요소 형식 선언에 의해 DTD에서 일단 정확히 선언되어야 한다. DTD에서의 첫번째 요소는 루트 태그이다. 우리의 비디오 DS에서, 루트 태그는 <비디오> 태그로서 지정될 수 있다. 요소 형식 선언은 태그의 명칭, 허용된 2차 태그 및 공(空)테그 유무를 지정한다. 루트 <비디오> 태그는 다음과 같이 정의 될 수 있다:

<!ELEMENTvideo(video_object_set,object_hierarchy*,

entity_relation_graph*)>

여기서 별표(*)는 제로 이상의 발생 빈도를 가리킨다. XML 구문법(syntax)에서 플러스 표시(+)는 하나 이상의 발생 빈도를 가리키며, 물음표(?)는 제로 또는 하나의 발생 빈도를 가리킨다.

XML에서, 요소(element) 형식 선언은 <!ELEMENT and end with>에 의해 시작된다. 이것들은 선언된 비디오 및 허용된 컨텐트(video_object_set, object_hieraracy*,entity_relation_graph*)인 태그의 명칭을 포함한다. 이 선언은 비디오 요소가, 비디오 객체 세트 요소(<video_object_set>), 제로 이상의 객체 계층 요소(<object_hieraracy>) 및 제로 이상의 엔티티 관계 그래프 요소(<entity_relation_graph>)를 포함해야 한다는 것을 의미한다.

비디오 객체 세트(924)는 다음과 같이 정의될 수 있다.

위의 예에서, 첫번째 선언은 비디오 객체 세트 요소(924, <video_object _set>)가 하나 이상의 비디오 객체(930, <video_object>)를 포함한다. 두번째 선언은 비디오 객체(930)가, 선택적 비디오 객체 매체 특징(936, <vid_obj_media _features>), 의미 특징(940, <vid_obj_semantic_feature>), 시각 특징(938, <vid_obj_visual_features>) 및 시간 특징(937, <vid_obj_tempo ral_features>) 요소를 포함한다는 것을 의미한다.

또한, 비디오 객체 태그는 요구되는 속성인 형식을 가지는 것으로 정의되며, 이 형식은 3가지의 가능한 값(LOCAL, SEGMENT, GLBAL)만을 가질수 있으며, 이 3가지 속성은 각각 ID, IDREF, IDREFS 의 id, object_ref, object_node_ref 이다.

어떤 XML 태그는 속성들을 포함한다. 속성들은 요소(ID 등)와 연관된 여분의 정보이다. 위에서 예시한 예에서 마지막의 4가지 선언은 비디오 객체 매체 특징(936), 의미 특징(940), 시각 특징(937) 및 시간 특징(937) 요소에 대응한다. 이들 요소들은 그것들이 제공하는 정보에 의존하는 특징 요소들을 분류한다. 예를 들면, 매체 특징 요소(936, <vid_obj_media_features>)은 매체 특징(936)들의 디스크립터를 정의하기 위하여 선택적인 location, file_format, file_size, resolution, modality_transcoding, and bit_rate elements 를 포함한다. 의미 특징 요소(<vid_obj_semantic_feature>)는 의미 특징 디스크립터(940)에 대응하는 선택적인 text_annotation 및 6-W elements 를 포함한다. 시각 특징 요소(<vid_obj_ visual_features>)는 시각 특징 디스크립터를 위한 선택적인 image_scl, color, texture, shape, size, position, video_scl, visual_sprite, transition, camera_motion element, and multiple key_frame elements 를 포함한다. 시간 특징 요소(<vid_obj_temporal_features>)는 시간 특징 디스크립터로서 선택적인 time elements 를 포함한다.

부록(Appendix) A에 리스트된 전형적인 DTD에서, 명료성과 유연성을 위해 특징 요소는 엔티티를 사용하는 외부 DTD에서 선언된다. 다음의 디스크립션은 각각 하나의 이들 요소를 위해 독립된 외부 DTD를 참조하는 바람직한 방법을 설명한다.

가장 간단한 예에서, DTD는 다큐먼트에 사용되는 모든 태그를 포함한다. 이 기술은 긴 다큐먼트에서는 다루기 힘들게 된다. 또한 많은 다른 장소에서 DTD의 다른 부분을 사용하는 것이 바람직할 수 있다. 외부 DTD는 작은 DTD로부터 큰 DTD가 만들어지는 것을 가능하게 한다. 즉, 하나의 DTD가 다른 DTD에 링크될 수 있음으로써, 처음에 선언된 요소 및 엔티티를 풀인(pull in)한다. 작은 DTD는 분석이 보다 용이하다. DTD는 다음에 예시된 바와 같이, 외부 파라미터 참조(references)와 연결된다.

객체 계층은 DTD에서 정의될 수 있다. 다음의 예는 본 객체 계층 요소에 대한 선언의 개략을 제공한다.

바람직하게 객체 계층 요소(<object_hierarchy>)는 단일 루트 객체 노드 요소(<object_node>)를 포함한다. 일반적으로 객체 노드 요소는 제로 이상의 객체 노드 요소를 포함한다. 각 객체 노드 요소는 관련된 독특한 식별자(id)를 가지고 있다. 식별자는 형식 ID의 요소(예를 들면, <object_node id="on1" object_ref ="o1">)의 선택적 속성으로서 표현된다. 또한 각 객체 노드 요소는 각 비디오 객체와 연관된 독특한 식별자를 사용하는, 비디오 객체 요소에 대한 참조를 포함할 수 있다. 비디오 객체 요소에 대한 참조는 형식 IDREF(object_ref)의 속성으로서 주어진다. 객체 요소는 형식 IDREFS(object_node_ref)의 속성을 사용하여 그것들을 가리키는 이들 객체 노드 요소로 역으로 링크할 수 있다.

엔티티 관계 그래프 정의는 객체 계층 정의와 매우 비슷하다.

엔티티 노드 요소의 선언은 컴머보다는 수직 바에 의해 자(子) 요소를 분리함으로써 둘 중의 하나를 포함할 수 있다.

위의 디스크립션은 본 비디오 디스크립션 체계에 따라 비디오 컨텐트를 기술하는 시스템 및 방법은 물론, 비디오 디스크립션 체계의 데이터 구조를 설명한다. 물론, 바람직하게 본 비디오 디스크립션 체계는 도 7 및 8에서 설명된 시스템으로 사용될 수도 있다.

본 발명은 특정의 전형적인 실시예를 통해 설명되었지만, 첨부된 권리 청구항에 설명된 본 발명의 정신과 범위를 벗어나지 않고도 이 공개된 실시예에 대한 여러가지 변화, 대체 및 변경이 가능하다는 사실이 이해되어야 한다.

"APPENDIX A"

Claims

비디오 정보로부터 디스크립션 레코드(discription record)를 생성하는 시스템에 있어서,

상기 비디오 정보를 수신하기 위한 적어도 하나의 비디오 입력 인터페이스;

상기 비디오 입력 인터페이스로부터 상기 비디오 정보를 수신하기 위해 상기 적어도 하나의 비디오 입력 인터페이스에 접속되며, 상기 비디오 정보로부터 비디오 객체(object) 디스크립션을 생성하기 위하여 비디오 객체 추출(extration) 처리의 실행에 의해 상기 비디오 정보를 처리하며, 비디오 객체 계층(hierarchy) 디스크립션을 생성하기 위하여 객체 계층 구성 및 추출(extraction) 처리에 의해 상기 생성된 비디오 객체 디스크립션을 처리하며, 엔티티 관계(entity relation) 그래프 디스크립션을 생성하기 위하여 엔티티 관계 그래프 생성 처리에 의해 상기 생성된 비디오 객체 디스크립션을 처리하며, 상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션, 및 상기 엔티티 관계 그래프 디스크립션을 포함하는 적어도 하나의 디스크립션 레코드가 상기 비디오 정보 내에 내장되는(embedded) 컨텐트(content)를 표현하기 위해 생성되는 컴퓨터 프로세서; 및

상기 적어도 하나의 디스크립션 레코드를 저장하기 위하여 상기 프로세서에 착탈 가능하게 연결되는 데이터 저장 시스템

을 포함하는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 비디오 객체 추출 처리 및 상기 객체 계층 구성 및 추출 처리가 병렬(in parallel)로 실행되는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 비디오 객체 추출 처리는

상기 비디오 정보의 각 비디오를 상기 비디오 내의 영역으로 분할하기 위한 비디오 분할 처리와,

하나 이상의 상기 영역에 대하여 하나 이상의 특징(feature) 디스크립션을 생성하기 위한 특징 추출 및 주석 처리

를 포함하며,

상기 생성된 비디오 객체 디스크립션은 상기 하나 이상의 영역에 대한 상기 하나 이상의 특징 디스크립션을 포함하는 디스크립션 레코드 시스템.
제3항에 있어서,

상기 영역은 로컬, 세그멘트(segment) 및 글로벌 영역으로 이루어지는 군(group)으로부터 선택되는 디스크립션 레코드 시스템.
제3항에 있어서,

상기 하나 이상의 특징 디스크립션은 매체 특징(media feature), 시각(visual) 특징, 시간(temporal) 특징 및 의미(semantic) 특징으로 이루어지는 군으로부터 선택되는 디스크립션 레코드 시스템.
제5항에 있어서,

상기 의미 특징은 주체, 객체, 동작, 장소, 시기, 이유 및 텍스트 주석으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 시스템.
제5항에 있어서,

상기 시각 특징은 색상, 텍스처, 위치, 사이즈, 형상, 동작, 카메라 동작, 편집 효과 및 방향으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 시스템.
제5항에 있어서,

상기 매체 특징은 파일 포맷, 파일 사이즈, 색상 표현, 해상도, 데이터 파일 위치, 저자, 제작, 측정 가능한 층 및 양식 트랜스코딩(modality transcoading)으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 시스템.
제5항에 있어서,

상기 시간 특징은 시작 시각, 종료 시각 및 지속 시간으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 시각 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 의미 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 매체 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거한 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하며, 상기 비디오 객체 계층 디스크립션은 복수의 계층 레벨을 가지는 디스크립션 레코드 시스템.
제14항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 클러스터화 계층(clustering hierarchy)을 포함하는 디스크립션 레코드 시스템.
제15항에 있어서,

상기 클러스터화 계층은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하고 있으며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 디스크립션 레코드 시스템.
제15항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 다수 레벨의 추상(abstraction) 계층을 포함하도록 구성되는 디스크립션 레코드 시스템.
제17항에 있어서,

상기 다수 레벨의 추상 계층은 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하도록 구성되며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는

디스크립션 레코드 시스템.
제1항에 있어서,

상기 엔티티 관계 그래프 생성 처리는 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하여 상기 비디오 객체 디스크립션의 엔티티 관계 그래프 디스크립션을 생성하며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 비디오 객체 디스크립션을 수신 및 인코딩하여 인코딩된 디스크립션 정보를 형성하기 위한 인코더를 추가로 포함하며, 상기 데이터 저장 시스템은 상기 인코딩된 디스크립션 정보를 상기 적어도 하나의 디스크립션 레코드로서 저장하는 디스크립션 레코드 시스템.
제1항에 있어서,

상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션 및 상기 엔티티 관계 그래프 디스크립션은 비디오 디스크립션을 형성하기 위해 함께 결합되며, 상기 비디오 디스크립션을 수신 및 인코딩하여 인코딩된 디스크립션 정보를 형성하기 위한 인코더를 추가로 포함하며, 상기 데이터 저장 시스템은 상기 인코딩된 디스크립션 정보를 상기 적어도 하나의 디스크립션 레코드로서 저장하는 디스크립션 레코드 시스템.
제21항에 있어서,

상기 인코더가 2진 인코더를 포함하는 디스크립션 레코드 시스템.
제21항에 있어서,

상기 인코더가 XML 인코더를 포함하는 디스크립션 레코드 시스템.
제1항에 있어서,

비디오 정보를 디스플레이하기 위해 컴퓨터 프로세서에 착탈 가능하게 접속되는 비디오 디스플레이 장치와,

컴퓨터 프로세서에 착탈 가능하게 접속되는 적어도 하나의 유저 입력 기구를

추가로 포함하며,

상기 비디오 객체 처리의 적어도 일부가 상기 유저 입력 기구의 조작을 통한 유저 입력의 수신

을 포함하는 디스크립션 레코드 시스템.
비디오 정보로부터 디스크립션 레코드를 생성하기 위한 방법에 있어서,

상기 비디오 정보를 수신하는 단계;

상기 비디오 정보로부터 비디오 객체 디스크립션을 생성하기 위하여 비디오 객체 추출 처리의 실행에 의해 상기 비디오 정보를 처리하는 단계;

비디오 객체 계층 디스크립션을 생성하기 위하여 객체 계층 구성 및 추출 처리에 의해 상기 생성된 비디오 객체 디스크립션을 처리하는 단계;

엔티티 관계 그래프 디스크립션을 생성하기 위하여 엔티티 관계 그래프 생성 처리에 의해 상기 생성된 비디오 객체 디스크립션을 처리하는 단계; 및

상기 적어도 하나의 디스크립션 레코드를 저장하는 단계

를 포함하며,

상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션, 및 상기 엔티티 관계 그래프 디스크립션을 포함하는 적어도 하나의 디스크립션 레코드가 상기 비디오 정보 내에 내장되는 컨텐트를 표현하기 위해 생성되는 디스크립션 레코드 생성 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 비디오 객체 추출 처리 및 상기 객체 계층 구성 및 추출 처리 단계가 병렬로 실행되는 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 비디오 객체 추출 처리는

상기 비디오 정보의 각 비디오를 상기 비디오 내의 영역으로 분할하기 위한 비디오 분할 처리 단계와,

하나 이상의 상기 영역에 대하여 하나 이상의 특징 디스크립션을 생성하기 위한 특징 추출 및 주석 처리 단계

를 추가로 포함하며,

상기 생성된 비디오 객체 디스크립션은 상기 하나 이상의 영역에 대한 상기 하나 이상의 특징 디스크립션을 포함하는 디스크립션 레코드 생성 방법.
제27항에 있어서,

상기 영역은 로컬, 세그멘트 및 글로벌 영역으로 이루어지는 군으로부터 선 택되는 디스크립션 레코드 생성 방법.
제27항에 있어서,

상기 하나 이상의 특징 디스크립션은 매체 특징, 시각 특징, 시간 특징 및 의미 특징으로 이루어지는 군으로부터 선택되는 단계를 추가로 포함하는 디스크립션 레코드 생성 방법.
제29항에 있어서,

상기 의미 특징은 주체, 객체, 동작, 장소, 시기, 이유 및 텍스트 주석으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 생성 방법.
제29항에 있어서,

상기 시각 특징은 색상, 텍스처, 위치, 사이즈, 형상, 동작, 편집 효과, 카메라 동작 및 방향으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 생성 방법.
제29항에 있어서,

상기 매체 특징은 파일 포맷, 파일 사이즈, 색상 표현, 해상도, 데이터 파일 위치, 저자, 제작, 측정 가능한 층 및 양식 트랜스코딩으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 생성 방법.
제29항에 있어서,

상기 시간 특징은 시작 시각, 종료 시각 및 지속 시간으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 시각 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 의미 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 매체 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 시간 특징 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 객체 계층 구성 및 추출 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하여 상기 비디오 객체 디스크립션의 비디오 객체 계층 디스크립션을 생성하며, 상기 비디오 객체 계층 디스크립션은 복수의 계층 레벨을 가지는, 디스크립션 레코드 생성 방법.
제39항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 클러스터화 계층을 포함하도록 구성된 디스크립션 레코드 생성 방법.
제40항에 있어서,

상기 클러스터화 계층은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 디스크립션 레코드 생성 방법.
제40항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 다수 레벨의 추상 계층을 포함하도록 구성되는 디스크립션 레코드 생성 방법.
제42항에 있어서,

상기 다수 레벨의 추상 계층은 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하도록 구성되며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 엔티티 관계 그래프 생성 처리는, 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거한 상기 비디오 객체 디스크립션의 엔티티 관계 그래프 디스크립션을 생성하며,

상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는, 디스크립션 레코드 생성 방법.
제25항에 있어서,

상기 비디오 객체 디스크립션을 수신 및 인코딩하여 인코딩된 디스크립션 정보를 형성하는 단계와, 상기 인코딩된 디스크립션 정보를 상기 적어도 하나의 디스크립션 레코드로서 저장하는 단계를 추가로 포함하는 디스크립션 레코드 생성 방법.
제25항에 있어서,

비디오 디스크립션을 형성하기 위해, 상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션 및 상기 엔티티 관계 그래프 디스크립션을 결합시키는 단계;

상기 비디오 디스크립션을 수신하는 단계;

상기 비디오 디스크립션을 인코딩된 디스크립션 정보로 인코딩하는 단계; 및

상기 인코딩된 디스크립션 정보를 상기 적어도 하나의 디스크립션 레코드로서 저장하는 단계

를 추가로 포함하는 디스크립션 레코드 생성 방법.
제46항에 있어서,

상기 인코딩하는 단계는 2진 인코딩 단계를 포함하는, 디스크립션 레코드 생성 방법.
제46항에 있어서,

상기 인코딩하는 단계는 XML 인코딩 단계를 포함하는, 디스크립션 레코드 생성 방법.
대응하는 비디오 정보 내에 내장된 비디오 컨텐트를 표현하는 적어도 하나의 디스크립션 레코드를 가지는 디지털 정보를 포함하는, 컴퓨터 판독 가능 매체에 있어서, 상기 적어도 하나의 디스크립션 레코드는

비디오 객체 추출 처리를 사용하여 상기 비디오 정보로부터 생성되는 하나 이상의 비디오 객체 디스크립션;

객체 계층 구성 및 추출 처리를 사용하여 상기 생성된 비디오 객체 디스크립션으로부터 생성되는 하나 이상의 비디오 객체 계층 디스크립션;

엔티티 관계 그래프 생성 처리를 사용하여 상기 생성된 비디오 객체 디스크립션으로부터 생성되는 하나 이상의 엔티티 관계 그래프 디스크립션을 포함하는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션 및 상기 엔티티 관계 그래프 디스크립션은 하나 이상의 특징 디스크립션을 추가로 포함하는 컴퓨터 판독 가능 매체.
제50항에 있어서,

상기 하나 이상의 특징 디스크립션은 매체 특징, 시각 특징, 시간 특징 및 의미 특징으로 이루어지는 군으로부터 선택되는 컴퓨터 판독 가능 매체.
제51항에 있어서,

상기 의미 특징은 주체, 객체, 동작, 장소, 시기, 이유 및 텍스트 주석으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 컴퓨터 판독 가능 매체.
제51항에 있어서,

상기 시각 특징은 색상, 텍스처, 위치, 사이즈, 형상, 동작, 편집 효과, 카메라 동작 및 방향으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 컴퓨터 판독 가능 매체.
제51항에 있어서,

상기 매체 특징은 파일 포맷, 파일 사이즈, 색상 표현, 해상도, 데이터 파일 위치, 저자, 제작, 측정 가능한 층 및 양식 트랜스코딩으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 컴퓨터 판독 가능 매체.
제51항에 있어서,

상기 시간 특징은 시작 시각, 종료 시각 및 지속 시간으로 이루어지는 군으로부터 선택되는 적어도 하나의 특징 디스크립션에 의해 정의되는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 객체 계층 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 시각 특징 관계에 근거하고 있는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 객체 계층 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 의미 특징 관계에 근거하고 있는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 객체 계층 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 매체 특징 관계에 근거하고 있는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 객체 계층 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 시간 특징 관계에 근거하고 있는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 객체 계층 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하고 있으며, 상기 비디오 객체 계층 디스크립션은 복수의 계층 레벨을 가지는 컴퓨터 판독 가능 매체.
제60항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 클러스터화 계층을 포함하는 컴퓨터 판독 가능 매체.
제61항에 있어서,

상기 클러스터화 계층은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하고 있으며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 컴퓨터 판독 가능 매체.
제62항에 있어서,

복수의 계층 레벨을 가지는 상기 비디오 객체 계층 디스크립션은 다수 레벨의 추상 계층을 포함하도록 구성되는 컴퓨터 판독 가능 매체.
제63항에 있어서,

상기 다수 레벨의 추상 계층은 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하도록 구성되며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 엔티티 관계 그래프 디스크립션은 상기 비디오 객체 디스크립션에 의해 표현되는 비디오 객체의 관계에 근거하고 있으며, 상기 관계는 시각 특징 관계, 의미 특징 관계, 시간 특징 관계 및 매체 특징 관계로 이루어지는 군으로부터 선택되는 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 비디오 객체 디스크립션은 인코딩된 디스크립션 정보의 형태인 컴퓨터 판독 가능 매체.
제49항에 있어서,

상기 비디오 객체 디스크립션, 상기 비디오 객체 계층 디스크립션 및 상기 엔티티 관계 그래프 디스크립션은 인코딩된 디스크립션 정보의 형태로 함께 결합되는 컴퓨터 판독 가능 매체.
제67항에 있어서,

상기 인코딩된 디스크립션 정보는 2진 인코딩된 정보의 형태인 컴퓨터 판독 가능 매체.
제67항에 있어서,

상기 인코딩 디스크립션 정보는 XML 인코딩된 정보의 형태인 컴퓨터 판독 가능 매체.
제3항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 디스크립션 레코드 생성 시스템.
제5항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 디스크립션 레코드 시스템.
제27항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 디스크립션 레코드 생성 방법.
제29항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 디스크립션 레코드 생성 방법.
제50항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 컴퓨터 판독 가능 매체.
제53항에 있어서,

상기 특징 디스크립션은 코드 다운로딩을 용이하게 하기 위해 추출 및 매칭 코드를 지시하는 포인터를 포함하는 컴퓨터 판독 가능 매체.