KR100771574B1 - 복수의 디지털 정보 신호를 인덱싱하는 방법 - Google Patents

복수의 디지털 정보 신호를 인덱싱하는 방법 Download PDF

Info

Publication number
KR100771574B1
KR100771574B1 KR1020027000069A KR20027000069A KR100771574B1 KR 100771574 B1 KR100771574 B1 KR 100771574B1 KR 1020027000069 A KR1020027000069 A KR 1020027000069A KR 20027000069 A KR20027000069 A KR 20027000069A KR 100771574 B1 KR100771574 B1 KR 100771574B1
Authority
KR
South Korea
Prior art keywords
delete delete
semantic
relationships
level
relationship
Prior art date
Application number
KR1020027000069A
Other languages
English (en)
Other versions
KR20020050220A (ko
Inventor
베니테즈애너
제임스알레잔드로
창시-후
스미스죤알.
리충-셍
Original Assignee
더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕
인터내셔널 비즈니스 머신즈 코오퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕, 인터내셔널 비즈니스 머신즈 코오퍼레이션 filed Critical 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕
Publication of KR20020050220A publication Critical patent/KR20020050220A/ko
Application granted granted Critical
Publication of KR100771574B1 publication Critical patent/KR100771574B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

멀티미디어 정보로부터 표준 설명 기록을 생성하는 시스템 및 방법이 제공되었다. 본 발명은 시각 데이터를 설명하는 관련된 형태의 엔터티, 엔터티 속성 및 관계를 분류하는 포괄적 AV DS를 위한 기본적 엔터티-관계 모델을 사용한다. 그것은 엔터티 속성을 신택틱 및 세만틱 속성으로 분류하는 것을 포함한다. 신택틱 속성은 서로 다른 여러 가지 레벨, 즉, 형태/기법, 전체 분배, 국부적 구조 및 전체 합성으로 분류될 수 있다. 세만틱 속성은 서로 다른 여러 가지 레벨, 즉, 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체 및 추상적 장면으로 분류될 수 있다. 본 발명은 엔터티 관계를 신택틱 및 세만틱 카테고리로 더욱 분류한다. 신택틱 관계는 공간적, 시간적 및 시각 카테고리로 분류될 수 있다. 세만틱 관계는 어휘적 및 서술적 카테고리로 분류될 수 있다. 공간적 및 시간적 관계들은 지형적 또는 방향적일 수 있고, 시각적 관계는 전체, 국부적 또는 합성일 수 있으며, 어휘 관계는 동의어, 반대어, 하이포니미/하이퍼니미, 또는 메로니미/홀로니미일 수 있고, 서술적 관계는 동작(사건) 또는 상태일 수 있다. 오디오 및 비디오 디지털 신호를 그 컨텐츠에 기초하여 인덱싱하고 분류하는 것이 향상될 수 있고, 멀티미디어 컴퓨터 시스템 및 다른 기억 및 출력 장치와 관련한 그러한 신호의 검색, 기억 및 다른 이용이 편리하게 된다.
인덱싱, 분류, 레벨, 멀티미디어, 신호, 디지털 정보, 비디오, 음성, 데이터, 파일, 개념, 인식, 엔터티, 형태, 기법, 전체적 분배, 국부적 구조, 전체적 합성, 포괄적, 특정한, 추상적, 객체, 장면, 신택틱, 세만틱, 신택틱 관계, 세만틱 관계, 공간적, 시간적, 시각, 어휘적, 서술적

Description

복수의 디지털 정보 신호를 인덱싱하는 방법{A METHOD FOR INDEXING A PLURALITY OF DIGITAL INFORMATION SIGNALS}
본 발명은 멀티미디어 정보를 설명하기 위한 기법에 관한 것으로서, 특히 비디오 및 화상 정보 둘 다 또는 음성 정보를 설명하는 기법 및 그러한 정보의 컨텐츠에 관한 것이다. 본 명세서에 공개된 기법은 디지털 데이터 신호(예로서, 멀티미디어 신호)의 컨텐츠-감지(content-sensitive) 인덱싱 및 분류를 위한 것이다.
본 출원은 우선권 주장의 기초가 되는 1999년 7월 3일자로 출원된 미국 임시 특허출원 제60/142,325호에 기초되었다.
전체 인터넷의 성장과 지역적 네트워크와 국부적 네트워크의 광범위한 이용으로 인해서, 디지털 멀티미디어 정보는 소비자 및 사업자에게 점점 더 액세스 가능하게 되었다. 따라서, 유용한 정보가 이러한 점점 커지는 대량의 가공되지 않은 정보로부터 발췌될 수 있도록, 디지털 멀티미디어 정보를 프로세스, 필터링, 탐색 및 조직하는 시스템을 개발하는 것이 점점 더 중요하게 되었다.
본 발명을 출원할 당시에, 소비자 및 사업자가 텍스트 정보를 탐색하는 것을 허용하는 해결책이 존재하였다. 실제로, yahoo.com, goto.com, excite.com 등에 의 해 제공된 것과 같은 여러 가지 텍스트-기반 탐색 엔진은 월드 와이드 웹 상에서 이용가능 하게 되었으며, 가장 많이 방문되는 웹사이트 중에서 그러한 정보 검색 기법에 대한 요구의 중요성을 나타낸다.
불행하게도, 멀티미디어 컨텐츠에 대해서는 위의 상황과 같지 않으며, 이러한 멀티미디어 컨텐츠의 일반적으로 인식된 설명은 존재하지 않는다
최근에 디지털 화상과 비디오의 사용이 확산됨에 따라 컨텐츠를 탐색할 때 현재 많은 양의 자원을 가진 엔드-사용자(end-user)에게 새로운 기회가 주어진다. 시각 정보는 많은 다른 포맷으로 많은 소스로부터 다양한 주제에 널리 이용가능 하다. 이것은 이점이지만, 동시에 도전인데, 왜냐하면 사용자는 그러한 컨텐츠를 탐색할 때 많은 양의 데이터를 검토할 수 없기 때문이다. 따라서, 사용자로 하여금 컨텐츠를 효율적으로 브라우즈하거나 사용자의 특정한 필요에 기초하여 질문을 수행하도록 허용하는 것이 필수적이다. 그러나, 디지털 라이브러리에서 그러한 기능을 제공하기 위해서, 데이터를 이해하고 적절히 인데싱하는 것이 필수적이다. 이러한 인덱싱은 구성되어야만 하고, 그것은 사용자가 어떻게 그러한 정보에 액세스하기를 원하는가에 기초하여야만 한다.
전통적인 방법에서, 텍스트 주석이 인덱싱을 위해서 사용되는데, 카탈로그 작성자는 화상을 설명하기 위해서 한 세트의 키이 워드 또는 표현을 수동으로 할당한다. 그러면 사용자는 텍스트-기반 질문을 수행하거나 또는 수동으로 할당된 카테고리를 통해 브라우즈할 수 있다. 텍스트-기반 방법에 대조적으로, 컨텐츠-기반 검색에서의 최근의 기법은 그들의 시각 컨텐츠에 기초하여 화상을 인덱싱하는 것에 초점을 맞추고 있다. 사용자는 예(예로서, 이 예와 유사하게 보이는 화상) 또는 사용자-스케치(예로서, 이 스케치와 유사하게 보이는 화상)에 의해 질문을 수행한다. 더욱 최근의 노력은 화상의 컨텐츠에 기초하여 화상의 자동 분류를 시도하는데, 시스템은 각각의 화상을 분류하고 화상에 라벨(예로서, 옥내, 옥외, 얼굴을 포함하는 등)을 할당한다.
두 가지 패러다임 모두에서, 특히 컨텐츠-기반 검색 공동체(community)에서 자주 간과되는 분류의 문제가 있다. 시각 정보를 적절히 인덱싱하는 데에 있어서의 주요한 어려움은 다음과 같이 요약할 수 있는데, 즉, (1) 단일 화상 내에 많은 양의 정보가 존재한다(예로서, 어떤 것을 인덱싱할 것인가?), (2) 서로 다른 레벨의 설명이 가능하다(예로서, 어떻게 인덱싱할 것인가?). 예로서, 옷을 입고 있는 사람의 초상화를 생각하자. 화상에 용어 "옷" 또는 "사람"을 라벨링 할 수 있을 것이다. 용어 "사람"은 이번에는 다중 레벨에서 정보를 가질 수 있는데, 즉, 다른 것들 중에서 개념적(예로서, 사전에서의 사람의 정의), 물리적(크기, 중량) 및 시각(머리색, 의복)의 레벨이다. 그러면, 카테고리 라벨은 명확한(예로서, 화상 내의 사람은 여자가 아니고 남자이다), 잠재적 또는 정의되지 않은 정보(예로서, 그 용어만으로는 사람이 어떤 것을 입고 있는지를 알 수 없다)를 뜻한다.
이러한 점에서, 과거에 사용자로 하여금 화상 내에 매립된(embedded) 비디오 물체의 색깔, 텍스트 및 형상 정보와 같은 특징을 사용하여 화상을 탐색하도록 허용하는 멀티미디어 데이터베이스를 제공하고자 하는 시도가 있었다. 그러나, 20 세기를 마감하는 시점에서, 아직도 멀티미디어 컨텐츠를 찾기 위해 인터넷 또는 대부분의 지역적 또는 국부적 네트워크의 일반적인 탐색을 수행하는 것은 아직도 가능하지 않은데, 왜냐하면, 이러한 멀티미디어 컨텐츠의 널리 인식된 설명이 존재하지 않기 때문이다. 더욱이, 멀티미디어 컨텐츠를 탐색할 필요성은 데이터베이스에 제한되지 않으며, 디지털 방송 텔레비전 및 멀티미디어 전화와 같은 다른 응용으로 확장된다.
그러한 표준을 개발하고자 하는 산업의 광범위한 시도에서, 멀티미디어 설명 프레임워크는 동화상 전문가 그룹(MPEG)의 MPEG-7 표준화 노력을 거쳤다. 1966년 10월에 시작된 MPEG-7은 멀티미디어 탐색, 필터링, 브라우징 및 요약과 같은 컨텐츠-중심(content-focused) 응용을 실현하기 위해 멀티미디어 데이터의 컨텐츠 설명을 표준화하는 것에 목표를 두고 있다. MPEG-7 표준의 목적의 더욱 완전한 설명은 국제표준화 기구 문서인 ISO/IEC JTC1/SC29/WG11 N460(1998년 10월)에 포함되었는데, 그 컨텐츠는 여기에 인용함으로써 본 명세서의 일부를 이룬다.
MPEG-7 표준은 여러 가지 형태의 멀티미디어 정보를 설명하기 위하여 한 세트의 설명자(descriptor) 및 그 설명자를 위한 구조("설명 방법"이라고 지칭된다)와 그들의 관계를 규정하는 목적을 갖고 있다. MPEG-7은 또한 다른 설명자 및 그 설명자를 위한 "설명 방법"과 그들의 관계를 한정하는 방법을 표준화하는 것을 제안하였다. 이 기술, 즉, 설명자와 설명 방법의 조합은 사용자의 관심의 대상이 되는 물질을 위한 신속하고 효율적인 탐색 및 필터링을 허용하기 위해 컨텐츠 그 자체와 관련된다. MPEG-7은 또한 설명 방법을 규정하는 언어, 즉, 설명 정의 언어(Description definition Language(DDL)), 및 멀티미디어 컨텐츠의 설명을 2진 엔코딩하기 위한 방법을 표준화하는 것을 제안하였다.
본 발명을 출원할 당시에, MPEG는 MPEG-7 표준에의 미래의 통합을 위한 필요한 설명 방법을 최적으로 실시하는 기법을 위한 제안을 촉구하였다. 그러한 최적 설명 방법을 제공하기 위해서, 3가지 다른 멀티미디어-응용 배열이 고려될 수 있다. 이것들은 분배된 프로세싱 시나리오, 컨텐츠-교환 시나리오, 및 멀티미디어 컨텐츠의 의인화된 뷰잉(personalized viewing)을 허용하는 포맷이다.
분배된 프로세싱에 관해서는, 설명 방법은 어떠한 플랫폼, 벤더, 응용에 무관하게 멀티미디어 물질의 설명을 교환하는 능력을 제공하여야만 하는데, 이것은 멀티미디어 컨텐츠의 분배된 프로세싱을 가능하게 할 것이다. 상호작용가능한 컨텐츠 설명의 표준화는 여러 가지 소스로부터의 데이터가 멀티미디어 프로세서, 편집기, 검색 시스템, 필터링 에이전트 등과 같은 여러 가지 분배된 응용에 플러깅될 수 있다는 것을 뜻할 것이다. 이러한 응용들 중의 어떤 것은 제삼자에 의해 제공될 수 있어서, 멀티미디어 데이터의 표준화된 설명과 협동할 수 있는 멀티미디어 툴의 제공자의 하부 산업을 발생시킬 수 있다.
사용자는 어떤 저수준 또는 고수준 프로세싱에 의해 얻어진 컨텐츠 및 관련된 인덱싱 데이터를 다운로딩하기 위해 여러 가지 컨텐츠 제공자의 웹사이트에 액세스하고, 사용자의 개인적인 관심에 따라서 특정 방법으로 이종의(heterogeneous) 데이터 설명을 조정하기 위한 도구(tool)(예로서, 자바 애플렛)를 다운로딩하기 위해 여러 가지 도구 제공자의 웹사이트에 액세스하도록 진행하는 것이 허용되어야 한다. 그러한 멀티미디어 도구의 예는 비디오 편집기일 것이다. MPEG-7에 일치하는 비디오 편집기는 각각의 비디오와 관련된 설명이 MPEG-7에 일치하면 여러 가지 소스로부터의 비디오 컨텐츠를 조정 및 프로세스할 수 있을 것이다. 각각의 비디오는 카메라 이동, 장면 컷, 주석 및 객체 분할과 같은 여러 가지 등급의 설명 상세사항을 가질 수 있다.
상호작동 가능한 컨텐츠 설명 표준으로부터 큰 이득을 가질 두 번째 시나리오는 이종의 멀티미디어 데이터베이스 중에서 멀티미디어 컨텐츠의 교환이다. MPEG-7은 멀티미디어 물질의 현존하는 설명을 표현하고, 교환하고, 번역하고, 재사용하는 수단을 제공하는 것에 목표를 두고 있다.
현재, TV 방송자, 무선 방송자 및 다른 컨텐츠 제공자는 막대한 양의 멀티미디어 물질을 관리하고 저장한다. 이 물질은 현재 텍스트 정보 및 독점 데이터베이스를 사용하여 수동으로 설명된다. 상호작용가능한 컨텐츠 설명이 없으면, 컨텐츠 사용자는 각각의 방송자에 의해 사용된 설명을 그들 자신의 독점 방법으로 수동으로 번역하기 위해 인력을 투자할 필요가 있다. 멀티미디어 컨텐츠 설명의 교환은 모든 컨텐츠 제공자가 동일한 방법 및 컨텐츠 설명 방법을 받아들이면 가능할 것이다. 이것은 MPEG-7의 목적이다.
마지막으로, 설명 방법을 사용하는 멀티미디어 플레이어 및 시청자는 사용자에게 사용자에 의해 구성된 데이터의 다중 뷰와 같은 창조적 능력을 제공하여야만 한다. 사용자는 데이터가 컨텐츠 방송자로부터 다른 포맷으로 다시 다운로딩되는 것을 요구함이 없이 디스플레이의 구성을 변경할 수 있어야 한다.
상기 예는 단지 MPEG-7에 기초한 표준화된 방법으로 공급된 충분히 구조화된 데이터를 위한 가능한 사용에서 힌트를 얻은 것이다. 불행하게도, 현재 이용가능한 어떤 종래 기법도 분배된 프로세싱, 컨텐츠-교환 또는 의인화된 뷰잉 시나리오를 포괄적으로 충족시키지 못한다. 특히, 종래 기법은 포괄적(generic) 특징 또는 세만틱(semantic) 관계에 기초한 멀티미디어 정보에 매립된 컨텐츠를 포착하기 위한 기법을 제공하거나 또는 그러한 컨텐츠를 조직하기 위한 기법을 제공하는데 실패하였다. 따라서, 종래 기법에서 포괄적 멀티미디어 정보를 위한 효율적 컨텐츠 설명 방법의 필요성이 존재한다.
MPEG 서울 회의 동안에(1999년 3월), 포괄적 시각 설명 방법(비디오 그룹, "MPEG-7을 위한 포괄적 시각 설명 방법", ISO/IEC JTC1/SC29/WG11 MPEG99/N2694, 서울, 한국, 1999년 3월)이 DS1(정지 화상), DS3++(멀티미디어), DS4(응용), 및 특히, MPEG-7 평가 AHG(랭커스터, 영국, 1999년 2월)(MPEG-7 평가 기호 논리학에 관한 AHG, "MPEG-7 평가 기호 논리학에 관한 Ad-hoc 그룹의 보고서", ISO/IEC JTC1/WG11 MPEG99/N4524, 서울, 한국, 1999년 3월)의 DS2(비디오) 팀으로부터의 몇몇 권고를 따라서 발생되었다. 포괄적 시각 DS는 설명 방법에 관한 AHG에서 포괄적 음성 시각 설명 방법(AV DS)(설명 방법에 관한 AHG, "MPEG-7을 위한 포괄적 음성 시각 설명 방법(V0.3)", ISO/IEC JTC1/SC29/WG11 MPEG99/M4677, 뱅쿠버, 카나다, 1999년 7월)으로 발전하였다. 포괄적 AV DS는 비디오 시퀀스 또는 화상의 시각 컨텐츠를 설명하고, 음성 시퀀스의 컨텐츠를 부분적으로 설명하는데, 그것은 멀티미디어 또는 기록 컨텐츠를 언급하지 않는다.
포괄 AV DS의 기본 성분은 신택틱(syntactic) 구조 DS, 세만틱(semantic) 구조 DS, 신택틱-세만틱 링크 DS, 및 분석/합성 모델 DS이다. 신택틱 구조 DS는 영역 트리, 세그멘트 트리, 및 세그멘트/영역 관계 그래프로 구성된다. 유사하게, 세만틱 구조 DS는 객체 트리, 사건 트리, 및 객체/사건 관계 그래프로 구성된다. 신택틱-세만틱 링크 DS 는 신택틱 요소(영역, 세그멘트, 및 세그멘트/영역 관계)를 세만틱 요소(객체, 사건, 사건/객체 관계)와 링크시키고, 또한 그 역으로 링크시키는 메카니즘을 제공한다. 분석/합성 모델 DS는 신택틱 구조와 세만틱 구조 사이의 투영/등록/개념적 교신을 규정한다. 일반적으로 컨텐츠 요소라고 지칭할 세만틱 및 신택틱 요소들은 관련된 속성(attributes)들을 갖는다. 예로서, 영역은 색깔/텍스쳐, 모양, 2-D 기하학적 형상, 운동 및 변형 설명자에 의해 설명된다. 객체는 형태, 객체-거동(behavior), 및 세만틱 주석 DS들에 의해 설명된다
포괄적 AV DS의 현재의 규격에서 가능한 단점을 인식하였다. 포괄적 AV DS는 컨텐츠 요소와 엔터티-관계 그래프를 포함한다. 컨텐츠 요소는 관련된 특징을 갖고, 엔터티-관계 그래프는 컨텐츠 요소들 중의 포괄적 관계를 설명한다. 이것은 엔터티-관계(ER) 모델링 기술(P.P-S, Chen, "엔터티-관계 모델-데이타의 통일된 뷰를 향하여", 데이터베이스 시스템즈에 관한 ACM 트랜잭션즈, Vol.1, No.1, 페이지 9-36, 1976년 3월)을 뒤따른다. 그러나, 포괄적 AV DS 내의 이러한 요소들의 현재의 규격은 음성-시각 컨텐츠를 설명할 유용하고 강력한 도구가 되기에는 너무 포괄적이다. 포괄적 AV DS는 또한 계층 및 계층들 사이의 링크를 포함하는데, 그것은 물리적 계층 모델에 통상적인 것이다. 따라서, 포괄적 AV DS는 다른 개념적 및 물리적 모델의 혼합이다. 이러한 DS의 다른 한계는 세만틱 구조와 신택틱 구조의 견고한 분리와, 그 컨텐츠 요소의 명확하고 통일된 정의일 것이다.
포괄적 AV DS는 서적 컨텐츠 설명을 위한 고전적 방법인 (1) 문헌의 물리적 또는 신택틱 구조의 정의 즉, 컨텐츠의 테이블, (2) 세만틱 구조의 정의 즉, 인덱스, 및 (3) 세만틱 표시들이 나타나는 위치의 정의의 뒤에 오는 화상, 비디오 시퀀스와, 부분적으로는 음성 시퀀스를 설명한다. 그것은 (1) 신택틱 구조 DS, 92) 세만틱 구조 DS, (3) 신택틱-세만틱 링크, (4) 분석/합성 모델 DS, (5) 시각화 DS, (6) 변형(meta) 정보 DS 및 (7) 매체 정보 DS로 구성된다.
신택틱 DS는 세만틱 객체 및 사건의 면에서 화상 또는 비디오 시퀀스의 세만틱 특징을 규정한다. 그것은 한 세트의 인덱스로서 볼 수 있다. 그것은 (1) 사건 DS, (2) 객체 DS, 및 (3) 사건/객체 관계 그래프 DS로 구성된다. 사건 DS는 세그멘트 DS내의 세스멘트를 위한 세만틱 인덱스 테이블을 정의하는 사건의 트리를 형성하기 위해서 사용될 수 있다. 사건은 주석 DS를 포함한다. 유사하게, 객체 DS는 객체 DS내의 객체를 위한 세만틱 인덱스 테이블을 정의하는 객체의 트리를 형성하기 위해 사용될 수 있다. 사건/객체 관계 그래프 DS는 사건과 객체 중의 포괄적 관계를 규정한다.
신택틱-세만틱 링크는 신택티 요소(세그멘트, 영역, 또는 세그멘트/영역 관계)와 세만틱 요소(사건, 객체 또는 사건/객체 관계) 사이에서 양방향성이다. 분석/합성 모델 DS는 신택틱 구조 DS와 세만틱 구조 DS 사이의 투영/등록/개념적 교신을 규정한다. 매체 및 변형 정보 DS들은 각각 저장 매체 및 저자가 발생시킨 정보의 설명자들을 포함한다. 시각화 DS는 비디오 프로그램의 효율적 시각화를 가능하게 하기 위해 한 세트의 뷰 DS를 포함한다. 그것은 다음의 뷰들, 즉, 다중-해상 공간-주파수 썸네일(thumbnail), 키이-프레임, 하이라이트, 사건, 및 대체 뷰들을 포함한다. 이러한 뷰들은 각각 독립적으로 정의된다.
포괄적 AV DS의 단점
포괄적 AV DS는 컨텐츠 요소(즉, 영역, 객체, 세그멘트 및 사건) 및 관련 특징을 포함한다. 그것은 또한 엔터티-관계 모델의 뒤에 오는 컨텐츠 요소들 중의 포괄적 관계를 설명하기 위해서 엔터티-관계 그래프를 포함한다. 현재의 DS의 단점은 요소들 중의 특징과 관계가 그들의 유용성과 표현력을 감소시키는 넓은 범위의 값을 갖는다는 것이다. 명백한 예는 객체 요소내의 세만틱 주석 특징이다. 세만틱 주석의 값은 포괄적 개념(사람), 특정 개념(존 도우(사람 이름)) 또는 추상적 개념(행복)일 수 있다.
본 발명에 도달하는 개발의 초기 목표는 이러한 단점을 극복하기 위해서 포괄적 AV DS를 위한 명확한 엔터티-관계 구조를 정의하는 것이었다. 명확한 엔터티-관계 구조는 속성 및 관계를 관련 클래스(class)로 분류할 것이다. 이러한 프로세스 동안에, 특히 구체적 예(도 6 내지 도 9에 도시된 야구의 예를 참조)의 발생동안에, 이번에는 DS의 전체 설계와 관련된 현재의 포괄적 AV DS의 다른 단점을 알게 되었다. 이것을 이 섹션에서 설명한다. 이 응용에서, 이러한 문제를 해결하고자 하는 완전한 기본적 엔터티-관계 모델을 제안한다.
포괄적 DS의 전체 규격은 엔터티-관계 모델을 사용하여 설명될 수 있다. 예로서, 도 6의 야구 예를 위한 도 7 내지 도 9에 제공된 엔터티-관계 모델은 포괄적 AV DS의 대부분위 성분들(예로서, 사건 DS, 세그멘트 DS, 객체 DS, 영역 DS, 신택틱-세맨틱 링크 DS, 세그멘트/영역 관계 그래프 DS, 사건/객체 관계 그래프 DS에 의해 언급된 기능 및 그 외의 것을 포함한다.
엔터티-관계(E-R) 모델은 다른 것들 중에서 계층형, 관계형, 또는 객체-지향 모델로서의 실제 실시와 무관한 인기 있는 고수준 개념적 데이터 모델이다. 포괄적 DS의 현재의 버전은 복수의 개념적 및 실시예 데이터 모델들, 즉, 엔터티-관계 모델(예로서, 세그멘트/영역 관계 그래프)과, 계층형 모델(예로서, 영역 DS, 객체 DS, 신택틱-세만틱 링크 DS), 및 객체-지향 모델(예로서, 세그멘트 DS, 시각 세그멘트 DS, 및 음성 세그멘트 DS)의 혼합인 것처럼 보인다.
둘째, 현재의 포괄적 DS 내의 신택틱와 세만틱 사이의 분리는 너무 견고하다. 도 6의 예에서, 현재의 포괄적 AV DS가 제안한 바와 같이 배팅 사건과 배팅 세그멘트(도 7 참조)의 설명을 분리하였다. 그러나, 이 경우에, 두 요소들을 세만틱 및 신택틱 특징을 가진 유일한 배팅 사건로 합병하는 것이 더욱 편리했을 것이다. 비디오 인덱싱에 대하여 작업하는 만은 그룹은 신택틱 구조(컨텐츠의 테이블: 세그멘트와 쇼트(shot))와 세만틱 구조(세만틱 인덱스: 사건)의 분리를 옹호하였다. 그러나, 화상 또는 애니메이트화된 객체를 비디오 시퀀스 내에서 설명함에 있어서, 이러한 구조를 분리하는 값은 덜 분명하다. "실제 객체"는 통상적으로 그들의 세만틱 특징(예로서, 세만틱 클래스-사람, 고양이, 등)과 그들의 신택틱 특징(예로서, 칼러, 텍스쳐, 및 운동)에 의해 설명된다. 현재의 포괄적 AV DS는 영역 및 객체 DS들 내의 "실제 객체"의 정의를 분리하는데, 그것은 설명의 비효율적인 처리를 야기할 수도 있다.
마지막으로, 컨텐츠 요소들, 특히 객체 및 사건은 포괄적 DS 내의 명확하고 통일된 정의가 부족하다. 예로서, 현재의 포괄적 DS는 객체를 어떤 세만틱 의미를 갖고 다른 객체를 포함하는 것으로 정의한다. 객체가 객체 DS 내에서 정의되었지만, 사건/객체 관계 그래프는 객체와 사건 사이의 포괄적 관계를 설명할 수 있다. 더욱이, 객체는 신택틱-세만틱 링크 DS에 의해 신택틱 DS 내의 대응 영역에 링크된다. 따라서, 객체는 덜 분명한 포괄적 시각 DS의 많은 성분에 걸쳐서 분배된 정의를 갖는다. 사건의 정의는 매우 유사하고 모호하다.
포괄적 AV DS를 위한 엔터티-관계 모델
P.P-S, Chen, "엔터티-관계 모델-데이타의 통일된 뷰를 향하여", 데이터베이스 시스템즈의 ACM 트랜잭션즈, Vol.1, No.1, 페이지 9-36, 1976년 3월에 처음으로 제공된 엔터티-관계(E-R) 모델은 데이터를 엔터티와 그들의 관계의 면에서 설명한다. 엔터티와 관계는 둘 다 속성에 의해 설명될 수 있다. 엔터티-관계 모델의 기본적 성분은 도 1에 도시되었다. 엔터티, 엔터티 속성, 관계, 관계 속성은 일반적인 데이터를 설명하기 위한 기본적 성분인 명사(예로서, 소년, 사과), 형용사(예로서, 어린), 동사(예로서, 먹다), 및 동사 보충어(예로서, 천천히)에 매우 가까이 대응된다. 비디오 쇼트(shot)의 설명일 수 있는 "어린 소년이 천천히 사과를 먹는다"는 도 2에서 엔터티-관계 모델을 사용하여 표시된다. 이 모델링 기법은 화상 검색을 위한 화상의 컨텐츠과 그들의 특징을 모델링하는 데에 사용되었다.
이 섹션에서, 앞에서 논의된 단점을 극복하기 위해서 현재의 포괄적 AV DS를 위한 기본적 엔터티-관계 모델을 제안한다. 기본적 엔터티-관계 모델들은 (1) 컨텐츠 요소의 속성, (2) 컨텐츠 요소 사이의 관계 및 컨텐츠 요소 자체를 인덱싱한다. 이러한 모델은 도 5에 도시되었다. 이 제안은 인터넷 이미징 2000에 제출된 에이. 제임스 및 에스.-에프. 창, "다중 레벨에서 시각 정보를 인덱싱하기 위한 개념적 프레임워크"에 제시된 시각 정보를 인덱싱하기 위한 개념적 프레임워크 상에서 형성된다.
본 발명의 한 목적은 포괄적 멀티미디어 정보를 위한 컨텐츠 설명 방법을 제공하는 것이다.
본 발명의 다른 목적은 표준 멀티미디어 컨텐츠 설명 방법을 실시하기 위한 기법을 제공하는 것이다.
본 발명의 또다른 목적은 사용자가 멀티미디어 컨텐츠를 찾기 위해서 인터넷 또는 지역적 또는 국부적 네트워크 상에서 강화된 컨텐츠-감지(content-sensitive) 포괄적 탐색을 수행하는 것을 허용하는 장치를 제공하는 것이다.
본 발명의 또다른 목적은 포괄적 특징 또는 세만틱 관계에 기초하여 멀티미디어 정보에 매립된 컨텐츠를 포착하기 위한 시스템 및 기법을 제공하는 것이다.
본 발명의 또다른 목적은 엔터티 속성의 구별에 기초하여 멀티미디어 정보 내에 매립된 컨텐츠를 신택틱 및 세만틱으로 조직하기 위한 기법을 제공하는 것이다. 신택틱 속성은 다른 레벨들, 즉, 형태/기술, 전체 분배, 국부적 구조 및 전체 합성(composition)으로 분류될 수 있다. 세만틱 속성은 다른 레벨들, 즉, 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체, 및 추상적 장면으로 분류될 수 있다.
본 발명의 또다른 목적은 엔터티 관계를 신택틱 및 세만틱 카테고리로 분류하는 것이다. 신택틱 관계는 공간적, 시간적 및 음성 카테고리로 분류될 수 있다. 세만틱 관계는 어휘적(lexical) 및 서술적(predicative) 카테고리들로 분류될 수 있다. 공간적 및 시간적 관계들은 지형적 또는 방향적일 수 있고, 음성 관계는 전체, 국부적 또는 합성일 수 있으며, 어휘 관계는 동의어, 반대어, 하이포니미(hyponymy)/하이퍼니미(hypernymy), 또는 메로니미(meronymy)/홀로니미(holonymy)일 수 있다.
본 발명의 또다른 목적은 각각의 레벨 및 엔터티 관계를 비디오 및 음성 신호 분류의 면에서 설명하는 것이다.
본 발명의 또다른 목적은 컨텐츠 요소 속성, 컨텐츠 요소들 사이의 관계, 및 컨텐츠 요소 자체를 인덱싱함으로써 이러한 문제를 극복하기 위한 기본적 및 명확한 엔터티-관계 모델을 제공하는 것이다.
이 연구는 포괄적 AV DS를 위해서 채용되고 확장되었으며, 인터넷 이미징 2000에 제출된 에이. 제임스 및 에스.-에프. 창의 "다중 레벨에서 시각 정보를 인덱싱하기 위한 개념적 프레임워크"에 제시된 시각 정보를 인덱싱하기 위한 개념적 프레임워크에 기초한다. 다른 참조문헌들(예로서, 에스. 팩, 에이. 비. 베니테즈, 에스.-에프. 창, 씨.-에스. 리, 제이. 알. 스미쓰, 엘. 디. 버그만, 에이. 퓨리, 씨. 스웨인, 및 제이. 오스터만에 의한 "MPEG-7 화상 설명 방법을 위한 제안", ISO/IEC JTC1/SC29/WG11 MPEG99/P480에의 제안, 랭카스터, 영국, 1999년 2월) 내의 연구는 관련되는데, 왜냐하면, 그것은 컨텐츠 요소(객체)의 설명과 컨텐츠 요소(엔터티-관계 그래프 및 계층, 엔터티-관계 그래프의 특정한 경우를 가진) 사이의 관계의 규격을 분리하기 때문이다. 그렇게 함으로써, 그것은 E-R 모델을 명확하게 규정한다.
시각 정보를 인덱싱하기 위한 다중 레벨의 설명의 문제에 중점을 둔다. 인지 심리학(cognitive psychology), 도서관 과학, 예술 및 더욱 최근의 컨텐츠-베이스 검색과 같은 다양한 분야에서의 문헌으로부터의 개념을 통일하는 신규한 개념적 프레임워크를 제공한다. 시각과 비시각 사이의 구별을 하고, 적절한 구조를 제공한다. 제시된 10-레벨 시각 구조는 신택틱(예로서, 색깔, 텍스트, 등)와 세만틱(예로서, 객체, 사건, 등)에 기초하여 화상을 인덱싱하는 체계적 방법을 제공하고, 일반적 개념과 시각 개념 사이의 구별을 포함한다. 시각 구조의 다른 레벨에서 다른 형태의 관계(예로서, 신택틱, 세만틱)를 정의하고, 또한 화상(예로서, 비시각 구조에 나타나는)에 관련된 중요한 특징을 요약하기 위해서 세만틱 정보 테이블을 사용한다.
본 발명의 구조는 종래 기법의 컨텐츠-베이스 검색 설명을 전체적으로 이해하고, 그것들을 실제 사용자-필요성 및 다른 분야에서의 연구와 관련시킨다. 제시된 구조와 같은 구조를 사용하면, 사용자와 그들의 관심을 이해하는 면에서만 이로운 것이 아니라, 시각 정보에 액세스하는 데에 사용된 설명의 레벨에 따라서 컨텐츠-베이스 검색 문제를 특징짓는 데에도 이롭다.
본 발명은 인터넷 이미징 2000에 제출된 에이. 제임스 및 에스.-에프. 창의 "다중 레벨에서 시각 정보를 인덱싱하기 위한 개념적 프레임워크"에 제시된 10 레벨 개념적 구조에 기초하여 컨텐츠 요소의 속성을 인덱싱하는 것을 제안하는데, 그것은 도 3에 도시된 바와 같이 신택틱(예로서, 색깔 및 텍스쳐)와 세만틱(예로서, 세만틱 주석)에 기초하여 속성을 구별한다. 시각 구조의 처음 4개의 레벨은 신택틱을 참조하고, 나머지 6개의 레벨은 세만틱을 참조한다. 신택틱 레벨은 형태/기술, 전체 분배, 국부적 구조, 및 전체 합성이다. 세만틱 레벨은 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체 및 추상적 장면이다.
또한, 포괄적 AV DS의 엔터티-관계 그래프 내의 컨텐츠 요소 사이의 관계의 명확한 형태를 제안한다. 도 4에 도시된 바와 같이 신택틱와 세만틱 관계들 사이를 구별한다. 신택틱 관계는 공간, 시간 및 시각로 분할된다 공간 및 시간 속성은 지형적 및 방향성 클래스로 분류된다. 신택틱-속성 관계는 전체, 국부적, 및 합성으로 더욱 인덱싱될 수 있다. 세만틱 관계는 어휘 및 서술어로 분할된다. 어휘 관계는 동의어, 반대어, 하이포니미/하이퍼니미, 및 메로니미/홀로니미로 분류된다. 서술어 관계는 동작과 사건로 더욱 인덱싱될 수 있다.
컨텐츠 요소의 형태의 면에서, 컨텐츠 요소를 신택틱 및 세만틱 요소들로 분류하는 것을 제안한다. 신택틱 요소는 영역, 애니메이션화된-영역, 및 세그멘트 요소로 분할되고, 세만틱 요소는 객체, 애니메이션화된-객체, 및 사건 요소로 인덱싱될 수 있다. 이러한 요소들의 속성 및 다른 요소들과의 관계의 면에서 상기 제안된 기본적 모델에서 제시된 이러한 요소들의 명확하고 통일된 정의를 제공한다.
본 명세서에 합체되고 부분을 구성하는 첨부된 도면들은 본 발며의 양호한 실시예를 설명하고 본 발명의 원리를 설명하는 작용을 한다.
도 1은 포괄적 엔터티-관계(E-R) 모델이다.
도 2는 시나리오 "어린 소년이 4 분내에 사과를 먹는다."를 위한 엔터티-관계 모델의 예를 제공한다.
도 3은 피라미드에 의해 인덱싱 시각 구조를 나타낸다.
도 4는 시각 구조의 서로 다른 여러 가지 레벨에서 제안된 관계를 도시한다.
도 5는 컨텐츠 요소의 각각의 제안된 형태의 기본적 모델을 설정한다.
도 6은 야구 배팅 사건 화상을 사진으로 디스플레이한다.
도 7은 도 6에 도시된 야구 배팅 사건 화상을 위한 배팅 사건의 개념적 설명이다.
도 8은 도 6의 배팅 사건을 위한 치기 및 던지기 사건의 개념적 설명이다.
도 9는 도 6의 배팅 사건을 위한 필드 객체의 개념적 설명이다.
도 10은 비시각 정보의 분석을 개념적으로 나타낸다.
도 11은 화상 또는 그것의 부분들을 특징짓기 위해서 어떻게 시각 및 비시각 정보가 세만틱하게 사용될 수 있는지를 설명한다.
도 12는 음성 구조의 다른 레벨에서의 관계들을 설명한다. 신택틱 레벨 내의 요소는 신택틱 관계에 따라 관련된다. 세만틱 레벨 내의 요소는 신택틱 및 세만틱 관계에 따라 관련된다.
엔터티-관계 모델이 가장 널리 사용되는 개념적 모델이므로 본 명세서에서 사용된 모델링 기법을 선택하였다. 그 모델링 설명은 높은 정도의 추상화를 제공하며 하드웨어 및 소프트웨어에 무관하다. 이러한 모델을 실시를 위해서 물리적 모델로 변환하는 특정한 과정이 있는데, 그것은 하드웨어 및 소프트웨어에 의존한다. 물리적 모델의 예는 계층형 모델, 관계형 모델 및 객체-지향 모델이다. MPEG-7의 문맥 내의 E-R 개념적 프레임워크는 제이. 알. 스미스 및 씨.-에스. 리, "MPEG-7을 위한 E-R 개념적 모델링 프레임워크", ISO/IEC JTC1/SC29/WG11 MPEG99에의 기고, 뱅쿠버, 카나다, 1999년 7월에서 논의되었다.
도 5에 도시된 바와 같이, 속성(또는 MPEG-7 설명자), 관계, 및 컨텐츠 요소를 위한 신택틱 및 세만틱 사이의 구별을 하였다. 신택틱은 컨텐츠 요소가 배열의 의미를 고려하지 않고 배열되는 방법과 관련된다. 반면, 세만틱은 그러한 요소와 그들의 배열의 의미를 다룬다. 이 섹션의 나머지에서 논의되듯이, 신택틱 및 세만틱 속성은 여러 가지 레벨과 관련된다(신택틱 레벨은 형태, 전체 분배, 국부적 구조, 및 전체 합성이고, 세만틱 레벨은 포괄적 객체/장면, 특정 객체/장면, 및 추상적 객체/장면인데, 도 3을 참조하기 바란다). 유사하게, 신택틱 및 세만틱 관계는 다른 레벨들과 관련되는 서브-형태으로 더욱 분할될 수 있다(신택틱 관계는 포괄적 및 특정 레벨에서 공간, 시간 및 시각 관계로 분류되고, 세만틱 관계는 어휘 및 서술어로 분류되는데, 도 4를 참조하기 바란다). 속성의 관련된 형태 및 다른 요소와의 관계에 기초하여 신택틱 및 세만틱 요소의 간결하고 명확한 정의를 제공한다. 그러나, 포괄적 AV DS와의 중요한 차이는 본 발명의 세만틱 요소는 세만틱 속성만 포함하는 것이 아니라 신택틱 속성도 포함한다는 것이다. 따라서, 응용이 신택틱와 세만틱 요소 사이의 구별을 하지 않는다면, 그것은 모든 요소를 세만틱 요소로서 실현함으로써 그렇게 할 수 있다.
기본적 엔터티-관계 모델의 설명을 명확하게 하기 위해서, 도 6 내지 도9의 예를 사용할 것이다. 도 6은 배팅 사건과 배팅 세그멘트(포괄적 AV DS에서 정의된 세그멘트와 사건)로서 나타내는 야구 게임의 비디오 쇼를 도시한다. 도 7은 필드 객체, 타격 사건, 던지기 사건, 던지기와 타격 사건 사이의 시간적 관계 "전(before)", 및 어떤 시각 속성으로 구성된 배팅 사건의 가능한 설명을 포함한다. 도 8은 던지기와 타격 사건과 그들 사이의 관계의 설명을 나타낸다. 던지기 사건은 피처 객체가 타자 객체로 향해서 볼 객체에 대하여 실행하는 동작으로서 "던지기"이다. 피처 객체를 위한 어떤 세만틱 속성을 제공한다. 타격 사건은 타자 객체가 동일한 볼 객체에 대하여 실행하는 동작으로서 "타격"이다. 도 9는 필드 객체를 3개의 다른 영역으로 분해하는 것을 도시하는데, 그 중의 하나는 공간 관계 "...의 위에"에 의해 피처 객체와 관련된다. 이러한 영역들 중의 하나를 위한 어떤 시각 속성이 제공된다.
속성의 형태
화상 및 비디오 설명에서 시각 컨텐츠 요소(예로서, 영역, 전체 화상, 및 사건)를 인덱싱하는 10-레벨 개념적 구조를 제안한다. 이 구조는 실제 화상 또는 비디오 시퀀스(예로서, 페인팅의 가격은 시각 컨텐츠의 부분이 아닐 것이다) 내에 명확하게 도시된 정보에 대해서만 유효하다.
제안된 시각 구조는 10개의 레벨을 포함하는데, 처음 4개는 신택틱와 관련되고, 나머지 6개는 세만틱와 관련된다. 시각 구조의 개요는 도 3에 주어졌다. 피라미드에서 레벨이 낮을수록, 인덱싱의 수행을 위해서 더욱 많은 지식과 정보가 요구된다. 각각의 레벨의 폭은 거기에서 요구되는 지식의 양의 지표이다. 속성의 인덱싱 코스트는 속성의 서브-속성으로서 포함될 수 있다. 신택틱 레벨은 형태/기법, 전체 분배, 국부적 구조 및 전체 합성이다. 세만틱 레벨은 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체 및 추상적 장면이다. 이러한 분할 중의 어떤 것은 엄격하지 않을 수 있으나, 그 분할들은 고려되어야 하는데, 왜냐하면 그것들은 사용자가 데이터베이스 내에서 어떤 것을 탐색하고 그것을 어떻게 찾고자 하는가 하는 것을 이해하는 데에 직접적인 영향을 갖기 때문이다. 그것들은 또한 요구되는 지식의 면에서 다른 인덱싱 기법(수동 및 자동)의 제한을 강조한다
도 3에서, 인덱싱 시각 구조는 피라미드에 의해 표시된다. 피라미드에서 레벨이 낮을수록 그 레벨에서 인덱싱을 수행하기 위해 더욱 많은 지식 및 정보가 요구된다. 각각의 레벨의 폭은 요구되는 지식의 양의 지표인데, 예로서, 동일한 장면에서 특정 객체를 명명하기 위해서 더욱 많은 정보가 필요하다.
도 5에서, 신택틱 속성(신택틱 D)은 열거된 속성, 레벨 또는 "규정되지 않음"을 포함하는데, 레벨의 값은 시각 구조(도 3) 내의 대응하는 신택틱 레벨이며, 즉, 형태, 전체 분배, 국부적 구조 또는 전체 합성이다. 세만틱 속성 역시 열거된 속성, 레벨 또는 "규정되지 않음"을 포함하는데, 레벨의 값은 세만틱 구조(도 3) 내의 대응 세만틱 레벨이며, 즉, 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체 및 추상적 장면이다. 다른 형태의 신택틱 및 세만틱 속성을 모델링하는 다른 가능성은 신택틱 및 세만틱 속성 요소를 서브-분류하여, 각각 형태, 전체 분배, 국부적 구조 및 전체 합성 신택틱 속성들, 또는 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상적 객체 및 추상적 장면 속성들(이러한 형태들 중의 어떤 것은 모든 오브제트, 애니메이션화된 객체, 및 사건에 적용되지 않는다)을 발생시키는 것일 것이다.
시각 구조의 각각의 레벨이 아래에 설명된다. 레벨들 사이의 관계의 논의는 그 후에 나타난다. 이러한 시각 구조 및 레벨들 사이의 관계에 기초하여, 다음의 섹션에서 컨텐츠 요소의 형태를 정의한다.
형태/기법
가장 기본적인 레벨에서, 화상 또는 비디오 시퀀스의 일반적인 시각 특징에 관심이 있다. 화상 또는 비디오 시퀀스의 형태 또는 그것을 발생시키는데 사용된 기법의 설명은 매우 일반적이지만, 시각 데이터베이스를 조직할 때에 큰 중요성을 갖는 것으로 판명되었다. 화상은 예로서 페인팅, 블랙 앤드 화이트(black and white)(b&w), 색깔 사진 및 도면 등과 같은 카테고리 내에 위치될 수도 있다. 이 레벨에서 관련된 분류 방법은 WebSEEK에서 자동적으로 수행되었다. 도6의 예의 형태는 색깔 비디오 시퀀스이다.
전체 분배
앞의 레벨 내의 형태/기법은 화상 또는 비디오 시퀀스의 시각 특징에 관한 일반적인 정보를 주지만, 시각 컨텐츠에 관해서는 거의 정보를 주지 않는다. 전체 분배는 그들의 전체 분배에 기초하여 화상 또는 비디오 시퀀스를 분류하는 것을 목표로 하며, 스펙트럼 감도(색깔) 및 주파수 감도(텍스쳐)와 같은 저수준의 지각적 특징의 면에서 측정된다. 컨텐츠의 개별적 성분은 이 레벨에서 처리되지 않았으며(즉, 측정이 전체하게 취해진다는 점에서 이러한 분배에 대해서 아무런 "형태"도 주어지지 않는다), 따라서, 전체 분배 특징은 전체 색깔(예로서, 주요 색깔, 평균, 히스토그램), 전체 텍스쳐(예로서, 조악함, 방향, 콘트라스트), 전체 형상(예로서, 애스펙트비), 전체 운동(예로서, 속도 및 가속도), 카메라 운동, 전체 변형(예로서, 증가하는 속도) 및 시간/공간 크기(예로서, 공간 영역 및 시간 크기)를 포함할 수 있다. 도 6의 배팅 세그멘트를 위해서, 전체 분배 속성인 색깔 히스토그램과 시간 지속시간이 규정된다(도 7 참조).
이러한 측정들 중의 어떤 것은 인간 관찰자를 위해서 정량화하기 어렵지만, 이러한 전체 저수준 특징은 브라우징을 위한 데이터베이스의 컨텐츠를 조직하고 예를 사용하여 질문을 수행하기 위해 여러 가지 컨텐츠-베이스 검색 시스템에서 성공적으로 사용되었다.
국부적 구조
화상 또는 비디오 시퀀스의 정보를 처리함에 있어서, 다른 레벨등의 그룹핑을 수행한다. 화상 또는 비디오 시퀀스의 개별적 부분에 관한 어떠한 정보도 제공하지 않는 전체 구조와 대조적으로, 국부적 구조 레벨은 성분들의 추출 및 특징화에 관련된다. 가장 기본적인 레벨에서, 그러한 성분들은 저수준 처리로부터 발생되며, 도트, 선, 톤, 색깔 및 텍스쳐와 같은 요소들을 포함한다. 예로서, 2진 형상 마스크는 도 6 내의 배팅 세그멘트를 설명한다(도 7 참조). 국부적 구조 속성의 다른 예들은 시간/공간 위치(예로서, 시작 시간 및 중심), 국부적 색깔(예로서, MxN 레이아웃), 국부적 운동, 국부적 변형, 국부적 형상/2D 기하학적 형상(예로서, 경계 박스)이다.
그러한 요소들은 또한 주로 시각 탐색(VisualSEEK)와 같은 사용자-스케치 인터페이스에 의한 질문시에 컨텐츠-베이스 검색 시스템에 사용되었다. 여기에서의 관심은 객체에 대한 것이 아니고, 오히려 객체를 표시하는 기본적 요소들과 관련되고, 또한 그러한 요소들의 조합-예로서 사각형은 4개의 선들로 형성된다-과 관련된다.
전체 합성
이 레벨에서, 특정한 배열, 또는 국부적 구조에 의해 주어진 기본적 요소들의 합성에 중점을 둔다. 다시 말해서, 화상을 전체로서 분석하지만, 분석을 위해서 앞의 레벨에서 설명된 기본적 요소들(예로서, 선과 원)만 사용한다. 전체 합성은 배열 또는 화상 내의 요소들의 공간 레이아웃에 관련된다. 종래설명에서의 전통적인 분석은 균형, 대칭, 관심의 중심(주목의 중심 또는 초점), 지시선(leading line) 및 뷰잉 각도와 같은 합성 개념을 설명한다. 그러나, 이 레벨에서, 특정한 객체들의 지식은 없으며, 단지 기본적 요소들(예로서, 도트, 선 및 원) 또는 기본적 요소들의 그룹만 고려된다. 도 6의 모래 1 영역의 2D 기하학적 형상은 전체 합성 속성이다(도 9 참조).
포괄적 객체
앞의 레벨까지에서, 인덱싱을 수행하기 위해서 어떤 세계적 지식도 요구되지 않으며, 따라서 이러한 레벨들에서 관련 정보를 추출하는 데에 자동적 기법이 사용될 수 있다. 그러나, 여러 가지 연구는 인간은 시각 물질을 설명하고, 분류하며 탐색하는 데에 고수준 속성을 주로 사용한다는 것을 입증하였다. 그러한 연구에는 씨. 요르겐센, "타스크를 설명함에 있어서의 화상 속성들: 연구", 정보 프로세싱 및 관리, 34, (3/2) 페이지 161-174, 1998년과, 씨. 요르겐센, "검색불가능한 것의 검색: 화상 검색 시스템에서의 예술, 심미학 및 감정", 인간적 비전 및 전자식 이미징의 SPIE 회의, IS&T/SPIE99, 볼륨 3644, 산 호세, 캘리포니아, 1999년 1월이 포함된다. 객체가 특별한 관심이지만, 그것들은 또한 다른 레벨들에서 카테고리 내에 위치될 수 있는데-사과는 매킨토시 애플, 사과, 또는 과일로서 분류될 수 있다. 포괄적 객체를 참조할 때, 기본적 레벨 카테고리에 관심이 있는데, 즉, 일상적 지식으로 인식될 수 있는 객체 설명의 가장 일반적인 레벨에 관심이 있다. 도 6의 피처 객체를 위해서, 포괄적 객체 속성은 주석 "사람"일 수 있다(도 8 참조).
포괄적 장면
화상 또는 비디오 시퀀스가 그것에 나타나는 개별적 객체에 따라 인덱싱될 수 있듯이, 시각 물질을 그것이 포함하는 모든 객체의 세트와 그들의 배열에 기초하여 전체로서 인덱싱할 수 있다. 장면 클래스의 예는 도시, 풍경, 옥내, 옥외, 정적인 생활 및 초상화를 포함한다. 이 레벨을 위한 가이드라인은 단지 일반적인 지식만이 요구된다는 것이다. 도시 장면이라는 것을 결정하기 위해서 특정 거리 또는 건물 명칭을 알 필요는 없으며, 또한 화상이 초상화라는 것을 알기 위해서 개인의 이름을 알 필요는 없다. 도 6의 배팅 사건을 위해서, 값 "배팅"을 가진 포괄적 장면 속성이 규정되었다(도 7 참조).
특정 객체
앞의 레벨과 대조적으로, 특정 객체는 식별되고 명명된 객체와 관련된다. 화상 또는 비디오 시퀀스 내의 객체의 특정 지식이 요구되고, 그러한 지식은 알려진 사실에 의존하기 때문에 통상적으로 객관적이다. 예는 개별적 사람(예로서, 도 6의 세만틱 주석 "피터 누구인가, 양키스의 플레이어 #3") 또는 객체(예로서, 스타디움 명칭)를 포함한다.
특정 장면
이 레벨은 포괄적 장면과 유사하며, 차이점은 여기에서 장면에 관한 특정한 지식이 있다는 것이다. 시각 물질 내에 다른 객체들이 도시된 특정한 장면을 결정하기 위해서 다른 방법으로 기여하지만, 어떤 때에는 단일 객체가 충분하다. 예로서, 백악관을 명확하게 도시하는 화상은 그 객체에만 기초하여 백악관의 장면으로서 분류될 수 있다. 도 7의 배팅 사건을 위해서, "양키스의 플레이어 #32에 의한 타격"이라는 값을 가진 특정 장면 속성이 규정되었다.
추상적 객체
이 레벨에서, 객체가 무엇을 나타내는가에 관한 전문 지식이 사용된다. 이 인덱싱 레벨은 그것이 완전히 주관적이고 또한 다른 사용자들 사이의 평가가 크게 다를 수 있다는 점에서 가장 어려운 것이다. 이 레벨의 중요성은 뷰어들이 화상을 설명하기 위해서 추상적인 속성을 사용한 실험에서 보여졌다. 예로서, 화상 내의 여자는 한 관찰자에게는 분노로서 나타날 수 있고 다른 관찰자에게는 수심에 찬 것으로 나타날 수 있다. 도 8의 피처 객체를 위해서, 값 "속도"를 가진 추상적 장면 속성이 규정되었다.
추상적 장면
추상적 장면 레벨은 화상이 전체적으로 무엇을 나타내는가 하는 것에 관련된다. 그것은 매우 주관적일 수 있다. 사용자들은 때때로 화상을 객체에 대하여 슬픔, 행복, 힘 및 천국과 같은 추상적 면에서 설명한다. 도 7의 배팅 사건을 위해서, 값 "양호한 전략"을 가진 추상적 장면 속성이 규정된다.
관계의 형태
이 섹션에서, 포괄적 AV DS내에 포함되기를 제안한 컨텐츠 요소들 사이의 관계들의 명확한 형태들들 제시한다. 도 4에 도시되었듯이, 관계들은 앞에서 제시한 시각 구조의 다른 레벨에서 정의되었다. 컨텐츠 요소들 사이의 관계를 나타내기 위해서, 시각 구조에서 신택틱 및 세만틱로 분할하는 것을 고려한다. 제안된 관계의 형태들 사이의 한계들 중의 어떤 것은 아래에서 논의된 시각 구조의 레벨에 대하여 견고하지 않다.
시각 구조의 신택틱 레벨에서의 관계는 2D 공간에서만 발생할 수 있는데, 왜냐하면 3D 관계를 결정할 이 레벨에서의 객체의 지식이 없기 때문이다. 신택틱 레벨에서, 신택틱 관게들, 즉, 공간(예로서, "...의 다음"), 시간(예로서, "평행으로") 및 시각(예로서, "...보다 어두운") 관계만이 있을 수 있다. 공간 및 시간 속성들은 지형학적 및 방향적 클래스로 분류된다. 시각 관계는 전체, 국부적 및 합성으로 더욱 인덱싱될 수 있다.
시각 구조의 세만틱 레벨에서, 컨텐츠 요소들 사이의 관계는 3D 내에서 발생될 수 있다. 도 4에 도시된 바와 같이, 이러한 레벨들 내의 요소들은 세만틱 관계들만이 아니라 신택틱 관계들(예로서, "한 사람이 다른 사람의 다음에 있다" 및 "한 사람이 다른 사람의 친구이다")과 관련될 수 있다. 세만틱 관계들의 두가지 다른 형태 사이를 구별하는데, 즉, 동의어, 반대어, 하이포니미/하이퍼니미 및 메로니미/홀로니미와 같은 어휘 관계와, 동작(사건) 또는 상태와 관련되는 서술적 관계이다.
도 4에서, 관계들은 시각 구조의 다른 레벨들에서 제안되었다. 신택티 레벨들 내의 요소들은 한 형태의 관계인 신택틱 관계에 따라 관련된다. 세만틱 레벨 내의 요소들은 두가지 형태의 관계들인 신택틱 및 세만틱 관계들에 따라 관련된다.
아래의 섹션에서의 예를 사용하여 신택틱 및 세만틱 관계들을 더욱 광범위하게 설명한다. 표 1 및 표 2는 예들을 포함하여 관계들을 위한 인덱싱 구조를 요약한다.
신택틱 관계
신택틱 관계들을 3개의 클래스, 즉, 공간, 시간 및 시각로 분할한다. 어떤 사람은 공간 및 시간 관계들은 단지 시각 관계의 특수한 경우이라고 이의를 제기할 수 있다. 여기에서는 공간 및 시간 관계를 특수한 방법으로 정의한다. 이러한 관계를 위해서, 요소들을 각각 크기 또는 지속시간에 관한 정보를 갖지 않는 공간 또는 시간 내의 경계로서 고려한다. 신택틱 관계들의 제안된 형태와 예들의 요약을 위해서 표 1을 참조하기 바란다.
디. 헤르난데스, "공간 지식의 정성적 표시", 인공 지능에 관한 강의 노트, 804, 스프링거-페르라하, 베를린, 1994의 연구에 따라서, 공간 관계를 다음의 클래스들, (1) 지형학적, 즉, 요소들의 경계들이 어떻게 관계되는가, 및 (2) 방향적, 즉, 요소들이 서로에 대하여 어디에 위치되는가 하는 클래스로 분할한다(표 1 참조). 지형학적 관계들의 예는 "...에 가깝다", "...내에 있다", "...에 인접한다"이고, 방향적 관계들의 예는 "...의 앞에", "...의 왼쪽에" 및 "...의 상부에"이다. 잘알려진 공간 관계 그래프는 2D 스티링, R2 및 속성화된-관계 그래프(attributed-relational graph)이다.
유사한 방법으로, 시간 관계를 지형학적 및 방향적 클래스로 분류한다(표 1 참조). 시간적 지형학적 관계의 예는 "병렬로 발생하기", "중복되기", 및 "...내에 발생하기"이고, 방향적 시간적 관계의 예는 "전에 발생하기", 및 "후에 발생하기"이다. SMIL(월드 와이드 웹 콘소시엄, SMIL 웹사이트 ;//www.w3.org/AudioVidio/#SMIL)의 병렬 및 순차적 관계는 시간적 지형학적 관계의 예이다.
시각 관계는 요소들의 시각 속성 및 특징에 기초하여 요소들을 관련시킨다. 이러한 관계는 전체, 국부적, 및 합성으로 인덱싱될 수 있다(표 1 참조). 예로서, 시각 전체 관계는 "...보다 유연하기"(전체 텍스쳐에 기초하여)일 수 있고, 시각 국부적 관계는 "더욱 빠르게 가속하기"(운동 특징에 기초하여)일 수 있고, 시각 합성 관계는 "더욱 대칭적이기"(2D 기하학적 특징에 기초하여)일 수 있다. 시각 관계는 시각 특징들 즉 색깔, 텍스쳐, 2D 기하학적 형상, 시간, 운동, 변형, 및 카메라 운동의 어떠한 조합에도 기초하여 비디오 쇼트/키이 프레임을 클러스터링하는 데에 사용될 수 있다.
표 1: 신택틱을 위한 인덱싱 구조 및 예
Figure 112002000149088-pct00001
시각 구조의 요소들이 다른 레벨들(포괄적, 특정한, 및 추상적)을 갖는 유사한 방법으로, 이러한 형태의 신택틱 관계들(표 1 참조)은 포괄적 레벨(가까운) 또는 특정한 레벨(...로부터 0.5 피트)로 정의될 수 있다. 예로서, "...의 연합이기", "...의 교차점이기" 및 "...의 부정이기"와 같은 동작적 관계는 지형적, 특정한 관계들 공간적 또는 시간적(표 1 참조)이다.
야구 게임 예를 계속하면, 도 7은 배팅 사건이 어떻게 구성 요소들(즉, 배팅 세그멘트, 필드 객체, 타격 사건, 및 던지기 사건), 및 그들 사이의 관계(즉, 타격 사건로부터 던지기 사건로의 시간적 관계 "전에")에 의해 정의되는가 하는 것을 도시한다. 배팅 사건과 그 구성 요소들은 공간적-시간적 관계인 "...으로 구성된"에 의해 관련된다.
세만틱 관계
세만틱 관계는 10-레벨 개념적 구조의 세만틱 레벨에서의 컨텐츠 요소들 사이에서만 발생할 수 있다. 세만틱 관계를 어휘적 세만틱 및 서수적 관계로 분할한다. 표 2는 예를 포함하여 세만틱 관계를 요약한다.
표 2 : 세만틱을 위한 인덱싱 구조 및 예
Figure 112002000149088-pct00002
어휘적 세만틱 관계는 WordNet 내에 사용된 명사들 사이의 세만틱 관계에 대응된다. 이러한 관계는 동의어(관은 튜브와 유사하다), 반대어(행복은 슬픔의 반대이다), 하이포니미(개는 동물이다), 하이퍼니미(동물 및 개), 메로니미(음악인은 음악 밴드의 멤버이다), 및 홀로니미(음악 밴드는 음악인들로 구성된다)이다.
서술적 세만틱 속성은 둘 이상의 요소들 사이의 동작 또는 상태에 관련된다. 동작 관계의 예는 "던지기" 및 "타격하기"이다. 상태 관계의 예는 "속하기", "소유하기"이다. 도 8은 2개의 동작 관계 즉 "던지기" 및 "타격하기"를 포함한다. 서술적 세만틱을 동작 또는 상태로만 분할하는 대신에, WordNet 내에 사용된 부분적 관계 세만틱 분해를 사용할 수 있다. WordNet은 동사를 15개의 세만틱 도메인(domain), 즉, 육체적 간호 및 기능들의 동사, 변화, 인식, 통신, 경쟁, 소비, 접촉, 창보, 감정, 운동, 인지, 소유, 사회적 상호작용, 및 기후적 동사를 사용할 수 있다. 시각 개념의 설명과 관련되는 그러한 도메인만이 사용될 수 있다. 본 명세서에 제시된 10-레벨 시각 구조에 대하여, 다른 레벨 즉, 포괄적, 특정 및 추상적에서 세만틱 관계를 정의할 수 있다. 예로서, 포괄적 동작 관계는 "주식을 소유하기"이고, 특정 동작 관계는 "주식의 80%를 소유하기"이며, 마지막으로, 추상적 세만틱 관계는 "회사를 조정하기"이다.
도 6의 던지기 및 타격 사건을 위해서, 도 8은 2개의 객체의 동작을 설명하기 위해서 세만틱 관계의 사용을 도시하는데, 피처 객체가 배터 객체에서 볼 객체를 "던진다"와 배터 객체가 볼 객체를 "타격한다"이다.
엔터티의 형태
지금까지, 명확한 형태의 속성 및 컨텐츠 요소들 사이의 관계들을 제안하였다. 이 섹션에서, 새로운 형태의 컨텐츠 요소들(기본적 E-R 모델의 엔터티)을 제안하고, 각각의 컨텐츠-요소 형태의 명확하고 통일된 정의를 제공한다.
컨텐츠 요소의 형태를 (1) 그들을 설명하는 속성과 (2) 그들을 다른 컨텐츠 요소들과 관련시키는 관계에 기초하여 정의한다. 앞에서, 컨텐츠 요소의 시각 속성을 10-레벨 시각 구조에서 인덱스한다. 피라미드의 첫번째 4개의 레벨은 신택틱에 대응되고, 다른 6개의 레벨은 세만틱에 대응된다. 또한, 관계를 2개의 클래스 즉 신택틱 및 세만틱으로 분할한다. 따라서, 컨텐츠 요소의 2개의 기본적 형태 즉 신택틱 및 세만틱 요소들을 제안한다(도 5 참조). 신택틱 요소는 단지 신택틱 속성 및 관계(예로서, 색깔 히스토그램 속성 및 공간 관계 "...의 위에")만 가질 수 있고, 세만틱 요소는 세만틱 속성 및 관계만이 아니라 신택틱 속성 및 관계(객체는 색깔 히스토그램 및 세만틱 주석 설명자에 의해 설명될 수 있다)도 가질 수 있다. 본 발명의 방법은, 본 발명의 세만틱(또는 고수준) 요소가 신택틱 및 세만틱 구조의 견고한 분리를 해결하는 신택틱 및 세만틱 정보를 포함한다는 점에서, 현재의 포괄적 AV DS와 다르다.
도 5에 도시되었듯이, 신택틱 요소를 영역, 애니메이트된 영역 및 세그멘트 요소로 더욱 분류한다. 유사한 방법으로, 세만틱 요소는 다음의 세만틱 클래스 즉 객체, 애니메이트된 객체 및 엔터티로 분류된다. 영역 및 객체는 공간 엔터티이다. 세그멘트 및 사건은 시간 엔터티이다. 마지막으로, 애니메이트된 영역 및 애니메이트된 객체는 혼성 공간-시간 엔터티이다. 각각의 형태를 그에 따라 섹션에서 설명한다.
신택틱 엔터티
신택틱 요소는 신택틱 속성, 즉, 형태, 전체 분배, 국부적 구조, 또는 전체 합성 속성(도 5 참조)에 의해서만 설명되는 화상 또는 비디오 데이터 내의 컨텐츠 요소이다. 신택틱 요소는 시각 관계에 의해서만 다른 요소와 관련될 수 있다. 신택틱 요소를 영역, 애니메이트된 영역 및 세그멘트 요소로 더욱 분류한다. 이러한 요소는 상속 관계를 통해서 신택틱 요소로부터 도출된다.
영역 요소는 화상 또는 비디오 프레임의 임의의, 연속적 또는 불연속적 섹션에 관련되는 순수한 공간 엔터티이다. 영역은 한 세트의 신택틱 속성과, 공간 및 시각 관계(도 5 참조)에 의해 관련되는 영역들의 그래프에 의해 정의된다. 합성 관계는 공간적 및 지형적 형태이라는 것을 지적하는 것이 중요하다. 영역의 가능한 속성은 색깔, 텍스쳐 및 2D 기하하적 형상이다.
세그멘트 요소는 비디오 시퀀스의 한 세트의 연속적 또는 불연속적 프레임에 관련되는 순수한 시간 엔터티이다. 세그멘트는 한 세트의 신택틱 특징 및 세그멘트의 그래프, 애니메이트된 영역, 및 시간적 시각 관계에 의해 관련되는 영역에 의해 정의된다. 합성 관계는 형태 시간적 및 지형적이다. 세그멘트의 가능한 속성은 카메라 이동 및 신택틱 특징이다. 예로서, 도 7의 배팅 세그멘트는 시간 지속시간(전체 분배, 신택틱), 및 형상 마스크(국부적 구조, 신택틱) 속성에 의해 설명된 세그멘트 요소이다. 이 세그멘트는 배팅 사건(공간-시간적 관계, 신택틱)와의 관계로 "이루어진다(consist of)"를 갖는다.
애니메이트된 영역 요소는 비디오 시퀀스의 임의의 세트의 프레임의 임의의 섹션에 관련되는 혼성 공간-시간 엔터티이다. 애니메이트된 영역은 한 세트의 신택틱 특징, 애니메이트된 영역의 그래프, 합성에 의해 관련된 영역들, 공간-시간 관계 및 시각 관계에 의해 정의된다(도 5 참조). 애니메이트된 영역은 영역 및 세그멘트 요소로부터의 어떠한 특징도 포함할 수 있다. 애니메이트된 영역은 동시에 세그멘트 및 영역이다. 예로서, 도 8의 피처 영역은 애스펙트비(전체 분배, 신택틱), 형상 마스크(국부적 구조, 신택틱), 대칭성(전체 합성, 신택틱) 속성에 의해 설명된 애니메이트된 영역이다. 이 애니메이트된 영역은 모래 3 영역(공간-시간 관계, 신택틱)의 "위에" 있다.
세만틱 엔터티
세만틱 요소는 세만틱 특징만이 아니라 신택틱 특징에 의해서 설명된 컨텐츠 요소이다. 세만틱 요소는 세만틱 및 시각 관계에 의해 다른 요소와 관련될 수 있다(도 5 참조). 따라서, 상속을 사용하여 신택틱 요소로부터 세만틱 요소를 도출한다. 세만틱 요소를 객체, 애니메이트된 객체 및 사건 요소로 더욱 분류한다. 순수한 세만틱 속성은 통상적으로 텍스트 포맷(예로서, 6-W 세만틱 주석 및 자유 텍스트 주석)인 주석이다.
객체 요소는 세만틱 및 공간 엔터티인데, 그것은 화상의 임의의 섹션 또는 비디오의 프레임에 관련된다, 객체는 한 세트의 신택틱 및 세만틱 특징, 및 객체의 그래프와 공간(합성은 공간 관계이다), 시각 및 세만틱 관계에 의해 관련된 영역들에 의해 정의된다(도 5 참조). 객체는 영역이다. 사건 요소는 세만틱 및 시간 엔터티인데, 그것은 비디오 시퀀스의 임의의 섹션에 관련된다. 사건은 한 세트의 신택틱 및 세만틱 특징, 및 사건, 세그멘트, 애니메이트된 영역, 애니메이트된 객체, 영역, 및 시간(합성은 시간 관계이다), 시각 및 세만틱 관계에 의해 관련된 객체의 그래프에 의해 정의된다. 사건은 세만틱 속성 및 관계를 가진 세그멘트이다. 예로서, 도 7의 배팅 사건은 "배팅"(포괄적 장면, 세만틱), "플레이어 #32, 양키스에 의한 배팅"(특정 장면, 세만틱), 및 "양호한 전략"(추상적 장면, 세만틱) 속성에 의해 설명된 사건 요소이다. 배팅 세그멘트의 신택틱 속성은 배팅 사건에 적용될 수 있다(즉, 배팅 사건과 배팅 섹멘트 사이를 구별할 수 없었고, 배팅 세그멘트의 신택틱 속성을 배팅 사건에 할당할 수 있었다). 배팅 사건은 필드 객체, 및 배팅 사건 내의 2개의 주요 동작을 나타내는 던지기 및 타격 사건(즉, 볼을 던지기 및 타격하기)로 구성된다.던지기 및 타격 사건은 "전의" 관계(시간적 관계, 신택틱)에 의해 관련된다.
마지막으로, 애니메이트된 객체는 세만틱 및 공간-시간 엔터티인데, 그것은 비디오 시퀀스의 프레임의 임의의 세트의 임의의 섹션에 관련된다. 애니메이트된 객체는 한 세트의 신택틱 및 세만틱 특징, 애니메이트된 객체, 애니메이트된 영역, 영역, 합성, 공간-시간, 시각 및 세만틱 관계에 의해 관련된 객체의 그래프에 의해 정의된다(도 5 참조). 애니메이트된 객체는 동시에 사건 및 객체이다. 예로서, 도 8의 피처 객체는 "사람"(포괄적 객체, 세만틱), "플레이어 #3, 양키스"(특정 객체, 세만틱) 및 "속도"(추상적 객체, 세만틱) 속성에 의해 설명된 애니메이트된 객체이다. 이 애니메이트된 객체는 도 9에 도시된 모래 3 영역의 "위에" 있다(공간-시간 관계, 신택틱).피처 영역의 신택틱 특징은 피처 객체에 적용될 수 있다. 이 애니메이트된 객체의 신택틱 및 세만틱 속성을 포괄적 AV DS 내에 규정된 바와 같이 분리한다. 그러나, 그렇게 함으로써 신축성 및 효율을 잃어버리는데, 왜냐하면, "실제" 객체의 정의를 다른 요소들에 걸쳐서 분배하기 때문이다.
도 5는 컨텐츠 요소의 각각의 제안된 형태의 기본적인 모델을 제공한다. 속성, 요소 및 관계는 다음의 클래스들, 즉 신택틱 및 세만틱으로 분류된다. 세만틱 및 신택틱 속성은 관련된 속성, 레벨을 갖는데, 그것의 값은 그것이 관련하는 시각의 레벨에 대응된다. 신택틱 요소는 영역, 세그멘트 및 애니메이트된 영역으로 더욱 분할된다. 세만틱 요소는 객체, 애니메이트된 객체 및 사건 클래스로 분류된다.
도 6은 예시적 야구 배팅 사건을 도시한다.
도 7은 본 발명에 따라서 도 6의 야구 게임을 위한 배팅 사건의 개념적 설명을 제공한다.
도 8은 본 발명에 따라 도 6의 배팅 사건을 위한 타격 및 던지기 사건의 개념적 설명을 제공한다.
도 9는 본 발명에 따라 도 6의 배팅 사건을 위한 필드 객체의 개념적 설명을 제공한다.
인식 및 개념
본 발명은 또한 화상의 특징의 분석 및 분류에서의 인식 및 개념의 논의와 관련하여 설명될 수도 있다. 화상의 인덱싱에 고유한 어려움 중의 하나는 그것들이 분석될 수 있는 방법의 수이다. 단일 화상은 많은 것을 나타낼 수 있는데, 그것은 그것이 많은 정보를 포함하기 때문만이 아니고, 우리가 화상에서 보는 것이많은 수의 추상적 개념에 맵핑될 수 있기 때문이다. 화상의 시각 특징에만 기초한 그러한 가능한 추상적 설명과 더욱 구체적인 설명 사이의 구별은 인덱싱에서 중요한 단계를 구성한다.
다음의 섹션들에서, 인식과 개념 사이를 구별한다. 다음에는, 신택틱 및 세만틱을 위한 정의를 제공하고, 마지막으로, 일반적인 개념 공간 및 시각 개념 공간을 논의한다. 컨텐츠-베이스 검색의 문맥에서의 이러한 정의의 중요성은 본 발명의 인덱싱 구조를 정의할 때에 명백하게 될 것이다.
인식 및 개념
화상은 정보의 다중-차원 표시이지만, 가장 기본적 레벨에서 그것들은 단순히 빛(톤식-빛(tonal light) 또는 빛이 없음)에 대하여 응답을 야기한다. 가장 그러나, 가장 복잡한 레벨에서, 화상은 개인의 지식, 경험, 및 심지어는 특수한 분위기(mood)에 크게 의존하는 추상적 개념을 나타낸다. 인식과 개념 사이의 구별을 할 수 있다.
인식은 우리의 감각이 인식하는 것에 관련되는데, 시각 시스템에서 그것은 빛이다. 빛의 이러한 패턴은 텍스쳐 및 색깔과 같은 다른 요소의 인식을 발생시킨다. 개념에 관련할 때에는 어떤 해석 프로세스도 발생하지 않는데, 아무 지식도 요구되지 않는다.
한편, 개념은 특수한 경우로부터 일반화된 추상적 또는 포괄적 개념에 관련 된다. 따라서, 그것은 배경 지식 및 인식된 것의 고유한 해석을 사용하는 것을 뜻한다. 개념은 그것들이 개인의 지식과 해석에 의존한다는 점에서 매우 추상적일 수 있는데, 이것은 매우 주관적이 되는 경향이 있다.
신택틱 및 세만틱
인식이 해석을 요구하지 않는 유사한 방법으로, 신택틱은 배열의 의미를 고려하지 않고 시각 요소들이 배열되는 방법에 관련된다. 한편, 세만틱은 그러한 요소와 그들의 배열의 의미를 다룬다. 다음의 논의에서 보여지듯이, 신택틱은 단순한 전체 색깔 및 텍스쳐로부터 선 및 원 등 국부적 기하학적 형상까지의 여러 가지 인식 레벨에 관련될 수 있다. 세만틱은 또한 서로 다른 여러 가지 레벨에서 처리될 수 있다.
일반적인 개념 대 시각 개념
여기에서, 일반적인 개념과 시각 개념은 다르며, 이것들은 개인들 사이에서 다를 수 있다는 것을 강조하고자 한다.
볼(ball)을 예로서 사용하여, 한가지 가능한 일반적인 개념이 볼을 둥근 질량으로서 설명하는 반면에, 다른 사람들은 다른 일반적인 개념을 가질 수 있다는 것을 안다. 배구 플레이어는 야구 플레이어와는 다른 볼의 일반적인 개념을 가질 수 있다. 서로 다른 여러 가지 개인들이 개념(또는 이 경우에는 구체적인 객체)의 매우 다른 해석을 갖는 것이 자연스럽다. 볼의 일반적인 개념과 시각 개념을 위해 사용된 속성은 다르다는 것을 인식할 수 있다(개념을 설명하기 위해서 규칙이 사용될 수 있으나, 설명을 단순화하기 위해서 대신에 속성을 사용한다).
이러한 정의는 유용한데, 왜냐하면, 서로 다른 여러 가지 사용자는 서로 다른 여러 가지 개념(심지어는 간단한 객체의)을 갖고, 심지어는 간단한 객체도 서로 다른 여러 가지 개념적 레벨에서 볼 수 있다. 특히, 일반적인 개념(즉, 그것은 무엇인가? 라는 질문에 답하는 것을 돕는다)과 시각 개념(즉, 그것이 어떻게 보이는가? 라는 질문에 답하는 것을 돕는다) 사이의 중요한 구별이 있고, 이것은 화상 데이터베이스를 설계함에 있어서 고려되어야만 한다. 이러한 개념을 본 발명의 인덱싱 구조의 구성에 적용한다. 개념적 카테고리 구조는 인식적 구조에 기초할 수도 있다.
시각 및 비시각 컨텐츠
앞의 섹션에서 언급되었듯이, 화상에 존재하는 정보의 많은 레벨이 있고, 그들의 다중-차원은 그것들을 디지털 도서관에 조직할 때 고려되어야만 한다, 개념적 인덱싱 구조를 만드는데 있어서의 첫 번째 단계는 시각 및 비시각 컨텐츠 사이의 구별을 하는 것이다. 화상의 시각 컨텐츠는 화상이 관찰될 때에 직접 인식되는 것에 대응된다(즉, 관심의 대상인 화상 또는 비디오의 시각 컨텐츠에 의해 직접적으로 자극된 설명자들-선, 형상, 색깔 객체 등). 비시각 컨텐츠는 화상에 밀접하게 관련된 정보에 대응되지만, 그것은 그것의 겉모양에 의해 명확하게 주어지지 않는다. 예로서, 그림에서, 가격, 현재의 소유자 등은 비시각 카테고리에 속한다. 다음에, 화상의 시각 컨텐츠를 위한 인덱싱 구조를 제시하며, 그 다음에는 비시각 정보용 구조를 제시한다.
시각 컨텐츠
다음에 주어지는 분석의 레벨들은 각각 화상로부터만 얻어진다. 시청자의 지식은 항상 어떤 역할을 하지만, 여기에서 일반적인 규칙은 화상로부터 명백하게 얻어지지 않은 정보는 이 카테고리 내에 들어가지 않는다는 것이다(즉, 그림의 가격은 시각 컨텐츠의 부분이 아닐 것이다). 다시 말해서, 시각 컨텐츠를 위해 사용된 어떠한 설명자도 관심의 대상인 화상 또는 비디오 의 시각 컨텐츠에 의해 자극된다.
본 발명의 시각 구조는 10개의 레벨을 얻는데, 즉, 처음의 4개는 신택틱에 관련되고, 나머지 6개는 세만틱에 관련된다. 또한, 레벨 1 내지 레벨 4는 인식에 직접적으로 관련되며, 레벨 5 내지 레벨 10은 시각 개념에 관련된다. 이러한 구분들 중의 어떤 것은 엄격하지 않을 수도 있지만, 그것들은 사용자가 무엇을 탐색하는지 또한 사용자가 그것을 데이터베이스에서 어떻게 찾고자 하는지를 이해하는 데에 직접적인 영향을 주기 때문에 고려되어야 한다. 그것들은 또한 요구된 지식의 면에서 서로 다른 여러 가지 인덱싱 기법(수동 및 자동)의 한계를 강조한다. 구조의 요약이 도 3에 주어진다. 이 도면을 위로부터 아래로 관찰하면, 피라미드의 낮은 레벨에서, 인덱싱을 수행하는데 더욱 많은 지식 및 정보가 요구된다는 것이 명백하다. 각각의 레벨의 폭은 그것에서 요구되는 지식의 양의 지표를 준다-예로서, 장면에서 특정 객체의 이름을 지정하기 위해서 더욱 많은 정보가 필요하다. 각각의 레벨은 아래에서 설명되며, 레벨들간의 관계의 설명이 그 후에 나타난다.
이 구조를 관찰하면, 컨텐츠-베이스 검색에서 대부분의 노력은 신택틱(즉, 레벨 1 내지 레벨 4) 상에 집중되었다는 것이 분명하다. 그러나, 레벨 5 내지 레벨 10에서의 세만틱 분류를 수행하는 기법은 매우 바람직하다. 본 발명이 제시하는 구조는 특정 기법에 의해 처리되거나 주어진 기술(예로서, MPEG-7 주석)에 의해 제공된 속성의 레벨을 식별하는 것을 돕는다.
형태/기법
가장 기본적인 레벨에서, 화상 또는 비디오 시퀀스의 일반적인 시각 특징에 관심이 있다. 화상 또는 비디오 시퀀스의 형태 또는 그것을 발생시키는데 사용된 기법의 설명은 매우 일반적이지만, 큰 중요성을 갖는 것으로 판명되었다. 화상은 예로서 페인팅, 블랙 앤드 화이트(black and white)(b&w), 색깔 사진 및 도면 등과 같은 카테고리 내에 위치될 수도 있다. 이 레벨에서 관련된 분류 방법은 WebSEEK에서 개념적으로 또한 자동적으로 수행되었다.
디지털 사진의 경우에, 두가지 주요 카테고리는 색깔 및 그레이스케일(grayscale)일 수 있으며, 추가적 카테고리/설명이 일반적인 시각 특징에 영향을 준다. 이것들은 색깔의 수, 압축 방법, 해상도 등을 포함할 수 있다. 이것들 중의 어떤 것은 여기에서 설명된 비시각 인덱싱 특징과 약간의 중복성을 갖는다는 것을 알 수 있다.
전체 분배
앞의 레벨 내의 형태/기법은 화상 또는 비디오 시퀀스의 시각 특징에 관한 일반적인 정보를 주지만, 시각 컨텐츠에 관해서는 거의 정보를 주지 않는다. 전체 분배는 그들의 전체 분배에 기초하여 화상 또는 비디오 시퀀스를 분류하는 것을 목표로 하며, 스펙트럼 감도(색깔) 및 주파수 감도(텍스쳐)와 같은 저수준의 지각적 특징의 면에서 측정된다. 컨텐츠의 개별적 성분은 이 레벨에서 처리되지 않는다(즉, 측정이 전체하게 취해진다는 점에서 이러한 분배에 대해서 아무런 "형태"도 주어지지 않는다). 따라서, 전체 분배 특징은 무엇보다도 전체 색깔(예로서, 주요 색깔, 평균, 히스토그램), 전체 텍스쳐(예로서, 조악함, 방향, 콘트라스트), 전체 형상(예로서, 애스펙트비), 전체 운동(예로서, 속도, 가속도 및 궤적), 카메라 운동, 전체 변형(예로서, 증가하는 속도) 및 시간/공간 크기(예로서, 공간 영역 및 시간 크기)를 포함할 수 있다. 예로서, 유사한 텍스쳐/색깔을 가진 2개의 화상을 고려한다. 이 특정한 경우에, 이 속성들은 매우 유용하지만, 그것들은 사용자가 객체를 탐색한다면 유용하지 않을 것이라는 것을 유의하여야 한다.
이러한 측정들 중의 어떤 것은 인간 관찰자를 위해서 정량화하기 어렵지만, 이러한 전체 저수준 특징은 예(QBIC, WebSEEK, Virage)를 사용하여 질문을 수행하고 브라우징을 위한 데이터베이스의 컨텐츠를 조직하기 위해 여러 가지 컨텐츠-베이스 검색 시스템에서 성공적으로 사용되었다.
국부적 구조
화상 또는 비디오 시퀀스의 개별적 부분에 관한 어떠한 정보도 제공하지 않는 전체 구조와 대조적으로, 국부적 구조 레벨은 성분들의 추출 및 특징화에 관련된다. 가장 기본적인 레벨에서, 그러한 성분들은 저수준 처리로부터 발생되며, 도트, 선, 톤, 색깔 및 텍스쳐와 같은 요소들을 포함한다. 시각 리터러시(Literacy) 문헌에서, 이것들 중의 어떤 것은 시각 통신의 "기본적 요소"로 지칭되며 기본적 신택틱 심볼로 간주된다. 국부적 구조 속성의 다른 예들은 시간/공간 위치(예로서, 시작 시간 및 중심), 국부적 색깔(예로서, MxN 레이아웃), 국부적 운동, 국부적 변형, 국부적 형상/2D 기하학적 형상(예로서, 경계 박스)이다. 이러한 형태의 속성이 중요할 수도 있는 여러 가지 화상이 있다. x-레이 및 마이크로스코픽 화상에서, 국부적 상세사항에 대한 강한 관심이 있다. 그러한 요소들은 또한 주로 사용자-스케치 인터페이스에 의한 질문시에 컨텐츠-베이스 검색 시스템에 사용되었다. 여기에서의 관심은 객체에 대한 것이 아니고, 오히려 객체를 표시하는 기본적 요소들과 관련되고, 또한 그러한 요소들의 조합-예로서 사각형은 4개의 선들로 형성된다-과 관련된다. 그러한 의미에서, 원, 타원 및 다각형 등 어떤 "기본적 형상"을 포함할 수 있다. 이것은 인간이 시각 정보를 인식할 때 인간에 의해 수행되는 "그룹핑"의 매우 기본적인 레벨로 간주될 수 있다는 것을 유의해야 한다.
전체 합성
이 레벨에서, 국부적 구조에 의해 주어진 기본적 요소들의 특정한 배열에 관심이 있다. 다시 말해서, 화상을 전체로서 분석하지만, 분석을 위해서 위에서 설명된 기본적 요소들(선, 원 등 )을 사용한다.
전체 합성은 배열 또는 화상 내의 요소들의 공간 레이아웃에 관련된다. 종래설명에서의 전통적인 분석은 균형, 대칭, 관심의 중심(주목의 중심 또는 초점), 지시선(leading line) 및 뷰잉 각도 등 합성 개념을 설명한다. 그러나, 이 레벨에서, 특정한 객체들의 지식은 없으며, 단지 기본적 요소들(즉, 도트, 선 등) 또는 기본적 요소들의 그룹만 고려된다. 그 경우에, 화상의 뷰는 기본적 신택틱 심볼만 포함하는 화상로 단순화되는데, 화상은 선, 원, 사각형 등의 구조화된 세트에 의해 표시된다.
포괄적 객체
앞의 레벨까지에서, 화상의 인식적 특징에 중점을 두었다. 위의 어떤 레벨에서도 인덱싱을 수행하기 위해서 어떤 세계적 지식도 요구되지 않았으며, 자동적 기법은 저수준 프로세싱에 의존한다. 이것은 자동 인덱싱 및 분류를 위한 이점이지만, 연구는 인간은 화상을 설명하고, 분류하며 탐색하는 데에 고수준 속성을 주로 사용한다는 것을 입증하였다. 객체가 특별한 관심이지만, 그것들은 또한 다른 레벨들에서 카테고리 내에 위치될 수 있는데-사과는 매킨토시 애플, 사과, 또는 과일로서 분류될 수 있다. 포괄적 객체를 참조할 때, 기본적 레벨 카테고리에 관심이 있는데, 즉, 객체 설명의 가장 일반적인 레벨에 관심이 있다. 본 기법분야의 연구에서, 이 레벨은 프리-아이코노그래피(pre-Iconography)에 대응되며, 정보 과학에 있어서, 이것을 레벨의 속( generic)이라고 칭한다. 이러한 개념과 본 발명에서의 포괄적 객체의 정의에서 상식적 개념은 객체를 인식하는 데에 단지 일반적인 일상적인 지식만이 필요하다는 것이다. 예로서, 매킨토시 사과는 이 레벨에서 사과로서 분류될 것이며, 그것이 그 객체의 설명의 가장 일반적인 레벨이다.
본 발명의 정의와 종래 기법에서 사용된 정의와의 가능한 차이점은 본 발명에서는 시각 객체를 볼 수 있는 엔터티로서 정의한다는 사실에 있으며, 이것은 때로는 객체의 전통적인 정의와 다르다. 하늘 또는 대양 등의 객체는 아마도 전통적 정의에서는 객체로 간주되지 않을 것이지만, 본 발명의 시각 객체(또한 차, 집 등의 전통적 객체)에 대응된다.
포괄적 장면
화상 또는 비디오 시퀀스가 그것에 나타나는 개별적 객체에 따라 인덱싱될 수 있듯이, 화상을 그것이 포함하는 모든 객체의 세트와 그들의 배열에 기초하여 전체로서 인덱싱할 수 있다. 장면 클래스의 예는 도시, 풍경, 옥내, 옥외, 정적인 생활 및 초상화 등을 포함한다. 자동적 장면 분류의 어떤 연구가 수행되었으며, 기본적 장면 카테고리의 연구도 역시 존재한다.
이 레벨을 위한 가이드라인은 단지 일반적인 지식만이 요구된다는 것이다. 도시 장면이라는 것을 결정하기 위해서 특정 거리 또는 건물 명칭을 알 필요는 없으며, 또한 화상이 초상화라는 것을 알기 위해서 개인의 이름을 알 필요는 없다.
특정 객체
앞의 레벨과 대조적으로, 특정 객체는 식별되고 명명될 수 있는 객체와 관련된다. 섀트포드(Shatford)는 이 레벨을 특정이라고 칭한다. 화상 내의 객체의 특정 지식이 요구되고, 그러한 지식은 알려진 사실에 의존하기 때문에 통상적으로 객관적이다. 예는 개별적 사람 및 객체를 포함한다.
특정 장면
이 레벨은 포괄적 장면과 유사하며, 차이점은 여기에서 장면에 관한 특정한 지식이 있다는 것이다. 화상 내의 다른 객체들이 화상이 특정한 장면 도시한다는 것을 결정하기 위해서 다른 방법으로 기여하지만, 어떤 때에는 단일 객체가 충분하다. 예로서, 에펠탑을 명확하게 도시하는 화상은 그 객체에만 기초하여 파리의 장면으로서 분류될 수 있다.
추상적 객체
이 레벨에서, 객체가 무엇을 나타내는가에 관한 전문 지식 또는 해석적 지식이 사용된다. 이것은 본 기법분야에서 아이코놀로지(Iconology)(해석) 또는 대략적 레벨이라고 지칭된다. 이 인덱싱 레벨은 그것이 완전히 주관적이고 또한 다른 사용자들 사이의 평가가 크게 다르다는 점에서 가장 어려운 것이다. 이 레벨의 중요성은 뷰어들이 화상을 설명하기 위해서 추상적인 속성을 사용한 실험에서 보여졌다. 예로서, 화상 내의 여자는 한 관찰자에게는 분노로서 나타날 수 있고 다른 관찰자에게는 수심에 찬 것으로 나타날 수 있다.
추상적 장면
추상적 장면 레벨은 화상이 전체적으로 무엇을 나타내는가 하는 것에 관련된다. 그것은 매우 주관적일 수 있다. 사용자들은 때때로 화상을 정서적(예로서, 감정) 또는 추상적 (예로서, 분위기, 테마) 면에서 설명한다. 추상적 장면 레벨에서의 다른 예는 슬픔, 행복, 힘 및 천국을 포함한다.
레벨에 걸친 관계
피라미드 표현을 선택하였는데, 왜냐하면 그것이 본 발명의 구조에서 고유한 여러 가지 중요한 문제를 직접적으로 반영하기 때문이다. 피라미드의 낮은 레벨에서 인덱싱을 수행하기 위해서 더욱 많은 지식 및 정보가 요구된다는 것은 명백하다. 이 지식은 각각의 레벨의 폭에 의해 표시된다. 그러나, 이 가정은 어떤 예외를 가질 수 있다는 것을 지적하는 것이 중요하다. 예로서, 보통의 관찰자는 그림을 발생시키는 데에 사용된 기법을 결정할 수 없을 것이지만, 본 기법분야에서 전문가는 어떤 것이 사용되었는지를 정확하게 결정할 수 있을 것이다. 이 특정한 경우에 인 덱싱은 포괄적 객체 레벨에서보다 형태/기법 레벨에서 더욱 많은 지식을 요구할 것이다.(왜냐하면 본 분야의 기법에 대한 특수한 지식이 필요할 것이기 때문이다). 그러나, 대부분의 경우에, 인덱싱을 위해 요구되는 지식은 본 발명의 구조에서 위로부터 아래로 향해 증가할 것인데, 포괄적 장면 레벨(예로서, 공원)을 결정하는 것보다 특수한 장면(예로서, 뉴욕시의 센트럴 파크)을 인식하는 데에 더욱 많은 지식이 필요하다.
레벨간 의존성이 존재하지만, 각각의 레벨은 화상을 관찰할 때 독립적 경치 또는 차원으로서 보일 수 있으며, 각각의 레벨이 취급된 방법은 데이터베이스, 사용자 및 목적에 의존할 것이다.
시각 컨텐츠 관계
이 섹션에서, 화상 요소들 사이의 관계를 위한 표시를 간략히 설명한다. 이 구조는 서로 다른 여러 가지 레벨에서의 관계를 수용하며, 앞에서 제시된 시각 구조에 기초한다. 어떤 레벨에서의 관계는 그 구조가 적용되는 엔터티 사이에 적용될 때 가장 유용하다는 것을 알았다(예로서, 서로 다른 여러 가지 화상로부터의 장면이 비교될 수 있다). 각각의 레벨 내의 요소는 두가지 형태의 관계, 즉 신택틱 및 세만틱(레벨 5 내지 레벨 10에 대해서만)에 따라 관련된다. 예로서, 두 개의 원(국부적 구조)은 공간적으로(예로서, ...의 다음에), 시간적으로(예로서, 전에), 및/또는 시각하게(예로서, ...보다 어두운) 관련될 수 있다. 세만틱 레벨에 있는 요소는 신택틱 및 세만틱 관계를 가질 수 있다(예로서, 두 사람은 서로 이웃에 살며 친구이다). 또한, 각각의 관계는 서로 다른 여러 가지 레벨(포괄적, 특정, 추상적)에서 설명될 수 있다. 레벨 1, 레벨 6, 레벨 8 및 레벨 10 사이의 관계는 구조에 의해 표시되는 엔터티 사이에서 유용할 수 있다(예로서, 화상 사이, 화상 및 장면의 부분의 사이 등).
시각 구조는 신택틱/인식 및 시각 개념/세만틱로 분할될 수도 있다. 관계를 나타내기 위해서, 그러한 분할을 관찰하고, 다음의 사항들을 고려하는데, 즉, (1) 객체의 지식은 객체의 공간 크기의 지식, 즉 공간에서의 객체의 통상적 가능한 또는 실제적인 범위의 등급설정 가능한 특징의 지식을 실시하며, (2) 공간의 지식은 공간에서 객체의 특정한 크기와 객체 사이의 거리를 결정하는 축의 어떤 시스템의 이용가능성을 의미한다. 이것을 사용하여, 시각 구조의 신택틱 레벨에서 발생하는 관계는 객체의 지식이 존재하지 않기 때문에(즉, 3D 공간에서의 관계는 결정될 수 없다) 2D 공간에서만 발생할 수 있다고 주장한다. 예로서, 국부적 구조 레벨에서, 시각 리터러시의 기본적 요소만이 고려되며, 따라서, 그 레벨에서의 관계만이 그러한 요소(즉, 3D 차원 정보를 포함하지 않는다) 사이에서 설명된다. 그러나, 레벨 5 내지 레벨 10의 요소 사이의 관계는 2D 또는 3D의 면에서 설명될 수 있다.
유사한 방법으로, 관계 자체는 클래스 신택틱(즉, 인식에 관련된다) 및 세만틱(의미에 관련된다)으로 분할된다. 신택틱 관계는 어떤 레벨에서도 발생할 수 있으나, 세만틱 관계는 레벨 5 내지 레벨 10의 요소 사이에서만 발생한다. 예로서, 그림의 서로 다른 여러 가지 색깔 사이의 세만틱 관계는 결정될 수 있으나(예로서, 색깔의 조합이 강하다), 이것을 본 발명의 모델의 그 레벨에서 포함시키지 않는다.
공간 관계를 다음의 클래스들, 즉, (1) 지형학적(즉, 요소의 경계들이 관련되는 방법) 및 (2) 방향(요소들이 서로에 대하여 위치되는 곳)으로 분할한다. 지형학적 관계는 가까운, 먼, 접촉하는 등을 포함하고, 방향 관계는 ...에 대하여 대각선, ...의 앞에 등을 포함한다.
시간적 관계는 시간에 관해 요소들을 연결하는 것에 관련되며(예로서, 비디오에서 이것은 전에, 후에, 사이에 등을 포함한다), 시각 관계는 시각 특징(예로서, 더욱 파랗다, 더욱 어둡다 등)에만 관련된다. 세만틱 관계는 의미(예로서, ...의 소유자, ...의 친구 등)와 관련된다.
시각 구조의 요소가 서로 다른 여러 가지의 레벨(포괄적, 특정한, 추상적)을 갖는 유사한 방법으로, 관계가 서로 다른 여러 가지 레벨에서 정의될 수 있다. 신택틱 관계는 포괄적(예로서, 가까운) 또는 특정적(예로서, 수치적 거리 측정)일 수 있다. 세만틱 관계는 포괄적, 특정적 또는 추상적일 수 있다.
예로서, 공간적 전체 분배는 거리 히스토그램에 의해 표시될 수 있고, 국부적 구조는 국부적 성분(예로서, 시각 리터러시 요소 사이의 거리) 사이의 관계에 의해 표시될 수 있고, 전체 합성은 시각 리터러시 요소 사이의 전체 관계에 의해 표시될 수 있다.
비시각 정보
이 섹션의 처음에 설명되었듯이, 비시각 정보는 화상의 직접적인 부분이 아니고 오히려 그것과 어떤 방법으로 관련된 정보에 관련된다. 속성을 인명식(biographical) 및 관계 속성으로 분할할 수 있다. 비시각 정보가 소리, 텍 스트, 하이퍼링크된 텍스트 등으로 구성될 수 있으나, 여기에서의 본 발명의 목적은 인덱싱을 위한 일반적인 지침을 주는 단순한 구조를 제공하는 것이다. 여기에서는 간략히 텍스트 정보에만 중점을 둘 것이다. 도 10은 이 구조의 개략적인 설명을 준다.
인명식(biographical) 정보
실제적 화상을 위한 소스는 직접적일 수도 있고(예로서, 자연 장면의 사진) 간접적일 수도 있다(예로서, 조각, 그림, 건물, 도면의 화상). 어느 경우에도, 화상과 관련된 인명식 정보가 있을 수 있다. 이 정보는 화상(예로서, 시스틴 교회의 천장의 화상은 그림 및 교회 그 자체에 관한 정보를 가질 수 있다) 내의 여러 가지 객체를 위해 그 자체를 반복할 수 있으며, 화상만을 위해서 존재할 수 있고, 전혀 존재하지 않을 수도 있다. 대부분의 경우에, 인명식 정보는 화상의 주제에 직접적으로 관련되지 않고, 오히려 전체로서의 화상에 관련된다. 예는 저자, 날자, 제목, 재료, 기법 등을 포함한다.
관련된 정보
비시각 정보의 두 번째 클래스는 어떤 방법으로 화상에 직접적으로 연결된다. 관련된 정보는 자막, 기사, 소리 녹음 등을 포함할 수도 있다.
논의되었듯이, 많은 경우에, 이 정보는 시각 구조에서 인덱싱 중의 어떤 것을 수행하는 것을 돕는데, 왜냐하면 그것은 화상에 어떤 것이(즉, 주제) 도시되었는가에 관한 특정한 정보를 포함할 수 있기 때문이다. 그러한 문맥에서, 그것은 통상적으로 세만틱 레벨에서 매우 도움이 되는데, 왜냐하면 세만틱 레벨은 종종 화상 자체 만에는 존재하지 않는 더 많은 지식을 요구하기 때문이다. 그러나, 어떤 경우에, 정보는 화상의 주제에 직접적으로 관련되지 않으며 어떤 방법으로 화상에 관련된다. 예로서, 초상화에 수반하는 소리 녹음은 도시된 사람과는 아무런 관련이 없는 소리를 포함할 수도 있는데, 그러나 그 소리는 화상과 관련되고 필요하면 인덱싱될 수 있다.
물리적 속성
물리적 속성이란 물리적 객체로서 화상과 관계 있는 그러한 것들을 단순히 지칭한다. 이는 화상의 위치, 원 화상의 위치, 기억 용량(예를 들면, 크기, 압축 등)을 포함한다.
인덱싱 구조 사이의 관계
우리는 의미 정보 테이블을 구축하여 화상에 관한 상위 정보 레벨을 수집한다(도 11 참조). 이 테이블은 개별 객체, 집단 객체, 전체 화면 또는 화상의 일부에 사용될 수 있다. 대부분의 경우에, 시각 및 비시각 정보는 표를 채우는데 기여하고, 내부/외부와 같은 단순 장면 분류는 시각 컨텐츠만으로는 용이하게 결정되지 않으며, 위치는 화상 등으로부터 명백하지 않다. 개별 객체는 비시각 정보에 기초하여 분류되고 명명되어, 시각 객체와 개념 객체 사이에 사상(mapping)에 기여한다.
도 11에서, 시각 및 비시각 정보는 화상 또는 그 일부를 세만틱하게 묘사하는데 사용될 수 있다. 이러한 2 양태(modality)가 세만틱 표에서의 질문에 대답하는데 기여하는 방식은 컨텐츠에 따라 변할 수 있다. 표는 대상이 무엇인가(사람/객체 등)?, 대상이 무엇을 하는가? 대상이 어디에 있는가? 언제? 어떻게? 왜? 등과 같은 질문에 대한 대답을 돕는다. 테이블은 개별 객체, 집단 객체, 전체 화면 또는 화상의 일부에 적용될 수 있다.
이 구조와 시각 구조 사이의 관계는 레벨 5로 시작하는 각 레벨에 테이블을 적용하는 경우에 명백하다. 또한, 테이블은 화상에 관한 일부 정보에 간결한 묘사를 제공하는 반면, 제공된 인덱싱 구조를 대체하지는 않는다는 것을 유의하여야 한다. 구조들의 군은 가장 완벽한 설명을 제공한다.
적절한 인덱싱 구조를 취함으로써, 디지털 도서관(digital library)의 컨텐츠를 어떻게 구성할 것인가에 초점을 맞출 수 있다. 다음 절에서, 화상의 구성 및 검색에 중대한 역할을 하는 이슈를 분석한다.
특징, 유사성 및 카테고리화
화상 디지털 도서관을 성공적으로 구축하려면, 데이터는 물론, 분류에 관련된 인간의 이슈를 이해하는 것이 중요하다. 이 절에서는 이러한 경우에 중요한 이슈를 토의하고 그 개념을 화상 인덱싱 시험 베드(image indexing test bed)에 적용하는 방법을 설명한다. 우선, 카테고리를 논의한다. 이 후, 카테고리화에서의 레벨 및 구조를 논의한다. 마지막으로, 속성과 유사함에 관련된 이슈의 일부를 제공한다.
카테고리 및 분류
카테고리화는 일단의 엔터티를 등가로 간주하는 것으로 정의할 수 있다. 카테고리는 엔터티 또는 개념이 속하는 기초적이고 차별화된 일부의 부류이며, 카테 고리 내의 엔터티는 보다 유사하며 카테고리 사이의 엔터티는 덜 유사하게 나타난다. 하지만, 카테고리화를 행하기 이전에 카테고리화되는 데이터의 본질을 이해하는 것이 필수적이다. 사용될 수 있었던 카테고리의 종류에 초점을 맞춘다. 분류학에서, 연구가들은 2 종류의 카테고리를 식별하여 왔는데, (1) 감각적 인식 카테고리(예를 들면, 텍스쳐, 색깔 또는 언어 음성 등), 그리고 (2) 포괄적 지식(Generic Knowledge)(GK) 카테고리(예를 들면, 자연물-새, 인공물-자동차, 사건-먹는 것)가 그것이다.
우리의 구조에서, 색깔 및 텍스쳐와 같은 감각적 인식 카테고리를 식별할 수 있다. 하지만, GK 카테고리는 사용자가 화상에 나타나는 객체와 그 객체가 나타내는 것에 주로 관심을 가지므로 매우 중요한 역할을 한다. 인지 심리학의 일부 이론은 GK 카테고리의 분류가 다음과 같음을 표현한다.
규칙: 엔터티의 속성값을 사용한다(예를 들어, 규칙: 인물 카테고리의 화상은 그 속에 개인을 포함하여야 한다).
원형(prototype): 카테고리의 원형은 카테고리 예시들의 특질을 포함한다. 이는 카테고리 멤버들 사이에 교차가 일어날 가능성이 농후한 속성이다. 새로운 화상은 카테고리의 원형에 얼마나 유사한가에 따라 분류된다(예를 들면, 풍경화의 원형은 석양의 단순한 스케치일 수 있다).
예시: 예들은 가장 유사한 예시들의 카테고리로 분류된다(예를 들면, 인물 카테고리에 대한 규칙 대신에, 그 부류에서 한 세트의 견본 화상을 구비하여 이를 분류용으로 사용한다).
이러한 기법을 사용하여 분류를 행하고 그 결과를 사용자에게 나타내므로, 이러한 증거는 데이터베이스에서 화상을 결합하는 점에서 도움이 된다. 이러한 개념은 화상 인덱싱 시험 베드를 구축하는데 사용된다.
카테고리 구조
카테고리 구조는 디지털 도서관에서 중요한 요소이며 여기서 간단히 논의하는 중요한 몇 개의 이슈를 야기한다. 다음의 이슈들이 고려되어야 하는데, 즉 카테고리 사이의 관계(예를 들어, 계층적 또는 엔터티 관계), 분류가 행해지는 추상적 개념의 레벨(예를 들어, Rosch의 연구)은 기본 레벨 및 하위/상위 레벨 카테고리를 제안하며, 수평 카테고리 구조[예를 들어, 각 카테고리를 결합하는 방법 및 각 카테고리 내 요소들의 멤버십의 정도, 이것은 퍼지(fuzzy) 또는 2원화일 수 있다].
시각 정보를 인덱싱할 경우에 상이한 레벨의 분석을 고려하는 것에 더하여 유사함을 측정하는 방법은 매우 중요하다. 유사함의 측정에 관계되는 이슈는 고려 레벨(예를 들어, 부분 대 전체), 검사되는 속성, 속성의 형태(예를 들어, 구조 레벨), 차원의 가능 여부 등을 포함한다.
화상 인덱싱 시험 베드
여기에 기재한 구조에 기초하여 화상을 인덱싱하는 상이한 기법을 이용함으로써, 여기에 나타낸 개념을 통합하는 화상 인덱싱 시험 베드를 개발중이다. 특히, 형태/기법에서, 차별적인 분석을 이용한다. 전체적인 분배(global distribution)를 위해, 전체적인 색깔 히스토그램(histogram) 및 다무라 텍스쳐(Tamura texture) 방법을 이용한다. 국지 구조 레벨에서, 자동 구획 및 코히어런트 에지 맵(coherent edge-map) 및 투사 히스토그램(projection histogram)의 다중 스케일 위상 곡선 히스토그램을 이용하여, VideoQ에서처럼 스케치 퀴어리(sketch query)를 허용한다. 전체적인 합성은 생성된 영역의 자동 구획 및 병합을 행하여 화상의 아이콘 표현을 생성함으로써 획득된다.
포괄적 객체는 시각 어프렌티스(Visual Apprentice)를 사용하여 자동적으로 검출된다. 시각 어프렌티스에서, 시각 객체 검출기는 객체 정의 계층을 형성하여(예를 들어, 객체와 그 일부의 모델을 특정함) 구축되고 시스템에 견본을 제공한다. 다중 분류기는 상이한 레벨의 계층(영역, 인식 객체 일부 및 객체)에서 시스템에 의해 자동 선택되며, 자동 분류를 행하는 경우에 최적의 분류기가 자동 선택되어 결합된다. AMOS 시스템을 사용하여 객체의 수동 주석 (manual annotation)및 객체 검색을 행한다.
포괄적 장면 레벨에서, 도시 대 농촌 그리고 내부 대 외부 분류를 행한다. 이는 화상 영역의 묶기(clustering)와 분류가 텍스쳐 특징(예를 들어, 화상 자막에서)과, 가능하다면 특정 객체 검출기(예를 들어, 얼굴 또는 하늘 검출기)와 결합하여 행해지는 OF*IIF 기법을 이용하여 자동으로 행해진다.
특정 객체와 장면에 대한 정보는 인물, 장소 등의 이름을 추출하는 시스템을 사용하여 관련 정보로부터 획득된다. 추상 레벨에서 주석은 수동으로 행해진다.
음성
본 발명의 이점의 다른 논의는 음성 컨텐츠를 나타내는 디지털 신호와 함께 사용되는 예시적인 기재로 제공된다.
이전에 화상의 시각 컨텐츠 요소(예를 들어, 영역, 전체 화상, 사건 등)를 인덱싱하는 10가지 레벨 개념 구조를 제안하였다. 그 작업에서의 분류는 시각 컨텐츠에 대한 설명자(descriptor)만을 인용한다("변형 데이터(metadata)"를 의미하지는 않는데, 예를 들면, 사진에 찍히는 인물의 이름은 시각 설명자가 아니다).
본 명세서에서, 상기한 10가지 개념 구조에 기초하여 음성 설명자(표준 MPEC-7 음성 부분에 포함되는) 분류를 제안한다. 제안된 피라미드 구조는 도 3 및 도 4와 함께 설명한 시각 구조와 정확하게 일치하는 레벨을 포함한다. 그러나, 각 레벨은 시각 요소 대신 음성 요소를 인용한다. 원 구조에서, 객체는 시각 엔터티에 대응한다. 새로운 구조에서, 객체는 음성 엔터티(예를 들어, 사람의 목소리)에 대응한다.
신택틱와 세만틱 간에 분리의 중요성은 화상 및 음성 인덱싱 분야의 연구가에 널리 식별되어 왔다. 음성 컨텐츠에 대한 유사한 연구를 깨닫지 못하지만, 연구 결과는 이러한 분리가 음성 인덱싱에 매우 유용함을 암시한다. 예를 들면, 정보 검색 및 인지 심리학에서의 연구는 개인이 상이한 레벨을 이용하여 화상/객체를 기술(또는 인덱싱)하는지를 보여준다. 제안한 일부 분리가 엄격하지 않지만, 음성 컨텐츠가 어떻게 인덱싱되고, 조작되고 이런 컨텐츠의 사용자에게 나타내어지는 지에 관한 직접적인 영향을 미치므로 이들은 고려되어야 한다
화상 인덱싱에 관련되는 상이한 분야에서의 연구로부터 인출한 시각 속성의 구조는 음성에 용이하게 적용할 수 있는 조밀하고 체계적인 분류를 제공한다. 구조는 직관적이며 매우 기능적이며, 상이한 인덱싱 기법(수동 및 자동)의 필요, 요구 및 제한을 강조한다. 음성 세그멘트에 대한 인덱싱 비용(컴퓨터 또는 인간 노력의 관점)은 예를 들면, 피라미드의 하위 레벨에서 더 고가이며, 컨텐츠의 종류(음악 대 목소리)를 자동적으로 결정하고, 포괄적 객체(인간의 목소리)를 인식하고, 특정 객체(빌 클린턴의 목소리)를 인식한다. 이는 더 많은 정보/지식이 하위 레벨에 필요함을 의미하며, 사용자(예를 들어, 애플리케이션)가 다른 사용자(예를 들어, 애플리케이션)를 요청하는 경우, 얼마나 많은 추가 정보가 필요로 한지, 또는 레벨 5 음성 분류기로부터 어떤 레벨의 "서비스"를 사용자가 예측할 수 있는지는 명백하다. 또한, 인간은 종종 속성에 기초하여 비교하므로 속성과 관계의 단절은 매우 가치가 있다. 제안된 구조의 이점은 시각 컨텐츠에 대한 초기 실험에서 보여져왔고, 주요한 실험을 행하려는 노력들이 있어 왔다. 구조를 음성 인덱싱에 대해 사용하는 이러한 실험과 유연성은 이 종류의 설명자 분류를 음성 및 시각 컨텐츠에 적용하는 이점을 제공한다.
이 예에서, 음성 속성의 분류를 기재한다. 또한, 음성 관계를 기재한다.
설명자의 분류(CLASSIFICATION OF DESCRIPTOR)
제안된 음성 구조는 10개의 레벨을 포함한다. 제1 내지 제4 레벨은 신택틱을, 나머지 6개는 세만틱을 나타낸다. 음성 구조에 대한 개괄은 도 3으로부터 유추될 수 있다. 지식/정보량의 지시에서의 각 레벨의 폭이 필요하다. 신택틱 레벨은 종류/기법, 전체 분배, 국부 구조 및 전체 합성이다. 세만틱 레벨은 포괄적 객체, 포괄적 장면, 특정 객체, 특정 장면, 추상 객체 및 추상 장면이다.
신택틱 레벨은, 즉 하위 레벨의 관점에서 컨텐츠를 설명하는 신택틱 설명자(syntactic descriptor)를 분류한다. 시각 구조에서, 이는 화상에 존재하는 색깔 및 텍스쳐를 나타낸다. 본 명세서의 음성 구조에서, 이는 음성 신호(음악, 목소리 등)의 하위 레벨 특징을 나타낸다. 견본들은 기본 주파수, 고조파 피크 등을 포함한다.
시각 구조의 세만틱 레벨은 객체 및 장면에 관련된 속성을 분류하였다. 음성 구조에서의 세만틱 레벨은 음성 신호 자체로부터 추출된 속성에 기초하여 분류된 것을 제외하고는 유사하다. 시각에 있어서와 같이, 음성에서도 객체(예를 들면, 인간의 목소리, 트럼펫 소리 등)와 장면(예를 들면, 거리의 소음, 오페라 등)을 식별할 수 있다.
유사한 시각 구조의 각 레벨은 이전에 설명하였다. 다음, 각 레벨을 간단히 설명하고 음성 설명자의 분류에 대해 어떻게 사용되는지 설명한다. 단어 속성 및 설명자를 교환적으로 사용하고, 시각 구조를 유추하여 설명을 명확하게 한다. 세만틱 레벨에서, 통상적인 라디오 뉴스 방송을 고려하는 것이 유용하며, 상이한 엔터티인 사람, 잡음 그리고 장면을 사용한다(예를 들면, 현장 리포트에서 기자의 리포트 동안, 또는 이전 또는 이 후에 배경 잡음 또는 음악을 듣는 것은 일반적이다).
형태/기법
음성 시켄의 형태의 일반적 설명이다. 예를 들면, 음악, 잡음, 목소리 또는 이들의 임의의 결합인 스테레오, 채널의 수 등이다.
전체 분배
음성의 전체 컨텐츠를 설명하는 속성은 하위 레벨의 관점에서 측정되었다. 이 레벨에서의 속성은 신호의 개별 성분에 관련된 것이 아니라, 전체 설명에 관련된 것이어서 전체적이다. 예를 들면, 신호는 가우스 잡음을 설명할 수 있고, 이 설명은 국부 성분에 대한 어떠한 것도 말하지 않으므로 전체적이다(예를 들면, 요소 또는 하위 레벨 특징이 잡음 신호를 기법하는 것).
국부 구조
음성 세그멘트에서 개별 하위 레벨 신택틱 성분의 추출 및 특성화에 관한 것이다. 이전 레벨에 비하여, 여기서의 속성은 신호의 국부 구조를 설명함을 의미한다. 화상에서, 국부 요소는 화상에 나타나는 기본 신택틱 심볼(예를 들어, 선, 원 등)로 주어진다. 이 레벨은 음성에서 동일한 함수로 기여하고, 따라서 임의의 하위 레벨 국부 설명자(즉, 단어와 같은 세만틱이 아니라 화화에서의 문장)가 이 레벨로 분류될 수 있다.
전체 합성
음성 세그멘트의 전체 설명자는 기본 요소(즉, 국부 구조 설명자)의 특정 배열 또는 합성에 기초한다. 국부 구조가 음성의 특정 국부 특징에 초점을 맞춘 반면, 전체 합성은 국부 요소 구조(즉, 이들의 배열 방식)에 초점을 맞춘다. 예를 들면, 음성 시퀀스는 마르코프 체인(Markov chain) 또는 하위 레벨 국부 특징을 사용하는 임의의 다른 구조로 나타낼 수 있다.
포괄적 객체
이전 레벨까지는 인덱싱을 수행하는데 전체적인 지식이 필요하지 않으므로, 양적인 특성은 음성 세그멘트에서 자동적으로 추출되어 기재된 신택틱 레벨로 분류될 수 있다. 하지만, 음성 세그멘트를 세만틱의 관점(예를 들면, 인식)에서 설명할 경우, 객체들은 중요한 역할을 한다. 객체들은 상이한 레벨에서의 카테고리에 위치할 수 있으며, 사과(apple)는 맥킨토시 애플 또는 과일로서의 사과로 분류될 수 있다. 객체의 인식은 음성 세그멘트에 기초할 수 있고, 따라서 유사하게 분류할 수 있다. 예를 들면, 음성 엔터티(예를 들어, 목소리)는 인간 또는 빌 클린턴에 대응할 수 있다. 포괄적 객체를 언급할 때, 우리는 기본 레벨 카테고리, 즉 매일의 지식을 인식할 수 있는 포괄적 객체의 가장 일반적인 레벨에 관심이 있다. 이는 불확정한 객체(예를 들어, 폭발, 비, 박수, 남자의 목소리, 여자의 목소리 등)의 특정한 본질을 알 수 없다. 음성 엔터티 설명자는 이 레벨로 분류될 수 있다.
포괄적 장면
음성 세그멘트에서와 같이, 개별 객체에 따라 인덱싱될 수 있으며, 포괄적 장면이 포함하는 전체 엔터티 세트와 배열에 기초하여 전체적으로 음성 세그멘트를 인덱싱할 수 있다. 음성 장면 부류의 예들은 거리의 잡음, 스타디움, 사무실, 사람들의 잡담, 콘서트, 뉴스룸 등을 포함한다. 이 레벨에 대한 가이드라인은 오직 일반 지식만이 필요하다는 것이다. 특정 음성 엔터티(예를 들면, 누구의 목소리인가) 또는 이 레벨에서 설명자를 획득하는 특정 음성 장면(어떤 콘서트인가)을 인식할 필요는 없다.
특정 객체
이전 레벨과 대조적으로, 특정 객체는 식별되고 명명된 음성 객체를 나타낸다. 특정 지식이 필요하며, 이 지식은 공지의 사실에 의존하므로 일반적으로 객관적이며, 이 레벨에서 잡음 및 사운드가 식별되고 명명된다. 예들은 개인의 목소리(예를 들면, 빌 클린턴) 또는 특징있는 잡음(예를 들면, 뉴욕 증권 거래소의 벨) 등을 포함한다.
특정 장면
이 레벨은 음성 세그멘트에서의 장면에 관한 특정 지식이 있다는 차이 외에는 포괄적 장면에 유사하다. 예를 들면, 마틴 루터 킹의 연설 "난 꿈이 있다(I have a dream)"에서, 음성 장면은 특별히 식별되고 명명된다. 1968년의 달 착륙 등도 그러하다.
추상 객체
이 레벨에서, 음성 엔터티가 나타내는 것에 관한 주관적인 지식을 이용한다. 이 인덱싱 레벨은 전적으로 주관적이며 상이한 사용자들 사이에 평가가 매우 다양해질 수 있다는 의미에서 가장 어려운 것이다. 이 레벨의 중요성은 다른 사람들 사이에서 화상을 설명하는 추상적인 속성을 사용하는 화상에 대한 실험에서 보여졌다. 감정적 속성(emotive attribute)은 음성 세그멘트의 객체에 할당될 수 있다.예를 들면, 소리(예를 들어 영화나 음악)는 공포, 행복 등으로 묘사될 수 있다.
추상 장면
추상 장면 레벨은 음성 세그멘트가 전체로서 대표하는 것을 나타낸다. 이는 매우 주관적일 수 있다. 화상에 대하여, 예를 들면, 사용자는 가끔 감정적인[예를 들어 감정(emotion)] 또는 추상적인(예를 들어 분위기, 테마) 용어로 화상을 표현한다는 것을 알 수 있다. 유사한 표현은 음성 세그멘트에 할당될 수 있으며, 예를 들면, 음성 장면을 표현하는 속성이 슬픔(예를 들어 사람들이 우는), 행복(예를 들어 사람들이 웃는) 등을 포함할 수 있다.
관계
관계의 형태
이 절에서, 제안되는 컨텐츠 요소들 사이에 명백한 관계 형태를 보여준다. 이 관계는 시각 컨텐츠에 먼저 보여준 것과 유사하다. 도 12에 도시한 바와 같이, 관계는 도 3과 관련하여 이전에 나타낸 음성 구조의 상이한 레벨에서 정의된다. 컨텐츠 요소들 사이에 관계를 나타내기 위하여, 신택틱와 세만틱의 분리를 고려한다.
신택틱 레벨에서, 신택틱 관계, 즉 공간적(예를 들어 소리 A는 소리 B에 가깝다), 시간적(예를 들어 동시) 그리고 음성(예를 들어 보다 시끄러운) 관계일 수 있으며, 이는 유일하게 신택틱 지식에 기초한다. 시공간적 속성은 기하학적 및 방향적 부류으로 분류될 수 있다. 음성 관계는 전체, 국부 및 합성으로 보다 인덱싱될 수 있다. 도 12에 나타낸 바와 같이, 이 레벨들 사이의 요소는 세만틱 관계는 물론, 신택틱 관계("바이올린에 가까운 트럼펫 소리"와 "트럼펫 악보는 바이올린 악보를 보완한다")에 관한 것일 수 있다. 2개의 상이한 형태의 세만틱 관계, 즉 동의어, 반대어, 하이포니미/하이퍼니미, 그리고 메로니미/홀로니미와 같은 어휘 관계(lexical relationship)와 동작(사건) 또는 상태를 나타내는 술어 관계를 구별한다.
여기서 제안하는 관계는 영상 신호에 대한 제안한 것에 유사하며, 이 2가지 경우에서의 차이는 관계가 아니라 속성에 있다. 예를 들면, 화상에서는 요소 A가 요소 B보다 더 소란하다고 말할 수는 없다. 음성 세그멘트에서는 요소 A가 요소 B보다 더 어둡다고 할 수 없다(음성 컨텐츠 자체에서 명백하게 표현된 것이 아니라면). 하지만, 관계의 형태는 동일하다. 하나는 음성이고 다른 하나는 시각이지만, 이들 모두는 전체로서 포괄적이다(표 4 참조).
예로써, 신택틱와 세만틱 관계를 보다 상세히 설명한다. 표 3 및 표 4는 예들을 포함하는 관계에 대한 인덱싱 구조를 요약한다.
신택틱 관계
신택틱 관계를 공간, 시간 및 음성의 3 부류로 분류한다. 혹자는 공간 및 시간 관계는 음성 관계의 특별 관계라고 주장할 수 있다. 하지만, 정보 또는 지속 시간이 없는 공간 또는 시간에서의 경계로서 요소를 간주하므로, 공간 및 시간 관계를 특별한 방식으로 정의한다. 제안된 형태의 신택틱 관계 및 예들의 요약은 표 3을 참조하라.
공간적 관계는 (1) 기하학적, 즉 요소의 경계가 어떻게 관련되는가, 그리고 (2) 방향성 또는 지향성, 즉 서로에 대하여 요소가 어디에 위치하는가(표 3 참조)로 분리된다. 이 관계는 가끔 음성 세그멘트에서 추출될 수 있으며, 예를 들면 뉴스 리포트의 스테레오 방송을 청취하는 경우, 신택틱 속성을 음성 엔터티에 할당하는 것이 용이함을 유의하여야 한다. 예를 들면, 상이한 음원 사이에 신택틱 관계에서, 어느 소리가 다른 소리에 가깝다고 평가할 수 있다. 이 경우, 신호에서 명백하지 않은 다소 상세한 기하하적 및 방향적 관계를 결정할 수 있다. 기하학적 관계의 예는 "에 가까운", " 내의" 그리고, "에 인접한"이며, 방향적 관계의 예는 "의 앞에", 그리고 "의 좌측에"이다. 이 관계와 시각 정보에서 획득한 관계 사이의 주요한 차이는 관계 그 자체의 추출에 있다는 것이며, 음성 자체로부터 일부 공간적인 관계를 결정하는 것은 매우 어렵지만, 합성된 음성 모델의 생성에서는 이 관계가 매우 중요한 역할을 한다.
유사한 방식으로, 시간적 관계를 기하학적 및 방향적 관계로 분류한다(표 3 참조). 시간적 기하학적 관계의 예들은 "동시 발생", "중첩" 그리고 "내에 발생" 등이며, 방향성 시간적 관계의 예들은 "이전에 발생" 그리고 "이후에 발생" 등이다. SMIL의 동시 및 순차 관계는 시간적 기하학적 관계의 예들이다.
음성 관계는 시각 속성 및 특징에 기초하여 음성 엔터티를 관련시킨다. 이 관계는 전체, 국부 및 합성 부류로 인덱싱될 수 있다(표 3 참조). 예를 들면, 음성 전체 관계는 "보다 잡음이 적은"(전체 잡음 특징에 기초하여), 음성 국부 관계는 "보다 소란한"(국부 소음 측정에 기초하여)일 수 있으며, 음성 합성 관계는 숨겨진 마르코프 모델(Hidden Markov Model)(HMM) 구조의 비교에 기초할 수 있다.
음성 구조가 상이한 레벨(포괄적, 특정, 그리고 추상)을 갖는 유사한 방식에서, 이러한 형태의 신택틱 관계(표 3 참조)는 포괄적 레벨("가까운") 또는 특정 레벨("로부터 10미터")에서 정의될 수 있다. 예를 들면, "연합하여", "교차하여" 그리고 "부정하여"와 같은 동작 관계는 공간적 또는 시간적이며 기하학적인 특정 관계일 수 있다(표 3 참조).
세만틱 관계
세만틱 관계는 10가지 레벨 개념 구조의 세만틱 레벨에서의 컨텐츠 요소 사이에만 발생할 수 있다. 세만틱 관계를 어휘 관계와 술어 관계로 분리한다. 표 4는 견본들을 포함하는 세만틱 관계를 요약한다. 세만틱 관계는 컨텐츠의 이해에 기초하므로, 시각 컨텐츠에서 획득한 관계에 대하여 음성 컨텐츠에서 획득한 관계에 대하여 동일하게 분류한다. 따라서, 여기서의 세만틱 관계는 영상 신호와 관련하여 기재한 것과 동일하다. 유일한 차이는 세만틱 컨텐츠를 추출하는 방식(예를 들어, 음성의 이해 대 화상 또는 영상의 이해)에 있다. 설명을 명확하게 하기 위하여,0 원래의 예들을 적용할 수도 있지만, 음성에 관련된 예를 사용한다. 예를 들면, 포괄적 동의어의 예로서 사과는 오렌지와 유사하고, 사과와 오렌지는 화자(speaker)가 말하는 경우에 음성으로부터 "인식"될 수 있다.
어휘 세만틱 관계는 월드넷(WorldNet)에 사용되는 명사 사이의 세만틱 관계에 대응한다. 이 관계는 동의어(바이올린은 비올라에 유사), 반대어[플루트(flute)는 드럼에 반대], 하이포니미(뮤지션은 악단의 일원), 하이퍼니미(악단은 뮤지션으로 구성)이다.
술어 세만틱 속성은 2개 이상의 요소 사이의 동작(사건) 또는 상태를 나타낸다. 동작 관계의 예는 "소리지르다" 및 "공을 치다" 등이다. 상태 관계의 예는 "속하다" 및 "소유하다" 등이다. 술어 세만틱을 동작 또는 상태로 분리하는 대신, 월드넷에 사용되는 부분 관계 세만틱 분해를 이용할 수 있다. 월드넷은 동사를 15개의 세만틱 영역으로 분리하는데, 이는 신체적 주의(care) 및 기능(function), 변화, 인식, 대화, 경쟁, 소비, 접촉, 생성, 감정, 동작, 인식, 소유, 0사회적 작용 및 날씨가 그것이다. 시각 개념의 설명에 적절한 영역만을 사용할 수 있다.
여기에 나타낸 10가지 레벨 음성 구조에서처럼, 상이한 레벨에서의 세만틱 관계를 정의할 수 있는데, 포괄적, 특정 및 추상이다. 예를 들면, 포괄적 동작 관계는 "주식의 소유하다"이며, 특정 동작 관계는 "주식의 80%를 소유하다"이며, 마지막으로 추상적인 세만틱 관계는 "회사를 지배하다"이다.
표 3 : 신택틱 관계를 위한 인덱싱 구조 및 예
Figure 112002000149088-pct00003

표 4 : 세만틱을 위한 인덱싱 구조 및 예
Figure 112002000149088-pct00004

본 발명은 인덱싱 및/또는 분류화 목적을 위해 디지털 신호(예를 들어 멀티미디어 신호)의 다중 레벨 분류용 방법은 물론 컴퓨터 기반 시스템을 포함한다. 상기 방법은 여기에 기재된 형태의 디지털 신호, 예를 들면 MPEG-7 표준 하에 디지털 멀티미디어 신호 또는 파일의 조작과 호환성이 있는 아트 인식형(또는 미래 개발형) 시스템을 처리하기 위한 임의의 시스템 내에 적용될 수 있다는 사실에 따라 다소 일반적인 수준에서 설명하였다.
일반적으로 고려되는 디지털 신호에 대한 표준화의 목적은 그 신호의 전송, 수집 및 출력에 대한 교차 플랫폼 호환성(cross-platform compatibility)을 증진시키므로, 본 발명을 구현하는 시스템에 시스템 소정 사양을 부여하는 것은 필요하지 않거나 바람직하지 않다. 오히려, 당업자는 당업계에 공지된 바람직한 하드웨어 및 소프트웨어 기법을 이용하여 일반적인 기재를 구현하는 방법을 인식할 것이다.
광범위한 예시를 위하여, 펜티엄 마이크로프로세서, 메모리(예를 들면, 하드 드라이브 및 RAM 용량), 화상 디스플레이, 및 적절한 멀티미디어 장치를 포함하는 개인용 컴퓨터 워크스테이션(personal computer workstation)과 같이, 디지털 신호를 처리, 표시, 수집, 또는 전송하는 임의의 멀티미디어 호환 장치와 더불어 본 발명을 실시하기 위한 시스템의 예시적인 실시예를 고려할 수 있다.
요약
본 발명은 전체 설계에 관련된 단점을 처리하기 위하여 현재의 포괄적 AV DS에 대한 기본 엔터티 관계 모델을 제안한다. 기본 엔터티 관계 모델은 (1) 컨텐츠 요소의 속성, (2) 컨텐츠 요소들 사이의 관계 및 (3) 컨텐츠 요소 자체를 인덱싱한다. 엔터티 관계 모델은 가장 광범위하게 사용되는 개념 모델이므로 이 모델링 기법을 사용한다. 이는 매우 높은 정도의 추상성을 제공하며 하드웨어 및 소프트웨어 독립적이다.
속성(또는 MPEG-7 설명자), 관계 및 컨텐츠 요소에 대한 신택틱 및 세만틱 사이에 차별을 둔다. 신택틱은 배열의 의미를 고려하지 않고 컨텐츠 요소들을 배열하는 방식을 나타낸다. 한편, 세만틱은 이러한 요소와 배열의 의미를 다룬다. 신택틱 및 세만틱 속성은 몇 개의 레벨을 나타낼 수 있다. 유사하게, 신택틱 및 세만틱 레벨은 상이한 레벨을 나타내는 세부 형태로 더 분화될 수 있다. 속성의 종류의 다른 요소들 사이의 관계에 기초하여 신택틱 및 세만틱 요소들의 간결하고 명료한 정의를 내린다. 하지만 포괄적 AV DS와의 주요한 차이는 세만틱 요소가 세만틱 속성은 물론 신택틱 속성을 포함한다는 것이다. 따라서, 응용이 신택틱와 세만틱 요소 사이에 차별을 두지 않는 것이 나은 경우에는 세만틱 요소만을 사용하여 행할 수 있다.
본 발명의 전술한 예들과 실시예는 단지 예시적인 목적으로 기재된다. 당업자는 이러한 실시예들이 본 발명의 사상 또는 범위를 한정하지 않음을 인식할 것이며, 본 발명은 첨부된 청구범위로만 제한된다.

Claims (60)

  1. 미디어 컨텐츠 관리 시스템을 위해 복수의 디지털 정보 신호를 인덱싱하는 방법에 있어서,
    상기 미디어 컨텐츠 관리 시스템을 위한 상기 디지털 신호 각각에 대하여, 신택틱(syntactic) 레벨 및 세만틱(semantic) 레벨을 지원하는 다중 레벨의 인덱싱 모듈을 통해 상기 디지털 정보 신호를 처리하는 단계를 포함하며,
    상기 인덱싱 모듈은
    (ⅰ) 상기 디지털 정보 신호의 컨텐츠에 대한 복수의 정의된 레벨에 따라 상기 디지털 정보 신호를 수신하고 분석하고;
    (ⅱ) 상기 인덱싱 레벨 중 적어도 하나에 대해, 각각의 상기 인덱싱 레벨에 관한 컨텐츠 기반의 데이터를 추출하도록
    동작하며,
    상기 컨텐츠 기반의 데이터는 기술 요소(description elements)에 관한 데이터, 속성에 관한 데이터 및 기술 요소들 사이의 관계에 관한 데이터 중 적어도 하나를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  2. 제1항에 있어서,
    상기 신택틱 레벨은,
    (ⅰ) 형태/기법(type/technique),
    (ⅱ) 전체적 분배(global distribution),
    (ⅲ) 국부적 구조(local structure), 및
    (ⅳ) 전체적 합성(global composition)
    으로 구성되는 레벨의 그룹으로부터 선택된 적어도 하나의 레벨을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  3. 제1항에 있어서,
    상기 세만틱 레벨은,
    (ⅰ) 포괄적 객체(generic object),
    (ⅱ) 포괄적 장면(generic scene),
    (ⅲ) 특정 객체(specific object),
    (ⅳ) 특정 장면(specific scene),
    (ⅴ) 추상적 객체(abstract object), 및
    (ⅵ) 추상적 장면(abstract scene)
    으로 구성되는 레벨의 그룹으로부터 선택된 적어도 하나의 레벨을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  4. 제1항에 있어서,
    상기 기술 요소는 신택틱 요소를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  5. 제4항에 있어서,
    상기 신택틱 요소는,
    (ⅰ) 영역(region),
    (ⅱ) 애니메이트된 영역(animated region), 및
    (ⅲ) 세그멘트(segment)
    로 구성되는 요소의 그룹으로부터 선택된 적어도 하나의 요소를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  6. 제1항에 있어서,
    상기 기술 요소는 세만틱 요소를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  7. 제4항에 있어서,
    상기 세만틱 요소는,
    (ⅰ) 객체(object),
    (ⅱ) 애니메이트된 객체(animated object), 및
    (ⅲ) 사건(event)
    으로 구성되는 요소의 그룹으로부터 선택된 적어도 하나의 요소를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  8. 제1항에 있어서,
    상기 속성은
    (ⅰ) 신택틱(syntactic), 및
    (ⅱ) 세만틱(semantic)
    으로 구성되는 그룹으로부터 선택된 속성을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  9. 제1항에 있어서,
    상기 관계는 신택틱 관계를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  10. 제9항에 있어서,
    상기 신택틱 관계는,
    (가) 공간적(spatial),
    (나) 시간적(temporal), 및
    (다) 시각적 관계(visual relationships)
    로 구성되는 그룹으로부터 선택된 관계를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  11. 제1항에 있어서,
    상기 관계는 세만틱 관계를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  12. 제 11항에 있어서,
    상기 세만틱 관계는
    (가) 어휘적, 및
    (나) 서술적 관계
    로 구성되는 그룹으로부터 선택된 적어도 하나의 관계를 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  13. 제1항에 있어서,
    상기 디지털 정보 신호는 멀티미디어 데이터 파일을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  14. 제13항에 있어서,
    상기 멀티미디어 데이터 파일은 비디오 파일을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  15. 제13항에 있어서,
    상기 멀티미디어 데이터 파일은 음성 파일을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  16. 제1항에 있어서,
    상기 디지털 정보 신호는 멀티미디어 데이터 파일의 작은 부분을 포함하는, 복수의 디지털 정보 신호를 인덱싱하는 방법.
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
KR1020027000069A 1999-07-03 2000-06-30 복수의 디지털 정보 신호를 인덱싱하는 방법 KR100771574B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14232599P 1999-07-03 1999-07-03
US60/142,325 1999-07-03

Publications (2)

Publication Number Publication Date
KR20020050220A KR20020050220A (ko) 2002-06-26
KR100771574B1 true KR100771574B1 (ko) 2007-10-30

Family

ID=22499415

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027000069A KR100771574B1 (ko) 1999-07-03 2000-06-30 복수의 디지털 정보 신호를 인덱싱하는 방법

Country Status (7)

Country Link
EP (1) EP1194870A4 (ko)
JP (1) JP4643099B2 (ko)
KR (1) KR100771574B1 (ko)
CN (1) CN1312615C (ko)
AU (1) AU6065400A (ko)
MX (1) MXPA02000040A (ko)
WO (1) WO2001003008A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844079B1 (fr) * 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
JP2007265341A (ja) * 2006-03-30 2007-10-11 Sony Corp コンテンツ利用方法、コンテンツ利用装置、コンテンツ記録方法、コンテンツ記録装置、コンテンツ提供システム、コンテンツ受信方法、コンテンツ受信装置およびコンテンツデータフォーマット
BRPI0605994B1 (pt) * 2006-09-29 2019-08-06 Universidade Estadual De Campinas - Unicamp Processo de randomização progressiva para análise e raciocínio em multimídia
US8407241B2 (en) 2009-06-12 2013-03-26 Microsoft Corporation Content mesh searching
US10417263B2 (en) 2011-06-03 2019-09-17 Robert Mack Method and apparatus for implementing a set of integrated data systems
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
US8537983B1 (en) 2013-03-08 2013-09-17 Noble Systems Corporation Multi-component viewing tool for contact center agents
DK2983763T3 (en) 2013-04-10 2017-08-28 Sanofi Sa DRIVING MECHANISM FOR A PHARMACEUTICAL SUPPLY DEVICE
KR101461183B1 (ko) * 2013-09-23 2014-11-28 장우용 디지털 콘텐트 생성 시스템 및 방법
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US10349093B2 (en) * 2014-03-10 2019-07-09 Cisco Technology, Inc. System and method for deriving timeline metadata for video content
US9946769B2 (en) 2014-06-20 2018-04-17 Google Llc Displaying information related to spoken dialogue in content playing on a device
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US10349141B2 (en) 2015-11-19 2019-07-09 Google Llc Reminders of media content referenced in other media content
US10034053B1 (en) 2016-01-25 2018-07-24 Google Llc Polls for media program moments
US10432987B2 (en) 2017-09-15 2019-10-01 Cisco Technology, Inc. Virtualized and automated real time video production system
CN111341319B (zh) * 2018-12-19 2023-05-16 中国科学院声学研究所 一种基于局部纹理特征的音频场景识别方法及系统
CN113673635B (zh) * 2020-05-15 2023-09-01 复旦大学 一种基于自监督学习任务的手绘草图理解深度学习方法
CN113221566B (zh) * 2021-05-08 2023-08-01 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN116821692A (zh) * 2023-08-28 2023-09-29 北京化工大学 描述文本和空间场景样本集的构建方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3303543B2 (ja) * 1993-09-27 2002-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチメディア・セグメントを構成してプレイする方法、および2つ以上のマルチメディア・ストーリーをハイパーストーリーとして構成してプレイする方法
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure

Also Published As

Publication number Publication date
WO2001003008A1 (en) 2001-01-11
JP4643099B2 (ja) 2011-03-02
EP1194870A4 (en) 2008-03-26
MXPA02000040A (es) 2003-07-21
AU6065400A (en) 2001-01-22
CN1372669A (zh) 2002-10-02
CN1312615C (zh) 2007-04-25
JP2003507808A (ja) 2003-02-25
EP1194870A1 (en) 2002-04-10
KR20020050220A (ko) 2002-06-26

Similar Documents

Publication Publication Date Title
KR100771574B1 (ko) 복수의 디지털 정보 신호를 인덱싱하는 방법
US6847980B1 (en) Fundamental entity-relationship models for the generic audio visual data signal description
Amato et al. AI in the media and creative industries
Snoek et al. Multimodal video indexing: A review of the state-of-the-art
US6411724B1 (en) Using meta-descriptors to represent multimedia information
Jaimes et al. Conceptual framework for indexing visual information at multiple levels
Zlatintsi et al. COGNIMUSE: A multimodal video database annotated with saliency, events, semantics and emotion with application to summarization
US8949198B2 (en) Systems and methods for building a universal multimedia learner
Benitez et al. MediaNet: A multimedia information network for knowledge representation
Vijayakumar et al. A study on video data mining
Troncy et al. Multimedia semantics: metadata, analysis and interaction
Petkovic et al. CONTENT-BASED VIDEO RETRIEVAL: A DatabllSe Perspective
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
Fourati et al. A survey on description and modeling of audiovisual documents
Sikos et al. The Semantic Gap
Jaimes Conceptual structures and computational methods for indexing and organization of visual information
Snoek The authoring metaphor to machine understanding of multimedia
Bozzon et al. Chapter 8: Multimedia and multimodal information retrieval
Parian-Scherb et al. Gesture retrieval and its application to the study of multimodal communication
Gagnon et al. ERIC7: an experimental tool for Content-Based Image encoding and Retrieval under the MPEG-7 standard
Zhang Toward High-Level Visual Information Retrieval
Manzato et al. Supporting multimedia recommender systems with peer-level annotations
Maybury Multimedia information extraction: History and state of the art
Azaiez et al. An approach of a semantic annotation and thematisation of AV documents
Petrushin Introduction into multimedia data mining and knowledge discovery

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee