KR101648204B1

KR101648204B1 - 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성

Info

Publication number: KR101648204B1
Application number: KR1020107010098A
Authority: KR
Inventors: 마우로 바르비에리; 요한네스 베다
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2007-10-08
Filing date: 2008-10-02
Publication date: 2016-08-12
Also published as: US20100274782A1; WO2009047674A2; JP5302319B2; EP2210196A2; WO2009047674A3; JP2010541092A; CN101821735A; CN101821735B; KR20100072070A; US8321456B2

Abstract

콘텐트 아이템들에 포함되는 데이터를 처리하기 위한 시스템(1)에 액세스가능한 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터를 자동으로 생성하는 방법은, 개별적으로 콘텐트 아이템들과 연관된 메타데이터의 세트들을 얻는 단계를 포함하고, 메타데이터의 각 세트는 콘텐트 아이템과 연관된 적어도 하나의 속성값을 포함한다. 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성값들에 대한 적어도 하나의 분포가 분석된다. 적어도 하나의 속성값은 그 분석에 의존하여 선택된다. 선택된 속성값(들)은 컬렉션과 연관하여 메타데이터를 생성하도록 처리되고, 생성된 메타데이터는 콘텐트 아이템들의 컬렉션의 식별과 관련하여 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 시스템(1)에 대해 이용가능하게 된다.

Description

콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성{GENERATING METADATA FOR ASSOCIATION WITH A COLLECTION OF CONTENT ITEMS}

본 발명은 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 시스템에 액세스가능한 콘텐트 아이템들의 컬렉션과의 연관을 위한 메타데이터를 자동으로 생성하는 방법에 관한 것이다.

본 발명은 또한 콘텐트 아이템들의 컬렉션과의 연관을 위한 메타데이터를 자동으로 생성하는 시스템에 관한 것이다.

본 발명은 또한 컴퓨터 프로그램에 관한 것이다.

US2006/0020597호는 예컨대, 비주얼 이미지들의 컬렉션에 대한 인덱싱(indexing), 비주얼 이미지들의 컬렉션에 대한 비주얼 이미지들의 그룹핑(grouping), 비주얼 이미지들의 컬렉션에 대한 요약(summarization), 비주얼 이미지들의 그룹들의 주석(annotation), 비주얼 이미지들의 탐색, 및 비주얼 이미지들의 그룹으로부터 대표적인 비주얼 이미지의 식별과 같은, 비주얼 이미지들과의 다양한 상호작용들에 영향을 미치기 위해 비주얼 이미지 콘텐트 평가(visual image content evaluation)를 이용하는 것과 관련된다. 비주얼 이미지들의 컬렉션에서 비주얼 이미지들의 그룹들은 그룹들 각각에 대한 이미지 대표를 식별하고, 이미지 대표들 각각의 다른 이미지 대표들 각각에 대한 유사성을 결정하고, 각각의 이미지 대표의 다른 이미지 대표들에 대한 유사성에 기초하여 비주얼 이미지들의 그룹들을 주석함으로써 주석될 수 있다. 비주얼 이미지들의 그룹에 대한 이미지 대표는 비주얼 이미지들의 그룹 중의 모든 비주얼 이미지들에 대해 하나 이상의 이미지 특징들의 평균일 수 있다.
US 2007/0136286 A1은 디지털 시스템에 저장된 분류가능한 아이템들의 컬렉션을 브라우징하는 방법을 개시한다. 복수의 그룹핑 계층들이 제공되고, 각각은 아이템들이 관련가능한 그룹들을 형성하는 분류 순서 그룹핑 레벨들을 포함한다. 적어도 하나의 그룹핑 계층은 분류 순서 및 적어도 하나의 그룹핑 레벨을 포함한다. 컬렉션에서 하나의 아이템은 포커스 아이템으로 설정되어 현재 그룹핑 계층의 현재 포커스 그룹을 확립한다. 이후, 포커스 아이템은 복수 중 하나로부터의 새로운 그룹핑 계층의 선택시 유지된다. 아이템들의 컬렉션을 디스플레이하는 것은 아이템들과 연관될 수 있는 복수의 분류 순서들 중 하나의 분류 순서에 따라 분류된 리스트에서 아이템들을 정렬함으로써 수행될 수 있다. 이후, 복수의 그룹핑 계층들이 이용될 수 있고, 각각의 그룹핑 계층은 분류 순서들 중 하나에 대응하고, 각각의 그룹핑 계층의 각각의 레벨은 각각의 다른 그룹핑 계층의 적어도 하나의 레벨에 연관될 수 있다. 컬렉션의 적어도 일부는 나타내진 아이템들의 하나의 분류 순서 및 대응하는 하나의 그룹핑 계층에 기초하여 디스플레이된다.

공지된 방법의 문제점은 이미지 특징의 평균값이 종종 의미 없다는 점이다. 특히, 이미지들의 큰 그룹들에 대해, 이미지 특징의 평균값은 특징의 가능한 값들의 범위에서 중간값이 되는 경향이 있다. 이것은 주석이 계층적으로 조직화된 비주얼 이미지들을 브라우징하고 탐색하는데 적합하지 않게 만든다.

본 발명의 목적은, 인간의 개입을 최소화하거나 전혀 개입 없이, 콘텐트 아이템들을 처리하기 위한 시스템에 의해 이러한 컬렉션들의 빠른 로케이션(location)을 위한 콘텐트 아이템들의 컬렉션들에 대한 효과적인 대표의 생성에 적합한, 위의 도입 단락들에서 언급된 타입들의 방법, 시스템 및 컴퓨터 프로그램을 제공하는 것이다.

이 목적은:

콘텐트 아이템들에 개별적으로 연관된 메타데이터의 세트들을 얻는 단계로서, 메타데이터의 각각의 세트가 콘텐트 아이템과 연관된 적어도 하나의 속성값(attribute value)을 포함하는, 상기 세트들을 얻는 단계,

각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대해 속성값들 중 적어도 하나의 분포(distribution)를 분석하는 단계,

상기 분석에 의존하여 적어도 하나의 속성값을 선택하는 단계,

상기 컬렉션과 연관하여 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하는 단계, 및

생성된 메타데이터를, 콘텐트 아이템들의 컬렉션의 식별과 관련하여 콘텐트 아이템들에 포함된 데이터를 처리하는 시스템에 이용가능하게 만드는 단계를 포함하는, 본 발명에 따른 방법에 의해 달성된다.

제공된 배경에서, 정보 베어링 엔티티들(information-bearing entites)의 특징들을 설명하는 구조된 인코딩된 데이터(structured encoded data)를 의미하도록 메타데이터가 취해진다.

컬렉션과 연관하여 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리함으로써, 보다 효과적인 대표(representation)가 얻어지고, 예컨대, 모든 콘텐트 아이템들의 메타데이터의 완전한 리스트 또는 대표적인 콘텐트 아이템의 선택에 비교된다. 모든 속성값들을 사용하기보다는, 속성값들을 선택함으로써, 생성된 메타데이터가 비교적 빠르게 만들어진다. 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성의 값들 중 적어도 하나의 분포의 분석 또는 분석들에 기초하여 속성값들을 선택함으로써, 컬렉션에 관련 있는 속성값들을 선택하는 것이 가능하다. 더욱이, 값들의 분포들을 분석하고, 속성값 또는 속성값들을 선택하는 스텝들은, 사용자 개입이 원칙적으로 불필요하도록 자동으로 수행되는데 적합하다. 콘텐트 아이템들의 컬렉션에 대한 식별과 관련하여 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 시스템에 이용가능한 생성된 메타데이터를 만듦으로써, 시스템의 사용자로 하여금, 콘텐트 아이템들의 컬렉션을 우선 로케이트(locate)하고, 이어서, 선택적으로 컬렉션 내의 각각의 콘텐트 아이템들을 로케이트하여, 적절한 콘텐트 아이템들을 보다 효과적으로 로케이트하는 것을 가능하게 만든다.

실시예는 계층적인 파일 시스템에 의해 유지되는 데이터를 사용하여 컬렉션에 포함된 콘텐트 아이템들을 식별하는 것을 포함한다.

달성되는 효과는, 자동화된 시스템이 메타데이터를 생성하는 포인트에서 인간의 개입 없이 비교적 쉽게 컬렉션의 멤버들을 식별하는 방법을 수행할 수 있다는 점이다. 즉, 컬렉션을 규정하기 위한 입력 데이터를 제공하는 것이 인간에게 불필요하다. 계층적인 파일 시스템은, 각각이 컬렉션을 나타내는 디렉토리들 및 서브-디렉토리들 또는 내포된 폴더들과 같은 어낼러지(analogy)에 콘텐트 아이템들의 기원(organization)을 제공한다.

실시예에서, 분석에 의존하여 적어도 하나의 속성값을 선택하는 단계는, 개별적으로 컬렉션 내의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 포함된 값들을 갖는 모든 속성들보다 적은 적어도 하나의 값을 선택하는 단계를 포함한다.

효과는, 컬렉션의 요약 설명(concise description)이 관련된 속성들만을 사용하여 생성된다는 점이다. 컬렉션을 특징화하는데 적합하지 않고 또는 고려 중인 타입의 콘텐트 아이템들의 컬렉션들을 특징화하는테 일반적으로 적합하지 않은 이들 속성들의 값들은 사용되지 않는다.

실시예는, 다수의 속성들 각각 중에서 적어도 하나의 값을 선택하는 단계를 포함하며, 그 수는:

사용자 입력, 및

각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성의 값들 중 적어도 하나의 분포에 대한 분석 결과들 중 적어도 하나에 기초한다.

효과는, 메타데이터를 비교적 빠르게 만들기 위해 콘텐트 아이템들의 컬렉션과 연관하고, 또는 콘텐트 아이템들의 전체 컬렉션을 나타내는 메타데이터의 볼륨(volume)을 채택하는 것이 가능하다는 점이다.

본 발명에 따라, 적어도 하나의 속성값을 선택하는 단계는, 개별적으로 각각의 콘텐트 아이템들과 연관된, 복수의 속성들 각각의 메타데이터의 세트들에 대한 값들의 분포들의 비교 분석에 의해 적어도 하나의 속성을 선택하는 단계를 포함한다.

효과는, 컬렉션을 구별하고, 가능한 많은 컬렉션 내 콘텐트 아이템들에 관련되는 속성의 값 또는 값들을 선택하는 것이 가능하다는 점이다.

실시예에서, 비교 분석은 복수의 후보 속성들 각각에 대해,

개별적으로 각각의 콘텐트 아이템들과 연관된 후보 속성의 값들의 유사성에 따라 해체 세트들(disjoint sets)에 콘텐트 아이템들의 컬렉션을 구획하는(partitioning) 단계, 및

컬렉션의 사이즈에 대해여, 적어도 후보 속성에 대해 행해진 구획에서 가장 큰 세트의 상대적인 사이즈에 기초한 팩터(factor)에 따라 속성들을 랭킹(ranking)하는 단계를 포함한다.

효과는, 컬렉션 내의 많은 콘텐트 아이템들에 적용하는 속성값들에 대해 보다 큰 가중이 주어진다는 점이다. 용어 "유사성"이 필연적으로 값들의 아이덴티티(identity)를 암시하는 것이 아님이 관찰된다. 그것은, 유사성의 임의의 측정치에 따라 값들이 매치한다는 것을 나타낸다.

실시예에서, 비교 분석은 복수의 후보 속성들 각각에 대해,

개별적으로 각각의 콘텐트 아이템들과 연관된 후보 속성의 값들의 유사성에 따라 해체 세트들에 콘텐트 아이템들의 컬렉션을 구획하는 단계, 및

적어도 속성에 대해 얼마나 많은 세트들이 얻어지는지에 기초한 팩터에 따라 후보 속성들을 랭킹하는 단계를 포함한다.

달성되는 효과는, 컬렉션 내 콘텐트 아이템들에 대한 값들의 넓은 확산을 갖는 속성들을 제거하는 것이 가능하다는 점이다.

실시예에서, 후보 속성들은 세트들의 수의 변경들보다, 가장 큰 세트의 상대적인 사이즈의 변경들에 대해 더 민감한 팩터에 따라 랭크된다.

효과는, 지배적인 값 이외의 값들이 비교적 드물게 나타날 때 컬렉션에 대한 값들의 큰 범위를 나타내는, 속성들을 제거하는 것이 회피된다는 점이다.

실시예에서, 비교 분석은 적어도 부분적으로, 후보 속성들에 할당된 우선순위 값들(priority values)에 기초한 팩터에 따라 후보 속성들을 랭킹하는 것을 포함한다.

달성되는 효과는, 바람직하게는, 일반적으로 콘텐트 아이템들의 컬렉션을 나타내는 메타데이터를 생성하는데 내재적으로 보다 적합한 속성들의 값들이 선택된다는 점이다.

변형으로, 우선순위 값들은 적어도 부분적으로 컬렉션 외부의 콘텐트 아이템들을 사용하여, 개별적으로 각각의 콘텐트 아이템들과 연관된 메타데이터에 대한 후보 속성값들의 분포들의 분석을 수행함으로써 얻어진다.

효과는, 콘텐트 아이템들의 컬렉션이 도입될 필요가 없음을 설명하는 메타데이터를 생성하는데 사용하기에 그 속성들의 인식(knowledge)이 가장 적합하다는 점이다. 예컨대, 공연중인 아티스트가 컬렉션들 간의 구별을 위한 최상의 속성임을 알 필요는 없다. 또 다른 효과는, 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 동일한 시스템에 액세스가능한 다른 컬렉션들 내의 콘텐트 아이템들에 대한 속성값들의 분포들에 의존하여 속성값(들)의 선택을 맞추기(tailoring) 위한 잠재력이 제공된다는 점이다. 이것은 생성된 메타데이터를 탐색 및 브라우징하기에 보다 적합하게 만든다. 예로서, 동일한 시스템에 액세스가능한 다른 컬렉션들을 분석함으로써, 시스템의 사용자가 스타일, 예컨대 재즈 트랙들(jazz tracks)을 포함하는 디렉토리, 팝 트랙들을 포함하는 디렉토리 등에 따라 컬렉션들에, 오디오 파일들의 컬렉션 전체를 분류하는 것이 결정될 수 있다. 스타일에 우선순위를 매김으로써, 디렉토리가 그 디렉토리에서 지배적인 음악의 스타일을 나타내는 메타데이터와 연관되는 것이 보다 용이하고, 또한 하나의 디렉토리 내의 오디오 파일들 모두가 동일한 공연중인 아티스트에 의한 것일 수 있다.

실시예는 컬렉션과 연관하여 메타데이터를 생성하도록 처리하기 위한 선택된 속성의 다수 값들을 선택하는 단계를 포함하고, 여기에서, 그 수는:

사용자 입력, 및

개별적으로 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성의 값들에 대한 분포의 특징 중 적어도 하나에 기초한다.

효과는, 다수의 값들이 선택될 수 있고, 하나의 속성값이 컬렉션 내의 대다수 콘텐트 아이템들에 속하지 않는다는 점이다.

실시예에서, 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하는 스텝은 적어도 하나의 선택된 속성값에 대응하는 속성값 정보를 포함하는 메타데이터를 생성하는 단계, 및 개별적으로 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트에 대한 선택된 속성의 값들의 분포에 대한 분석에 기초하여 데이터를 인정하는(qualifying) 단계를 포함한다.

효과는, 선택된 속성값들에 기초하고 또한 선택된 값(들)이 컬렉션 전체에 대해 얼마나 적절한지를 나타내는 메타데이터가 생성된다는 점이다.

실시예에서, 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하는 스텝은 설명적인 표현(descriptive phrase))을 나타내는 텍스트 데이터를 합성하는(synthesizing) 것을 포함한다.

효과는, 콘텐트 아이템들의 컬렉션들을 탐색, 브라우징, 및/또는 관리하기 위한 사용자 인터페이스에 사용하는데 적합한 데이터가 제공된다는 점이다.

실시예는, 분석에 의존하여 적어도 하나의 속성값의 선택시에, 분석을 반복하기 전에 선택된 속성값(들)에 대응하는 적어도 하나의 속성값을 포함하는 것 이외에 컬렉션 내 각 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 분석을 반복하는 단계를 포함한다.

효과는, 이들 특징들과 대해 이질적인 콘텐트 아이템들의 클러스터들(clusters)을 포함하는 콘텐트 아이템들의 컬렉션을 위한 의미있는 메타데이터의 생성이다. 즉, 각각의 클러스터 내의 아이템들이 비교적 심플한 특징들, 하지만 클러스터들 사이에서 아주 상이한 특징들을 갖도록, 컬렉션은 콘텐트 아이템들의 클러스터들로 분할될 수 있고, 이 사실을 사용자에게 알리기에 적합한 메타데이터가 생성된다.

실시예에서, 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하는 스텝은, 콘텐트 아이템들의 상이한 컬렉션을 위해 생성된 메타데이터와 비교하여 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하는 단계, 및 비교를 위해 생성된 메타데이터가 특정의 최소치보다 작게 상이하면, 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성의 값들 중 적어도 하나의 분포에 대한 분석에 의존하여 적어도 하나의 추가적인 속성값을 선택하는 단계를 포함하고, 여기에서, 적어도 추가적인 선택된 속성값(들)은 컬렉션과 연관하여 메타데이터를 생성하기 위해 처리된다.

효과는, 콘텐트 아이템들의 컬렉션들 중의 상이한 컬렉션들 사이에서의 선택을 허용하도록 충분히 구별적인 메타데이터의 생성이다.

실시예에서, 콘텐트 아이템들의 속성의 값들에 따라 컬렉션 내 콘텐트 아이템들의 순서를 결정하는 단계를 포함하고, 여기에서, 콘텐트 아이템들의 컬렉션과 연관하는 메타데이터는, 선택된 속성값(들)에 대응하는 속성값을 포함하는 메타데이터의 세트와 연관된 콘텐트 아이템들이 순서적으로 적합한지에 기초하여 선택된 속성값(들)을 인정하기 위해서 생성된다.

효과는, 컬렉션 내 콘텐트 아이템들의 리스트를 통해 효과적인 브라우징을 용이하게 하는 메타데이터의 생성이다. 콘텐트 아이템들의 컬렉션과 연관된 메타데이터가, 선택된 속성값(들)에 대응하는 속성값을 포함하는 메타데이터의 세트에 관련된 콘텐트 아이템들이 순서적으로 적합한지에 기초하여 선택된 속성값(들)을 인정하는 정보 및 적어도 하나의 선택된 속성값을 포함하므로, 정보는 선택된 속성값(들)이 적용가능한 콘텐트 아이템들을 찾기 위해 콘텐트 아이템들의 리스트에 제공된다. 속성이 발매의 년도(year of release)이면, 메타데이터는 컬렉션이 50년대부터 시작해서 증가하는 최근의 아이템들을 포함한다는 것을 나타낼 수 있다. 이 메타데이터가 파일 브라우저의 사용자에 액세스가능하게 만들어질 때, 사용자는 70년대부터 콘텐트 아이템들에 대한 리스트를 어느 정도 내려 보는 것을 알 것이다.

실시예에서, 콘텐트 아이템들에 포함된 데이터를 처리하는 시스템에 이용가능한 생성된 메타데이터를 만드는 것은, 파일 시스템에 의해 유지되는 데이터와 연관하여 생성된 메타데이터를 저장하는 단계, 및 콘텐트 아이템들에 대응하는 파일들의 그룹을 식별하는 단계를 포함한다.

효과는, 정보제공 태그들(informative tags)이 콘텐트 아이템들을 발견하고 액세스하기 위한 그래픽적인 사용자 인터페이스에 부가될 수 있고, 예컨대 콘텐트 아이템들의 효과적인 탐색과 검색이 가능해 진다는 점이다.

실시예에서, 개별적으로 콘텐트 아이템과 연관된 메타데이터의 세트들을 얻는 스텝은:

각각의 콘텐트 아이템들을 포함하는 데이터 오브젝트들에 인코딩된 메타데이터를 판독하는(reading) 단계;

각각의 콘텐트 아이템들에 포함되는 데이터에 인코딩되고, 적어도 하나의 속성값을 생성하기 위해서, 적어도 하나의 미리 결정된 알고리즘에 따라 콘텐트 제공 시스템(content presentation system) 상에서 인식가능한 형태(perceptible form)로 렌더링(rendering)하기에 적합한 신호들을 분석하는 단계;

적어도 하나의 속성값을 생성하기 위해서, 콘텐트 아이템들에 대응하는 데이터가 얻어질 수 있는 각각의 로케이션들을 분석하는 단계; 및

콘텐트 아이템들의 식별들을 얻고, 콘텐트 아이템들에 포함된 데이터를 처리하는 시스템으로부터 이격된 데이터베이스 시스템에 대한 식별들을 제출하고(submitting), 데이터베이스 시스템으로부터 메타데이터의 각 세트들을 얻는 단계 중 적어도 하나를 포함한다.

효과는, 자동화된 시스템에서 구현하기에 적합한 방법이 행해진다는 점이다.

또 다른 양태에 따라, 본 발명에 따라 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터를 자동으로 생성하는 시스템은:

개별적으로 콘텐트 아이템들과 연관된 메타데이터의 세트들을 얻고, 메타데이터의 각 세트는 콘텐트 아이템과 연관된 적어도 하나의 속성값을 포함하고,

각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성값들 중의 적어도 하나의 분포를 분석하고,

분석에 의존하여 적어도 하나의 속성값을 선택하고,

컬렉션과 연관하여 메타데이터를 생성하기 위해 선택된 속성값(들)을 처리하도록 구성되고,
상기 적어도 하나의 속성값을 선택하는 것은 복수의 속성들 각각의 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 값들의 분포들에 대한 비교 분석에 의해 적어도 하나의 속성을 선택하는 것을 포함한다.

시스템은 콘텐트 아이템들의 컬렉션들에 대한 효과적이고 정확한 설명들(descriptions)을 자동으로 생성하기에 적합하다.

시스템의 실시예는 본 발명에 따른 방법을 수행하도록 구성된다.

본 발명의 또 다른 양태에 따라, 기계-판독가능 매체에 포함될 때, 정보 처리 성능들을 갖는 시스템으로 하여금 본 발명에 따른 방법을 수행하게 할 수 있는 지시들(instructions)의 세트를 포함하는 컴퓨터 프로그램이 제공된다.

본 발명은 도면들을 참조하여 상세히 설명될 것이다.

본 발명은, 인간의 개입을 최소화하거나 전혀 개입 없이, 콘텐트 아이템들을 처리하기 위한 시스템에 의해 이러한 컬렉션들의 빠른 로케이션(location)을 위한 콘텐트 아이템들의 컬렉션들에 대한 효과적인 대표의 생성에 적합한, 위의 도입 단락들에서 언급된 타입들의 방법, 시스템 및 컴퓨터 프로그램을 제공한다.

도 1은 메타데이터를 자동으로 생성하는 방법을 구현하기 위한 네트워크된 컴퓨터 환경을 개략적으로 도시하는 도면.
도 2는 생성된 메타데이터를 자동으로 사용하는 그래픽 사용자 인터페이스의 간략화된 스크린 뷰를 도시하는 도면.
도 3은 메타데이터를 자동으로 생성하는 방법의 실시예를 도시하는 흐름도.

도 1에 도시된 바와 같이, 컴퓨터(1)는 프로세서(2), 메인 메모리(3), 데이터 저장 디바이스(4), 및 네트워크 인터페이스(5)를 포함한다. 컴퓨터(1)는 일반적인 목적의 개인용 컴퓨터, 예컨대 휴대용 미디어 플레이어인 미디어 플레이어, 또는 PDA(Personal Digital Assistant) 또는 스마트 폰과 같은 유사한 휴대 디바이스로서 구현될 수 있다. 데이터 저장 디바이스(4)는 고정된 디스크 드라이브, 메모리 디바이스에 대한 인터페이스 등일 수 있다.

그래픽 사용자 인터페이스는 사용자 제어기들(6) 및 그래픽 출력 디바이스(7)에 의해 제공된다. 또한, 인식가능한 형태로 오디오 신호들을 렌더링하기 위해 디지털 신호 프로세서(8), 오디오 출력 디바이스(9) 및 확성기(10)가 도시된다.

오디오 신호들은 데이터 저장 디바이스(4)에 저장된 오디오비주얼 미디어 파일들 내에 또는 네트워크(12) 예컨대 인터넷을 통해 컴퓨터(1)와 통신하는 콘텐트 아이템 서버(11) 상에서 구성된다.

실시예에서, 컴퓨터(1)는 오디오비주얼 미디어 파일들에 포함된 오디오 및/또는 비디오 신호들을 관리, 탐색, 브라우징 및 플레이백(play back)하기 위한 사용자 인터페이스를 제공하도록 컴퓨터(1)를 인에이블하는 지시들을 포함하는 소프트웨어를 저장하기 위해 배치된다. 컴퓨터(1)는 또한, 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 기초하여, 컴퓨터(1)에 액세스가능한 오디오비주얼 미디어 파일들의 컬렉션과 연관하여 메타데이터를 생성하도록 구성된다.

컴퓨터(1)에 의해 제공된 그래픽 사용자 인터페이스는 오디오비주얼 미디어 파일들을, 도 2에 도시된 방식으로 브라우징을 위해 이용가능하게 만들 수 있다. 도 2는 오디오비주얼 미디어 파일들이 폴더들(13, 14, 15)로써 나타내지는, 디렉토리들 및 서브-디렉토리들에서 계층적으로 어떻게 조직화되는지를 도시한다. 그 폴더 하에서 조직화된 오디오비주얼 미디어 파일들의 리스트를 뷰(view)하기 위해 두 개의 폴더들(14, 15) 중 하나를 선택하도록 사용자를 인에이블하기 위해서, 태그들(16, 17)은 생성되어, 태그들(16, 17)을 디스플레이하는 그래픽 사용자 인터페이스를 구현하는 소프트웨어에 제공된다.

컴퓨터(1)는 각각의 폴더들(14, 15) 하에서 조직화된 오디오비주얼 미디어 파일들과 연관된 메타데이터에 기초하여 태그들(16, 17)을 자동적으로 생성한다. 실시예에서, 폴더들(14, 15) 중 하나로써 참조되는 오디오비주얼 미디어 파일들의 컬렉션에 대한 구성이 변할 때, 태그들(16, 17)은 새롭게 생성된다. 하부 레벨 폴더들(14, 15) 각각을 나타내는 데이터는, 태그들(16, 17)의 형태로 메타데이터의 각 세트와 각각 연관된 두 개의 콘텐트 아이템들을 차례로 나타낸다. 태그들(16, 17) 중 하나가 변할 때, 다른 폴더들(14, 15)에 의해 나타내지는 디렉토리들이 조직화되는 하에서 디렉토리를 나타내는 폴더(13)와 연관된 태그(18)의 콘텐트들이 또한 업데이트된다. 필연적으로, 동일한 방법이 이것을 위해 사용된다.

도 3은 태그들(16, 17) 중 하나로써 나타내지는 메타데이터가 어떻게 생성되는지를 도시한다.

제 1 스텝(19)에서, 컬렉션이 구성되는 오디오비주얼 미디어 파일들이 식별된다. 이를 위해, 컴퓨터(1)는 계층적인 디렉토리 구조를 구현하는 파일 시스템에 의해 유지되는 데이터를 사용할 수 있다. 이 데이터는 데이터의 계층적인 조직화, 조작, 내비게이션, 액세스 및 검색을 위해 유지된다. 예들은 데이터 저장 디바이스(4)에서 파일들의 물리적인 로케이션을 유지하는데 사용되는 데이터, 콘텐트 아이템 서버(11) 상의 파일들에 액세스를 제공하는데 사용되는 데이터, 또는 버추얼 데이터 예컨대 메인 메모리(3)에서 일시적인 이유로 유지되는 데이터 오브젝트들에 대한 액세스 방법에 사용되는 데이터를 포함한다. 파일 시스템은 컴퓨터(1) 및 콘텐트 아이템 서버(11)의 사용자들에 의해 결정되는, 오디오비주얼 미디어 파일들의 그룹핑(grouping)을 정의한다. 그 정의는 파일들이 관심 있는 컬렉션에 속한다는 것을 인간의 개입 없이 식별하기 위해 컴퓨터(1)에 의해 사용된다.

대안의 실시예에서, 각각의 오디오비주얼 미디어 파일은 파일이 멤버인 적어도 하나의 컬렉션을 식별하는 메타데이터를 포함하거나 그에 링크된다. 이러한 실시예에서, 컬렉션을 형성하는 오디오비주얼 미디어 파일들을 식별하는 스텝(19)은 컬렉션을 식별하는 데이터에 대한 메타데이터를 탐색함으로써 수행된다.

다음 스텝(20)에서, 컴퓨터(1)는 개별적으로 컬렉션 내의 오디오비주얼 미디어 파일들의 일부 또는 전부와 연관된 메타데이터의 세트들을 얻는다. 메타데이터는 (속성, 값) 쌍의 형태로 얻어진다. 메타데이터의 각 세트는 적어도 하나의 이러한 쌍을 포함하지만, 속성이 메타데이터의 각 세트에서 (속성, 값) 쌍으로 나타내질 필요는 없다. 컴퓨터(1)는 후속하는 스텝들에서 고려되는 특정한 속성에 대한 값을 랙(lacking)하는 메타데이터의 세트에 더미 값(dummy value)을 포함하는 (속성, 값) 쌍을 부가할 수 있다.

일 실시예에서, 적어도 하나의 속성의 값들은 오디오비주얼 미디어 파일들에 포함된 데이터에 인코딩되고, 컴퓨터(1)에 의해 인식가능한 형태로 렌더링하기에 적합한 신호들을 분석함으로써 얻어진다. 즉, 오디오비주얼 미디어 파일들에 포함된 오디오 및/또는 비디오 신호들은 미리 결정된 알고리즘에 따라 분석된다. 오디오 신호들에 적합한 알고리즘들은 템포(tempo), 소음(loudness), 베이스(bass), 피치(pitch), 밝기, 대역폭 및 멜-주파수 셉스트럴 계수들(Mel-frequency cepstral coefficients) 등을 수량화하는(quantifying)데 적합한 것들을 포함한다. 비디오 신호들에 적합한 알고리즘들은 밝기, 해상도, 컬러, 또는 컬러 분포, 신 변경 템포(scene change tempo) 등을 수량화하는데 적합한 것들을 포함한다.

부가적으로 또는 대안으로, 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들을 얻는 스텝(20)은 콘텐트 아이템들을 포함하는 데이터 오브젝트들에 인코딩된 메타데이터를 판독하는 단계를 포함한다. 예를 들어, 오디오 파일들에 첨부된 ID3 태그들은 오디오 트랙의 제목, 아티스트, 앨범, 또는 장르를 결정하기 위해 판독될 수 있다. 대안으로, MPEG-7에 따르고 오디오비주얼 미디어 파일에 첨부된 설명은 메타데이터를 얻기 위해 판독될 수 있다(그 경우에, 설명 및 오디오비주얼 미디어 파일은 함께 데이터 오브젝트를 형성함). 또 다른 대안에서, 메타데이터는 디지털 방송 스트림들의 다발(bouquet)에 포함된 전자 프로그램 가이드(Electronic Program Guide) 데이터로부터 얻어질 수 있다.

실시예들에서, 메타데이터는 컴퓨터(1)의 현재 사용자에 의존할 수 있다. 그것은 예컨대 추전자의 레이팅(rating)(사용자 프로파일에 링크됨) 또는 (파일이 예컨대 컴퓨터(1)로부터 몇 번 또는 얼마나 오랫동안 액세스되는지) 사용 히스토리를 나타내는 데이터를 포함할 수 있다.

메타데이터가 얻어질 수 있는 또 다른 방식은 네트워크(12)를 통해, 데이터베이스를 호스트(host)하는 메타데이터 서버(21)에 오디오비주얼 미디어 파일들에 대응하는 콘텐트 아이템들의 식별들을 제출하는 것이다. 이러한 메타데이터 서버(21)를 사용하는 서비스들의 예들은 그레이스노트 미디어 데이터베이스(Gracenode Media Database)를 포함한다. 전자 프로그램 가이드 데이터가 다운링크되는 실시예는 실질적으로 유사한 방식으로 작동한다.

오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들이 얻어질 수 있는 또 다른 방식은 그것들이 얻어질 수 있는 각각의 로케이션들을 분석하는 것이다. 예를 들어, 파일 타입, 데이터, 사이즈 및 저장 어드레스와 같은 파일들의 특징들이 결정될 수 있다.

오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 나타내지는 일부 또는 모든 속성들 각각에 대해, 개별적으로 각각의 파일들과 연관된 메타데이터의 세트들에 대한 속성값들의 적어도 하나의 분포가 분석되고, 적어도 하나의 속성값(이것은 값들의 범위일 수 있음)은 분석에 의존하여 선택된다. 실제로, 하나 이상의 속성들 각각의 적어도 하나의 값이 취해지지만, 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에서 값들을 갖는 전체보다 적은 수의 속성들의 선택이 일반적으로 행해진다. 이를 위해, 메타데이터의 세트들에서 나타내지는 속성들의 적합성은 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 대한 속성들(이하,"후보 속성들")의 일부 또는 모두의 값들의 분포에 대한 비교 분석에 의해 액세스된다.

각각의 후보 속성에 대해, 오디오비주얼 미디어 파일들의 컬렉션은 오디오비주얼 미디어 파일들과 연관된 속성에 대한 (속성, 값) 쌍들에서 값들의 유사성에 따라 해체 세트들로 구획된다(스텝 22). 유사성은 파일들이 동일한 값과 연관되고 또는 연속적인 값들의 경우에, 그것들이 다수의 범위들 중 동일한 범위 내의 값과 연관되는 것을 의미할 수 있다. 연속적인 값들은 미리 정의된 카테고리들(예컨대, 발매의 속성 년(attribute year of release)에 대한 십년간(decades))을 사용하여, 유사하거나 유사하지 않은 것으로서 분류될 수 있다. 대안으로, 클러스터링 알고리즘은 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에서 나타나는 값들에 기초하여 적용될 수 있다. 임의의 경우에, 구획의 해체 세트들 각각은 속성값들간의 공통 참조된 관계(common inferred relationship) 또는 공통 속성값에 의해 특징지어진다.

예로서, 표 1에 나타내진 바와 같이, 속성 장르, 아티스트 및 발매 년도에 의해 특징지어지는 10 개의 오디오 트랙들의 컬렉션을 취한다.

노래 ID	장르	아티스트	년도
1	팝	마돈나	1986
2	팝	마돈나	1989
3	팝	마돈나	1998
4	팝	마돈나	2003
5	팝	브리트니 스피어스	1999
6	팝	브리트니 스피어스	2001
7	락	딥 퍼플(Deep Purple)	1968
8	락	딥 퍼플	1970
9	재즈	마일즈 데이비스(Miles Davis)	1963
10	재즈	팻 메스니(Pat Metheny)	1992

컴퓨터(1)는 장르 값들(팝, 락, 및 재즈)에 기초한 구획 {[1,2,3,4,5,6], [7,8], [9,10]}을 생성할 것이다. 그것은 또한, 아티스트에 기초한 5개의 세트들로 구획 {[1,2,3,4], [5,6], [7,8], [9,10]}을 생성하고, 발매의 년도들이 되는 10년에 기초한 5개의 세트들로 구획 {[7,9,], [8], [1,2], [3,5,10][4,6]}을 생성할 것이다.

다음 스텝(23)에서, 후보 속성들은 팩터(r_i)에 따라 랭크에 할당되고, 여기에서 i는 후보 속성에 대한 인덱스(index)이다. 여기에서 사용된 예에서, 팩터(r_i)는 컬렉션 내의 오디오비주얼 미디어 파일들의 수에 대해 후보 속성(i)을 위한 구획에서 가장 큰 세트의 상대적인 크기(S_i), 후보 속성에 대해 얻어진 세트의 수(n_i), 및 후보 속성(i)에 할당된 우선순위 값(P_i)에 기초한다. 특히, 팩터는 다음 수식에 따라 계산된다:

이 수식은 예이다. 또 다른 수식이 사용될 수 있고, 특히, 수식은 팩터(r_i)가 세트들의 수(n_i)의 변경들보다, 후보 속성(i)에 대해 만들어진 구획에서 가장 큰 세트의 상대적인 사이즈(S_i)의 변경들에 대해 더 민감하다는 특성을 갖는다. 예로서 여기에서 사용되는 수식의 경우에, 팩터(r_i)는 구획에서 해체 세트의 가장 큰 것의 상대적인 사이즈에 정비례한다. 그것은 구획에서 세트들의 수(n_i)의 제곱근에 반비례한다.

임의의 속성들이 컬렉션을 설명하기 위해 보다 유용하다는 사실은 우선순위 값들(P_i)에 반영된다. 그러므로, 우선순위 값들(P_i)은 오디오비주얼 미디어 파일들을 특징화하기 위해 보다 일반적으로 사용되는 임의의 속성들에 기초한 설명들을 갖기 위한 우선적인 선호도들을 반영한다. 예를 들어, 아티스트는 노래(song)가 발매되었던 10년간보다 더 일반적으로 참조된다.

실시예에서, 컴퓨터(1)는 사용자 입력에 기초하여 우선순위 값들을 조정하도록 동작가능하다. 사용자 세팅들은 오디오비주얼 미디어 파일들 및/또는 그것의 컬렉션들을 설명하는데 있어 다른 것들에 대해 임의의 속성들에 대한 선호도들을 반영한다.

강화(enhancement) 또는 대안으로서, 우선순위 값들(P_i)은 메타데이터가 생성되는 컬렉션이 단지 서브세트인 전체 데이터베이스에 있음을 어떻게 식별하는지를 반영할 수 있다. 그 경우에, 우선순위 값들(P_i)은 컬렉션에 포함되지 않은 오디오비주얼 미디어 파일들을 적어도 부분적으로 사용하여, 개별적으로 각각의 오디오비주얼 미디어 파일들과 연관된 메타데이터에 대한 후보 속성들의 값들의 분포들에 대한 분석을 수행함으로써 얻어진다.

설명된 두 개의 스텝들(22, 23)이 후보 속성들 모두에 대해 반복된 후에, 가장 높은 팩터(r_i)를 갖는 후보 속성이 선택되고(스텝 24), 그 속성에 대해 만들어진 구획의 가장 큰 세트에 공통인 값 또는 값들이 선택된다(스텝 25). 표 1 하의 예에서, 속성 아티스트에 대한 우선순위 값이 0.8이고, 속성 장르에 대해 0.4이면, 탑-랭크된 속성(top-ranked attribute)은 아티스트이고, 선택된 값은 마돈나(Madonna)이다.

심플한 실시예에서, 상기 방법은 선택된 속성값이 컬렉션을 위한 설명적인 메타데이터를 생성하도록 처리되는 스텝(26)으로 진행한다. 이것은, 선택된 속성값(들)을 컬렉션에 할당하고, 태그들(16, 17) 중 하나를 생성하기 위한 사용자 인터페이스에 그 값 또는 그들 값들을 보내는 것에 지나지 않는다. 하지만, 특히 사용자 인터페이스를 포함하는 애플리케이션들에 대해, 그것은 설명적인 표현을 나타내는 텍스트 데이터가 생성되면 보다 유익하다.

여기에서 사용되는 예에서, 설명적인 표현을 나타내는 텍스트 데이터를 합성하는 스텝(26)은, 선택된 속성값 또는 값들에 대응하여 속성값 정보를 포함하는 메타데이터를 생성하는 단계 및 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 대한 속성값들의 분포에 대한 분석에 기초하여 데이터를 인정하는 단계를 포함한다. 실시예에서, 설명적인 표현은 템플릿에 따라 생성된다. 여기에 보다 상세히 논의된 실시예에서, 텍스트 설명은 탑-랭크된 속성들에 대한 값들의 분포 및 문법 규칙들의 미리 정의된 세트에 기초한다.

이들 규칙들은 아래와 같이 BNF 포맷(Backus-Naur form: 콘텍스트가 없는 문법들을 표현하는데 사용되는 메타신텍스(metasyntax))로 나타내질 수 있다:

문법의 규칙들은 아래와 같이 작용한다. <set description>에서의 사용에 대한 <attribute>는 초기 스텝(24)에서 선택된 것이다. 이 선택된 속성에 대해 생성된 구획이 단지 하나의 세트(예컨대, 마돈나에 의한 노래들만)이면, 이 속성만이 사용된다. 미리 세팅된 옵션에 의존하여, 상대적 또는 절대적인 수량사(quantifier)가 사용될 수 있다. 예를 들어, 절대적인 정량적 버전은 설명: "아티스트 마돈나에 의한 4개의 노래들" 또는 "마돈나에 의한 4개의 노래들"에서 얻어진다. 상대적인 정량적 버전은 "마돈나들에 의한 노래만"이다.

가장 높은 랭킹 후보 속성에 대해 만들어진 구획이 유사한 크기의 2 또는 3의 가장 큰 세트들을 가지면, 값 또는 값들의 범위를 선택하는 스텝(25)은 구획의 다음으로 가장 큰 세트 또는 세트들과 연관된 값을 선택하는 단계를 포함한다. 최종 스텝(26)에서 합성된 설명은 2 이상의 세트들, 예컨대 "비틀즈에 의한 50개의 노래들 및 롤링 스톤에 의한 40개의 노래들" 또는 "비틀즈와 롤링 스톤즈에 의한 대부분의 노래들"의 설명들의 사슬(concatenation)이다. 가장 높은 랭킹 후보 속성에 대해 만들어진 구획이 미리 결정된 최소치보다 큰 세트를 갖지 않으면, "다양한" <attribute>의 신텍스 <item type>에 따르는 설명, 예컨대 "다양한 아티스트들에 의한 노래들"이 생성될 수 있다. 그 경우에, 값들은 선택되지 않는다.

언어 및 선택된 특정 속성에 의존하여, 문법은 합성되는 설명의 판독용이성을 향상시키는 변수들을 포함할 수 있다. 예를 들어, 선택된 속성은 설명을 형성하는 문장의 상이한 구성을 트리거(trigger)할 수 있다. 상이한 문법들은 애플리케이션, 언어, 사용자 선호도, 데이터의 타입 등에 의존하여 사용될 수 있다.

실시예에서, 오디오비주얼 미디어 파일들의 컬렉션과 연관하여 메타데이터를 생성하는 스텝(26)은 파일들의 속성값들에 따라 파일들의 순서를 결정하는 단계, 및 선택된 속성값 또는 값들을 포함하는 메타데이터의 세트와 연관된 파일들이 순서적으로 적합한 것에 기초하여 선택된 속성값 또는 값들을 인정하기 위해 메타데이터를 생성하는 단계를 포함한다. 예를 들어, 플레이리스트는 그것들이 플레이되는 순서로 저장된 오디오 또는 비디오 오브젝트들의 컬렉션으로서 보여질 수 있고, 텔레비전 채널 리스팅은 그것들이 방송될 때에 따라 분류되는 프로그램 아이템들의 컬렉션으로서 보여질 수 있다. 합성된 설명은 예컨대: "5개의 재즈 노래들 및 3개의 라틴 노래들에 선행하는 10개의 노래들"과 같은 설명을 생성함으로써 순서를 반영할 수 있고, 여기에서는, 속성 "장르"가 선택되었다.

속성들이 (노래의 발매 년도와 같이) 연속적일 수 있고, ({50년대, 60년대, 70년대, 80년대}와 같은) 분류된 세트를 포함하고, 또는 (아티스트의 이름들과 같은) 순수한 설명적인 속성들을 포함하는 상술된 것들로부터 명백해질 것이다. 컬렉션의 설명에 사용되는 수량사는 절대적(속성값이 적용되지 않은 컬렉션 내 콘텐트 아이템들에 대한 참조 없이) 또는 상대적일 수 있다. 수량사는 정량적인(수, 값) 또는 정질적인(qualitative)(설명)일 수 있다. 표 2는 속성들의 다양한 타입들에 대해 생성된 컬렉션들의 설명들의 몇몇 예들을 제공한다.

기초한 속성	선택된 속성값의 인정 타입	설명적인 표현
추천자의 출력	절대적 정량적인	"당신이 좋아하는 5개의 무비들 및 당신이 좋아할 것 같은 것 3개 영화들, 당신의 여자 신구가 좋아할 것 같은 것 2개의 영화들"
점유된 리소스들	절대적 정량적인 및 상대적 정량적인	"총 저장 공간의 30%를 차지하는 3개의 영화들"
사이즈 및 해상도	절대적 정량적인	"1시간짜리인 3개의 고해상 영화들 및 2시간짜리인 3개의 표준 해상 영화들"
공유	절대적 정량적인	"앨리스(Alice)와 공유된 5개 파일들 및 밥(Bob)에 의해 수신된 3개의 파일들"
비용, 가격, 소스	절대적 정량적인 및 절대적 정질적인	"10개의 9.99달러 앨범들 및 뮤직 포털(A)로부터 다운로드된 소수의 노래들"
콘텐트 분석에 의해 얻어진 서브-장르 정보	절대적 정략적인 및 상대적 정질적인	"대부분 액션이고 일부 로맨틱한 장면들을 포함하는 3개의 영화들"
EPG 설명으로부터의 추출된 키워드들	절대적 정량적인 및 상대적 정질적인	"주로 전쟁 및 영웅 또는 마피아에 관한 5개의 영화들"

표 2에 리스트된 것들에 부가하여, 속성들은 또한, 소유권, 개인적인 보호 레벨, 로케이션, 디바이스 명칭, URL(Uniform Resource Locator), 유사성 측정 또는 오디오 트랙들이 히트 퍼레이드(hit parade)에 있는 것과 같은, 외부 소스들로부터의 여분 정보(extra information)에 기초할 수 있다.

도 3에 도시된 방법은 기본적인 설명을 확장하고 또는 그것을 수정하는지 아닌지를 결정하기 위해 속성값들의 선택을 평가하는(assessing) 스텝(27)을 포함한다. 특히, 오디오비주얼 미디어 파일들(예컨대, 보다 높은 랭킹 폴더(13)에 의해 나타내지는 총 컬렉션 또는 폴더들(14, 15)의 다른 하나)의 상이한 컬렉션에 대해 생성된 메타데이터와 비교될 수 있다. 비교를 위해 생성된 메타데이터가 특정의 최소치보다 작게 상이하면, 추가적인 속성 또는 이미 선택된 속성의 추가적인 값 또는 값들의 범위가 선택된다.

하나의 옵션은 깊이에 있어 확장을 허용하는 것이다. 이 옵션에 따라, 값 또는 값들의 범위는 다수의 속성들 각각에 대해 선택되고, 여기에서, 상기 수는 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 대한 후보 속성값들의 분포들에 대한 분석의 결과 및 사용자 입력 중 적어도 하나에 기초한다. 특히, 속성 아티스트가 속성 장르에 부가하여 선택될 수 있음이 결정될 수 있다. 이것은 초기 설명 "10개의 포크 송들"에서 시작해서, "밥 딜런(Bob Dylan)에 의한 10개의 포크 송들"과 같은 설명을 야기할 수 있다. 일 실시예에서, 설명은 후보 속성들의 수 중 가장 높은 랭킹 하나의 적어도 하나의 값에 기초하여 초기에 합성된다. 이 설명은 사용자 인터페이스에서 폴더들(14, 15) 다음의 태그들(16, 17) 중 하나로서 디스플레이된다. 사용자 입력에 대한 응답에서, 후속 스텝(28)에서 처리되고, 속성 (이 경우에, 추가적인 속성) 값 또는 값들의 범위를 선택하고, 설명을 합성하는 스텝들(24, 25, 26)이 반복된다.

몇몇 속성들은 임의의 값들이 다수의 다른 값들 또는 다른 값들의 범위들을 포함하는 것을 의미하는 분류법(taxonomy)에서 계층적으로 조직화될 수 있다. 예로서, 값들 "비밥(bebop)", "스윙(swing)", "래그타임(ragtime)", 및 "재즈-퓨전(jazz-fusion)"은 속성 "스타일"의 값 "재즈"의 모든 예들이다. 실시예에서, 값을 선택하는 스텝(25)이 규칙들의 산정(evaluation)에 의한 평가(assessment)에 이어서 또는 사용자 입력에 이어서 반복될 때, 속성값들의 계층에서 보다 높은 랭킹 값 또는 값 범위와 연관된 다수의 값들 또는 값 범위들 중에서의 값 및 값 범위는 사용자 입력, 개별적으로 컬렉션 내 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 대한 값들의 분포의 평가, 또는 오디오비주얼 미디어 파일들의 상이한 컬렉션에 대해 선택된 속성값들의 평가에 응답하여 선택된다.

또 다른 옵션은, 개별적으로 오디오비주얼 미디어 파일들과 연관된 메타데이터의 세트들에 대한 후보 속성값들의 분포들에 대한 분석 결과들 및 사용자 입력 중 적어도 하나에 의존하여 선택된 속성의 값들의 수를 선택하는 것이다. 이것은, 선택된 속성에 대해 행해진 구획에서 지배적인 세트가 존재하지 않은 경우에 대해 이미 설명되었다. 구획에서 추가적인 세트와 연관된 선택된 속성의 값(들)은 또한, 초기 설명이 이용가능하게 행해진 후에 수신된 사용자 입력을 처리하는 스텝(28)의 결과로서 선택될 수 있다. 두 개의 옵션들의 조합들은 예시된 실시예에서 사용된다.

보다 세련된 설명을 생성하는 또 다른 방식은, 속성 및 그것의 값 또는 값들의 범위를 선택하는 스텝들(24, 25)에 이어서, 새로운 컬렉션이 정의되는 것에 따라 예시된다(스텝 29). 그것은 이미 선택된 값 또는 값들의 범위에 대응하는 적어도 하나의 속성값을 포함하는 것들 이외에 컬렉션 내 오디오비주얼 미디어 파일들로 구성된다. 이어서, 복수의 후보 속성들 각각에 대해, 오디오비주얼 미디어 파일들의 새로운 컬렉션은 개별적으로 새로운 컬렉션 내 각각의 오디오비주얼 미디어 파일들과 연관된 후보 속성값들의 유사성에 따라 해체 세트들로 구획된다(스텝 22). 속성들의 랭킹을 확립하기 위한 팩터들(r_i)은 만들어진 구획에서 가장 큰 세트의 상대적인 사이즈, 우선순위 팩터 및 구획에서 세트들의 수에 기초하여 재계산된다(스텝 23). 추가적인 속성은 그것의 값과 마찬가지로, 오디오비주얼 미디어 파일들의 전체 컬렉션의 확장된 설명을 생성하기 위해 선택된다. 그 결과는 "마틴 스콜세지(Martin Scoresese)에 의한 대다수의 액션 영화들 및 2 개의 영화들"일 수 있다. 새로운 컬렉션을 정의하는 스텝(29)은 이전에 선택된 속성값(들)의 응용가능성의 평가 결과로서 또는 사용자 입력의 결과로서 수행될 수 있다. 그러므로, 요약하면, 이 방법은 우선, 오디오비주얼 미디어 파일들의 대부분이 액션 영화들임을 결정하고, 동일한 종류의 분석을 액션 영화가 아닌 오디오비주얼 미디어 파일들 모두에 적용하고, 그것들이 마틴 스콜세지에 의한 두 개의 영화들을 포함한다는 것을 명기함으로써 가장 특징화되는 것을 결정한다.

이 메타데이터가 계산되는 컬렉션의 복잡한 예는 표 3에 제공된다.

	속성1 , 제목	속성2 , 장르	속성3 , 캐스트	속성4 , 감독
속성 우선순위
	터미네이터1	액션	슈왈제네거	카메론
	터미네이터2	액션	슈왈제네거	카메론
	터미네이터3	액션	슈왈제네거	모스토우
	코만도	액션	슈왈제네거	레스터
	프레데터	액션	슈왈제네거	맥티어넌
	러닝맨	액션	슈왈제네거	글레이저
	토탈리콜	액션	슈왈제네거	버호벤
	투루라이즈	액션	슈왈제네거	카메론
	택시 드라이버	범죄	로버트 드 니로	스콜세지
	컬러 오브 머니	드라마	폴 뉴먼	스콜세지
# 세트들	10	3	3	7
상대적인 사이즈들	10%(10)	[0.8,0.1,0.1]	[0.8,0.1,0.1]	[0.3,0.2, 0.1,..,0.1]

팩터들(r_i)은 아래 수식으로서 작용한다:

이들 팩터들에 기초하여, 속성들은 장르, 캐스트(cast), 감독(director), 및 제목으로서 랭크된다. 초기 설명은 예컨대: "대부분의 액션 영화들"이다. 이어서, 선택된 속성값이 적용되는 아이템들이 제거되어, 표 4의 아이템들이 남겨진다.

	속성1 , 제목	속성2 , 장르	속성3 , 캐스트	속성4 , 감독
속성 0.1 0.9 0.7 0.5 우선순위
	택시 드라이버	범위	로버트 드 니로	스콜세지
	컬러 오브 머니	드라마	폴 뉴먼	스콜세지
# 세트들	2	2	2	1
상대적인 사이즈들	[0.5,0.5]	[0.5,0.5]	[0.5,0.5]	1

이후 팩터들(r_i)의 결과는 아래 수식과 같다:

속성들의 새로 랭크된 리스트는: 감독, 장르, 캐스트, 제목이다. 그러므로, 새로운 설명은 "마틴 스콜세지에 의한 대부분의 액션 영화들 및 2개의 영화들"이 된다.

컴퓨터(1)의 디렉토리 구조에서 보다 높은 레벨에서 폴더(13) 하에 그룹핑된 오디오비주얼 미디어 파일들의 컬렉션과 연관하는 메타데이터가 도 3에 예시된 바와 같이 동일한 방법을 사용하여, 2가지 방식들 중 하나로 자동으로 생성될 수 있음이 관찰된다. 어느 한 쪽의 방법은 하위 레벨 폴더들(14, 15)의 어느 한쪽 하에서 그룹핑된 모든 파일들에 의해 규정된 파일들의 총 집합에 적용되거나, 메타데이터의 세트들이 우선 폴더들(14, 15)의 각각에 대해 생성되고, 그 자신들은 콘텐트 아이템들로서 보여질 수 있고, 상기 방법은 폴더들(14, 15)의 컬렉션에 적용된다. 임의의 경우에, 인간 개입은 생성된 설명적인 메타데이터의 선택적인 세련(refinement)에, 우선, 폴더들에 파일들을 조직화하는 것에 제한된다. 만약 그렇지 않으면, 상기 방법은 완전히 자동화된다.

위에서 설명된 실시예들은 본 발명을 제한하기 보다는 예시하는 것이며, 기술분야의 당업자들은 첨부된 청구범위로부터 벗어나지 않고 많은 대안의 실시예들을 설계할 수 있음에 유의해야 한다. 청구범위에서, 괄호들 사이의 임의의 참조번호들은 청구범위를 제한하는 것으로서 고려되지 않는다. 동사 "포함하다" 및 그것의 동사변화들의 사용은 청구범위에서 언급된 것들 이외의 요소들 또는 스텝들의 존재를 배제하지 않는다. 요소 앞에 있는 단수 관사는 복수의 이러한 요소들의 존재를 배제하지 않는다. 본 발명은 여러 개의 개별 요소들을 포함하는 하드웨어에 의해 그리고 적절히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 개의 수단을 열거하는 디바이스 청구항에서, 여러 가지 이들 수단들은 하드웨어 및 하드웨어의 동일한 아이템에 의해 구현될 수 있다. 임의의 조치들이 서로 다른 종속 청구항들에서 언급된다는 단순한 사실은 이들 조치들의 조합이 이롭게 사용될 수 없다는 것을 나타내는 것은 아니다.

여기에서 예시된 방법은 광범위한 애플리케이션들을 갖는다. 그것은 임의의 저장 디바이스, 휴대용 디바이스, 데이터베이스 시스템, 파일 시스템 또는 데이터 미닝 시스템(data mining system)의 사용자 인터페이스에 적용될 수 있다. 그것은 소비자 전자 장치들에 저장된 콘텐트의 컬렉션들에 대한, 텔레비전 채널 리스팅에 대한, 개인용 라디오 또는 텔레비전 채널들에 대한, 뮤직 플레이리스트들에 대한, 간행물들 및 (속성, 값) 쌍들로써 특징화되거나 될 수 있는 일반적으로 임의의 전자 데이터 세트에 대한 설명들을 생성하는데 사용될 수 있다.

기술분야의 당업자에게 명백한 것으로서"수단"은 동작시에 수행되거나 특정된 기능을 수행하도록 설계되고, 그것이 단일 기능 또는 다른 기능들과 연계하여 수행되는 것이고, 그것이 다른 요소들과 상호동작에 있거나 고립되어 있는 것인 (개별 또는 집적 회로들 또는 전자 요소들과 같은) 임의의 하드웨어 또는 (프로그램들 또는 프로그램들의 일부와 같은) 소프트웨어를 포함하도록 된다. '컴퓨터 프로그램'은 인터넷과 같은 네트워크를 통해 다운링크가능하거나 또는 임의의 다른 방식으로 시장성이 있는, 광학 디스크와 같은 컴퓨터 판독가능 매체 상에 저장된 임의의 소프트웨어 제품을 의미하는 것으로 이해될 것이다.

1: 컴퓨터 2: 프로세서
3: 메인 메모리 4: 데이터 저장 디바이스
5: 네트워크 인터페이스 6: 사용자 제어기
7: 그래픽 출력 디바이스 8: 디지털 신호 프로세서
9: 오디오 출력 디바이스 10: 확성기
11: 콘텐트 아이템 서버 13,14,15: 폴더
16,17,18: 태그 21: 메타데이터 서버

Claims

콘텐트 아이템들에 포함된 데이터를 처리하기 위한 시스템(1)에 액세스가능한 콘텐트 아이템들의 컬렉션(collection)과 연관하여 메타데이터를 자동으로 생성하는 방법에 있어서,
개별적으로 상기 콘텐트 아이템과 연관된 메타데이터의 세트들을 획득하는 단계로서, 메타데이터의 각각의 세트는 상기 콘텐트 아이템과 연관된 적어도 하나의 속성값(attribute value)을 포함하는, 상기 획득 단계,
상기 각각의 콘텐트 아이템들과 연관된 상기 메타데이터의 세트들에 대한 속성값들의 적어도 하나의 분포(distribution)를 분석하는 단계,
상기 분석에 의존하여 적어도 하나의 속성값을 선택하는 단계,
상기 적어도 하나의 선택된 속성값에 대응하는 속성값 정보를 포함하는 메타데이터를 생성하고, 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 상기 메타데이터의 세트들에 대한 상기 선택된 속성의 값들의 분포에 대한 분석에 기초하여 데이터를 인정함으로써(qualifying), 상기 컬렉션에 연관하여 상기 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하는 단계, 및
상기 콘텐트 아이템들의 컬렉션의 식별과 관련하여 상기 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 상기 시스템(1)에서 상기 생성된 메타데이터를 이용하는 단계를 포함하고,
상기 적어도 하나의 속성값을 선택하는 단계는 복수의 속성들 각각의 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 값들의 분포들에 대한 비교 분석에 의해 적어도 하나의 속성을 선택하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항에 있어서,
계층적인 파일 시스템에 의해 유지되는 데이터를 이용하여 상기 컬렉션에 포함되는 상기 콘텐트 아이템들을 식별하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항 또는 제 2 항에 있어서,
상기 분석에 의존하여 적어도 하나의 속성값을 선택하는 단계는 개별적으로 상기 컬렉션 내 콘텐트 아이템들과 연관된 메타데이터의 세트들에 포함된 값들을 갖는 모든 속성들보다 적은 적어도 하나의 값을 선택하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 3 항에 있어서,
다수의 속성들 각각 중 적어도 하나의 값을 선택하는 단계를 포함하고,
그 수는:
사용자 입력, 및
상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성값들의 적어도 하나의 분포에 대한 분석의 결과들 중 적어도 하나에 기초하는, 메타데이터 자동 생성 방법.
제 1 항에 있어서,
상기 비교 분석은 복수의 후보 속성들 각각에 대해,
개별적으로 상기 각각의 콘텐트 아이템들과 연관된 후보 속성값들의 유사성에 따라 해체 세트들(disjoint sets)로 콘텐트 아이템들의 상기 컬렉션을 구획하는(partitioning) 단계, 및
상기 컬렉션의 사이즈에 대하여, 적어도 상기 후보 속성에 대해 만들어진 상기 구획에서 가장 큰 세트의 상대적인 사이즈에 기초한 팩터에 따라 상기 속성들을 랭킹하는(ranking) 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항 또는 제 5 항에 있어서,
상기 비교 분석은 적어도 부분적으로 후보 속성들에 할당된 우선순위 값들에 기초한 팩터에 따라 상기 후보 속성들을 랭킹하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항 또는 제 5 항에 있어서,
상기 컬렉션에 연관하여 상기 메타데이터를 생성하도록 처리하기 위해 선택된 다수의 속성의 값들을 선택하는 단계를 포함하고,
그 수는:
사용자 입력, 및
개별적으로 상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 그 속성값들의 분포의 특징 중 적어도 하나에 기초하는, 메타데이터 자동 생성 방법.
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 있어서,
상기 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하는 단계는 적어도 하나의 선택된 속성값에 대응하는 속성값 정보를 포함하는 메타데이터를 생성하는 단계 및 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 상기 선택된 속성값들의 분포에 대한 분석에 기초하여 데이터를 인정하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 있어서,
상기 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하는 단계는 설명적인 표현(descriptive phrase)을 나타내는 텍스트 데이터를 합성하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 있어서,
상기 분석에 의존하여 적어도 하나의 속성값의 선택시에, 상기 분석을 반복하기 전에 선택된 상기 속성값(들)에 대응하는 적어도 하나의 속성값을 포함하는 것들 이외에 상기 컬렉션에서 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 상기 분석을 반복하는 단계를 포함하는, 메타데이터 자동 생성 방법.
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 있어서,
상기 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하는 단계는 상기 콘텐트 아이템들의 상이한 컬렉션에 대해 생성된 메타데이터와의 비교를 위한 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하는 단계, 및 비교를 위해 생성된 메타데이터가 특정의 최소치보다 작으면, 상기 각각의 콘텐트 아이템들과 연관된 상기 메타데이터의 세트에 대한 속성값들의 적어도 하나의 분포에 대한 분석에 의존하여 적어도 하나의 추가적인 속성값을 선택하는 단계를 포함하고,
적어도 상기 추가적인 선택된 속성값(들)은 상기 컬렉션과 연관하여 상기 메타데이터를 생성하도록 처리되는, 메타데이터 자동 생성 방법.
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 있어서,
상기 생성된 메타데이터를, 상기 콘텐트 아이템들에 포함된 데이터를 처리하기 위한 상기 시스템(1)에 이용가능하게 만드는 단계는 파일 시스템에 의해 유지되는 데이터와 연관하여 상기 생성된 메타데이터를 저장하는 단계 및 상기 콘텐트 아이템들에 대응하는 파일들의 그룹을 식별하는 단계를 포함하는, 메타데이터 자동 생성 방법.
콘텐트 아이템들의 컬렉션과 연관하여 메타데이터를 자동으로 생성하기 위한 시스템에 있어서,
개별적으로 상기 콘텐트 아이템들과 연관된 메타데이터의 세트들로서, 메타데이터의 각 세트가 상기 콘텐트 아이템과 연관된 적어도 하나의 속성값을 포함하는, 상기 메타데이터의 세트들을 얻고,
상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 속성값들의 적어도 하나의 분포를 분석하고,
상기 분석에 의존하여 적어도 하나의 속성값을 선택하고,
상기 적어도 하나의 선택된 속성값에 대응하는 속성값 정보를 포함하는 메타데이터를 생성하고, 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 상기 메타데이터의 세트들에 대한 상기 선택된 속성의 값들의 분포에 대한 분석에 기초하여 데이터를 인정함으로써, 상기 컬렉션과 연관하여 상기 메타데이터를 생성하기 위해 상기 선택된 속성값(들)을 처리하도록 구성되고,
상기 적어도 하나의 속성값을 선택하는 것은 복수의 속성들 각각의 개별적으로 상기 각각의 콘텐트 아이템들과 연관된 메타데이터의 세트들에 대한 값들의 분포들에 대한 비교 분석에 의해 적어도 하나의 속성을 선택하는 것을 포함하는, 메타데이터 자동 생성 시스템.
제 13 항에 있어서,
제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 메타데이터 자동 생성 시스템.
기계 판독가능 매체에 통합될 때, 정보 처리 성능들을 갖는 시스템(1)이 제 1 항, 제 2 항 또는 제 5 항 중 어느 한 항에 따른 방법을 수행할 수 있는 명령의 세트를 포함하는 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
삭제