KR101609088B1

KR101609088B1 - 검색 부하들에 따라 균형이 맞춰지는 지문 데이터베이스를 갖는 미디어 식별 시스템

Info

Publication number: KR101609088B1
Application number: KR1020147025353A
Authority: KR
Inventors: 니콜라스 시트; 로브 존슨; 조슈아 스몰맨; 아담 카한
Original assignee: 야후! 인크.
Priority date: 2009-06-11
Filing date: 2010-05-11
Publication date: 2016-04-20
Also published as: JP2012529704A; HK1167484A1; WO2010144206A1; EP2441009B1; EP2441009A4; CN102483731A; KR20140121886A; US20140236952A1; US9292514B2; EP2441009A1; KR20120018226A; US20100318587A1; US8713068B2; CN102483731B

Abstract

미디어 식별 시스템은 알려진 미디어 샘플들에 대한 기준 지문들을 생성하고, 그 기준 지문들을 기준 데이터베이스 내에 저장한다. 미디어 식별 시스템은 알려지지 않은 미디어 샘플로부터 생성된 지문을 대조하여 그 알려지지 않은 샘플을 식별하기 위해 기준 지문들을 이용한다. 새로운 기준 지문들을 기준 데이터베이스 내에 저장할 때, 데이터베이스가 미디어 식별 시스템에 의해 이용될 때 데이터베이스 상에서 검색 부하들의 균형을 맞추기 위해, 데이터베이스의 구획들이 선택된다. 예를 들어, 선택된 구획들은 적어도 부분적으로는 미디어 식별 시스템에 의한 구획들의 액세스 레이트에 기초하여 결정될 수 있다. 새로운 기준 지문들은 다른 구획들보다 상대적으로 낮은 액세스 레이트를 갖는 구획들에 배치되는 경향이 있을 것이며, 이는 미디어 식별 시스템에 의한 구획들 상에서의 검색 부하의 균형을 맞추는 경향이 있을 것이다.

Description

검색 부하들에 따라 균형이 맞춰지는 지문 데이터베이스를 갖는 미디어 식별 시스템{MEDIA IDENTIFICATION SYSTEM WITH FINGERPRINT DATABASE BALANCED ACCORDING TO SEARCH LOADS}

본 발명은 일반적으로 미디어 식별 시스템에 관한 것으로, 더 구체적으로는 알려지지 않은 테스트 샘플들에 대조하기 위해 미디어 식별 시스템에 의해 이용되는 기준 지문들의 데이터베이스의 관리에 관한 것이다.

디지털 지문채취(digital fingerprinting)는 오디오 또는 비디오 샘플들과 같은 알려지지 않은 디지털 미디어 샘플들을 식별하기 위해 이용될 수 있는 프로세스이다. 예시적인 미디어 식별 시스템에서, 데이터 파일들, 방송 프로그램, 스트리밍 미디어 또는 다양한 다른 미디어 소스들 중 임의의 것으로부터 획득될 수 있는 다수의 알려진 미디어 샘플 각각에 대해 디지털 지문들이 생성된다. 각각의 디지털 지문은 그것이 생성된 미디어의 샘플에 관한 특성 정보를 포함하는 데이터 세그먼트를 포함할 수 있다. 그 전체가 참조에 의해 포함되는 미국 특허 제7,516,074호는 데이터 신호로부터 특징적인 디지털 지문을 생성하기 위한 실시예들을 설명하고 있다.

그 다음, 기준 지문들은 데이터베이스 또는 보관소 내에 저장되고, 기준 지문들을 그들의 대응하는 미디어 샘플들 및/또는 그 미디어 샘플들에 관련된 메타데이터에 연관시키는 방식으로 인덱싱된다. 미국 특허 제7,516,074호는 데이터베이스 내의 기준 지문들을 인덱싱하기 위한 실시예들도 개시하고 있다. 기준 지문들의 데이터베이스는 알려지지 않은 미디어 샘플을 식별하기 위해 이용될 수 있다. 알려지지 않은 미디어 항목을 식별하기 위해, 미디어 항목의 샘플로부터 테스트 지문이 생성된다. 그 다음, 테스트 지문이 기준 지문들의 데이터베이스에 대조되고, 일치(match)가 발견되는 경우, 그 알려지지 않은 미디어 샘플은 일치하는 기준 지문에 연관된 미디어 샘플인 것으로 선언된다. 유효한 일치를 선언하기 위한 다양한 정확한 매칭(exact matching) 및 퍼지 매칭(fuzzy matching) 알고리즘 및 기준이 이용될 수 있다.

전형적으로, 기준 지문들은 지문 벡터의 좌표 또는 지문 내에 포함된 데이터의 소정의 다른 부분과 같은 지문들의 공통적인 특징에 따라 데이터베이스 내에서 인덱싱된다. 이러한 유형의 인덱싱 스킴은 멀티 스테이지 매칭 프로세스를 고려한다. 예를 들어, 인덱싱 스킴에 기초하여 데이터베이스 내의 기준 지문들의 하나 이상의 후보 집합들과의 예비적인 일치를 결정하기 위해 테스트 지문이 조사될 수 있다. 그 다음, 일치가 존재하는지를 결정하기 위해, 식별된 후보들 각각이 테스트 지문에 (예를 들어, 비트마다) 비교된다. 이러한 멀티-스테이지 매칭 프로세스는, 계산적으로 더 집중적인 지문 비교 전에 후보들의 목록을 좁힘으로써, 데이터베이스 내의 각각의 모든 기준 지문에 액세스한 다음, 각각의 기준 지문을 테스트 지문에 비교할 필요가 없게 한다.

미디어 매칭 시스템의 일부 응용들에서, 알려지지 않은 미디어 샘플들은 알려진 미디어 샘플들의 확장 집합에 대조된다. 예를 들어, 알려지지 않은 미디어 샘플들은 온라인 비디오 공유 웹사이트들로부터의 비디오 클립들일 수 있으며, 이들은 방송 프로그래밍과 같은 알려진 미디어 샘플들에 대조하여 테스트될 수 있다. 알려진 미디어 샘플들의 집합이 성장함에 따라, 새로운 기준 지문들이 그러한 샘플들로부터 생성된 다음, 기준 지문 데이터베이스에 추가된다.

기준 지문들의 데이터베이스가 매우 큰 응용들에서, 데이터베이스는 "사일로"라고도 칭해지는 다수의 물리적 및/또는 논리적 구획에 걸쳐 구현될 수 있다. 기준 데이터베이스가 복수의 구획을 포함할 때, 기준 샘플들은 전형적으로 각각의 구획 내에 포함된 데이터의 양에 기초하여 실질적으로 균일하게 구획들에 걸쳐 분산된다. 기준 지문들을 저장하기 위한 특정 알고리즘은 기준 지문들이 도출된 미디어 샘플들의 소스에 의존할 수 있다. 예를 들어, 방송 프로그래밍으로부터 획득될 때, 샘플들은 그들이 획득된 방송 채널, 또는 샘플들의 임의의 다른 메타-속성에 따라 구획들에 추가될 수 있다.

이러한 알고리즘은 각각의 구획 내에 저장된 데이터의 양의 균형을 맞추려는 경향이 있을 수 있긴 하지만, 그것이 데이터베이스의 의도된 사용을 위한 최적의 상황으로 이어지지는 않을 수 있다. 이것은, 실제는, 미디어 샘플들의 메타 속성들과 그들의 인기도 간의 상관관계가 존재하기 때문일 수 있다. 예를 들어, 예시적인 미디어 매칭 시스템에서, 테스트 샘플들은 종종 다른 소스보다 특정한 한 소스로부터 더 흔하게 발생할 것이다. 인덱싱 시스템은 테스트 샘플을 위한 후보들을 구획들로 그룹화할 것이므로, 이것은 다른 구획들에 비교하여 구획들 중 일부에 대한 더 많은 액세스 부하(예를 들어, 판독 요청)를 유발하는 경향이 있을 것이다. 미디어 매칭 시스템에 의한 액세싱에 기초하는 일부 구획들의 결과적인 과부하는 시스템의 차선의 성능으로 귀결될 가능성이 있다.

미디어 식별 시스템의 기준 데이터베이스 내에 기준 지문들을 저장할 때, 본 발명의 실시예들은 데이터베이스가 미디어 식별 시스템에 의해 이용될 때 데이터베이스 상에서의 검색 부하의 균형을 맞춘다. 구체적으로, 데이터베이스 내에 하나 이상의 새로운 기준 지문을 저장할 때, 본 발명의 실시예들은 그 새로운 기준 지문들을 저장할 데이터베이스의 하나 이상의 구획을 선택한다. 선택된 구획들은 미디어 식별 시스템의 구획들의 액세스 레이트들(예를 들어, 주어진 기간에 걸친 각각의 구획에 대한 검색 횟수)에 적어도 부분적으로 기초하여 결정된다. 일 실시예에서, 새로운 기준 지문들은 다른 구획들보다 상대적으로 낮은 액세스 레이트들을 갖는 구획들에 배치되는 경향이 있을 것이다. 기준 지문을 구획에 추가하는 것은, 그 구획에 대한 액세스 레이트를 증가시키는 경향이 있을 것이므로, 비교적 낮은 액세스 레이트들을 갖는 데이터베이스의 구획들에 새로운 기준 지문들을 추가하는 것은 미디어 식별 시스템에 의한 구획들 상에서의 검색 부하들의 균형을 맞추는 경향이 있을 것이다.

일 실시예에서, 시스템은 새로운 구획들을 생성하고 기존 데이터베이스에 추가하여, 기존 구획들의 검색 부하들을 감소시킬 수 있다. 예를 들어, 기존 기준 데이터 파일들을 새롭게 생성된 구획들로 옮김으로써, 모든 구획들의 검색 부하들의 균형이 더 잘 맞게 될 수 있고, 그에 의해 전체적인 데이터베이스 액세스 레이트를 개선한다. 다른 실시예에서, 시스템은 지문들의 액세스 레이트들에 따라 데이터베이스 내의 기존 기준 지문들을 이동함으로써 구획들에 대한 부하들의 균형을 다시 맞출 수 있다. 구획들은 기준 데이터에 관한 메타 정보에 의해 그룹화될 수 있고, 검색 부하들의 균형 맞추기는 각각의 새로운 기준 지문에 대해 개별적으로 행해지기 보다는, 그룹 레벨에서 행해질 수 있다.

도 1은 본 발명의 실시예에 따른 미디어 지문채취 시스템의 개략도이다.
도 2는 본 발명의 실시예에 따른 기준 지문들의 데이터베이스의 개략적 표현이다.
도 3은 도 2의 데이터베이스 내에 기준 지문들을 저장하기 위한 데이터 구조의 개략적 표현이다.
도 4는 본 발명의 실시예에 따라 지문 매칭 시스템에서 이용되는 데이터베이스의 개략도이다.
도 5a 및 도 5b는 본 발명의 실시예에 따라 디지털 지문들을 대조하기 위한 애플리케이션에 의해 수행되는 단계들을 도시한 흐름도이다.
도 6은 도 3에 도시된 데이터 구조의 예로서, 데이터 구조 내에 저장될 기준 지문들의 후보 집합을 도시하고 있다.
도 7은 본 발명의 실시예에 따라, 기준 지문들의 데이터베이스 상에서의 검색 부하들의 균형을 맞추기 위한 방법의 흐름도이다.
도면들은 오직 설명을 목적으로, 본 발명의 다양한 실시예들을 도시한다. 본 기술분야의 숙련된 자는 이하의 논의로부터, 여기에 설명된 본 발명의 원리들로부터 벗어나지 않고서 여기에 도시된 구조들 및 방법들의 대안적인 실시예들이 이용될 수 있음을 쉽게 알 것이다.

디지털 지문채취 응용들(digital fingerprinting applications)에서, 알려지지 않은 오디오 또는 비디오 컨텐츠로부터 샘플링된 디지털 지문들은 그 알려지지 않은 컨텐츠를 식별하도록 알려진 오디오 또는 비디오 프로그래밍으로부터 취해진 디지털 지문들의 기준 데이터베이스와 비교된다. 알려지지 않은 컨텐츠를 식별하는 것이 바람직한데, 왜냐하면 그것은 미디어 식별 시스템의 많은 다른 응용들 중에서도, 그 알려지지 않은 컨텐츠의 메타데이터가 복구되는 것을 허용하거나 저작권있는 자료의 배포를 제어하는 것을 허용할 수 있기 때문이다.

도 1은 데이터베이스 시스템 내에서 디지털 지문채취 응용을 구현하기 위한 구성을 도시한 것이다. 기준 지문들의 데이터베이스(100) 및 데이터베이스 서버(125)가 도시되어 있다. 데이터베이스 서버(125)는 미디어 샘플로부터 기준 지문들을 생성하는 지문 생성 알고리즘을 운영한다. 일 실시예에서, 데이터베이스 서버는 브로드캐스터(130)에 의해 전송된 방송 프로그램(140)으로부터 기준 지문들을 생성한다. 다른 실시예에서, 데이터베이스 서버(125)는 파일 공유 네트워크 또는 인터넷 웹사이트와 같은 컴퓨터 네트워크(135)로부터 미디어 컨텐츠를 샘플링하고, 그 샘플링된 미디어 컨텐츠로부터 기준 지문들을 생성한다. 데이터베이스 서버(125)는 생성된 기준 지문들을 데이터베이스(100) 상에 저장하고, 따라서 그들은 여기에 설명되는 바와 같이 알려지지 않은 미디어 샘플들을 식별하기 위해 이용될 수 있다.

도 2는 데이터베이스(100)의 일 실시예를 더 상세하게 도시한 것이다. 데이터베이스(100)는 데이터 구조(110) 내에 저장된 복수의 표준 크기 기준 지문(105)을 포함한다. 기준 지문들(105)은 오디오 또는 비디오 컨텐츠의 일부분에 대한 디지털 지문들을 포함할 수 있다. 데이터베이스(100) 내에는 각각의 기준 지문(105)에 연관된 메타데이터(115)도 포함된다. 메타데이터(115)는 제목, 아티스트, 장르, 제작자 및 저작권 날짜와 같이, 기준 지문들(105)에 기인하는 디지털 미디어 컨텐츠에 관한 정보를 포함할 수 있다. 메타데이터(115)는 방송 프로그램(140)으로부터 추출될 수 있거나, 다르게는 데이터베이스 서버(125)에 의해 획득될 수 있다. 또한, 데이터베이스(100)는 이하에 더 상세하게 설명될 바와 같이, 테스트 지문에 일치할 수 있는 지문들의 후보 집합을 식별하기 위해 이용될 수 있는 다수의 인덱스(120)를 포함한다.

인덱싱 방법은 테스트 지문에 일치할 수 있는 기준 지문들의 후보 집합을 식별하기 위해 이용된다. 지문들의 후보 집합은 미리 정의된 논리적인 "버킷(buckets)" 내에서의 그들의 출현에 기초하여 식별되는데, 여기에서 각각의 버킷은 그 버킷에 연관된 템플릿에 의해 지정되는 특정 비트 위치들에서 동일한 비트 값들을 공유하는 지문들의 그룹을 참조한다. 대응하는 템플릿 내에서 지정된 비트 위치들에서 테스트 지문에 일치하는 비트 값들을 갖는 지문들을 포함하는 버킷들이 마킹된다. 지문들이 다수의 상이한 버킷들에서 참조될 수 있고, 각각의 마킹된 버킷은 그 버킷에 의해 참조되는 지문들이 일치할 증가된 확률을 나타내므로, 지문들의 그룹은 가장 높게 마킹된 버킷들 내에서의 그들의 반복(recurrence)에 기초하여 지문들의 후보 집합으로서 식별될 수 있다.

도 3은 기준 지문들(105)이 저장되는 데이터 구조(110)를 더 상세하게 도시한 것이다. 데이터 구조(110)는 구획들(200)이라고 칭해지는 복수의 데이터 보관소를 포함한다. 일 실시예에서, 구획들(200)은 예를 들어 LDAP 프로토콜에 의해 논리적으로 정의되고, 각 구획(200)의 실제 데이터 컨텐츠는 동일하거나 상이한 위치 내의 임의의 수의 물리적 저장 매체 상에 저장될 수 있다. 각 구획(200)의 컨텐츠는 기준 지문들(105)의 부분집합을 포함한다.

도 4에 도시된 전형적인 대조 응용에서, 알려지지 않은 미디어 컨텐츠(300)가 데이터베이스 서버(125)에 의해 샘플링되어 테스트 지문(310)을 생성한다. 알려지지 않은 컨텐츠(300)는 사용자가 생성한 컨텐츠가 업로드되는 것을 허용하는 웹사이트와 같은 웹사이트로부터 샘플링된 디지털 오디오 또는 비디오 데이터를 포함할 수 있다. 샘플링은 데이터베이스 서버(125)에 있는 소프트웨어 프로그램에 의해, 또는 테스트 지문(310)을 데이터베이스 서버(125)에 전달하는 원격 프로그램에 의해 자동적으로 수행될 수 있다. 그러한 소프트웨어 프로그램은 자동적으로 인터넷을 크롤링하여 샘플링할 공유된 오디오 또는 비디오 컨텐츠를 찾는, 흔히 "로봇" 또는 "스파이더"라고 칭해지는 자동 프로그램일 수 있다. 알려지지 않은 컨텐츠(300)는 또한 파일 공유 네트워크에 걸쳐 공유되는 데이터를 포함할 수 있다.

테스트 지문(310)은 알려지지 않은 컨텐츠(300)의 일부분으로부터 획득된 디지털 지문일 수 있다. 동일한 오디오 또는 비디오 스트림으로부터 복수의 디지털 지문이 획득될 수 있다. 일례에서, 샘플링되는 컨텐츠의 매 5초마다 새로운 테스트 지문이 생성된다. 테스트 지문(310)이 획득되고 나면, 그것이 데이터베이스(100)에 대조되어, 데이터베이스(100) 내에 포함된 기준 지문(105)이 테스트 지문(310)에 일치하는지가 결정될 수 있다. 일치가 발견되면, 일치된 기준 지문(305)의 메타데이터(115)가 조사되어 알려지지 않은 컨텐츠(300)를 식별할 수 있고, 예를 들어 저작권 소유자에게 알리는 것, 컨텐츠에 광고를 삽입하는 것, 또는 컨텐츠를 차단하는 것과 같은 적절한 추가의 단계들을 취할 수 있다. 테스트 지문(310)이 기준 지문(105)에 완벽하게 일치할 필요는 없다. 알려지지 않은 컨텐츠(300) 내의 잡음으로 인한 충실도(fidelity)의 손실 또는 기타 왜곡은 테스트 지문(310)과 대응하는 기준 지문(105) 간의 차이를 유발할 수 있으므로, 부분 일치는 충분히 높은 정도의 확실도로 테스트 지문을 식별하는 데에 충분한 것으로 고려될 수 있다.

도 5a는 테스트 지문(310)을 기준 지문들(105)에 대조하기 위한 방법의 개요를 도시한 것이다. 블록(400)에 도시된 제1 단계에서, 기준 지문들(500)의 후보 집합이 생성된다. 블록(405)에 도시된 제2 단계에서, 테스트 지문(310)이 후보 집합(500) 내의 기준 지문들 각각에 비교되어, 그들이 일치하는지가 결정된다.

도 5b는 도 5a의 식별 단계(400)의 일 구현을 도시한 것이다. 도 5b에서, 기준 지문들(500)의 후보 집합을 식별하기 위해 인덱싱 방법이 이용된다. 각각의 인덱스(120)는 기준 지문들의 특성에 따라 기준 지문들을 인덱싱한다. 예를 들어, 인덱스는 특정 좌표에 대해 동일한 값을 갖는 기준 지문들을 그룹화할 수 있다. 블록(410)에 도시된 제1 단계에서, 테스트 지문(105)은 그 테스트 지문에 일치할 수 있는 지문들의 후보 집합을 식별하기 위해 제1 인덱스(120)에 비교된다. 일치하는 경우, 블록(420)에 나타난 바와 같이, 인덱스(120)에 연관된 기준 지문들이 마킹된다. 테스트 지문에 대하여 모든 가능한 후보 기준 지문들을 식별하기 위해 인덱스들 전부가 테스트 지문(310)에 비교될 때까지 인덱스들(120) 각각에 대하여 프로세스가 반복된다. 이 방법의 끝에서, 다수의 기준 지문(105)이 마킹될 것이다. 기준 지문들(105)은 하나보다 많은 인덱스(120)에 의해 정의된 테스트 지문(310)의 인덱싱된 특성들에 일치할 수 있으므로, 후보로서 여러 회 마킹될 수 있다. 그 다음, 블록(425)에 나타난 바와 같이, 모든 후보 기준 지문들이 그룹화된다.

위에 설명된 단계들에서, 후보 기준 지문들은 기준 지문들의 실제 사본을 획득할 필요없이, 인덱스들에 의해 식별된다. 그러나, 후보 지문들이 식별되고 나면, 후보 기준 지문들의 사본이 획득되고, 따라서 매칭 알고리즘은 각각의 식별된 후보 지문을 테스트 지문과 비교하여, 일치가 존재하는지의 여부를 결정할 수 있다. 기준 데이터베이스로부터 후보 지문들의 사본을 획득하는 것은 후보 기준 지문들이 위치되어 있는 데이터베이스 내의 구획들의 "액세스"를 포함할 수 있는데, 그것은 판독 동작이므로, 따라서 기준 데이터베이스의 자원들에 대한 부하이다.

도 6은 데이터 구조(110) 내의 기준 지문들(500)의 후보 집합이 식별된 예와 함께 데이터 구조(110)를 도시한 것이다. 도 6의 예에서, 4개의 구획(200)이 도시되고, 이들 4개의 구획(200)은 총 200개의 식별된 후보 지문을 포함한다. 왼쪽으로부터 오른쪽으로 도시된 바와 같이, 제1 구획(200)은 후보 집합의 100개의 기준 지문을 포함하고, 제2 구획(200)은 17개의 기준 지문을 포함하고, 제3 구획(200)은 1개의 기준 지문을 포함하고, 제4 구획(200)은 82개의 기준 지문을 포함한다.

후보 집합(500) 내의 기준 지문들 중 임의의 것이 테스트 지문(310)과 일치하는지를 식별하기 위해, 지문 매칭 알고리즘은 테스트 지문(310)과 후보 집합(500) 내의 기준 지문들 각각 간에 비트별 비교를 수행할 수 있다. 이것은 도 5a에 도시된 비교 스테이지(405) 동안 수행될 수 있다. 이러한 비교를 하기 위해, 지문 매칭 시스템은 먼저 각각의 구획(200)으로부터 후보 기준 지문들의 사본을 획득한다. 이러한 판독 동작은 구획들(200) 각각에서 병렬로 수행될 수 있지만, 비교 스테이지의 전체 속도는, 가장 많은 수의 후보 지문을 보유하는 구획(200)일 가능성이 있는 가장 느린 구획(200)으로부터의 판독 속도에 의해 제한된다. 본 예에서, 더 많은 식별된 후보 지문을 포함하는 구획들은 더 적은 식별된 후보 알고리즘을 포함하는 구획들보다 매칭 알고리즘에 지문들을 제공하는 데에 더 많은 시간을 소요할 가능성이 있을 것이다. 본 예에서는, 후보 지문들의 수가 동등하게 균형이 맞춰지지 않으므로, 비교의 전체적인 속도는 차선일 것이다. 기준 지문들(500)의 후보 집합이 구획들(200)에 걸쳐 더 균일하게 분산된다면, 비교 스테이지는 더 빠르게 진행할 것이다. 이 경우, 후보 집합 내의 200개의 지문이 더 균일하게 분산된다면, 각각의 구획은 후보 집합 내에 약 50개의 지문을 가질 것이고, 전체적인 대조 속도는 상당히 빨라질 수 있다.

도 7은 본 발명에 따라 데이터베이스 내에서 검색 부하의 균형을 맞추기 위한 컴퓨터 구현된 방법의 흐름도를 도시한 것이다. 블록(600)에 도시된 바와 같이, 각각의 구획(200)에 대하여 액세스 레이트가 모니터링된다. 액세스 레이트는 지문들의 후보 집합(500) 내에 포함된 그 구획 상의 기준 지문들의 평균 개수로서 결정되며, 복수의 테스트 지문(310)의 비교 동안 측정된다. 액세스 레이트는 월간, 주간, 일간, 시간당, 분당(by the minute) 또는 초당(by the second)을 포함하지만 그에 제한되지는 않는 몇몇 기간들에 걸쳐 측정될 수 있다.

데이터베이스 내의 구획들에 대한 액세스 레이트를 모니터링하는 동안, 데이터베이스 서버(125)는 블록(610)에 나타난 것과 같이, 새로운 기준 지문을 데이터베이스(100)에 추가하라는 요청을 수신할 수 있다. 이러한 요청은 도 1에 도시된 것과 같이, 알려진 방송(140)을 샘플링한 것의 결과일 수 있다. 그 다음, 블록(620)에 도시된 바와 같이, 새로운 기준 지문은, 다른 구획들(200)에 비교하여 상대적으로 낮은 액세스 레이트를 갖는 적어도 하나의 구획(200) 상에 저장된다.

낮은 액세스 레이트를 갖는 구획들 상에 새로운 기준 지문을 계속적으로 저장함으로써, 구획들에 걸친 액세스 레이트들이 개선되어, 그들이 대부분의 검색들에 걸쳐 거의 균일하게 유지되게 되고, 그러면 평균 검색 속도가 개선될 수 있다. 또한, 기준 지문들은 구획들의 액세스 레이트들의 부하의 균형을 맞추기 위해 동적으로 재분산될 수 있다.

단지 더 낮은 액세스 레이트들을 갖는 구획들에 대해 새로운 기준 지문들을 저장하는 것을 대신하여, 데이터베이스는 또한 더 높은 액세스 레이트를 갖는 구획들로부터 더 낮은 액세스 레이트를 갖는 구획들로 기준 지문들을 옮김으로써 주기적으로 균형이 다시 맞춰질 수 있다. 이것은 계속적으로 수행될 수도 있고, 지정된 스케줄링된 유지보수 시간들에 수행될 수도 있다.

추가적으로, 기준 지문들은 구획들 상에 그룹으로 저장될 수 있고, 기준 지문들에 대한 최적의 위치의 결정은 각각의 기준 지문에 대하여 개별적으로보다는 그룹 레벨에서 행해진다. 예를 들어, 기준 지문들이 방송 프로그램의 특정 에피소드에 대해 생성될 때, 그 에피소드에 대한 기준 지문들 전체가 가장 낮은 액세스 레이트를 갖는 구획 상에 저장될 수 있다. 다음 에피소드가 방송될 때에만, 그 컨텐츠 부분에 대한 새롭게 생성된 기준 지문들이 그 에피소드에 대하여 상대적으로 낮은 액세스 레이트를 갖는 구획들의 그룹 내에 저장될 수 있다. 대안적으로, 지정된 개수 또는 데이터 크기의 기준 지문들이 함께 그룹지어져서, 데이터베이스 내에서 그 그룹이 저장되어야 하는 곳에 위치될 수 있다.

일 실시예에서, 데이터베이스가 성장함에 따라, 단순히 기존 구획들의 크기만을 증가시키기 보다는, 구획들의 그룹에 구획들을 추가하는 것이 바람직할 수 있다. 구획들이 추가될 때, 데이터베이스 시스템 내에 새로운 구획들을 구현하는 한 방법은, 기존 구획들 중 하나 이상으로부터의 기준 지문들을 새로운 구획으로 옮기는 것이다. 이와 같이 하는 데에 있어서, 새로운 구획의 액세스 레이트는 기존 구획들의 평균 액세스 레이트와 대략적으로 동일하거나 그보다 작을 것으로 예상될 수 있다.

본 발명의 실시예들에 대한 상기의 설명은 예시의 목적으로 제시된 것이며, 본 발명을 개시된 정확한 형태로 제한하거나 완전하게 설명하도록 의도된 것이 아니다. 관련 기술분야의 숙련된 자들은 상기 명세서를 고려하여, 다수의 수정 및 변경이 가능함을 알 수 있다.

본 명세서의 일부 부분들은 정보에 대한 동작들의 기호적 표현 및 알고리즘에 관련하여 본 발명의 실시예들을 설명한다. 이러한 알고리즘적인 설명들 및 표현들은 데이터 처리 기술분야의 숙련된 자들이 자신들의 작업의 본질을 해당 기술분야에 숙련된 다른 자들에게 효과적으로 전달하기 위해 흔하게 이용된다. 이러한 동작들은 기능적으로, 계산적으로 또는 논리적으로 설명되는 한편, 컴퓨터 프로그램들 또는 등가의 전기 회로들, 마이크로코드 또는 그와 유사한 것에 의해 구현되는 것으로 이해된다. 또한, 때로는 이러한 동작들의 배열을 모듈로서 참조하는 것이 일반성을 잃지 않고서 편리한 것으로 입증되었다. 설명된 동작들 및 그들에 관련된 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 그들의 임의의 조합으로 구현될 수 있다.

여기에 설명된 단계들, 동작들 또는 프로세스들 중 임의의 것은 하나 이상의 하드웨어 또는 소프트웨어 모듈로, 단독으로 또는 다른 장치들과 조합하여 수행 또는 구현될 수 있다. 일 실시예에서, 소프트웨어 모듈은 설명된 단계들, 동작들 또는 프로세스들 중 임의의 것 또는 전부를 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독가능한 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.

본 발명의 실시예들은 또한 여기에서의 동작들을 수행하기 위한 장치에 관한 것일 수 있다. 이러한 장치는 요구되는 목적을 위해 특별하게 구성될 수 있고/거나 컴퓨터 내에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨팅 장치를 포함할 수 있다. 그러한 컴퓨터 프로그램은 전자적인 명령어들을 저장하기에 적합하며 컴퓨터 시스템 버스에 연결된 유형(tangible)의 컴퓨터 판독가능한 저장 매체 또는 임의의 유형의 매체에 저장될 수 있다. 또한, 명세서에서 참조된 임의의 컴퓨팅 시스템들은 단일 프로세서를 포함할 수 있으며, 또는 증가된 컴퓨팅 능력을 위해 복수의 프로세서 설계를 이용하는 아키텍처일 수 있다.

본 발명의 실시예들은 또한 반송파로 구현되는 컴퓨터 데이터 신호에 관한 것일 수 있으며, 여기에서 컴퓨터 데이터 신호는 여기에 설명된 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 구현일 수 있다. 컴퓨터 데이터 신호는 유형의 매체 또는 반송파 내에 제공되고, 반송파 내에 변조되거나 다르게 인코딩되는 유형인 제품(product)이며, 임의의 적합한 전송 방법에 따라 전송된다.

마지막으로, 본 명세서에서 이용되는 언어는 주로 가독성 및 설명의 목적을 위해 선택되었으며, 본 발명의 주제의 범위를 정하거나 제한하기 위해 선택된 것이 아닐 수 있다. 그러므로, 본 발명의 범위는 이러한 상세한 설명에 의해서가 아니라, 오히려 여기에 기초하는 출원에 대하여 발생되는 임의의 청구항들에 의해 제한되도록 의도된다. 따라서, 본 발명의 실시예들의 명세서는 이하의 청구항들에 제시된 본 발명의 범위를 제한하는 것이 아니라 설명하도록 의도된 것이다.

Claims

복수의 구획을 포함하는 기준 데이터베이스 내에 미디어 지문들을 저장하는 단계 - 각각의 구획은 알려진 미디어 샘플들로부터 생성된 기준 지문들의 집합을 저장하며, 상기 기준 지문들은 알려지지 않은 디지털 미디어 샘플들을 식별하는데 사용됨 -;
미디어 식별 시스템에 의해 상기 기준 데이터베이스의 구획들의 액세스 레이트들을 모니터링하는 단계 - 구획의 액세스 레이트는 지문들의 후보 집합에 포함된 상기 구획 상의 기준 지문들의 평균 수로서 결정되고, 상기 지문들의 후보 집합은 알려지지 않은 디지털 미디어 샘플과 관련된 테스트 지문과 매칭될 수 있는 상기 구획 내의 기준 지문들의 부분 집합을 포함함 - ;
하나 이상의 새로운 기준 지문을 상기 기준 데이터베이스 내에 저장하라는 요청을 수신하는 단계;
상기 구획들의 상기 액세스 레이트들에 적어도 부분적으로 기초하여 상기 기준 데이터베이스의 구획을 선택하는 단계; 및
상기 기준 데이터베이스의 선택된 구획 내에 상기 새로운 기준 지문들을 저장하는 단계
를 포함하며,
상기 기준 데이터베이스 내에 미디어 지문들을 저장하는 단계는,
상기 데이터베이스 내의 기준 지문들을, 상기 기준 지문들의 특성(characteristic)에 의해 인덱싱하는 단계; 및
동일한 인덱싱된 특성을 갖는 기준 지문들을 상기 기준 데이터베이스의 동일한 구획 내에 그룹화하는 단계
를 더 포함하는 방법.
제1항에 있어서,
각각의 구획은 상기 기준 데이터베이스의 논리적으로 정의된 데이터 보관소인 방법.
제1항에 있어서,
상기 기준 데이터베이스는 상기 기준 데이터베이스 내의 상기 기준 지문들에 대응하는 상기 알려진 미디어 샘플들에 관한 메타데이터를 더 포함하는 방법.
제1항에 있어서,
상기 기준 데이터베이스의 특정 구획에 대한 액세스 레이트는 지정된 기간에 걸친 상기 특정 구획으로부터 기준 지문들을 판독하라는 요청의 수를 포함하는 방법.
제1항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 오디오 샘플들로부터 생성되는 방법.
제1항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 비디오 샘플들로부터 생성되는 방법.
프로세서에 의해 실행하기 위한 컴퓨터 명령어들이 유형적으로(tangibly) 저장된 비일시적인 컴퓨터 판독가능한 저장 매체로서,
상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
복수의 구획을 포함하는 기준 데이터베이스 내에 미디어 지문들을 저장하는 단계 - 각각의 구획은 알려진 미디어 샘플들로부터 생성된 기준 지문들의 집합을 저장하며, 상기 기준 지문들은 알려지지 않은 디지털 미디어 샘플들을 식별하는데 사용되고, 상기 기준 데이터베이스 내에 미디어 지문들을 저장하는 단계는,
상기 데이터베이스 내의 기준 지문들을, 상기 기준 지문들의 특성에 의해 인덱싱하는 단계; 및
동일한 인덱싱된 특성을 갖는 기준 지문들을 상기 기준 데이터베이스의 동일한 구획 내에 그룹화하는 단계를 더 포함함 - ;
미디어 식별 시스템에 의해 상기 기준 데이터베이스의 구획들의 액세스 레이트들을 모니터링하는 단계 - 구획의 액세스 레이트는 지문들의 후보 집합에 포함된 상기 구획 상의 기준 지문들의 평균 수로서 결정되고, 상기 지문들의 후보 집합은 알려지지 않은 디지털 미디어 샘플과 관련된 테스트 지문과 매칭될 수 있는 상기 구획 내의 기준 지문들의 부분 집합을 포함함 - ;
하나 이상의 새로운 기준 지문을 상기 기준 데이터베이스 내에 저장하라는 요청을 수신하는 단계;
상기 구획들의 상기 액세스 레이트들에 적어도 부분적으로 기초하여 상기 기준 데이터베이스의 구획을 선택하는 단계; 및
상기 기준 데이터베이스의 선택된 구획 내에 상기 새로운 기준 지문들을 저장하는 단계
를 수행하게 하는 컴퓨터 명령어가 저장된 비일시적인 컴퓨터 판독가능한 저장 매체.
제7항에 있어서,
각각의 구획은 상기 기준 데이터베이스의 논리적으로 정의된 데이터 보관소인, 비일시적인 컴퓨터 판독가능한 저장 매체.
제7항에 있어서,
상기 기준 데이터베이스는 상기 기준 데이터베이스 내의 상기 기준 지문들에 대응하는 상기 알려진 미디어 샘플들에 관한 메타데이터를 더 포함하는, 비일시적인 컴퓨터 판독가능한 저장 매체.
제7항에 있어서,
상기 기준 데이터베이스의 특정 구획에 대한 액세스 레이트는 지정된 기간에 걸친 상기 특정 구획으로부터 기준 지문들을 판독하라는 요청의 수를 포함하는, 비일시적인 컴퓨터 판독가능한 저장 매체.
제7항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 오디오 샘플들로부터 생성되는, 비일시적인 컴퓨터 판독가능한 저장 매체.
제7항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 비디오 샘플들로부터 생성되는, 비일시적인 컴퓨터 판독가능한 저장 매체.
미디어 식별 시스템으로서,
프로세서;
상기 프로세서와 통신하는 기준 데이터베이스 - 상기 기준 데이터베이스는 복수의 구획을 포함하며, 각각의 구획은 알려진 미디어 샘플들로부터 생성된 기준 지문들의 집합을 저장함 -;
상기 프로세서에 의해 실행되며, 알려지지 않은 미디어 샘플로부터 생성된 테스트 지문을 상기 기준 데이터베이스 내의 하나 이상의 기준 지문과 비교함으로써 상기 알려지지 않은 미디어 샘플을 대조(match)하도록 구성된 지문 매칭 알고리즘(fingerprint matching algorithm); 및
상기 프로세서에 의해 실행되고, 알려진 미디어 샘플들로부터 새로운 기준 지문들을 생성하도록 구성되며, 상기 지문 매칭 알고리즘에 의해 구획들의 액세스 레이트들에 적어도 부분적으로 기초하여 선택된 상기 기준 데이터베이스의 구획들 내에 새로운 기준 지문들을 저장하도록 또한 구성된 지문 생성 알고리즘 - 구획의 액세스 레이트는 지문들의 후보 집합에 포함된 상기 구획 상의 기준 지문들의 평균 수로서 결정되고, 상기 지문들의 후보 집합은 상기 테스트 지문과 매칭될 수 있는 상기 구획 내의 기준 지문들의 부분 집합을 포함함 - ;
을 포함하고,
상기 기준 데이터베이스는, 기준 지문들을 상기 기준 지문들의 특성에 의해 인덱싱하는 인덱스를 더 포함하며, 동일한 인덱싱된 특성을 갖는 기준 지문들은 상기 기준 데이터베이스의 동일한 구획 내에 그룹화되는 미디어 식별 시스템.
제13항에 있어서,
각각의 구획은 상기 기준 데이터베이스의 논리적으로 정의된 데이터 보관소인 미디어 식별 시스템.
제13항에 있어서,
상기 기준 데이터베이스는 상기 기준 데이터베이스 내의 상기 기준 지문들에 대응하는 상기 알려진 미디어 샘플들에 관한 메타데이터를 더 포함하는 미디어 식별 시스템.
제13항에 있어서,
상기 기준 데이터베이스의 특정 구획에 대한 액세스 레이트는 지정된 기간에 걸친 상기 특정 구획으로부터 기준 지문들을 판독하라는 요청의 수를 포함하는 미디어 식별 시스템.
제13항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 오디오 샘플들로부터 생성되는 미디어 식별 시스템.
제13항에 있어서,
상기 기준 지문들 중 하나 이상은 알려진 비디오 샘플들로부터 생성되는 미디어 식별 시스템.