KR20070015194A

KR20070015194A - 정보신호 분석 장치 및 방법

Info

Publication number: KR20070015194A
Application number: KR1020067023373A
Authority: KR
Inventors: 쥐르겐 헤르; 에릭 알라망쉬; 올리버 헬무트; 토스텐 카스트너
Original assignee: 엠2애니 게엠베하
Priority date: 2004-05-10
Filing date: 2005-05-09
Publication date: 2007-02-01
Also published as: US20070127717A1; KR100838622B1; SI1745464T1; DE502005001685D1; JP2007536588A; ATE375588T1; DK1745464T3; WO2005111998A1; CY1107130T1; PT1745464E; DE102004023436B4; US8065260B2; EP1745464A1; CN1957396B; CA2566540A1; EP1745464B1; CN1957396A; ES2296176T3; CA2566540C; DE102004023436A1

Abstract

정보 단위들의 블록들의 시퀀스를 구비하는 정보 신호를 분석하기 위해, 상기 블록들의 시퀀스 중 다수의 연속적인 블록들은 블록들의 시퀀스가 지문들의 시퀀스에 의해 표현되도록 블록들의 시퀀스에 대한 지문들의 시퀀스를 사용하여 정보 실체를 표현한다. 식별 결과들은 연속적인 지문에 대해 제공된다. 식별 결과는 소정의 정보 실체를 갖는 정보 단위들의 블록의 관련성을 나타낸다. 적어도 두 가정들이 연속적인 지문들에 대한 식별 결과들로부터 형성된다. 제1 가정은 제1 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정이고, 제2 가정은 제2 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정이다. 다양한 가정들이 정보 신호에 서술되는 기초로 조사 결과를 조사결과를 획득하기 위해 조사된다. 이것이 정보 신호의 의미있고 신뢰할만한 시간-연속적인 분석을 달성한다.

Description

정보신호 분석 장치 및 방법{DEVICE AND METHOD FOR ANALYZING AN INFORMATION SIGNAL}

본 발명은 정보신호 분석 장치 및 방법에 관한 것으로, 특히 신호 콘텐츠의 식별을 목적으로 하는 신호 분석에 관한 것이다.

증가하는 오디오 및 비디오 재료의 재고품을 저장하고, 다양한 방식의 분배를 통해 이들을 분배하거나 검색하기 쉬운 데이터 베이스를 설정하기 위해, 자동 정보 인식 시스템은 오디오 및 비디오 재료 또는, 더욱 일반적으로, 콘텐츠 기반의 정보 재료를 명백히 식별하도록 보조하는 것이 필수적이다.

소위 "방송 모니터링"이 이를 위한 응용예이다. 이러한 오디오-비디오 모니터링 시스템의 도움으로, 합법적인 콘텐츠만이 배포되거나 오디오 비디오 재료의 소유권을 위한 각각의 로열티가 정확하게 지불되는 것이 보증된다.

예를들면, P2P 네트워크(peer-to-peer network)를 경유하여 파트너들 사이에서 교환되는 오디오 재료의 인식은 다른 응용예이다.

또 다른 응용예는, 예약된 광고 시간에 실제로 방송되었는지, 또는 예약된 광고 공유의 일부만이 방송되었는지, 또는 상업적 방송의 일부가, 예를들면 텔레비 젼이나 라디오 방송국의 책임으로 인해, 전송도중에 방해받았는지에 관하여 텔레비젼이나 라디오 방송국을 모니터하는 광고 산업을 위한 모니터링 가능성이다. 이러한 점에서, 특히 좋은 방송 시간대에 인기있는 프로그램에서 텔레비젼 상업방송을 위한 비용이 너무 비싸서 광고 산업에서(특히 높은 비용의 관점에서) 단순히 방송국의 말만을 신뢰할 필요가 없도록 모니터렁 가능성에 중요한 관심을 가진다. 현재 모니터링 가능성은 계속적으로 임의의 텔레비젼 프로그램(예를들면, 상업방송이 정확한 시간에 전송되었는지, 그리고 전송동안에 방해는 없없는지, 또는 모든 상업방송이 정확하게 전송되었는지 즉, 화면 왜곡이 없었는지)을 시청하고 기록하는 "테스터 청취자" 또는 "테스터 시청자"를 기반으로 이루어진다.

이러한 개념의 단점은 명백하다. 특히, 상당한 재지불 요구가 그 증명성에 관하여 테스터 청취자에 완전히 의존하여 이루어진다면, 일면에서는 비용이 중요하지만, 다른 측면에서는 테스터 청취자 또는 테스터 시청자의 진술의 증거성이나 신뢰성이 문제가 된다.

널리 알려진 다양한 시스템들이 자동 방송 모니터링을 위해 사용될 수 있다. 예를들면, WO 02/11123 A2 또는 특별 공개: "Inverted Talk: An Industrial-Strength Audio Search Algorithm", Avery Wang, ISMIR 2003, Baltimore, October 2003, 에서는, 잡음이 강하고 왜곡이 심한 환경에서 오디오 및 음악 신호를 인식하기 위한 시스템 및 방법을 개시하고 있다. 첫 번째 단계는, 기준 오디오 객체의 해쉬값(hash value)과 여전히 식별되지 않은 오디오 객체에 대해 현재 결정된 해쉬값 사이에 조화(match)되는지를 조사하는 것이다. 만약, 그런 경우라면, 여전히 식별 되지 않은 오디오 객체에서 관련된 해쉬값의 시간 오프셋(즉, 오디오 객체의 시작으로부터 상대적인 거리)과 기준 오디오 객체에서 해쉬 값의 시간 오프셋이 각 기준 오디오 객체의 식별하에 저장된다. 모든 입력 해쉬값들이 처리되었을 때, 소위 스캐닝 위상이 시작된다. 이러한 위상 동안, 기준 오디오 객체 시간당 얼마나 많은 시간 오프셋 쌍이 있는지 조사된다. 만약의 임의의 수가 감지된다면, 대응하는 기준 오디오 객체의 식별이 가정된다. x축으로서 시간 오프셋과 y축으로서 다른 오프셋을 가진 2차원 분산 도면에서 시간 오프셋 쌍이 직선을 형성할 때(즉, 일시적으로 서로 관련되는), 시간 오프셋 쌍은 시간에서 연속되는 것으로 간주된다.

특별 공개판("Robust Audio Hashing for Content Identification" by J. Haitsma, T. Kalker, J. Oostveen, in Proceedings of the Content-Based Multimedia Indexing, 2001, url:citeseer.ist.psu.edu/haitsma01robust. html)에서 콘텐츠 식별을 위한 강건한(robust) 오디오 해쉬용 시스템이 제시된다. 콘텐츠 기반의 음악 인식을 위해, 해쉬 기능은 비트 시퀀스를 오디오 신호와(즉, 인간 음성 인식을 위해 음향적으로 유사한 오디오 신호들이 유사한 비트 시퀀스를 생성하는 것과 같이) 관련되는 데에 사용된다. 해쉬값의 계산을 위해, 오디오 신호는 먼저 윈도우되고 대수 대역을 가진 주파수 대역으로 변환된 결과의 분할을 최종적으로 실행하도록 변환된다. 이러한 주파수 대역에 대해, 시간과 주파수 방향에서의 차 신호들이 결정된다. 신호들로부터 도출되는 비트 시퀀스가 해쉬값을 구성한다. 하나의 해쉬값은 항상 3초의 오디오 신호 길이를 위해 계산된다. 만약, 기준 해쉬값과 그런 부분에 대해 조사될 테스트 해쉬값 사이의 해밍 거리(hamming distance) 가 한계점(s) 아래에 있다면, 조화(match)가 가정되고 테스트 부분이 기준 요소로 관련된다.

오디오 재료의 인식을 실행하기 위해, 오디오 신호는 전형적으로 길이(Dt)의 작은 단위로 쪼개진다. 이러한 개개의 단위들은 적어도 임의의 시간 해를 갖도록 각각 개별적으로 분석된다.

이러한 것이 여러가지 문제들을 야기한다.

인식된 오디오 신호에 대한 명백하고 정확한 서술이 더 긴 시간 기간 동안 이루어질 수 있도록 오디오 신호의 분석된 시간 기간의 인식 결과는 함께 판단되어야 한다.

연속적인 오디오 데이터 스트림의 분석을 위해, 하나의 오디오 요소로부터 다른 요소로의 전환(즉, 음악 A의 작품으로부터 음악 B의 작품으로 전환)은 정확하게 감지되어야 한다.

예를 들면, 동일한 시작점을 가지면서 임의의 시간 후에는 다르게 시작하는, 여러 버전의 음악 작품이 있는 상황이 있다. 예를 들면, 짧은 버전 또는 최대 버전의 노래를 가정하자. 선택적으로, 예를 들면, 동일한 노래를 기반으로 하는 음악 작품이 시작점에서 다르고 동일한 중간부를 가지며, 두 작품의 음악 중 적어도 하나의 끝에서 서로 다른 상황에 있다. 저작권 소유자에게 로열티을 지불하기 위해, 예를 들면, 노래의 최대 버전이 더 많은 비용으로 실행될 수 있을지, 보통 버전만이 중간 비용으로 실행될 수 있을지, 또는 짧은 버전의 노래가 저 비용으로 실행될 수 있는지가 중요하다. 이 경우에, 신뢰성 있게 여러 버전의 노래를 구별하는 것이 가능해야한다.

상기 선행 기술은 개별적인 인식 결과가 간단히 함께 판단될 때, 에러를 감지한다는 점에서 만족스럽지 않다. 특히, 다수의 서로 다른 오디오 객체로부터 얼마나 연속적인 오디오 데이터 스트림이 분석될 수 있는지, 그리고 다양한 오디오 객체들 사이에서 얼마나 대응하는 전조(transition)가 감지될 수 있는지에 관한 어떤 정보도 제공되지 않는다. 추가로, 후자의 선행기술에서 특히 기준 해쉬값의 모호성이 언급될지라도, 분명한 후보의 결정 문제에 대한 어떤 명료한 해결책도 주어지지 않는다. 만약, 오디오 객체가 해쉬값에 대해 식별되도록 고려된다면, 직접적으로 이어지는 해쉬값에 대해 식별되는 오디오 객체가 적절한지에 대한 조사가 있다. 만약, 그런 경우가 아니라면 모든 오디오 객체를 포함하는 새로운 조사가 있다.

특히, 다양한 버전의 노래와 동일한 노래를 구별하기 위한 어떤 해결책도 선행 기술에 알려져 있지 않다.

본 발명의 목적은 정보신호를 분석하기 위해 신뢰할만한 개념(concept)을 제공하는 것이다.

이러한 목적은 청구항 1항에 따른 정보신호를 분석하기 위한 장치, 청구항 20항에 따른 정보신호를 분석하기 위한 방법, 또는 청구항 21항에 컴퓨터 프로그램에 의해 달성된다.

본 발명은, 신뢰할만한 콘텐츠 식별이 개별적인 인식 결과를 고려하는 것뿐만 아니라 시간의 임의의 기간에 대해 달성된다는 사실을 기반으로 한다. 예를 들면, 지문의 시퀀스를 위한 개별적인 인식 결과의 시퀀스에서 인식에 사용할 수 있는 고려할만한 정보가 있다. 본 발명에 따라, 적어도 두 개의 서로 다른 가정들(hypotheses formation)의 구성이 정보신호의 블록들의 시퀀스를 나타내는 지문의 시퀀스를 기반으로 실행된다. 상기 첫번째 가정(hypothesis)은 첫 번째 정보 실체(entity)를 가진 블록들의 시퀀스의 관련에 대한 가정이고, 두번째 가정(hypothesis)은 두번째 정보 실체(entity)를 가진 블록들의 시퀀스의 관련에 대한 가정이다. 적어도 두 가정은 정보신호에 대한 서술(statement)이 조사 결과를 기반으로 이루어지도록 평가되고 조사된다. 예를들면, 상기 서술은 블록들의 시퀀스가 가장 그럴듯한 가정을 구비한 정보 실체를 나타내는 것을 결정하는 데에 있을 수 있다. 지문들의 시퀀스 중 일시적으로 마지막 지문으로서 가장 그럴듯한 가정에 기여하는 지문을 정보 단위가 종료하는 것이 선택적으로 또는 추가적으로 서술될 수 있다.

바람직하게는, 지문들을 위한 적어도 두 개의 다른 식별 결과들이 존재하도록, 그리고 두 개의 다른 식별 결과 각각에 대하여 신뢰성 척도(수치)가 존재하도록 그 가정들이 조사(examine)된다. 상기 신뢰성 척도는 구체적인 수로 이루어 질수 있다. 그러나, 이러한 신뢰성 척도는 단지 두 식별 결과가 제공된다는 사실과 이러한 수는 명백히 제공되지 않는다는 사실에 의해서만, 예를들어 1/2의 신뢰성이 신호화되도록 함축적으로 제공될 수 있다.

하나의 가정이 다른 가정보다 더 그럴듯한지에 대한 평가를 위해, 시간에서 연속적인 각 블록들의 수에 대한 개별적인 인식의 신뢰성 척도는 유리하게 조합된다. 바람직하게는, 이러한 조합이 추가로 이루어진다. 가장 높게 조합된 신뢰성 척도를 제공하는 가정(hypothesis)은 가장 그럴듯한 가정인 것으로 평가된다.

본 발명의 바람직한 실시예에서, 다수의 기준 지문들이 식별 결과와 관련되어 각각 제출되는 지문 데이터베이스는 연속적인 식별 결과를 제공하기 위한 수단으로 사용된다. 데이터베이스 조사는 데이터베이스 내의 테스트 지문과의 조화(match 매치)를 제공하는 기준 지문을 찾도록 분석되는 정보신호의 블록으로부터 생성되는 지문으로 이루어진다. 상기 데이터베이스의 설계에 종속되어, 베스트 히트(즉, 최소 거리 수치(척도)를 구비한 히트)만이 식별 결과로서 데이터베이스에 의해 조사결과로 출력된다. 또한, 데이터베이스는, 관련된 신뢰성 척도를 구비한 다수의 가능한 히트가 출력되도록, 예를들면 20%와 같은 임의의 한계(threshold) 이상의 신뢰성 척도를 구비한 모든 히트들이 데이터베이스에 의해 출력되도록, 질적으로 뿐만아니라 양적인 히트 결과를 제공하는 것이 바람직하다.

본 발명의 바람직한 실시예에서, 아직 어떤 가정(hypothesis)도 없는 동안에 새로운 인식 결과가 나타날 때 새로운 가정이 시작된다. 이러한 절차는 임의의 갯수의 블록들에 대해 신뢰할만하다고 발견된 가정이 이미 종료되는지를 과거 방향으로 조사하고, 대부분의 그럴듯한 가정에서처럼 이러한 가정을 식별하도록 분별하기 위해 실행된다.

본 발명의 이점은 상기 개념이 신뢰하도록 작동된다는 것이고, 그럼에도 불구하고 특히 전송 에러에 관하여 관대하다는 것이다. 예를들면, 하나의 블록을 기반으로 어떤 시도도 결정되지 않는다, 그러나 연속된 블록들의 시퀀스는, 말하자면, 짧은 기간 전송 방해 및/또는 일반적으로 일어나는 잡음이 모든 인식 과정을 쓸모없게 만들지 않도록 가정 구성(hypothesis formation)에 의해 함께 고려되고 평가된다.

추가로, 본 발명의 개념은, 예를들면 상업방송의 시작부터 끝까지 전송 품질의 기록을 자동으로 제공한다. 비록 가정이 가장 그럴듯한 가정으로 식별된다 할지라도(즉, 임의의 상업방송이 거기에 있었던 것으로 결정된다면), 상업방송 내에서의 품질 변수는 신뢰성 척도를 기반으로 여전히 추적가능하다. 더욱이, 정보 실체(entity)의 일 예로서 상업방송의 완전한 시간 연속성은, 특히 상업방송이 일부를 계속적으로 반복하지 않았지만, 모든 상업방송은 방송의 시작부터 끝까지 연속적인 방법으로 전송되었다는 점에 관하여, 추적가능하고 기록가능하다.

본 발명은 정보 실체의 시작과 끝이 가정 구성(hypothesis formation)에 의해 자동으로 감지된다. 이것은 정보 실체와 관련성이 일반적으로 모호하지 않다는 사실 때문이다. 이것은, 시간의 임의의 지점에 대해 다수의 정보 실체를 재생하는 것이 가능하지 않다는 것을 의미하지만 적어도 과도한 수의 프로그램 콘텐츠에 대해, 단지 하나의 정보 실체가 시간의 하나의 지점에서 정보신호로 포함된다. 가정 조사 및 이를 기반으로 하는 가정의 평가는, 이전의 정보 실체가 종료되는 시간에서의 지점 및 새로운 정보 실체가 시작하는 지점을 제공한다. 이것은 가정에서 유지되는 블록 관련 때문이다. 가정이 시간에 관한 원 정보신호와 모호하지 않게 관련되도록, 지문들의 시퀀스는 여전히 블록들의 시퀀스에 대응하고 식별 결과의 시퀀스는 차례로 지문들의 시퀀스에 대응한다.

본 발명의 개념은, 정보 실체가 부분적으로 동일한 오디오(짧은 버전 또는 긴 버전의 노래와 동일한 노래와 같은) 재료를 가지더라도, 두 가정들 사이에 "비김(drawing)" 상황이 없다는 이점을 더 가진다.

본 발명의 바람직한 실시예들은 첨부된 도면들을 참조하여 하기에서 더 상세히 설명될 것이다.

도 1은 본 발명의 장치의 블록 회로도이고;

도 2는 도 1에 도시된 실시예에 대해 사용가능한 데이터베이스의 블록 회로도이며;

도 3은 관련된 가정들뿐만 아니라 시간 간격들의 시퀀스에 대한 지문들의 시퀀스를 위한 출력 결과의 계층도이고;

도 4a-4c는 후속되는 응용을 위한 시나리오의 일 실시예를 나타내는 도면이며;

도 5a-5d는 다양한 잘못된 평가의 계층도이고;

도 6은 본 발명의 바람직한 실시예의 블록 회로도이며;

도 7a-7c는 도 4a-4c에 도시된 출력 시나리오를 위한 본 발명의 개념의 기능을 나타내는 도면이고;

도 8은 정보 단위를 구비한 정보신호, 정보 단위의 블록들 및 다수의 블록들을 구비한 정보 실체들의 계층도이며;

도 9는 지문 데이터베이스를 형성하기 위해 알려진 시나리오이고; 및

도 10은 도 9에 따라 로드된 지문 데이터베이스의 수단에 의해 오디오를 식별화하기 위해 알려진 시나리오이다.

도 1은 본 발명의 바람직한 실시예에 따라 정보신호를 분석하기 위한 장치의 블록 회로도를 나타낸다. 예시적인 정보신호는 도 8에서 800에 의해 표시된다. 상기 정보신호(800)는 시간에서 연속적인 정보 단위들의 블록들의 시퀀스(802)로 이루어진다. 개개의 정보 단위들(804)은, 예를들어 오디오 샘플들, 비디오 픽셀들 또는 비디오 변환 계수들 등이 될 수 있다. 다수의 시퀀스의 블록들(802)은 항상 함께 정보 실체(806)를 형성한다. 도 8에 도시된 실시예에서, 제1 여섯 블륵들은 제1 정보 실체를 형성하고, 블록들(7,8,9,10)은 제2 정보 실체를 형성한다. 블록들(11)로부터 n까지 시작하는 제3 정보 실체가 예시적으로 도 8에 도시된다. 예를들면, 정보 실체는 음악의 일부, 구절, 비디오 이미지 또는 비디오 이미지의 일부일 수 있다. 그러나, 만약 정보신호가 텍스트 데이터를 포함한다면, 정보 실체는 또한 텍스트 또는 텍스트의 페이지일 수 있다.

도 1에 도시된 장치는, 만약, 지문들이 분석에 앞서 이미 생성되었거나 구현에 종속되어 정보신호로 제공된다면, 블록들(802)의 시퀀스로부터 생성되거나 메모 리로부터 가져오는 지문들(FA1, FA2, FA3, ..., FAi)의 시퀀스를 이용하여 동작하도록 설계된다. 널리 알려진 바와 같이, 예를들면 오디오 부호화로부터 블록 구성을 위한 블록 오버랩핑 기술(block overlapping technique)에 사용될 수 있는 것이 언급될 것이다.

임의의 경우에, 정보신호를 분석하기 위한 장치는 블록들(802)의 시퀀스가 지문들(FA1, FA2, FA3, ..., FAi)의 시퀀스에 의해 표현되도록 블록들의 시퀀스에 대한 지문들의 시퀀스를 이용하여 동작한다. 지문들의 시퀀스는 연속적인 지문들에 대해 식별 결과를 제공하기 위한 수단(12)에서 지문 입력으로 제공된다. 연속적인 식별 결과를 제공하기 위한 수단(12)은 연속적인 지문들에 대해 연속적인 식별 결과를 제공하도록 동작된다. 상기 식별 결과는 소정의 정보 실체를 구비한 정보단위들의 블록의 관련을 나타낸다. 예를들면, 노래가 약 여섯 블록에 대응하는 시간 길이를 가진다고 가정하면, 상기 여섯 블록들은 다른 지문들을 제공하지만, 이러한 여섯 블록들을 제공하기 위한 수단(12)에서 소정의 정보 실체(즉, 상기 언급된 노래)의 일부가 되도록 신호화된다.

상기 구현에 종속되어, 상기 제공하기 위한 수단(12)은 지문에 대해 하나 또는 더 많은 식별 결과를 제공할 것이다. 연속적인 지문들에 대한 식별 결과들로부터 적어도 두 가정(hypotheses)에서 형성하기 위한 수단(14)에 하나 또는 더 많은 식별 결과가 제공된다. 특히, 제1 가정(hypothesis)은 제1 정보 실체를 구비한 블록들의 시퀀스의 관련을 위한 가정을 나타내고, 제2 가정은 제2 정보 실체를 구비한 블록들의 시퀀스의 관련을 위한 가정을 나타낸다. 다양한 가정들(H1, H2, ...) 은 가정을 조사하기 위한 수단(16)에 제공된다. 상기 수단(16)은 조사 결과 출력(18)에서 조사 결과를 최종적으로 제공하기 위해 조정가능한 조사 알고리즘에 따라 작동하도록 설계된다.

라인(18)에서의 이러한 조사 결과는 정보신호에 대해 서술하기 위한 수단(20)에 제공된다. 정보신호에 대해 서술하기 위한 수단(20)은 조사 결과를 기반으로 하는 정보신호에 대한 정보를 출력하도록 설계된다.

정보신호에 대한 서술이 조사 결과(18)를 기초로 이루어진다는 것을 공통적으로 모든 세팅들이 가진다. 정보신호에 대한 다양한 서술의 예들은, 블록들의 시퀀스가 가장 그럴듯한 가정을 가지는 정보 실체를 나타내는 것을 결정하는 데에 있다. 선택적인 서술은, 시간적으로 마지막 지문으로서 가장 그럴듯한 가정으로 기여하는 지문을 정보 실체(entity)가 종료되는 것이다. 상기 수단(20)에 의해서 만들어질 수 있는 선택적인 서술은, 본질적으로 정보 실체가 정보신호에 존재하는지 아닌지를 결정하는 것으로 이루어진다.

상기 수단(14, 16 및 20)(즉, 적어도 두 가정들에서 형성하고, 가정을 조사하며, 조사 결과를 기초로 서술하는 수단)들에 의해 특히 제공되는 본 발명의 후처리는, 알려지지 않은(즉, 분석될) 정보신호에서 작품의 식별을 허락할 뿐만 아니라 제1 작품(즉, 제1 정보 실체) 및 상기 제1 정보 실체를 따르는 제2 정보 실체의 시작을 감지하는 것을 허여한다(작품 자체의 식별과는 별도로).

그러나, 상업적인 방송 모니터링에 관하여, 본 발명의 후처리 개념은, 임의의 작품이 정보신호에 존재하는지 아닌지를 감지하기 위한 가능성을 제공한다. 정 보신호로부터 획득된 지문들은 지문들의 세트(즉, 소정의 정보 실체-즉, 상업방송-를 나타내는 지문들의 세트). 그래서, 이러한 서술은 정보 실체를 식별하거나 정보 실체의 끝과 다음의 정보 실체의 시작을 감지하는 내용에서 주로 고려되지 않지만 임의의 정보 실체가 분석될 알려지지 않은 정보신호에 존재하는지 아닌지를 감지하는 데에 존재한다.

도 2는 연속적인 지문들에 대한 식별을 제공하기 위한 수단(12)의 특히 바람직한 구현을 나타낸다. 바람직한 실시예에서, 상기 수단(12)은 다양한 기준 지문들(FArj)을 포함하는 데이터베이스를 포함한다. 상기 기준 지문들은 식별 결과(즉, 도 2에서 도시된 IDk)와 관련하여 모두 저장된다. 바람직한 실시예에서, 상기 지문들(FAi)은 차례대로(즉, 시작에서 연속적으로) 처리된다. 그래서, 지문들(FAi)은 입력 라인(24)을 경유하여 데이터베이스로 저장된다. 데이터베이스에서, 저장된 지문(FAi)은 모든 기준 지문들(FArj)에 비유된다. 바람직한 실시예에서, 데이터베이스는 입력 지문이 저장된 기준 지문에 조화(match)되는지 아닌지를 결정하는 정성적인(qualitative) 데이터베이스가 아니다. 그러나 상기 데이터베이스는 출력 결과에 대한 거리 척도 및/또는 신뢰성 척도를 제공할 수 있는 정량적인(quantative) 데이터베이스이다. 도 2에 도시된 바람직한 실시예에서, 상기 데이터베이스(22)는 예를들어 출력(26)에서 결과 테이블(28)에 도시된 결과를 제공한다. 예를들면, 상기 데이터베이스(22)는 지문(FAi)이 식별 결과(IDx)(즉, 60%의 ZV1의 신뢰성을 구비한 음악 작품)를 가리키는 것을 언급한다. 그러나, 동시에, 데이터베이스는 지문(FAi)이 50%의 신뢰성을 가진 식별 결과(IDy)를 구비한 작품을 가리키는 것을 언 급할 것이다. 최종적으로, 데이터베이스는 지문(FAi)이 40%의 신뢰성 척도(ZV3)을 가진 식별(IDz)을 구비한 또 다른 작품을 가리키는 것을 출력할 수 있다.

구현에 종속되어, 모든 결과 테이블(28)은 도 1의 적어도 두 가정을 형성하기 위한 수단(14)에 제공될 수 있다. 그러나, 선택적으로 데이터베이스(22) 자신이 가장 그럴듯한 값(즉, 결과 IDx의 경우에)을 결정하고 적어도 두 가정을 형성하기 위한 수단(14)에 제공할 수 있다. 이 경우에, 신뢰성 척도(ZV1)은 적어도 두 가정에서 형성하기 위한 수단(14)에 반드시 제공되어야만 하는 것은 아니다. 대신에, 신뢰성 척도(ZVi)의 더 많은 통신이 생략될 수 있다. 그러나, 가정을 조사하기 위한 수단(16)이 가장 그럴듯한 가정을 찾기 위한 신뢰성 척도를 필요로 하기 때문에, 선택적으로 식별 결과를 제공하기 위한 수단(12)은, 적어도 두 가정에서 형성하기 위한 수단(14)이 아닌 가정을 조사하기 위한 수단(16)에 블록과 관련된 순서로 대응하여 신뢰성 척도(ZVi)을 제공하도록 설계될 수 있다.

ID1과 같은 식별 결과는 다수의 관련된 지문들(FAr11, FAr12, FAr13)을 갖을 수 있다는 것이 도 2에서 데이터베이스(22)로부터 보여질 수 있다. 상기 지문들은 ID1에 의해 식별된 작품이 다수의 블록을 가진다는 것을 가리킨다. 그러나, 구현성에 종속하여, 식별 ID을 갖는 작품에 대해 하나의 긴 지문이 저장될 수 있다. 그러나, 상기 식별 ID는 개개의 지문들(FAr11, FAr12, FAr13,..)로 이루어진다. 데이터베이스는, 저장된 기준 지문의 일부가 라인(24)에 제공된 기준 지문(FAi)에 조화되는지 아닌지를 결정하는 데이터베이스의 각 열에서 긴 지문을 갖도록 제공된 지문(FAi)과 상관된다. 상기 제공된 지문(FAi)은 블록 길이에 종속되고 긴 지문보다 전형적으로 더 짧다. 여기서, 신뢰성 척도는 소위 상관 결과의 정량적인 평가에 의해 간단히 자동으로 결과를 낸다.

더욱이, 참조는 도 2를 기반으로 식별 결과들(ID108 및 ID109)에 의해 명명된 마지막 두 줄에 이미 만들어진다. 도 4a에 관하여 설명되는 바와 같이, ID108은 음악 작품의 긴 버전을 명명한다. 반면에, 도 4b에 도시된 바와 같이, ID109는 음악의 동일한 작품의 짧은 버전을 식별한다.

이미 논의된 바와 같이, 데이터베이스(22)(즉, 연속적인 지문들에 대해 식별 결과를 제공하기 위한 수단(12)의 이러한 구현)는 가장 그럴듯한 식별 결과를 제공하는 것과 같이 설계될 수 있다. 그러나, 선택적으로 데이터베이스(22)는 5%의 한계(threshold)와 같은 최소 한계보다 더 높은 식별 결과의 가능성을 항상 제공하도록 정의될 수 있다. 이것은, 테이블의 열의 수가 지문으로부터 지문으로 변화하는 결과를 갖는다. 그러나, 다시 선택적으로, 데이터베이스(22)는 각 입력 지문(FAi)에 대해 "톱 10"(즉, 10개의 가장 그럴듯한 후보)과 같은 가장 그럴듯한 후보의 수를, 적어도 두 가정에서 형성하기 위한 수단(14)에 공급하도록 구현될 수 있다.

이어서, 데이터베이스(22)의 구현은 도 3을 기반으로 설명될 것이다. 상기 데이터베이스는 관련된 신뢰성 값을 갖는 그럴듯한 3개의 식별 결과(즉, 소위 "톱 3"구현을 포함한다.)를 가정들을 형성하기 위한 수단(14)에 항상 제공한다. 도 3은 지문(FA1)에 대해 식별 결과들(ID1, ID2, ID3)이 각 신뢰성 척도 40%, 60% 또는 30%로 제공된다는 것을 보여준다. 각 시간 간격(Δt2)(즉, 지문(FA2))에 대해, 도 3에 예로서 퍼센트로 설명되지만, 서로 다른 각각의 가능성(즉, 서로 다른 각각의 신뢰성 척도)을 갖는 식별 결과들(ID1, ID2, ID3)의 전달이 다시 있을 수 있다. 이러한 과정은 모든 입력 지문들(FA1부터 FA8까지)에 대해 실행된다. 도 1에 도시된 바와 같이, 적어도 두 가정을 형성하기 위한 수단(14)이 이러한 식별 결과들에 제공된다. 적어도 두 가정을 형성하기 위한 수단(14)은 새로운 식별결과가 식별 결과를 제공하기 위한 수단(12)으로부터 제공될 때마다 언제라도 새로운 가정을 시작하도록 설계된다. 이것은 도 3으로부터 보여질 수 있다. 즉, 가정들(H1, H2, H3)은 시간(Δt1)에서 각각 ID1, ID2 및 ID3를 갖고 시작되고, 새로운 가정은 시간 간격(Δt7)에 ID108, ID109 및 ID4를 갖고 다시 시작되며, 도시된 예에서 ID8이 제1 시간동안 나타난다는 사실 때문에 추가 가정(H4)은 시간 각격(Δt8)에서 ID8에 대해 시작된다.

적어도 두 가정에서 형성하기 위한 수단(14)은 새로운 식별 결과가 각각의 새로운 지문에 대해 새로운 식별결과가 되는지를 알 수 있고 새로운 가정을 시작하도록, 그리고 구성요소가 시간 기간(Δt1)동안 "톱 3" 또는 "톱 x"에 포함될 때(비록 가능성이 적을지라도), 단지 시작된 가정에 대한 식별 결과를 제공하는 더 일찍 시작된 가정을 계속하도록 작동된다. 이러한 과정은 일정 시간 동안 계속된다. 이어서, 미리 설정된 횟수 또는 사용자 등에 의해 유발된(triggered) 예에 대해 가정을을 조사하기 위한 수단(16)은 과거동안 형성된 가정을 조사하고, 도 3에 도시된 경우에 대해 시간 기간들(Δt1부터 Δt6까지)동안 가정들(H1, H2, H3)의 신뢰성 척도를 추가할 것이다. 적어도 두 가정을 조사하기 위한 수단(16)은 작품이 가장 ID1과 같을 것 같은 것(즉, 가정(H1)이 시간 기간들(Δt1부터 Δt6까지)동안 가장 그 럴듯한 가정이라는 것)을 결정한다. 왜냐하면, 제2 가정이 230의 신뢰성척도에 다다르고, 제3 가정이 135의 신뢰성 척도에 다다를 때, 신뢰성 척도는 420의 값에 이르기 때문이다.

도 3에 도시된 경우에서와 같이, 모든 세 가정들은 동일한 시간에 시작하고 모든 세 가정들은 동일한 시간에 종료한다. 그러나, 이것이 반드시 그런 경우일 필요는 없다. 예를들면, 가정(H1)은 더 일찍(즉, 예를들면 Δt5 시간에) 종료할 수 있다. 이런 경우에, ID1의 신뢰성 척도는 90까지 감소되어야한다. 그래서 330의 값에 다다른다. 이런 경우에, 비록 가정(H2)이 더 긴 시간 기간 동안 대체로 적은 가능성으로 존재할지라도, 상기 가정(H1)은 가장 그럴듯한 가정이라는 것이 그 결과이다. 도 3에 도시된 예는, 가정(H2)보다 Δt1동안 덜 그럴듯하다는 사실에도 불구하고 가정(H1)이 끝에서 "우세하다(wins)"는 것을 더 보여준다.

도 3은, 예를들면, 몇몇 이유 때문에 가정이 "구멍들'을 가질 수 있다는 것을 보여준다. 예를들면, 전송 채널의 방해때문에, ID1이 아닌 ID2와 ID3이 시간 기간(Δt4)에서 합리적인 가능성으로 제공된다. 그런 경우에, 가정(H1)은 이러한 경우에 가장 그럴듯한 가정이 되도록 ID1에 대한 신뢰성 값은 60까지 줄어들고, 차례로 총 신뢰성은 420 대신에 360이 된다는 결과를 갖을 것이다.

상기 시나리오는, 후처리를 기초로 가정과 함께 동작하고 일측에서는, 시퀀를 고려하고 타측에서는 개개의 지문 식별 과정의 신뢰성 추측을 고려하는 본 발명의 개념이 전송 에러에 관하여, 또한 데이터베이스에서 문제있는 기능들에 관하여, 또한 음악 작품, 비디오 이미지, 텍스트 등과 같은 몇가지 정보 실체들에 대해 바 람직할 만큼 다르지 않을 수 있는 지문에 관하여 특별히 강건하다(robust)는 것을 보여준다.

바람직한 실시예에서, 가정은 저장된 프로토콜(도 3:H1, H2, H3, ...)(바람직하게는 저장된 리스트의 형식으로)이다. 상기 프로토콜은 일측에서 가정이 만들어지기 위한 정보 실체의 표시와, 타측에서 지문의 표시 및/또는 가정이 실행되기 위한 정보 단위의 블록들을 포함한다. 바람직하게는, 프로토콜은 블록 및/또는 지문에 대한 또한 신뢰성 척도를 포함한다.

도 3은 제1 정보 실체만이 시간 기간(Δt1부터 Δt6까지)을 연장하고 새로운 실체는 Δt7부터 시작하는 것을 보여준다. 비록, 가정(H3)이 예를들면 Δt7을 포함했었을지라도, 매우 높은 가능성(즉, 90 및 85의 가능성을 가진 ID108 및 ID109)을 갖는 완전히 다른 식별 값들이 나타나고, 그래서 이전 시간 기간으로부터 "명백한 승리자(clear winners)"을 대신한다.

도 3의 끝에서, 실시예의 방법에 의해서 만들어질 수 있는 다양한 서술이 표현된다. 즉, 시간 기간(Δt1부터 Δt6까지)에서 정보 실체는 ID1에 의해 식별된 음악 작품이다. 선택적으로, 상기 서술은 정보 실체 변화가 Δt6과 Δt7 사이에서 일어나는 것일 수 있다. 그러나, 선택적으로 서술은 ID1에 의해 식별된 음악 작품이 정보신호에 포함되는 것일 수 있다.

다음으로, 먼저, 도 9 및 도 10을 기반으로 데이터베이스 시스템들의 더욱 일반적인 설명이 있다. 상기 데이터베이스 시스템들이 본 발명에 관련하여 얼마나 유익하게 사용될 수 있는지에 대한 설명이 있다. 본 발명은 음악과 같은 오디오 재 료의 식별을 위한 시스템을 기반으로 한다. 상기 시스템은 두 동작 단계를 안다. 훈련 단계에서, 도 9를 기반을 설명된 바와 같이, 인식 시스템은 나중에 식별될 작품을 배운다. 상기 식별 단계에서, 도 10에 도시된 바와 같이, 이전에 훈련된 오디오 작품이 인식될 수 있다.

음악 작품(또는, 다른 오디오 신호)을 식별하기 위해, 조밀(compact)하고 유일한 데이터 세트가 음악작품으로부터(또한 지문 또는 서명으로 언급된 바와같이) 추출된다. 이러한 추출은 블록 특징 추출(900)에서 이루어진다. 상기 훈련 또는 학습 단계에서, 그런 지문들은 지문 데이터베이스(902)에 저장되고 알려진 오디오 객체의 세트로부터 발생된다. 바람직하게는, 특징 추출 수단(900)은 특징으로서 SFM특징을 사용하도록 설계된다. SFM은 "스펙트럼 편평도 척도(spectral flatness measure)"을 의미한다. 물론, 다른 지문 생성 시스템 및/또는 특징 추출 결과 또한 사용될 수 있다. 그러나, 음질관련 특징 및 특히 SFM 특징은 특히 일측에서 좋은 특수성을 가지고, 다른 측면에서 특히 좋은 조밀함(good compactness)을 가진다는 것이 발견된다. 이러한 목적때문에, 각 블록은 먼저 시간/주파수 변환한 후 다음의 식에 따른 시간/주파수 변환으로부터 생성된 값을 갖고 블록에 대한 SFM을 계산한다.

이 방정식에서, X(n)은 인덱스 n을 가진 스펙트럼 구성요소의 절대값의 제곱을 나타낸다. 상기 N은 스펙트럼의 스펙트럼계수의 총 수이다. SFM 척도는 스펙트럼 구성요소의 기하학적 평균 및 스펙트럼 구성요소의 산술평균의 계수와 같다는 것이 방정식으로부터 보여질 수 있다. 상기 SFM이 0과 1 사이의 값 범위를 가지도록 상기 기하학적 평균은 항상 산술평균 이하라는 것은 알려져 있다. 이러한 문맥에서, 0에 가까운 값은 음색 신호를 나타내고, 1에 가까운 값은 편평한 스펙트럼 커브를 구비한 다소 잡음같은 신호를 나타낸다. 완전하게 음색의(예를들면, 잡음같거나 펄스같은) 신호에 대응하는 모든 X(n)이 동일하다면, 산술평균 및 기하 평균은 같다. 그러나, 단지 하나의 스펙트럼 구성요소만이 매우 높은 값을 갖는 극단적인 경우에, 다른 스펙트럼 구성요소들(X(n))이 매우 작은 값을 가질 때, 상기 SFM 척도는 매우 음색적인 신호를 가리키는 0에 가까운 값을 가질 것이다.

상기 SFM 개념 뿐만 아니라 지문을 생성하기 위한 다른 특징 추출 개념은, 예를들면 WO 03/007185에 논의된다.

상기 식별 단계에서, 도 10에서 도시된 바와 같이, 훈련단계에서와 같이 동일한 특징 추출(900)이 있다. 특별히, 시간 기간(Δt) 동안 오디오 입력에서 오디오 객체로부터 추출된 지문은 비교기(904)의 수단에 의해 지문 데이터베이스(902)의 기준 지문에 비유된다. 상기 비교기는 도 1에 관하여 설명된 바와 같이, 식별 결과를 제공하기 위한 수단에 전형적으로 포함된다. 이어서, 인식 결과는 임의의 표준을 기반으로 어울리는 것을 감지하는 경우에 시간 기간(Δt) 동안 획득된다. 만약 어울리는 것이 임의의 표준을 기반으로 감지된다면, 알려지지 않은 지문과 알 려지지 않은 오디오 객체로부터의 일 부분이 데이터베이스(즉, 다양한 신뢰성 값을 가진 식별 결과들(IDi, IDi+1)의 목록)에서 기준 재료와 관련될 수 있다.

본 발명에 따라, 지금 입력에서 알려지지 않은 오디오 객체는 기준 데이터베이스(즉, 시간 Δt 동안만)에서 기준 오디오 객체와 정확하게 연관될 뿐만 아니라 입력에서 데이터 스트림의 방해없이 연속적인 동작을 한다. 본 발명에 따라 기준 데이터베이스로부터 정확한 오디오 객체와 함께 오디오 객체로부터 다양한 부분들의 연관성이 실행된다. 그래서, 입력에서 식별된 오디오 객체의 끊어지지 않은 시퀀스(즉, 프로토콜)가 획득된다.

다음으로, 특히 연속적인 오디오 데이터 스트림의 연속적인 분석의 어려움이 도 4a부터 도 5d까지를 기반으로 나타내진다. 오디오 데이터 스트림의 부분에 대해 데이터베이스에서 기준 구성요소와 관련할 수 있도록 오디오 객체는 길이(Δtx)의 부분들(즉, 개개의 블록들)로 나누어져야 한다. 상기 오디오 데이터 스트림의 각 부분의 관련성이 항상 명백하지는 않고 단지 선행하고 뒤따르는 관련성과 연관하여 명백하다는 것이 가능하다. 만약 개개의 관련성이 만들어지고 다음 단계에서 조합된다면, 그 결과는 아래에 보여지는 바와 같이 잘못된 인식 프로토콜이다.

도 4a는 음악(XY)의 작품의 긴 버전을 나타낸다. 상기 음악은 도 4a에 도시된 긴 지문에 의해 표현된다. 상기 식별 결과(ID108)는 이러한 지문과 관련된다. 도 4b는 음악(XY)의 동일한 작품의 짧은 버전에 대해 동일한 것을 보여준다. ID109는 음악(XY)의 작품의 긴 버전을 가리킨다. 왜냐하면, 짧은 버전은 긴 버전보다 더 짧기 때문에, 도 4b에서 지문은 도 4a에서 지문보다 더 짧다. 두 블록들이 다른 것 아래에 있는 것으로 도시되기 때문에, 음악의 작품 및 지문들(ID108 및 109)는 동일한 오디오 재료 및/또는 동일한 지문 데이터를 포함한다. ID109는 ID108의 서브세트(subset)이다. 도 4c는 긴 버전이 시간 기간(Δt0)에서(짧은 버전에서 존재하지 않는) 시작 부분을 가진다는 것을 보여준다. 긴 버전이 시간 t5와 t7사이에서 ID109에 의해 식별된 짧은 버전에서 존재하지 않는 음악 부분을 가질 때, t1과 t5사이의 중간부분에서 긴 버전과 짧은 버전은 동일하다.

이어서, 도 5a부터 도 5d까지를 기반으로 간단한 조합(즉, 가정 구성없이)의 경우에 잘못된 인식 프로토콜이 어떻게 개개의 식별을 갖고 생성될 수 있는지가 설명될 것이다. 음악의 작품(ID108)은 시간 t0에서 시스템의 입력에 수신된다는 것을 가정한다. 더욱이, 상기 데이터베이스는 시간 기간(Δtx) 동안 도 5a에 도시된 구성요소들을 식별하도록 동작된다. 비록 ID108 및 ID109가 시간 기간(Δt1부터 Δt4까지)에서 출력될 수 있을지라도 도 5a에서 식별은 기본적으로 정확하다는 것이 언급될 것이다. 궁극적으로, 이러한 영역에서 식별 결과들의 결정은 모호하다. 왜냐하면, 데이터베이스는 방해가 없을때 ID109 및ID108 둘 다 출력하고, 몇몇 잡음 때문에 두 식별 결과들(ID108 및 ID109) 중 하나는 항상 약간 더 높은 신뢰성 척도를 가지도록 계산 차이 때문에 항상 가장 그럴듯한 값을 고를 것이기 때문이다. 도 5b에 도시된 인식 프로토콜에서, 잘못된 식별은 ID109에 의해 식별된 작품들이 어느 시간에서도 실행되지 않지만 ID108에 의해 식별된 작품만은 실행되게 한다.

이어서, 도 5c와 도 5d는 더욱 선택적인 것을 보여준다. 데이터베이스는 도 5c에 도시된 상황을 출력한다고 가정한다. 상기 인식 프로토콜에서 잘못된 조합 (즉, ID109는 T1과 T5사이에 존재하였던 것이, 물론 그 경우가 아닐 때)이 다시 주어진다. 대신에, 음악 작품(즉, ID108)의 긴 버전이 t0부터 t7까지 실행되었다.

추가로, 시간 기간(Δtx)에서 오디오 데이터 스트림의 일부분에 대해 개개의 인식의 모호함에 의해 생성된 잘못 인식 프로토콜들이 더욱 상상될 수 있다.

본 발명에 따라, 도 6에 도시된 일반적인 개념이 지금 접근된다. 시간 기간(Δtx)(즉, 상기 수단(도 1의 12)의 출력 신호들) 동안 획득된 인식 결과들은(구현에 종속되어 상기 수단들(900, 904, 902)을 조합할 수 있는) 도 1의 가정을 조사하기 위한 수단과 적어도 두 가정을 형성하기 위한 수단에 대응하여 실질적으로 후 처리하게된다. 정보신호에서의 서술은 후처리를(즉, 후처리에서 획득된 조사 결과를 사용하는) 사용하는 인식 시퀀스 및/또는 인식 프로토콜의 형태로 만들어진다.

후처리 단계에서, 시간 기간(Δtx) 동안 식별된 기준 오디오 객체로부터 시간 기간(Δt_x ₊₁) 동안 다른 기준 오디오 객체로의 전이에 대한 가능성은 동일한 것으로 가정된다. 이러한 가정으로부터, 먼저 병렬로 고려되는 다양한 가설들은 각각의 인식으로부터 끊임없는 오디오 부분에 대해 형성된다. 개개의 인식들이 시간 연속적으로 연결되고 동일한 기준 오디오 신호에 관련될 때 가정(hypothesis)을 형성하기 위해 조합된다. 상기 인식 프로토콜은 시간에서 전진을 고려하는 각각의 가장 그럴듯한 가정의 조합으로부터 기인된다. 이어서, 바람직한 알고리즘이 더욱 상세히 설명된다.

먼저, 끊임없는 오디오 부분에 대한 다양한 가설들이 각각의 인식된 기준 오 디오 객체에 대해 시간 기간(Δtx)(x=N, N+1, N+2, ...;상기 t_N은 각 가정에 대한 시작 시간임) 동안 개개의 인식으로부터 형성된다.

만약, 개개의 인식들이 연속적인 방법으로 시간에 연속된다면, 개개의 인식들이 가정을 형성하도록 조합된다.

시간 연속성은 이미 존재하는 가정이 연속되거나 새로운 가정이 시작되는지를 결정하도록 서비스하는 추가의 구성요소이다. 예를들면, 임의의 기타 솔로에서(예를들어 작품의 긴 버전에서 작품의 중간부에 다소 위치가 정해지고 작품의 짧은 버전에서 작품의 시작에 다소 위치가 정해지는 작품에서) 시나리오를 고려해라.

바람직한 실시예에서, 데이터베이스(즉, 식별 결과를 제공하기 위한 수단)는 지문 식별 뿐만아니라 데이터베이스에서 지문의 일부에 매칭만하는 입력 지문과 길이를 갖는 데이터베이스에서 식별 지문으로부터 기인된 시간 값을 출력한다.

상기와 같이 설명된 시나리오에서, 데이터베이스는 기타 솔로(짧은 버전 및 긴 버전)에 대한 두 ID 결과값을 제공하지만 다른 두 시간 인덱스를 가진다. 짧은 버전에 대한 ID 결과용 시간 인덱스는 긴 버전에 대한 시간 인덱스보다 더 작다. 시간 인덱스를 기초로 하여, 만약, 현재로 획득된 시간 인덱스와 가정의 마지막 시간 인덱스에서 연속성이 없다면, 가정을 형성하기 위한 수단은 지금 가정(만약, 시간 인덱스와 가정에서의 마지막 시간 인덱스 사이에서 시간 연속성이 있다면)을 연속할 수 있거나 새로운 가정을 시작할 수 있다.

만약, 다음의 구성요소가 설정될 시간 거리(Ta)보다 시간에서 더 큰 거리를 가지거나, 다음의 구성요소가 일시적으로 이전의 구성요소에 앞선다면, 기준 오디오 객체에 관한 각 시간 불연속성은 새로운 가정을 생성한다.

가정 조사를 위해, 개개의 인식의 신뢰성 척도(즉, 신뢰성 값들 및/또는 그럴듯함에 대한 수치)의 추가는 각각 가정에 대해 만들어진다.

시간 기간(Δt0)을 가지고 시작하면, 가장 높은 신뢰성 척도를 가진 가정이 진실로 평가되고 인식 프로토콜로 채택된다. 제1 가정을 따르는 다음 시간 기간에 대해, 가장 높은 신뢰성 척도를 가진 가정은 다시 진실로 평가되고 인식 프로토콜 등으로 채택된다.

상기 예에 대해, 그결과는 도 7a 내지 7c를 기반으로 설명되는 과정이다. 시간 기간(Δt0) 동안, 예를들어 도 2에 도시된 바와 같이, 데이터베이스는 단지 하나의(한계(threshold) 이상의 신뢰성 척도 및/또는 가능성을 가진) 식별 결과(즉, ID108)를 제공한다. 시간 기간(Δt1)에서(즉, 시간 기간(Δt1)을 확장하는 정보 단위의 블록에 대해), 상기 데이터베이스는 한계 이상의 신뢰성 척도를 갖는 두 결과를 제공한다. 상기 두 결과는 시간 t2 내지 t5사이에서 블록들에 대해 획득된다. 시간 기간 t5 내지 t7에 대해, 데이터베이스는 하나의 식별 결과만을 제공하며, 상기 식별 결과의 신뢰성 척도는 한계 이상이다.

적어도 두 가정을 형성하기 위한 수단(도1의 14)은 식별 결과(ID108)를 기반으로 시간(t0)에서 제1 가정을 시작하고 새로운 가정(즉, 새로운 식별 결과(ID109)를 기반으로 시간(t1)에서 가정(H2))을 시작하도록 설계된다.

시간(t7) 이후의 시간에서, 가정들(H1 및 H2)을 갖는 도 7a에 도시된 가정 상황은, 가정들(도 7b에 도시된 바와 같이 될수 있는)의 조사를 기반으로 각 가정에 대한 이 각 인식들(X_H1 및 X_H2)의 신뢰 척도용 기능을 계산하도록 고려된다.

t1과 t5 사이에서 식별 결과들(ID108 및ID109)이 동일한 가능성을 갖고 일어난다는 것을 가정하면, 단지 제1 가정(H1)만이 도 7a에 도시된 실시예에서 우세할 것이다. 왜냐하면, 비록 가정이 t1과 t5사이에서 가정(H2)만큼 그럴듯할지라도, 가정(H1)은 시간 기간(Δt0, Δt5 및 Δt6)에 적용한다(즉, 가정(H1)은, 가정(H2)에 대해 주어지지 않은 개개의 인식에 대해 신뢰성 척도에 기여한다). 즉, 인식 프로토콜에 대해, 명명된 작품(ID108)이 시간 t0부터 t7까지 실행되었다는 것은 도 7c에 도시된 경우가 정확하다는 것을 의미한다.

t0에서 시작하면, t7까지 더 높은 신뢰성 척도를 가진 가정이 없기 때문에, 가정(H1)이 선택된다. 가정(H2)은 포기되고, 원칙적으로, 가장 그럴듯한 가정으로 선택된 다른 가정에 병렬로 존재하는 모든 가정들이 포기될 수 있다.

본 발명에 따라, 정확하게 기록된 시퀀스가 있다. 이 예에서 구성요소(즉, ID108)는 실제로 오디오 입력에서 실행되었다.

가정의 종료의 결정을 위한 다양한 가능성이 있다는 것이 언급될 것이다. 예를들면(가정 상황에 독립적으로), 정보 실체 종료는 예를들면 오디오 신호 자체(예를들면 임의의 최소 길이를 갖는 멈춤이 있다면)로부터 결정될 수 있다. 그러나, 만약 두 정보 실체 사이에 페이딩(fading)이 있거나 어떤 주목할만한 멈춤이 발견될 수 없을 정도로 두 작품들이 빠르게 서로를 따른다면, 이러한 기준은 작용 하지 않기 때문에, 과거에 고려될 가정을 기반으로 정보 실체를 결정하는 것이 바람직하다. 예를들면, 임의의 최소 한계 이상의 신뢰성 값을 갖는 임의의 식별 결과를 더 이상 가지지 않는 둘 또는 더 많은 블록들이 가정을 형성하기 위한 수단(14)에 제공될 때, 가정이 종료하도록 고려되는 것과 같이 될 수 있다. 예를들면, 선택적으로, 도 3에 도시된 경우에 대한 실시예에 대해, 가정이 종료에서(즉, 예를들면 다수의 블록들(20) 이후에) 임의의 수의 블록들 임의의 블록에 대한 가장 높은 값을 가졌었던 것을 알기 위하여 일부 시간에서 과거로 향하는 소정의 블록들의 수에 대해 가정의 값을 더하도록 간단히 시작될 수 있고 생존되며, 다른 가정들을 "능가한다". 도 3에 도시된 실시예에서, 이것은, 정보 실체가 ID1 또는 ID2 또는 ID3인 가정이 시간 기간(Δt7 및 Δt8) 동안 계속될 것을 의미한다. 그러나, 이것은 ID1의 인식에서 어떤 것도 변화시키지 않는다. 왜냐하면 새로운 가정(즉, ID108,ID109, ID4 및 ID8)에 대한 가정)이 나중에(즉, Δt7과 Δt8 또는 그이상으로부터 블록동안) 실제적으로 시작되고, 높은 조합 신뢰성 값만을 훨씬 나중에 달성하거나 전혀 못하게되기 때문이다.

상기 논의는 가정의 종료가 반드시 활발하게 결정되어야할 필요가 있는 것은 아니지만 이러한 종료는 과거(시작된 가정들)의 분석으로부터 자동으로 기인될 수 있다는 것을 보여준다. 바람직하게, 새로운 가정은 중요성 한계이상의 신뢰성 척도를 갖는 새로운 식별 결과가 나타날 때마다 시작된다. 상기 과거는 임의의 시간 기간 동안 가정이 생존하는 것을 알기 위해 임의의 시간에서 조사된다. 이러한 목적으로 가정의 종료를 명백히 결정하는 것이 필수적인 것은 아니다. 왜냐하면 그것은 자동적인 결과이기 때문이다.

특히, 환경에 종속되어 본 발명의 방법이 소프트웨어로 구현될 수 있다는 것은 명백하다. 대응하는 방법이 실행되도록 프로그램가능한 컴퓨터 시스템과 함께 작동할 수 있는 디지털 저장 매체(특히 전자적으로 판독될 수 있는 제어 신호를 구비한 시디(CD) 또는 디스크)에서 구현될 수 있다.

일반적으로, 따라서 본 발명은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 기계판독가능한 캐리어 상에 저장된 발명의 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램 제품에 존재한다. 즉, 본 발명은 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 상기 발명을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램으로서 실현될 수 있다.

Claims

정보 단위들(804)의 블록들의 시퀀스(802)를 구비하고, 상기 블록들의 시퀀스 중 다수의 연속적인 블록들은 블록들의 시퀀스가 지문들의 시퀀스에 의해 표현되도록 블록들의 시퀀스에 대한 지문들(FAi)의 시퀀스를 사용하여 정보 실체(806)를 표현하는 정보신호를 분석하기 위한 장치로서,

연속적인 지문에 대해 식별 결과들(IDi)을 제공하는 수단(12), 여기서 식별 결과는 소정의 정보 실체를 갖는 정보 단위들의 블록의 관련성을 나타내고, 각 식별 결과에 대한 신뢰성 척도가 있으며, 제1 지문에 대한 제1 식별 결과를 생성하고, 다음의 블록에 대한 제1 식별 결과로부터 서로 다른 제2 식별 결과를 생성하도록 설계된, 식별 결과들을 제공하기 위한 수단(12)과;

상기 연속적인 지문들에 대한 식별 결과들로부터 적어도 두 가정을 형성하기 위한 수단(14), 여기서 제1 가정은 제1 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정이고, 제2 가정은 제2 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정이며, 제1 가정을 시작하거나 제1 식별 결과에 대응하여 이미 현존하는 제1 가정을 계속하며, 제2 가정을 시작하거나 제2 식별 결과에 대응하여 이미 현존하는 제2 가정을 계속하도록 설계된, 적어도 두 가정을 형성하기 위한 수단(14)과;

조사결과를 획득하기 위해 가정의 신뢰성 척도를 조합함으로써 상기 적어도 두 가정들을 조사하기 위한 수단(16); 및

상기 조사결과를 기반으로 정보신호에 서술하기 위한 수단(20)을 포함하는 정보신호 분석 장치.
제1항에 있어서,

상기 조사하기 위한 수단(16)은 가정에 적용하는 가능성 정보에 관하여 가정을 조사하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 또는 제2항에 있어서,

상기 서술하기 위한 수단(20)은 블록들의 시퀀스는 가장 그럴듯한 가정을 갖는 정보 실체를 표현하거나, 정보 실체가 시간에서 마지막 가정과 같이 가장 그럴듯한 가정에 기여하는 지문을 종료하거나 정보 실체가 정보신호에 존재하는지 아닌지를 결정하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제3항 중 어느 하나의 항에 있어서,

상기 제공하기 위한 수단(12)은 지문에 대해 서로 다른 두 식별 결과들을 생성하도록 설계되는 정보신호를 분석하기 위한 장치.
제4항에 있어서,

상기 제공하기 위한 수단(12)은 서로 다른 두 식별 결과들 중 하나에 대해 신뢰성 척도를 생성하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제4항 또는 제5항에 있어서,

상기 형성하기 위한 수단(14)은 제1 가정을 갖는 두 식별 결과들 중 제1 식별 결과를 관련시키고, 제2 가정을 갖는 두 식별 결과들 중 제2 식별 결과를 관련시키도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제3항 내지 제6항 중 어느 하나의 항에 있어서,

상기 조사하기 위한 수단(16)은, 더 많이 조합된 신뢰성 척도를 갖는 가정을 결정하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제7항 중 어느 하나의 항에 있어서,

상기 형성하기 위한 수단(14)은 다수의 블록들이 제1 정보 실체를 나타내는 식별 결과 또는 제2 정보 실체를 나타내는 식별 결과를 획득하지 않을 때, 제1 또 는 제2 가정들을 종료하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제8항 중 어느 하나의 항에 있어서,

상기 형성하기 위한 수단(14)은 감지된 사건이 정보신호에서 일어날 대, 제1 또는 제2 가정을 죵료하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제9항에 있어서,

사건 감지기가 있을 때, 사건으로서 한계 레벨 아래에 있는 정보 단위들의 블록에서 에너지 레벨을 감지하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제10항 중 어느 하나의 항에 있어서,

제공하기 위한 수단(12)은 각 지문에 대한 신뢰성 척도를 갖거나 또는 없이 가장 신뢰할만한 식별 결과만을 출력하거나, 지문에 대한 신뢰성 척도 없이 또는 갖는 다수의 가장 신뢰할만한 지문들을 출력하거나, 지문에 대한 신뢰성 척도 없이 또는 갖는 한계 이상의 신뢰성 척도를 구비한 식별 결과들만을 출력하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제11항 중 어느 하나의 항에 있어서,

조사하기 위한 수단(16)은 조합된 신뢰성 척도를 획득하기 위한 가정에 속하는 명백한 또는 함축적인 신뢰성 척도를 추가하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제12항 중 어느 하나의 항에 있어서,

제공하기 위한 수단(12)은 기준 정보 실체의 지문들이 저장된 데이터베이스에서 지문을 갖고 조사를 실행하고, 각 식별 결과에 대한 신뢰성 척도의 표시로서 각 식별 결과에 대한 거리 척도 및 다수의 식별 결과들을 제공하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제13항에 있어서,

제공하기 위한 수단(12)은, 식별 결과에 대한 거리 척도가 한계 거리보다 더 작은 거리를 가리키는 한계와 관련성을 가질 때, 아직 어떤 가정도 없기 때문에 각 식별 결과에 대한 새로운 가정을 시작하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제14항 중 어느 하나의 항에 있어서,

상기 조사하기 위한 수단(16)은 가장 그럴듯한 가정에 의해 변환된 지문들에 대해 형성된 연속적인 지문들에 대한 모든 가정들을 결정에 응답하여 종료하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제15항 중 어느 하나의 항에 있어서,

상기 정보신호는 오디오 신호를 포함하고, 상기 정보 단위는 시간 또는 주파수 영역에서 오디오 샘플들이며, 상기 정보 실체는 음악 작품, 구어 시퀀스 또는 잡음 부분을 포함하는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제16항 중 어느 하나의 항에 있어서,

블록에 대한 지문은 시간/주파수 변환의 결과에 대한 스펙트럼 편평도 척도의 계산에 의해 및/또는 시간/주파수 변환에 의해 결정되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제17항 중 어느 하나의 항에 있어서,

블록에 대한 지문은 블록의 데이터 양보다 더 작은 데이터 양을 지문이 갖도록 생성되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
제1항 내지 제18항 중 어느 하나의 항에 있어서,

식별 결과를 제공하기 위한 수단(12)은 식별 결과에 추가하여 결과식별 결과에 대한 새로운 시간 인덱스를 제공하도록 설계되는 정보신호를 분석하기 위한 것인 정보신호 분석 장치.
정보 단위들(804)의 블록들의 시퀀스(802)를 구비하고, 상기 블록들의 시퀀스 중 다수의 연속적인 블록들은 블록들의 시퀀스가 지문들의 시퀀스에 의해 표현되도록 블록들의 시퀀스에 대한 지문들(FAi)의 시퀀스를 사용하여 정보 실체(806)를 표현하는 정보신호를 분석하기 위한 방법으로서,

연속적인 지문에 대해 식별 결과들(IDi)을 제공하는 단계(12), 여기서 식별 결과는 소정의 정보 실체를 갖는 정보 단위들의 블록의 관련성을 나타내고, 각 식별 결과에 대한 신뢰성 척도가 있으며, 제1 지문에 대한 제1 식별 결과를 생성하 고, 다음의 블록에 대한 제1 식별 결과로부터 서로 다른 제2 식별 결과를 생성하도록 설계된, 식별 결과들(IDi)을 제공하는 단계(12)와;

연속적인 지문들에 대한 식별 결과들로부터 적어도 두 가정을 형성하기 위한 단계(14), 여기서 제1 가정은 제1 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정이고, 제2 가정은 제2 정보 실체를 갖는 블록들의 시퀀스의 관련성에 대한 가정인, 적어도 두 가정을 형성하기 위한 단계(14)와;

여기서 상기 형성 단계(14)는, 제1 식별 결과에 대응하여 제1 가정을 시작하거나 이미 현존하는 제1 가정을 계속하거고, 제2 식별 결과에 대응하여 제2 가정을 시작하거나 이미 현존하는 제2 가정을 계속하고,

조사결과를 획득하기 위해 가정의 신뢰성 척도를 조합함에 의하여 적어도 두 가정들을 조사하기 위한 단계(16); 및

상기 조사결과를 기반으로 정보신호에 서술하기 위한 단계(20)를 포함하는 정보신호 분석 방법.
컴퓨터 프로그램이 컴퓨터에서 동작할 때, 청구항 제20항에 따른 방법을 실행하기 위한 프로그램 코드를 구비한 컴퓨터 프로그램.