KR100754294B1

KR100754294B1 - 오디오 컨텐츠 식별 방법 및 식별 특징 형성 방법 및 컴퓨터 판독가능한 기록 매체 및 시스템

Info

Publication number: KR100754294B1
Application number: KR1020047014248A
Authority: KR
Inventors: 피트만마이클씨; 피치블레이크지; 아브람즈스티븐; 저메인로버트에스
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2002-04-05
Filing date: 2002-04-05
Publication date: 2007-09-03
Also published as: KR20040101299A; EP1497935A4; CN100545834C; WO2003088534A1; CN1623289A; EP1497935A1; AU2002254568A1; JP4267463B2; JP2005522744A; ATE386999T1; DE60225190T2; EP1497935B1; DE60225190D1

Abstract

본 발명에서 오디오가 세미톤 간격을 기반으로 하여 분석되고(402-406), 각 세미톤 채널에 대해 평균이 계산된다(408-410). 각 세미톤 채널에 대해 연속 평균들이 계산되고(412) 이 평균들이 비교되어 이들의 교차 여부를 결정한다(414,416). 교차 이벤트가 표시되고 주파수 스펙트럼 데이터와 함께 사용되어 저장된 사운드 패턴과 입력 오디오 간의 일치 여부를 결정한다.

Description

오디오 컨텐츠 식별 방법 및 식별 특징 형성 방법 및 컴퓨터 판독가능한 기록 매체 및 시스템{FEATURE-BASED AUDIO CONTENT IDENTIFICATION}

관련 출원에 대한 상호 참조

본 출원은 2000년 11월 3일에 미국 출원된 미국 가출원 제 60/245,779 호를 기반으로 하여 이에 대한 우선권을 주장하며, 이 가출원의 전체 내용은 본 명세서에서 참조로서 인용된다.

본 발명은 신호 인식 분야에 관한 것이며, 특히 음성 레코딩과 같은 오디오 컨텐츠를 자동 식별하는 방법에 관한 것이다.

인터넷의 출현과 함께 (가령, MP3로 알려진 MPEG 층 3 표준 방식과 같은) 오디오를 효율적으로 디지털 인코딩하는 방법이 개발됨에 따라서 레코딩된 음악이 전적으로 전자적으로 판매 및 보급되게 되었다. 이는 레코딩 산업에 붐을 일으키고 있다. 그러나, 이러한 기술의 등장으로 인해서 불법적인 음원 배포가 확산되고 있다. 이는 음반 제작자 및 음반 보급자의 지적 재산권에 커다란 손해를 주고 있 다. 복제를 거듭해도 품질이 열화되지 않는 하이파이 디지털 복제품(high fidelity digital copies)을 쉽게 배포하게 됨으로써, 디지털 오디오가 출현되기 이전에 음악을 오디오 카셋트로 상으로 한정적으로 복사했던 것보다 음반 산업에 매우 큰 문제를 야기하고 있다. 현재, 저작권 보호된 음반의 해적판을 쉽게 획득할 수 있는 수 많은 인터넷 사이트가 존재한다. 따라서, 음반 저작권 보호 강화를 위해서, 오디오 컨텐츠를 자동적으로 식별할 수 있는 시스템 및 방법이 필요하다.

MP3 파일과 같은 디지털 오디오 파일로부터 음악을 식별하는 것은 사소한 문제가 아니다. 상이한 인코딩 방식은 동일한 노래에 대해서 상이한 비트 스트림을 발생시킨다. 심지어 동일한 인코딩 방식이 동일한 노래를 인코딩(즉, 사운드 레코딩)하고 두 개의 디지털 오디오 파일을 생성하는 데 사용되는 경우에도, 이 파일들이 비트 레벨에서 반드시 서로 일치하는 것은 아니다. 최종 생성된 사운드 차이가 인간의 감각으로 판정하기에는 무시할 만하여도 여러가지 이유로 인해서 비트 스트림에는 차이가 발생한다. 이러한 차이를 유발하는 원인들은 레코딩 시스템의 전체적인 주파수 반응에서의 미세한 차이, 디지털 대 아날로그 변환 효과, 잔향(reverb)과 같은 음향 환경적 효과 및 리코딩 시작 시간의 근소한 차이를 포함한다. 또한, 소정의 인코딩 방식을 사용할 경우에 발생하는 비트 스트림은 오디오 소스의 타입에 따라서 변한다. 가령, 컴팩트 디스크(CD)의 출력을 인코딩하여 생성된 노래의 MP3 파일은 스테레오 수신기의 출력을 인코딩하여 생성된 동일한 노래의 MP3 파일과 비트 레벨에서 일치하지 않는다.

제안된 한 방법은 디지털 워터마크(digital watermark)를 사용하여 저작권 보호된 음반을 태그(tag)하는 것이다. 불행하게도 이러한 디지털 워터마크 기술을 침범할 수 있는 수 많은 방법들이 발견되었다. 또한, 인간에게 매우 잘 들리기는 하지만 음악을 인식함에 있어서는 방해가 되지 않는 잡음 및 왜곡의 형태가 존재한다. FM 방송 및 오디오 카세트는 CD 레코딩보다 낮은 대역폭을 가지지만 몇몇 청취자에 의해 여전히 복사되고 있다. 이와 마찬가지로, 인터넷 상의 수 많은 MP3 파일은 상대적으로 품질이 낮지만 여전히 확산되고 있으며 음반 산업의 수익에 큰 문제가 되고 있다. 또한, 저작권 보호 방식을 의도적으로 침해하는 몇 가지 방법들은 음원을 의도적으로 변경 또는 왜곡시키는 것을 포함한다. 이러한 왜곡은 시간 확장(time-stretching) 및 시간 압축(time-compressing)을 포함한다. 이러한 경우에, 시작 시간과 종료 시간이 달라질 뿐만 아니라 노래 연주 시간도 역시 달라진다. 이러한 시간 차이는 인간에게는 거의 인식되지 않지만 수 많은 통상적인 저작권 보호 방식들을 침해할 수 있다.

음반 산업 및 음반 저자에 대한 다른 문제는 음반 샘플을 허가받지 않고 사용하는 것이다. 샘플은 다른 노래 내부로 클립 및 배치된 노래의 짧은 부분들이다. 이러한 샘플이 발견 및 식별될 수 없다면, 최초의 레코딩 시에 저작권을 가지고 있는 소유자는 관련 분야에서 그 샘플을 사용하는 것에 대해서 보상을 받을 수 없다.

미세한 차이 및 레코딩, 방송, 인코딩, 디코딩, 전송과 같은 프로세스 동안 발생하는 변경 및 의도적인 변경에도 불구하고 음반 레코딩과 같은 오디오 컨텐츠 를 식별할 수 있는 방법이 필요하다.

도 1은 본 발명의 바람직한 실시예가 구현될 수 있는 예시적인 네트워크의 도면,

도 2는 본 발명의 바람직한 실시예에 따른 음반 식별 소프트웨어의 블록도,

도 3은 본 발명의 실시예를 사용하여 네트워크 상의 오디오 파일의 위치를 파악하고 식별하는 프로세스의 흐름도,

도 4a 및 도 4b는 본 발명의 바람직한 실시예에 따른 오디오 세그먼트에서 이벤트를 식별하는 프로세스의 흐름도,

도 5는 도 4a 및 도 4b에 도시된 프로세스에 의해 생성된 이벤트로부터 키를 생성하는 프로세스의 흐름도,

도 6은 본 발명의 바람직한 실시예에 따른 키 생성기 버퍼의 컨텐츠로부터 키를 생성하느 프로세스의 흐름도,

도 7은 본 발명의 바람직한 실시예에 따른 퍼큐션 이벤트(percussion event)를 필터링하는 프로세스의 흐름도,

도 8은 키를 사용하여 두 개의 오디오 세그먼트를 비교하는 프로세스의 흐름도.

본 발명의 목적, 특징 및 장점은 다음의 상세한 설명으로부터 분명해진다. 그러나, 본 발명의 바람직한 실시예를 나타내는 상세한 설명 부분 및 특정 실례들 은 오직 예시적으로 해석되어야 하며 다양한 변경이 본 발명의 범위 내에서 수행될 수 있다.

도 1은 본 발명이 구현될 수 있는 예시적인 네트워크(100)를 도시한다. 이 네트워크는 각기 제 1 양방향 데이터 링크(108) 및 제 2 양방향 데이터 링크(110)를 통해 인터넷과 같은 네트워크(106)에 통신가능하게 접속된 제 1 웹 서버(102) 및 제 2 웹 서버(104)를 포함한다. 제 1 및 제 2 웹 서버(102,104)는 클라이언트에 의해 다운로드될 수 있는 오디오 파일을 포함하는 파일을 저장하기 위해 하드 드라이브와 같은 파일 저장 메모리를 가지고 있다.

제 1 클라이언트 컴퓨터(112) 및 제 2 클라이언트 컴퓨터(114)는 각기 제 3 양방향 데이터 링크(116) 및 제 4 양방향 데이터 링크(118)를 통해 네트워크(106)에 통신가능하게 접속된다. 제 1 및 제 2 클라이언트 컴퓨터(112,114)는 제 1 및 제 2 웹 서버로부터 오디오 파일을 포함하는 파일을 다운로딩할 수 있다. 지금까지 기술된 이러한 네트워크 구성 요소들은 음반 배포를 위해 사용되는 시스템을 기술한다. 음악의 사운드 레코딩을 저장하는 오디오 파일은 웹 서버(102,104) 상에 저장된다.

CECC(a copyright enforcement client computer)(120)가 제 5 양방향 데이터 링크(122)를 통해 네트워크(106)에 통신가능하게 접속된다. 이하에서 상세하게 설명될 방법을 수행하는 소프트웨어를 CECC 상으로 로딩하기 위해 CD-ROM과 같은 컴 퓨터 판독가능한 저장 매체(124)가 제공된다. 가령, 이 소프트웨어는 제 1 웹 서버 및 제 2 웹 서버(102,104)에 의해 호스트된 웹 사이트와 같은 웹 사이트를 탐색하고 그 웹 사이트 상에 포함된 오디오 파일을 검출하며 그 오디오 파일을 식별한다(가령, 이 오디오 파일 내에 포함된 노래들을 식별한다).

제 1 및 제 2 웹 서버(102,104), 클라이언트 컴퓨터(112,114) 및 CECC는 IBM PC 호환가능한 컴퓨터와 같은 임의의 통상적인 컴퓨터 시스템일 수 있다. 알려진 바와 같이, 각 IBM PC 호환가능한 컴퓨터는 마이크로프로세서, 기본 입출력 시스템 ROM(BIOS ROM), RAM, 하드 디스크 드라이브 저장 장치, 착탈가능한 컴퓨터 판독가능 저장 매체(가령, CD-ROM 드라이브), 비디오 디스플레이 어댑터 카드, 비디오 모니터, 네트워크 인터페이스(가령, 모뎀), 키보드, 포인팅 디바이스(가령, 마우스), 사운트 카드 및 스피커를 포함한다.

제 1 내지 제 5 양방향 데이터 링크(108,110,116,118,122)는 DSL(Digital Subscriber Lines), T1 라인 또는 다이얼 업 모뎀 접속부를 포함한다. 제 1 및 제 2 웹 서버(102,104)에는 유닉스 운영 체제 하에서 실행되는 Apache Server 웹 서버 소프트웨어(네브라스카 링컨에 위치한 Apache Software Foundation에 의해 생산됨)가 제공될 수 있다. 제 1 및 제 2 클라이언트 컴퓨터(114,116)에는 (워싱턴 레드몬드 소재의 마이크로소프트 사에 의해 생산되는) 윈도우 운영 체제 하에서 실행되는 (버지니아 둘레즈 소재의 Americal Online 사에 의해 생산되는) Netscape Navigator와 같은 웹 브라우저가 로딩될 수 있다. 이 웹 브라우저는 바람직하게는 오디오 파일을 디코딩하고 오디오 신호를 사운드 카드로 제공하는 플러그 인 애 플리케이션과 함께 동작한다. 이와 달리, 개별 애플리케이션 또는 전용 하드웨어가 이후 재생을 위해 오디오 파일을 디코딩하기 위해 제공될 수 있다. 두 웹 서버(102,104), 두 클라이언트 컴퓨터(112,114) 및 CECC에는 통신 프로토콜 스택 소프트웨어가 로딩되어 TCP/IP 접속과 같은 네트워크 접속을 확립할 수 있다. 또한, CECC에는 (윈도우 또는 유닉스와 같은) 운영 체제 및 도 2 내지 도 8를 참조하여 이하에 설명될 바와 같이 동작하는 CECC 애플리케이션이 로딩될 수 있다.

도 2는 본 발명의 바람직한 실시예에 따른 오디오 컨텐츠 식별 소프트웨어(200)의 블록도이다. 웹 서버 애플리케이션(202)은 가령 MP3 형식으로 된 하나 이상의 오디오 파일을 포함하는 파일 시스템(204)을 포함한다. 웹 서버 애플리케이션(202)은 네트워크 접속(가령, TCP/IP 접속)을 지원할 수 있는 서버 측 통신 프로토콜 스택(206)을 따라서 동작한다. 웹 서버 애플리케이션(202) 및 서버 측 통신 프로토콜 스택(206)은 제 1 및 제 2 웹 서버(102,104) 상에서 동작한다. TCI/IP 접속(208)은 서버 측 통신 프로토콜 스택(206)과 클라이언트 통신 프로토콜 스택(210) 간에 확립된다. 이 클라이언트 통신 프로토콜 스택은 저작권 보호 실행 애플리케이션(212)에 의해 사용된다.

저작권 보호 실행 애플리케이션은 웹 스파이더 모듈(a web spider module)(214) 및 컨텐츠 식별자 모듈(216)을 포함한다. 웹 스파이더 모듈(214)은 오디오 파일을 위해 웹 사이트를 탐색한다. 오디오 파일의 위치가 파악되면, 이 파일은 이후 분석을 위해서 다운로딩된다. 컨텐츠 식별자 모듈(216)은 웹 스파이더 모듈(214)로부터 오디오 파일을 수신하고 이를 디코딩하여 오디오 신호 정보를 획득한다. 컨텐츠 식별자 모듈은 수 많은 노래로부터 도출된 수 많은 키를 포함하는 키 데이터베이스를 포함한다. 이 데이터베이스 내의 각 노래(즉, 사운드 레코딩 단위)에 대해, 키 세트가 존재한다. 키 세트는 노래 또는 오디오의 세그먼트를 식별하는 수단을 제공한다. 노래의 섹션은 이 섹션이 식별될 수 있게 하는 대응하는 키 서브세트를 가지며 이로써 노래의 오직 일부분만의 존재를 식별할 수 있는 능력을 보유하게 된다.

키 데이터베이스는 바람직하게는 키 테이블의 형태를 취한다. 키 테이블의 각 행은 제 1 열에서는 키 시퀀스를 포함하고 제 2 열에서는 시간 그룹 값을 포함하며 제 3 열에서는 노래 ID(가령, 타이틀)를 포함한다. 키 데이터베이스는 키 생성 프로그램을 알려진 노래에 제공하고 이 키 생성 프로그램에 의해 획득된 각 키를 그 키 데이터베이스 내의 타이틀과 연관시킴으로써 구성된다. 시간 그룹은 키가 도출된 오디오 특징(an audio feature)이 발생한 (노래의 시작으로부터 사전결정된 간격 단위로 측정된) 시간이다. 각 시간 그룹은 이 사전결정된 간격과 동일한 기간 동안 발생한 이벤트(이하에서 설명됨)를 포함한다. 특히 불법 복제판의 경우에 동일한 노래의 두 개의 상이한 레코딩은 근소하게 상이한 시작 시간을 가질 수 있다(가령, 오디오 파일은 그 노래의 실제 시작 시점 몇 초 이전에 또는 이후에 시작될 수 있다). 이러한 편차는 두 오디오 파일를 비교하는 것을 어렵게 하는데 이는 본 발명이 해결할 점이다.

도 3은 본 발명의 일 실시예에 따라서 (가령, 웹 사이트 또는 FTP 사이트와 같은) 인터넷 상에서 오디오 파일의 위치를 파악 및 식별하기 위해서 저작권 보호 실행 모듈(210)에 의해 수행되는 프로세스(300)의 흐름도이다. 단계(302)에서, 웹 스파이더 모듈(214)은 인터넷의 일부를 탐색하여 수 많은 오디오 파일을 파악한다. 오디오 파일을 식별하는 한 방법은 웹 페이지 내부에서 발견된 URI(uniform resource identifiers)의 파일 확장자들을 알려진 오디오 파일 확장자 리스트와 비교하는 것이다. 단계(304)에서, 웹 스파이더 모듈(214)은 단계(302)에서 발견된 오디오 파일을 다운로드한다.

단계(306)에서, 컨텐츠 식별자 모듈(218)은 각 오디오 파일에 대해 고유한 기호(바람직하게는 키의 세트)를 생성하는 알고리즘을 사용하여 단계(304)에서 다운로드된 오디오 파일을 분석한다. 단계(308)에서, 이 고유한 기호가 사용되어 저작권 보호된 사운드 레코딩(가령, 노래)의 데이터베이스 내에서 식별된 각 오디오 파일의 타이틀과 같은 정보를 룩업한다. 단계(310)에서, 저작권 보호된 노래의 식별자(가령, 그의 타이틀) 및 이 노래가 웹 상에서 발견된 URI가 기록되고 제 3 자(가령, 저작권 소유자)에 전송된다. 이로써, 소정의 저작권 보호된 작품에 대응하는 URI 리스트가 저작권 보호 실행 동작에서 사용되기 위해 컴파일될 수 있다.

도 4a는 본 발명의 바람직한 실시예에 따라 오디오 세그먼트(가령, 노래)에 대한 이벤트 스트림을 생성하는 프로세스(400)의 흐름도의 제 1 부분을 나타낸다. 프로세스(400)는 오디오 신호를 입력으로서 수신하여 "이벤트" 시퀀스를 출력한다. 본 발명의 몇몇 실시예에서, 오디오 신호는 MP3 파일로부터 재생된다. 단계(402)에서, 오디오 신호가 샘플링된다. 일 실시예에서, 이 오디오 신호는 약 22050 Hz 이하에서 샘플링된다. 이로써 11 KHz에 달하는 주파수 성분이 정확하게 결정될 수 있다. 11 KHz는 대략 FM 무선 방송을 위해 컷오프된 주파수이기 때문에 약 11 KHz의 주파수 상한치를 사용하는 것이 유리하고, 노래 레코딩이 일 시점에서 FM 무선 방송을 통해 전송되거나 아니면 고품질 소스(가령, CD)로부터 바로 획득되는 지와 상관없이 그 노래에 대해 동일한 키 세트를 생성할 필요가 있다.

단계(404)에서, 각 연속적인 테스트 기간 동안, 오디오 신호의 스펙트럼이 계산된다. 테스트 지속 기간은 바람직하게는 약 1/43 초 내지 약 1/10.75 초 범위이며 보다 바람직하게는 테스트 기간은 약 1/21.5 초이다. 오디오 신호의 스펙트럼은 바람직하게는 고속 푸리에 변환 FFT 알고리즘을 사용하여 분석된다. FFT 알고리즘을 사용하여 획득된 스펙트럼 정보의 정확도는 FFT를 몇 개의 연속적인 기간들(샘플 세트)에 적용함으로써 획득된 결과들을 평균화시킴으로써 개선될 수 있다. 본 발명의 바람직한 실시예에서, 스펙트럼 정보는 FFT를 두 개 이상의 연속적인 기간에 적용함으로써, 바람직하게는 3 개 이상의 연속적인 기간들, 보다 바람직하게는 4 개의 연속적인 기간들에 적용함으로써 획득된 결과들을 평균화함으로써 개선된다. 본 발명의 한 예시적인 실시예에 따라서, 1/21.5 초의 지속 기간을 갖는 소정의 테스트 기간과 연관된 스펙트럼은 22050 Hz의 레이트에서 오디오 신호를 샘플링하고 각각이 2/21.5 초의 기간을 가지며 2048 개의 샘플을 포함하는 4 개의 연속하는 기간에 FFT 알고리즘을 적용함으로써 획득된 결과들을 평균화함으로써 획득된다.

단계(404)는 CECC(120)의 마이크로프로세서 상에서 실행되는 FFT 알고리즘을 사용하여 성취될 수 있다. 이와 달리, CECC에 단계(404)를 수행하는 FFT 하드웨어가 제공될 수도 있다. 이와 달리, 필터 뱅크와 같은 다른 스펙트럼 분석기가 단계(404)를 수행하기 위해 사용될 수도 있다. 또한, 단계(404)에서, 연속하는 샘플 세트들이 푸리에 변환 방식이 아닌 다른 타입의 변환 방식에 적용될 수 있다. 푸리에 변환 방식을 대체하는 다른 특정 변환 방식 중 하나는 웨이브렛 변환 방식(a wavelet basis)이다. 푸리에 기능과 마찬가지로, 이 웨이브렛도 주파수 영역에서 국부화된다(하지만 그 정도는 보다 작다). 웨이브렛은 또한 시간 영역에서도 국부화될 수 있다. 이로써, 오디오 신호의 연속하는 샘플 세트를 웨이브렛 방식에 적용하기보다는 오디오 신호를 전체적으로 웨이브렛 방식에 적용하고 그 신호에 대한 시간 의존형 주파수 정보를 획득할 수 있다.

음악을 작곡하는 데 사용되는 한 통상적인 주파수 세트는 이븐 템퍼 스케일(even-tempered scale) 음표이다. 이 이븐 템퍼 스케일은 대수 스케일(a logarichmic scale) 상에서 동등하게 이격된 음표(note)들을 포함한다. 각 음표는 "세미톤(semitone)"으로 지칭되는 주파수 대역을 커버한다. 개선된 기호(signature)는 FFT 알고리즘에 의해 출력된 동등하게 이격된 주파수 대역과 반대되는 개별 세미톤 대역에서 스펙트럼 파워(spectral power)를 수집함으로써 획득될 수 있다. 단계(406)에서, 단계(404)에서 획득된 스펙트럼 정보(가령, 푸리에 주파수 성분)는 다수의 세미톤 주파수 대역 또는 채널 내부로 수집된다.

단계(408)에서, 각 세미톤 주파수 채널 내부의 스펙트럼 파워의 제 1 평균이 최종 T1 초에 걸쳐서 취해진다. 단계(410)에서, 각 세미톤 주파수 채널 내부의 스펙트럼 파워의 제 2 평균이 최종 T2 초에 걸쳐서 취해지는데 여기서 T2는 T1보다 크다. T1은 바람직하게는 약 1/10 초 내지 약 1 초 범위이다. T2는 바람직하게는 2 내지 8 배 만큼 T1보다 크다. 본 발명의 한 예시적인 실시예에 따라, T2는 1 초이며 T1은 1/4 초이다. 상술된 "이벤트"는 제 1 평균 값이 제 2 평균 값과 교차할 때에 발생한다.

단계(412)에서, 제 1 평균 값 및 제 2 평균 값이 각 세미톤 채널에 대해 기록된다. 제 1 평균 값과 제 2 평균 값이 교차했는지의 여부가 다음의 테스트 기간 동안 결정될 수 있도록 기록이 수행된다. 단계(414)에서, 각 세미톤 채널에 대해 제 1 평균 값과 제 2 평균 값이 교차했는지가 결정된다. 이는 현재의 테스트 기간 동안 제 1 평균 값과 제 2 평균 값의 간의 부등식 관계를 최종 기간 동안의 부등식 관계와 비교함으로써 수행된다. 오직 두 개의 평균치 간의 비교가 상술되었지만, 본 발명의 다른 실시예에서는 2 개 이상의 평균치를 사용하여 두 개 이상의 평균치의 상이한 하위 조합 결과들 간의 교차점으로서 이벤트를 식별할 수 있다.

세미톤 주파수 채널에서의 극한치(국부적 최대치 또는 최소치) 근방에서, 두 개의 평균치가 교차할 것이다. 상이한 평균화 기간에서 두 개의 연속 평균치의 교차 지점을 찾기보다는, 다른 타입의 피크 검출기(가령, 전자 회로)가 사용될 수 있다. 이는 소프트웨어와 반대되는 하드웨어로 주로 구현되는 본 발명의 구현에 있어서 FFT와 결합하여 유리하게 사용될 수 있다.

주파수 채널에서 신호 피크를 검출하기보다는, 굴절 지점(an inflection point)과 같은 곡선 특성이 트리거 이벤트로서 사용될 수 있다. 굴절 지점은 소정의 주파수 채널 내의 세 개의 연속하는 파워 값에 대해 연산함으로써 주파수 채널의 제 2 도함수를 계산하고 이 제 2 도함수가 음값에서 양값으로 또는 이 반대로 변하는 시간을 식별함으로써 발견될 수 있다. 이 제 2 도함수는 다음과 같은 공식에서 세 개의 연속하는 지점에 대한 함수값(시간 의존형 주파수 성분 값)을 사용하여 근사화될 수 있다.

여기서, F(I)는 I 번째 기간(가령, I 번째 테스트 기간)에서의 함수값이며, △T는 연속하는 함수값들 간의 간격(가령, 테스트 지속 기간)이다.

시간 의존형 주파수 성분의 극한값에서, 그의 제 1 도함수는 제로이다. 시간 의존형 주파수 성분의 굴절 지점에서, 그의 제 2 도함수는 제로이다. 극한 지점 및 굴절 지점은 이벤트이다. 보다 일반적으로 이벤트는 시간 의존형 주파수 성분의 하나 이상의 차수의 시간 의존형 주파수 성분 도함수 및/또는 시간 의존형 주파수 성분과 관련된 적분과 관련된 등식이 만족하게 되는 지점(가령, 시점)으로서 규정된다. 상이한 오디오 컨텐츠를 식별하는 데 있어서 이를 사용할 수 있도록, "이벤트"를 규정하는데 있어서 필수적인 부분은 이벤트들이 테스트 기간의 서브세트에서 발생하고 각 테스트 기간에서는 발생하지 않는다는 것이다.

단계(416)는 결정 단계이며, 이 단계의 결과는 세미톤 채널에 대한 평균 값의 교차 여부에 의존한다. 단계(416)는 각 세미톤 채널에 대해 테스트된다. 세미톤 채널에 대한 평균값들이 현재의 테스트 기간 동안 교차하지 않는다면, 단계 (418)에서 오디오 신호의 종료 여부를 결정한다. 오디오 스트림이 종료되었다면, 프로세스(400)는 종결된다. 오디오 스트림이 종료되지 않았다면, 프로세스(400)는 다음 테스트 기간으로 진행하며 프로세스는 단계(404)를 수행한다. 한편, 최종 테스트 기간 동안 평균값들이 교차하면, 프로세스(400)는 단계(422)로 진행하며 여기서 각 이벤트는 현재의 시간 그룹에 할당되며 평균 교차 이벤트와 연관된 정보가 생성된다.

이벤트 정보는 바람직하게는 그 이벤트에 대한 시간 그룹, 이 이벤트에 대한 테스트 기간, 그 이벤트의 세미톤 주파수 대역 및 교차 시에 고속 평균(T1에 대한 평균) 값을 포함한다. 이벤트 정보는 CECC와 연관된 메모리 또는 저장 장치에 기록된다. 각 시간 그룹은 테스트 기간보다 긴 기간을 커버하며 바람직하게는 시간 그룹은 1/4 초 내지 2 초에 달하는 연속하는 기간들을 커버하며, 보다 바람직하게는 각 시간 그룹은 1/2 초 내지 3/4 초에 달하는 기간을 커버한다. 이벤트를 연속하는 시간 그룹으로 그룹화하여 동일한 노래의 두 개의 레코딩을 처리함으로써 획득된 키들은, 두 레코딩 중 모두 또는 하나가 어느 정도의 왜곡(가령, 자기 테이프 상에 기록하는 과정에서 발생하는 왜곡)을 갖기는 하지만, 보다 완벽하게 일치하게 된다.

단계(424)에서, 프로세스(400)는 다음 테스트 기간으로 증분된다. 단계(426)에서, 그 오디오 세그먼트(가령, 노래)의 종료 여부를 결정한다. 오디오 세그먼트가 종료되면, 프로세스(400)는 종결된다. 오디오 세그먼트가 종료되지 않았다면, 테스트 기간이 증분되고 프로세스는 단계(404)로 다시 순환한다.

이로써, 프로세스의 결과는 오디오 신호를 취하며 다수의 이벤트를 생성하는 것이 된다. 각 이벤트는 자신이 발생한 세미톤 주파수 대역 및 자신이 발생한 시간 그룹(간격)으로 할당된다. 이벤트는 메모리(가령, CECC(120) 내의 RAM) 내에 저장될 수 있다. 이벤트는 버퍼 내에 저장되고 이 버퍼로부터 하나 이상의 키 생성 프로세스에 의해 연속적으로 판독될 수 있다. 이 프로세스에 의해 출력된 이벤트는 이벤트 스트림의 형태로 될 수 있는데, 말하자면 각 시간 그룹 후에 이 시간 그룹 내에 발생한 모든 이벤트는 메모리 내에 기록되며 이로써 후속 처리를 위해 이용가능하게 될 수 있다. 다른 대안은 노래를 위한 모든 이벤트를 한 번에 메모리 또는 저장 장치에 기록하는 것이다.

도 5는 도 4a 및 도 4b에 도시된 프로세스에 의해 생성된 이벤트로부터 키를 생성하는 키 생성 프로세스의 흐름도이다. 프로세스(400)에 의해 출력된 이벤트는 다수의 키 생성 프로세스(500)에 의해서 처리된다. 각 키 생성 프로세스는 그의 메인 주파수로서 의도된 한 세미톤 주파수 대역으로 할당된다. 그러나, 각 키 생성 프로세스는 또한 그의 메인 주파수 근방의 다른 세미톤 주파수 대역에서 발생하는 이벤트를 사용한다. 바람직하게는, 각 키 생성기는 5 개의 세미톤 주파수 대역 내지 15 개의 세미톤 주파수 대역을 모니터링한다. 모니터링된 주파수 대역의 수가 너무 적으면, 생성된 키는 특정 오디오 세그먼트를 강하게 특징짓지 못할 것이다. 한편, 모니터링된 주파수 대역의 수가 너무 많으면 키를 계산 및 비교하는 데 있어서 보다 많은 비용이 들게 되며 키를 저장하는 데 있어서도 보다 많은 메모리가 필요하게 되고 키의 수가 증가함에 따라서 키 테이블 내에 키 포화 상태 가 발생하므로 잠재적으로 성능이 손실된다. 본 발명의 일 실시예에 따라, 각 키 생성기는 그의 메인 세미톤 주파수 대역 및 4 개의 다른 세미톤 주파수 대역을 모니터링하는데 여기서 상기 4 개의 주파수 대역 중 2 개는 메인 주파수 대역의 한 측 상에 위치하고 나머지 2 개는 다른 측 상에 위치한다.

도 5의 단계(502)에서, 프로세스(400)에 의해 출력된 이벤트들의 각 연속하는 시간 그룹이 이 키 생성기에 할당된 세미톤 주파수 대역 내부에서 발생하는 이벤트에 대해서 모니터링된다. 단계(504)는 결정 단계인데 이 단계의 결과는 키 생성기가 단계(502)에서 임의의 새로운 이벤트를 가령 메모리로부터 판독함으로써 검출했는지의 여부에 따른다. 만약 임의의 새로운 이벤트를 검출하지 않았다면, 단계(514)에서, 프로세스(500)는 다음 시간 그룹으로 증분되며 단계(502)로 다시 순환한다. 한편, 새로운 이벤트가 체크된 시간 그룹 및 세미톤 주파수 대역에서 발생했다면, 단계(506)에서 그 새로운 이벤트는 해당 키 생성기를 위한 키 생성기 버퍼로 기록되며, 이 키 생성기 버퍼로 저장되었던 가장 오래된 시간 그룹에 대한 이벤트들은 삭제된다. 한 예시적인 실시예에서, 이 버퍼는 행이 시간 그룹에 대응하고 열이 주파수 대역에 대응하는 어레이로서 간주될 수 있다. 따라서, 상술된 본 발명의 실시예에서, 각 키 생성기에 의해 모니터링된 각 세미톤 주파수 대역에 대해 5 개의 열이 존재할 것이다.

키 생성기 버퍼는 바람직하게는 3 개 내지 7 개의 시간 그룹을 포함한다. 보다 바람직하게는, 5 개 또는 6 개의 시간 그룹으로부터의 이벤트가 각 키 생성기 버퍼 어레이에서 유지된다. 본 실시예에서 모든 시간 그룹들이 키 생성기 버퍼 내에서 표현되는 것은 아니다. 도 5에 도시된 바와 같이, 어떠한 이벤트도 소정의 시간 그룹 내에서 키 생성기를 위한 세미톤 주파수 대역에서 발생하지 않는다면, 키 생성기 버퍼에서는 어떠한 변경도 발생하지 않는다. 달리 말하면, 비어 있는 행(a blank row)은 기록되지 않을 것이다. 그러므로, 키 생성기 버퍼 내에 기록된 각 시간 그룹은 적어도 하나의 이벤트를 포함한다.

단계(508)는 현재의 시간 그룹(가령, 프로그램 루프를 통한 현재의 경로)에서 발생한 이벤트가 트리거 이벤트인지의 여부에 따르는 결과를 갖는 결정 블록이다. 본 발명의 바람직한 실시예에 따라서, 트리거 이벤트는 이 키 생성기에 할당된 메인 주파수 대역에서 발생하는 이벤트이다. 만약 트리거 이벤트가 발생하지 않았다면, 프로세스는 단계(514)로 다시 순환한다. 만약 트리거 이벤트가 발생했다면, 프로세스는 단계(510)로 진행하며 이 단계에서 키가 키 생성기 버퍼의 컨텐츠로부터 생성된다. 프로세스(500)는 프로세스(400)에 의해 생성된 모든 이벤트가 처리될 때까지 계속된다.

도 6은 본 발명의 일 실시예에 따른 키 생성기 버퍼의 컨텐츠로부터 키를 생성하는 프로세스의 흐름도이다. 특히, 프로세스(600)는 도 5의 단계(510)의 구현의 일 실시예를 보다 상세하게 설명한다. 단계(602)에서, 각 키 생성기(상술된 바와 같이 프로세스(500)를 수행한 다수의 키 생성기가 존재함) 및 해당 키 생성기를 위한 각 트리거 이벤트에 대해서, 키 생성기 버퍼로부터 이벤트의 하나 이상의 상이한 조합이 선택된다. 각 조합은 각 시간 그룹에 대해서 오직 하나의 이벤트를 포함한다. (각 키 생성기 버퍼 내에서 각 시간 그룹에 대해서 하나 이상의 이벤 트가 존재할 수 있다.) 본 발명의 바람직한 실시예에 따라서, 모든 가능한 조합이 선택되기 보다는, 그 조합 내에서 한 이벤트에서 다음 이벤트로 단조롭게 변하는 각 이벤트 변경과 연관된 파워가 선택되는 조합만이 선택된다.

이 실시예에서, 조합 내부에서 이벤트의 순서는 시간 그룹 순서에 대응한다. 각 이벤트와 연관된 파워는 바람직하게는 그 이벤트가 발생한 테스트 기간에서 고속 제 1 평균의 크기이다. 이 실시예에서, 모든 가능한 키들의 조합이 선택되기보다는 이 보다 작은 조합이 선택되는데 이로써 소정 오디오 세그먼트에 대한 키의 전체 개수는 감소될 것이며 이로써 보다 작은 메모리가 필요하며 보다 적은 처리 전력이 요구된다. 한편, 충분한 키가 존재하여 그 노래의 정체가 그 노래로부터 생성된 키의 세트로부터 강하게 특징지어진다. 다른 실시예에서는, 오직 하나의 조합이 키 생성기 버퍼의 컨텐츠로부터 선택된다. 이러한 단일 조합은 각 시간 그룹으로부터의 최고 고속 평균 파워와 연관된 이벤트를 포함한다. 또 다른 실시예에서는, 각 시간 그룹으로부터 하나의 이벤트를 취하는 이벤트들의 모든 상이한 조합들이 선택된다.

단계(604)에서, 이벤트들의 각 선택된 조합에 대해서 키 시퀀스(a key sequence)가 작성되는데 이 시퀀스는 단계(602)에서 형성된 각 조합으로부터의 이벤트의 시퀀스에 대해 (메인 키 생성기 주파수에 대한) 주파수 오프셋의 수치의 시퀀스를 포함한다. 각 주파수 오프셋은 그 이벤트가 발생한 세미톤 대역의 주파수와 그 키 생성기의 메인 주파수 간의 차이이다. 단계(606)에서, 각 트리거 이벤트에 대한 테스트 기간 정보(가령, 트리거 이벤트의 테스트 기간에 대한 시퀀스 번 호, 여기서 각 노래를 위한 제 1 테스트 기간에 대한 시퀀스 번호는 1로 설정됨)는 상기 키 시퀀스와 연관된다.

단계(608)에서, 키 시퀀스 및 테스트 기간 정보를 포함하는 키는 노래(또는 다른 오디오 세그먼트) 식별자 또는 ID(가령, 타이틀)와 연관된다. 프로세스(600)는 알지 못하는 노래가 비교될 노래 데이터베이스를 구성하는 데 있어서 아는 노래가 사용되는 경우인 단계(608)를 포함한다. 두 노래를 비교함에 있어서, 키 시퀀스 및 테스트 기간 정보가 도 8을 참조하여 이하에서 기술될 바와 같이 사용될 것이다. 노래 데이터베이스는 3 개의 열 및 다수의 행을 포함하는 테이블의 형태를 취할 수 있다. 제 1 열은 키 시퀀스를 포함하고, 다음 열은 그 키 시퀀스와 연관된 대응하는 테스트 기간을 포함하며, 마지막 열은 행 내의 키들이 획득되는 노래의 식별자를 포함한다.

상술된 프로세스는 오디오 컨텐츠를 식별하는 데 사용될 수 있으며, 한편 퍼큐션 이벤트(percussion event)를 필터링하는 데 유리하다. 특히, 노래 내의 퍼큐션 사운드는 필터링되지 않는다면 통상적으로 프로세스(400)에 의해 출력된 이벤트의 대부분이 되게 된다. 컴퓨터 자원(가령, 메모리 및 처리 전력)을 절감하고 보다 특징적인 키 세트를 획득하기 위해서, 이벤트가 키 생성 프로세스(500)에 의해 처리되기 이전에 어느 정도의 퍼큐션 이벤트를 제거하여 퍼큐션 이벤트의 개수를 줄일 필요가 있다. 퍼큐션 사운드는 인접하는 세미톤 주파수 대역들에서 동일한 테스트 기간 동안 트리거되는 이벤트들을 유발한다. 가령, 퍼큐션 사운드는 2 개 이상의 인접하는 세미톤 주파수 대역들의 시퀀스에서 발생하는 이벤트들을 유발 할 수 있다.

도 7은 도 4a 및 도 4b의 프로세스에 의해 생성된 이벤트로부터의 퍼큐션 이벤트를 필터링하는 프로세스 흐름도이다. 단계(702)에서, 각 연속하는 테스트 기간에 대해 2 개 이상의 인접하는 세미톤 주파수 대역의 시퀀스에서 다수의 이벤트가 발생했는지의 여부가 결정된다. 단계(704)는 인접하는 주파수 대역에서 다수의 이벤트가 발생했는지의 여부에 따르는 결과를 갖는 결정 단계이다. 인접하는 주파수 대역에서 발생하는 사전결정된 개수의 이벤트 임계치가 이 프로세스에서 사용된다. 바람직하게는, (이벤트가 퍼큐션 사운드에 의해 생성되었음을 고려하기 위해서) 이벤트가 발견되어야 하는 인접하는 주파수 대역의 개수에 있어서 하한치는 3 이상으로 설정된다. 본 발명의 예시적인 실시예에 따라, 단계(704)의 결과가 양이 되기 위해서 이벤트는 3 개의 연속하는 세미톤 주파수 대역에서 발생해야 한다.

단계(704)의 결과가 음이면, 프로세스(700)는 단계(708)로 진행하여 여기서 프로세스는 다음 테스트 기간으로 증분되며 단계(702)로 다시 순환한다. 한편, 단계(704)의 결과가 양이면, 프로세스(700)는 단계(706)로 진행하여 여기서 인접하는 주파수 대역에서 동일한 테스트 기간 동안 발생한 이벤트들의 각 시퀀스는 단일 이벤트로 삭감된다. 최고 고속 평균 값을 갖는 시퀀스 내의 이벤트에 대해서는 제외하고 모든 이벤트는 프로세스(400)에 의해 생성된 이벤트 스트림으로부터 삭제된다. 이와 달리, 하나만 제외하고 모든 이벤트를 삭제하는 대신에, 소정의 사전결정된 개수에 달하는 이벤트가 유지될 수 있다.

상술된 프로세스는 사운드 레코딩 내에 포함된 특징들(즉, 이벤트)을 기반으로 하여 사운드 레코딩을 위한 키를 생성한다. 이로써, 프로세스는 알려진 오디오 컨텐츠 상에서 실행되어 저장 단계 동안 이 알려진 오디오 컨텐츠의 특징 데이터베이스를 구성한다. 이 데이터베이스가 생성된 후에, 검색 단계 동안 상기 프로세스가 사용되어 모르는 오디오 컨텐츠로부터 특징들을 추출할 수 있으며 이어서 데이터베이스가 액세스되어 추출된 특징들을 기반으로 하여 오디오 컨텐츠를 식별한다. 가령, 동일한 프로세스가 모르는 오디오 컨텐츠에 대해서도 실행되어 실시간으로 (또는 심지어 고속으로) 특징들을 추출할 수 있으며 이어서 오디오 컨텐츠가 데이터베이스 내에서 최상의 일치 결과를 갖도록 식별된다. 일 실시예에서, 이러한 최상의 일치 결과는 오디오 컨텐츠의 각 사전결정된 간격(가령, 10 초 내지 30 초)에 대해 보고될 수 있다.

도 8은 도 5 및 도 6의 프로세스에서 생성된 키를 사용하여 오디오 세그먼트를 식별하는 노래 식별 프로세스의 흐름도이다. 상술된 바와 같은 노래 데이터베이스가 사용되어 프로세스(300)의 단계(304)에서 웹 사이트로부터 다운로드된 노래와 같은 모르는 노래를 식별한다. 노래 데이터베이스의 키 시퀀스 필드(열)는 데이터베이스 키로서 사용될 수 있다. 노래 데이터베이스의 레코드(행)는 바람직하게는 직접 검색을 위해 해시 테이블(a hash table) 내에 저장된다. 식별 프로세스(800)는 도 3의 단계(308)의 예시적인 구현이다.

단계(802)에서, (가령, 도 5 및 도 6의 프로세스를 실행함으로써) 식별될 노래로부터 키가 생성된다. 단계(804)에서, 단계(804)에서 생성된 키 세트 내의 각 키는 다수의 노래를 위한 키들을 포함하는 노래 데이터베이스 내에서 검색된다. 각 키의 키 시퀀스 부분(테스트 기간 부분에 반대됨)이 데이터베이스 키로서 사용된다. 달리 말하면, 노래 데이터베이스는 식별될 노래로부터 획득된 키에 속하는 키 시퀀스와 동일한 키 시퀀스를 갖는 임의의 엔트리를 위해 탐색된다. 노래 데이터베이스 내의 하나 이상의 키는 동일한 키 시퀀스를 가질 수 있으며 더구나 우연하게도 노래 데이터베이스 내의 하나 이상의 노래가 동일한 키 시퀀스를 공유할 수 있다. 단계(806)에서, 노래 데이터베이스 내의 하나 이상의 키와 (키 시퀀스에 의해) 일치한 데이터베이스 내의 각 키에 대해서, 검색 중인 키과 연관된 테스트 기간과 노래 데이터베이스 내의 각 일치하는 키와 연관된 테스트 기간 간의 차이를 취함으로써 오프셋이 계산된다.

단계(808)에서, 오프셋은 오프셋 시간 그룹으로 수집된다. 오프셋에 대한 오프셋 시간 그룹은 키 생성 시에 사용된 시간 그룹과 구별된다. 바람직한 실시예에 따라서, 오프셋 시간 그룹은 2 개 내지 10 개의 테스트 기간과 동일할 것이다. 예시적으로, 각 오프셋 시간 그룹이 5이면, 단계(806)에서 결정된 차이가 0 내지 5 간에 존재하는 임의의 키 쌍은 제 1 오프셋 시간 그룹으로 할당되고 차이가 6 내지 10 간에 존재하는 임의의 키 쌍은 제 2 오프셋 시간 그룹으로 할당된다. 본 발명의 예시적인 실시예에 따라, 각 오프셋 시간 그룹은 5 개의 테스트 기간과 동일하다.

단계(810)에서, 식별될 노래 내의 키과 일치하는 키를 갖는 각 노래, 단계(808)에서 결정된 각 오프셋 시간 그룹 및 노래 데이터베이스 내의 소정의 노래와 연관된 키에 대해서, 동일한 시간 그룹 오프셋 값을 갖는 일치하는 키의 개수가 카운트된다. 단계(810)의 구현은 다음과 같은 방식으로 시각화될 수 있다. 각 행이 식별될 노래와 하나 이상의 키가 일치하는 노래 데이터베이스 내의 노래에 대응하는 임시적인 테이블이 구성된다. 제 1 열은 노래의 이름을 포함한다. 각 노래 명칭에 인접하여 있는 제 2 열에서는 노래 데이터베이스 내에서 명명된 노래에 대해 발견된 키와 식별될 노래로부터의 일치하는 키 사이에서 발견된 오프셋 시간 그룹의 값이 존재한다. 단계(810)를 완료한 후에, 제 3 열은 제 2 열에서 식별된 바와 동일한 오프셋 시간 그룹을 갖는, 제 1 열 내에서 식별된 특정 노래에 대응하는 키 일치의 개수의 카운트를 포함한다.

식별될 노래가 데이터베이스 내에 존재하면, 한 특정 시간 그룹 오프셋 값은 높은 카운트를 축적한다. 달리 말하면, 보다 높은 개수의 일치하는 키의 쌍들이 오프셋 시간 그룹의 어느 정도의 특정 값을 갖는 것으로 발견된다. 위의 실례에서, 타이틀 2의 노래는 3의 오프셋 시간 그룹에 대해서 107의 카운트를 갖는다. 가령, 식별되고 있는 특정 레코딩은 노래 데이터베이스를 위해 키를 생성하는 데 사용되는 노래의 레코딩의 몇 초 후에 시작하기 때문에 또는 노래의 작은 세그먼트가 식별되고 있는 중이기 때문에, 시간 그룹 오프셋은 증가할 것이다.

단계(812)에서, 동일한 오프셋을 갖는 일치하는 키들의 최고의 개수를 갖는 노래 데이터베이스로부터의 노래가 식별된다. 결정 블록(814)에서, 이 개수는 임계치와 비교된다. 이 임계치는 특정 애플리케이션을 기반으로 하여 또는 노래들이 실제로 일치할 때에 발견되는 최고의 카운트에 대한 최소값 및 테스트된 노래가 데이터베이스 내의 임의의 노래와 일치하지 않는 경우에 최고의 카운트에 대한 최대값을 결정함으로써 설정될 수 있다. 사용된 임계치는 키의 총 개수를 결정하기 때문에 상술된 단계(602)에 대해 선택된 특정 실시예를 의존할 수 있다.

카운트를 임계치에 비교하는 대신에, 단계(812)에서 최고의 카운트 대 식별될 노래로부터 생성된 키의 총 개수의 비율을 임계치와 비교할 수 있다. 다른 방법은 최고의 카운트 대 잔여하는 카운트의 평균의 비율을 임계치와 비교하는 것이다. 이 2 가지 방법은 임계치가 고정되지는 않지만은 최고의 카운트를 임계치에 비교하는 방법으로 간주될 수 있다. 식별된 노래가 데이터베이스 내에 존재하지 않는 경우에서와 같이 카운트가 임계치 기준을 만족시키지 못한다면, 노래 식별 프로세스(800)는 종료된다. 식별될 노래가 식별될 수 없음을 가령 사용자에게 보고하는 추가 단계가 제공된다. 한편, 카운트가 임계치 기준을 만족시키면, 단계(814)에서 (임계치 기준을 만족시킨) 최고의 카운트를 갖는 노래를 식별하는 정보가 출력된다. 다른 실시예에서, 본 발명의 프로세스는 노래의 세그먼트를 식별하는 데 사용된다.

따라서, 본 발명은 왜곡 및 변경을 처리할 수 있는 능력을 갖춘 강력한 노래 식별 방법을 제공한다. 또한, 이 방법은 계산이 복잡하지 않고 메모리 용량을 작게 필요로 한다. 바람직한 실시예에서, 이벤트 스트림 생성 프로세스, 퍼큐션 이벤트 필터링 프로세스, 키 생성 프로세스 및 노래 데이터베이스 내의 키를 검색하는 프로세스는 실시간으로 수행된다. 바람직한 실시예에서 이들 프로세스를 계산하는데 필요한 수준은 통상적인 개인용 컴퓨터 상에서 이들을 실시간으로 실행시킬 수 있을 정도로 충분하게 낮다.

본 발명은 하드웨어 또는 소프트웨어 또는 이들의 조합으로 실현될 수 있다. 임의의 종류의 컴퓨터 시스템 또는 상술된 방법을 수행하도록 적응되는 다른 장치이면 적합하다. 하드웨어와 소프트웨어의 통상적인 조합은 로딩되고 실행되어 상술된 방법을 수행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 범용 컴퓨터 시스템일 수 있다.

본 발명은 또한 상술된 방법의 구현을 가능하게 하는 모든 특징들을 포함하고 컴퓨터 시스템 내에 로딩되어 상술된 방법을 실행할 수 있는 컴퓨터 프로그램 제품 내에 내장될 수 있다. 본 문맥에서 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보 처리 능력을 갖는 시스템으로 하여금 다른 언어, 코드 또는 표기법(notation)으로 변환 및/또는 상이한 물질 형태로의 재생 후에 또는 바로 특정 기능을 수행하도록 하는 인스트럭션의 세트의 임의의 언어, 코드 또는 표기법으로 된 임의의 표현을 포함한다. 각 컴퓨터 시스템은 하나 이상의 컴퓨터 및 컴퓨터로 하여금 데이터, 인스트럭션 메시지 또는 메시지 패킷 및 다른 컴퓨터 판독가능한 정 보를 판독하게 하는 적어도 하나의 컴퓨터 판독가능한 기록 매체를 포함한다. 컴퓨터 판독가능한 매체는 ROM, 플래시 메모리, 디스크 드라이브 메모리, CD-ROM 및 다른 영구 저장 장치와 같은 비휘발성 메모리를 포함한다. 또한, 컴퓨터 판독가능한 매체는 가령 RAM, 버퍼, 캐시 메모리 및 네트워크 회로와 같은 휘발성 저장 장치를 포함한다. 또한, 컴퓨터 판독가능한 매체는 컴퓨터로 하여금 컴퓨터 판독가능한 정보를 판독하게 하는 유선 네트워크 또는 무선 네트워크를 포함하는 네트워크 링크 및/또는 네트워크 인터페이스와 같은 임시 상태 매체 내의 컴퓨터 판독가능한 정보를 포함한다.

여기서 본 발명의 바람직한 실시예로 고려되고 있는 것이 설명되었지만, 본 기술 분야의 당업자에게는 본 발명의 범위 내에서 수 많은 다른 수정 및 변경이 가능하며 등가의 실시예들이 대체될 수 있다. 또한, 본 명세서에서 기술된 중심 사상을 벗어나지 않고 특정 상황을 본 발명의 사상에 적응시키도록 수 많은 수정이 수행될 수 있다. 그러므로, 본 발명은 기술된 특정 실시예로만 한정되는 것이 아니라 본 발명은 첨부된 청구 범위 내에 포함되는 모든 실시예들을 포함한다.

Claims

오디오 컨텐츠 식별 방법에 있어서,

오디오 신호를 획득하는 단계와,

다수의 시간 의존형 주파수 성분을 획득하기 위하여 상기 오디오 신호의 파워 스펙트럼을 분석하는 단계와,

다수의 이벤트를 검출하는 단계로서, 상기 이벤트 각각은 제1 연속 평균(a first running average)의 값과 제2 연속 평균(a second running average)의 값의 교차점인 것인 상기 다수의 이벤트를 검출하는 단계

를 포함하고,

상기 제1 연속 평균은 상기 시간 의존형 주파수 성분의 제1 서브셋의 제1 평균화 기간 동안의 평균이고,

상기 제2 연속 평균은 상기 시간 의존형 주파수 성분의 상기 제1 서브셋의, 상기 제1 평균화 기간과는 상이한 제2 평균화 기간 동안의 평균인 것인 오디오 컨텐츠 식별 방법.
삭제
제 1 항에 있어서,

인접하는 주파수 대역 내에서 동시에 발생하는 이벤트 세트를 검출하는 단계와,

적어도 상기 이벤트 세트의 서브세트(subset)를 조합함으로써 키를 형성하는 단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 1 항에 있어서,

각 이벤트에 대응하는 시간 의존형 주파수 성분 파워를 결정하는 단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 1 항에 있어서,

상기 분석 단계는,

다수의 오디오 신호 샘플을 획득하기 위하여 상기 오디오 신호를 샘플링하는 서브-단계와,

상기 다수의 오디오 신호 샘플 중 다수의 서브세트를 선택하는 서브-단계와,

푸리에 주파수 성분 세트를 획득하기 위하여 상기 다수의 서브세트 중 각 서브세트에 대해 푸리에 변환(a Fourier transform)을 수행하는 서브-단계를 포함하는

오디오 컨텐츠 식별 방법.
제 5 항에 있어서,

상기 분석 단계는,

상기 다수의 서브세트로부터 선택된 2 개 이상의 연속하는 서브세트로부터 획득된 대응하는 푸리에 주파수 성분들을 함께 평균화하는 서브-단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 6 항에 있어서,

상기 분석 단계는,

푸리에 주파수 성분을 모아 다수의 세미톤 주파수 대역(semitone frequency band)으로 만드는 서브-단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 1 항에 있어서,

상기 검출 단계는,

제1 평균화 기간 동안 제1 평균 시리즈를 획득하기 위하여, 상기 시간 의존형 주파수 성분의 제 1 서브세트의 제 1 평균화 기간에 제 1 연속 평균(a first running average)을 유지하는 서브-단계와,

제1 평균화 기간 동안 제 2 평균 시리즈를 획득하기 위하여, 상기 시간 의존형 주파수 성분의 제 1 서브세트의 제 2 평균화 기간에 제 2 연속 평균을 유지하는 서브-단계와,

다수의 이벤트 시간을 레코딩하는 단계로서, 상기 이벤트 시간 각각은 상기 제 1 연속 평균이 상기 제 2 연속 평균을 교차하는 검출된 이벤트 중 하나가 발생하는 시간인 것인 상기 다수의 이벤트 시간을 레코딩하는 서브-단계를 포함하는

오디오 컨텐츠 식별 방법.
제 1 항에 있어서,

상기 제 1 평균화 기간은 1/10 초 내지 1 초 범위이며,

상기 제 2 평균화 기간은 상기 제 1 평균화 기간의 2 배 내지 8 배인

오디오 컨텐츠 식별 방법.
제 1 항에 있어서,

각각이 한 기간을 커버하는(cover) 다수의 시간 그룹 내의 다수의 이벤트를 수집하는 단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 10 항에 있어서,

상기 다수의 시간 의존형 주파수 성분 각각 내의 각 이벤트 검출에 응답하여, 다수의 시간 그룹 및 다수의 시간 의존형 주파수 성분 내에서 발생한 다수의 이벤트로부터 하나 이상의 이벤트 조합을 선택하는 단계를 더 포함하는

오디오 컨텐츠 식별 방법.
제 11 항에 있어서,

상기 선택 단계는,

각 시간 그룹으로부터 한 번에 오직 하나의 이벤트만을 취하여, 다수의 시간 그룹 및 다수의 시간 의존형 주파수 성분 내에서 발생한 다수의 이벤트로부터 하나 이상의 이벤트 조합을 선택하는 서브-단계를 포함하는

오디오 컨텐츠 식별 방법.
제 11 항에 있어서,

각각이 상기 이벤트 조합과 연관될 시간 및 상기 조합 내의 각 이벤트에 대한 정보를 포함하는 키 시퀀스(a key sequence)를 포함하는 다수의 키를 상기 하나 이상의 이벤트 조합으로부터 형성하는 단계를 더 포함하는

오디오 컨텐츠 식별 방법.
오디오 신호의 레코딩 부분의 식별 특징(an identifying feature)을 형성하는 방법에 있어서,

상기 오디오 신호의 레코딩 부분을 다수의 제 1 주파수에 걸쳐서 소모된 오디오 전력의 시간 시리즈(a time series)로 푸리에 변환하는 단계와,

상기 주파수를, 각각이 인접하는 주파수의 범위를 포함하는 다수의 보다 작은 제 2 대역으로 그룹화하는 단계와,

상기 각 대역 내의 전력 소모 이벤트를 검출하는 단계와,

상기 식별 특징을 형성하기 위하여 선택된 순간에 서로 인접하는 대역들로부터 상기 전력 소모 이벤트들을 함께 그룹화하는 단계를 포함하며,

상기 전력 소모 이벤트 각각은 제1 연속 평균의 값과 제2 연속 평균의 값의 교차점이며,

상기 제1 연속 평균은 상기 소모된 오디오 전력의 제1 평균화 기간 동안의 평균이며,

상기 제2 연속 평균은 상기 소모된 오디오 전력의, 상기 제1 평균화 기간과는 상이한 제2 평균화 기간 동안의 평균인 것인 오디오 신호의 레코딩 부분의 식별 특징 형성 방법.
제 14 항에 있어서,

사전결정된 기간에 걸쳐서 상기 각 대역 내의 전력 소모를 적분하는 단계를 더 포함하는

오디오 신호의 레코딩 부분의 식별 특징 형성 방법.
제 15 항에 있어서,

상기 각 전력 소모 이벤트는 상이한 길이를 갖는 기간들에 걸쳐서 진행하는(rolling) 에너지 소모 레벨들의 크로스오버(a crossover)인

오디오 신호의 레코딩 부분의 식별 특징 형성 방법.
오디오 스트림이 오디호 신호의 알려진 레코딩 중 적어도 일부를 포함하는지의 여부를 결정하는 방법에 있어서,

제 14 항에 따른 방법을 사용하여 상기 알려진 레코딩의 상기 일부를 기반으로 하여 적어도 하나의 제 1 식별 특징과, 오디오 스트림의 일부에 기초하여 적어도 하나의 제 2 식별 특징을 형성하는 단계와,

상기 제 1 식별 특징을 데이터베이스 내에 저장하는 단계와,

적어도 선택된 정도의 유사성이 존재하는지의 여부를 결정하기 위하여 상기 제 1 식별 특징과 상기 제 2 식별 특징을 비교하는 단계를 포함하는

오디오 스트림이 오디호 신호의 알려진 레코딩 중 적어도 일부를 포함하는지의 여부를 결정하는 방법.
삭제
제 1 항, 제 3 항 내지 제 16 항 중 어느 한 항에 따른 방법의 각 단계를 수행하는 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체.
삭제
삭제
삭제
삭제
오디오 신호의 레코딩을 식별하는 시스템에 있어서,

식별될 오디오 신호를 수신하는 인터페이스와,

상기 오디오 신호로부터 다수의 시간 의존형 주파수 성분을 생성하기 위하여, 오디오 신호의 파워 스펙트럼을 분석하는 스펙트럼 분석기와,

상기 각 시간 의존형 주파수 성분 내의 다수의 이벤트를 검출하는 이벤트 검출기와,

상기 다수의 이벤트를 주파수 및 시간에 따라 그룹화하고 상기 다수의 이벤트를 기반으로 하여 다수의 키를 조합하는(assembling) 키 생성기를 포함하며,

상기 이벤트 검출기에 의하여 검출된 이벤트 각각은 제1 연속 평균의 값과 제2 연속 평균의 값의 교차점이고,

상기 제1 연속 평균은 상기 시간 의존형 주파수 성분의 제1 서브셋의 제1 평균화 기간 동안의 평균이고,

상기 제2 연속 평균은 상기 시간 의존형 주파수 성분의 상기 제1 서브셋의, 상기 제1 평균화 기간과는 상이한 제2 평균화 기간 동안의 평균인 것인 오디오 신호의 레코딩을 식별하는 시스템.
제 24 항에 있어서,

상기 이벤트 검출기는 피크 검출기인

오디오 신호의 레코딩을 식별하는 시스템.
제 24 항에 있어서,

오디오 신호의 알려진 레코딩의 키들의 데이터베이스를 더 포함하는

오디오 신호의 레코딩을 식별하는 시스템.
오디오 신호의 레코딩 부분의 식별 특징을 형성하는 시스템에 있어서,

상기 오디오 신호의 레코딩 부분을 다수의 제 1 주파수에 걸쳐서 소모된 오디오 전력의 시간 시리즈로 푸리에 변환하는 수단과,

상기 주파수를, 각각이 인접하는 주파수의 범위를 포함하는 다수의 보다 작은 제 2 대역으로 그룹화하는 수단과,

상기 각 대역 내의 전력 소모 이벤트를 검출하는 수단과,

상기 식별 특징을 형성하기 위하여, 선택된 순간에 서로 인접하는 대역들로부터 상기 전력 소모 이벤트들을 함께 그룹화하는 수단을 포함하며,

상기 검출 수단에 의하여 검출된 상기 전력 소모 이벤트 각각은 제1 연속 평균의 값과 제2 연속 평균의 값의 교차점이며,

상기 제1 연속 평균은 상기 소모된 오디오 전력의 제1 평균화 기간 동안의 평균이며,

상기 제2 연속 평균은 상기 소모된 오디오 전력의, 상기 제1 평균화 기간과는 상이한 제2 평균화 기간 동안의 평균인 것인 오디오 신호의 레코딩 부분의 식별 특징을 형성하는 시스템.