KR100733145B1 - 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템 - Google Patents

정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템 Download PDF

Info

Publication number
KR100733145B1
KR100733145B1 KR1020050086557A KR20050086557A KR100733145B1 KR 100733145 B1 KR100733145 B1 KR 100733145B1 KR 1020050086557 A KR1020050086557 A KR 1020050086557A KR 20050086557 A KR20050086557 A KR 20050086557A KR 100733145 B1 KR100733145 B1 KR 100733145B1
Authority
KR
South Korea
Prior art keywords
fingerprint
audio signal
audio
frames
spectrum
Prior art date
Application number
KR1020050086557A
Other languages
English (en)
Other versions
KR20070031765A (ko
Inventor
유창동
이선일
장달원
진민호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020050086557A priority Critical patent/KR100733145B1/ko
Publication of KR20070031765A publication Critical patent/KR20070031765A/ko
Application granted granted Critical
Publication of KR100733145B1 publication Critical patent/KR100733145B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정규화된 스펙트럼 부밴드 중심점(Normalized Spectral Subband Centroid; NSSC)을 기반으로 핑거프린트를 생성하는 방법과, 미지의 오디오 신호가 입력으로 주어졌을 때, 이를 이미 구축되어 있는 대용량 오디오 데이터베이스에서 검색하여 입력 오디오 신호에 대한 정보를 출력해 주기 위한 오디오 핑거프린팅 시스템에 대한 것이다. 오디오 핑거프린팅 시스템은 사용된 핑거프린트에 의해 그 성능이 크게 좌우된다. 본 발명의 NSSC 핑거프린트는 오디오 신호의 특징을 잘 나타내어 인식에 사용하기 적합하면서도 오디오 신호에 가해질 수 있는 여러 가지 왜곡들, 예를 들어 MP3 압축, 이퀄라이제이션(equalization) 등에 매우 강인하며, 대용량 데이터베이스 구축과 실시간 검색에도 유리한 장점을 가지고 있다. 실험 결과에 따르면, 본 발명에 의한 시스템은 기존의 오디오 핑거프린팅 시스템에 비해 향상된 성능을 보인다. 본 발명은 인터넷 상의 오디오 불법 유통을 막기 위한 실시간 필터링 서비스, 대용량 오디오 데이터베이스의 자동 인덱싱(indexing), 그리고 방송 모니터링 등에 응용될 수 있다.
핑거프린트, 정규화된 스펙트럼 부밴드 중심점, 오디오, MP3

Description

정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트 생성 방법 및 오디오 핑거프린팅 시스템{Fingerprint Producing Method and Audio Fingerprinting System Based on Normalized Spectral Subband Centroids}
도 1은 본 발명의 오디오 핑거프린팅 시스템을 개념적으로 도시한 블록도이다.
도 2는 오디오 신호로부터 핑거프린트를 추출하는 과정을 개념적으로 도시한 블록도이다.
도 3은 프레임 기반의 오디오 데이터베이스 검색을 통해 후보 프레임들을 추출하고, 그에 기반하여 후보 핑거프린트 블록들을 구성한 후 서로 중복되는 것을 제거하는 과정을 도시한 도면이다.
도 4는 지연값 k에 대한 자기상관값인 (a)R[k]와 (b)Q[k]의 변화를 나타내는 시험 데이터와 함께 1차 모델링 결과를 도시한 그래프이다.
도 5는 선택된 짝(pair)들 간의 거리를 구해 히스토그램으로 정리한 결과와 핑거프린트 매칭을 위해 선택한 핑거프린트 모델링 결과를 함께 비교하여 도시한 도면이다.
도 6는 본 발명에 의한 정규화된 스펙트럼 부밴드 중심점에 기반한 오디오 핑거프린트와 다른 오디오 핑거프린트들의 강인성의 차이를 세 가지 왜곡에 대하여 구하고 이를 비교한 결과를 도시한 도면이다.
본 발명은 핑거프린트 생성 방법 및 핑거프린팅 시스템에 관한 것이다. 보다 구체적으로는, 본 발명은 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트 생성 방법 및 이러한 핑거프린트를 사용하여 미지의 오디오 신호가 입력으로 주어졌을 때, 이를 이미 구축되어 있는 대용량 오디오 데이터베이스에서 검색하여 입력 오디오 신호에 대한 정보를 출력해 주기 위한 오디오 핑거프린팅 시스템에 관한 것이다.
최근, MP3와 같은 데이터 압축 기술과 인터넷 등 대중의 매체 접근성의 발달로 오디오 데이터와 같은 대용량 멀티미디어 파일의 입수가 쉬워지고 있다. 이에 따라, 대용량의 오디오 파일을 신속히 분석하고 자동 인식하는 기술에 대한 요구도 높아지고 있다.
이와 같은 오디오 인식 기술의 하나로 사용되고 있는 핑거프린팅 기법은 또한 파일 공유 서비스를 위한 필터링 서비스와 방송 모니터링 서비스, 오디오 라이브러리를 위한 인덱싱 서비스 등을 제공하는데 사용되고 있다. 그러나, 현재까지 개발되어 온 핑거프린팅 기법은 MP3 압축, 이퀄라이제이션(equalization) 등의 오디오 신호 처리 왜곡에 대해 강인한 특성을 나타내지 못하고, 이러한 강인성을 향 상시키기 위해서는 매우 복잡한 처리 과정을 거쳐야 하기 때문에 현실적으로 실시간 검색에 이용하기 어렵다는 문제점이 있다.
예컨대, 한국특허출원공개 제2004-0040409호는 핑거프린트를 생성하는 방법과 장치에 관한 것으로, 오디오 핑거프린트로서 각각의 부밴드의 스펙트럼 평면도(spectrum flatness)를 사용한다. 상기 특허문헌은 상이한 요건에 적합한 핑거프린팅를 제공하지만 이러한 핑거프린트는 오디오 신호에 가해지는 왜곡들에 강인한 특성을 갖지 못한다.
한편, 한국특허출원공개 제2005-0039544호는 오디오 복제 검출기에 관한 것으로, 오디오 핑거프린트로서 중첩 윈도우를 갖는 푸리에 변환(Modulated Complex Lapped Transform; MCLT) 계수를 사용하며, 핑거프린트의 길이를 줄이고 강인성을 높이기 위해 왜곡 구별 해석(Distortion Discriminant Analysis; DDA)을 사용한다. 그러나, 이러한 왜곡 구별 해석은 처리 과정이 복잡하여, 복제 또는 변형된 오디오 파일을 검색하는데 시간이 오래 걸리는 문제점이 있다.
본 발명은, 상기한 종래의 기술적 과제들을 해결하기 위하여 안출된 것으로, MP3 압축, 이퀄라이제이션(equalization) 등의 오디오 신호 처리 왜곡에 강인한 핑거프린트를 생성하는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은, 핑거프린트를 사용하여 대용량 오디오 데이터베이스를 낮은 오류 확률로 실시간 검색할 수 있는 오디오 핑거프린팅 시스템을 제공하는 것을 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명은, 오디오 신호를 소정의 주파수로 리샘플링하는 단계; 상기 리샘플링된 오디오 신호의 스펙트럼을 구하는 단계; 상기 스펙트럼을 복수의 부밴드로 나누는 단계; 및 핑거프린트로서 상기 복수의 부밴드의 각각으로부터 정규화된 스펙트럼 부밴드 중심점을 추출하는 단계를 포함하는 핑거프린트 생성 방법을 제공한다.
또한, 본 발명은 입력되는 오디오 신호를 소정의 주파수로 리샘플링하는 전처리부; 상기 전처리부에서 처리된 입력 오디오 신호의 스펙트럼을 복수의 부밴드로 나누고, 각 부밴드에서 정규화된 스펙트럼 부밴드 중심점을 핑거프린트로서 추출하는 핑거프린트 추출부; 및 상기 핑거프린트 추출부에서 두 개의 오디오 신호에 대해 추출한 핑거프린트의 유사도를 판단하는 핑거프린트 매칭부를 포함하는, 정규화된 스펙트럼 부밴드 중심점에 기반한 오디오 핑거프린팅 시스템을 제공한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 관하여 상세히 설명한다.
도 1은 본 발명의 오디오 핑거프린팅 시스템을 개념적으로 도시한 블록도이다. 상기 오디오 핑거프린팅 시스템은 전처리부(pre-processing unit)(110), 핑거프린트 추출부(120), 데이터베이스 검색 전처리부(130), 데이터베이스 검색부(140), 및 핑거프린트 매칭부(150)를 포함한다.
상기 전처리부(110)는 입력된 오디오 신호를 모노(mono)로 변환하고 미리 정해진 주파수로 리샘플링(re-sampling)한다. 리샘플링할 주파수는 시스템이 사용될 용도에 적합하게 결정된다. 일례로, 보통 44.1KHz의 샘플링 주파수를 사용하는 MP3 압축 오디오를 입력으로 할 경우 그 1/4인 11025Hz로 리샘플링한 후 핑거프린트를 추출하면 압축 과정에서 손상되기 쉬운 고주파 영역의 정보가 핑거프린트의 성능을 떨어뜨리는 현상을 방지할 수 있다. 본 실시예에서는 리샘플링 주파수를 11025Hz로 하는 것으로 한다.
다음으로, 핑거프린트 추출부(120)는 전처리된 오디오 신호로부터 핑거프린트를 추출한다. 이를 위해 핑거프린트 추출부(120)는, 전처리된 오디오 신호를 여러 개의 부밴드로 나누고 각 부밴드에서 정규화된 스펙트럼 중심점을 추출한다.
도 2는 오디오 신호로부터 핑거프린트를 추출하는 과정을 도시한 도면이다. 먼저 오디오 신호는, 일정한 길이(예컨대, 371.5ms)를 갖고 서로 중첩(예컨대, 50%)되는 프레임들로 분할된 뒤, 윈도우(window)가 씌워진다. 본 실시예에서는 해밍 윈도우(hamming window)를 사용한다. 그 후 각 오디오 프레임의 스펙트럼(spectrum)이 계산된다. 오디오 신호의 스펙트럼을 구하는 방법에는 여러 가지가 있으나 본 실시예에서는 각 프레임을 고속 푸리에 변환(Fast Fourier Transformation; FFT)을 사용하여 변환한 후 크기(magnitude)의 절대값의 제곱을 취하는 방법으로 오디오 신호의 스펙트럼을 구한다. 그 결과 얻어진 오디오의 스펙트럼은 전처리부(110)에서 사용된 리샘플링 주파수에 의해 정의되는 주파수 범위 내에서 (예컨대, 11025Hz가 사용된 경우 300Hz에서 5300Hz의 범위) 복수개(예컨대, 16개)의 부밴드(subband)들로 나뉜다. 부밴드를 나누는 방법에는 여러가지가 있을 수 있으나, 본 실시예에서는 인간의 청각 특성을 모델링하는 임계 밴드(critical band)들로 부밴드를 나누는 것으로 한다. 나뉘어진 각 부밴드에 대해서, 정규화된 주파수 중심점(normalized frequency centorid)이 구해진다. 복수의 부밴드들에서 구한 주파수 중심점들이 오디오 프레임의 핑거프린트로서 사용된다.
정규화된 스펙트럼 부밴드 중심점을 구하는 과정을 보다 구체적으로 살펴보면 다음과 같다. 오디오 스펙트럼 P[k,m]이 주어졌을 때, i번째 부밴드의 υ차 부밴드 모멘트는 다음과 같이 정의된다.
Figure 112005051816167-pat00001
여기서 k,m, 그리고 CBi 는 각각 주파수와 프레임 인덱스, 그리고 i번째 부밴드의 주파수 경계를 의미한다. 정규화되지 않은 스펙트럼 부밴드 중심점은 다음과 같이 주어진다.
Figure 112005051816167-pat00002
위 식의 분모항에 의해 스펙트럼 부밴드 중심점은 스펙트럼의 이퀄라이제이 션에 강인해지게 된다. Ci[m]의 범위는 각 부밴드마다 다르므로 다음과 같은 정규화 과정이 추가로 필요하다.
Figure 112005051816167-pat00003
최종적으로 구해진 정규화된 스펙트럼 부밴드 중심점인 NCi[m]는 어느 부밴드에 속하느냐에 관계없이 -0.5에서 0.5 사이의 값을 갖게 된다.
부밴드들로부터 구해진 정규화된 스펙트럼 부밴드 중심점은 해당 오디오 프레임의 핑거프린트로서 사용된다. 한편, 더욱 정확한 인식을 위해 서로 인접한 여러 개의 프레임을 오디오 블록으로 정의하고 이 오디오 블록 내의 핑거프린트들을 모아 핑거프린트 블록으로 정의해 핑거프린트 매칭에 사용한다. 일례로, 9.845초 길이의 오디오 블록으로부터 구한 53개의 핑거프린트(848개의 중심점에 해당)를 핑거프린트 블록으로 사용한다.
데이터베이스 검색 전처리부(130)는 핑거프린트 추출부(120)가 추출한 핑거프린트를 데이터베이스 검색에 용이한 형태로 처리한다. 예컨대, 데이터베이스 검색의 속도 및 효율 향상을 위해 주요소 해석법(Principal Component Analysis; PCA)을 핑거프린트에 적용하여 핑거프린트의 길이를 줄이는 처리를 할 수도 있다. 본 예에서는 핑거프린트 추출부(120)에서 구한 핑거프린트를 아무런 처리 없이 데이터베이스 검색에 이용하는 것으로 한다.
데이터베이스 검색부(140)는 핑거프린트 추출부(120)에서 추출되고 데이터베이스 검색 전처리부(130)에서 데이터베이스 검색에 용이한 형태로 변환된 핑거프린트를 이용하여 데이터베이스를 검색한다. 도 3은 데이터베이스 검색을 통해 핑거프린트 매칭을 위한 후보 핑거프린트 블록을 구하는 과정을 도시한 도면이다. 일정한 길이(예컨대, 9.845초)의 오디오 블록이 입력으로 들어오면 이 입력에서 M개의 프레임들(예컨대, M=53개)을 추출할 수 있다. 이렇게 추출된 프레임 각각에 대해 이미 구축되어 있는 데이터베이스로부터 입력 프레임과 유사한 후보 프레임들을 검색한다. 이때 추출된 모든 프레임들에 대하여 검색을 수행할 수도 있고 몇 개의 선택된 프레임들에 대해서만 후보 프레임 검색을 수행할 수도 있다. 검색된 후보 프레임들을 이용하여 이 후보 프레임과 인접한 전후의 M개의 프레임들을 붙여서 후보 핑거프린트 블록을 구성한다. 이 중 서로 중복되는 후보 핑거프린트 블록들은 자동으로 제거 된다. 후보 프레임들을 찾기 위한 프레임 기반의 데이터베이스 검색은 최근접 이웃(nearest neighborhood) 알고리듬에 기반한 k-d-pot tree로 데이터베이스 상의 모든 프레임들을 배열한 후 이 트리 구조 상에서 검색을 수행하여 이루어진다.
핑거프린트 매칭부(150)는 데이터베이스 검색부(140)의 검색 결과인 후보 핑거프린트 블록 중에서 입력 오디오 블록에서 구한 핑거프린트 블록과의 거리(distance)가 가장 가까운 것을 선택하고, 그 후보 핑거프린트 블록에 해당되는 오디오 블록과 연결된 오디오 정보를 인식 결과로 출력한다.
더 구체적으로 살펴보면, 핑거프린트 매칭에서, 두 오디오의 핑거프린트들 간의 거리가 특정한 문턱값(threshold) T 이하이면 두 오디오가 서로 같다고 판정한다. T를 정하기 위해서는 서로 다른 오디오를 같다고 잘못 판정내릴 확률인 PFA(Probability of False Alarm)와 같은 오디오를 서로 다르다고 잘못 판정내릴 확률인 PFR(Probability of False Rejection)을 함께 고려해야 하지만, PFR은 많은 오디오 처리 과정의 정확한 특성이 알려져 있지 않기 때문에 분석하기가 매우 어려워 실제로는 PFA만을 고려해서 T를 구하는 것이 일반적이다.
먼저, 스펙트럼 부밴드 중심점을 정상 과정(stationary process)이라고 가정하고, 오디오 블록에서 구한 핑거프린트 x를 그 평균 mx와 분산 σx 2으로 다음과 같이 추가로 정규화한다.
Figure 112005051816167-pat00004
여기서, n은 1에서 N 사이의 값을 가지며 N은 하나의 오디오 블록 내의 정규화된 스펙트럼 부밴드 중심점의 개수를 의미한다. 본 실시예에서는, 9.845초 길이의 오디오 블록에서 N=16×53=849가 된다. 이렇게 해서, p는 평균이 0이고 분산이 1인 확률적 분포를 갖는다. 스펙트럼 부밴드 중심점의 통계학적 모델을 1차 자기상관(autocorrelation)으로 단순화하면, 다음과 같이 표현된다.
Figure 112005051816167-pat00005
Figure 112005051816167-pat00006
여기서, μk=E[pk[n]]을 뜻하며, a와 b는 정규화된 스펙트럼 부밴드 중심점의 자기상관의 척도가 된다.
도 4는 지연값 k에 대한 자기상관값인 (a)R[k]와 (b)Q[k]의 변화를 나타내는 시험 데이터와 함께 적합화된 1차 모델링 결과를 도시한다. 도 3에 도시된 바와 같이, 오디오 데이터로부터 얻어진 자기상관은 1차 모델을 잘 따른다. 또한, 실험 데이터에 기초하여 구해진 a,b, 및 μ4의 값은 각각 0.59, 0.44, 및 3.0이다.
핑거프린트 간의 거리를 표시하는 방법에는 해밍(hamming) 거리, 맨하탄(manhattan) 거리, 유클리드(Euclid) 거리, 및 마할라노비스(mahalanobis) 거리 등 여러가지가 있다. 본 발명의 핑거프린트 매칭에서는 유클리드 거리의 제곱이 핑거프린트들 간의 거리, 즉 유사도를 구하는 척도로 사용된다. 즉, 핑거프린트 매칭을 위해 사용되는 오디오 핑거프린트들 간의 유클리드 거리의 제곱 D는 다음과 같이 정의된다.
Figure 112005051816167-pat00007
여기서, p와 q는 서로 다른 오디오 블록으로부터의 정규화된 스펙트럼 부밴드 중심점들이다. 중심극한정리(Central Limit Theorem)에 의하면, N이 충분히 크고 합들의 분포가 충분히 상호 독립적이라면 거리 D는 정규 분포를 나타낸다. 거리 D의 평균 E[D]는 다음과 같이 주어진다.
Figure 112005051816167-pat00008
D의 분산은 다음과 같이 표현된다.
Figure 112005051816167-pat00009
그리고, D2의 평균은 다음과 같이 표현된다.
Figure 112005051816167-pat00010
앞에서 정의한 통계학적 모델을 사용하면, D는 N(2, σD 2)의 정규분포를 따르며 D의 표준편차는 σD=0.1479로 주어짐을 알 수 있다. 이를 기초로 PFA를 구하면 다음과 같다.
Figure 112005051816167-pat00011
일례로, T=0.8의 값을 사용하는 경우 PFA는 erfc(5.7387)/2=2.414×10-16의 매우 작은 값을 갖는다는 것을 확인할 수 있다.
<실험 결과>
본 실험에서는, 본 발명의 핑거프린팅 기법을 검증하기 위해 클래식, 재즈, 팝, 락, 힙합과 같은 다양한 장르로 구성된 8,000곡 규모의 데이터베이스를 이용하였다. 먼저 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트가 서로 다른 오디오 신호에 대하여 충분히 서로 다른지를 파악하기 위해 100,000개의 오디오 블록을 임의로 선택하였다.
도 5는 선택된 짝(pair)들 간의 거리를 구해 히스토그램으로 정리한 결과와 핑거프린트 매칭을 위해 선택한 핑거프린트 모델링 결과를 함께 비교하여 도시한 도면이다. 측정된 거리는 모두 1.1에서 2.9사이의 값을 나타냈으며, 앞서 구한 핑거프린트의 통계학적 모델과 잘 일치하며 동시에 서로 다른 오디오 신호에 대하여 충분히 다른 핑거프린트 값을 가져, 오디오 핑거프린팅에 사용하기에 적합한 핑거프린트라는 것을 확인할 수 있다.
정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트의 강인성을 평가하기 위하여 8,000곡의 오디오 데이터베이스에서 임의로 5,000개의 오디오 블록을 선택해 MP3 압축(32 kbps), 이퀄라이제이션(equalization), 임의 시작(random start), 시간 척도 조정(time-scale modification)(±4%), 선형 속도 변환(linear speed change, ±1%)의 왜곡을 가했다. 그 후, 왜곡된 신호를 원본 신호와 비교한 결과 단 한 번의 오류 없이 왜곡된 오디오에서 원본 오디오 신호를 찾아낼 수 있었다 (즉, PFR=0). 이 결과는 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트가 여러 가지 오디오 신호 처리 왜곡에 매우 강인함을 보여준다.
도 6은 본 발명에 의한 정규화된 스펙트럼 부밴드 중심점(Normalized Spetral Subband Centroid; NSSC)에 기반한 오디오 핑거프린트와 다른 오디오 핑거프린트들의 강인성의 차이를 세 가지 왜곡에 대하여 구하고 이를 비교한 결과를 도시한 도면이다. 비교 대상으로 삼은 핑거프린트들은 각각 멜 주파수 켑스트럼 계수(Mel Frequency Cepstral Coefficients; MFCC)와 부밴드의 평면도(tonality 혹은 flatness)이다. 100개의 오디오로 성능을 평가했으며, 이번 실험에서는 오디오 블록 대신 오디오 프레임 단위로 인식해서 올바른 인식 결과가 나올 확률을 확인하였다.
도 6의 결과를 살펴보면, 다음과 같은 결론을 얻을 수 있다.
1) MP3 압축에 있어서, 본 발명에 의한 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트가 다른 핑거프린트들에 비하여 인식 확률이 높다.
2) 이퀄라이제이션에 있어서, 본 발명에 의한 정규화된 스펙트럼 부밴드 중 심점에 기반한 핑거프린트는 MFCC에 비해 월등히 높은 인식 확률을 나타내고, 부밴드의 평면도를 이용한 핑거프린트와는 유사한 인식 확률을 나타낸다.
3) 임의 시작에 있어서, 본 발명에 의한 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트는 부밴드의 평면도를 이용한 핑거프린트에 비해 월등히 높은 인식 확률을 나타내고, MFCC와는 유사한 인식 확률을 나타낸다.
즉, 본 발명에 의한 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트는 다양한 왜곡에 대하여 다른 핑거프린트에 비해 강인한 특성을 나타냄을 확인할 수 있다.
이상, 본 발명의 바람직한 실시예에 관하여 구체적으로 설명하였으나, 본 발명의 기술적 범위가 이에 국한되는 것은 아니다. 본 발명의 기술적 범위는 후술하는 특허청구범위에 의하여 결정되며, 본 발명의 기술적 범위 이내에서 상기한 실시예들의 다양한 변형 및 수정이 가능할 것이기 때문이다.
본 발명에 의한 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트는 다양한 왜곡에 대하여 다른 핑거프린트에 비해 강인한 특성을 나타낸다. 또한, 본 발명에 의한 핑거프린팅 시스템은 복잡한 처리를 요하지 않기 때문에 대용량 오디오 데이터베이스를 실시간으로 검색하는 것이 가능하다.
본 발명의 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트는 미지의 오디오 신호를 해당 신호 자체에서 추출된 핑거프린트를 이용하여 인식해 낼 수 있 으므로 오디오와 관련된 여러 가지 분야에 응용될 수 있다. 예컨대, 최근 사회 문제가 되고 있는, 인터넷상에서 불법적으로 유통되고 있는 오디오를 자동으로 인식해 차단할 수 있다.
또한, 이러한 핑거프린트를 이용하여 대용량 오디오 데이터베이스의 색인을 자동으로 만들어낼 수 있으며, 혹시 데이터베이스 내에 중복되는 자료가 있으면 이를 자동으로 감지해 중복 자료를 삭제하는 용도로도 활용할 수 있다.

Claims (13)

  1. 오디오 신호로부터 핑거프린트를 생성하는 방법에 있어서,
    상기 오디오 신호를 소정의 주파수로 리샘플링하는 단계;
    상기 리샘플링된 오디오 신호의 스펙트럼을 구하는 단계;
    상기 스펙트럼을 복수의 부밴드로 나누는 단계; 및
    핑거프린트로서 상기 복수의 부밴드의 각각으로부터 정규화된 스펙트럼 부밴드 중심점을 추출하는 단계를 포함하는 핑거프린트 생성 방법.
  2. 제1항에 있어서,
    상기 소정의 주파수는 11025Hz인 것을 특징으로 하는 핑거프린트 생성 방법.
  3. 제1항에 있어서,
    상기 리샘플링하는 단계는 오디오 신호를 모노(mono)로 변환하는 단계를 더 포함하는 것을 특징으로 하는 핑거프린트 생성 방법.
  4. 제1항에 있어서,
    상기 리샘플링된 오디오 신호를, 프레임들로 분할한 후 윈도우를 씌워 푸리에 변환을 취함으로써 상기 스펙트럼을 구하는 것을 특징으로 하는 핑거프린트 생성 방법.
  5. 제1항에 있어서,
    상기 부밴드는 임계 밴드인 것을 특징으로 하는 핑거프린트 생성 방법.
  6. 제1항 또는 제5항에 있어서,
    상기 스펙트럼을 16개의 부밴드로 나누는 것을 특징으로 하는 핑거프린트 생성 방법.
  7. 입력되는 오디오 신호를 소정의 주파수로 리샘플링하는 전처리부;
    상기 전처리부에서 처리된 입력 오디오 신호의 스펙트럼을 복수의 부밴드로 나누고, 각 부밴드에서 정규화된 스펙트럼 부밴드 중심점을 핑거프린트로서 추출하는 핑거프린트 추출부; 및
    상기 핑거프린트 추출부에서 두 개의 오디오 신호에 대해 추출한 핑거프린트의 유사도를 판단하는 핑거프린트 매칭부를 포함하는,
    정규화된 스펙트럼 부밴드 중심점에 기반한 오디오 핑거프린팅 시스템.
  8. 제7항에 있어서,
    상기 핑거프린트 매칭부는 상기 두 개의 오디오 신호에 대해 추출된 핑거프린트들간의 거리를 비교함으로써 오디오 신호의 유사도를 판단하는 것을 특징으로 하는 오디오 핑거프린팅 시스템.
  9. 제7항에 있어서,
    상기 전처리부는 상기 입력 오디오 신호를 모노(mono)로 변환하는 것을 특징으로 하는 오디오 핑거프린팅 시스템.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 핑거프린트 추출부는 상기 전처리부에서 처리된 오디오 신호를 프레임들로 분할한 후, 윈도우를 씌워 푸리에 변환을 취함으로써, 상기 오디오 신호의 스펙트럼을 구하는 것을 특징으로 하는 오디오 핑거프린팅 시스템.
  11. 오디오 데이터베이스를 검색하여 입력되는 오디오 신호를 인식하는 핑거프린팅 시스템에 있어서,
    상기 입력 오디오 신호를 소정의 주파수로 리샘플링하는 전처리부;
    상기 전처리부에서 처리된 입력 오디오 신호를 N개의 프레임으로 분할한 후 상기 입력 오디오 신호의 스펙트럼을 구하고, 상기 스펙트럼을 복수의 부밴드로 나누고, 각 부밴드에서 정규화된 스펙트럼 부밴드 중심점을 핑거프린트로서 추출하는 핑거프린트 추출부;
    상기 입력 오디오 신호의 프레임 각각에 대하여, 상기 프레임과 유사한 후보 프레임을 상기 오디오 데이터베이스로부터 검색하고, 검색된 각각의 후보 프레임에 전후로 인접한 N개의 프레임을 붙여 후보 핑거프린트 블록을 구성하는 데이터베이스 검색부; 및
    상기 후보 핑거프린트 블록과 입력 오디오 신호의 핑거프린트를 비교하는 핑거프린트 매칭부를 포함하고,
    핑거프린트들 간의 거리가 상기 입력 오디오 신호와 가장 가까운 후보 핑거프린트 블록에 대응하는 오디오 정보를 인식 결과로서 출력하는, 정규화된 스펙트럼 부밴드 중심점에 기반한 오디오 핑거프린팅 시스템.
  12. 제11항에 있어서,
    상기 데이터베이스 검색부는, 상기 후보 프레임을 검색하기 위해 최근접 이 웃(nearest neighborhood) 알고리즘을 이용하는 것을 특징으로 하는 오디오 핑거프린팅 시스템.
  13. 제11항에 있어서,
    상기 핑거프린트 매칭부는 입력 오디오 신호와 후보 핑거프린트 블록의 핑거프린트들 간의 거리를 비교하며,
    상기 거리가 소정 값보다 작은 경우, 해당하는 후보 핑거프린트 블록에 대응하는 오디오 정보를 인식 결과로서 출력하는 오디오 핑거프린팅 시스템.
KR1020050086557A 2005-09-15 2005-09-15 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템 KR100733145B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050086557A KR100733145B1 (ko) 2005-09-15 2005-09-15 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050086557A KR100733145B1 (ko) 2005-09-15 2005-09-15 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템

Publications (2)

Publication Number Publication Date
KR20070031765A KR20070031765A (ko) 2007-03-20
KR100733145B1 true KR100733145B1 (ko) 2007-06-27

Family

ID=41634144

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050086557A KR100733145B1 (ko) 2005-09-15 2005-09-15 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템

Country Status (1)

Country Link
KR (1) KR100733145B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016024734A1 (ko) * 2014-08-14 2016-02-18 주식회사 비글컴퍼니 방송 콘텐츠의 음원 검색을 위한 오디오 신호 처리 시스템 및 방법
KR101608849B1 (ko) 2014-08-14 2016-04-04 주식회사 비글컴퍼니 방송 콘텐츠의 음원 검색을 위한 오디오 신호 처리 시스템 및 방법
KR101661666B1 (ko) * 2015-11-20 2016-09-30 광운대학교 산학협력단 하이브리드 오디오 핑거프린팅 장치 및 방법
CN107369447A (zh) * 2017-07-28 2017-11-21 梧州井儿铺贸易有限公司 一种基于语音识别的室内智能控制系统
CN109977630A (zh) * 2017-12-27 2019-07-05 上海全土豆文化传播有限公司 音频指纹生成方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100930869B1 (ko) * 2007-05-17 2009-12-10 주식회사 코난테크놀로지 오디오 식별을 통한 성인물 동영상 검열 시스템 및 방법
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
KR101507709B1 (ko) * 2013-11-27 2015-04-07 (주)마크애니 방송프로그램 관련 부가정보 서비스를 제공하기 위한 핑거프린팅 방법
KR102447554B1 (ko) * 2020-11-18 2022-09-27 주식회사 샵캐스트 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043080A (ko) * 2004-02-24 2006-05-15 마이크로소프트 코포레이션 오디오 썸네일을 생성하는 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043080A (ko) * 2004-02-24 2006-05-15 마이크로소프트 코포레이션 오디오 썸네일을 생성하는 시스템 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016024734A1 (ko) * 2014-08-14 2016-02-18 주식회사 비글컴퍼니 방송 콘텐츠의 음원 검색을 위한 오디오 신호 처리 시스템 및 방법
KR101608849B1 (ko) 2014-08-14 2016-04-04 주식회사 비글컴퍼니 방송 콘텐츠의 음원 검색을 위한 오디오 신호 처리 시스템 및 방법
KR101661666B1 (ko) * 2015-11-20 2016-09-30 광운대학교 산학협력단 하이브리드 오디오 핑거프린팅 장치 및 방법
CN107369447A (zh) * 2017-07-28 2017-11-21 梧州井儿铺贸易有限公司 一种基于语音识别的室内智能控制系统
CN109977630A (zh) * 2017-12-27 2019-07-05 上海全土豆文化传播有限公司 音频指纹生成方法及装置

Also Published As

Publication number Publication date
KR20070031765A (ko) 2007-03-20

Similar Documents

Publication Publication Date Title
KR100733145B1 (ko) 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
Seo et al. Audio fingerprinting based on normalized spectral subband moments
Xu et al. Musical genre classification using support vector machines
Cano et al. A review of algorithms for audio fingerprinting
Seo et al. Audio fingerprinting based on normalized spectral subband centroids
Jelil et al. Exploration of compressed ILPR features for replay attack detection
Markaki et al. Discrimination of speech from nonspeeech in broadcast news based on modulation frequency features
Fagerlund et al. New parametric representations of bird sounds for automatic classification
Dhanalakshmi et al. Pattern classification models for classifying and indexing audio signals
Panagiotou et al. PCA summarization for audio song identification using Gaussian mixture models
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
Birla A robust unsupervised pattern discovery and clustering of speech signals
Kruspe et al. Automatic speech/music discrimination for broadcast signals
Chandra Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm
Akdeniz et al. Linear prediction coefficients based copy-move forgery detection in audio signal
Waghmare et al. Analyzing acoustics of indian music audio signal using timbre and pitch features for raga identification
Patil et al. Content-based audio classification and retrieval: A novel approach
ER et al. Music emotion recognition with machine learning based on audio features
Agarwaal et al. Robust and lightweight audio fingerprint for Automatic Content Recognition
Kumar et al. Hilbert Spectrum based features for speech/music classification
Rouniyar et al. Channel response based multi-feature audio splicing forgery detection and localization
Domazetovska et al. Urban sound recognition using different feature extraction techniques

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140711

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150526

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160526

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180525

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20191230

Year of fee payment: 13

R401 Registration of restoration