KR102037220B1

KR102037220B1 - 오디오 핑거프린트 매칭 시스템

Info

Publication number: KR102037220B1
Application number: KR1020170146704A
Authority: KR
Inventors: 이정환; 방경식
Original assignee: 주식회사 아이티밥
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2019-10-29
Also published as: KR20190051261A

Abstract

오디오 핑거프린트 매칭 시스템이 개시된다. 레퍼런스 음원(reference audio source)의 오디오 핑거프린트(audio fingerprint)로부터 미리 생성된 서브 핑거프린트(sub fingerprint)가 미리 저장되는 레퍼런스 데이터베이스(reference database); 쿼리 음원(query audio source)을 입력받는 쿼리 입력 모듈(query input module); 상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 오디오 핑거프린트 생성 모듈(audio fingerprint generation module); 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 서브 핑거프린트 생성 모듈(sub-fingerprint generation module); 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 상기 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 시퀀스 매칭 모듈(sequence matching module); 상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 유사 음원 출력 모듈을 구성한다.

Description

오디오 핑거프린트 매칭 시스템{AUDIO FINGER PRINT MATCHING SYSTEM}

본 발명은 오디오 핑거프린트(audio fingerprint)에 관한 것으로서, 구체적으로는 오디오 핑거프린트 매칭 시스템에 관한 것이다.

최근에는 음원 관련 저작권 협회 등에서 음원을 듣고서 무슨 음원인지를 판독하는 시스템이 많이 이용되고 있다. 그런데, 수백만 곡의 음원을 대비해야 하기 때문에 시간이나 연산량으로 볼 때 상당한 로드(load)가 걸리는 작업이다.

깨끗한 음질의 음원을 쿼리(query)로 입력받는 경우에는 시간이나 연산량과는 무관하게 판독률은 높게 나올 수 있다. 그러나, 배경음악(background music)이나 노이즈(noise)가 많은 음원은 정확한 음원 판독이 어려운 경우가 많다.

특히, TV 음원에서 박수 소리라든가 웃음 소리와 같은 노이즈가 섞여 있는 경우에는 정확한 음원 판독이 어렵다. 이에, 이러한 소음에도 강건한 오디오 식별 수단이 요구되고 있다.

도 1 내지 도 3은 종래 기술에 따른 오디오 핑거프린트를 이용한 유사 음원 검색 방식을 나타내는 모식도이다.

도 1은 종래의 오디오 핑거프린트(audio fingerprint)를 생성하는 방식을 나타내고 있다. 먼저 쿼리(query) 음원을 스펙트로그램(spectrogram)으로 변환하고 스펙트로그램에서 특징적인 주파수(frequency)를 시간 단위로 추출하여 오디오 핑거프린트를 생성한다. 그리고 이를 데이터베이스에 저장된 수백만 레퍼런스(reference) 음원의 핑거프린트와 대비하여 유사 음원을 찾아낸다. 도 2와 도 3은 이러한 일련의 대비 과정을 나타내고 있다.

좀 더 구체적으로 보면, 도 2의 (B)에서는 유사도 매트릭스(similarity matrix)의 세로축은 쿼리 음원이고 가로축은 레퍼런스 음원이라고 할 때, 서로 일치하는 스트링(string)의 매칭 구간이 대각선 형태로 나타나게 된다.

그런데, 이러한 매칭 프로세스는 그 연산량과 시간에 있어서 엄청난 로드가 발생할 수밖에 없다. 모든 레퍼런스 음원들을 다 대비할 경우 한정된 시간 내에 음원을 정확하게 찾아낸다는 것은 매우 어려운 작업이다.

10-0862616 10-2006-0037403

본 발명의 목적은 오디오 핑거프린트 매칭 시스템을 제공하는 데 있다.

상술한 본 발명의 목적에 따른 오디오 핑거프린트 매칭 시스템은, 레퍼런스 음원(reference audio source)의 오디오 핑거프린트(audio fingerprint)로부터 미리 생성된 서브 핑거프린트(sub fingerprint)가 미리 저장되는 레퍼런스 데이터베이스(reference database); 쿼리 음원(query audio source)을 입력받는 쿼리 입력 모듈(query input module); 상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 오디오 핑거프린트 생성 모듈(audio fingerprint generation module); 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 서브 핑거프린트 생성 모듈(sub-fingerprint generation module); 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 상기 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 시퀀스 매칭 모듈(sequence matching module); 상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 유사 음원 출력 모듈을 포함하도록 구성될 수 있다.

여기서, 상기 서브 핑거프린트 생성 모듈은, 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트를 이진화(binarization)하는 이진화부; 상기 이진화부에서 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트(sub fingerprint)를 생성하는 서브 핑거프린트 추출부; 상기 서브 핑거프린트 추출부에서 생성된 서브 핑거프린트를 지시하는 포인터(pointer)로 구성되는 포인터 열을 생성하는 포인터 열 생성부를 포함하도록 구성될 수 있다.

그리고 상기 시퀀스 매칭 모듈은, 상기 쿼리 음원의 포인터 열과 상기 레퍼런스 음원의 포인터 열로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 형성된 유사도 매트릭스 상에서 대각선 매칭 라인(diagonal matching line)이 형성하여 고속 근사 매칭을 수행하는 고속 근사 매칭(coarse matching)부; 상기 고속 근사 매칭부에 의해 상기 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하는 상세 매칭(fine matching)부를 포함하도록 구성될 수 있다.

상술한 오디오 핑거프린트 매칭 시스템에 의하면, 오디오 핑거프린트를 서브 핑거프린트로 분할하고 각 서브 핑거프린터를 지시할 수 있는 포인터(pointer)값을 서로 대비하여 고속 근사 매칭(coarse matching)을 우선 적용하도록 구성됨으로써, 비교적 유사도가 높은 레퍼런스 음원을 신속하고 정확하게 검색해낼 수 있으며, 소음에도 강건한 검색 능력을 갖게 되는 효과가 있다.

도 1 내지 도 3은 종래 기술에 따른 오디오 핑거프린트를 이용한 유사 음원 검색 방식을 나타내는 모식도이다.
도 4는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템의 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 서브 핑거프린트 매칭을 나타내는 모식도이다.
도 6은 본 발명의 일 실시예에 따른 고속 근사 매칭을 나타내는 모식도이다.
도 7은 본 발명의 일 실시예에 따른 유사도 매트릭스(similarity matrix)를 나타내는 예시도이다.
도 8은 본 발명의 일 실시예에 따른 상세 매칭을 나타내는 모식도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 4는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템의 블록 구성도이다. 그리고 도 5는 본 발명의 일 실시예에 따른 서브 핑거프린트 매칭을 나타내는 모식도이고, 도 6은 본 발명의 일 실시예에 따른 고속 근사 매칭을 나타내는 모식도이고, 도 7은 본 발명의 일 실시예에 따른 유사도 매트릭스(similarity matrix)를 나타내는 예시도이며, 도 8은 본 발명의 일 실시예에 따른 상세 매칭을 나타내는 모식도이다.

먼저 도 4를 참조하면, 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템(audio fingerprint matching system)(100)은 레퍼런스 데이터베이스(reference database)(110), 오디오 핑거프린트 생성 모듈(audio fingerprint generation module)(120), 서브 핑거프린트 생성 모듈(sub fingerprint generation module)(130), 시퀀스 매칭 모듈(sequence matching module)(140), 유사 음원 출력 모듈(150)을 포함하도록 구성될 수 있다.

오디오 핑거프린트 매칭 시스템(100)은 오디오 핑거프린트를 이진화(binarization)하여 서브 핑거프린트로 분할하고 그 서브프린터의 포인터(pointer)값들로 구성되는 인버트 테이블(invert table)을 이용하여 레퍼런스 음원을 상호 대비하여 검색하도록 구성된다. 연산량이 획기적으로 줄어들고 연산 시간도 축소되며, 소음에도 강건한 음원 검색이 가능해진다.

이하, 세부적인 구성에 대하여 설명한다.

레퍼런스 데이터베이스(110)는 수많은 레퍼런스 음원(reference audio source)에 대한 정보를 미리 저장하도록 구성될 수 있다.

레퍼런스 데이터베이스(110)는 종래와 달리 레퍼런스 음원의 오디오 핑거프린트뿐만 아니라 이로부터 생성되는 서브 핑거프린트를 미리 저장하도록 구성될 수 있다.

서브 핑거프린트는 오디오 핑거프린트가 분할되어 생성되는 구성이다.

먼저 오디오 핑거프린트를 이진화(binarization)한 후, 이진 코드를 소정 비트(bit)수 단위로 분할하여 서브 핑거프린트가 생성될 수 있다. 이때, 도 5에서 보듯이 10개의 비트로 구성되는 서브 핑거프린트가 생성될 수 있으며, 각 서브 핑거프린트는 서로 일정 비트수만큼 겹치도록 생성될 수 있다.

여기서, 서브 핑거프린트는 10개의 비트로 구성되는 경우 총 1024개의 경우의 수가 생길 수 있다. 이때, 각 서브 핑거프린트에 대해 각 서브 핑거프린트를 지시하는 하나의 값, 포인터(pointer)로 대체할 수 있다. 포인터는 1024개가 있을 수 있고, 각 서브 핑거프린트는 1024개의 포인터 중 어느 하나로 순차적으로 대체될 수 있다. 서브 핑거프린트와 해당 포인터를 서로 대응시키는 인버트 테이블(invert table)을 이용하여 각 서브 핑거프린트를 포인터로 표현할 수 있다.

레퍼런스 데이터베이스(110)에는 각 레퍼런스 음원의 오디오 핑거프린트에 대해 각 서브 핑거프린트의 포인터들로 표현되는 데이터가 미리 저장될 수 있다. 쿼리 음원(query audio source)에 대해서도 이러한 각 서브 핑거프린터의 포인터들과 대비되면 신속하고 정확하게 레퍼런스 음원이 검색될 수 있다.

쿼리 음원에는 박수 소리, 소음, 말 소리, 차 소리 등과 같은 다양한 소음이 섞여 있게 되는데, 서로 이웃하는 서브 핑거프린트를 서로 일정 비트수가 겹치게 생성하면, 이러한 소음에도 매우 강건한 대비 알고리즘이 될 수 있다.

쿼리 입력 모듈(120)은 쿼리 음원을 입력받도록 구성될 수 있다. 쿼리 음원은 TV(television)에 나오는 배경 음악(background music), 음악 쇼의 생방송 음악 등 그 제한이 없다.

오디오 핑거프린트 생성 모듈(130)은 쿼리 입력 모듈(120)에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하도록 구성될 수 있다. 오디오 핑거프린트는 도 2의 과정을 통해 생성될 수 있다.

서브 핑거프린트 생성 모듈(130)은 쿼리 음원의 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하도록 구성될 수 있다. 엄격하게는 서브 핑거프린트들을 각각 지시하는 포인터(pointer) 열을 생성하도록 구성될 수 있다.

서브 핑거프린트 생성 모듈(130)은 이진화부(131), 서브 핑거프린트 추출부(132), 포인터 열 생성부(133)를 포함하도록 구성될 수 있다.

여기서, 이진화부(131)는 쿼리 음원의 오디오 핑거프린트를 이진화하여 이진 코드로 변환하여 출력하도록 구성될 수 있다. 그리고 서브 핑거프린트 추출부(132)는 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트를 생성하도록 구성될 수 있다. 이때, 도 5에서는 10 비트 단위로 서브 핑거프린트를 추출하는 것을 예시하고 있다. 그리고 서브 핑거프린트를 순차적으로 추출되는 과정에서 서로 몇 비트씩 겹치도록 구성될 수 있다. 도 5에서는 3 비트씩 겹치게 추출되는 과정을 나타낸다. 쿼리 음원에는 소음에 의한 에러 비트(error bit)가 발생할 수 있기 때문에 이를 고려하여 3 비트씩 겹치게 추출하여 소음에 강건한 검색 수단을 제공한다. 한편, 서브 핑거프린트가 10 비트로 구성된 경우 이진 코드로 구성되는 서브 핑거프린트의 경우의 수는 1024가지이다. 포인터 열 생성부(133)는 이러한 1024가지의 서브 핑거프린트를 미리 구비된 인버트 테이블(invert table) 상에서 1024개의 포인터(pointer)로 변환할 수 있다. 이러한 1024가지의 포인터는 각 서브 핑거프린트에 대해 인버트 테이블을 이용하여 인버팅(inverting)되어 서브 핑거프린트 열을 나타내는 포인터 열로 표현될 수 있다. 많은 데이터량을 갖는 오디오 핑거프린트에 비해 매우 간단한 값으로 변환되어 있음을 알 수 있다.

시퀀스 매칭 모듈(140)은 서브 핑거프린트 생성 모듈(130)에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스(110)에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하도록 구성될 수 있다.

시퀀스 매칭 모듈(140)은 고속 근사 매칭부(141), 상세 매칭부(142)를 포함하도록 구성될 수 있다.

고속 근사 매칭부(141)는 도 6과 같이 쿼리 음원의 포인터와 레퍼런스 음원의 포인터가 양축으로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 유사도 매트릭스 상에서 서로 일치되는 포인터값을 갖는 영역을 찾아내도록 구성될 수 있다. 이러한 부분은 유사도 매트릭스의 여러 곳에서 점으로 나타날 수 있으며, 쿼리 음원의 소음에 의한 에러 비트로 인해 여러 곳에서 오검출될 수 있다.

포인터 열이 양축에서 순차적으로 설정될 때, 양 음원의 유사한 부분은 대각선 매칭 라인(diagonal matching line)으로 나타나게 된다. 매우 신속하고 정확하게 근사 매칭을 수행할 수 있다.

그리고 고속 근사 매칭부(141)에 의해 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 상세 매칭부(142)는 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하도록 구성될 수 있다.

도 8에서 보듯이 먼저 대각선 매칭 라인에서 각 점들의 대각선 매칭 라인 위/아래 근방에 대한 해밍(hamming) 거리를 계산하여 대각선 매칭 라인을 확장한다. 그리고 그 점들의 수를 누적하여 피크(peak)를 검출한 후 후보 대각선을 산출한다. 그리고 그 후보 대각선에 대해서 로컬 엣지(local edge)를 검출(detect)하고 이들을 병합(merge)한 후 검증(verification)하여 상세 매칭을 수행한다.

유사 음원 출력 모듈(150)은 시퀀스 매칭 모듈(140)에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하도록 구성될 수 있다. 레퍼런스 음원에 대한 제목, 코드 등의 기본 정보를 출력할 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

110: 레퍼런스 데이터베이스
120: 오디오 핑거프린트 생성 모듈
130: 서브 핑거프린트 생성 모듈
131: 이진화부
132: 서브 핑거프린트 추출부
133: 포인터 열 생성부
140: 시퀀스 매칭 모듈
141: 고속 근사 매칭부
142: 상세 매칭부
150: 유사 음원 출력 모듈

Claims

레퍼런스 음원(reference audio source)의 오디오 핑거프린트(audio fingerprint)로부터 미리 생성된 서브 핑거프린트(sub fingerprint)가 미리 저장되는 레퍼런스 데이터베이스(reference database);
쿼리 음원(query audio source)을 입력받는 쿼리 입력 모듈(query input module);
상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 오디오 핑거프린트 생성 모듈(audio fingerprint generation module);
상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 서브 핑거프린트 생성 모듈(sub-fingerprint generation module);
상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 상기 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 시퀀스 매칭 모듈(sequence matching module);
상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 유사 음원 출력 모듈을 포함하며,
상기 서브 핑거프린트 생성 모듈은,
상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트를 이진화(binarization)하는 이진화부;
상기 이진화부에서 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트(sub fingerprint)를 생성하는 서브 핑거프린트 추출부;
상기 서브 핑거프린트 추출부에서 생성된 서브 핑거프린트를 지시하는 포인터(pointer)로 구성되는 포인터 열을 생성하는 포인터 열 생성부를 포함하도록 구성되며,
상기 시퀀스 매칭 모듈은,
상기 쿼리 음원의 포인터 열과 상기 레퍼런스 음원의 포인터 열로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 형성된 유사도 매트릭스 상에서 대각선 매칭 라인(diagonal matching line)이 형성하여 고속 근사 매칭을 수행하는 고속 근사 매칭(coarse matching)부;
상기 고속 근사 매칭부에 의해 상기 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하는 상세 매칭(fine matching)부를 포함하도록 구성되는 것을 특징으로 하는 오디오 핑거프린트 매칭 시스템.
삭제
삭제