KR20190051265A - 오디오 핑거프린트 매칭 방법 - Google Patents

오디오 핑거프린트 매칭 방법 Download PDF

Info

Publication number
KR20190051265A
KR20190051265A KR1020170146711A KR20170146711A KR20190051265A KR 20190051265 A KR20190051265 A KR 20190051265A KR 1020170146711 A KR1020170146711 A KR 1020170146711A KR 20170146711 A KR20170146711 A KR 20170146711A KR 20190051265 A KR20190051265 A KR 20190051265A
Authority
KR
South Korea
Prior art keywords
fingerprint
matching
sub
audio
module
Prior art date
Application number
KR1020170146711A
Other languages
English (en)
Other versions
KR102037221B1 (ko
Inventor
이정환
방경식
Original Assignee
주식회사 샵캐스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 샵캐스트 filed Critical 주식회사 샵캐스트
Priority to KR1020170146711A priority Critical patent/KR102037221B1/ko
Publication of KR20190051265A publication Critical patent/KR20190051265A/ko
Application granted granted Critical
Publication of KR102037221B1 publication Critical patent/KR102037221B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

오디오 핑거프린트 매칭 방법이 개시된다. 쿼리 입력 모듈(query input module)이 쿼리 음원(query audio source)을 입력받는 단계; 오디오 핑거프린트 생성 모듈(audio fingerprint generation module)이 상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 단계; 서브 핑거프린트 생성 모듈(sub-fingerprint generation module)이 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 단계; 시퀀스 매칭 모듈(sequence matching module)이 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 단계; 유사 음원 출력 모듈이 상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 단계를 구성한다.

Description

오디오 핑거프린트 매칭 방법{AUDIO FINGER PRINT MATCHING METHOD}
본 발명은 오디오 핑거프린트(audio fingerprint)에 관한 것으로서, 구체적으로는 오디오 핑거프린트 매칭 방법에 관한 것이다.
최근에는 음원 관련 저작권 협회 등에서 음원을 듣고서 무슨 음원인지를 판독하는 시스템이 많이 이용되고 있다. 그런데, 수백만 곡의 음원을 대비해야 하기 때문에 시간이나 연산량으로 볼 때 상당한 로드(load)가 걸리는 작업이다.
깨끗한 음질의 음원을 쿼리(query)로 입력받는 경우에는 시간이나 연산량과는 무관하게 판독률은 높게 나올 수 있다. 그러나, 배경음악(background music)이나 노이즈(noise)가 많은 음원은 정확한 음원 판독이 어려운 경우가 많다.
특히, TV 음원에서 박수 소리라든가 웃음 소리와 같은 노이즈가 섞여 있는 경우에는 정확한 음원 판독이 어렵다. 이에, 이러한 소음에도 강건한 오디오 식별 수단이 요구되고 있다.
도 1 내지 도 3은 종래 기술에 따른 오디오 핑거프린트를 이용한 유사 음원 검색 방식을 나타내는 모식도이다.
도 1은 종래의 오디오 핑거프린트(audio fingerprint)를 생성하는 방식을 나타내고 있다. 먼저 쿼리(query) 음원을 스펙트로그램(spectrogram)으로 변환하고 스펙트로그램에서 특징적인 주파수(frequency)를 시간 단위로 추출하여 오디오 핑거프린트를 생성한다. 그리고 이를 데이터베이스에 저장된 수백만 레퍼런스(reference) 음원의 핑거프린트와 대비하여 유사 음원을 찾아낸다. 도 2와 도 3은 이러한 일련의 대비 과정을 나타내고 있다.
좀 더 구체적으로 보면, 도 2의 (B)에서는 유사도 매트릭스(similarity matrix)의 세로축은 쿼리 음원이고 가로축은 레퍼런스 음원이라고 할 때, 서로 일치하는 스트링(string)의 매칭 구간이 대각선 형태로 나타나게 된다.
그런데, 이러한 매칭 프로세스는 그 연산량과 시간에 있어서 엄청난 로드가 발생할 수밖에 없다. 모든 레퍼런스 음원들을 다 대비할 경우 한정된 시간 내에 음원을 정확하게 찾아낸다는 것은 매우 어려운 작업이다.
10-0862616 10-2006-0037403
본 발명의 목적은 오디오 핑거프린트 매칭 방법을 제공하는 데 있다.
상술한 본 발명의 목적에 따른 오디오 핑거프린트 매칭 방법은, 쿼리 입력 모듈(query input module)이 쿼리 음원(query audio source)을 입력받는 단계; 오디오 핑거프린트 생성 모듈(audio fingerprint generation module)이 상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 단계; 서브 핑거프린트 생성 모듈(sub-fingerprint generation module)이 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 단계; 시퀀스 매칭 모듈(sequence matching module)이 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 단계; 유사 음원 출력 모듈이 상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 단계를 포함하도록 구성될 수 있다.
여기서, 상기 서브 핑거프린트 생성 모듈이 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 단계는, 이진화부가 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트를 이진화(binarization)하고, 서브 핑거프린트 추출부가 상기 이진화부에서 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트(sub fingerprint)를 생성하고, 포인터 열 생성부가 상기 서브 핑거프린트 추출부에서 생성된 서브 핑거프린트를 지시하는 포인터(pointer)로 구성되는 포인터 열을 생성하도록 구성될 수 있다.
그리고 상기 시퀀스 매칭 모듈이 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭을 수행하여 시퀀스의 상호 일치 여부를 판단하는 단계는, 고속 근사 매칭(coarse matching)부가 상기 쿼리 음원의 포인터 열과 상기 레퍼런스 음원의 포인터 열로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 형성된 유사도 매트릭스 상에서 대각선 매칭 라인(diagonal matching line)을 형성하여 고속 근사 매칭을 수행하고, 상세 매칭(fine matching)부가 상기 고속 근사 매칭부에 의해 상기 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하도록 구성될 수 있다.
상술한 오디오 핑거프린트 매칭 방법에 의하면, 오디오 핑거프린트를 서브 핑거프린트로 분할하고 각 서브 핑거프린터를 지시할 수 있는 포인터(pointer)값을 서로 대비하여 고속 근사 매칭(coarse matching)을 우선 적용하도록 구성됨으로써, 비교적 유사도가 높은 레퍼런스 음원을 신속하고 정확하게 검색해낼 수 있으며, 소음에도 강건한 검색 능력을 갖게 되는 효과가 있다.
도 1 내지 도 3은 종래 기술에 따른 오디오 핑거프린트를 이용한 유사 음원 검색 방식을 나타내는 모식도이다.
도 4는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템의 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 서브 핑거프린트 매칭을 나타내는 모식도이다.
도 6은 본 발명의 일 실시예에 따른 고속 근사 매칭을 나타내는 모식도이다.
도 7은 본 발명의 일 실시예에 따른 유사도 매트릭스(similarity matrix)를 나타내는 예시도이다.
도 8은 본 발명의 일 실시예에 따른 상세 매칭을 나타내는 모식도이다.
도 9는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 방법의 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 4는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템의 블록 구성도이다. 그리고 도 5는 본 발명의 일 실시예에 따른 서브 핑거프린트 매칭을 나타내는 모식도이고, 도 6은 본 발명의 일 실시예에 따른 고속 근사 매칭을 나타내는 모식도이고, 도 7은 본 발명의 일 실시예에 따른 유사도 매트릭스(similarity matrix)를 나타내는 예시도이며, 도 8은 본 발명의 일 실시예에 따른 상세 매칭을 나타내는 모식도이다.
먼저 도 4를 참조하면, 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 시스템(audio fingerprint matching system)(100)은 레퍼런스 데이터베이스(reference database)(110), 오디오 핑거프린트 생성 모듈(audio fingerprint generation module)(120), 서브 핑거프린트 생성 모듈(sub fingerprint generation module)(130), 시퀀스 매칭 모듈(sequence matching module)(140), 유사 음원 출력 모듈(150)을 포함하도록 구성될 수 있다.
오디오 핑거프린트 매칭 시스템(100)은 오디오 핑거프린트를 이진화(binarization)하여 서브 핑거프린트로 분할하고 그 서브프린터의 포인터(pointer)값들로 구성되는 인버트 테이블(invert table)을 이용하여 레퍼런스 음원을 상호 대비하여 검색하도록 구성된다. 연산량이 획기적으로 줄어들고 연산 시간도 축소되며, 소음에도 강건한 음원 검색이 가능해진다.
이하, 세부적인 구성에 대하여 설명한다.
레퍼런스 데이터베이스(110)는 수많은 레퍼런스 음원(reference audio source)에 대한 정보를 미리 저장하도록 구성될 수 있다.
레퍼런스 데이터베이스(110)는 종래와 달리 레퍼런스 음원의 오디오 핑거프린트뿐만 아니라 이로부터 생성되는 서브 핑거프린트를 미리 저장하도록 구성될 수 있다.
서브 핑거프린트는 오디오 핑거프린트가 분할되어 생성되는 구성이다.
먼저 오디오 핑거프린트를 이진화(binarization)한 후, 이진 코드를 소정 비트(bit)수 단위로 분할하여 서브 핑거프린트가 생성될 수 있다. 이때, 도 5에서 보듯이 10개의 비트로 구성되는 서브 핑거프린트가 생성될 수 있으며, 각 서브 핑거프린트는 서로 일정 비트수만큼 겹치도록 생성될 수 있다.
여기서, 서브 핑거프린트는 10개의 비트로 구성되는 경우 총 1024개의 경우의 수가 생길 수 있다. 이때, 각 서브 핑거프린트에 대해 각 서브 핑거프린트를 지시하는 하나의 값, 포인터(pointer)로 대체할 수 있다. 포인터는 1024개가 있을 수 있고, 각 서브 핑거프린트는 1024개의 포인터 중 어느 하나로 순차적으로 대체될 수 있다. 서브 핑거프린트와 해당 포인터를 서로 대응시키는 인버트 테이블(invert table)을 이용하여 각 서브 핑거프린트를 포인터로 표현할 수 있다.
레퍼런스 데이터베이스(110)에는 각 레퍼런스 음원의 오디오 핑거프린트에 대해 각 서브 핑거프린트의 포인터들로 표현되는 데이터가 미리 저장될 수 있다. 쿼리 음원(query audio source)에 대해서도 이러한 각 서브 핑거프린터의 포인터들과 대비되면 신속하고 정확하게 레퍼런스 음원이 검색될 수 있다.
쿼리 음원에는 박수 소리, 소음, 말 소리, 차 소리 등과 같은 다양한 소음이 섞여 있게 되는데, 서로 이웃하는 서브 핑거프린트를 서로 일정 비트수가 겹치게 생성하면, 이러한 소음에도 매우 강건한 대비 알고리즘이 될 수 있다.
쿼리 입력 모듈(120)은 쿼리 음원을 입력받도록 구성될 수 있다. 쿼리 음원은 TV(television)에 나오는 배경 음악(background music), 음악 쇼의 생방송 음악 등 그 제한이 없다.
오디오 핑거프린트 생성 모듈(130)은 쿼리 입력 모듈(120)에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하도록 구성될 수 있다. 오디오 핑거프린트는 도 2의 과정을 통해 생성될 수 있다.
서브 핑거프린트 생성 모듈(130)은 쿼리 음원의 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하도록 구성될 수 있다. 엄격하게는 서브 핑거프린트들을 각각 지시하는 포인터(pointer) 열을 생성하도록 구성될 수 있다.
서브 핑거프린트 생성 모듈(130)은 이진화부(131), 서브 핑거프린트 추출부(132), 포인터 열 생성부(133)를 포함하도록 구성될 수 있다.
여기서, 이진화부(131)는 쿼리 음원의 오디오 핑거프린트를 이진화하여 이진 코드로 변환하여 출력하도록 구성될 수 있다. 그리고 서브 핑거프린트 추출부(132)는 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트를 생성하도록 구성될 수 있다. 이때, 도 5에서는 10 비트 단위로 서브 핑거프린트를 추출하는 것을 예시하고 있다. 그리고 서브 핑거프린트를 순차적으로 추출되는 과정에서 서로 몇 비트씩 겹치도록 구성될 수 있다. 도 5에서는 3 비트씩 겹치게 추출되는 과정을 나타낸다. 쿼리 음원에는 소음에 의한 에러 비트(error bit)가 발생할 수 있기 때문에 이를 고려하여 3 비트씩 겹치게 추출하여 소음에 강건한 검색 수단을 제공한다. 한편, 서브 핑거프린트가 10 비트로 구성된 경우 이진 코드로 구성되는 서브 핑거프린트의 경우의 수는 1024가지이다. 포인터 열 생성부(133)는 이러한 1024가지의 서브 핑거프린트를 미리 구비된 인버트 테이블(invert table) 상에서 1024개의 포인터(pointer)로 변환할 수 있다. 이러한 1024가지의 포인터는 각 서브 핑거프린트에 대해 인버트 테이블을 이용하여 인버팅(inverting)되어 서브 핑거프린트 열을 나타내는 포인터 열로 표현될 수 있다. 많은 데이터량을 갖는 오디오 핑거프린트에 비해 매우 간단한 값으로 변환되어 있음을 알 수 있다.
시퀀스 매칭 모듈(140)은 서브 핑거프린트 생성 모듈(130)에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스(110)에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하도록 구성될 수 있다.
시퀀스 매칭 모듈(140)은 고속 근사 매칭부(141), 상세 매칭부(142)를 포함하도록 구성될 수 있다.
고속 근사 매칭부(141)는 도 6과 같이 쿼리 음원의 포인터와 레퍼런스 음원의 포인터가 양축으로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 유사도 매트릭스 상에서 서로 일치되는 포인터값을 갖는 영역을 찾아내도록 구성될 수 있다. 이러한 부분은 유사도 매트릭스의 여러 곳에서 점으로 나타날 수 있으며, 쿼리 음원의 소음에 의한 에러 비트로 인해 여러 곳에서 오검출될 수 있다.
포인터 열이 양축에서 순차적으로 설정될 때, 양 음원의 유사한 부분은 대각선 매칭 라인(diagonal matching line)으로 나타나게 된다. 매우 신속하고 정확하게 근사 매칭을 수행할 수 있다.
그리고 고속 근사 매칭부(141)에 의해 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 상세 매칭부(142)는 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하도록 구성될 수 있다.
도 8에서 보듯이 먼저 대각선 매칭 라인에서 각 점들의 대각선 매칭 라인 위/아래 근방에 대한 해밍(hamming) 거리를 계산하여 대각선 매칭 라인을 확장한다. 그리고 그 점들의 수를 누적하여 피크(peak)를 검출한 후 후보 대각선을 산출한다. 그리고 그 후보 대각선에 대해서 로컬 엣지(local edge)를 검출(detect)하고 이들을 병합(merge)한 후 검증(verification)하여 상세 매칭을 수행한다.
유사 음원 출력 모듈(150)은 시퀀스 매칭 모듈(140)에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하도록 구성될 수 있다. 레퍼런스 음원에 대한 제목, 코드 등의 기본 정보를 출력할 수 있다.
도 9는 본 발명의 일 실시예에 따른 오디오 핑거프린트 매칭 방법의 흐름도이다.
도 9를 참조하면, 쿼리 입력 모듈(120)이 쿼리 음원을 입력받는다(S101).
다음으로, 오디오 핑거프린트 생성 모듈(130)이 쿼리 입력 모듈(120)에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성한다(S102).
다음으로, 서브 핑거프린트 생성 모듈(140)이 오디오 핑거프린트 생성 모듈(130)에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성한다(S103).
여기서, 이진화부(141)가 오디오 핑거프린트 생성 모듈(130)에서 생성된 오디오 핑거프린트를 이진화하고, 서브 핑거프린트 추출부(142)가 이진화부에서 이진화된 오디오 핑거프린트를 소정 비트수 단위로 순차적으로 추출하여 서브 핑거프린트를 생성하고, 포인터 열 생성부(143)가 서브 핑거프린트 추출부(142)에서 생성된 서브 핑거프린트를 지시하는 포인터로 구성되는 포인터 열을 생성하도록 구성될 수 있다.
다음으로, 시퀀스 매칭 모듈(150)이 서브 핑거프린트 생성 모듈(140)에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스(110)에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭을 수행하여 시퀀스의 상호 일치 여부를 판단한다(S104).
이때, 고속 근사 매칭부(151)가 쿼리 음원의 포인터 열과 레퍼런스 음원의 포인터 열로 구성되는 유사도 매트릭스를 형성하고 형성된 유사도 매트릭스 상에서 대각선 매칭 라인을 형성하여 고속 근사 매칭을 수행하고, 상세 매칭부(152)가 고속 근사 매칭부(151)에 의해 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 대각선 매칭 라인에 대해 로컬 엣지 검출을 통해 상세 매칭을 수행하도록 구성될 수 있다.
다음으로, 유사 음원 출력 모듈(160)이 시퀀스 매칭 모듈(150)에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력한다(S105).
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 레퍼런스 데이터베이스
120: 오디오 핑거프린트 생성 모듈
130: 서브 핑거프린트 생성 모듈
131: 이진화부
132: 서브 핑거프린트 추출부
133: 포인터 열 생성부
140: 시퀀스 매칭 모듈
141: 고속 근사 매칭부
142: 상세 매칭부
150: 유사 음원 출력 모듈

Claims (3)

  1. 쿼리 입력 모듈(query input module)이 쿼리 음원(query audio source)을 입력받는 단계;
    오디오 핑거프린트 생성 모듈(audio fingerprint generation module)이 상기 쿼리 입력 모듈에서 입력받은 쿼리 음원으로부터 오디오 핑거프린트를 생성하는 단계;
    서브 핑거프린트 생성 모듈(sub-fingerprint generation module)이 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 단계;
    시퀀스 매칭 모듈(sequence matching module)이 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭(sequence matching)을 수행하여 시퀀스의 상호 일치 여부를 판단하는 단계;
    유사 음원 출력 모듈이 상기 시퀀스 매칭 모듈에서 판단된 상호 일치 여부에 따라 쿼리 음원에 상응하는 레퍼런스 음원을 출력하는 단계를 포함하는 오디오 핑거프린트 매칭 방법.
  2. 제1항에 있어서, 상기 서브 핑거프린트 생성 모듈이 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트로부터 서브 핑거프린트를 추출하여 생성하는 단계는,
    이진화부가 상기 오디오 핑거프린트 생성 모듈에서 생성된 오디오 핑거프린트를 이진화(binarization)하고, 서브 핑거프린트 추출부가 상기 이진화부에서 이진화된 오디오 핑거프린트를 소정 비트(bit)수 단위로 순차적으로 추출하여 서브 핑거프린트(sub fingerprint)를 생성하고, 포인터 열 생성부가 상기 서브 핑거프린트 추출부에서 생성된 서브 핑거프린트를 지시하는 포인터(pointer)로 구성되는 포인터 열을 생성하도록 구성되는 것을 특징으로 하는 오디오 핑거프린트 매칭 방법.
  3. 제2항에 있어서, 상기 시퀀스 매칭 모듈이 상기 서브 핑거프린트 생성 모듈에서 생성된 서브 핑거프린트 및 레퍼런스 데이터베이스에 미리 저장된 레퍼런스 음원의 서브 핑거프린트 간에 시퀀스 매칭을 수행하여 시퀀스의 상호 일치 여부를 판단하는 단계는,
    고속 근사 매칭(coarse matching)부가 상기 쿼리 음원의 포인터 열과 상기 레퍼런스 음원의 포인터 열로 구성되는 유사도 매트릭스(similarity matrix)를 형성하고 형성된 유사도 매트릭스 상에서 대각선 매칭 라인(diagonal matching line)을 형성하여 고속 근사 매칭을 수행하고, 상세 매칭(fine matching)부가 상기 고속 근사 매칭부에 의해 상기 유사도 매트릭스 상에서 대각선 매칭 라인이 형성된 경우, 대각선 매칭 라인에 대해 로컬 엣지 검출(local edge detection)을 통해 상세 매칭을 수행하도록 구성되는 것을 특징으로 하는 오디오 핑거프린트 매칭 방법.
KR1020170146711A 2017-11-06 2017-11-06 오디오 핑거프린트 매칭 방법 KR102037221B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170146711A KR102037221B1 (ko) 2017-11-06 2017-11-06 오디오 핑거프린트 매칭 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170146711A KR102037221B1 (ko) 2017-11-06 2017-11-06 오디오 핑거프린트 매칭 방법

Publications (2)

Publication Number Publication Date
KR20190051265A true KR20190051265A (ko) 2019-05-15
KR102037221B1 KR102037221B1 (ko) 2019-10-29

Family

ID=66579810

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170146711A KR102037221B1 (ko) 2017-11-06 2017-11-06 오디오 핑거프린트 매칭 방법

Country Status (1)

Country Link
KR (1) KR102037221B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220035635A (ko) * 2020-09-14 2022-03-22 네이버 주식회사 음원을 검출하기 위한 전자 장치 및 그의 동작 방법
KR20220067169A (ko) * 2020-11-17 2022-05-24 주식회사 샵캐스트 오디오 핑거 프린트 매칭 시스템 및 방법
KR20220076919A (ko) * 2020-12-01 2022-06-08 주식회사 원아이디랩 병렬 연산을 이용한 중복 음원 검출 장치 및 중복 음원 검출 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060037403A (ko) 2003-07-25 2006-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 및 비디오를 동기화시키기 위하여 핑거프린트들을생성하여 검출하는 방법 및 장치
KR100862616B1 (ko) 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060037403A (ko) 2003-07-25 2006-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 및 비디오를 동기화시키기 위하여 핑거프린트들을생성하여 검출하는 방법 및 장치
KR100862616B1 (ko) 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220035635A (ko) * 2020-09-14 2022-03-22 네이버 주식회사 음원을 검출하기 위한 전자 장치 및 그의 동작 방법
KR20220067169A (ko) * 2020-11-17 2022-05-24 주식회사 샵캐스트 오디오 핑거 프린트 매칭 시스템 및 방법
KR20220076919A (ko) * 2020-12-01 2022-06-08 주식회사 원아이디랩 병렬 연산을 이용한 중복 음원 검출 장치 및 중복 음원 검출 방법

Also Published As

Publication number Publication date
KR102037221B1 (ko) 2019-10-29

Similar Documents

Publication Publication Date Title
TWI447601B (zh) 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術
JP5710604B2 (ja) ウォーターマーキングとフィンガープリンティングとの組合せ
US8254692B2 (en) Document comparison method and apparatus
KR102037221B1 (ko) 오디오 핑거프린트 매칭 방법
KR102037220B1 (ko) 오디오 핑거프린트 매칭 시스템
CN107229627B (zh) 一种文本处理方法、装置及计算设备
US20080263021A1 (en) Methods of object search and recognition
US10614312B2 (en) Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor
WO2005101243A1 (en) Method and apparatus for identifying audio such as music
CN110321913B (zh) 一种文本识别方法及装置
CN100474331C (zh) 字符串识别装置
US20130246066A1 (en) Method and apparatus for providing services using voice recognition in pos system
Saracoglu et al. Content based copy detection with coarse audio-visual fingerprints
CN115205766A (zh) 基于区块链的网络安全异常视频大数据检测方法及系统
Ouali et al. Fast audio fingerprinting system using GPU and a clustering-based technique
KR101749210B1 (ko) 다중 서열 정렬 기법을 이용한 악성코드 패밀리 시그니쳐 생성 장치 및 방법
US11341747B2 (en) Generation of video hash
JP2010182238A (ja) 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
JP4394083B2 (ja) 信号検出装置、信号検出方法、信号検出プログラム及び記録媒体
CN112698883A (zh) 一种配置数据处理方法、装置、终端和存储介质
KR102533833B1 (ko) 배송 주소를 번역하여 배송원에게 제공할 수 있는 배송 주소 번역 서버 및 그 동작 방법
JP3188154B2 (ja) 文字認識処理方法
Fabris et al. A multi-measure nearest neighbor algorithm for time series classification
Gudkov Fast Identification of Fingerprint

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant