KR101302568B1

KR101302568B1 - 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법

Info

Publication number: KR101302568B1
Application number: KR1020110145573A
Authority: KR
Inventors: 송재종; 이석필; 양창모; 신사임; 박강령; 남기표; 누엉티투창; 남현하
Original assignee: 전자부품연구원
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2013-09-02
Also published as: KR20130077064A

Abstract

허밍 질의 기반 음원 검색 고속화 방법이 개시된다. 이 방법은 입력 허밍과 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하는 단계, 상기 탐색된 포인트와 관련된 특징 정보를 상기 입력 허밍과 상기 음원에서 각각 추출하는 단계, 상기 추출된 입력 허밍의 특징 정보와 상기 추출된 음원의 특징 정보에 기반하여 상기 입력 허밍과 상기 음원의 거리를 측정하는 단계, 및 상기 측정된 거리가 임계치 미만이면, 상기 입력 허밍과 상기 음원에서 추출된 음의 높이 값들을 가지고 DTW(Dynamic Time Warping) 매칭을 수행하는 단계를 포함한다. 이에 의해 고속으로 음원 검색 결과를 제공하는 것이 가능해진다.

Description

허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법{Fast music information retrieval system based on query by humming and method thereof}

본 발명은 음원 검색에 관한 것으로, 특히 허밍을 질의로 입력받아 음원을 검색하는 기술에 관한 것이다.

웹의 급속한 발전과 더불어 기존 텍스트 기반의 콘텐츠가 멀티미디어 형태로 변화됨에 따라 멀티미디어 정보의 생성 및 처리와 더불어 필요한 정보를 효과적으로 검색할 수 있는 방법이 요구된다. 멀티미디어 데이터 중 오디오 데이터의 특징 정보를 기반으로 한 오디오 검색 방법에 대해서는 점차적으로 연구가 진행중이나 사람의 허밍 질의를 이용한 음악 데이터에 대한 연구는 사람이 재생해 내는 허밍 질의의 불확실성에 의해서 기존 오디오 데이터의 검색 방법이 그대로 적용되기 어려운 부분들이 있다.

사람들은 일반적으로 자신이 기억하고 있는 선율과 연관된 곡의 작곡가, 가수, 노래 제목, 가사와 같은 메타데이터를 정확하게 기억하지 못하는 경우가 많다. 선율 정보와 선율이 포함된 곡의 메타 정보들은 사용자가 관심을 갖지 않는 이상 명확하게 연관지어 기억해 내기 힘들며, 반대로 음악의 제목을 알더라도 그 선율 정보를 기억하기 어려울 수 있다. 따라서 선율 정보와 선율이 포함된 곡의 메타데이터를 사용자가 보다 용이하게 검색하기 위해서 사용자의 허밍 정보로 해당 곡의 메타데이터를 검색할 수 있는 방법이 요구된다.

또한 사용자는 특정 곡의 선율을 기억할 때, 악보의 기보된 형태로 음표의 높이(Pitch)와 지속 시간(Duration)의 조합으로서 선율을 기억하지 않는다. 일반적으로 사용자는 음조의 곡선(Counter)을 본능적으로 기억하기 때문에 이러한 기억을 기반으로 발성되는 사용자의 허밍 정보는 여러 가지 특징들을 내포하고 있다. 따라서 사용자의 허밍을 질의로 사용하는 허밍 기반의 음악 검색 시스템에서는 어려 가지 특징들이 고려되어야 한다.

한편, 종래에 질의로 입력된 허밍 및 음원으로부터 추출된 특징 데이터들을 DTW(Dynamic Time Warping) 알고리즘을 사용하여 유사도를 측정함으로써, 매칭의 성공 여부를 결정하는 방법이 알려져 있다. 이 방법에서는 입력된 허밍으로부터 추출된 음의 높이 정보와 데이터베이스에 저장되어 있는 각 음원의 음의 높이 정보를 DTW 알고리즘을 통해 허밍과 각 음원과의 거리를 계산하며, 계산된 거리가 가장 가까운 음원을 입력 허밍과 일치하는 음원으로 결정한다. (Gi Pyo Nam et al., A new query-by-humming system based on the score level fusion of two classifiers, INTERNATIONAL JOURNAL OF COMMUNICATION SYSTEMS, Int. J. Commun. Syst. (2010))

종래의 다른 기술로는 DTW와 EMD(Earth Mover's Distance) 방법의 계층적 결합을 이용한 유사도 측정 방법이 알려져 있다. 이 방법에서는 입력된 허밍으로부터 음의 높이 정보를 추출하여 EMD 알고리즘을 통해 데이터베이스에 저장되어 있는 음원과의 비용을 구하고, EDM 알고리즘으로 결정된 임의의 개수의 후보 곡들을 DTW 알고리즘을 사용하여 최종적인 유사도를 측정하다. 이 방법에서 EDM 알고리즘을 이용하여 최소 비용을 결정할 때, 유사도를 측정하기 위한 가중치를 변화시키면서 최적의 가중치를 결정하여 최소비용을 구하게 된다. (Gi Pyo Nam et al., Intelligent query by humming system based on score level fusion of multiple classifiers, EURASIP Journal on Advances in Signal Processing, 14 July 2011)

이 같은 기존의 방법들은 연산이 복잡한 DTW 방법 혹은 DTW와 EMD 방법의 결합을 통하여 결과값을 결정한다. 그러나 위와 같이 DTW 매칭 방법만 사용할 경우 연산이 복잡하기 때문에 상당히 큰 처리 시간이 필요로 된다. 마찬가지로 EMD와 DTW의 계층적 결합 방법 역시 EMD 방법 자체가 가지고 있는 복잡한 연산으로 인해 큰 처리 시간을 요하게 된다.

본 발명의 허밍 질의 기반 음원 검색시 연산량을 줄여 고속으로 음원 검색 결과를 제공할 수 있는 기술적 방안을 제공함을 목적으로 한다.

전술한 기술적 과제를 달성하기 위한 본 발명의 일 양상에 따른 허밍 질의 기반 음원 검색 고속화 시스템은 다수의 음원들이 저장된 데이터베이스, 및 입력 허밍과 상기 데이터베이스에 저장된 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하고, 상기 탐색된 포인트와 관련된 특징 정보를 상기 입력 허밍과 상기 음원에서 각각 추출하고, 상기 추출된 입력 허밍의 특징 정보와 상기 추출된 음원의 특징 정보에 기반하여 상기 입력 허밍과 상기 음원의 거리를 측정하며, 상기 측정된 거리가 임계치 미만일 경우에 상기 입력 허밍과 상기 음원에서 추출된 음의 높이 값들을 가지고 DTW(Dynamic Time Warping) 매칭을 수행하는 프로세서를 포함한다. DTW 매칭 수행에 있어서, 상기 프로세서는 측정된 거리가 임계치 미만일 경우에 상기 입력 허밍과 상기 일부 영역 음원의 음의 높이 곡조를 다수의 섹션으로 분할하고, 상기 섹션별 음의 높이 값을 양자화하며, 상기 양자화된 음의 높이 값들을 가지고 DTW 매칭을 수행한다.

한편, 전술한 기술적 과제를 달성하기 위한 본 발명의 일 양상에 따른 허밍 질의 기반 음원 검색 고속화 방법은 입력 허밍과 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하는 단계, 상기 탐색된 포인트와 관련된 특징 정보를 상기 입력 허밍과 상기 음원에서 각각 추출하는 단계, 상기 추출된 입력 허밍의 특징 정보와 상기 추출된 음원의 특징 정보에 기반하여 상기 입력 허밍과 상기 음원의 거리를 측정하는 단계, 및 상기 측정된 거리가 임계치 미만이면, 상기 입력 허밍과 상기 음원에서 추출된 음의 높이 값들을 가지고 DTW(Dynamic Time Warping) 매칭을 수행하는 단계를 포함한다.

나아가 상기 허밍 질의 기반 음원 검색 고속화 방법은 상기 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하기 이전에 상기 음원의 일부 영역의 길이가 상기 입력 허밍의 길이와 일치하도록 선형 스케일링(Linear Scaling) 방법을 이용하여 정규화하는 단계를 더 포함한다.

그리고 상기 추출하는 단계는 상기 탐색된 포인트로부터 현재 포인트가 최소점인지 최대점인지에 대한 정보, 다음 포인트까지의 지속시간, 현재 포인트의 음의 높이 값, 상기 탐색된 총 포인트의 개수 중 적어도 하나를 포함한다.

그리고 상기 매칭 수행 단계는 상기 입력 허밍과 상기 일부 영역 음원의 음의 높이 곡조를 다수의 섹션으로 분할하는 단계, 상기 섹션별 음의 높이 값을 양자화하는 단계, 및 상기 양자화된 음의 높이 값들을 가지고 DTW 매칭을 수행하는 단계를 포함한다.

본 발명은 QbH(Query by Humming) 시스템에서 윈도우 최소&최대값 기반 글로벌 매칭과 변형된 DTW 방법인 QDTW(Quantized Dynamic Time Warping)을 계층적으로 결합하며, 많은 연산량으로 인해 처리속도가 느린 QDTW 매칭 방법 전에 윈도우 최소&최대값 기반 글로벌한 특징을 이용한 매칭 방법을 통해 QDTW의 진행 유무를 판단하여 불필요한 매칭 영역의 경우에는 매칭 시도를 하지 않음으로써, 음원 검색 정확도를 유지하면서 고속으로 음원 검색 결과를 제공할 수 있는 효과를 창출한다.

도 1은 본 발명의 일 실시예에 따른 허밍 질의 기반 음원 검색 고속화 시스템 블록도.
도 2는 본 발명의 일 실시예에 따른 허밍 질의 기반 음원 검색 고속화 방법 흐름도.
도 3은 도 2에 도시된 S100의 구체적인 흐름도.
도 4는 도 2에 도시된 S300의 구체적인 흐름도.
도 5는 본 발명에 따른 윈도우 최소&최대값 탐색의 예를 나타낸 도면.
도 6은 본 발명에 따른 QTDW 방법의 예를 나타낸 도면.

전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 허밍 질의 기반 음원 검색 고속화 시스템 블록도이고, 도 2는 본 발명의 일 실시예에 따른 허밍 질의 기반 음원 검색 고속화 방법 흐름도이고, 도 3은 도 2에 도시된 S100의 구체적인 흐름도이며, 도 4는 도 2에 도시된 S300의 구체적인 흐름도이다.

도시된 바와 같이, 허밍 질의 기반 음원 검색 고속화 시스템은 데이터베이스(100) 및 프로세서(200)를 포함한다. 데이터베이스(100)에는 다수의 음원들이 저장된다. 프로세서(200)는 질의 입력된 허밍에 해당하는 음원을 데이터베이스(100)에서 검색하기 위한 글로벌 매칭 및 QDTW 매칭을 수행한다. 바람직하게, 프로세서(200)는 글로벌 매칭 및 QDTW 알고리즘 전에 입력 허밍과 음원의 정규화를 수행한다. 이에 대해 설명하면, 우선 음원의 경우 묵음구간이 존재하지 않기 때문에, 추출된 특징에서 음의 높이 값이 0인 구간이 존재하지 않는다. 반면에, 입력 허밍의 경우 묵음 구간이 존재할 수 있기 때문에, 그 구간들은 음의 높이 값이 0으로 표현되고 이는 아무런 정보도 포함하지 않기 때문에, 입력 허밍에서 추출된 음의 높이 값 중 0인 구간은 제거를 한다. 그 다음, 프로세서(200)는 피크 잡음이나 음성의 떨림으로 인한 잡음 등을 제거하기 위하여 Median 필터링과 Average 필터링 과정을 수행한다. 마지막으로, 입력 허밍과 매칭 윈도우 내에 있는 음원의 특징들의 범위를 맞추어 주기 위하여, 추출된 음의 높이값의 최소값과 최대값을 추출하여 -5부터 5까지의 범위로 정규화한다. 참고로, 이에 대해서는 한국등록특허 제10-0978914호에 상세히 기술되어 있다.

프로세서(200)는 윈도우 최소&최대값 기반 글로벌 매칭을 수행한다(S100). S100에 대해 도 3과 도 5를 참조하여 구체적으로 설명하면 다음과 같다. 우선, 프로세서(200)는 입력 허밍과 데이터베이스(100)에 저장된 다수의 음원들 중 어느 하나의 음원에서 상기 입력 허밍과 비교하고자 하는 음원의 일부 영역에 대해 매칭을 수행하는데, 음원의 일부 영역이 입력 허밍보다 길 경우 입력 허밍의 윈도우 길이와 같도록 음원의 일부 영역을 정규화한다(S110). 일 실시예에 있어서, 프로세서(200)는 선형 스케일링(Linear Scaling) 방법을 사용하여 음원의 일부 영역을 정규화한다. 프로세서(200)는 입력 허밍과 정규화된 음원 일부 영역에서 음의 높이 값 변화 포인트를 탐색한다(S120). 여기서 음의 높이 값 변화의 기준은 적절한 값이 설정될 수 있으며, 도 5에서는 음의 높이 데이터 1을 음의 높이 값 변화의 기준으로 예시하고 있다. 그리고 윈도우 최소&최대값은 도 5와 같이 입력 허밍 및 음원의 음의 높이 곡조 내에서 급격하게 값이 변화하는 포인트, 즉 음 변화가 일어나는 포인트에서의 값을 의미한다.

포인트 탐색 후, 프로세서(200)는 탐색 포인트에 관련된 특징 정보를 추출한다(S130). 일 실시예에 있어서, 프로세서(200)는 탐색 포인트로부터 현재 포인트가 윈도우 최소점인지 최대점인지 판별, 다음 포인트까지의 지속시간, 현재 포인트의 음의 높이 값, 탐색된 총 포인트의 개수 등 특징 정보를 추출한다. 프로세서(200)는 입력 허밍 및 음원으로부터 추출된 특징 정보를 기반으로 입력 허밍과 음원과의 거리를 측정한다(S140). 거리 측정시, 프로세서(200)는 추출된 특징 정보 중 일부만을 사용하거나 전부를 사용할 수 있으며, 거리 측정법으로는 유클리디안 거리(Euclidean distance)를 사용하여 유사도를 측정할 수 있다.

프로세서(200)는 최소&최대값 글로벌 매칭의 성공 여부를 판단한다(S200). 즉, 프로세서(200)는 최소&최대값 글로벌 매칭을 통해 계산된 유클리디안 거리가 미리 정해진 임계치보다 작을 경우에는 매칭에 성공한 것으로 판단하고, 임계치보다 클 경우에는 매칭에 실패한 것으로 판단한다. 유클리디안 거리가 미리 정해진 임계치보다 작을 경우에, 프로세서(200)는 DTW 매칭 또는 QDTW 매칭을 진행한다(S300). DTW 매칭 알고리즘은 널리 알려진 바와 같으며, QDTW 매칭에 대해서는 도 4와 도 6을 참조하여 부연 설명한다. 우선, 프로세서(200)는 도 5와 같이 입력 허밍 및 음원의 음의 높이 곡조를 임의의 개수로 섹션을 분할한다(S310). 섹션의 수는 실험적으로 가장 인식률이 높을 때의 수로 결정될 수 있다. 그리고 각 섹션에는 서로 다른 정수 형태의 코드가 부여된다.

프로세서(200)는 양자화를 수행하여 섹션별 음의 높이 값들을 양자화된 정수 형태의 코드로 재표현한다(S320). 음의 높이 값들간의 연속성을 고려하여 인접 섹션 간에는 양자화 정수코드의 차이가 1이 되도록 지정될 수 있다. 양자화 후, 프로세서(200)는 재표현된 양자화 코드를 사용하여 DTW 매칭 방법을 통해 거리를 측정한다(S330). 이후, 다음 매칭 영역이 존재하면, 프로세서(200)는 피드백하여 다음 매칭 영역에 대해 상술한 과정을 수행한다(S400). 모든 매칭 영역에 대해 매칭 프로세스가 완료되면, 프로세스(200) 해당 윈도우에서의 QDTW를 통한 거리들 중 가장 작을 거리를 최종적인 결과값으로 가지게 된다. 그리고 S200에서 윈도우 최소&최대값 기반 정보를 통한 글로벌 매칭 결과를 판단하는 임계치는 QDTW 매칭 방법을 단독으로 사용했을 때의 시스템의 인식 성능을 유지할 수 있는 값으로 결정됨이 바람직하다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100 : 데이터베이스 200 : 프로세서

Claims

다수의 음원들이 저장된 데이터베이스 및 프로세서를 포함하는 시스템에 의해 수행되는 허밍 질의 기반 음원 검색 고속화 방법에 있어서, 상기 프로세서가,
입력 허밍과 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하는 단계;
상기 탐색된 포인트와 관련된 특징 정보를 상기 입력 허밍과 상기 음원에서 각각 추출하는 단계;
상기 추출된 입력 허밍의 특징 정보와 상기 추출된 음원의 특징 정보에 기반하여 상기 입력 허밍과 상기 음원의 거리를 측정하는 단계; 및
상기 측정된 거리가 임계치 미만이면, 상기 입력 허밍과 상기 음원에서 추출된 음의 높이 값들을 가지고 DTW(Dynamic Time Warping) 매칭을 수행하는 단계;
를 포함하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 방법.
제1항에 있어서,
상기 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하기 이전에 상기 음원의 일부 영역의 길이가 상기 입력 허밍의 길이와 일치하도록 선형 스케일링(Linear Scaling) 방법을 이용하여 정규화하는 단계;
를 더 포함하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 방법.
제1항에 있어서,
상기 추출하는 단계는 상기 탐색된 포인트로부터 현재 포인트가 최소점인지 최대점인지에 대한 정보, 다음 포인트까지의 지속시간, 현재 포인트의 음의 높이 값, 상기 탐색된 총 포인트의 개수 중 적어도 하나를 포함하는 특징 정보를 추출하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 방법.
제1항에 있어서,
상기 측정 단계는 유클리디안 거리측정법을 사용하여 상기 거리를 측정하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 매칭 수행 단계는 :
상기 입력 허밍과 상기 일부 영역 음원의 음의 높이 곡조를 다수의 섹션으로 분할하는 단계;
상기 섹션별 음의 높이 값을 양자화하는 단계; 및
상기 양자화된 음의 높이 값들을 가지고 DTW 매칭을 수행하는 단계;
를 포함하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 방법.
다수의 음원들이 저장된 데이터베이스; 및
입력 허밍과 상기 데이터베이스에 저장된 음원의 일부 영역에서 음의 높이 값 변화 포인트를 탐색하고, 상기 탐색된 포인트와 관련된 특징 정보를 상기 입력 허밍과 상기 음원에서 각각 추출하고, 상기 추출된 입력 허밍의 특징 정보와 상기 추출된 음원의 특징 정보에 기반하여 상기 입력 허밍과 상기 음원의 거리를 측정하며, 상기 측정된 거리가 임계치 미만일 경우에 상기 입력 허밍과 상기 음원에서 추출된 음의 높이 값들을 가지고 DTW(Dynamic Time Warping) 매칭을 수행하는 프로세서;
를 포함하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 시스템.
제6항에 있어서,
상기 프로세서는 상기 탐색된 포인트로부터 현재 포인트가 최소점인지 최대점인지에 대한 정보, 다음 포인트까지의 지속시간, 현재 포인트의 음의 높이 값, 상기 탐색된 총 포인트의 개수 중 적어도 하나를 포함하는 특징 정보를 추출하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 시스템.
제6항 또는 제7항에 있어서,
상기 프로세서는 측정된 거리가 임계치 미만일 경우에 상기 입력 허밍과 상기 일부 영역 음원의 음의 높이 곡조를 다수의 섹션으로 분할하고, 상기 섹션별 음의 높이 값을 양자화하며, 상기 양자화된 음의 높이 값들을 가지고 DTW 매칭을 수행하는 것을 특징으로 하는 허밍 질의 기반 음원 검색 고속화 시스템.