KR100978914B1

KR100978914B1 - Ｓｖｒ 기반 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템 및 방법

Info

Publication number: KR100978914B1
Application number: KR1020090133973A
Authority: KR
Inventors: 박성주; 양창모; 이석필; 김재희; 남기표; 남윤석; 윤기선; 이종환
Original assignee: 전자부품연구원
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2010-08-31

Abstract

본 발명은 SVR 기반의 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템 및 방법에 관한 것으로서, 보다 상세하게는 허밍과 같은 오디오 신호를 입력 받아 이를 필터링하고 정규화하며, 정규화 된 오디오 신호의 다양한 피치 특성들에 복 수의 DTW 매칭 알고리즘을 적용하여 산출된 매칭스코어들을 SVR을 통해 결합하여 입력된 오디오 신호와 일치하는 음원을 데이터베이스로부터 검색하는 시스템 및 방법에 관한 것이다.

본 발명의 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템은,오디오 신호를 입력 받기 위한 오디오 신호 입력부와, 오디오 신호를 분석하여 오디오 신호의 특징을 추출하는 오디오 신호 분석부와, 오디오 신호의 특징을 고려하여 오디오 신호를 보정하는 오디오 신호 보정부와, 보정된 오디오 신호의 특징을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 보정된 오디오 신호의 특징들 간의 차이 값들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제2출력값을 산출하고, 제1출력값 및 제2출력값을 결합하여 유사도 측정값을 산출하며, 산출된 유사도 측정값을 이용하여 유사도가 높은 음원을 음원 데이터베이스로부터 검색하여 추출해 내는 오디오 신호 매칭검색부를 포함하여 이루어질 수 있다.

SVR, DP 매칭, 매칭 스코어, 음원 검색, 허밍

Description

ＳＶＲ 기반 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템 및 방법{ＡＱＵＥＲＹＢＹＨＵＭＭＩＮＧＳＹＳＴＥＭＵＳＩＮＧＰＬＵＲＡＬＭＡＴＣＨＩＮＧＡＬＧＯＲＩＴＨＭＢＡＳＥＤＯＮＳＶＲ}

종래의 음원 검색 방법은 입력된 허밍 멜로디에서 각 음표 간 상대화 값을 취하여 심볼 멜로디(Symbol Melody) 시퀀스를 생성하고, 동적 프로그래밍(DP)매칭을 이용하여 데이터베이스에 저장되어 있는 음원과의 특징값과 유사도를 측정하고 정합의 성공 여부를 결정한다.

이러한 방법에서 멜로디 유사도 계산기는 입력된 심볼 멜로디 시퀀스와 메타 데이터 DB에 있는 각 오디오의 특징값과의 유사도를 계산한다. 이때, 유사도는 DP 매칭을 이용하여 두 벡터 사이의 거리를 측정하는 유클리디안(Euclidean)거리나 절대 차이값의 합(Sum of absolute difference)등의 방법을 사용한다. 이후에 거리 기반 분류기에서는 계산된 거리 정보들을 거리 값이 가장 작은 순서로 정렬(sorting)함으로서, 해당하는 메타데이터 정보를 메타데이터 DB에서 추출하여 검색결과 정보로서 인터넷을 통해 클라이언트 측으로 전달한다.

종래의 음원 검색 방법 중 다른 하나로는 입력된 멜로디의 주파수 스펙트럼 에너지 분포(Spectrum Energy Distribution)의 변화나 차이점들을 이용하여 특이점(breakpoint)을 설정하고 여기를 기준으로 입력 멜로디를 명확한 음들로 변환하거나 또는 음 높이들의 변화들로 나타낸다. 신뢰수준(confidence level)은 피치의 변화, 스펙트럼 에너지 분포(Spectrum Energy Distribution)의 indicator 값, 입력 멜로디의 에너지 수준에 따라서 결정된다. 매칭 과정은 음표들을 삽입하고 삭제했을 때 발생되는 오차와, 신뢰수준과 관련된 오차를 최소화하는 방식으로 이루어진다.

이 방법에서 사용된 중요한 특징은 instrumentation과 beat이다. Instrumentation 측정을 위해서 EMD (Earth Mover's Distance)라는 스펙트럼 기반의 거리측정 방법을 사용하였고, beat를 위해서는 박자 기반의 측정(rythmic based measure) 방법을 사용하였다. 이 두 방법으로부터 측정된 값에 가중치를 부여하여 유사도를 측정한다.

또 다른 방법에서는 humming에서 피치추출기(pitch tracker)와 특징 변환기(feature converter)를 통해 특징을 추출하여, 멜로디 데이터베이스의 템플릿과 정합함으로써 유사도를 측정한다.

이 방법에서는 먼저 EMD 알고리즘을 이용하여 거리를 측정하고, 거리값에 대한 오름차순으로 정렬하여 임계치를 정한다. 정해진 임계치보다 작은 후보들을 제외한 나머지들은 제거된다. 그 후 후보로 지정된 것들에 대하여 DTW (Dynamic Time Warping) 알고리즘을 통한 정합을 수행하여 가장 작은 거리값을 가지는 것을 데이터베이스에서 선택한다.

기존 관련 방법은 매칭 단계에서, 단순한 방법의 유클리디안 거리나 절대 차이값의 합을 사용하거나, 두 개 이상의 측정 방법을 사용해 나온 매칭 스코어(유사도 결과값)를 특정 규칙에 따라 가중치 합으로 결합하는 방법, 또는 순차적으로 매칭 알고리즘을 적용하여 검색해야할 후보군을 감소시키는 방법으로 결합하여 사용하였다.

하지만, 단순한 유클리디안 거리나, 절대 차이값을 사용하는 경우에는 특징값이 손실된 경우 및 특징값에 외부 잡음이 포함된 경우에 민감하기 때문에, QbH(Query by humming) 시스템에서 특징값을 단독적으로 사용하게 되면 많은 매칭 에러를 발생시킬 수 있다. 또한 두 개 이상의 측정 방법을 사용해 나온 매칭 스코어를 특정 규칙에 따라 가중치 합으로 결합하는 방법의 경우는 명백한 이론적 근거보다는 각 측정방법의 정확도를 기반으로 무엇이 더 뛰어나느냐 하는 단순 비교가 전부이므로 결과 해석이 정확하지 않은 문제점이 있다. 그리고 순차적으로 매칭 알고리즘을 적용하여 검색해야할 후보군을 감소시키는 방법의 경우에는 단일 임계치를 기준으로 하거나 혹은 전 단계에서 후보가 아닌 음원들을 아예 제외시키는 경우가 발생할 수 있는데, 이 경우 전 단계에서의 음원 제외 정확도가 100%가 아니라면, 때에 따라서 입력 허밍과 맞는 음원 후보가 전단계에서 잘못 제외되어 아예 검색되지 않는 위험부담이 존재하게 된다.

상기의 문제점을 해결하기 위하여 본 발명에서는 피치를 이용한 DP Matching, 앞뒤 간 인접하는 피치 간의 차이값을 이용한 DP Matching, 첫 음과의 피치 차이를 이용한 DP Matching 등으로부터 계산된 3가지 매칭 스코어(score)들을 SVR로 결합함으로써 위와 같은 기존 방법들의 문제점을 해결하고자 한다.

또한, QbH 시스템에서 피치를 이용한 DP Matching, 앞뒤 간 피치 값 차이를 이용한 DP Matching, 첫 음과의 피치 차이를 이용한 DP Matching 등으로부터 계산된 3가지 매칭 스코어(score)들을 SVR로 결합함으로써, 하나의 매칭 스코어를 사용할 때 보다 정확한 검색 결과를 제공하는 것을 본 발명의 목적으로 한다.

상술한 목적을 달성하기 위한 본 발명의 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템은,오디오 신호를 입력 받기 위한 오디오 신호 입력부와, 오디오 신호를 분석하여 오디오 신호의 특징을 추출하는 오디오 신호 분석부와, 오디오 신호의 특징을 고려하여 오디오 신호를 보정하는 오디오 신호 보정부와, 보정된 오디오 신호의 특징을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 보정된 오디오 신호의 특징들 간의 차이 값들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제2출력값을 산출하고, 제1출력값 및 제2출력값을 결합하여 유사도 측정값을 산출하며, 산출된 유사도 측정값을 이용하여 유사도가 높은 음원을 음원 데이터베이스로부터 검색하여 추출해 내는 오디오 신호 매칭검색부를 포함 하여 이루어질 수 있다.

또한 전술한 구성에서, 오디오 신호 보정부는,

분석된 오디오 신호에서 피치가 제로인 음을 제거하는 제로제거부를 더 포함할 수 있다.

또한 전술한 구성에서, 오디오 신호 보정부는,

분석된 오디오 신호에 대하여 소정의 필터길이 단위로 소정의 필터링을 수행하는 필터부를 포함할 수 있다.

또한 전술한 구성에서, 필터부는,

분석된 오디오 신호에 대하여 소정의 필터길이 단위로 메디안 필터링을 수행하는 메디안 필터부와, 메디안 필터링이 적용된 오디오 신호에 대하여 소정의 필터길이 단위로 평균 필터링을 수행하는 평균 필터부를 포함할 수 있다.

또한 전술한 구성에서, 오디오 신호 보정부는,

피치의 최대값과 최소값을 이용하여 필터링된 오디오 신호의 피치값을 스케일링하여 정규화하는 스케일링부를 더 포함할 수 있다.

또한 전술한 구성에서, 보정된 오디오 신호의 특징은 보정된 오디오 신호의 피치값들을 포함하고,

오디오 신호 매칭검색부는, 보정된 오디오 신호의 피치값들을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 상기 보정된 오디오 신호의 인접하는 피치들 간의 차이값들의 배열을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제2출력값을 산출하고, 상기 보정된 오디오 신호의 피치들과 첫 번째 피치와의 차이값들의 배열을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제3출력값을 산출하며, 제1출력값, 제2출력값 및 제3출력값을 결합하여 상기 유사도 측정값을 산출할 수 있다.

또한 전술한 구성에서, 오디오 신호 매칭검색부는,

상기 매칭 알고리즘들을 적용하여 산출된 적어도 2 이상의 출력들을 입력받아 SVR(Support Vector Regression)을 이용하여 결합함으로써 유사도 측정값을 출력으로 생성할 수 있다.

또한 상술한 목적을 달성하기 위한 본 발명의 복수의 매칭 알고리즘을 결합한 음원 검색 방법은, 오디오 신호를 입력 받는 단계와, 오디오 신호를 분석하여 오디오 신호의 특징을 추출하는 단계와, 분석된 오디오 신호에서 추출된 특징을 고려하여 오디오 신호를 보정하는 단계와, 보정된 오디오 신호의 피치들에 대하여 피치들 간의 차이 값들을 산출하는 단계와, 보정된 오디오 신호의 피치들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 산출된 피치들 간의 차이 값들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제2출력값을 산출하는 단계와, 제1출력값 및 제2출력값을 결합하여 산출된 유사도 측정값을 이용하여 입력된 오디오 신호와 유사도가 높은 음원을 음원 데이터베이스로부터 검색하여 추출해 내는 단계를 포함할 수 있다.

또한 전술한 구성에서, 오디오 신호를 보정하는 단계는,

분석된 오디오 신호로부터 피치가 제로인 음을 제거하는 단계와, 제로인 음 이 제거된 오디오 신호를 소정의 필터길이 단위로 메디안 필터링을 수행하는 단계와, 메디안 필터링이 적용된 오디오 신호에 대하여 소정의 필터길이 단위로 평균 필터링을 수행하는 단계와, 피치의 최대값과 최소값을 이용하여 필터링된 오디오 신호의 피치값을 스케일링하는 단계를 포함할 수 있다.

또한 전술한 구성에서, 피치들 간의 차이 값들은,

2개의 인접하는 피치들 간의 차이값들이거나, 상기 보정된 오디오 신호의 첫 번째음과 다른 피치들 간의 차이값들인 것을 특징으로 할 수 있다.

또한 전술한 구성에서, 매칭 알고리즘들을 적용하여 산출된 출력값들은 SVR(Support Vector Regression)을 이용하여 결합될 수 있다.
여기서, 소정의 매칭 알고리즘은 동적 정합 매칭 알고리즘, DTW 매칭 알고리즘 중 어느 하나인 것이 바람직하다.

본 발명에 따르면, QbH 시스템을 이용하여 음원 검색을 할 때 한 가지 특징을 기반으로 매칭하는 경우보다, 세가지 특징 (피치, 앞뒤 피치간의 차이, 첫음 피치와의 차이)으로부터 계산된 3가지 매칭 스코어를 결합함으로써 보다 정확한 음원 검색이 가능한 효과가 있다.

또한 같은 단계에서 피치값, 앞뒤 피치 차이값, 처음 음과의 피치 차이값들을 3가지 특징으로 하여 각각 DP 매칭 알고리즘들을 수행함으로써 얻은 3가지 매칭 스코어를 SVR로 결합함으로써, 보다 정확한 음원 검색 성능을 갖는 효과가 있다.

또한, 본 발명에 따른 SVR을 사용하는 경우에는 세 가지의 매칭 정합값들을 결합할 경우 하나의 매칭 정합값을 사용하거나 계층적(순차적)으로 매칭 정합값들을 결합할 때보다 정확한 결과를 제공할 수 있는 효과가 있다.

전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시 예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명의 이러한 실시 예를 통하여 당업자가 용이하게 이해하고 재현할 수 있도록 상세하게 설명하기로 한다.

도 1 은 본 발명의 일 실시예에 따른 음원 검색 시스템을 도시한 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 음원 검색 시스템(100)은 오디오 신호 입력부(110), 오디오 신호 분석부(120), 오디오 신호 보정부(130), 오디오 신호 매칭검색부(140)를 포함하여 이루어진다.

오디오 신호 입력부(110)는 허밍, 노래 또는 음원의 일부를 입력으로 받을 수 있다. 입력된 오디오 신호는 저장부(미도시)에 저장될 수 있고, 오디오 신호 입력부는 오디오 신호를 직접 입력 받거나 음원 검색 시스템에서 인식 가능한 음원 파일 형태로 오디오 신호를 입력받을 수 있도록 구성될 수 있다.

오디오 신호 분석부(120)는 오디오 신호 입력부(110)를 통해 입력된 오디오 신호를 분석하여 특징값들을 추출한다. 추출되는 특징값으로는 입력된 신호의 피치(pitch) 정보, 인스트루멘테이션(instrumentation) 정보, 템포(tempo) 정보 또는 비트(beat) 정보 등이 있다.

오디오 신호 보정부(130)는 입력된 오디오 신호의 주파수 대역과 주파수의 평균값을 산출한다. 일반적으로 허밍의 경우에는 음원과 note, pitch, 주파수 등에 서의 차이가 있어 유사 음원 검색 시 검색 성능의 저하를 가져오기 때문에 음원 데이터베이스에 저장되어 있는 음원과 입력된 오디오 신호의 유사도를 비교하기 전에 주파수의 평균값들을 산출한 후 입력된 오디오 신호의 주파수 정보를 음원의 주파수 정보와 유사하게 보정을 수행하게 된다(Mean shifting). 또한, 오디오 신호 보정부(130)는 이러한 Mean shifting을 거친 후에도 매칭되는 음원 검색의 성능을 향상시키기 위한 다양한 보정들을 수행하며 자세한 내용은 추후 자세히 후술하기로 한다.

오디오 신호 매칭검색부(140)는 적어도 2 이상의 알고리즘을 수행하여 매칭 스코어를 생성하는 복수의 매칭검색부를 포함하며, 복수의 매칭검색부에서 산출된 매칭 스코어들을 입력으로 하여 SVR(Support Vector Regression)을 통해 최종 유사도 측정값을 산출한다.

매칭검색부는 DP(Dynamic Programming) 매칭 알고리즘 또는 DTW(Dynamic time warping) 매칭 알고리즘을 사용하여 매칭 스코어를 생성하는 것이 바람직하다.

SVR은 비선형방정식에 의해 입력값과 출력값 간의 관계를 정의할 수 있는 방식이다. 다양한 커널에 의해 입력값과 출력값의 분포를 변화시킴으로써, 두 데이터 값의 관계를 단순화하여 정의할 수 있게 된다.

본 발명의 다른 실시예에 의하면, 오디오 신호 매칭검색부(140)는 복수의 매칭검색부에서 산출된 매칭 스코어들을 입력으로 하여 3차원 DP 매칭을 적용할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 오디오 신호 보정부를 도시한 블록도이다.

도 2에 도시된 바와 같이, 오디오 신호 보정부(200)는 제로제거부(210), 평균 보정부(220), 메디안 필터부(230), 평균 필터부(240), 스케일링부(250)를 포함하여 이루어진다.

제로제거부(210)는 입력된 오디오 신호에서 피치 값이 0인 신호 즉, 묵음에 해당하는 신호들을 제거한다.

평균 보정부(220)는 입력된 오디오 신호가 비교 대상 음원보다 음의 높이가 높거나 낮을 수 있으므로 이를 어느 정도 유사하게 보정하는 과정을 수행한다.

메디안 필터부(230)는 입력된 오디오 신호에 포함되는 노이즈를 제거하기 위하여 메디안 필터링을 수행한다. 메디안 필터링은 랜덤하게 발생한 피크 노이즈를 제거하는데 사용된다.

평균 필터부(240)는 메디안 필터링을 수행한 오디오 신호에 대하여 음의 흔들림을 보정하여 부드럽게 하기 위해 평균 필터링을 수행한다.

스케일링부(250)는 입력된 오디오 신호와 비교 대상 음원 파일의 피치의 범위의 차이가 있는 점을 해결하기 위하여 피치값들의 범위가 일치하도록 Min-Max 스케일링을 수행한다. 이를 위해 스케일링부(250)는 입력된 오디오 신호와 비교 대상 음원 신호의 피치의 최소값과 최대값을 각각 산출하고 최소값과 최대값 사이의 범위가 일치되도록 정규화하는 과정을 수행한다.

이하에서는 오디오 신호 보정부(200)가 수행하는 기능을 자세히 상술하기로 한다.

도 3은 입력된 오디오 신호와 비교 대상 음원의 주파수 변화를 도시한 것이다. 도 3에 도시된 바와 같이, 입력된 오디오 신호와 음원 파일의 데이터의 주파수 평균값이 일치하지 않는다. 따라서 평균 보정부(220)는 오디오 신호의 주파수 평균값을 비교 대상 음원의 주파수 평균값과 일치하도록 보정한다. 보다 바람직하게는, 입력된 오디오 신호와 비교 대상 음원의 주파수 평균값을 모두 0으로 일치시키도록 보정할 수 있다.

도 4는 비교 대상 음원과 입력된 오디오 신호의 추출된 피치 정보를 도시한 것이다.

도 4 (b)에 도시된 바와 같이, 입력된 오디오 신호는 pitch contour 내에 적지 않은 피크 포인트들이 발생한다. 이의 주요원인으로는 허밍과 같은 오디오 입력에서 발생되는 목소리의 떨림이나 주변 혹은 입력단자에서 발생되는 잡음 등이 있다. 이러한 노이즈들로 인하여 매칭 검색의 성능이 저하되기 때문에 오디오 신호 보정부(200)는 다양한 필터링을 통하여 입력된 오디오 신호를 보정한다. 도 4 (b)에 도시된 바와 같이, 입력된 오디오 신호는 피치가 0인 음은 제거되었음을 알 수 있다. 또한 입력된 오디오 신호가 비교 대상 음원 파일의 평균 음 높이 보다 낮은 것을 알 수 있는데 이는 평균 보정부에 의해 보정될 수 있음은 위에서 설명한 바와 같다.

도 5는 메디안 필터부에서 수행되는 메디안 필터링을 설명하는 도면이다.

메디안 필터부는 소정의 크기의 필터 사이즈를 갖는다. 일반적으로 필터 사이즈는 기수로 설정되는 것이 바람직하며 도 5에는 필터 사이즈가 5인 메디안 필터를 도시하고 있다. 편의상 필터 사이즈가 5인 경우로 가정하여 설명하기로 한다.

메디안 필터부는 입력된 오디오 신호의 첫 번째부터 다섯 번째 음의 피치를 오름차순으로 재배열한다. 다음으로 가운데인 세 번째에 정렬된 값(도 5의 경우 4)를 세 번째 음의 피치값으로 대체한다. 즉, 5개 음의 중간값인 4를 세 번째 음의 피치로 보정하여 노이즈 등으로 발생한 피크 값을 보정하게 된다. 다음으로, 입력된 오디오 신호의 두 번째부터 여섯 번째 음의 피치에 대하여 피치값을 오름차순으로 배열하고 중간값을 네 번째 음의 피치 값으로 보정한다. 다음으로는 세 번째부터 일곱 번째 음에 대해 필터링을 수행하고 중간값을 다섯 번째 음의 피치 값으로 보정한다. 이러한 과정을 순차적으로 반복하여, 마지막 다섯음의 피치값을 순차적으로 배열한 후 필터링을 수행할 때까지 반복한다. 메디안 필터링을 완료하면 시작부분의 두 음과 마지막 부분의 두 음을 제외하고는 모든 피치값에 대하여 보정이 이루어지게 된다.

도 6은 평균 필터부에서 수행되는 평균 필터링을 설명하는 도면이다.

평균 필터링은 메디안 필터링 과정과 전체적으로 유사하나 대체되는 값이 중간값이 아닌, 필터 길이에 포함되는 피치값들 전체의 평균값인 점에서 차이가 있 다. 도 6에 도시된 바와 같이 필터 사이즈가 5인 경우 5개의 피치값의 평균값인 8.6을 산출하고 소수점 이하를 내림한 8이 세 번째 음의 피치값으로 보정될 수 있다. 평균값이 정수가 아닌 경우 반올림을 수행하거나, 정수가 아닌 값을 보정하도록 설계하여도 무방하다.

평균 필터링을 먼저 수행하고 메디안 필터링을 수행하는 경우에는 메디안 필터링의 수행이 제대로 이루어지지 않는 것을 확인하였다. 따라서 메디안 필터링을 수행하여 피크 값들을 완화한 후 평균필터링을 수행하는 것이 보다 바람직하다.

도 7은 스케일링부에서 수행되는 Min-Max 스케일링을 설명하는 도면이다.

위에서 설명한 바와 같이 입력된 오디오 신호와 비교 대상 음원은 음의 높이가 일치하지 않을 수 있다. 이 경우에는 최소값과 최대값의 차이 역시 일치하지 않는 문제가 발생하게 된다. 즉, 입력된 오디오 신호가 허밍 입력으로 피치 값이 비교 대상 음원보다 낮은 경우 최소값과 최대값의 차이가 비교 대상 음원의 피치의 최대값과 최소값의 차이보다 더 작게 발생하게 된다. 예컨대, 비교 대상음원의 피치값이 ‘63, 65, 69’ 인데 허밍 입력의 피치값은 ‘60, 62, 64’로 입력되는 경우 비교 대상 음원과 입력 오디오 신호의 피치값의 최대값은 모두 5로, 최소값은 -5로 스케일링하고 나머지 피치값들은 비율에 맞게 -5에서 5 사이의 값으로 스케일링되도록 할 수 있다.

다음으로 오디오 신호 매칭검색부의 기능에 대하여 자세히 설명하기로 한다.

도 8은 본 발명의 일실시예에 따른 오디오 신호 매칭검색부를 도시한 블록도이다.

오디오 신호 매칭검색부(800)는 적어도 2 이상의 매칭 알고리즘을 수행하는데, 바람직하게는 입력된 오디오 신호의 피치 정보를 이용한 DTW 매칭 검색(810), 입력된 오디오 신호 내의 인접하는 피치 간의 차이값들의 배열을 이용한 DTW 매칭 검색(820) 및 입력된 오디오 신호의 각 피치와 첫음의 피치 간의 차이값들의 배열을 이용한 DTW 매칭 검색(830) 결과를 산출한다. 적용되는 매칭 알고리즘은 DTW 매칭 알고리즘이 아닌 일반적인 DP 매칭 알고리즘이어도 무방하다.

입력된 오디오 신호 내의 인접하는 피치 간의 차이값들의 배열이란 입력된 오디오 신호의 두 번째 피치값과 첫 번째 피치값의 차, 세 번째 피치값과 두 번째 피치값의 차, ... , n번째 피치값과 n-1 번째 피치값의 차로 이루어진 배열을 말한다. 입력된 오디오 신호의 각 피치와 첫음의 피치 간의 차이값들의 배열이란 입력된 오디오 신호의 두 번째 피치값과 첫 번째 피치값의 차, 세 번째 피치값과 첫 번째 피치값의 차, ... , n번째 피치값과 첫 번째 피치값의 차로 이루어진 배열을 말한다.

DTW 매칭 알고리즘은 DP 매칭 알고리즘을 사용하므로, DP(Dynamic programming) 매칭 알고리즘에 대하여 설명한다. DP 매칭은 일반적으로 입력 음악 정보 (R = [r _o , r ₁ ... r _NR-1 ]) 와 저장된 음원(Q = [q _o , q ₁ ... q _NQ-1 ])사이에는 동일 음악이라고 할지라도 길이차가 발생하더라도 이를 고려하여 양 음원의 유사도를 계산하는 알고리즘이다.

도 9는 동적 정합 매칭 알고리즘을 설명하기 위한 도면이다.

동적 정합 매칭(DP 매칭 알고리즘)은 도 9와 같이 서로 길이가 다른 두 패턴간의 유사도를 측정하기 위한 방법으로, 삽입 (insertion) 및 제거(deletion)등의 방법으로 경로 별 패턴 유사도를 측정할 수 있는 방법이다. 이 방법을 이용하여 매칭을 할 시에는 도 9에서 보여 지는 것처럼 총 5가지의 제약 조건이 존재한다. 첫째로, 끝점 제약 조건으로 입력 패턴, 참조 패턴의 시작점과 끝점을 일치시키고 비교가 이루어지므로 정확한 음성 구간 검출을 요구한다. 둘째는 단조 증가 제약 조건으로 최적 경로는 항상 단조 증가 하여야 한다는 것이다. 세 번째 조건은 국부 연속 제약 조건으로 격자상의 한 노드에 도달하기 위한 경로에 제한을 두어 시간상에서 지나치게 수축되거나 팽창하는 것을 막아야 한다는 것이다. 네 번째는 전역 경로 제약 조건으로, 서로 다른 길이를 갖는 입력 음성 패턴과 참조 패턴간의 전 구간에 걸친 허용 가능한 영역을 제한하는 조건이다. 마지막으로 기울기 가중치 조건으로, 국부 경로의 비용 계산 시, 모두 동일한 가중치를 주지 않고 기울기에 따라서 서로 다른 가중치를 주어, 시간에 비해 비합리적으로 변하는 것을 방지해야만 한다.

일반적으로 허밍과 같은 입력 음악 정보는 저장된 음원 데이터의 임의 부분에 대한 정보를 포함할 수 있으므로, 도 10과 같이 입력 음악 정보 (R) 값이 이 동(sliding)하며 비교를 하게 된다.

아래 수학식은 두 정보간의 상이도 측정을 계산하는 수식의 일례이다.

[수학식1]

[수학식1]에서 r _i (m)은 음원 데이터베이스에 저장된 비교 대상 음원 정보이며, q _j (m-ps)는 입력 오디오 신호 정보이다. 이때 q _j (m)을 ps 만큼 sliding 해 가면서 [수학식1]에 의해 두 정보 (r _i (m)와 q _j (m))간의 상이도를 측정하게 된다. DP 매칭 알고리즘에 대한 자세한 내용은 공지되어 있으므로 자세한 설명은 생략한다.

위에서 언급했듯이, 입력 허밍과 저장된 음원 사이에 발생하는 길이차를 고려하여 DP를 이용한 매칭 방법을 많이 사용한다. DTW를 이용하기 위하여서는 위에서 설명된 것처럼 5가지의 제약조건은 필수적이며, 그중 첫 번째 조건은 반드시 지켜져야 한다.

DTW의 첫 번째 제약조건은 바로, 비교하고자 하는 두 파형의 시작점과 끝점이 같아야 한다는 것이다.

도 11은 첫 번째 조건의 예를 표현한 도면이다. (a)를 입력신호로 가정하였 을 때, (b)는 (a)를 2배로 늘린 신호이고, (c)는 (a)의 뒤에 추가적으로 다른 신호가 더 추가된 신호이다. 여기서 (a)를 입력데이터로 가정하고, (b)와 (c)를 저장되어있는 데이터라고 가정하자. 눈으로 보았을 때는, (c)가 (a)와 똑같은 신호를 포함하고 있기 때문에 (a)와 (b)의 매칭 결과 보다는 (a)와 (c)의 매칭 결과가 좋게 나올 것이라는 생각을 할 수 있다. 하지만 (a)와 (c)의 매칭의 경우 DTW의 첫 번째 제약조건이 무시되므로 상이도가 좋게 나올 수가 없다. DTW의 장점인, 매칭 시 삽입과 삭제가 자유로이 일어난다는 것은 시작점과 끝점이 같은 조건 아래에 성립되는 것으로, 이것은 (b)와의 매칭을 통해서 확인할 수 있다. 실제로 (a)와 (b)를 매칭하게 될 경우, 시작점과 끝점이 일치하며, DTW의 특징인 삽입 및 삭제 중, 삽입을 통해서 0에 가까운 상이도를 확인 할 수 있다. 따라서 허밍 데이터와 같은 입력 오디오 신호가 들어올 경우, 음원에 대해서 시작점과 끝점이 정확히 어디인지, 이러한 구간 검출 과정이 반드시 필요하다.

DTW의 다섯 가지 제약조건 중 네 번째 조건은 전역 경로 제약 조건이다. 이는 입력 데이터와 음원 데이터를 매칭 할 때, 전 구간에 걸친 허용 가능한 영역을 어느 정도 제한하여 준다는 조건이다. 사람이 어떠한 음을 허밍이나 노래로 부를 때에는 보통 음원과의 속도차이가 그렇게 심하게 발생하지 않는다. 즉, 음원대비로 허밍파형이 심하게 수축되거나 팽창되는 일이 드물기 때문에, 굳이 모든 영역에 대한 검색을 허용할 필요가 없다. 예를 들어, 도 12와 같이 입력 데이터의 길이가 5이고 음원 데이터의 길이가 5라고 가정을 한다면, 총 25개의 탐색 영역이 나오게 된다. 이 때, 사람이 음원보다 5배 빠르게 혹은 느리게 허밍을 하는 극단적인 경우는 없기 때문에, 모든 영역을 다 계산할 필요가 없어진다. 따라서 도 12의 빨간 선과 같이 어느 정도의 경로 탐색에 제약을 주어 그 영역 내에서만 매칭을 허용하게 된다면 불필요한 계산 량을 덜어내어 처리 시간을 더 빠르게 할 수 있으며, 또한 매칭 정확도 역시 높일 수 있다.

본 발명에서는 허밍과 같은 정보는 저장된 음원 데이터의 임의 부분에 대한 정보를 포함할 수 있으므로 도 13과 같은 방법으로 입력 데이터가 이동하면서 비교를 수행하도록 한다. 이 때, 음원 데이터에서 매칭하고자 하는 영역의 크기는 입력 데이터의 길이를 기준으로 선택을 하는 것이 바람직하다.

다음으로 세 가지 입력 각각에 대해 DTW 매핑 알고리즘을 적용한 결과 산출된 세가지 매칭 스코어를 입력으로 하여 SVR을 적용하여 최종 유사도 측정값을 산출하는 기능을 설명하기로 한다.

SVR은 비선형방정식에 의해 입력값과 출력값 간의 관계를 정의할 수 있는 방식이다. 다양한 커널에 의해 입력값과 출력값의 분포를 변화시킴으로써, 두 데이터값의 관계를 단순화하여 정의할 수 있게 된다.

와 같은 트레이닝 데이터가 주어졌다고 가정하면 (는 입력 패턴의 공간을 의미, 예컨대 χ=R^d), SVR 에서는 모든 트레이닝 데이 터에 대하여 실제 얻어진 타겟 yi로부터 ε 이내의 편차를 갖는 함수 f(x)를 구하는 것을 목적으로 한다.

[수학식2]

이고, 여기서 <,>는 에서 도트 곱을 의미하고, 위 [수학식2]의 경우에서 Flatness는 작은 w 값을 산출하는 것을 의미한다. 이를 보장하기 위해 w의 norm을 최소화하는 것이다(

).

데이터베이스의 음원과 입력된 오디오 신호 간의 매칭 스코어 값들을 사전에 training 데이터들로부터 구하고, 이를 이용하여 SVR을 트레이닝 할 필요가 있다. SVR 트레이닝 시, SVR의 입력 데이터는 DTW 알고리즘을 수행하여 얻은 3가지 매칭 스코어 값을 사용하고 SVR의 출력 데이터로는 수작업으로 선정된 Ground-truth 매칭스코어 값을 사용한다. 매칭 스코어 계산을 위하여 유클리디안 거리 혹은 코사인 거리 등을 사용한다.

예를 들어, SVR을 트레이닝하는 단계에서, (0,1)이라는 입력에 대하여는 0으로, (0,0)이라는 입력에 대하여 1로, (1,0)이라는 입력에 대하여는 2로, (1,1)이라는 입력에 대하여는 3으로 매칭시키도록 트레이닝 한 경우에는, SVR은 (0.1, 0.9)라는 입력에 대하여 0이라는 결과 값을 출력하게 된다. 이러한 트레이닝에서 SVR의 출력데이터는 수작업에 의해 선정되는 Ground-truth 매칭 스코어 값을 사용하게 된다.

SVR은 적은 트레이닝 데이터만으로도 신속하게 분별 학습을 수행하는 것이 가능하고, 학습 과정을 거친 후 최적의 분류기로 기능한다. 위에서 설명한 SVR 알고리즘의 흐름도는 도 14에 도시된 바와 같다.

오디오 신호 매칭검색부는 위에서 설명한 DTW 알고리즘과 SVR을 이용함으로써, 각 음의 피치들을 이용한 DP Matching, 앞뒤 음간의 피치 차이를 이용한 DP Matching, 처음 피치와의 차이를 이용한 DP Matching에 의해 계산된 3가지 매칭 스코어를 SVR(Support Vector Regression)을 이용하여 결합하여, 이를 통해 보다 정확한 매칭 스코어 값(유사도 측정값)을 출력하게 된다.

여기서, 각 음의 피치정보는 도 7에 도시된 보정된 오디오 신호를 특징으로 이용하는 것이고, 인접하는 앞뒤 음간의 피치 차이는 도 7로부터 인접한 피치 값들 간의 difference 값을 구하여 이를 특징으로 사용하는 것이다. 또한 처음 피치와의 차이는 도 7에서 처음 피치값 (약 4.8)과 이후 피치값과의 difference 값을 특징으로 사용하는 것이다.

SVR을 이용하여 얻은 최종 매칭 스코어 값(유사도 측정값)을 기반으로 저장된 음원을 순위별로 정렬하여 출력하게 된다. 즉, 유사도 측정값이 낮은 것부터 정렬하여 전체 음원에 대한 매칭 순위를 결정한다. 유사도 측정값이 작을 수록 매칭 순위가 높게 정렬된다. 즉, 유사도 측정값이 작을 수록 음원의 유사도는 높은 것이 된다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 3은 입력된 오디오 신호와 비교 대상 음원의 주파수 변화를 도시한 것이다.

도 9 및 도 10은 동적 정합 매칭 알고리즘을 설명하기 위한 도면이다.

도 11 내지 도 13은 DTW 매칭 알고리즘을 설명하기 위한 도면이다.

도 14는 SVR 알고리즘의 흐름도를 도시한 도면이다.

Claims

오디오 신호를 입력 받기 위한 오디오 신호 입력부;

상기 오디오 신호를 분석하여 오디오 신호의 특징값을 추출하는 오디오 신호 분석부;

상기 오디오 신호의 특징값을 입력으로 하여 오디오 신호를 보정하는 오디오 신호 보정부;

보정된 오디오 신호의 특징값을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 상기 보정된 오디오 신호의 특징값들 간의 차이 값들을 입력으로 하여 상기 소정의 매칭 알고리즘을 적용하여 제2출력값을 산출하고, 상기 제1출력값 및 제2출력값을 입력으로 하여 유사도 측정값을 산출하며, 상기 산출된 유사도 측정값을 이용하여 유사도가 높은 음원부터 음원 데이터베이스로부터 검색하여 추출해 내는 오디오 신호 매칭검색부를 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 1 항에 있어서, 상기 오디오 신호 보정부는,

분석된 오디오 신호에서 피치가 제로인 음을 제거하는 보정을 수행하는 제로제거부를 더 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 1 항에 있어서, 상기 오디오 신호 보정부는,

분석된 오디오 신호에 대하여 미리 정해진 필터길이 단위로 필터링을 수행하는 필터부를 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 3 항에 있어서, 상기 필터부는,

상기 분석된 오디오 신호에 대하여 미리 정해진 필터길이 단위로 메디안 필터링을 수행하는 메디안 필터부; 및

상기 메디안 필터링이 적용된 오디오 신호에 대하여 미리 정해진 필터길이 단위로 평균 필터링을 수행하는 평균 필터부를 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 2 항에 있어서, 상기 오디오 신호 보정부는,

피치의 최대값과 최소값을 이용하여 필터링된 오디오 신호의 피치값을 스케일링하는 스케일링부를 더 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 1 항에 있어서,

상기 보정된 오디오 신호의 특징값은 보정된 오디오 신호의 피치값들을 포함하고,

상기 오디오 신호 매칭검색부는,

보정된 오디오 신호의 피치값들을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 상기 보정된 오디오 신호의 인접하는 피치들 간의 차이값들의 배열을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제2출력값을 산출하고, 상기 보정된 오디오 신호의 피치들과 첫 번째 피치와의 차이값들의 배열을 입력으로 하여 동적 정합 매칭 알고리즘을 적용하여 제3출력값을 산출하며,제1출력값, 제2출력값 및 제3출력값을 입력으로 하여 상기 유사도 측정값을 산출하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
제 1 항에 있어서, 상기 오디오 신호 매칭검색부는,

상기 매칭 알고리즘들을 적용하여 산출된 적어도 2 이상의 출력들을 입력받아 SVR(Support Vector Regression)을 이용하여 결합함으로써 유사도 측정값을 출력으로 생성하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템.
오디오 신호를 입력 받는 단계;

상기 오디오 신호를 분석하여 오디오 신호의 특징값을 추출하는 단계;

분석된 오디오 신호에서 추출된 특징값을 입력으로 하여 오디오 신호를 보정하는 단계;

보정된 오디오 신호의 피치들에 대하여 피치들 간의 차이 값들을 산출하는 단계;

보정된 오디오 신호의 피치들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제1출력값을 산출하고, 상기 산출된 피치들 간의 차이 값들을 입력으로 하여 소정의 매칭 알고리즘을 적용하여 제2출력값을 산출하는 단계; 및

상기 제1출력값 및 제2출력값을 입력으로 하여 산출된 유사도 측정값을 이용하여 유사도가 가장 높은 음원을 음원 데이터베이스로부터 검색하여 추출해 내는 단계를 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 방법.
제 8 항에 있어서, 상기 오디오 신호를 보정하는 단계는,

상기 분석된 오디오 신호로부터 피치가 제로인 음을 제거하는 단계;

제로인 음이 제거된 오디오 신호를 미리 정해진 필터길이 단위로 메디안 필터링을 수행하는 단계;

상기 메디안 필터링이 적용된 오디오 신호에 대하여 미리 정해진 필터길이 단위로 평균 필터링을 수행하는 단계; 및

피치의 최대값과 최소값을 이용하여 필터링된 오디오 신호의 피치값을 스케일링하는 단계를 포함하는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 방법.
제 8 항에 있어서, 상기 피치들 간의 차이 값들은,

2개의 인접하는 피치들 간의 차이값들이거나, 상기 보정된 오디오 신호의 첫 번째음과 다른 피치들 간의 차이값들인 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 방법.
제 10 항에 있어서,

상기 매칭 알고리즘들을 적용하여 산출된 출력값들은 SVR(Support Vector Regression)을 이용하여 결합되는 것을 특징으로 하는 복 수의 매칭 알고리즘을 결합한 음원 검색 방법.
제 8 항 내지 제 11 항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.