KR100539176B1

KR100539176B1 - 음악적 특징 추출 방법 및 장치

Info

Publication number: KR100539176B1
Application number: KR10-2004-0030940A
Authority: KR
Inventors: 주기현; 박장연; 정혜경
Original assignee: (주)나요미디어
Priority date: 2004-05-03
Filing date: 2004-05-03
Publication date: 2005-12-27
Also published as: KR20040072486A

Abstract

본 발명은 다양한 형태의 음악으로부터 고유한 음악적 특징을 추출하기 위한 음악적 특징 추출방법 및 장치에 관한 것으로서, 구체적으로는 정규화부, 밴드패스 필터, 프레밍부, 잡음제거부, 유효소리 구간 구분부, 피치 추출부, 평활화부 및 멜로디/박자 결정부를 포함하여 구성되는 음악적 특징 추출장치에 관한 것이며, 또한 음원 데이타를 정규화하는 단계, 밴드패스 필터링 단계, 음원 데이타를 프레임단위로 분리하는 단계, 잡음을 제거하는 단계, 유효소리 구간을 추출하는단계, 음원 데이타로부터 세미톤 값을 구하는 단계, 음원 데이타로부터 불규칙한 신호를 필터링하여 평활화하는 단계 및 멜로디 및 박자를 결정하는 단계로 이루어진 음악적 특징 추출방법에 관한 것이다.

Description

음악적 특징 추출 방법 및 장치{DEVICE AND METHOD OF EXTRACTING MUSICAL FEATURE}

본 발명은 음악적 특징 추출 방법 및 장치에 관한 것으로, 구체적으로는 단음 또는 다중화음으로 된 음원 데이타로부터 음원의 특징을 추출하여 다른 음원들과 식별가능한 특징적 정보를 추출하기 위한 방법 및 장치에 관한 것이다.

일반적으로 인간이 듣는 소리(오디오 데이타)는 말(speech), 음악(music), 음향(sound), 잡음(noise) 등으로 구분할 수 있는데, 인간의 귀는 이러한 소리들을 동시에 들어도 소리의 특징을 추출하여 구별할 수 있는 능력을 가지고 있다. 이와 같은 귀의 역할에 착안하여, 기존의 키워드 검색 방법이 안고 있는 한계를 극복하고 음악 콘텐트 고유의 특징을 추출하여 식별하는 검색 기술에 대한 연구가 시작되었고 현재 활발히 진행 중이다.

이러한 기술은 콘텐트 내용에 기반한 음악 검색을 위하여 사용되고 있는데, 데이타베이스 상의 음악으로부터 추출된 정보와 사용자가 질의한 음악 샘플로부터 추출한 정보를 비교하여 검색하는 방식을 사용한다. 이때 질의되는 음악의 샘플을 입력받아 음악적 특징을 추출하는 기술이 가장 핵심적인 것이라 할 수 있다. 현재 다양한 음악적 특징 추출 방법 및 관련 장치가 개발되었는데, 종래의 음악적 특징 추출 방법 및 장치는 다음과 같은 기능요소들로 구성되어 있다.

1. 잡음 제거 기능

2. 음표 구분 (Note Segmentation)

3. 피치 추출 (Pitch Tracking)

4. 멜로디, 박자 결정.

상기와 같은 구성요소를 구비하는 종래의 음악적 특징 추출 방법 및 장치의 동작 원리를 구체적으로 살펴보면 다음과 같다. 사용자로부터 입력된 데이타는 음원 고유 신호와 더불어 잡음신호가 섞여 들어올 수 있다. 따라서 잡음 제거 기능을 이용하여 잡음신호를 최대한 억제하고 원래 소리를 최대한 복원한다. 이후, 잡음이 제거된 신호로부터 소리의 크기, 에너지 값, ZCR(Zero Crossing Rate) 등의 정보를 이용하여 연속된 소리로부터 음표를 구분한다. 음표 구분을 위하여 하나의 고정된 임계 값(Threshold)를 사용하거나 상황에 따라 변하는 임계 값을 사용하는 알고리즘이 개발되었다. 이때, 사용자로부터 입력된 음원 데이타는 음의 높이에 따라 고유한 주파수(피치)를 갖는다. 따라서 특정 시간 동안 입력된 데이타에 대해서 정확한 피치를 구하고자 하는 알고리즘이 다양하게 개발되었다. 이와 같은 알고리즘을 이용하여 잡음이 제거된 입력신호로부터 구한 피치 값을 이용하여 반음 단위로 0에서 127 사이의 값으로 표현되는 음의 세미톤(semitone) 값을 구할 수 있다. 음표 구분 기능에 의해 검출된 구간 내에서 세미톤 값이 하나의 값을 가지는 경우는 매우 드물다. 따라서 구간 내에서 변화하는 세미톤 값들로부터 음표의 대표 값을 결정하는 알고리즘이 개발되었으며, 음표의 박자 정보를 결정하는 알고리즘 또한 필요하다.

종래의 음악 정보 추출 방식 및 장치는 하나의 음표(note)를 음표 구분 방식에 의해 구분된 구간으로 결정하며, 구분된 구간 내에서 피치 추출 기능에 의해 추출된 세미톤 값을 이용하여 음표의 세미톤 값을 결정한다. 따라서, 이러한 방법에서는 음표 구분 방법에 의해 구분되지 않는 음표들을 식별하지 못하며 결과적으로 여러 음표의 정보를 하나의 음표로 표현함으로써 음표가 갖는 세미톤 값의 정확성도 떨어진다. 그러나 실제 환경에서는 사용자가 음을 또박또박 끊어서 부르지 않는 상황이 발생하기 때문에 이러한 경우 종래의 기술로는 음악적 특징추출에 있어 만족스러운 결과를 제공하지 못한다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위하여 본 발명은 다양한 형태의 음악으로부터 고유한 음악적 특징을 정확히 추출하기 위한 음악적 특징 추출방법 및 장치를 제공하는 것을 목적으로 한다. 구체적으로는 유효소리 구간을 구분하여 멜로디 및 박자를 결정함으로써 높은 정확도의 음악적 특징 추출방법 및 장치를 제공하는 것을 목적으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 음악적 특징 추출장치는 사용자로부터 입력받은 음원 데이타를 시간영역에서 소정의 크기를 갖는 프레임 단위로 분리하기 위한 프레밍부; 상기 프레임 단위로 분리된 음원 데이터로부터 신호 크기를 추출하고, 상기 신호크기를 소정의 크기 임계치와 비교하여 유효소리 구간을 추출하기 위한 유효소리 구간 구분부; 상기 프레임 단위로 분리된 음원 데이타로부터 세미톤 값을 구하기 위한 피치 추출부; 상기 세미톤 값으로부터 불규칙한 신호를 필터링하는 평활화부; 및 상기 평활화된 데이타로부터 멜로디/박자를 결정하기 위한 멜로디/박자 결정부를 포함하여 구성되며, 상기 멜로디/박자 결정부는, 상기 세미톤 값의 차가 소정의 기준치보다 작은 구간을 구하고, 상기 구한 구간의 길이를 소정의 임계치와 비교하여 안정 구간을 정하며, 상기 안정구간의 시작 프레임과 종료 프레임을 결정하여 그 길이를 박자로 결정하며, 상기 안정구간내의 세미톤 값에 근거하여 음정을 결정하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 음악적 특징 추출방법은 상기 음원 데이타를 시간영역에서 소정의 크기를 갖는 프레임단위로 분리하는 제 1 단계; 상기 프레임 단위로 분리된 음원 데이터로부터 신호 크기를 추출하고, 상기 신호크기를 소정의 크기 임계치와 비교하여 유효소리 구간을 추출하는 제 2 단계; 상기 음원 데이타로부터 세미톤 값을 구하는 제 3 단계; 상기 음원 데이타로부터 불규칙한 신호를 필터링하여 평활화하는 제 4 단계; 및 상기 유효소리 구간에 따라 멜로디 및 박자를 결정하는 제 5 단계를 포함하고, 상기 제 5 단계는 상기 세미톤 값의 차가 소정의 기준치보다 작은 구간을 구하는 제 5-1 단계; 상기 구한 구간의 길이를 소정의 길이 임계치와 비교하여 안정 구간을 정하는 제 5-2 단계; 상기 안정구간의 시작 프레임과 종료 프레임을 결정하여 그 길이를 박자로 결정하는 제 5-3 단계; 및 상기 안정구간 내의 세미톤 값에 근거하여 음정을 결정하는 제 5-4 단계를 포함하여 구성된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

본 발명의 음악적 특징 추출장치는 정규화부, 밴드패스 필터, 프레밍부, 잡음제거부, 유효소리 구간 구분부, 평활화부 및 멜로디/박자 결정부로 구성되는데, 이들 각각은 다음과 같이 작동한다.

정규화부에서 입력받은 음원 신호를 신호처리의 편의를 위하여 0과 1 사이의 값으로 정규화(normalize)하며 정규화된 값의 평균이 0이 되도록 보정한다. 이때 입력되는 음성 또는 음향, 즉 음원 데이타는 단음 또는 다중화음일 수 있으며 이를 구분하지 아니한다.

밴드패스 필터에서는 음원 데이타로 부터 불필요한 영역을 필터링한다. 음원 데이타를 필터링 없이 처리할 경우 정확한 결과를 얻을 수 없기 때문에 유효하지 않은 범위의 주파수를 포함한 신호를 필터링하여 제거하는 것이다. 즉, 패스밴드 필터에서는 가청역역을 벗어난 주파수 범위등의 불필요한 주파수 영역을 제외한 유효주파수 범위를 패스팬드(passband)로 하는 밴드패스 필터링을 수행한다.

잡음 제거부에서는 음원 데이타에 대하여 잡음을 제거하여 정확한 음악적 특성의 추출이 가능하도록 한다. 잡음 제거부는 종래의 기술에 의한 것을 그대로 사용할 수 있는데, 예를들어 spectral weighting 방식으로 잡음을 제거할 수 있다.

1) 입력 신호를 퓨리에 변환(Fourier transform)한다.

2) VAD(Voice Activity Detector)를 이용하여 잡음의 PSD(Power Spectral Density)를 구한다.

3) 상기 1)과 2)의 결과를 이용하여 spectral weighting rule을 적용하여 Y(f)를 구한다.

4) Y(f)를 역 퓨리어 변환한다.

상기와 같은 준비과정을 거친후 프레밍부에서 음원 데이타를 상호 중첩된 프레임 단위로 분리를 한다. 이는 본 발명의 멜로디/박자 결정부에서 멜로디 및 박자를 정확하게 추출할 수 있도록 구간을 설정하는 것으로, 프레임의 길이가 너무 길면 짧은 시간 동안 발생하는 음의 변화를 감지할 수 없으며, 너무 짧아도 정확한 음의 정보를 구할 수가 없기 때문에 음의 변화를 감지하기에 적당한 시간으로 나눈다. 각 프레임은 일정 구간 중첩되도록 설정하는데, 도 1을 참조로 할 때 각 프레임은 ms의 길이를 가지며 ms의 구간동안 서로 겹친다. 유효소리 구간 구분부에서는 프레임에서 얻은 정보를 처리하여 잡음 이외의 유효한 소리가 발생한 구간의 시작점과 종료점을 구한다. 구체적으로는 신호의 크기(amplitude)에 따라 유효한 신호의 구간을 결정하는데, k 번째 프레임의 신호크기 A(k)는 수학식 1과 같이 구해진다.

수학식 1

여기서 N은 한 프레임 내의 샘플 수이다.

음표 구분 방법에서는 프레임 k에 대한 신호크기 A(k)의 값이 특정한 임계 값 T(k)의 값보다 클 경우에 유효한 피치로 판단하고 작을 경우에는 유효한 데이터가 존재하지 않는 묵음(silence) 구간으로 판단한다. 이러한 음표 구분 방법에서는 임계 값 T(k)를 결정하는 문제가 중요한데, T(k)를 동적으로 구하기 위해서 전역 임계 값 T_G,배경 잡음의 임계값 T_N과 더불어 프레임 k를 기준으로 전후 W 만큼씩의 프레임을 고려하는 2W+1 크기의 윈도우에 대해 구한 지역 임계값T_L(k)을 이용한다. 임계값 T(k)은 다음과 같이 구해진다.

1) 전역(global) 임계값 T_G을 구한다.

수학식 2

이때 N_f는 전체 프레임 수이다.

2) 배경 잡음(background noise)의 임계 값 T_N을 다음과 같은 과정을 통하여 구한다.

수학식 3

3) 1≤k≤N_F을 만족하는 k에 대해서 지역(local) 임계 값 T_L(k)을 구한다.

수학식 4

4) 프레임 k에서의 임계값 T(k)는 T_G·T_N와 T_L(k)의 값 중에서 큰 값을 취한다.

수학식 5

프레임 k가 유효한 정보인지 여부는 A(k)가 T(k)보다 크면 유효, 작으면 유효하지 않은 정보라 판단할 수 있다. 도 2를 참조로 할 때 실선으로 표시된 것이 A(k)이고, 점선으로 표시된 것이 T(k)이며, 이때 실선이 점선보다 큰 영역 즉, A(k) > T(k)인 영역이 유효가 되며, 나머지 영역은 유효하지 않은 구간이 된다.

피치 추출부에서는 각각의 프레임에 대해서 피치를 구하여 세미톤값을 결정한다. 이때 피치를 추출하는 방법으로는 종래의 기술을 그대로 사용할 수 있으며, 예를들어 시간 영역 해석(Time Domain Analysis) 알고리즘인 ACF(Autocorrelation Function)를 적용하여 구할 수 있다. 이러한 방식에 의하여 구해진 피치값은 수학식 8에 의하여 세미톤으로 변환된다.

수학식 8

평활화부에서는 피치추출부에서 구해진 세미톤 값을 보다 명확하게 해석할 수 있도록 평활화(smoothing)한다. 따라서 선형 또는 비선형 필터링 방법을 적용하여 값을 평활화 할 수 있다. 예를들어, 비선형 필터링 방법인 미디언 필터링(Median filtering)을 이용하여 평활화 할 수 있다. 도 3은 평활화부에서 평활화가 수행된 결과를 도시하고 있다.

멜로디/박자 결정부에서는 상기 평활화부에서 평활화 된 데이타를 이용하여 음악의 고유한 특징인 멜로디와 박자를 추출한다. 상기 평활화 된 데이타는 구분된 하나의 유효소리 구간 내에서 여러 개의 피치 값을 가진다. 이러한 평활화 된 데이타로 부터 멜로디와 박자를 결정하기 위해서 우선 구해진 세미톤 값에 대하여 상기 유효구간 구분부에서 구분한 유효구간인 경우에는 세미톤 값을 그대로 유지하고, 유효구간이 아닌경우에는 세미톤값을 0으로 한다. 즉, 세미톤 값은 유효구간에서만 값을 가지며, 각 유효구간마다 시작 프레임과 종료 프레임을 결정할 수 있다. 각 유효구간에 대해서 다음과 같은 과정을 거쳐 멜로디와 박자를 결정한다.

1) 세미톤 값의 차가 Δ보다 작은 구간을 찾는다. (이때, Δ는 0 < Δ < 1)

2) 구간의 길이가 임계치 L_S보다 작으면 안정구간, 임계치보다 크면 불안정구간으로 한다. 불안정구간을 무시할 때 인접한 안정구간의 세미톤 값의 차가 1보다 작으면 두 구간을 통합한다. 즉, 불안정구간의 세미톤값은 안정구간의 세미톤 값으로 재조정되어 통합된 안정구간에 편입된다.

3) 상기과 같이 결정된 유효구간내의 안정구간의 시작 프레임과 종료 프레임을 결정하여 그 길이를 박자로 결정한다.

4) 상기 안정구간내에서 세미톤 값을 반올림하여 이중 빈도수가 가장 높은 값을 음정으로 결정한다.

상기의 1) 내지 4)의 과정을 모든 유효구간에 대하여 순차적으로 수행하여 멜로디와 박자가 결정된다. 도 3 및 도 4는 이러한 과정을 도시하고 있는데, 도 3을 참조로 할 때 각 유효구간(0이 아닌 값을 가지는 구간)에는 다수의 매우 짧은 구간 동안의 불규칙한 신호가 섞여있으나, 임계치보다 작은 구간 길이를 가지는 불안정 구간을 무시하고, 안정구간을 통합하여 도 4와 같은 결과를 얻을 수 있다. 상기와 같은 멜로디/박자 결정부에 의하여 하나의 유효소리 구간 내에서 변화하는 다수의 음표를 추출할 수 있다.

이하 도 5을 참조로 하여 본 발명에 따른 음악적 특징 추출방법을 설명한다. 멜로디/박자 추출을 위한 전처리 과정으로서 사용자로부터 입력받은 음원 데이타를 정규화(S1-1) 할 수 있다. 또한, 가청영역을 벗어난 주파수대를 비롯하여 유효하지 않은 범위의 주파수를 밴드패스 필터링(S1-2) 할 수 있다. 나아가, 입력된 음원 데이타에는 잡음이 포함되어 있을수 있으므로 음악적 특징 추출의 신뢰성을 높이기 위하여 잡음을 제거(S1-3)할 수 있다.

상기와 같은 전처리 과정을 거친후, 음원 데이타를 프레임 단위로 분리(S2)하여 후술하는 멜로디/박자 결정이 가능하도록 한다.

프레임 단위로 분리된 음원 데이타에 대하여 일정한 시점에서 신호의 크기 A(k)가 임계값 T(k)보다 높은 구간에 대해서만 유효구간으로 설정(S3)하여 후술하는 멜로디/박자 결정 단계에서는 유효구간에 대해서만 처리하도록 한다.

프레임 단위로 분리된 음원 데이타에 대해서 피치값을 구하여(S4) 이를 세미톤 값으로 변환한다. 변환된 세미톤 값으로부터 멜로디와 박자를 추출하기 위하여 선형 또는 비선형 필터링 방법을 통해 평활화(S5) 한다.

평활화 된 음원 데이타에 대하여 멜로디 및 박자를 직접 추출(S6)할 수 있는데, 이때 상기 유효구간 구분 단계에서 유효구간으로 결정한 구간에 대해서만 멜로디 및 박자를 추출하고 유효하지 않은 구간 동안에는 아무런 발성 또는 발음이 없었던 것으로 취급한다.

상기의 S1-1, S1-2, S1-3의 단계는 멜로디 및 박자를 추출하기 위한 데이터의 전처리 단계에 해당하는 것으로 전체 멜로디/박자 추출 단계에 있어서 상기의 순서에 구애받지 않고 실시될 수 있다.

본 발명은 음성 또는 음향 신호를 입력받아 음악적 특징을 추출하기 위해 음원 데이타를 시간축에 따라 유효소리 구간별로 나눔에 있어, 전역 임계값 뿐만 아니라 지역 임계값을 고려하여 가장 적절한 임계값을 결정함으로써 종래의 음악적 특징 추출방법에 비하여 보다 원음에 충실한 추출이 가능하도록 하였다. 또한, 입력되는 음원이 단음이건 다중화음이건 구분하지 아니하고 시간축에 따라 주파수 특성을 추출하므로 사용자의 흥얼거림과 같은 신호 이외에 음악소리를 그대로 입력 받을 수 있는 음악적 특징 추출장치 및 방법을 제공한다.

도 1은 음원 데이타를 시간축에 따라 일정간격으로 프레임을 구분한 참고도이며,

도 2는 음원 데이타의 시간 변화에 따른 신호크기와 임계값을 도시한 그래프이며,

도 3은 음원 데이타에 대하여 유효소리 구간으로 구분하여 프레임 변화에 따른 (피치)세미톤 값의 변화를 도시한 그래프이며,

도 4는 본 발명의 멜로디/박자 결정부에서 불안정구간을 무시하고 인접하는 안정구간을 통합한 후의 프레임 변화에 따른 세미톤 값의 변화를 도시한 그래프이며,

도 5는 본 발명의 일 실시예에 의한 음악적 특징 추출 방법을 도시한 플로우차트이다.

Claims

음악적 특징 추출장치로서,

사용자로부터 입력받은 음원 데이타를 시간영역에서 소정의 크기를 갖는 프레임 단위로 분리하기 위한 프레밍부;

상기 프레임 단위로 분리된 음원 데이터로부터 신호 크기를 추출하고, 상기 신호크기를 소정의 크기 임계치와 비교하여 유효소리 구간을 추출하기 위한 유효소리 구간 구분부;

상기 프레임 단위로 분리된 음원 데이타로부터 세미톤 값을 구하기 위한 피치 추출부;

상기 세미톤 값으로부터 불규칙한 신호를 필터링하는 평활화부; 및

상기 평활화된 데이타로부터 멜로디/박자를 결정하기 위한 멜로디/박자 결정부를 포함하며,

상기 멜로디/박자 결정부는

상기 세미톤 값의 차가 소정의 기준치보다 작은 구간을 구하고, 상기 구한 구간의 길이를 소정의 임계치와 비교하여 안정 구간을 정하며, 상기 안정구간의 시작 프레임과 종료 프레임을 결정하여 그 길이를 박자로 결정하며, 상기 안정구간내의 세미톤 값에 근거하여 음정을 결정하는 것을 특징으로 하는 음악적 특징 추출장치.
제 1 항에 있어서,

사용자로 부터 입력받은 음원 데이타를 정규화하기 위한 정규화부;

상기 음원 데이타에 대하여 유효하지 않은 범위의 주파수를 제거하기 위한 밴드패스 필터; 및

상기 음원 데이타에서 잡음을 제거하기 위한 잡음제거부를 추가로 포함하는 것을 특징으로 하는 음악적 특징 추출장치.
제 1 항에 있어서,

상기 유효소리 구간 구분부는 전역 임계값을 구하기 위한 수단;

배경잡음의 임계값을 구하기 위한 수단;

지역 임계값을 구하기 위한 수단; 및

일정시점에서의 신호크기와 상기 소정의 크기 임계값을 비교하기 위한 수단을 포함하며,

상기 소정의 크기 임계값은 상기 전역 임계값, 상기 배경잡음의 임계값 및 상기 지역 임계값 중의 적어도 어느 하나를 기초로 결정되는 것을 특징으로 하는 음악적 특징 추출장치.
음악적 특징 추출방법으로서,

상기 음원 데이타를 시간영역에서 소정의 크기를 갖는 프레임단위로 분리하는 제 1 단계;

상기 프레임 단위로 분리된 음원 데이터로부터 신호 크기를 추출하고, 상기 신호크기를 소정의 크기 임계치와 비교하여 유효소리 구간을 추출하는 제 2 단계;

상기 음원 데이타로부터 세미톤 값을 구하는 제 3 단계;

상기 음원 데이타로부터 불규칙한 신호를 필터링하여 평활화하는 제 4 단계; 및

상기 유효소리 구간에 따라 멜로디 및 박자를 결정하는 제 5 단계를 포함하고,

상기 제 5 단계는

상기 세미톤 값의 차가 소정의 기준치보다 작은 구간을 구하는 제 5-1 단계;

상기 구한 구간의 길이를 소정의 길이 임계치와 비교하여 안정 구간을 정하는 제 5-2 단계;

상기 안정구간의 시작 프레임과 종료 프레임을 결정하여 그 길이를 박자로 결정하는 제 5-3 단계; 및

상기 안정구간 내의 세미톤 값에 근거하여 음정을 결정하는 제 5-4 단계를 포함하는 것을 특징으로 하는 음악적 특징 추출방법.
제 4 항에 있어서,

상기 음원 데이타를 정규화하는 제 1 - 1 단계;

상기 음원 데이타로부터 유효하지 않은 범위의 주파수를 제거하기 위하여 밴드패스 필터링을 수행하는 제 1 - 2 단계; 및

상기 음원 데이타로부터 잡음을 제거하는 제 1 - 3 단계를 추가로 포함하는 것을 특징으로 하는 음악적 특징 추출방법.
제 4 항에 있어서,

상기 제 2 단계는 전역 임계값을 구하는 제 2 - 1 단계;

배경잡음의 임계값을 구하는 제 2 - 2 단계;

지역 임계값을 구하는 제 2 - 3 단계; 및

일정시점에서의 신호크기와 상기 소정의 크기 임계값을 비교하는 제 2-4단계를 포함하며,

상기 소정의 크기 임계값은 상기 전역 임계값, 상기 배경잡음의 임계값 및 상기 지역 임계값 중의 적어도 어느 하나를 기초로 결정되는 것을 특징으로 하는 음악적 특징 추출방법.