KR20060110988A

KR20060110988A - 베이즈법을 적용한 악기신호의 인식 및 장르분류 방법

Info

Publication number: KR20060110988A
Application number: KR1020050033260A
Authority: KR
Inventors: 김재천; 곽경섭
Original assignee: 인하대학교 산학협력단
Priority date: 2005-04-21
Filing date: 2005-04-21
Publication date: 2006-10-26
Also published as: KR100671505B1

Abstract

본 발명은 입력된 음악신호를 샘플링하여 특성값을 추출한 후 특성함수에 따른 악기신호의 특징을 베이즈 분류알고리즘을 통해 분석한 후 악기에 따른 음악 장르를 자동으로 분류하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법에 관한 것으로, 컴퓨터의 음악 분류시스템을 이용하여 음악데이터의 장르를 구분하는 방법에 있어서: 음악데이터 파일을 컴퓨터에 입력하는 제 1 단계; 상기 입력된 음악데이터를 샘플링하여 고속푸리에변환(FFT)을 수행하는 제 2 단계; 상기 고속푸리에변환(FFT) 신호를 분석하여 주파수 스펙트럼을 구한 후 주파수 성분의 크기와 분포에 기반한 특성함수를 바탕으로 특성값을 추출하는 제 3 단계; 및 상기 추출된 특성값을 베이즈법 분류알고리즘을 이용하여 음악데이터에 포함된 악기신호의 특징을 파악한 후 특정 장르로 분류하는 제 4 단계;를 포함하여 수행하는 것을 특징으로 한다.

Description

베이즈법을 적용한 악기신호의 인식 및 장르분류 방법{METHOD FOR CLASSIFYING A MUSIC GENRE AND RECOGNIZING A MUSICAL INSTRUMENT SIGNAL USING BAYES DECISION RULE}

도 1은 본 발명에 의한 청각모델을 적용한 음악파일 장르 분류 과정을 도시한 개략적인 흐름도이다.

도 2는 본 발명에 적용된 분류 시스템의 구조이다.

도 3은 본 발명에 적용된 입력된 데이터셋으로부터 특성값 벡터의 생성하는 과정을 도시한 도면이다.

도 4는 본 발명에 적용된 푸리에 합성을 설명하기 위해 도시한 도면이다.

도 5는 본 발명에 적용된 주파수 영역의 푸리에 분석을 설명하기 위해 도시한 도면이다.

도 6은 본 발명에 적용된 분류 시스템의 분류판단 경계를 설명하기 위해 도시한 도면이다.

도 7은 본 발명에 적용된 영교차율(ZCR)을 이용하여 기본주파수를 얻을 수 없는 경우를 설명하기 위해 도시한 도면이다.

본 발명은 악기신호를 인식하여 음악장르를 분류하는 시스템에 관한 것으로, 특히 입력된 음악신호를 샘플링하여 특성값을 추출한 후 특성함수에 따른 악기신호의 특징을 분석하여 음악 장르를 자동으로 분류하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법에 관한 것이다.

최근 컴퓨터 통신 기술의 발전과 컴퓨터 보급의 증가와 더불어 초고속통신망의 보급이 보편화되면서 일반 가정에서도 인터넷을 일상적으로 이용할 수 있게 되는 등 그 이용 추세가 급속히 확산되고 있다.

이에 부응하여 오프라인상 현실공간의 제약을 받지 않는 인터넷을 통한 다양한 온라인 사업화 및 엔터테인먼트가 활성화되고 있는 등 이제 인터넷은 우리 사회의 하나의 문화로 자리잡고 있다.

따라서 온라인으로 게임, 영화, 음악 등과 같은 서비스를 제공하는 수많은 엔터테인먼트 웹사이트들이 등장하여 운용 중에 있으며, 이 중 특히 온라인을 통해 접속한 사용자들에게 원하는 음악에 대한 재생 서비스 및 다운로드 서비스를 수행하고 있는 온라인 음악 서비스 웹사이트들 또한 사용자들로부터의 폭발적인 인기를 얻고 있다.

이와 같은 종래의 음악을 제공하는 웹사이트에서는 수많은 음악파일을 데이터베이스로 구축할 때, 각 음악파일에 대한 장르를 서비스제공자가 일일이 입력하여야만 하였다.

기존의 음악파일은 파일 제목의 텍스트를 기준으로 분류하였으며, 파일의 내용과 다른 제목이 붙여졌을 경우 이를 확인할 방법이 전혀 없었다.

음악파일의 내용을 인식하고 이를 자동으로 분류하게 된다면 급증하는 음악파일의 처리에 도움이 될 것이다.

본 발명의 목적은 입력된 음악신호를 샘플링하여 특성값을 추출한 후 특성함수에 따른 악기신호의 특징을 베이즈(Bayes) 분류시스템으로 분석하여 음악 장르를 자동으로 분류하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법을 제공하는 데 있다.

본 발명의 목적은 음악인식에 있어 퓨리에 변환처리 후 음악의 질감을 수치화할 수 있는 함수들을 이용하여 영교차율, 평균, 분산, 평균피크값, 군 등의 특성값을 추출하여 분류시스템을 구현함으로써, 악기 특성에 따른 장르분류의 정확성을 상당히 높임에 따라 악기에 따른 장르분류의 신뢰성을 높일 수 있는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 기술적 방법은, 컴퓨터의 음악 분류시스템을 이용하여 음악데이터의 장르를 구분하는 방법에 있어서: 음악데이터 파일을 컴퓨터에 입력하는 제 1 단계; 상기 입력된 음악데이터를 샘플링하여 고속푸리에변 환(FFT)을 수행하는 제 2 단계; 상기 고속푸리에변환(FFT) 신호를 분석하여 주파수 스펙트럼을 구한 후 주파수 성분의 크기와 분포에 기반한 특성함수를 바탕으로 특성값을 추출하는 제 3 단계; 및 상기 추출된 특성값을 베이즈(Bayes' Decision Rule) 분류알고리즘을 이용하여 음악데이터에 포함된 악기신호의 특징을 파악한 후 특정 장르로 분류하는 제 4 단계;를 포함하는 것을 특징으로 한다.

구체적으로, 상기 제 1 단계를 수행하기 전 분류시스템은 소정의 샘플데이터를 이용하여 미지의 파라미터값을 찾아 장르를 분류한 학습데이터 셋을 미리 구비하는 것을 특징으로 하며, 상기 특성값은, 신호의 기본주파수를 지칭하는 영교차율; 한정된 데이터 집합을 이용한 평균과 분산; 신호의 피크레벨의 평균값으로 아래 수학식과 같이 일정한 임계값을 초과하는 신호는 피크로 간주하고 피크의 빈도와 세기를 측정하는 평균피크값(Average peak level); 및 학습데이터로 인한 소속된 범주를 지칭하는 군;들 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 한다.

단, x(t)는 측정된 피크의 크기이고

는 피크의 빈도이다.

또한, 상기 제 4 단계의 베이즈 분류알고리즘은, 확률이론에 근거하여 타협점을 정량화하게 되는데, 전체 군을 복수의 군(

,

)으로 분류하는 단계; 상기 복수의 군으로 나눈 후 각 군의 확률분포를 계산하는 단계; 상기 확률분포를 계산한 후 미지의 개체 상태(

; 음악파일)를 만나면 확률적으로 가장 큰 군(

)에 속할 것이라고 예측하는 단계; 상기 미리 예측한 값에 아래 수학식에 의해 군(장르)을 결정하는 단계;를 구비하는 것을 특징으로 한다.

i)

:

-> 임의의 개체

는 가장 큰 군인

에 속할 것이라 예측함.

ii)

:

iii)

:

-> 왼쪽항이 더 크다면 어떤 객체

는

에 속할 것이고 오른쪽항이 더 크다면 객체

는

에 속한다고 결정함.

단, 상기 수학식에서

는 개체의 상태이고, P(

)는 개체의 상태가

일 확률이고, P(

)+P(

)=1이며, P(

|

)는

상태일 때

일 조건부확률이며, P(

|

)는

군에 속할 때

상태일 확률임.

상기 전체 군을 복수의 군로 분류하는 과정은, c개의 판별함수(

)를 계산하여 가장 큰 값으로 분류하는 데, g _i (

)＞g _j (

)(i≠j)를 만족하면 특성값

를

군으로 분류하는 것을 특징으로 한다.

상기 베이즈 분류알고리즘은 사전확률(

)와 조건부확률 밀도 함수(

)에 의해 결정되며, 상기 밀도함수는 정규밀도분포함수로 아래 수학식과 같 이 표현되는 것을 특징으로 한다.

단,

군의 특성벡터 x가 정형(prototype) 벡터

에 기반할 경우를 모델링한 것으로, x는 d차원의 열벡터이고,

는 d차원의 평균(mean) 벡터이고,

는 d-by-d 공분산(covariance) 행렬임.

또한, 상기 분류시스템은 패턴인식을 위해 데이터 집합을 같은 크기의 n부분으로 나누고, (n-1)부분은 분류시스템을 학습시키기 위해 사용하며, 나머지 n번째 부분은 학습된 시스템을 시험하기 위해 사용하는 10분 교차 훈련법(ten-fold cross-validation)을 사용한 것을 특징으로 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세하게 살펴보고자 한다.

도 1은 본 발명에 의한 청각모델을 적용한 음악파일 장르 분류 과정을 도시한 개략적인 흐름도이고, 도 2는 본 발명에 적용된 분류 시스템의 구조이다.

각각의 음악데이터 샘플(wav file)은 15초 정도의 길이를 가지고 있으며 CD, MP3 파일로부터 추출한다.

이를 고속푸리에변환(이하, FFT라 칭함) 분석하여 주파수 스펙트럼을 구한 후 이를 바탕으로 특성값들을 구한다. 음악신호의 FFT 분석시에는 왜곡을 최소화하 기 위해 샘플링 주파수를 충분히 크게 하는 것이 바람직하다.

FFT 분석의 안정성을 위해 직각 윈도우함수(rectangular window) 대신 윈도우함수 양끝의 포락선이 완만한 해닝윈도우함수(Hanning window function)를 사용한다.

상기 추출된 특성값은 베이즈(Bayes') 분류알고리즘을 이용하여 특정 장르로 분류한다.

이와 같은 과정을 통해 수행되는 음악장르 분석의 핵심은 악기신호를 구분하는 특질을 찾아내는 것이다. 직접적인 비교가 불가능한 두 악기의 동질성과 이질성을 찾아내는 것이 문제의 핵심이며, 비교를 위해서 음악에서 추출된 데이터를 변환하고 본 발명에서 특성값 추출이라 칭하는 처리과정을 거치게 된다.

도 2는 d개의 입력 x_i와 c개의 특성값 판별함수 g_i(x)로 구성된 분류시스템의 구조로서, 각각의 판별함수는 범주 w_i와 관계되고 g_i(x)가 최대가 되는 범주로 분류한다.

특성값 추출은 분류기법에 사용되는 전처리 단계로서 특성값은 도 3과 같이 음악파일로부터 추출한 원데이터(raw data)를 변환함으로서 얻어지는 데, 원데이터를 직접 사용하여 음악을 비교할 수도 있으나, 데이터 셋의 차원이 매우 높고 중복되는 부분이 많기 때문에 흔히 사용되는 방법은 아니다.

한편, 특성값을 표기하는 방법을 살펴보면 아래와 같다.

특성값 벡터(Feature Vector) x는 데이터처리에 사용되는 d차원의 한 개의 벡터이다: x = (x1,...,xn). 각각의 각각의 특성값 벡터는 특성공간의 한 점으로 볼 수 있다. n개의 구성요소로 이루어진 패턴셋은 아래 수학식 1과 같이 표기한다.

X = {x1, ... , xn}

일반적으로 패턴셋은 n

d 차원의 행렬로 이루어져 있는 데, 아래 사항에 유의하여 특성값을 선택하여야 한다.

첫째, 유사한 객체는 특성공간상에서 인접하여 위치해야 하며, 판단경계에 의해 구분되는 영역간의 거리는 가능한 멀어야 한다. 그러나 근접성이 필수불가결한 것은 아니며, 분류기에 따라 하나의 영역이 다른 영역과 충분히 구분될 정도이면 된다.

둘째, 특성값은 데이터에 담긴 중요한 정보들을 내재하고 있어야 하는 데, 데이터는 손실없이 처리되어야 하고 특성값을 통해 원신호를 회복할 수 있어야 한다. 변환처리에 사용되는 푸리에 변환이 좋은 예로서 가역적인 특성을 가지고 있다.

일반적으로 계산의 효율성과 성공적인 수행을 위해 입력데이터의 차원을 낮추어야 한다. 사운드분야에서는 다음 장에서 논할 푸리에 변환이 대표적인 처리 방법이다.

아울러, 음악신호처리 과정에서 푸리에 분석은 신호를 사인파 또는 코사인파로 분해하는 일련의 수학적인 작업이다. 시간영역(시간 경과에 따른 크기의 변화)의 소리신호 파형은 소리분석에 있어 큰 효용이 없다. 신호를 구성하는 주파수성분 의 진동수, 위상, 크기를 통해 소리의 특성을 파악할 수 있다.

인간의 청각시스템의 처리방식과 유사한 방법으로 주파수성분을 분석함으로 서 음악신호에 담긴 정보를 파악할 수 있는 데, 위와 같은 작업을 행하는데 필요한 기본 이론들에 대하여 설명하고자 한다.

첫째, 정현파의 중첩이 있으며, 이는 프랑스이 수학자이자 물리학자인 푸리에(1768~1830)는 주기적인 신호는 적절한 정현파의 합으로 나타낼 수 있음을 밝혔다.

x축으로부터 단위 원을 따라 반시계 방향으로 측정한 각을 θ라 한다. sinθ는 해당하는 원주상 점의 수직좌표이다. 2π의 주기를 가지고 있으며 θ는 2πf로 표현한다.

여기서 A는 파형의 크기이며 f는 주파수,

는 위상각을 나타낸다.

아무리 복잡한 신호파형도 위와 같은 sin 함수를 더하여 구현할 수 있다. 도 4와 같이 정현파를 중첩시켜서 신호를 구현하는 것을 푸리에 합성이라 한다.

도 4에서 위의 두 파형은 주파수가 다른 정현파이고 가장 아래 파형은 위 두 정현파의 합을 나타낸 것이다.

푸리에 변환은 푸리에 합성의 역과정으로 푸리에 분석은 신호를 단순한 정현파로 나누는 것을 말한다.

푸리에 분석을 행함으로서 어떤 신호의 정현파 성분을 볼 수 있고 어떤 성분의 영향이 가장 큰 지를 파악할 수 있다. 푸리에 변환 수식은 아래 수학식 3과 같다.

그 역변환은 아래 수학식 4와 같다.

상기에서 x(t)는 시간의 함수이고, X(f)는 주파수함수이며,

이다.

푸리에 변환을 행함으로서 시간영역의 신호를 주파수영역의 신호로 변환한다.

도 5는 시간영역의 그래프인 도 4의 주파수영역 그래프로서, 도 4의 신호의 푸리에 분석(PSD)을 나타낸다.

푸리에 변환은 이론적으로 무한길이의 신호에 적용할 수 있다. 전체 신호의 주파수성분을 보여준다. 그러나 비주기신호의 경우 다른 처리방법이 필요하다.

일반적으로 소리신호를 구분하는데 사용하는 두가지 특성은 물리적 특성과 인지적 특성이다. 상기 물리적 특성은 소리신호의 수학적, 통계적 분석에 기반한다. 주파수, 에너지, zero-crossing등을 물리적 특성값의 예로 들 수 있다.

그리고, 인지적 특성은 인간이 소리를 인식하는 방법인 음고(Pitch), 음색(Timbre), 리듬에 기반한다.

인간의 소리인식은 물리적인 소리신호를 인식하는 것이기 때문에 물리적 특성과 인지적 특성은 어느정도 연관성을 가지고 있다. 이중 명백한 연관성을 나타내는 것의 예를 들면 물리적인 신호의 크기(Amplitude)는 인식되는 소리의 크기(Loudness)에 대응된다.

물리적인 신호의 주파수는 인식되는 소리의 음고와 직결된다. 그러나 좀 더 자세히 살펴보면 이는 피상적인 관찰일 뿐이다. 예를 들면 인식상의 주관적인 소리의 크기는 신호의 주파수성분의 분포와 관련이 있다. 일반적으로 인지적인 특성들은 물리적인 특성의 복합적인 작용에 의해 결정되기 때문에 수학적으로 표현하는데 어려움이 있다. 현재로서는 두가지 특성을 엄격히 구분하여 사용하는 것은 실익이 없다.

인지적인 특성을 구하기 위해 물리적인 특성들을 이용한다. 예를 들면 인지적 특성인 음고를 구하기 위해 음고의 인식에 중요하다고 판단되는 물리적 특성들을 동원하여 인지적 특성을 구현한다. 진정한 인지시스템을 구현하고자 한다면 특성값 추출에서부터 인지적 모델을 사용하여야 할 것이다. 즉, 인간의 청각시스템이 소리를 인식하는 방식으로 시스템을 구현해야 할 것이다. 이러한 접근방법은 소리신호 분석에 최적의 모델이 될 것이나 현재 인간의 인지과정에 대한 이해는 이러한 시스템을 구현하기에는 아직 부족하다.

한편, 특성값 추출 시스템은 특정한 상황에 적합하도록 설계되어야 하는 데, 기본적으로 영역(domain)에 종속적이다. 반면에 분류 기법은 영역으로부터 독립적인 작업이다. 이는 특성값 추출은 일종의 압축단계로서 영역에 종속적인 데이터를 일반적인 수치표현으로 옮기는 작업으로 이해할 수 있다. 이렇게 변환된 일반적인 수치는 분류시스템의 작업대상이 된다.

특성값 추출은 음악, 음향심리학, 신호처리 등 다양한 분야에 대한 이해가 필수적이고, 음성인식의 경우 기존 연구가 많이 축적되어 있어 음악인식에 필요한 다양한 도구를 제공할 수 있다.

도 2와 같은 분류 시스템의 기본 구성요소 및 그 요건에 대해 살펴보면 아래와 같다.

■ 설계요소

분류시스템의 설계에 있어서 고려해야 할 요소는 특성값의 선택, 특성값의 수, 데이터거리 측정, 시스템의 신뢰성 등으로, 분류시스템은 가공되지 않은 데이터(raw data)를 다루지 않는다. 특성값만을 분류대상으로 사용하므로 적절한 특성값의 추출은 분류시스템 설계에 있어 필수적이다.

■ 해결해야할 과제

두 가지 요인이 같은 범주에 속하는 패턴의 차이를 발생시키는 데, 첫째 시스템에 사용된 모델에서 기인할 경우이다. 모델이 단순할 경우 정제되지 않은 데이터를 출력하고 이 모델에 대한 정보가 없는 사용자는 큰 혼란을 겪게 된다.

둘째, 의도하지 않은 잡음에 의한 차이발생이다. 어떤 원인에 의하여 차이가 발생했는지 안다면 이에 대처할 수 있다.

■ 시스템의 훈련 및 학습

분류시스템의 형태의 결정과 학습을 통한 파라미터값의 설정은 특정분류시스템 설계의 핵심이고, 여기서 학습이라 함은 샘플데이터를 이용하여 미지의 파라미터값을 찾는 과정이다. 분류는 감독학습(supervised learning)으로 볼 수 있다. 상태를 알고 있는 특성값을 사용하여 분류시스템을 학습시킨다. 이렇게 학습된 분류시스템은 미지의 특성값을 입력받아 분류결과를 출력한다.

비감독학습(unsupervised learning; clustering)의 경우, 미리 정해진 상태를 사용하지 않고 시스템 자신이 결정한 기준으로 분류한다.

■ 판단경계의 일반화

학습 과정에 있어서 판단경계의 일반화 적절한 타협점을 찾는 과정으로, 만일 분류시스템이 트레이닝 데이터에 최적화된다면 미지의 데이터에 대한 분류 정확도는 감소할 것이다. 적절한 타협점을 찾음으로서 시스템의 성능을 높일 수 있다. 학습 데이터에 의해 결정된 경계는 적절한 타협점으로 일반화되어야 한다.

도 6a는 학습 데이터의 경우 완벽한 성공률을 보이지만 미지의 데이터의 경우 실패율이 높아지는 반면, 도 6b는 학습 데이터에 최적화되지는 않았지만 전체적인 성공률은 높아진다.

한편, 이하에서는 본 발명에서 음악인식에 사용된 베이지안 추정 및 분류알고리즘을 살펴보고자 한다.

분류시스템의 목표는 판단성공률을 높이는 것이다. 베이지안 판단이론은 이러한 접근방법의 하나로서, 확률이론에 근거하여 타협점(tradeoff)을 정량화한다.

x는 개체의 상태이며 P(x)는 개체의 상태가 x일 확률이다.

는 군(class)으로서 전체 군을 몇가지 상태로 구분한 것이다. 예를 들면

=재즈,

=국악,

=클래식 이라 하면 P(

)+P(

)=1이다.

P(

|x)는 x 상태일 때

일 조건부확률이며, P(x|

)는

군에 속할 때

상태일 확률이다.

상기 수학식 5에서 P(x,

)는 두 사건 동시에 일어날 확률이다.

이므로 수학식 6을 수학식 7로 정리한다.

상기 수학식 7을 수학식 5에 대입하면,

와 같이 되며, 수학식 8을 사후확률(posterior probability)이라 한다.

예를 들어, 전체 군을

,

으로 나누었다면

이 된다. 예컨데

,

그리고

일 경우 미지의

를 만난다면 시스템은

를

으로 분류하게 된다. 따라서 어떤 개체가 x라는 상태에 있으면

값이 가장 큰

에

가 속할 것이라고 예측한다.

라 가정하면 어떤 객체가

라는 상태일 때

군에 속한다고 예측한다. 수학식 9의 좌우변을 모두 치환하면, 수학식 10과 된다.

수학식 10을 정리하면

과 같이 되며, 수학식 11을 베이즈 추정법(Bayes' decision rule)이라 한다.

상기 수학식 9, 10, 11에서 왼쪽항이 더 크다면 어떤 객체

는

에 속할 것이고 오른쪽항이 더 크다면 객체 x는

에 속할 것이다. 양쪽항 모두 학습 을 통해 알 수 있는 값으로, 왼쪽항은 우도비(likelihood ratio), 오른쪽항은 문턱값(threshold)라고 한다.

한편, 판별함수(Discriminant Function)는 도 2와 같이 c개의

판별함수를 계산하여 가장 큰 값으로 분류하는 네트워크로 표현할 수 있고,

를 만족하면 특성값

를

군으로 분류한다.

베이즈 분류시스템이 최소 에러비(error ratio)를 가질 경우, 판별함수의 최대값은 최대사후 확률에 해당한다. 따라서, g_i(x)=

이며 판별함수를 수학식 12와 같이 나타낼 수 있다.

상기에서 설명한 바와 같이 베이즈 분류시스템은 사전확률

와 조건부확률 밀도 함수

에 의해 결정되며, 정규밀도분포(Normal Density Distribution)는 가장 일반적인 밀도분포로서, 정규밀도 분포함수는

군의 특성벡터 x가 정형(prototype)벡터

에 기반할 경우를 모델링한 것이고, d차원의 정규밀도 함수는 수학식 13과 같이 표현할 수 있다.

수학식 13에서 x는 d 차원의 열벡터이고,

는 d 차원의 평균(mean) 벡터이며,

는 d-by-d 공분산(covariance) 행렬이다.

상기 수학식 13을 단순화된 표현은 수학식 14와 같다.

또한, 기대값

은 수학식 15와 같다.

또한, 공분산(covariance) 행렬은 수학식 16과 같다.

만일, 데이터가 정규분포를 이루고 평균(

)과 공분산(

) 값을 알고 있으면, 군 판별함수의 조건부밀도함수인

은 수학식 13에 정의된 정규밀도 함수로 대체할 수 있다.

정규밀도 함수는 강력한 도구로서 분류객체가 정규분포 성질을 가지고 있을 때에만 적용할 수 있으나, 자연상태에서 정규분포는 그리 흔한 경우는 아니다.

실제 분류시스템에서의 전형적인 문제는 다음과 같다.

■ 완전한 확률분포구조에 대하여 알 수 없으므로 정규밀도와 같은 표준적인 분포모델을 따른다고 가정한다. 이런 경우, 평균벡터

와 같이 조건부확률밀도함수의 계수(parameter)들을 결정해야 한다.

■ 실제 데이터의 구조는 미리 알 수 없으므로 분류시스템은 학습 데이터를 통해서 정보를 얻어야 한다.

대부분의 분류상황에서 확률의 밀도분포는 알 수 없으므로 일반적인 분포형태에 대한 가정을 해야 한다. 일반적인 형태의 분포를 결정하는 것은 함수의 계수만 결정하면 되므로 분류시스템의 구현이 용이해진다. 미지의 확률분포는 샘플데이터를 이용한 학습을 통해 구해진다. 예를 들면,

를 정규분포라 가정하면 평균(

)와 공분산(

)값만 찾아내면 된다.

실시예

같은 데이터그룹을 이용하여 베이즈법을 사용하여 분류성능을 측정한다.

실험의 데이터로는 국악기인 대금과 가야금의 표본을 사용하였고, 표본은 44.1k, 각각의 악기마다 15초 길이의 60개 데이터를 준비했다. 한 개의 표본마다 5개의 특성값을 추출하였다.

분류시스템은 10분 교차유효화(ten-fold cross-validation)를 사용하여 훈련하였다. 교차유효화(cross-validation)는 패턴인식에서 사용하는 일반적인 훈련기법으로 데이터집합은 같은 크기의 n부분으로 나뉘어지고 n-1부분은 분류시스템를 학습시키기 위해 사용한다. 나머지 n번째 부분은 학습된 시스템을 시험하기 위해 사용한다.

이와 같이 특성값 추출을 위한 음악신호의 특성을 분석하는 다양한 처리함수들이 존재하며, 음악신호에 적합한 특성값의 종류(처리함수)들을 정리해 보면 다음과 같다.

첫째, 영교차율(Average Zero-Crossing Rate; ZCR)로서 영교차율은 이산신호가 서로 다른 값을 가질 때 발생한다. 따라서 영교차율의 빈도는 신호의 기본주파수(fundamental frequency)와 밀접한 관련이 있다.

정현파와 같은 단순한 신호의 경우 ZCR 값은 주파수를 나타낸다. 정현파는 한주기당 영점축을 두 번 지나가므로 ZCR 값을 2로 나누면 주파수가 된다. 그러나 모든 경우에 적용되지는 않는다.

도 7b에서 보듯이 부분적으로 기본주파수보다 높은 주파수로 진동하는 신호의 경우엔 한주기당 영점축을 관통하는 횟수가 많아진다.

도 7은 ZCR을 이용하여 기본주파수를 얻을 수 없는 경우의 예를 도시한 것으로, 도 7a의 신호는 ZCR/2가 기본주파수가 되지만, 도 7b의 신호는 한주기당 여러 차례 x축을 관통하므로 ZCR을 이용하여 기본주파수를 구할 수 없다.

기본주파수를 찾는 일은 악보작성시스템과 멜로디인식시스템에 매우 중요하 다. 그러나 음악장르 시스템에서 기본주파수는 큰 중요성을 갖지 않는다. 여러 가지 악기와 목소리, 효과음으로 구성된 음악에서 기본주파수를 찾는 일은 매우 어렵다. 실제로 찾는다 해도 큰 의미를 부여하기는 어렵다. 만일 기본주파수를 찾아서 멜로디라인을 구한다 해도 음악장르 구분에는 도움을 주지 못한다. 동일한 멜로디를 연주하는 록그룹과 재즈밴드를 연상하면 쉽게 이해할 수 있다.

기본주파수를 이용한 특성값을 사용하여 비디오 조각 및 분류 시스템을 구현한 연구가 보고되었다. 이 분야는 복잡한 비음성 소리신호를 다룬다는 점에서 음악인식 시스템과 유사하다. ZCR은 시간영역의 특성값으로 처리시간이 빠르고 시간에 따른 ZCR 변화를 분석하고 통계적 특성을 이용하여 음성(voiced) 신호와 비음성 신호를 구분하는데 주로 사용되었다.

음성신호는 비음성신호보다 작은 ZCR 값을 갖지며, ZCR 특성은 아래 수학식 17로 계산한다.

여기서,

그리고

이다.

상기 m은 단시간(short-time) 함수의 윈도우 크기이다. 음악은 일정시간 동안 안정적인 경향이 있기 때문에 음성신호보다 작은 ZCR 특성 편차(variance)를 갖 는다. 발자국 소리, 새의 지저귐 소리도 음성신호와 유사한 특성을 가지며, 같은 악기 중에서도 피아노와 같은 단속적인 소리는 현악기보다 음성과 유사한 특성을 보인다.

둘째, 평균과 분산으로서, 신호의 평균 및 분산값으로 일반적인 인식시스템에서는 사용하지 않는다. 그러나 본 발명에서는 한정된 데이터집합을 이용해 시스템을 시험하는 것이므로 유용하게 사용된다.

셋째, 평균 피크값으로, 평균피크값(Average peak level)은 신호의 피크레벨의 평균값이다. 일정한 임계값을 초과하는 신호는 피크로 간주하고 피크의 빈도와 세기를 측정한다. 음압 또는 음량에 따른 악기의 특성을 수치화한다.

x(t)는 측정된 피크의 크기이고

는 피크의 빈도이다.

넷째, 군(class)으로, 군은 학습데이터가 소속된 범주를 말한다. 본 분류시스템은 감독학습(supervised learning)의 일종으로 데이터의 군을 이용하여 학습한다.

실험예

대금, 아쟁, 거문고를 이용하여 특성값 추출의 예로서, 왼쪽부터 평균, 분산, 영교차율, 평균피크값을 나타낸다.

■ 데이터

-0.001545, 0.000253, 7121.000000, 0.026573, taegum

-0.002432, 0.000938, 20071.000000, 0.058750, taegum

-0.002159, 0.000727, 19570.000000, 0.046796, taegum

-0.000590, 0.000593, 9800.000000, 0.051839, ajang

-0.000470, 0.000772, 12630.000000, 0.053978, ajang

-0.000492, 0.000481, 7899.000000, 0.039112, ajang

-0.000096, 0.000070, 913.000000, 0.010253, geomungo

-0.000091, 0.000112, 1435.000000, 0.012191, geomungo

-0.000118, 0.000426, 2815.000000, 0.023039, geomungo

이고, 베이즈법 실험결과 표 1과 같다.

구분	대금 출력	아쟁 출력	거문고 출력	현대바이올린	바로크첼로
대금입력	19	1	0	0	0
아쟁입력	1	19	0	0	0
거문고입력	0	0	20	0	0
현대바이올린	0	0	0	20	0
바로크첼로	0	0	0	1	19

상기 표 1에서 보듯이 베이즈법(Bayes rule)의 실험 결과 분류성공률 96.6667% 정도가 됨을 알 수 있다.

아래 표 2는 베이즈법(Bayes rule)의 군별 세부 정확도로서, 군에서 TP rate(True Positive rate)는 특정군의 요소로서 해당 군으로 분류된 것을 말한다.

FP rate(False Positive rate) 특정군의 요소가 아니면서 특정군으로 분류된 것을 말한다.

FN rate(False Negative rate)는 특정군의 요소로서 다른 군으로 분류된 것을 나타낸다.

정확성(Precision)은 아래와 같이 특정 클래스로 분류된 모든 요소들 중에서 정확히 분류된 요소들의 비를 나타낸다.

Recall은 아래와 같이 특정군에 속하는 모든 요소들 중에서 정확히 분류된 요소들의 비를 나타낸다.

F-measure는 Precision과 Recall을 통합한 파라미터로서 Recall과 Precision 이 모두 필요할 때 사용한다.

구분	TP rate	FP rate	Precision	Recall	F-Measure
대금	0.95	0.025	0.95	0.95	0.95
아쟁	0.95	0.025	0.95	0.95	0.95
거문고	1	0	1	1	1

상기에서 본 발명의 특정한 실시예가 설명 및 도시되었지만, 본 발명이 당업자에 의해 다양하게 변형되어 실시될 가능성이 있는 것은 자명한 일이다. 이와 같은 변형된 실시예들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안되며, 본 발명에 첨부된 청구범위 안에 속한다고 해야 할 것이다.

따라서, 본 발명에서는 음악인식에 있어 퓨리에 변환처리 후 음악의 질감을 수치화할 수 있는 함수들을 이용하여 영교차율, 평균, 분산, 평균피크값, 군 등의 특성값을 추출하여 분류시스템을 구현함으로써, 악기 특성에 따른 장르분류의 정확성을 대략 96.6% 이상으로 상당히 높임에 따라 악기에 따른 장르분류의 신뢰성을 높였고, 또한 음원 파일을 샘플링하여 자동으로 음악장르를 분류하거나 음원데이터를 이용하여 음악제목 등을 추적할 수 있는 이점이 있다.

Claims

컴퓨터의 음악 분류시스템을 이용하여 음악데이터의 장르를 구분하는 방법에 있어서:

음악데이터 파일을 컴퓨터에 입력하는 제 1 단계;

상기 입력된 음악데이터를 샘플링하여 고속푸리에변환(FFT)을 수행하는 제 2 단계;

상기 고속푸리에변환(FFT) 신호를 분석하여 주파수 스펙트럼을 구한 후 주파수 성분의 크기와 분포에 기반한 특성함수를 바탕으로 특성값을 추출하는 제 3 단계; 및

상기 추출된 특성값을 베이즈(Bayes') 분류알고리즘을 이용하여 음악데이터에 포함된 악기신호의 특징을 파악한 후 특정 장르로 분류하는 제 4 단계;를 포함하는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.
청구항 1에 있어서,

상기 제 1 단계를 수행하기 전 분류시스템은 소정의 샘플데이터를 이용하여 미지의 파라미터값을 찾아 악기 및 장르를 분류한 학습데이터 셋을 미리 구비하는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.
청구항 1에 있어서,

상기 특성값은, 신호의 기본주파수를 지칭하는 영교차율; 한정된 데이터 집합을 이용한 평균과 분산; 신호의 피크레벨의 평균값으로 수학식 21과 같이 일정한 임계값을 초과하는 신호는 피크로 간주하고 피크의 빈도와 세기를 측정하는 평균피크값(Average peak level); 및 학습데이터로 인한 소속된 범주를 지칭하는 군;들 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.

x(t)는 측정된 피크의 크기이고
는 피크의 빈도이다.
청구항 1에 있어서,

상기 제 4 단계의 베이즈 분류알고리즘은,

악기신호에 따른 장르의 판단 성공률을 높이기 위해 확률이론에 근거하여 타협점을 정량화한 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.
청구항 1에 있어서,

상기 제 4 단계의 베이즈 분류알고리즘은,

전체 군을 복수의 군(
,
,
)으로 분류하는 단계; 상기 복수의 군으로 나눈 후 각 군의 확률분포를 계산하는 단계; 상기 확률분포를 계산한 후 미지의 개체 상태(
)를 만나면 확률적으로 가장 큰 군(
)에 속할 것이라고 예측하는 단계; 상기 미리 예측한 값에 아래 수학식 22에 의해 군(장르)을 결정하는 단계;를 구비하는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.

i) :

-> 임의의 개체
는 가장 큰 군인
에 속할 것이라 예측함.

ii)
:

iii)
:

-> 왼쪽항이 더 크다면 어떤 객체
는
에 속할 것이고 오른쪽항이 더 크다면 객체
는
에 속한다고 결정함.

단, 상기 수학식 22에서
는 개체의 상태이고, P(
)는 개체의 상태가
일 확률이고, P(
)+P(
)=1이며, P(
|
)는
상태일 때
일 조건부확률이며, P(
|
)는
군에 속할 때
상태일 확률임.
청구항 5에 있어서,

상기 전체 군을 복수의 군로 분류하는 과정은,

c개의 판별함수(
)를 계산하여 가장 큰 값으로 분류하는 데, g _i (
)＞g _j (
)(i≠j)를 만족하면 특성값
를
군으로 분류하는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.
청구항 1에 있어서,

상기 베이즈 분류알고리즘은 사전확률(
)와 조건부확률 밀도 함수(
)에 의해 결정되며, 상기 밀도함수는 정규밀도분포함수로 아래 수학식 23과 같이 표현되는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.

단,
군의 특성벡터 x가 정형(prototype) 벡터
에 기반할 경우를 모델링한 것으로, x는 d차원의 열벡터이고,
는 d차원의 평균(mean) 벡터이고,
는 d-by-d 공분산(covariance) 행렬임.
청구항 7에 있어서,

상기 공분산 행렬은 아래 수학식 24와 같은 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.

여기서,
는 기댓값으로,
와 같음.
청구항 7에 있어서,

데이터가 정규분포를 이루고 평균(
)과 공분산(
)값을 알고 있으면 군 판별함수의 조건부밀도함수인
은 수학식 23에 정의된 정규밀도함수로 대체할 수 있는 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.
청구항 1에 있어서,

상기 베이즈 분류시스템은 패턴인식을 위해 데이터 집합을 같은 크기의 n부분으로 나누고, (n-1)부분은 분류시스템을 학습시키기 위해 사용하며, 나머지 n번째 부분은 학습된 시스템을 시험하기 위해 사용하는 10분 교차 훈련법(ten-fold cross-validation)을 사용한 것을 특징으로 하는 베이즈법을 이용한 악기신호의 인식 및 장르분류 방법.