KR101069232B1

KR101069232B1 - 음악 장르 분류 방법 및 장치

Info

Publication number: KR101069232B1
Application number: KR1020090071198A
Authority: KR
Inventors: 이지형; 정혜욱; 방성우
Original assignee: 성균관대학교산학협력단
Priority date: 2009-08-03
Filing date: 2009-08-03
Publication date: 2011-10-04
Also published as: KR20110013646A

Abstract

음악 장르 분류 방법은 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계 및 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로 오디오 파일들을 클러스터링하여 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고, 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 오디오 신호에 상응하는 독립 신호들을 생성하는 단계, 생성된 독립 신호들이 가진 에너지를 기초로 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계, 주 신호로부터 오디오 특성 파라미터를 추출하는 단계 및 추출된 오디오 특성 파라미터를 기초로 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함한다.

Description

음악 장르 분류 방법 및 장치{Apparatus and method for classifying music genre}

개시된 기술은 음악 파일을 장르에 따라 분류하는 방법 및 장치에 관한 것이다.

MP3 플레이어의 보급 확대와 디지털 음악 파일의 대중화로 인해, 개인이 보유하는 음악 파일들의 수는 크게 늘어나고 있으며, 이러한 음악 파일들을 효율적으로 검색 및 관리하는 것이 중요하다. 이러한 음악 파일의 검색 및 관리를 위해, 음악 내용(contents)에 기반하여 음악 파일을 장르에 따라 분류할 필요가 있다.

실시예들 중에서, 음악 장르 분류 방법은 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계, 및 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고, 상기 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는 상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 단계, 상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계, 상기 주 신호로부터 오디오 특성 파라미터를 추출하는 단계, 및 상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함한다.

실시예들 중에서, 음악 장르 분류 장치는 복수의 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성하는 모델 생성부, 및 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 오디오 파일 분류부를 포함하고, 상기 모델 생성부는 상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립 성분 분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 독립 성분 분석부, 상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 주 신호 선정부, 상기 주 신호로부터 오디오 특성 파라미터를 추출하는 특성 추출부, 및 상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 HMM 생성부를 포함한다.

개시된 기술에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 개시된 기술의 일 실시예에 따른 음악 장르 분류 장치의 구성을 나타내는 블록도이다.

도 1을 참조하면, 음악 장르 분류 장치(1000)는 모델 생성부(110) 및 오디오 파일 분류부(150)를 포함하고, 모델 생성부(110)는 디코더(115), 독립 성분 분석부(120), 주 신호 선정부(125), 특성 추출부(130) 및 HMM 생성부(135)를 포함하며, 오디오 파일 분류부(150)는 유사도 측정부(155) 및 클러스터링부(160)를 포함한다.

모델 생성부(110)는 복수의 오디오 파일들을 수신하여, 오디오 파일들에 각각 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성한다.

오디오 파일 분류부(150)는 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로 오디오 파일들을 클러스터링하여, 오디오 파일들을 음악 장르별로 분류한다.

디코더(115)는 오디오 파일을 디코딩하여 오디오 신호를 생성한다.

독립 성분 분석부(120)는 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 복수의 독립 신호들로 분리한다. 독립성분분석(ICA)은 선형적으로 혼합된(mixing) 신호들로부터 통계적으로 상호 독립적인 신호들을 분리하는 기술이다.

주 신호 선정부(125)는 독립 신호들이 가진 에너지를 기초로, 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정한다. 예를 들어, 주 신호 선정부(125)는 독립 신호들이 가지는 에너지들을 비교하여, 독립 신호들 중 가장 많은 에너지를 가진 독립 신호를 주 신호로 선정할 수 있다. 이를 통해, 음악 장르 분류 장치(1000)는 오디오 신호에서 음악 장르를 결정하는데 있어서 장애가 되는 신호를 제거하여, 보다 정확하게 오디오 파일의 장르를 결정할 수 있다.

특성 추출부(130)는 주 신호로부터 오디오 특성을 나타내는 파라미터인 오디오 특성 파라미터를 추출한다. 예를 들어, 특성 추출부(130)는 주 신호로부터 MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)를 추출할 수 있다.

HMM 생성부(135)는 은닉 마코프 모델링 기법을 사용하여 추출된 오디오 파라미터를 확률적으로 가장 잘 표현할 수 있는 확률 모델을 생성한다. 예를 들어, HMM 생성부(135)는 Baum-Welch 알고리즘 또는 Segmental K-means 알고리즘을 이용하여 확률 모델을 훈련시키는 과정을 통하여, 추출된 MFCC에 따른 은닉 마코프 모델을 생성할 수 있다.

유사도 측정부(155)는 은닉 마코프 모델(HMM)들 간의 유사도를 측정한다. 예를 들어, 유사도 측정부(155)는 DTW(동적 정합법, Dynamic Time Warping)를 사용하여 은닉 마코프 모델(HMM)들 간의 유사도를 측정할 수 있다.

클러스터링부(160)는 측정된 유사도를 기초로, 오디오 파일들을 클러스터링한다. 예를 들어, 클러스터링부(160)는 측정된 유사도를 기초로, MCL 알고리즘(Markov clustering algorithm)을 사용하여 오디오 파일들을 클러스터링할 수 있다. 이를 통해, 음악 장르 분류 장치는 복수의 오디오 파일들을 음악 장르별로 분류할 수 있다.

도 2는 개시된 기술의 일 실시예에 따른 음악 장르 분류 방법을 나타내는 흐름도이다.

도 2를 참조하면, 210 단계에서, 음악 장르 분류 장치는 오디오 파일을 디코딩하여 오디오 신호를 생성한다.

220 단계에서, 음악 장르 분류 장치는 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 복수의 독립 신호들로 분리한다. 독립성분분석(ICA)은 선형적으로 혼합된(mixing) 신호들로부터 통계적으로 상호 독립적인 신호들을 분리하는 기술이다.

230 단계에서, 음악 장르 분류 장치는 독립 신호들이 가진 에너지를 기초로, 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정한다. 예를 들어, 음악 장르 분류 장치는 독립 신호들이 가지는 에너지들을 비교하여, 독립 신호들 중 가 장 많은 에너지를 가진 독립 신호를 주 신호로 선정할 수 있다.

240 단계에서, 음악 장르 분류 장치는 주 신호로부터 오디오 특성을 나타내는 파라미터인 오디오 특성 파라미터를 추출한다. 예를 들어, 음악 장르 분류 장치는 주 신호로부터 MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)를 추출할 수 있다.

250 단계에서, 음악 장르 분류 장치는 은닉 마코프 모델링 기법을 사용하여 추출된 오디오 특성 파라미터를 확률적으로 가장 잘 표현할 수 있는 확률 모델을 생성한다. 예를 들어, 음악 장르 분류 장치는 Baum-Welch 알고리즘 또는 Segmental K-means 알고리즘을 이용하여 확률 모델을 훈련시키는 과정을 통하여, 추출된 MFCC에 따른 은닉 마코프 모델(HMM)을 생성할 수 있다.

260 단계에서, 음악 장르 분류 장치는 모든 오디오 파일들에 대하여 은닉 마코프 모델(HMM)들이 생성되었는지를 확인하고, 확인 결과 아직 HMM이 생성되지 않은 오디오 파일이 남아 있으면 210 단계로 진행한다. 이를 통해 복수의 오디오 파일들에 대하여 HMM(은닉 마코프 모델)들을 생성할 수 있다.

270 단계에서, 음악 장르 분류 장치는 은닉 마코프 모델(HMM)들 간의 유사도를 측정한다. 예를 들어, 음악 장르 분류 장치는 DTW(동적 정합법, Dynamic Time Warping)를 사용하여 은닉 마코프 모델(HMM)들 간의 유사도를 측정할 수 있다.

280 단계에서, 음악 장르 분류 장치는 측정된 유사도를 기초로, 오디오 파일들을 클러스터링한다. 예를 들어, 음악 장르 분류 장치는 측정된 유사도를 기초로, MCL 알고리즘(Markov clustering algorithm)을 사용하여 오디오 파일들을 클러스터 링할 수 있다. 이를 통해, 음악 장르 분류 장치는 복수의 오디오 파일들을 음악 장르별로 분류할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

일 실시예에 따른 음악 장르 분류 방법 및 장치는 음악 파일로부터 나온 오디오 신호로부터 음악 장르를 결정하는데 장애가 되는 신호를 제거하고, 장애가 되는 신호가 제거된 오디오 신호의 특성을 분석하여 음악 파일을 분류하므로, 음악 파일을 장르에 따라 보다 정확하게 분류할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HMM, Hidden Markov Model)들을 생성하는 단계; 및

상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계를 포함하고,

상기 복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HMM)들을 생성하는 단계는

상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립성분분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 단계;

상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계;

상기 주 신호로부터 오디오 특성 파라미터를 추출하는 단계; 및

상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 단계를 포함하며,

상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 단계는, 상기 생성된 독립 신호들이 가지는 에너지들을 비교하여, 상기 생성된 독립 신호들 중 가장 많은 에너지를 가지는 독립 신호를 상기 주 신호로 선정하는 음악 장르 분류 방법.
삭제
제 1 항에 있어서, 상기 오디오 특성 파라미터는

MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)인 음악 장르 분류 방법.
제 1 항에 있어서, 상기 생성된 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계는

동적 정합법(DTW, Dynamic Time Warping)을 사용하여, 상기 생성된 은닉 마코프 모델(HMM)들에 대한 유사도를 측정하는 단계를 포함하는 음악 장르 분류 방법.
제 4 항에 있어서, 상기 생성된 상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 단계는

상기 측정된 유사도를 기초로 MCL 알고리즘(Markov clustering algorithm)을 사용하여, 상기 오디오 파일들을 클러스터링하는 단계를 포함하는 음악 장르 분류 방법.
복수의 오디오 파일들에 상응하는 은닉 마코프 모델(HHMM, hidden Markov model)들을 생성하는 모델 생성부; 및

상기 생성된 은닉 마코프 모델(HMM)들 간의 유사도를 기초로, 상기 오디오 파일들을 클러스터링하여 상기 오디오 파일들을 음악 장르별로 분류하는 오디오 파일 분류부를 포함하고,

상기 모델 생성부는

상기 복수의 오디오 파일들을 구성하는 각 오디오 파일에 대하여, 상기 오디오 파일로부터 나온 오디오 신호를 독립 성분 분석(ICA, independent component analysis)하여 상기 오디오 신호에 상응하는 독립 신호들을 생성하는 독립 성분 분석부;

상기 생성된 독립 신호들이 가진 에너지를 기초로, 상기 독립 신호들 중 적어도 하나의 독립 신호를 주 신호로 선정하는 주 신호 선정부;

상기 주 신호로부터 오디오 특성 파라미터를 추출하는 특성 추출부; 및

상기 추출된 오디오 특성 파라미터를 기초로, 상기 오디오 파일에 대한 은닉 마코프 모델(HMM, Hidden Markov Model)을 생성하는 HMM 생성부를 포함하고,

상기 주 신호 선정부는 상기 생성된 독립 신호들이 가지는 에너지들을 비교하여, 상기 생성된 독립 신호들 중 가장 많은 에너지를 가지는 독립 신호를 상기 주 신호로 선정하는 음악 장르 분류 장치.
삭제
제 6 항에 있어서, 상기 오디오 특성 파라미터는

MFCC(멜 주파수 켑스트럼 계수들, Mel frequency cepstrum coefficients)인 음악 장르 분류 장치.
제 6 항에 있어서, 상기 모델 생성부는

동적 정합법(DTW, Dynamic Time Warping)을 사용하여, 상기 생성된 은닉 마코프 모델(HMM)들에 대한 유사도를 측정하는 유사도 측정부를 포함하는 음악 장르 분류 장치.
제 9 항에 있어서, 상기 모델 생성부는

상기 측정된 유사도를 기초로 MCL 알고리즘(Markov clustering algorithm)을 사용하여, 상기 오디오 파일들을 클러스터링하는 클러스터링부를 포함하는 음악 장르 분류 장치.