KR100766170B1

KR100766170B1 - 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법

Info

Publication number: KR100766170B1
Application number: KR1020060024768A
Authority: KR
Inventors: 김회린; 김성탁; 김상호; 이한규; 홍진우
Original assignee: 한국정보통신대학교 산학협력단; 한국전자통신연구원
Priority date: 2006-03-17
Filing date: 2006-03-17
Publication date: 2007-10-10
Also published as: KR20060029663A

Abstract

본 발명은 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것으로, 개시된 음악 요약 방법은 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, 묵음이 제거된 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함하며, 정확하고 신뢰도 높은 음악 요약을 생성하여 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 이점이 있다.

음악 요약, 다중 레벨 벡터양자화, SIC(Same Index Count), 반복 패턴

Description

다중 레벨 양자화를 이용한 음악 요약 장치 및 방법{MUSIC SUMMARIZATION APPARATUS AND METHOD USING MULTI-LEVEL VECTOR QUANTIZATION}

도 1a는 종래의 제 1 실시 예에 따른 음악 요약 방식을 보인 개념도,

도 1b는 종래의 제 2 실시 예에 따른 음악 요약 방식을 보인 개념도,

도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도,

도 3은 본 발명에 따른 음악 요약 장치를 통해 수행되는 음악 요약 과정을 보인 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

110 : 전처리부 120 : 특징벡터 추출부

130 : 다중 레벨 벡터양자화부 140 : 음악 요약 생성부

본 발명은 다중 레벨 양자화를 이용한 음악 요약에 관한 것으로, 더욱 상세하게는 음악 컨텐츠의 반복 구간을 음악 요약으로 추출하는 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것이다.

주지와 같이, 데이터 압축기술, 인터넷 그리고 통신기술의 발달로 개인이 접하고, 보유할 수 있는 음악 컨텐츠의 양은 상상을 초월하고 있다. 또한 음악 컨텐츠를 판매하는 서비스도 많아지고 있다. 하지만 현재 음악 컨텐츠 판매자가 사용자에게 제공하는 음악 컨텐츠의 요약정보는 컨텐츠의 시작부분 일정구간이나 임의의 구간을 이용하고 있다. 하지만 이러한 정보는 사용자에게 음악 컨텐츠에 대한 충분한 정보를 제공하기가 어렵다. 그래서 음악 컨텐츠의 요약을 제공하는 기술들이 꾸준히 연구되고 있다.

종래 기술에 따라 음악 컨텐츠의 요약을 제공하는 방식은 도 1a에 나타낸 바와 같이 음악 컨텐츠의 서로 다른 특성을 가지는 부분들을 모두 제공하는 방법과 도 1b에 나타낸 바와 같이 음악 컨텐츠내에서 자주 반복되는 구간을 제공하는 방법으로 크게 나뉘어 진다.

음악 요약을 제공하기 위해 사용하는 특징벡터로는 음성인식분야에서 많이 쓰이고 있는 MFCC(Mel-Frequency Cepstral Coefficient), 스펙트럴 플럭스(Spectral flux), 스펙트럴 파워(Spectral power), 그리고 앰프리튜드 인벨로프(Amplitude envelope) 등을 이용하고 있다.

이와 같은 특징벡터들을 이용하여 도 1b와 같이 반복되는 구간을 음악 요약으로 제공하는 방법으로는 집단화(Clustering)방법을 이용하는 방법이 대표적인 방법이다. 이 방법은 우선 음악 컨텐츠를 0.1초 단위의 세그먼트로 분할한 뒤, 각 세그먼트 사이의 유사도를 모두 비교하여 유사한 세그먼트들을 동일한 클래스로 분류해 둔다. 다음으로 각 클래스 중 가장 많은 세그먼트를 포함하고 있는 하나의 클래 스를 선정하고, 이 클래스를 그 음악 컨텐츠의 반복구간과 연관성이 가장 높은 클래스로 간주한다. 최종적으로 선정된 클래스 내의 첫 번째 세그먼트를 기준으로 일정구간(20초)을 음악 요약으로 결정한다. 이 방식은 가장 많이 나타나는 클래스를 반복되는 구간으로 포함할 가능성이 크지만, 정확히 반복되는 구간을 제공하기가 어려운 문제점이 있다.

또 다른 반복구간을 찾는 방법으로는 세그먼트보다 작은 시간 구간인 프레임단위에서 집단화 방법을 적용하는 방식이 있다. 이 방식은 가장 많은 프레임을 포함한 클래스를 선정하고, 그 클래스내의 각 프레임을 시작점으로 하는 일정구간들에 대해 프레임들이 속한 클래스의 순서가 같은 구간을 찾아내어 시작점이 가장 빠른 구간을 음악 요약으로 제공한다. 이 방법은 각 프레임에 대해 유사한 프레임들을 찾을 때 사용하는 임계값을 정확하게 결정하기가 어려운 문제점이 있다.

반복구간을 음악 요약으로 제공하는 방식과 달리 도 1a와 같이 특징적인 음악 부분들을 모두 조합하여 음악 요약으로 제공하는 방식으로는 2차원 유사행렬(2-D similarity matrix)을 이용하여 음악 컨텐츠내에서 특징이 바뀌는 구간을 찾아내고, 그 결과를 이용하여 특징이 다른 부분들을 요약으로 제공하는 방법이 있다. 하지만 주어진 음악 컨텐츠내에 특징이 상이한 부분이 몇 개로 이루어져 있는지 임의로 정해야 하기 때문에, 제공된 요약이 모든 특징을 포함하지 않을 수 있는 문제점이 있다.

본 발명은 이와 같은 종래의 문제점을 해결하기 위하여 제안한 것으로, 음악 컨텐츠를 여러 레벨의 벡터양자화를 이용하여 여러 가지 해상도로 표현하고 반복되는 구간을 찾아내어 음악 요약으로 추출함으로써, 사용자에게 보다 정확하고 신뢰성 높은 음악 컨텐츠의 요약을 제공하는 데 그 목적이 있다.

본 발명의 다른 목적은 음악 컨텐츠에서 반복되는 구간을 찾을 때 양자화 코드워드의 시간에 따른 반복 패턴을 고려함으로써 보다 정확하게 반복되는 구간을 찾아내는 데 있다.

이와 같은 목적들을 실현하기 위한 본 발명의 일 관점으로서 다중 레벨 양자화를 이용한 음악 요약 장치는, 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와, 상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와, 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와, 상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부를 포함한다.

본 발명의 다른 관점으로서 다중 레벨 양자화를 이용한 음악 요약 방법은, (a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, (b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, (c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, (d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함한다.

이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도이다.

도 2를 참조하면 본 발명에 따른 음악 요약 장치는, 음악 컨텐츠내에서 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 해당 프레임을 묵음이라 가정하고 제거하는 전처리부(110)와, 전처리부(110)를 거친 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터들을 구하는 특징벡터 추출부(120)와, 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행하여 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현하는 다중 레벨 벡터양자화부(130)와, 다중 레벨 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부(140)를 포함하여 구성된다.

이와 같이 구성된 음악 요약 장치를 통해 수행되는 음악 요약 과정을 도 3의 흐름도를 참조하여 보다 상세히 살펴보면 다음과 같다.

먼저, 전처리부(110)는 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거한다(S201). 즉 음악 요약을 위한 특징벡터들을 추출하기 전에 고정된 길이를 갖고 0 ∼ 50% 중첩이 되는 프레임들로 분할하고 묵음 구간을 제거한다. 묵음을 제거하는 방법은 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 제거한다. 프레임 에너지를 구하는 방법은 아래의 수학식 1과 같고, 프레임 에너지가 미리 정한 임계값(Threshold value)보다 작으면 현 프레임을 묵음이라고 가정하고 제거한다.

여기서, s(n)은 음악신호를 나타내고, N은 프레임내의 샘플수를 나타낸다.

다음으로, 특징벡터 추출부(120)는 전처리부(110)에 출력되는 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터들을 구한다(S203).

스펙트럴 파워는 주어진 음악 신호 s(n)의 각 프레임에 수학식 2의 해닝(Hanning) 윈도우를 적용하고 푸리에 변환을 취하여 구한다.

수학식 2에서 s(n)은 음악신호, h(n)는 해밍 윈도우, S(k)는 스펙트랄 파워, N은 프레임내의 샘플 개수를 나타낸다.

앰프리튜드 인벨로프(RMS)는 시간영역에서 에너지의 변화를 나타낸다. 에너지의 변화는 음악에서 ADSK(Attack, Decay, Sustain, Release)와 같은 정보를 효과적으로 표현한다. 음악 신호의 앰프리튜드 인벨로프는 아래의 수학식 3을 이용해서 구한다.

수학식 3에서 x[n]은 차단주파수가 1200Hz인 저역통과 필터를 통과한 신호이다. 여기서, 저역통과 필터를 사용하는 것은 드럼과 같은 모든 주파수 영역에 에너지를 가지고 있는 그런 악기가 에너지의 변화에 주는 영향을 최대한 줄이기 위한 것이다. 저역통과 필터의 차단주파수는 주파수는 실험적으로 구할 수 있으며, 실험에 따르면 샘플링 레이트가 8,000Hz이면 350Hz, 22,050Hz이면 1200Hz, 44100Hz이면 1700Hz로 하는 것이 좋다.

음성인식의 가장 대표적인 특징 추출 방법인 MFCC 추출방법은 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그 스케일과 비슷한 멜(Mel) 스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수 추출 방법이다. 멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만, 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식이다.

MFCC를 구하기 위해서는 우선 분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 구한다. 구한 스펙트럼에 대해 멜 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 구하고, 필터뱅크 출력값에 로그를 취한다. 그리고, 로그를 취한 필터뱅크 값에 이산 코사인 변환을 하여 최종 MFCC를 구한다.

수학식 4에서 S_k는 필터뱅크의 출력값을 나타낸다.

이후, 다중 레벨 벡터양자화부(130)에서는 위에서 얻은 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행한다. 양자화란 입력 신호를 유한한 개수의 값으로 근사화하는 것이고, 입력 신호에 따라 스칼라 양자화와 벡터 양자화로 나눌 수 있다. 본 발명에서는 벡터 양자화를 사용하고 여러 레벨의 벡터 양자화를 사용한다. 그래서 다중 레벨 벡터양자화부(130)에서는 위에서 프레임별로 얻은 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하고 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현한다(S205).

그러면, 음악 요약 생성부(140)에서는 다중 레벨 벡터양자화 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아낸다. 여기서, 음악 요약 생성부(140)에 제공되는 음악적 지식은 자주 반복되는 구간이 해당 음악 컨텐츠를 대표한다는 가정을 의미한다. 주어진 음악 컨텐츠의 프레임들(f₁, f₂, …, f_N) 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 f_i를 찾고, 구간 [f_i, f_i+S]를 음악 요약으로 추출한다. S는 추출할 음악 요약에 해당하는 프레임의 수이다(S209).

수학식 5에서 M은 양자화 레벨을 나타내고,

는

레벨 벡터양자화에서 프레임

의 코드워드를 나타낸다.

는 다중 양자화 레벨에 따른 가중치를 나타낸다. 가중치는 각 레벨의 양자화 오차의 역수를 사용한다.

대부분의 집합(Cluster)방법을 이용하는 반복구간기반 음악 요약 방법은 음악 컨텐츠마다 몇 개의 집합으로 표현할 것인지 결정을 하기 위해 적절한 임계값을 결정해야 한다. 하지만 본 발명의 다중 레벨 벡터양자화를 이용한 음악 요약 방법에서는 음악 컨텐츠마다 임계값을 조정할 필요가 없다. 또한, SIC를 구하는 과정에서 시간의 변화에 따른 양자화 코드워드의 반복 패턴을 고려하기 때문에 보다 정확하게 반복되는 구간을 찾을 수 있다.

지금까지 본 발명의 일 실시 예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 당연히 포함되는 것으로 해석되어야 할 것이다.

전술한 바와 같이 본 발명은 종래 기술들보다 정확하게 음악 컨텐츠내에서 반복되는 구간을 찾을 수 있어서 신뢰성 높은 음악 요약을 제공할 수 있다. 즉, 음악 컨텐츠를 벡터양자화로 표현하고, 그 양자화 코드워드의 시간에 따른 변화를 이용하여 반복되는 구간을 찾기 때문에 정확한 결과를 얻을 수 있고 여러 레벨의 벡터 양자화를 이용하기 때문에 음악 컨텐츠를 여러 해상도로 분석할 수 있다. 따라서 본 발명에 의한 정확하고 신뢰도 높은 음악 요약 방법은 사용자에게 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 효과가 있다.

Claims

(a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와,

(b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와,

(c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와,

(d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계

를 포함하는 다중 레벨 양자화를 이용한 음악 요약 방법.
제 1항에 있어서,

상기 (a) 단계는 상기 음악 컨텐츠를 프레임들로 분할한 후 미리 정한 임계값과 상기 프레임들의 에너지를 비교해서 상기 에너지가 임계값보다 작으면 해당 프레임을 제거하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
제 1항에 있어서,

상기 (b) 단계에서 구하는 특징벡터는 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 중에서 적어도 어느 하나를 포함하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
제 1항에 있어서,

상기 (d) 단계는, 상기 음악 컨텐츠의 프레임들을 "f₁, f₂, …, f_N"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 f_i를 찾고, 구간 [f_i, f_i+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
제 4항에 있어서,

상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
제 5항에 있어서,

상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와,

상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와,

상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와,

상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부

를 포함하는 다중 레벨 양자화를 이용한 음악 요약 장치.
제 7항에 있어서,

상기 음악 요약 생성부는, 상기 음악 컨텐츠의 프레임들을 "f₁, f₂, …, f_N"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 f_i를 찾고, 구간 [f_i, f_i+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.
제 8항에 있어서,

상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.
제 9항에 있어서,

상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것

을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.