상기 목적을 달성하기 위한 본 발명의 제1 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치는, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 장치에 있어서, 상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하고, 각 섹션(I,V,C)을 상기 임의의 시간 이내로 조합하 여 상기 요약 음원으로서 상정하며, 상기 요약 음원을 재생 출력하는 자동화된 요약 음원 추출장치를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 실시예에 따르면, 상기 자동화된 요약 음원 추출장치는 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급 제어하고, 사용자의 시간 설정에 따라 형성된 요약 음원을 출력 제어하기 위한 운용 제어기; 및 상기 해당 음원에 대한 Granule 단위의 항목별 피처(음원특색 - Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하며, 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하고, 각 섹션의 조합과 사용자로부터 선택된 요약 시간 정보에 기초하여 상기 요약 음원을 생성하기 위한 요약 생성기로 이루어진 것을 특징으로 한다.
또한, 상기 Granule 단위는 11m Sec 내지 13m Sec의 시간간격을 나타내며 바람직하게 12m Sec이고, 상기 세그먼트는 1.5 Sec 내지 2.5 Sec의 시간간격을 나타내며 바람직하게 2 Sec인 것을 특징으로 한다.
또한, 상기 요약 생성기는 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부; 상기 피처 추출부의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부; 상기 세그먼테이션부에서 출력되는 각 섹션에 대한 벡터 요 소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하고, 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부; 상기 경계 감지부에서 산출된 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부; 및 상기 IVC 섹션 추출부에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부로 구성되는 것을 특징으로 한다.
또한, 상기 피처 추출부의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)인 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위한 본 발명의 제2 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법은, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 추출하기 위한 방법에 있어서, a) 상기 엠피쓰리 형식의 디지털 음원을 소정 단위로 분할하고, 분할 구간내의 피처(Feature) 벡터를 산출하는 단계; b) 상기 픽처 벡터를 토대로 상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하는 단계; 및 c) 상기 각 섹션(I,V,C)을 임의의 시간 이내로 조합하여 상기 요약 음원으로서 상정하고, 상기 요약 음원을 재생 출력하는 단계로 이루어진 것을 특징 으로 한다.
본 발명의 바람직한 실시예에 따르면, 상기 a) 단계는 a-1) 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하는 단계; a-2) 상기 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급하는 단계; 및 a-3) 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하는 단계로 이루어진 것을 특징으로 한다.
또한, 상기 b) 단계는 각 섹션(I,V,C)을 추출함에 있어서 SVM을 기반으로 섹션이 분류되는 것을 특징으로 한다.
또한, 상기 c) 단계는 c-1) 상기 각 섹션을 토대로 섹션에 대한 경계를 구획하는 단계; c-2) 상기 각 섹션별 길이를 산출하는 단계; c-3) 상기 각 섹션에 대한 해당 악구를 추출하는 단계; 및 c-4) 상기 해당 악구가 상기 임의의 시간에 대응하도록 섹션 편집을 수행하는 단계로 이루어진 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위한 본 발명의 제2 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법을 구현하기 위한 프로그램이 저장된 기록매체는, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 프로그램이 탑재되는 기록 매체 또는 저장 매체에 있어서, 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소 정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하고, 상기 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하며, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하고, 상기 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하며, 각 섹션에 대응하는 악구(Phrase)를 생성하는 것을 특징으로 한다.
또한, 상기 각 섹션에 대한 악구 생성시 사용자로부터 선택된 요약 시간 정보에 기초한 임의의 재생시간을 갖도록 요약 음원을 생성하는 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시예를 첨부된 예시도면에 의거 상세히 설명하면 다음과 같다.
먼저, 도 1은 음악 구조에 대한 분석을 설명하기 위한 도면이다. 본 도면에서 사용되는 음악 구조는 하나의 음악 구조 분석의 예로 Michael Learns to Rock의 “25minutes"라는 곡의 각 섹션 구성을 나타낸다. 도시된 바와 같이, 전형적인 음악 구조는 기존 연구와 음악 형식론 및 작곡 이론을 기반으로 하면 다음과 같이 버스(Verse)와 코러스(Chorus)의 패턴이 반복되는 형태를 지닌다.
이와 같은 패턴의 반복은 음악의 장르에 따라 다수의 종류가 존재하며, 아래와 같이 크게 종류1, 종류2...종류5 로 분류될 수 있다.
종류1 : I - V - C - V - C - C - O
종류2 : I - V - C - V - C - B - C - C - O
종류3 : I - V - C - V - C - O
종류4 : I - V - C - B - ...(V - C 반복) - O
종류5 : I - V - C - ... (V - C 반복) - B - C - ... (C 반복) - O
한편, 이 구조들을 일반화하면 [I - (V - C)+ - B* - (V - C)* - C* - O]의 구조로 나타낼 수 있다.(‘*’는 횟수가 0 번 이상, ‘+’는 횟수가 1 번 이상임을 의미한다.) 상기의 기호는 음악 구조의 구성 요소(섹션)로서, 'I'는 전주(Introduction), 'V'는 버스(Verse), 'C'는 코러스(Chorus), 'B'는 브릿지(Bridge), 'O'는 종결부(Outro)를 나타낸다.
상기 I 섹션은 음악의 도입부로, 처음 시작에서부터 보컬 멜로디 전까지의 구간이며, 정적(silence)를 포함한다. V 섹션은 대개 독창부에 해당하며 보컬부가 시작하여 코러스 전까지의 부분이다. C 섹션은 주제로서 전체 음악에서 강조가 되는 부분으로, 가사와 음이 음악 전체에 걸쳐 반복되는 부분이다. B 섹션은 두 개의 다른 섹션을 연결하는 전이구간을 나타낸다. O 섹션은 곡의 결론부로 마지막 보컬부가 끝난 이후부터 곡의 끝까지로 정의하고, fade out 및 정적을 포함한다.
그리고, 본 발명에서는 이와 같은 구조의 음악 패턴에 대한 비율을 알아보기 위해, 시대별 및 가수별 60 개의 곡을 실험하였으며, 이 중 55 개의 곡이 상술된 일반화 구조에 해당하였다. 이는 91.7 %에 해당한다. 이 구조를 볼 때, 하나의 노래에서 버스(Verse)와 코러스(Chorus)는 2 번 이상 나타나고, 자주 등장하는 구조들의 시작 부분은 "I-V-C" 구조로 매핑(mapping)됨을 알 수 있다.
따라서, 본 발명에서 구현하고자 하는 엠피쓰리 음향의 요약은 상술된 "I-V- C" 구조로 상정될 수 있을 것이며, I,V,C 섹션의 분류가 요구된다.
도 2는 본 발명에 따른 I,V,C 섹션을 분류하여 엠피쓰리 음향에 대한 자동 요약 음원을 생성하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 음원 제공장치를 나타낸 구성도이다.
도시된 바와 같이, 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급 제어하고, 사용자의 시간 설정에 따라 형성된 요약 음원을 출력 제어하기 위한 운용 제어기(201)와, 상기 해당 음원에 대한 Granule 단위의 항목별 피처(음원특색 - Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하며, 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하고, 각 섹션의 조합과 사용자로부터 선택된 요약 시간 정보에 기초하여 상기 요약 음원을 생성하기 위한 요약 생성기(205)로 이루어진다.
상기 요약 생성기(205)는 각 섹션 분류의 효율성을 높이기 위해, 임의의 엠피쓰리(MP3) 음원에 대한 전주(I;Introduction) 섹션, 버스(V;Verse) 섹션 및 코러스(C;Chorus) 섹션을 분리하기 위한 SVM 패턴 분류기(203)와 연동될 수 있을 것이다.
한편, 상기 요약 생성기(205)는 도 3에 도시된 바와 같이, 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부(301)와, 상기 피처 추출부(301)의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부(303)와, 상기 세그먼테이션부(303)에서 출력되는 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하기 위한 섹션 분류부(305)와, 상기 섹션 분류부(305)의 추출 결과에 따라 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부(307)와, 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부(309)와, 상기 IVC 섹션 추출부(309)에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부(313)로 구성된다.
상기 피처 추출부(301)의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)을 나타낸다. 또한, 상기 세그먼테이션부(303)의 I 섹션 및 V 섹션 간 분류는 상술된 피처중 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터를 이용한다.
그리고, 상기 세그먼테이션부(303)의 V 섹션 및 C 섹션과, 상기 C 섹션 및 N 섹션은 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크 기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용한다. 한편, 상기 섹션 분류부(305)는 피처 벡터를 구성하는 각각의 벡터 요소들의 값을 토대로 섹션 분류가 이루어지며, 상기 SVM 패턴 분류기(203)를 사용한다.
상기 경계 감지부(307)의 각 섹션별 경계 감지는 먼저, I, V의 경계일 경우 연이은 세그먼트 간의 3 차의 피처벡터 즉, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하고, 또한 V, C의 경계일 경우에는 연이은 세그먼트 간의 4 차의 피처벡터 즉, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정한다.
그리고, C, N(다음 섹션)의 경계일 경우에는 2 차 피처벡터 즉, 스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 설정함으로써 이루어진다. 경계 감지부(307)는 이와 같이 상술된 3 가지 경계 지점을 모두 감지 후, 최종적으로 I, V, C 섹션을 추출한다.
도 4는 본 발명의 주요 동작을 설명하기 위한 플로우챠트이다.
도시된 바와 같이, S401 단계에서 상기 운용 제어기(201)는 엠피쓰리(MP3) 파일로 구성된 임의의 음원정보를 입력받는다. 입력된 음원은 다수의 세그먼트 (Segment)에 의해 소정의 구간(시간)으로 분할된다. 상기 세그먼트(Segment)는 도 5a 도시된 바와 같이, 하나의 곡에 해당하는 음원은 다수의 세그먼트로 분할되며, 세그먼트는 임의의 정의 예컨대, 1.5초 내지 2.5초로서 바람직하게 2초 분량의 용량으로 정의된다. 또한, 상기 각 세그먼트는 다수의 Granule 단위로 분리되며, 각 Granule은 약 13m Sec(12m Sec ~ 14m Sec)의 시간 길이를 갖는다.
상기 운용 제어기(201)는 S403 단계로 진입하여, Granule 단위 및 세그먼트 단위로 분류된 음원정보를 상기 피처 추출부(3010로 제공한다. 상기 피처 추출부(301)는 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)의 여섯가지 피처를 추출한다.
상기 피처에 대한 계산법은 Silvia Pfeiffer, Thomas Vincent가 “Formalisation of MPEG-1 Compressed Domain Audio Features”에서 제시한 피처 계산 방법을 사용할 수 있다. 이 때, 각 피처는 MP3 granule 단위(약 13 ms), 즉 576 개의 MDCT계수를 이용하여 계산된다.
상술된 피처 계산에 의한 연산결과는 S405 단계에서와 같이, 세그먼트 단위로 피처 벡터를 산출한다. 피처 벡터는 상기 I 섹션과 V 섹션을 분류하고, V 섹션과 C 섹션을 분류함, C 섹션과 N 섹션을 분류한다. 상기 섹션 분류부(305)는 S407 단계에서, I 섹션과 V 섹션을 분류하기 위해 각 피처에 대한 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터로 이루어진다.
그리고, 상기 섹션 분류부(305)는 S409 단계에서 V와 C 섹션, C와 다음 섹션을 구분하기 위해 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용한다.
여기서, 피처 벡터를 구성하는 각각의 벡터 요소들의 값을 정규화하며, 상기 피처 벡터들은 S411 단계에서, 상기 SVM 패턴 분류기(203)를 통해 각 섹션에 대한 분류작업이 수행된다. 각 섹션을 분류하기 위한 SVM 패턴 분류기(203)로 사용되는 SVM의 커널은 가우시안 커널(Gaussian kernel)이 적용되는 RBF(Radial Based Function)을 사용하고, 다중 클래스(multi-class)로 확장하기 위한 방식인 “one-to-all"(I - V/C, V - I/C, C - I/V) 접근 방식이 사용된다.
이는 도 5b에 도시된 바와 같이, 하나의 음악에 대해서 먼저, 전주(I)와 나머지(버스-V, 코러스-C, 다음 섹션들-N)로 나누며, 다음으로 버스(V)와 나머지(코러스, 다음 섹션들)로 나누고, 마지막으로 코러스(C)와 다음 섹션(N)으로 분류한다. 최적의 클래스간 경계를 찾기 위하여 사용하는 Gaussian kernel(C, gamma)에 대한 매개 변수는 cross-validation을 사용하여 곡에 따라 적응적으로(adaptively) 결정된다.
한편, 이와 같이 SVM 패턴 분류기(203)에 의해 분류된 각 섹션은 도 6a에서와 같이 정확성이 다소 저하되고 있다. 예시된 도면은 곡 전체 길이의 절반만을 나 타내며, 가로 점선으로 표시된 영역이 매뉴얼(manual)로 구조를 분석한 결과이고, 가로 실선의 영역이 SVM 패턴 분류기(203)를 사용하여 섹션을 분류한 결과를 나타낸다. 도시된 바와 같이, I 섹션은 정확하게 분류되었고, V 섹션은 I 섹션과 일부 겹치며, V 섹션의 뒷부분은 커버하지 못하였다. 반면에 C 섹션과 그 다음 섹션은 거의 정확하게 분류되고 있다.
여기서, 각 섹션의 경계가 겹치거나 떨어진 경우 경계 감지 방법을 사용하여 각 섹션의 경계를 결정한다. 이를 위해, 상기 경계 감지부(307)는 S413 단계에서 섹션의 시작점과 끝점은 여러 피처 상의 차이가 커지게 된다는 특성을 이용하여, 모든 세그먼트에 대해 두 피처 벡터 간의 거리를 산출한다.
즉,
를 계산하기 위해 실험한 시스템에서는 Mahalanobis distance(normalized Euclidean distance)를 사용하며, 이는
여기서,
로 정의 된다. 상기
는 전체 입력 음악 파일로부터 계산된 피처 공분산(covariance) 행렬, n은 총 세그먼트의 수를 나타낸다. 상기 IVC 섹션 추출부(309)는 I, V의 경계 감지를 위해, 연이은 세그먼트 간의 3 차의 피처벡터(신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균)의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 결정한다.
그리고, 상기 IVC 섹션 추출부(309)는 V, C의 경계 감지를 위해, 연이은 세그먼트 간의 4 차의 피처벡터(신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심 의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균)의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 결정한다. 또한, C, N(다음 섹션)의 경계 감지를 위해서 2 차 피처벡터(스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차)의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 결정한다. 이와 같은 과정을 거쳐, 3 가지 경계 지점을 모두 감지 후에 얻게 되는 I, V, C 섹션이 최종적으로 추출되며, 이에 대한 실험결과는 도 6b에 도시된다.
도 6b는 도 6a에서와 달리, I,V 섹션 간 경계가 정확하고, V,C 섹션 간 경계 또한 정확하게 추종되고 있다. 그리고, C,N 섹션 간 경계는 다소 차이는 있지만 유용 가능한 경계 감지 결과를 제공하고 있다.
상술된 바와 같이, I,V,C 섹션에 대한 경계 지점이 구획되면, 사용자로부터 설정되는 요약 시간에 대응하는 요약 음원을 생성한다. 요약 음원은 먼저, S415 단계에서 각 섹션에 대한 길이를 산출하는데, 이는 이미 추출된 I, V, C 섹션 중 임의의 조건에 따라서 섹션 또는 악구(phrase)를 선택한다. 임의의 조건이라 함은;
조건 1: If Luser = LI + LV + LC, Lsum = LI + LV + LC
조건 2: Else if Luser = LV + LC, Lsum = LI' + LV + LC 단, [ LI' = (Luser - LC - LV) ] 까지 악구 추출
조건 3: Else if Luser = LC, if LV' = 1/3 * Luser, Lsum = LV' + LC' 단, [ LC' = 1/2 * Luser ] 까지 악구 추출; [ LV' = (Luser - LC') ] 까지 악구 추출; else Lsum = LV' + LC 단, [ LV' = (Luser - LC) ] 까지 악구 추출
조건 4: Else if Luser = 1/2 * LC, Lsum = LV' + 1/2 * LC 단, [ LV' = (Luser - 1/2 * LC) if LV' = 3 ] 까지 악구 추출 을 나타낸다.
여기서, 상기 Luser, LI, LV, LC, Lsum은 각각으로 사용자가 요구하는 요약의 길이, I, V, C의 길이, 실제 생성된 요약의 길이를 의미하고, LI', LV', LC'는 각 섹션에 속한 악구를 의미한다.
각 조건에 맞게 선택된 섹션 또는 악구의 길이의 합이 사용자가 원하는 요약 길이보다 같거나 커질 때까지 섹션 또는 악구 선택을 반복한다. 그리고, 원래 곡의 순서에 맞추어 (I - V - C) 섹션 또는 악구를 배열하고 결합하여 요약을 생성한다. 응용에 따라서 I, V, C 섹션(또는 이에 속하는 악구들) 순서로 구성할 수도 있고, 앞부분에 가장 핵심이 되는 요약 내용이 필요한 경우에는 C, V, I의 순서로 구성할 수 있다. 이 때, 요약 길이가 전체 요약 길이의 10 %가 넘었을 경우에는, 마지막 삽입된 악구를 삭제하여 사용자 요구에 만족하도록 함이 바람직할 것이다.
S417 단계로 진입하여, 상기 악구 추출부(311)는 기 산출된 각 섹션별 길이를 토대로 해당 섹션에 대한 악구를 추출한다. 악구 추출은 하나의 섹션 전체가 요약에 포함할 수 없을 경우에 수행되며, 요약 시간에 따라 추출할 악구의 개수를 결정하게 된다. 악구를 분류하는 방법은 버스의 경우에는 하나의 섹션 내에서 정지 율, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 롤오프 지점의 평균 값으로 구성된 피처 벡터가 그 이전 세그먼트의 피처벡터와의 차이가 가장 큰 부분을 찾는 방법으로 대응된다. 또한, 코러스의 경우에는 전체 코러스 섹션의 절반이 반복되는 특징을 가지므로, 코러스 섹션은 악구를 코러스 섹션의 절반으로 할 수 있다.
한편, 도 7a는 본 발명에서 실험한 40 곡의 MP3 음악(팝송)들의 각 섹션의 평균 precision rate와 recall rate를 나타낸 도면이다. 사용된 MP3 입력 데이터의 샘플링률(sampling rate)은 44.1 KHz이고 비트율(bit rate)은 128 kbps이며, 스테레오 채널을 가지고 있다. 실험을 통해 추출된 구조는 매뉴얼로 사람이 직접 구분한 곡 구조를 ground truth로 두고 비교하며, precision rate과 recall rate으로 평가된다. Precision rate은 추출된 각 섹션 길이에 대해 실험을 통해 맞게 추출된 섹션의 길이이며, recall rate은 ground truth로 제시된 각 섹션에 대해 실험을 통해 맞게 추출된 섹션의 길이이다.
압축 도메인에서의 피처 계산을 제공하는 오디오 분석 도구와 SVM 패턴 분류기(203)을 통해 이루어진다. 본 발명의 실시예에 의하면, 경계 감지 방법을 사용한 경우에 SVM 패턴 분류기(203)만을 사용한 경우보다 높은 정확도를 보여주며, 최종적으로 얻어진 버스와 코러스의 섹션의 감지 정확도를 86 % 이상 얻었다. 이로부터 제안된 방법이 섹션을 비교적 정확히 분리한다는 것을 드러낸다.
도 6b는 기존 연구와 요약의 품질을 비교한 결과 점수를 나타낸 도면이다. 요약의 품질은 characteristic, coherence, conciseness, coordination의 4 가지 항목으로 나누어 테스트된다. characteristic은 음악의 주제와 특징적인 부분을 담고 있는지에 대한 것과 요약된 내용에 대한 이해도를 평가하고, coherence는 전체적으로 일관성(consistency)을 가지고 있는지 평가하며, conciseness는 요약이 중복된 부분이 없이 필요한 부분만을 가지고 있는지, coordination는 사용자가 요구한 시간에 맞추어 적절하게 필요한 내용들이 요약으로 구성되었는가를 평가한다. 요약의 품질은 압축 도메인에서의 요약을 다룬 기존 연구로 Xi Shao, Changsheng Xu, Ye Wang, Mohan S Kankanhalli가 2004년에 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP)에 게재한 “Automatic Music Summarization in Compressed Domain”의 요약과 비교하였다. 요약의 길이는 30 초와 40 초로, 일반 사용자 20 명을 대상으로 평가하였다. 각 사용자는 곡의 요약을 들어보기 전에, 원곡 전체를 주제를 파악할 때까지 들을 수 있도록 한다. 그 후에 Shao의 요약과 본 발명의 요약을 각 항목별로 1-5 점으로 나누어 평가하였다. 1 점이 가장 좋지 않은 경우이며, 5 점이 가장 좋은 경우이다. 요약 품질 테스트로부터, 본 발명의 요약 품질이 기존 반복 기반의 요약 방식에 비해 좋음을 알 수 있다.