KR100869643B1

KR100869643B1 - 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체

Info

Publication number: KR100869643B1
Application number: KR1020050035966A
Authority: KR
Inventors: 이윤준; 오승은
Original assignee: 에스케이 텔레콤주식회사
Priority date: 2005-04-29
Filing date: 2005-04-29
Publication date: 2008-11-21
Also published as: KR20060113093A

Abstract

본 발명에서 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치, 방법 및 이를 구현하기 위한 프로그램이 저장된 기록매체를 개시한다.

본 발명에 따르면, 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부; 피처 추출부의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 각 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부; 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하고, 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부; V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부; 및 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부로 구성된다.

따라서, 본 발명은 사용자가 곡의 주제 또는 특징적인 부분을 보다 쉽게 파악할 수 있는 효과를 제공한다. 요약을 구성하는 부분들이 자연스럽게 이어지지 않던 문제점을 줄이는 효과가 있다.

엠피쓰리, MP3, 요약 음원, SVM, 전주, 버스, 코러스, 섹션, 악구

Description

음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치, 방법 및 이를 구현하기 위한 프로그램이 저장된 기록매체{MP3-BASED POPULAR SONG SUMMARIZATION INSTALLATION AND METHOD USING MUSIC STRUCTURES, STORAGE MEDIUM STORING PROGRAM FOR REALIZING THE METHOD}

도 1은 일반적인 음악 구조를 설명하기 위한 음원 구성도이다.

도 2는 본 발명의 주요 장치를 설명하기 위한 전체 구성도이다.

도 3은 본 발명에 따른 엠피쓰피 음원에 대한 요약 생성장치를 나타낸 구성도이다.

도 4는 본 발명의 주요 동작을 설명하기 위한 플로우챠트이다.

도 5a는 본 발명에 따른 음원 분류를 나타낸 도면이다.

도 5b는 본 발명으로 적용되는 SVM 분류에 대한 원리를 설명하기 위한 도면이다.

도 6a, 6b, 7a, 7b는 본 발명의 실험 결과를 나타낸 도면이다.

<주요 도면에 대한 부호의 설명>

201 : 운용 제어기 203 : SVM 패턴 분류기

205 : 요약 생성기 301 : 피처 추출부

303 : 세그먼테이션부 305 : 섹션 분류부

307 : 경계 감지부 309 : IVC 섹션 추출부

311 : 악구 추출부 313 : 요약 생성부

본 발명은 엠피쓰리 형식의 가요 음향 편집에 관한 것으로, 보다 상세하게는 엠피쓰리(MP3) 형식의 가요 음향을 자동으로 요약하여 온라인 상의 음악 다운로드, 스트리밍 웹사이트, 휴대폰 벨소리, 통화 대기음 등의 모바일 서비스, 음악 검색 서비스, 음악 데이터 베이스의 색인 기술 및 검색 기술 등으로 적용할 수 있는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치, 방법 및 이를 구현하기 위한 프로그램이 저장된 기록매체에 관한 것이다.

일반적으로, MP3(MPEG-1 Layer 3) 음악이 대중적으로 널리 사용되고 있다. 이에 따라, 최근에 많은 음반사들이 웹사이트를 통해 음악 파일을 판매하거나 유료로 스트리밍 서비스를 제공하고 있다. 이 때, 사용자는 어떤 음악을 구입할지 결정하기 위해 전체 음악을 모두 들어보지 않고도, 요약된 음악을 통하여 그 곡의 요지를 파악하는 것이 필요하다. 음악 요약은 하나의 음악에서 그 음악의 주제나 특징적인 부분으로 구성된 내용을 의미한다. 음악 요약에 대한 기존 연구는 주로 반복 패턴을 이용한 요약 방법을 사용해 왔다.

반복 패턴을 이용한 요약 방법은 하나의 음악을 대표하는 코러스, 테마, 후렴 등의 중요 악구를 찾기 위해 전체 음악에서 반복되는 세그먼트 또는 클러스터를 찾는다.

또한, 클러스터링 기법은 피처를 추출하여, 피처가 유사한 세그먼트들끼리 클러스터를 만들고, 가장 자주 나타나는 클러스터를 선택하여 중요 악구로 추출하는 방식이다. 이와 같은 반복 패턴을 찾기 위한 또다른 방식으로, 자체 유사(self-similarity) 분석을 기반으로 하는 방식이 존재한다. 이 방식은 오디오 신호를 연속된 고정 길이의 프레임으로 나누어 피처 벡터 간의 코사인 거리가 계산된 스펙트럴 유사도로부터 2 차원 유사 행렬을 형성한다. 이 유사 행렬에서 통계의 유사도에 따라 세그먼트가 클러스터링 되고, 가장 자주 반복되는 클러스터를 나타내는 세그먼트들을 결합하여 하나의 음악이 요약된다.

그러나 반복된 패턴을 찾는 방법만으로는 하나의 음악에서 중요한 코러스나 버스(verse) 외에도 상대적으로 중요성이 적은 전주나 간주 부분 등이 포함될 수 있다. 왜냐하면 하나의 음악이 곡의 여러 부분에 걸쳐 반복되는 악구들이 있을 경우 전체 음악을 대표하는 핵심 부분을 찾아내기 어렵기 때문이다.

또한 곡의 주제에 해당하는 코러스 섹션의 경우에는 변조된 코러스 부분을 찾아내기가 어렵다. 또다른 문제점으로, 기존의 연구에서는 반복 패턴만을 찾기 때문에 요약을 구성하는 반복되는 세그먼트들간의 경계점, 즉 시작과 끝점의 감지에 있어 좋지 않은 결과를 보여주었다. 그리고 요약의 길이가 짧아질수록 요약을 구성하고 있는 각 부분들이 여러 부분으로 짧게 나뉘어 부자연스러울 수 있다는 문제점이 있다.

본 발명은 이와 같은 문제점을 해결하기 위해 창출된 것으로, 본 발명의 목적은 엠피쓰리(MP3) 형식의 음향에 대한 전형적인 구조를 일반화하여 정의하고, 전형적 구조의 변화를 추출하여 엠피쓰리(MP3) 형식의 음향에 대한 요약을 자동으로 생성할 수 있도록 함에 있다.

한편, 상기 문제점을 해결하기 위한 본 발명의 다른 목적은, 엠피쓰리 형식의 가요 음향에 대한 각각의 요약정보를 생성 및 관리하도록 하여, 인터넷 웹상에서 제공되는 음악 다운로드, 스트리밍 웹사이트, 휴대폰 벨소리, 통화 대기음 등의 모바일 서비스에서의 음원 판매시 소비자의 자율적 선택권한을 부여할 수 있도록 함에 있다.

또한, 상기 문제점을 해결하기 위한 본 발명의 다른 목적은, 엠피쓰리 형식의 가요 음향에 대한 각각의 요약정보를 생성하여, 음원 데이터 베이스의 색인 및 검색이 효율적으로 이루어질 수 있도록 함에 있다.

상기 목적을 달성하기 위한 본 발명의 제1 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치는, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 장치에 있어서, 상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하고, 각 섹션(I,V,C)을 상기 임의의 시간 이내로 조합하 여 상기 요약 음원으로서 상정하며, 상기 요약 음원을 재생 출력하는 자동화된 요약 음원 추출장치를 포함하는 것을 특징으로 한다.

본 발명의 바람직한 실시예에 따르면, 상기 자동화된 요약 음원 추출장치는 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급 제어하고, 사용자의 시간 설정에 따라 형성된 요약 음원을 출력 제어하기 위한 운용 제어기; 및 상기 해당 음원에 대한 Granule 단위의 항목별 피처(음원특색 - Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하며, 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하고, 각 섹션의 조합과 사용자로부터 선택된 요약 시간 정보에 기초하여 상기 요약 음원을 생성하기 위한 요약 생성기로 이루어진 것을 특징으로 한다.

또한, 상기 Granule 단위는 11m Sec 내지 13m Sec의 시간간격을 나타내며 바람직하게 12m Sec이고, 상기 세그먼트는 1.5 Sec 내지 2.5 Sec의 시간간격을 나타내며 바람직하게 2 Sec인 것을 특징으로 한다.

또한, 상기 요약 생성기는 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부; 상기 피처 추출부의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부; 상기 세그먼테이션부에서 출력되는 각 섹션에 대한 벡터 요 소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하고, 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부; 상기 경계 감지부에서 산출된 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부; 및 상기 IVC 섹션 추출부에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부로 구성되는 것을 특징으로 한다.

또한, 상기 피처 추출부의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)인 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위한 본 발명의 제2 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법은, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 추출하기 위한 방법에 있어서, a) 상기 엠피쓰리 형식의 디지털 음원을 소정 단위로 분할하고, 분할 구간내의 피처(Feature) 벡터를 산출하는 단계; b) 상기 픽처 벡터를 토대로 상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하는 단계; 및 c) 상기 각 섹션(I,V,C)을 임의의 시간 이내로 조합하여 상기 요약 음원으로서 상정하고, 상기 요약 음원을 재생 출력하는 단계로 이루어진 것을 특징 으로 한다.

본 발명의 바람직한 실시예에 따르면, 상기 a) 단계는 a-1) 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하는 단계; a-2) 상기 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급하는 단계; 및 a-3) 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하는 단계로 이루어진 것을 특징으로 한다.

또한, 상기 b) 단계는 각 섹션(I,V,C)을 추출함에 있어서 SVM을 기반으로 섹션이 분류되는 것을 특징으로 한다.

또한, 상기 c) 단계는 c-1) 상기 각 섹션을 토대로 섹션에 대한 경계를 구획하는 단계; c-2) 상기 각 섹션별 길이를 산출하는 단계; c-3) 상기 각 섹션에 대한 해당 악구를 추출하는 단계; 및 c-4) 상기 해당 악구가 상기 임의의 시간에 대응하도록 섹션 편집을 수행하는 단계로 이루어진 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위한 본 발명의 제2 관점에 따른 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법을 구현하기 위한 프로그램이 저장된 기록매체는, 엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 프로그램이 탑재되는 기록 매체 또는 저장 매체에 있어서, 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소 정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하고, 상기 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하며, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하고, 상기 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하며, 각 섹션에 대응하는 악구(Phrase)를 생성하는 것을 특징으로 한다.

또한, 상기 각 섹션에 대한 악구 생성시 사용자로부터 선택된 요약 시간 정보에 기초한 임의의 재생시간을 갖도록 요약 음원을 생성하는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부된 예시도면에 의거 상세히 설명하면 다음과 같다.

먼저, 도 1은 음악 구조에 대한 분석을 설명하기 위한 도면이다. 본 도면에서 사용되는 음악 구조는 하나의 음악 구조 분석의 예로 Michael Learns to Rock의 “25minutes"라는 곡의 각 섹션 구성을 나타낸다. 도시된 바와 같이, 전형적인 음악 구조는 기존 연구와 음악 형식론 및 작곡 이론을 기반으로 하면 다음과 같이 버스(Verse)와 코러스(Chorus)의 패턴이 반복되는 형태를 지닌다.

이와 같은 패턴의 반복은 음악의 장르에 따라 다수의 종류가 존재하며, 아래와 같이 크게 종류1, 종류2...종류5 로 분류될 수 있다.

종류1 : I - V - C - V - C - C - O

종류2 : I - V - C - V - C - B - C - C - O

종류3 : I - V - C - V - C - O

종류4 : I - V - C - B - ...(V - C 반복) - O

종류5 : I - V - C - ... (V - C 반복) - B - C - ... (C 반복) - O

한편, 이 구조들을 일반화하면 [I - (V - C)+ - B* - (V - C)* - C* - O]의 구조로 나타낼 수 있다.(‘*’는 횟수가 0 번 이상, ‘+’는 횟수가 1 번 이상임을 의미한다.) 상기의 기호는 음악 구조의 구성 요소(섹션)로서, 'I'는 전주(Introduction), 'V'는 버스(Verse), 'C'는 코러스(Chorus), 'B'는 브릿지(Bridge), 'O'는 종결부(Outro)를 나타낸다.

상기 I 섹션은 음악의 도입부로, 처음 시작에서부터 보컬 멜로디 전까지의 구간이며, 정적(silence)를 포함한다. V 섹션은 대개 독창부에 해당하며 보컬부가 시작하여 코러스 전까지의 부분이다. C 섹션은 주제로서 전체 음악에서 강조가 되는 부분으로, 가사와 음이 음악 전체에 걸쳐 반복되는 부분이다. B 섹션은 두 개의 다른 섹션을 연결하는 전이구간을 나타낸다. O 섹션은 곡의 결론부로 마지막 보컬부가 끝난 이후부터 곡의 끝까지로 정의하고, fade out 및 정적을 포함한다.

그리고, 본 발명에서는 이와 같은 구조의 음악 패턴에 대한 비율을 알아보기 위해, 시대별 및 가수별 60 개의 곡을 실험하였으며, 이 중 55 개의 곡이 상술된 일반화 구조에 해당하였다. 이는 91.7 %에 해당한다. 이 구조를 볼 때, 하나의 노래에서 버스(Verse)와 코러스(Chorus)는 2 번 이상 나타나고, 자주 등장하는 구조들의 시작 부분은 "I-V-C" 구조로 매핑(mapping)됨을 알 수 있다.

따라서, 본 발명에서 구현하고자 하는 엠피쓰리 음향의 요약은 상술된 "I-V- C" 구조로 상정될 수 있을 것이며, I,V,C 섹션의 분류가 요구된다.

도 2는 본 발명에 따른 I,V,C 섹션을 분류하여 엠피쓰리 음향에 대한 자동 요약 음원을 생성하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 음원 제공장치를 나타낸 구성도이다.

도시된 바와 같이, 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급 제어하고, 사용자의 시간 설정에 따라 형성된 요약 음원을 출력 제어하기 위한 운용 제어기(201)와, 상기 해당 음원에 대한 Granule 단위의 항목별 피처(음원특색 - Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하며, 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하고, 각 섹션의 조합과 사용자로부터 선택된 요약 시간 정보에 기초하여 상기 요약 음원을 생성하기 위한 요약 생성기(205)로 이루어진다.

상기 요약 생성기(205)는 각 섹션 분류의 효율성을 높이기 위해, 임의의 엠피쓰리(MP3) 음원에 대한 전주(I;Introduction) 섹션, 버스(V;Verse) 섹션 및 코러스(C;Chorus) 섹션을 분리하기 위한 SVM 패턴 분류기(203)와 연동될 수 있을 것이다.

한편, 상기 요약 생성기(205)는 도 3에 도시된 바와 같이, 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부(301)와, 상기 피처 추출부(301)의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부(303)와, 상기 세그먼테이션부(303)에서 출력되는 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하기 위한 섹션 분류부(305)와, 상기 섹션 분류부(305)의 추출 결과에 따라 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부(307)와, 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부(309)와, 상기 IVC 섹션 추출부(309)에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부(313)로 구성된다.

상기 피처 추출부(301)의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)을 나타낸다. 또한, 상기 세그먼테이션부(303)의 I 섹션 및 V 섹션 간 분류는 상술된 피처중 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터를 이용한다.

그리고, 상기 세그먼테이션부(303)의 V 섹션 및 C 섹션과, 상기 C 섹션 및 N 섹션은 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크 기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용한다. 한편, 상기 섹션 분류부(305)는 피처 벡터를 구성하는 각각의 벡터 요소들의 값을 토대로 섹션 분류가 이루어지며, 상기 SVM 패턴 분류기(203)를 사용한다.

상기 경계 감지부(307)의 각 섹션별 경계 감지는 먼저, I, V의 경계일 경우 연이은 세그먼트 간의 3 차의 피처벡터 즉, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하고, 또한 V, C의 경계일 경우에는 연이은 세그먼트 간의 4 차의 피처벡터 즉, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정한다.

그리고, C, N(다음 섹션)의 경계일 경우에는 2 차 피처벡터 즉, 스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 설정함으로써 이루어진다. 경계 감지부(307)는 이와 같이 상술된 3 가지 경계 지점을 모두 감지 후, 최종적으로 I, V, C 섹션을 추출한다.

도시된 바와 같이, S401 단계에서 상기 운용 제어기(201)는 엠피쓰리(MP3) 파일로 구성된 임의의 음원정보를 입력받는다. 입력된 음원은 다수의 세그먼트 (Segment)에 의해 소정의 구간(시간)으로 분할된다. 상기 세그먼트(Segment)는 도 5a 도시된 바와 같이, 하나의 곡에 해당하는 음원은 다수의 세그먼트로 분할되며, 세그먼트는 임의의 정의 예컨대, 1.5초 내지 2.5초로서 바람직하게 2초 분량의 용량으로 정의된다. 또한, 상기 각 세그먼트는 다수의 Granule 단위로 분리되며, 각 Granule은 약 13m Sec(12m Sec ~ 14m Sec)의 시간 길이를 갖는다.

상기 운용 제어기(201)는 S403 단계로 진입하여, Granule 단위 및 세그먼트 단위로 분류된 음원정보를 상기 피처 추출부(3010로 제공한다. 상기 피처 추출부(301)는 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)의 여섯가지 피처를 추출한다.

상기 피처에 대한 계산법은 Silvia Pfeiffer, Thomas Vincent가 “Formalisation of MPEG-1 Compressed Domain Audio Features”에서 제시한 피처 계산 방법을 사용할 수 있다. 이 때, 각 피처는 MP3 granule 단위(약 13 ms), 즉 576 개의 MDCT계수를 이용하여 계산된다.

상술된 피처 계산에 의한 연산결과는 S405 단계에서와 같이, 세그먼트 단위로 피처 벡터를 산출한다. 피처 벡터는 상기 I 섹션과 V 섹션을 분류하고, V 섹션과 C 섹션을 분류함, C 섹션과 N 섹션을 분류한다. 상기 섹션 분류부(305)는 S407 단계에서, I 섹션과 V 섹션을 분류하기 위해 각 피처에 대한 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터로 이루어진다.

그리고, 상기 섹션 분류부(305)는 S409 단계에서 V와 C 섹션, C와 다음 섹션을 구분하기 위해 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용한다.

여기서, 피처 벡터를 구성하는 각각의 벡터 요소들의 값을 정규화하며, 상기 피처 벡터들은 S411 단계에서, 상기 SVM 패턴 분류기(203)를 통해 각 섹션에 대한 분류작업이 수행된다. 각 섹션을 분류하기 위한 SVM 패턴 분류기(203)로 사용되는 SVM의 커널은 가우시안 커널(Gaussian kernel)이 적용되는 RBF(Radial Based Function)을 사용하고, 다중 클래스(multi-class)로 확장하기 위한 방식인 “one-to-all"(I - V/C, V - I/C, C - I/V) 접근 방식이 사용된다.

이는 도 5b에 도시된 바와 같이, 하나의 음악에 대해서 먼저, 전주(I)와 나머지(버스-V, 코러스-C, 다음 섹션들-N)로 나누며, 다음으로 버스(V)와 나머지(코러스, 다음 섹션들)로 나누고, 마지막으로 코러스(C)와 다음 섹션(N)으로 분류한다. 최적의 클래스간 경계를 찾기 위하여 사용하는 Gaussian kernel(C, gamma)에 대한 매개 변수는 cross-validation을 사용하여 곡에 따라 적응적으로(adaptively) 결정된다.

한편, 이와 같이 SVM 패턴 분류기(203)에 의해 분류된 각 섹션은 도 6a에서와 같이 정확성이 다소 저하되고 있다. 예시된 도면은 곡 전체 길이의 절반만을 나 타내며, 가로 점선으로 표시된 영역이 매뉴얼(manual)로 구조를 분석한 결과이고, 가로 실선의 영역이 SVM 패턴 분류기(203)를 사용하여 섹션을 분류한 결과를 나타낸다. 도시된 바와 같이, I 섹션은 정확하게 분류되었고, V 섹션은 I 섹션과 일부 겹치며, V 섹션의 뒷부분은 커버하지 못하였다. 반면에 C 섹션과 그 다음 섹션은 거의 정확하게 분류되고 있다.

여기서, 각 섹션의 경계가 겹치거나 떨어진 경우 경계 감지 방법을 사용하여 각 섹션의 경계를 결정한다. 이를 위해, 상기 경계 감지부(307)는 S413 단계에서 섹션의 시작점과 끝점은 여러 피처 상의 차이가 커지게 된다는 특성을 이용하여, 모든 세그먼트에 대해 두 피처 벡터 간의 거리를 산출한다.

즉,

를 계산하기 위해 실험한 시스템에서는 Mahalanobis distance(normalized Euclidean distance)를 사용하며, 이는

여기서,

로 정의 된다. 상기

는 전체 입력 음악 파일로부터 계산된 피처 공분산(covariance) 행렬, n은 총 세그먼트의 수를 나타낸다. 상기 IVC 섹션 추출부(309)는 I, V의 경계 감지를 위해, 연이은 세그먼트 간의 3 차의 피처벡터(신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균)의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 결정한다.

그리고, 상기 IVC 섹션 추출부(309)는 V, C의 경계 감지를 위해, 연이은 세그먼트 간의 4 차의 피처벡터(신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심 의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균)의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 결정한다. 또한, C, N(다음 섹션)의 경계 감지를 위해서 2 차 피처벡터(스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차)의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 결정한다. 이와 같은 과정을 거쳐, 3 가지 경계 지점을 모두 감지 후에 얻게 되는 I, V, C 섹션이 최종적으로 추출되며, 이에 대한 실험결과는 도 6b에 도시된다.

도 6b는 도 6a에서와 달리, I,V 섹션 간 경계가 정확하고, V,C 섹션 간 경계 또한 정확하게 추종되고 있다. 그리고, C,N 섹션 간 경계는 다소 차이는 있지만 유용 가능한 경계 감지 결과를 제공하고 있다.

상술된 바와 같이, I,V,C 섹션에 대한 경계 지점이 구획되면, 사용자로부터 설정되는 요약 시간에 대응하는 요약 음원을 생성한다. 요약 음원은 먼저, S415 단계에서 각 섹션에 대한 길이를 산출하는데, 이는 이미 추출된 I, V, C 섹션 중 임의의조건에 따라서 섹션 또는 악구(phrase)를 선택한다. 임의의 조건이라 함은;

조건 1: If L_user = L_I + L_V + L_C, L_sum = L_I + L_V + L_C

조건 2: Else if L_user = L_V + L_C, L_sum = L_I' + L_V + L_C단, [ LI' = (L_user - L_C - L_V) ] 까지 악구 추출

조건 3: Else if L_user = L_C, if LV' = 1/3 * L_user, L_sum = L_V' + L_C'단, [ L_C' = 1/2 * L_user ] 까지 악구 추출; [ L_V' = (L_user - L_C') ] 까지 악구 추출; else L_sum = L_V' + L_C 단, [ L_V' = (L_user - L_C) ] 까지 악구 추출

조건 4: Else if L_user = 1/2 * L_C, L_sum = L_V' + 1/2 * L_C단, [ L_V' = (L_user - 1/2 * L_C) if L_V' = 3 ] 까지 악구 추출 을 나타낸다.

여기서, 상기 L_user, L_I, L_V, L_C, L_sum은 각각으로 사용자가 요구하는 요약의 길이, I, V, C의 길이, 실제 생성된 요약의 길이를 의미하고, L_I', L_V', L_C'는 각 섹션에 속한 악구를 의미한다.

각 조건에 맞게 선택된 섹션 또는 악구의 길이의 합이 사용자가 원하는 요약 길이보다 같거나 커질 때까지 섹션 또는 악구 선택을 반복한다. 그리고, 원래 곡의 순서에 맞추어 (I - V - C) 섹션 또는 악구를 배열하고 결합하여 요약을 생성한다. 응용에 따라서 I, V, C 섹션(또는 이에 속하는 악구들) 순서로 구성할 수도 있고, 앞부분에 가장 핵심이 되는 요약 내용이 필요한 경우에는 C, V, I의 순서로 구성할 수 있다. 이 때, 요약 길이가 전체 요약 길이의 10 %가 넘었을 경우에는, 마지막 삽입된 악구를 삭제하여 사용자 요구에 만족하도록 함이 바람직할 것이다.

S417 단계로 진입하여, 상기 악구 추출부(311)는 기 산출된 각 섹션별 길이를 토대로 해당 섹션에 대한 악구를 추출한다. 악구 추출은 하나의 섹션 전체가 요약에 포함할 수 없을 경우에 수행되며, 요약 시간에 따라 추출할 악구의 개수를 결정하게 된다. 악구를 분류하는 방법은 버스의 경우에는 하나의 섹션 내에서 정지 율, 신호 크기의 최대값과 최소값의 차이, 스펙트럴 롤오프 지점의 평균 값으로 구성된 피처 벡터가 그 이전 세그먼트의 피처벡터와의 차이가 가장 큰 부분을 찾는 방법으로 대응된다. 또한, 코러스의 경우에는 전체 코러스 섹션의 절반이 반복되는 특징을 가지므로, 코러스 섹션은 악구를 코러스 섹션의 절반으로 할 수 있다.

한편, 도 7a는 본 발명에서 실험한 40 곡의 MP3 음악(팝송)들의 각 섹션의 평균 precision rate와 recall rate를 나타낸 도면이다. 사용된 MP3 입력 데이터의 샘플링률(sampling rate)은 44.1 KHz이고 비트율(bit rate)은 128 kbps이며, 스테레오 채널을 가지고 있다. 실험을 통해 추출된 구조는 매뉴얼로 사람이 직접 구분한 곡 구조를 ground truth로 두고 비교하며, precision rate과 recall rate으로 평가된다. Precision rate은 추출된 각 섹션 길이에 대해 실험을 통해 맞게 추출된 섹션의 길이이며, recall rate은 ground truth로 제시된 각 섹션에 대해 실험을 통해 맞게 추출된 섹션의 길이이다.

압축 도메인에서의 피처 계산을 제공하는 오디오 분석 도구와 SVM 패턴 분류기(203)을 통해 이루어진다. 본 발명의 실시예에 의하면, 경계 감지 방법을 사용한 경우에 SVM 패턴 분류기(203)만을 사용한 경우보다 높은 정확도를 보여주며, 최종적으로 얻어진 버스와 코러스의 섹션의 감지 정확도를 86 % 이상 얻었다. 이로부터 제안된 방법이 섹션을 비교적 정확히 분리한다는 것을 드러낸다.

도 6b는 기존 연구와 요약의 품질을 비교한 결과 점수를 나타낸 도면이다. 요약의 품질은 characteristic, coherence, conciseness, coordination의 4 가지 항목으로 나누어 테스트된다. characteristic은 음악의 주제와 특징적인 부분을 담고 있는지에 대한 것과 요약된 내용에 대한 이해도를 평가하고, coherence는 전체적으로 일관성(consistency)을 가지고 있는지 평가하며, conciseness는 요약이 중복된 부분이 없이 필요한 부분만을 가지고 있는지, coordination는 사용자가 요구한 시간에 맞추어 적절하게 필요한 내용들이 요약으로 구성되었는가를 평가한다. 요약의 품질은 압축 도메인에서의 요약을 다룬 기존 연구로 Xi Shao, Changsheng Xu, Ye Wang, Mohan S Kankanhalli가 2004년에 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP)에 게재한 “Automatic Music Summarization in Compressed Domain”의 요약과 비교하였다. 요약의 길이는 30 초와 40 초로, 일반 사용자 20 명을 대상으로 평가하였다. 각 사용자는 곡의 요약을 들어보기 전에, 원곡 전체를 주제를 파악할 때까지 들을 수 있도록 한다. 그 후에 Shao의 요약과 본 발명의 요약을 각 항목별로 1-5 점으로 나누어 평가하였다. 1 점이 가장 좋지 않은 경우이며, 5 점이 가장 좋은 경우이다. 요약 품질 테스트로부터, 본 발명의 요약 품질이 기존 반복 기반의 요약 방식에 비해 좋음을 알 수 있다.

이상 설명된 바와 같이, 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체, 이를 위한 장치 및 이의 운용 시스템은 첫 번째로, 대중 가요를 분석하고 전형적인 음악 구조를 제 시하여 하나의 음악을 대표하는 핵심 부분(섹션)인 코러스와 버스를 추출함으로써 사용자가 곡의 주제 또는 특징적인 부분을 보다 쉽게 파악할 수 있는 효과를 제공한다.

두 번째로, 반복 기반의 요약 방식에서 요약을 구성하고 있는 부분들이 짧게 세그먼트되어 요약을 구성하는 부분들이 자연스럽게 이어지지 않던 문제점을 줄이고, 파악된 구조와 경계 감지 방법을 통하여 음악 요약을 구성함으로써 전체적으로 일관성 있는 요약을 제공할 수 있는 효과가 있다.

세 번째로, 사용자가 응용 타입, 네트워크 환경의 영향으로 요약 길이를 임의로 설정하여도, 주어진 요약 시간에 맞추어 곡의 주제를 파악할 수 있도록 필요한 내용으로 구성된 음악 요약을 생성할 수 있는 효과가 있다.

네 번째로, 사용자의 관점에서 짧은 시간 동안에 곡의 주제를 파악할 수 있게 해 서비스 제공자의 관점에서는 음악 판매량 증가의 가능성을 주며, 자동화된 요약 시스템을 통해 인력과 시간을 절약할 수 있는 효과가 있다.

이상에서 본 발명을 특정한 바람직한 실시 예에 대하여 도시하고 설명하였으나, 본 발명은 상기한 실시 예에 한정하지 아니하며, 많은 변형 및 대중 가요 외 다른 음악 장르에의 적용 등 본 발명의 사상 내에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형이 가능할 것이다.

Claims

엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 장치에 있어서,

상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하고, 각 섹션(I,V,C)을 상기 임의의 시간 이내로 조합하여 상기 요약 음원으로서 상정하며, 상기 요약 음원을 재생 출력하는 자동화된 요약 음원 추출장치를 포함하며,

상기 자동화된 요약 음원 추출장치는 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급 제어하고, 사용자의 시간 설정에 따라 형성된 요약 음원을 출력 제어하기 위한 운용 제어기; 및

상기 해당 음원에 대한 Granule 단위의 항목별 피처(음원특색 - Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하며, 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하고, 각 섹션의 조합과 사용자로부터 선택된 요약 시간 정보에 기초하여 상기 요약 음원을 생성하기 위한 요약 생성기로 이루어진 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 1 항에 있어서, 상기 Granule 단위는 11m Sec 내지 13m Sec의 시간간격을 나타내는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 1 항에 있어서, 상기 세그먼트는 1.5 Sec 내지 2.5 Sec의 시간간격을 나타내는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 1 항에 있어서, 상기 요약 생성기는 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부;

상기 피처 추출부의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부;

상기 세그먼테이션부에서 출력되는 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하고, 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부;

상기 경계 감지부에서 산출된 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부; 및

상기 IVC 섹션 추출부에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부로 구성되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 4 항에 있어서, 상기 피처 추출부의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)인 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 4 항 또는 제 5 항에 있어서, 상기 세그먼테이션부는 상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터를 이용하여 상기 I 섹션 및 V 섹션 간 피처 벡터를 정규화하며;

상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용하여 상기 V 섹션 및 C 섹션과, 상기 C 섹션 및 N 섹션 간 피처 벡터를 정규화하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 4 항 또는 제 5 항에 있어서, 상기 경계 감지부는 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 I, V 섹션별 경계를 감지하고,

신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 V, C 섹션별 경계를 감지하며,

스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 설정하여 C, N(다음 섹션) 섹션별 경계를 감지하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 4 항에 있어서, 상기 요약 생성부는 각 섹션별 길이를 산출하고, 상기 임의의 시간에 대응하도록 상기 각 섹션에 대한 조합을 수행한 후, 해당 악구(Phrase)를 생성하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 1 항에 있어서, 상기 엠피쓰리(MP3) 음원에 대한 전주(I;Introduction) 섹션, 버스(V;Verse) 섹션 및 코러스(C;Chorus) 섹션을 분리하기 위한 SVM 패턴 분류기를 더 포함하며, 상기 요약 생성기는 상기 SVM 패턴 분류기에서 제공되는 섹션 분류를 토대로 상기 피처 벡터를 생성하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 9 항에 있어서, 상기 요약 생성기는 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위한 피처 추출부;

상기 피처 추출부의 결과를 토대로 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요소 값을 생성하기 위한 세그먼테이션부;

상기 세그먼테이션부에서 출력되는 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하되, 상기 SVM 패턴 분류기를 이용하여 이를 달성하기 위한 SVM 섹션 분류부;

상기 섹션 분류부의 추출 결과에 따라 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 경계 감지부;

상기 경계 감지부에서 산출된 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 IVC 섹션 추출부; 및

상기 IVC 섹션 추출부에서 제공되는 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 요약 생성부로 구성되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 10 항에 있어서, 상기 SVM 섹션 분류기에서 사용되는 SVM의 커널은 가우 시안 커널(Gaussian kernel)이 적용되는 RBF(Radial Based Function)을 사용하고, 다중 클래스(multi-class)로 확장하기 위한 방식인 “one-to-all"(I - V/C, V - I/C, C - I/V) 접근 방식이 사용되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 10 항에 있어서, 상기 경계 감지부의 두 피처 벡터 간의 거리를 산출식은,
이며
여기서,
로 정의 된 Mahalanobis distance(normalized Euclidean distance)가 사용되며, 상기
는 전체 입력 음악 파일로부터 계산된 피처 공분산(covariance) 행렬, n은 총 세그먼트의 수를 나타내는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 10 항에 있어서, 상기 피처 추출부의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)인 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 10 항 또는 제 13 항에 있어서, 상기 세그먼테이션부는 상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드)로 구성된 9 차원 벡터를 이용하여 상기 I 섹션 및 V 섹션 간 피처 벡터를 정규화하며;

상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용하여 상기 V 섹션 및 C 섹션과, 상기 C 섹션 및 N 섹션 간 피처 벡터를 정규화하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
제 10 항 또는 제 13 항에 있어서, 상기 경계 감지부는 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 I, V 섹션별 경계를 감지하고,

신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 V, C 섹션별 경계를 감지하며,

스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 설정하여 C, N(다음 섹션) 섹션별 경계를 감지하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식 의 가요 음향에 대한 요약 장치.
제 10 항에 있어서, 상기 요약 생성부는 각 섹션별 길이를 산출하고, 상기 임의의 시간에 대응하도록 상기 각 섹션에 대한 조합을 수행한 후, 해당 악구(Phrase)를 생성하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 장치.
엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 추출하기 위한 방법에 있어서,

a) 상기 엠피쓰리 형식의 디지털 음원을 소정 단위로 분할하고, 분할 구간내의 피처(Feature) 벡터를 산출하는 단계;

b) 상기 픽처 벡터를 토대로 상기 디지털 음원에 대한 전주(Introduction) 섹션(I), 버스(Verse) 섹션(V) 및 코러스(Chorus) 섹션(C)을 추출하는 단계; 및

c) 상기 각 섹션(I,V,C)을 사용자로부터 선택된 요약 시간 정보에 기초한 임의의 시간 이내로 조합하여 상기 요약 음원으로서 상정하고, 상기 요약 음원을 재생 출력하는 단계를 포함하며,

상기 a) 단계는 a-1) 상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하는 단계;

a-2) 상기 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하여 이를 공급하는 단계; 및

a-3) 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하고, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하는 단계로 이루어진 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
삭제
제 17 항에 있어서, 상기 b) 단계는 각 섹션(I,V,C)을 추출함에 있어서 SVM을 기반으로 섹션이 분류되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
제 17 항 또는 제 19 항에 있어서, 상기 c) 단계는 c-1) 상기 각 섹션을 토대로 섹션에 대한 경계를 구획하는 단계;

c-2) 상기 각 섹션별 길이를 산출하는 단계;

c-3) 상기 각 섹션에 대한 해당 악구를 추출하는 단계; 및

c-4) 상기 해당 악구가 상기 임의의 시간에 대응하도록 섹션 편집을 수행하는 단계로 이루어진 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
제 20 항에 있어서, 상기 c-4) 단계는 c-4-1) 각 조건에 맞게 선택된 섹션 또는 악구의 길이의 합이 사용자가 원하는 요약 길이보다 같거나 커질 때까지 섹션 또는 악구 선택을 반복하는 단계;

c-4-2) 원음의 순서에 따라 규정화된 섹션 또는 악구를 배열 또는 결합하여 요약 음원을 생성하는 단계로 이루어진 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
제 21 항에 있어서, 상기 규정화된 섹션 또는 악구의 배열은 I, V, C 섹션(또는 이에 속하는 악구들) 순서로 구성되거나, C, V, I의 순서로 구성되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
제 21 항에 있어서, c-4-3) 상기 요약 음원의 생성결과, 요약 음원의 길이가 전체 요약 길이의 10 %가 넘었을 경우에는, 마지막 삽입된 악구를 삭제하는 단계가 더 포함되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 방법.
엠피쓰리(MP3) 형식의 디지털 음원에 대한 요약 음원을 임의의 시간 이내로 추출하기 위한 프로그램이 탑재되는 기록 매체 또는 저장 매체에 있어서,

상기 엠피쓰리(MP3) 음원을 입력받아 해당 음원에 대한 디지털 값을 토대로 소정 시간단위의 Granule로 분할하며, 분할된 Granule 단위의 음원을 소정 시간단위의 세그먼트(Segment)로 취합하고, 상기 해당 음원에 대한 Granule 단위의 항목별 피처(Feature) 값을 생성하며, 상기 항목별 피처 값을 토대로 상기 세그먼트 단위의 피처 벡터를 생성하고, 상기 피처 벡터를 토대로 해당 음원에 대한 전주 섹션(I), 버스 섹션(V) 및 코러스 섹션(C)을 추출하며, 각 섹션에 대응하는 악구(Phrase)를 생성하고, 상기 각 섹션에 대한 악구 생성시 사용자로부터 선택된 요약 시간 정보에 기초한 임의의 재생시간을 갖도록 요약 음원을 생성하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 24 항에 있어서, 상기 Granule 단위는 11m Sec 내지 13m Sec의 시간간격을 나타내는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 24 항에 있어서, 상기 세그먼트는 1.5 Sec 내지 2.5 Sec의 시간간격을 나타내는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 24 항에 있어서, 상기 요약 프로그램이 탑재된 기록매체는 상기 엠피쓰리(MP3) 음원에 대한 피처를 소정 항목별로 추출하기 위는 제1 프로그램;

상기 해당 음원에 대한 전주(I) 및 버스(V) 섹션을 분류하고, 상기 버스(V) 및 코러스(C) 간 섹션, 상기 코러스(C) 및 코러스(C) 이후의 섹션에 대한 벡터 요 소 값을 생성하기 위한 제2 프로그램;

상기 각 섹션에 대한 벡터 요소 값에 기반하여 I,V,C에 대한 클래스 간 경계를 분류하고, 분류된 각 섹션에 대한 피처별 차이를 토대로 픽처 벡터 간의 차이를 산출하는 제3 프로그램;

상기 픽처 벡터 간 차이를 근거로 V 및 C의 경계와, C 및 N(C 다음의 경계)의 경계를 추출하기 위한 제4 프로그램; 및

상기 각 섹션을 원음의 순서에 따라 배열하고, 사용자 요구에 응답하여 상기 섹션의 길이를 설정함으로써 해당 음원에 대한 요약 음원을 출력하기 위한 제5 프로그램으로 구성되는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 27 항에 있어서, 상기 피처 추출부의 피처 항목은 신호 크기(signal magnitude), 스펙트럴 중심(spectral centroid), 스펙트럴 롤오프 지점(spectral rolloff point), 스펙트럴 유동률(spectral flux), MFCC(Mel-Frequency Cepstral Coefficients), 정지율(pause rate)인 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 27 항 또는 제 28 항에 있어서, 상기 제2 프로그램은 상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 신호 크기의 표준편차, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균, MFCC(7~9 서브밴드) 로 구성된 9 차원 벡터를 이용하여 상기 I 섹션 및 V 섹션 간 피처 벡터를 정규화하며;

상기 피처 항목 중 신호 크기의 평균, 신호 크기의 최대값, 스펙트럴 유동률의 평균, 신호 크기의 최소값, 스펙트럴 중심의 최소값, 스펙트럴 롤오프 지점의 최소값, MFCC(4~8 서브밴드)로 구성된 11 차원 벡터를 이용하여 상기 V 섹션 및 C 섹션과, 상기 C 섹션 및 N 섹션 간 피처 벡터를 정규화하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 27 항에 있어서, 상기 제3 프로그램은 신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 I, V 섹션별 경계를 감지하고,

신호 크기의 최대값과 최소값의 차이, 스펙트럴 중심의 평균, 스펙트럴 롤오프 지점의 평균, 스펙트럴 유동률의 평균의 Mahalanobis distance가 가장 큰 세그먼트를 다음 섹션의 시작점으로 설정하여 V, C 섹션별 경계를 감지하며,

스펙트럴 유동률의 평균, 스펙트럴 유동률의 표준편차의 Mahalanobis distance가 가장 작은 세그먼트를 다음 섹션의 시작점으로 설정하여 C, N(다음 섹션) 섹션별 경계를 감지하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.
제 27 항에 있어서, 상기 제5 프로그램은 각 섹션별 길이를 산출하고, 상기 임의의 시간에 대응하도록 상기 각 섹션에 대한 조합을 수행한 후, 해당 악구(Phrase)를 생성하는 것을 특징으로 하는 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약 프로그램이 탑재된 기록매체.