KR100725018B1 - 음악 내용 자동 요약 방법 및 그 장치 - Google Patents
음악 내용 자동 요약 방법 및 그 장치 Download PDFInfo
- Publication number
- KR100725018B1 KR100725018B1 KR1020050112763A KR20050112763A KR100725018B1 KR 100725018 B1 KR100725018 B1 KR 100725018B1 KR 1020050112763 A KR1020050112763 A KR 1020050112763A KR 20050112763 A KR20050112763 A KR 20050112763A KR 100725018 B1 KR100725018 B1 KR 100725018B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- segment
- segments
- music content
- similarity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000008859 change Effects 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000004907 flux Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 102100023702 C-C motif chemokine 13 Human genes 0.000 description 1
- 102100021943 C-C motif chemokine 2 Human genes 0.000 description 1
- 102100032366 C-C motif chemokine 7 Human genes 0.000 description 1
- 102100034871 C-C motif chemokine 8 Human genes 0.000 description 1
- 101000797758 Homo sapiens C-C motif chemokine 7 Proteins 0.000 description 1
- 101100382872 Homo sapiens CCL13 gene Proteins 0.000 description 1
- 101710091439 Major capsid protein 1 Proteins 0.000 description 1
- 101710091437 Major capsid protein 2 Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- AEUKDPKXTPNBNY-XEYRWQBLSA-N mcp 2 Chemical compound C([C@@H](C(=O)N[C@@H](CS)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)NCC(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H]1N(CCC1)C(=O)[C@H](CC(C)C)NC(=O)[C@H](CS)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](CS)NC(=O)[C@H](C)NC(=O)[C@H](CS)NC(=O)[C@@H](NC(=O)[C@@H](N)C(C)C)C(C)C)C1=CC=CC=C1 AEUKDPKXTPNBNY-XEYRWQBLSA-N 0.000 description 1
- 101150018062 mcp4 gene Proteins 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/131—Morphing, i.e. transformation of a musical piece into a new different one, e.g. remix
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 디지털 컨텐츠 관리 시스템에서의 음악 내용 자동 요약 방법 및 그 장치에 관한 것이다. 본 발명은 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 단계와, 상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트(segment)를 재구성하는 단계와, 상기 재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 단계 및 상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법을 제공한다. 본 발명에 의하면, 압축 영역에서 오디오 특성을 추출하여 음악을 요약하는데 걸리는 속도를 향상시킨 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
음악, 요약, 변화, 클러스터링, 유사성, 반복성
Description
도 1은 본 발명의 일실시예에 따른 음악 내용 자동 요약 장치의 구성을 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 음악 내용 자동 요약 방법의 흐름을 나타내는 도면이다.
도 3은 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 변화 지점을 추적하여 세그먼트를 재구성하는 절차를 나타내는 도면이다.
도 4는 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 변화 지점을 추적하는 일례를 나타내는 도면이다.
도 5는 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 변화 지점을 추적하는 절차를 나타내는 도면이다.
도 6은 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 후보 음악 변화 피크 중 음악 내용 변화 지점을 검출하는 일례를 나타내는 도면이다.
도 7은 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 세그먼트로부터 일정한 길이의 구간을 선별하는 일례를 나타내는 도면이다.
도 8은 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 세그먼트를 클 러스터링하는 일례를 나타내는 도면이다.
도 9는 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 요약본을 생성하는 일례를 나타내는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음악 내용 자동 요약 장치
110: 특징 추출부
120: 변화 검출부
130: 제1 클러스터링부
140: 음색 및 템포 특성 추출부
150: 제2 클러스터링부
160: 결정부
170: 요약본 생성부
본 발명은 디지털 컨텐츠 관리 시스템에서의 음악 내용 자동 요약 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하고 추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트를 재구성하고 재구성된 각 세그먼트에서 일정한 길이의 일부분을 취해 클러스터링하여 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하 여 음악 내용 요약본을 생성하는 방법 및 그 장치에 관한 것이다.
일반적으로 디지털 컨텐츠 관리 시스템은 대용량의 음악 데이터베이스로부터 사용자가 선정한 음악 파일과 유사한 곡을 고속으로 검색하기 위해서 음악 내용을 요약하는 기능이 필수적이다.
종래 음악 요약 시스템 및 방법으로 미국 등록특허 US6,633,845호는 각 음악 파일의 비압축 영역에서 추출된 MFCC 특징 값을 이용하여 노래의 구조를 찾기 위해 Cross-entropy measure나 Hidden Markov Model(HMM)을 사용한다. 그러나, 종래 음악 요약 시스템 및 방법은 락(Rock)이나 포크(Folk) 음악과 같은 명확한 음악 장르의 요약에 대해서는 적당하지만 클래식(classic) 음악에 부적당한 문제점이 있다.
한편, 종래 유사성 분석에 의한 자동 음악 요약으로 미국 공개특허 US 2005/0065976호는 각 음악 파일의 비압축 영역에서 추출된 MFCC 특징 값에 2-D 유사성 매트릭스(similarity matrix)를 이용하여 노래의 구조를 검색하고, 검색된 노래의 구조로부터 음악 요약을 생성한다. 하지만, 종래 유사성 분석에 의한 자동 음악 요약 방법은 지각에 의한 요약본을 제공하지 못하는 문제점이 있다.
한편, 종래 자동 음악 오디오 요약 생성 방법은 오디오 특징 값으로 음악 시그널의 다양한 주파수 대역에서 획득된 에너지의 변동에 따른 다이나믹한 특성을 추출한다. 그리고, 종래 자동 음악 오디오 요약 생성 방법은 각 특성의 프레임과 프레임 사이의 유사성 매트릭스를 이용하여 크고 빠른 변화 부분을 찾아서 세그먼트(segment)한다. 그리고, 종래 자동 음악 오디오 요약 생성 방법은 구해진 세그 먼트내의 특징의 평균값을 구하여 포텐셜 상태(Potential state)로 정의하고, 이를 이용하여 각 세그먼트간의 평균값의 반복을 찾아 유사한 세그먼트로 가정하고, 하나의 세그먼트로 합병한다. 그리고, 종래 자동 음악 오디오 요약 생성 방법은 세그먼트를 합병함으로써 상태의 수와 초기 상태를 정의한 후 K-mean 알고리즘에 의해 형성된 상태를 Hidden Markov Model(HMM) 학습(learning)의 초기화(initialization)로 사용한다. 즉, 종래 자동 음악 오디오 요약 생성 방법은 HMM의 Baum-Welch 알고리즘을 사용하여 모델을 형성하고, 상기 형성된 모델을 사용하여 음악 시그널을 디코딩하고, 디코딩에서 획득된 부분으로부터 짧은 부분을 이용하여 음악 내용 요약본을 형성한다. 하지만, 종래 자동 음악 오디오 요약 생성 방법은 멀티-패스(multi-pass) 방식이므로 계산량이 많고 속도가 느린 문제점이 있다.
이와 같이, 종래 음악 요약 방법은 세그먼트화에 의해 획득된 세그먼트를 사용해 클래스의 수를 구하고, 그에 따라 K-means 알고리즘과 HMM을 사용하여 각 클래스 모델을 형성한 후 음악 시그널을 디코딩함으로써 계산량이 많고 그에 따라 속도가 느린 문제점이 있다.
한편, 종래 음악 요약 방법은 음악 시그널을 짧은 세그먼트로 나눈 후 각 세그먼트에서 MFCC(Mel-Frequency Cepstral Coefficients), LPC(Linear Predictive Coding), ZCR(Zero Crossing Rates) 등과 같이 기존에 잘 알려진 오디오 특징 값을 추출한다. 하지만, 종래 음악 요약 방법은 짧은 세그먼트의 유사성을 측정하기 위해 기존에 사용해오던 거리를 이용한 유사성을 측정한 후 클러스터링을 수행함으로 인해 클러스터링 오류가 발생하는 문제점이 있다.
본 발명은 상기와 같은 종래기술을 개선하기 위해 안출된 것으로서, 음악 데이터의 압축 영역에서 오디오 특징 값을 추출하여 고속으로 음악 내용 요약본을 생성하는 음악 내용 자동 요약 방법 및 그 장치를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 강한 피크 알고리즘을 사용하여 음악 변화 지점을 보다 분명하게 추적하는 음악 내용 자동 요약 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 음악 변화 부분에 따른 세그먼트를 클러스터링에 이용하여 클러스터링의 복잡성을 감소시키는 음악 내용 자동 요약 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 음악 변화 부분에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 설정하여 클러스터링을 수행하여 클러스터링의 정확성을 높이는 음악 내용 자동 요약 방법 및 그 장치를 제공하는 것이다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 단계와, 상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트(segment)를 재구성하는 단계와, 상기 재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 단계 및 상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트 를 이용하여 음악 내용 요약본을 생성하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법을 제공한다.
본 발명의 일측에 따르는 음악 내용 자동 요약 장치는 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 특징 추출부와, 상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 검출하여 세그먼트(segment)를 재구성하는 변화 검출부와, 상기 재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 클러스터링부 및
상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성하는 요약본 생성부를 포함한다.
이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 음악 내용 자동 요약 방법 그 장치를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 음악 내용 자동 요약 장치의 구성을 나타내는 도면이다.
도 1을 참조하면, 음악 내용 자동 요약 장치(100)는 특징 추출부(110), 변화 검출부(120), 제1 클러스터링부(130), 음색 및 템포 특성 추출부(140), 제2 클러스터링부(150), 결정부(160) 및 요약본 생성부(170)를 포함한다.
특징 추출부(110)는 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출한다. 이 경우, 특징 추출부(110)는 상기 음악 데이터의 압축 영역에서 부분적 디코딩을 수행하여 MDCT(Modified Discrete Cosine Transformation) 특징 값을 추 출할 수 있고, 본 발명의 일실시예에 따르면 상기 MDCT 특징 값은 음색 특성값, 템포 특성값을 포함할 수 있다.
특징 추출부(110)는 소정의 압축 방식으로 압축된 음악 파일을 부분적으로 디코딩하여 576개의 MDCT 계수 Si(n)를 추출한다. 여기서, n은 MDCT의 프레임 인덱스를 나타내고, i(0~575)는 MDCT의 서브 밴드 인덱스(sub-band index)를 나타낸다. 다음으로 특징 추출부(110)는 576개의 MDCT 계수를 30개의 서브 밴드들(Sk(n))로 나눈 후 각 서브 밴드에서 에너지를 추출한다. 여기서, Sk(n)은 상기 선택된 MDCT 계수를 나타내고, k(<i)은 선택된 MDCT 서브 밴드 인덱스를 나타낸다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 특징 추출부(110)를 통해 상기 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출함으로써 종래 비압축 영역에서 음악 요약을 수행하는 장치에 비해 음악을 요약하는 처리 속도를 향상시킬 수 있다.
변화 검출부(120)는 상기 추출된 특징 값을 이용하여 상기 음악 데이터의 음악 내용 변화 지점(change point)을 검출하여 세그먼트(segment)를 재구성한다.
변화 검출부(120)는 상기 추출된 특징 값을 이용하여 일정한 길이의 세그먼트 두 개를 설정하고, 인접한 두 개의 세그먼트를 오버래핑(overlapping)하면서 유사성을 계산하여 음악 내용 변화 지점을 추적하여 세그먼트를 재구성할 수 있다.
변화 검출부(120)는 도 4에 도시된 것과 같이 상기 추출된 MDCT 에너지 계수를 기반으로 고정된 길이의 두 개의 윈도우를 사용하여 세그먼트를 설정하고, 상 기 음악 데이터를 따라 상기 두 개의 윈도우를 일정 시간 간격으로 시프팅(shifting)하여 상기 두 개의 세그먼트간 유사성을 결정하여 상기 음악 내용 변화 지점을 검출할 수 있다.
제1 클러스터링부(130)는 상기 검출된 음악 변화 지점에 의해 획득된 상기 각 세그먼트로부터 일정한 길이의 구간을 선별하여 클러스터링을 수행함으로써 BIC(Bayesian Information Criterion) 방식에 의해 상기 각 세그먼트간의 유사성과 반복성을 측정한다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 종래 짧은 세그먼트의 클러스터링 오류를 제거하기 위해 음악 내용 변화 지점을 추적한 후 상기 추적된 음악 내용 변화 지점에 따라 구성된 각 세그먼트를 클러스터링하여 상기 각 세그먼트간의 유사성과 반복성을 결정할 수 있다.
음색 및 템포 특성 추출부(140)는 상기 검출된 변화 지점으로부터 형성된 각 세그먼트에서 음악 내용을 분석하기 위해 MDCT 기반의 음색 특성 및 MDCT-MS(Modulation Spectrum) 기반의 템포 특성(feature)을 추출한다.
음색 및 템포 특성 추출부(140)는 상기 추출되는 음색 및 템포 특성을 결합하기 위해 두 종류의 특성으로부터 대표적으로 스펙트럼의 중심(centroid), 대역폭(bandwidth), 플럭스(flux), 평탄(flatness)을 구한다.
수학식 1은 상기 중심(centroid)과 연관된 수식이다.
상기 중심은 가장 강한 비트 레이트(beat rate)의 특성을 나타낸다.
수학식 2는 상기 대역폭(bandwidth)과 연관된 수식이다.
상기 대역폭은 상기 비트 레이트의 범위 특성을 나타낸다.
수학식 3은 상기 플럭스(flux)와 연관된 수식이다.
상기 플럭스는 시간에 따른 비트 레이트의 변화 특성을 나타낸다.
상기 평탄(flatness)은 명확하고 강한 비트가 어떤 특성인지를 나타낸다.
제2 클러스터링부(150)는 상기 각 세그먼트로부터 추출된 음색 및 템포 특 성들에 대해 Euclidean distance를 계산하여 각 세그먼트의 유사성을 측정하고, 상기 측정된 유사성을 클러스터링에 적용한다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 정확성을 높이기 위해서 검출된 음악 내용 변화 지점에 따라 구성된 각 세그먼트의 압축 영역에서 추출된 음색 및 템포 특성을 결합하여 클러스터링에 사용할 수 있다.
제2 클러스터링부(150)는 상기 클러스터링에 의해 구해진 가장 큰 클러스터를 음악 데이터의 대표 부분 후보로 결정할 수 있다.
결정부(160)는 제1 클러스터링부(130)에 의한 제1 클러스터링 결과와 제2 클러스터링부(150)에 의한 제2 클러스터링 결과를 비교하여 일치하는 부분을 이용하여 상기 음악 데이터의 대표 부분, 상기 각 세그먼트의 반복성 및 유사성을 결정한다.
결정부(160)는 상기 제1 클러스터링 결과와 상기 제2 클러스터링 결과를 비교하여 일치하는 않는 경우, 상기 제2 클러스터링 결과를 사용하여 상기 각 세그먼트의 반복성 및 유사성을 결정할 수 있다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 제1 클러스터링부(130)에 의한 BIC 방식을 사용한 클러스터링만을 사용하여 요약본을 형성하게 되면 음악 구조가 단순한 경우에 잘 적용되지만 다양한 음악 장르에 대해서 요약본을 형성하기 어려운 문제점을 해결하기 위해 음색 및 템포 특성 추출부(140), 제2 클러스터링부(150) 및 결정부(160)를 더 포함한다.
따라서, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 음악 내용 변화 지점에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 BIC 방식과 압축 영역에서 추출된 음색 및 템포 특성을 사용하여 Euclidean distance 클러스터링 방식을 혼합하여 고속으로 요약본을 형성할 수 있다.
요약본 생성부(170)는 상기 결정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성한다.
요약본 생성부(170)는 상기 결정된 유사성에 따라 세그먼트의 쌍(pair)을 결정하고, 상기 결정된 쌍의 첫 세그먼트를 요약 대상으로 선택하고, 상기 선택된 각 세그먼트의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성할 수 있다.
요약본 생성부(170)는 상기 선택된 각 세그먼트 중에서 가장 긴 세그먼트를 기준으로 상기 선택된 세그먼트의 비율을 고려하여 예를 들어 3분의 음악 데이터로부터 50초의 음악 내용 요약본을 생성할 수 있다.
따라서, 본 발명에 따른 음악 내용 자동 요약 장치(100)는 사용자가 음악을 청취하고자 하는 경우, 상기 음악 내용 요약본을 통해 상기 가장 긴 세그먼트를 하이라이트로 재생하여 상기 사용자에게 들려줄 수 있다.
도 2는 본 발명의 일실시예에 따른 음악 내용 자동 요약 방법의 흐름을 나타내는 도면이다.
도 2를 참조하면, 단계(210)에서 음악 내용 자동 요약 장치는 음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출한다.
단계(210)에서 상기 음악 내용 자동 요약 장치는 상기 음악 데이터의 압축 영역에서 부분적 디코딩을 수행하여 MDCT(Modified Discrete Cosine Transformation) 특징 값을 추출할 수 있다. MDCT 특징 값을 추출하는 실시예에 대해서는 특징 추출부(110)에 대한 설명에서 살펴본 바 있으므로, 여기서는 생략한다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 방법은 음악 데이터의 압축 영역에서 오디오 특징 값을 추출함으로써 종래 비압축 영역에서 오디오 특징 값을 추출하는 것에 비해 처리 속도가 향상되는 이점이 있다.
단계(220)에서 상기 음악 내용 자동 요약 장치는 상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트(segment)를 재구성한다.
즉, 단계(220)에서 상기 음악 내용 자동 요약 장치는 도 3에 도시된 것과 같은 절차에 따라 음악 내용 변화 지점을 추적하여 세그먼트를 재구성할 수 있다.
도 3은 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 변화 지점을 추적하여 세그먼트를 재구성하는 절차를 나타내는 도면이다.
도 3을 참조하면, 단계(310)에서 상기 음악 내용 자동 요약 장치는 상기 추출된 MDCT 특징 값을 기반으로 고정된 길이의 두 개의 세그먼트를 설정한다.
단계(320)에서 상기 음악 내용 자동 요약 장치는 도 4에 도시된 것과 같이 상기 음악 데이터를 따라 상기 설정된 두 개의 세그먼트(Window1, Window2)를 일정한 시간 간격으로 시프팅(shifting)하면서 상기 두 개의 세그먼트간 유사성을 결정하여 상기 음악 내용 변화 지점(MCP1, MCP2, MCP3, MCP4)을 추적한다.
단계(320)에서 상기 음악 내용 자동 요약 장치는 예를 들어 3초 이상 고정된 길이의 두 개의 세그먼트를 설정한 후 전체 음악 시그널을 따라 1.5초 이하의 고정된 간격으로 시프팅하면서 상기 두 개의 세그먼트의 유사성을 결정할 수 있다.
단계(320)에서 상기 음악 내용 자동 요약 장치는 유사성의 가부를 결정하기 위해 MKL(Modified Kullback-Leibler Distance) 방식을 사용하여 도 5에 도시된 것과 같은 절차에 따라 음악 내용 변화 지점을 추적할 수 있다.
도 5는 본 발명에 따른 음악 내용 자동 요약 방법에 있어서, 음악 내용 변화 지점을 추적하는 절차의 일례를 나타내는 도면이다.
도 5를 참조하면, 단계(510)에서 상기 음악 내용 자동 요약 장치는 MKL 방식에 의해 복수 개의 피크(peak)를 계산한다.
l: 두 개의 세그먼트 중 왼쪽 세그먼트
r: 두 개의 세그먼트 중 오른쪽 세그먼트
본 발명에 따른 음악 내용 자동 요약 방법은 MKL 방식을 사용하게 되면 다양한 간격과 높이의 피크가 나타나므로 어떤 피크가 음악 내용 변화 지점을 결정하는 피크인지 판별하기 어려운 문제점이 있기 때문에 하기와 같은 단계들을 더 수행한다.
단계(520)에서 상기 음악 내용 자동 요약 장치는 상기 계산된 피크 중에서 N개 이상의 피크를 비교하여 높은 피크(High Peak), 낮은 피크(Low Peak) 또는 중간 피크(Interval Peak) 중 어느 하나로 구분한다.
단계(520)에서 상기 음악 내용 자동 요약 장치는 예를 들어 상기 MKL 방식에 의해 계산된 5개 이상의 피크를 비교하여 높은 피크, 낮은 피크 또는 중간 피크 중 어느 하나로 구분할 수 있다.
단계(530)에서 상기 음악 내용 자동 요약 장치는 정의된 경사 구간을 만족하는 높은 피크(High Peak)를 도 6에 도시된 것과 같이 후보 음악 변화 피크(Candidate Music Change Peak)로 결정한다. 상기 정의된 경사 구간은 높은 피크가 이전의 피크보다 높고, 그 다음 5개의 피크보다 높아야 한다.
단계(540)에서 상기 음악 내용 자동 요약 장치는 도 6에 도시된 것과 같이 복수 개의 상기 후보 음악 변화 피크 중에서 한계값(Threshold) 이상에 해당하는 후보 음악 변화 피크를 상기 음악 내용 변화 지점으로 결정한다. 상기 한계값은 상기 MKL 방식에 의해 계산된 S개 이상의 피크에 대한 평균값에 의해 자동으로 생성된다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 방법은 강력한 피크 검색 알고리즘을 사용하므로 보다 명확하게 음악 내용 변화 지점을 추적할 수 있다.
단계(230)에서 상기 음악 내용 자동 요약 장치는 상기 재구성된 각 세그먼트에서 인접한 길이의 일부분을 취해 클러스터링하여 상기 각 세그먼트간의 유사성과 반복성을 측정한다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 방법은 음악 내용 변화 지 점에 따른 세그먼트를 클러스터링에 이용하므로 클러스터링의 복잡성을 줄일 수 있는 이점이 있다.
또한, 본 발명에 따른 음악 내용 자동 요약 방법은 음악 내용 변화 지점에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 선정하여 클러스터링을 수행하므로 클러스터링의 정확성을 높일 수 있는 이점이 있다.
단계(230)에서 상기 음악 내용 자동 요약 장치는 상기 추적된 음악 내용 변화 지점에 의해 획득된 상기 각 세그먼트로부터 도 7에 도시된 것과 같이 일정한 길이의 구간을 선별하여 BIC(Bayesian Information Criterion) 방식에 의해 상기 각 세그먼트간의 유사성과 반복성을 측정할 수 있다.
N: 세그먼트의 길이
상기 음악 내용 자동 요약 장치는 수학식 5에 의해 RBIC(i)가 '0'보다 큰 경우, 상기 세그먼트가 유사한 것으로 결정하고, RBIC(i)가 '0'보다 크지 않은 경우 상기 세그먼트가 유사하지 않은 것으로 결정할 수 있다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 방법은 다양한 길이의 세그먼트로부터 분포가 다른 covariance matrix를 구하여 유사성을 비교하게 되면 오류가 발생하므로 이를 해결하기 위해 상기 검출된 음악 내용 변화 지점에 의해 획 득된 다양한 길이의 세그먼트로부터 일정한 길이 예를 들어 3초 이상의 구간을 선별하여 BIC 방식에 의해 세그먼트의 유사성과 반복성을 결정할 수 있다.
단계(240)에서 상기 음악 내용 자동 요약 장치는 상기 검출된 음악 내용 변화 지점으로부터 형성된 각 세그먼트에서 음악 내용을 분석하기 위해 MDCT 기반의 음색 특성과 MDCT-MS 기반의 템포 특성을 추출한다.
단계(240)에서 상기 음악 내용 자동 요약 장치는 상기 추출된 두 종류의 특성을 결합하기 위해 상기 두 종류의 특성으로부터 중심(centroid), 대역폭(bandwidth), 플럭스(flux) 및 평탄(flatness)을 구할 수 있다.
단계(250)에서 상기 음악 내용 자동 요약 장치는 상기 추출된 음색 및 템포 특성들에 대해 Euclidean distance를 계산하고, 계산된 값에 의한 유사성에 따라 클러스터링을 수행하여 각 세그먼트의 유사성 및 반복성을 측정한다.
단계(250)에서 상기 음악 내용 자동 요약 장치는 상기 Euclidean distance를 사용한 세그먼트의 클러스터링에 의해 구해진 가장 큰 클러스터를 상기 음악 데이터의 대표 부분 후보로 결정할 수 있다.
단계(260)에서 상기 음악 내용 자동 요약 장치는 상기 BIC 방식을 사용한 제1클러스터링 결과와 상기 Euclidean distance 방식을 사용한 제2 클러스터링 결과를 비교한 결과에 따라 각 세그먼트의 유사성 및 반복성을 결정한다.
단계(260)에서 상기 음악 내용 자동 요약 장치는 상기 제1 클러스터링 결과와 상기 제2 클러스터링 결과를 비교하여 일치하는 부분을 이용하여 상기 음악 데이터의 대표 부분, 각 세그먼트의 반복성 및 유사성을 결정할 수 있다.
단계(260)에서 상기 음악 내용 자동 요약 장치는 상기 제1 클러스터링 결과와 상기 제2 클러스터링 결과를 비교하여 일치하지 않은 경우, 상기 제2 클러스터링 결과에 따라 상기 음악 데이터의 대표 부분, 상기 각 세그먼트의 반복성 및 유사성을 결정할 수 있다.
이와 같이, 본 발명에 따른 음악 내용 자동 요약 방법은 음악 내용 변화 지점에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 BIC 방식과 압축 영역에서 추출된 음색 및 템포 특성을 사용하여 Euclidean distance 클러스터링 방식을 혼합하여 고속으로 음악 내용 요약본을 형성할 수 있다.
단계(270)에서 상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성한다.
단계(270)에서 상기 음악 내용 자동 요약 장치는 상기 측정된 유사성에 따라 세그먼트의 쌍(pair)을 결정하고, 상기 결정된 쌍의 첫 세그먼트를 요약 대상으로 선택하고, 상기 선택된 각 세그먼트의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성할 수 있다.
상기 음악 내용 자동 요약 장치는 상기 측정된 유사성에 따라 도 8에 도시된 것과 같이 세그먼트의 쌍({A, K}, {C, G}, {D, H}, {E, J}, {F, I})을 결정한다. 그리고, 단계(240)에서 상기 음악 내용 자동 요약 장치는 각 세그먼트의 유사성을 상기 세그먼트의 배열 순서에 따라 유사성이 없는 세그먼트 B를 제외하고, 상기 결정된 쌍({A, K}, {C, G}, {D, H}, {E, J}, {F, I})의 첫 세그먼트인 A, C, D, E, F를 요약 대상으로 선택한다. 그리고, 상기 음악 내용 자동 요약 장치는 상기 선택된 각 세그먼트(A, C, D, E, F)의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성할 수 있다.
단계(270)에서 음악 내용 자동 요약 장치는 도 9에 도시된 것과 같이 음악 데이터(910)의 선택된 각 세그먼트(A, C, D, E, F) 중 가장 긴 세그먼트인 C를 기준으로 상기 선택된 세그먼트의 비율을 고려하여 예를 들어 50초의 음악 내용 요약본(920)을 생성할 수 있다.
또한, 상기 음악 내용 자동 요약 장치는 상기 생성된 음악 내용 요약본을 통해 상기 가장 긴 세그먼트를 상기 음악 데이터의 하이라이트(highlight)로 재생할 수 있다. 예컨대, 본 발명에 따른 음악 내용 자동 요약 방법에 따르면, 사용자가 음악을 미리 들어보고자 하는 경우, 가장 긴 세그먼트를 하이라이트로 들려줄 수 있다.
또한, 본 발명에 따른 음악 내용 자동 요약 방법은 3~4분 정도의 음악 데이터를 예컨대 약 50초 정도의 음악 내용 요약본으로 제공함으로써 사용자가 음악 검색이나 사용자의 피드백이 요구되는 음악 추천 장치에 효과적으로 활용될 수 있다.
본 발명에 따른 음악 내용 자동 요약 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스 크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명에 따르면, 압축 영역에서 오디오 특성을 추출하여 음악을 요약하는데 걸리는 속도를 향상시킨 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 강한 피크 검색 알고리즘을 사용하여 음악 내용 변 화 구간을 보다 정확하게 추출하는 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 음악 내용 변화 지점에 따른 세그먼트를 클러스터링에 이용하여 클러스터링의 복잡성을 줄인 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 음악 내용 변화 지점에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 선정하여 클러스터링을 수행하여 클러스터링의 정확성을 높인 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 음악 내용 변화 지점에 따라 형성된 세그먼트로부터 일정한 간격의 세그먼트를 BIC 방식과 압축 영역에서 추출된 음색 및 템포 특성을 사용하여 Euclidean distance 클러스터링 방식을 혼합하여 고속으로 음악 내용 요약본을 형성하는 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 음악을 분류하거나 검색하여 사용자에게 피드백하는 음악 추천 시스템에서 효과적으로 사용될 수 있는 음악 내용 자동 요약 방법 및 그 장치를 제공할 수 있다.
Claims (17)
- 음악 내용 자동 요약 방법에 있어서,음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 단계;상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트(segment)를 재구성하는 단계;상기 재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 단계; 및상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제1항에 있어서,음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 상기 단계는,상기 음악 데이터의 압축 영역에서 부분적 디코딩을 수행하여 MDCT(Modified Discrete Cosine Transformation) 특징 값을 추출하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제2항에 있어서,추출된 특징 값을 사용하여 음악 내용 변화 지점을 추적하여 세그먼트(segment)를 재구성하는 상기 단계는,상기 추출된 MDCT 특징 값을 기반으로 고정된 길이의 두 개의 세그먼트를 설정하는 단계; 및상기 음악 데이터를 따라 상기 설정된 두 개의 세그먼트를 일정 시간 간격으로 시프팅(shifting)하면서 상기 두 개의 세그먼트간 유사성을 결정하여 상기 음악 내용 변화 지점을 추적하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제3항에 있어서,두 개의 세그먼트간 유사성을 결정하여 상기 음악 내용 변화 지점을 추적하는 상기 단계는,MKL(Modified Kullback-Leibler Distance) 방식에 의해 복수 개의 피크(peak)를 계산하는 단계;상기 계산된 피크 중에서 N개 이상의 피크(peak)를 비교하여 높은 피크(High Peak), 낮은 피크(Low Peak) 또는 중간 피크(Interval Peak) 중 어느 하나로 구분하는 단계;정의된 경사 구간을 만족하는 높은 피크(High Peak)를 후보 음악 변화 피크(Candidate music change peak)로 결정하는 단계; 및복수 개의 상기 후보 음악 변화 피크 중에서 한계값(threshold) 이상에 해당하는 후보 음악 변화 피크를 상기 음악 내용 변화 지점으로 결정하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제4항에 있어서,상기 한계값은 상기 MKL 방식에 의해 계산된 S개 이상의 피크에 대한 평균값에 의해 자동으로 생성되는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제1항에 있어서,재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 상기 단계는,상기 추적된 음악 내용 변화 지점에 의해 획득된 상기 각 세그먼트로부터 일정한 길이의 구간을 선별하여 BIC(Bayesian Information Criterion) 방식에 의해 상기 각 세그먼트간의 유사성과 반복성을 측정하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제6항에 있어서,재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 상기 단계는,상기 음악 변화 지점에 의해 재구성된 세그먼트로부터 압축 영역에서 MDCT 기반의 음색 특성 및 템포 특성을 추출하는 단계;상기 추출된 음색 특성 및 템포 특성을 결합하여 Euclidean Distance를 사용하여 세그먼트 클러스터링하여 유사성과 반복성을 측정하는 단계; 및상기 BIC 방식에 의한 세그먼트 클러스터링한 결과와 상기 Euclidean Distance를 사용한 세그먼트 클러스터링한 결과를 비교하여 상기 세그먼트의 반복성 및 유사성을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제7항에 있어서,BIC 방식에 의한 세그먼트 클러스터링한 결과와 상기 Euclidean Distance를 사용한 세그먼트 클러스터링한 결과를 비교하여 상기 세그먼트의 반복성 및 유사성을 결정하는 상기 단계는,상기 비교 결과가 일치하지 않는 경우, 상기 Euclidean Distance를 사용한 클러스터링에 의해 상기 세그먼트의 반복성 및 유사성을 결정하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제1항에 있어서,측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성하는 상기 단계는,상기 측정된 유사성에 따라 세그먼트의 쌍(pair)을 결정하는 단계;상기 결정된 쌍의 첫 세그먼트를 요약 대상으로 선택하는 단계; 및상기 선택된 각 세그먼트의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성하는 단계를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제9항에 있어서,선택된 각 세그먼트의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성하는 상기 단계는,상기 선택된 각 세그먼트 중에서 가장 긴 세그먼트를 기준으로 상기 선택된 각 세그먼트의 비율을 고려하여 상기 일정 시간의 음악 내용 요약본을 생성하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제10항에 있어서,상기 가장 긴 세그먼트를 상기 음악 데이터의 하이라이트(highlight)로 재생하는 단계를 더 포함하는 것을 특징으로 하는 음악 내용 자동 요약 방법.
- 제1항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
- 음악 내용 자동 요약 장치에 있어서,음악 데이터의 압축 영역으로부터 오디오 특징 값을 추출하는 특징 추출부;상기 추출된 특징 값을 사용하여 음악 내용 변화 지점을 검출하여 세그먼트(segment)를 재구성하는 변화 검출부;상기 재구성된 각 세그먼트에서 일정한 길이의 일부분(fragment)을 취해 클러스터링(clustering)하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 클러스터링부; 및상기 측정된 각 세그먼트간의 유사성과 반복성에 의해 선택된 세그먼트를 이용하여 음악 내용 요약본을 생성하는 요약본 생성부를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 장치.
- 제13항에 있어서,상기 특징 추출부는,상기 음악 데이터의 압축 영역에서 부분적 디코딩을 수행하여 MDCT(Modified Discrete Cosine Transformation) 특징 값을 추출하는 것을 특징으로 하는 음악 내용 자동 요약 장치.
- 제14항에 있어서,상기 변화 검출부는,상기 추출된 MDCT 특징 값을 기반으로 고정된 길이의 두 개의 세그먼트를 설정하고, 상기 음악 데이터를 따라 상기 설정된 두 개의 세그먼트를 일정 시간 간격으로 시프팅(shifting)하면서 상기 두 개의 세그먼트간 유사성을 결정하여 상기 음악 내용 변화 지점을 검출하는 것을 특징으로 하는 음악 내용 자동 요약 장치.
- 제13항에 있어서,상기 클러스터링부는,상기 검출된 음악 내용 변화 지점에 의해 획득된 상기 각 세그먼트로부터 일정한 길이의 구간을 선별하여 BIC(Bayesian Information Criterion) 방식에 의해 상기 각 세그먼트간의 유사성과 반복성을 측정하는 제1 클러스터링부;상기 검출된 음악 내용 변화 지점에 의해 획득된 상기 각 세그먼트로부터 MDCT 기반의 음색 특성 및 템포 특성을 추출하는 음색 및 템포 특성 추출부;상기 추출된 음색 및 템포 특성으로부터 Euclidean distance를 계산하여 상기 각 세그먼트간의 유사성과 반복성을 측정하는 제2 클러스터링부; 및제1 클러스터링부의 결과와 상기 제2 클러스터링부의 결과를 비교하여 음악 데이터의 대표 부분과 반복성 및 유사성을 결정하는 결정부를 포함하는 것을 특징으로 하는 음악 내용 자동 요약 장치.
- 제13항에 있어서,상기 요약본 생성부는,상기 측정된 유사성에 따라 세그먼트의 쌍(pair)을 결정하고, 상기 결정된 쌍의 첫 세그먼트를 요약 대상으로 선택하고, 상기 선택된 각 세그먼트의 비율을 고려하여 일정 시간의 음악 내용 요약본을 생성하는 것을 특징으로 하는 음악 내용 자동 요약 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050112763A KR100725018B1 (ko) | 2005-11-24 | 2005-11-24 | 음악 내용 자동 요약 방법 및 그 장치 |
US11/521,320 US7371958B2 (en) | 2005-11-24 | 2006-09-15 | Method, medium, and system summarizing music content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050112763A KR100725018B1 (ko) | 2005-11-24 | 2005-11-24 | 음악 내용 자동 요약 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070054801A KR20070054801A (ko) | 2007-05-30 |
KR100725018B1 true KR100725018B1 (ko) | 2007-06-07 |
Family
ID=38052216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050112763A KR100725018B1 (ko) | 2005-11-24 | 2005-11-24 | 음악 내용 자동 요약 방법 및 그 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7371958B2 (ko) |
KR (1) | KR100725018B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9547715B2 (en) | 2011-08-19 | 2017-01-17 | Dolby Laboratories Licensing Corporation | Methods and apparatus for detecting a repetitive pattern in a sequence of audio frames |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8013229B2 (en) * | 2005-07-22 | 2011-09-06 | Agency For Science, Technology And Research | Automatic creation of thumbnails for music videos |
KR100715949B1 (ko) * | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
US7612280B2 (en) * | 2006-05-22 | 2009-11-03 | Schneider Andrew J | Intelligent audio selector |
KR100764346B1 (ko) * | 2006-08-01 | 2007-10-08 | 한국정보통신대학교 산학협력단 | 구간유사도 기반의 자동 음악요약 방법 및 시스템 |
EP1895505A1 (en) * | 2006-09-04 | 2008-03-05 | Sony Deutschland GmbH | Method and device for musical mood detection |
US7642444B2 (en) * | 2006-11-17 | 2010-01-05 | Yamaha Corporation | Music-piece processing apparatus and method |
US20090006551A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Dynamic awareness of people |
EP2043006A1 (en) * | 2007-09-28 | 2009-04-01 | Sony Corporation | Method and device for providing an overview of pieces of music |
KR101449482B1 (ko) * | 2007-11-16 | 2014-10-15 | 에스케이플래닛 주식회사 | 음악 메타데이터 관리 시스템 및 방법 |
WO2009085054A1 (en) * | 2007-12-31 | 2009-07-09 | Orpheus Media Research, Llc | System and method for adaptive melodic segmentation and motivic identification |
US8084677B2 (en) * | 2007-12-31 | 2011-12-27 | Orpheus Media Research, Llc | System and method for adaptive melodic segmentation and motivic identification |
US20090222430A1 (en) * | 2008-02-28 | 2009-09-03 | Motorola, Inc. | Apparatus and Method for Content Recommendation |
US7994410B2 (en) * | 2008-10-22 | 2011-08-09 | Classical Archives, LLC | Music recording comparison engine |
JP5594052B2 (ja) * | 2010-10-22 | 2014-09-24 | ソニー株式会社 | 情報処理装置、楽曲再構成方法及びプログラム |
US8924345B2 (en) * | 2011-09-26 | 2014-12-30 | Adobe Systems Incorporated | Clustering and synchronizing content |
US9099064B2 (en) * | 2011-12-01 | 2015-08-04 | Play My Tone Ltd. | Method for extracting representative segments from music |
US9324330B2 (en) * | 2012-03-29 | 2016-04-26 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
WO2015093668A1 (ko) * | 2013-12-20 | 2015-06-25 | 김태홍 | 오디오 신호 처리 장치 및 방법 |
CN107204183B (zh) * | 2016-03-18 | 2020-07-24 | 百度在线网络技术(北京)有限公司 | 一种音频文件检测方法及装置 |
US10535371B2 (en) * | 2016-09-13 | 2020-01-14 | Intel Corporation | Speaker segmentation and clustering for video summarization |
CN106991993A (zh) * | 2017-05-27 | 2017-07-28 | 佳木斯大学 | 一种具有作曲功能的移动通信终端及其作曲方法 |
JP7439755B2 (ja) * | 2018-10-19 | 2024-02-28 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS64111A (en) * | 1987-06-23 | 1989-01-05 | Mitsubishi Petrochem Co Ltd | Surface modification of polymeric material |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3310172B2 (ja) | 1996-07-19 | 2002-07-29 | シャープ株式会社 | 音声要約装置 |
US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US6225546B1 (en) * | 2000-04-05 | 2001-05-01 | International Business Machines Corporation | Method and apparatus for music summarization and creation of audio summaries |
US6633845B1 (en) * | 2000-04-07 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Music summarization system and method |
US6542869B1 (en) | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6555738B2 (en) * | 2001-04-20 | 2003-04-29 | Sony Corporation | Automatic music clipping for super distribution |
US6998527B2 (en) * | 2002-06-20 | 2006-02-14 | Koninklijke Philips Electronics N.V. | System and method for indexing and summarizing music videos |
US7110338B2 (en) * | 2002-08-06 | 2006-09-19 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for fingerprinting digital media |
US7386357B2 (en) * | 2002-09-30 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | System and method for generating an audio thumbnail of an audio track |
JP2006508390A (ja) * | 2002-11-28 | 2006-03-09 | エイジェンシー フォー サイエンス, テクノロジー アンド リサーチ | デジタルオーディオデータの要約方法及び装置、並びにコンピュータプログラム製品 |
JP3987427B2 (ja) | 2002-12-24 | 2007-10-10 | 日本電信電話株式会社 | 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 |
US6784354B1 (en) * | 2003-03-13 | 2004-08-31 | Microsoft Corporation | Generating a music snippet |
KR101109023B1 (ko) | 2003-04-14 | 2012-01-31 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치 |
US7379875B2 (en) * | 2003-10-24 | 2008-05-27 | Microsoft Corporation | Systems and methods for generating audio thumbnails |
KR20050084039A (ko) | 2005-05-27 | 2005-08-26 | 에이전시 포 사이언스, 테크놀로지 앤드 리서치 | 디지털 오디오 데이터 써머라이징 방법 |
-
2005
- 2005-11-24 KR KR1020050112763A patent/KR100725018B1/ko not_active IP Right Cessation
-
2006
- 2006-09-15 US US11/521,320 patent/US7371958B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS64111A (en) * | 1987-06-23 | 1989-01-05 | Mitsubishi Petrochem Co Ltd | Surface modification of polymeric material |
Non-Patent Citations (1)
Title |
---|
1111 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9547715B2 (en) | 2011-08-19 | 2017-01-17 | Dolby Laboratories Licensing Corporation | Methods and apparatus for detecting a repetitive pattern in a sequence of audio frames |
Also Published As
Publication number | Publication date |
---|---|
US7371958B2 (en) | 2008-05-13 |
US20070113724A1 (en) | 2007-05-24 |
KR20070054801A (ko) | 2007-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100725018B1 (ko) | 음악 내용 자동 요약 방법 및 그 장치 | |
KR100749045B1 (ko) | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 | |
KR100717387B1 (ko) | 유사곡 검색 방법 및 그 장치 | |
US9313593B2 (en) | Ranking representative segments in media data | |
EP2494544B1 (en) | Complexity scalable perceptual tempo estimation | |
JP4425126B2 (ja) | ロバストかつインバリアントな音声パターンマッチング | |
JP5362178B2 (ja) | オーディオ信号からの特徴的な指紋の抽出とマッチング | |
EP2791935B1 (en) | Low complexity repetition detection in media data | |
Didiot et al. | A wavelet-based parameterization for speech/music discrimination | |
US8208643B2 (en) | Generating music thumbnails and identifying related song structure | |
US9774948B2 (en) | System and method for automatically remixing digital music | |
US8885841B2 (en) | Audio processing apparatus and method, and program | |
JP2005522074A (ja) | 話者識別に基づくビデオのインデックスシステムおよび方法 | |
JPWO2006004050A1 (ja) | 特定音響信号含有区間検出システム及びその方法並びにプログラム | |
CN108538312B (zh) | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 | |
JP4479210B2 (ja) | サマリ作成用プログラム | |
KR101808810B1 (ko) | 음성/무음성 구간 검출 방법 및 장치 | |
US20180173400A1 (en) | Media Content Selection | |
KR20070085788A (ko) | 신호 속성들을 사용한 효율적인 오디오 코딩 | |
KR101041037B1 (ko) | 음성과 음악을 구분하는 방법 및 장치 | |
Barthet et al. | Speech/music discrimination in audio podcast using structural segmentation and timbre recognition | |
Lagrange et al. | Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching | |
You et al. | Estimating Classification Accuracy for Unlabeled Datasets Based on Block Scaling. | |
McCallum | Unsupervised deep feature learning for music segmentation | |
Yin et al. | Robust online music identification using spectral entropy in the compressed domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140429 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160428 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |