KR20060029663A - Music summarization apparatus and method using multi-level vector quantization - Google Patents

Music summarization apparatus and method using multi-level vector quantization Download PDF

Info

Publication number
KR20060029663A
KR20060029663A KR1020060024768A KR20060024768A KR20060029663A KR 20060029663 A KR20060029663 A KR 20060029663A KR 1020060024768 A KR1020060024768 A KR 1020060024768A KR 20060024768 A KR20060024768 A KR 20060024768A KR 20060029663 A KR20060029663 A KR 20060029663A
Authority
KR
South Korea
Prior art keywords
music
quantization
level
frames
frame
Prior art date
Application number
KR1020060024768A
Other languages
Korean (ko)
Other versions
KR100766170B1 (en
Inventor
김회린
김성탁
김상호
이한규
홍진우
Original Assignee
한국정보통신대학교 산학협력단
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국정보통신대학교 산학협력단, 한국전자통신연구원 filed Critical 한국정보통신대학교 산학협력단
Priority to KR1020060024768A priority Critical patent/KR100766170B1/en
Publication of KR20060029663A publication Critical patent/KR20060029663A/en
Application granted granted Critical
Publication of KR100766170B1 publication Critical patent/KR100766170B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

본 발명은 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것으로, 개시된 음악 요약 방법은 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, 묵음이 제거된 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함하며, 정확하고 신뢰도 높은 음악 요약을 생성하여 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 이점이 있다.The present invention relates to a music summarizing apparatus and method using multi-level quantization, and the disclosed music summarizing method includes the steps of removing silence or a relatively low energy section in the music content, and for each frame of the music content from which the silence is removed. Obtaining the feature vectors, performing vector quantization at various levels using the feature vectors, and extracting the repeated sections in the music content using the result of performing the vector quantization and extracting them as a music summary. Therefore, there is an advantage of providing more accurate information of music contents by generating accurate and reliable music summary.

음악 요약, 다중 레벨 벡터양자화, SIC(Same Index Count), 반복 패턴 Music Summary, Multilevel Vector Quantization, Same Index Count, Repeat Pattern

Description

다중 레벨 양자화를 이용한 음악 요약 장치 및 방법{MUSIC SUMMARIZATION APPARATUS AND METHOD USING MULTI-LEVEL VECTOR QUANTIZATION}Music summarization apparatus and method using multilevel quantization {MUSIC SUMMARIZATION APPARATUS AND METHOD USING MULTI-LEVEL VECTOR QUANTIZATION}

도 1a는 종래의 제 1 실시 예에 따른 음악 요약 방식을 보인 개념도,1A is a conceptual diagram illustrating a music summarizing method according to a first embodiment of the present invention;

도 1b는 종래의 제 2 실시 예에 따른 음악 요약 방식을 보인 개념도,1B is a conceptual diagram illustrating a music summarizing method according to a second embodiment of the present invention;

도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도,2 is a block diagram of a music summarization apparatus capable of performing a music summarization scheme according to the present invention;

도 3은 본 발명에 따른 음악 요약 장치를 통해 수행되는 음악 요약 과정을 보인 흐름도.3 is a flowchart illustrating a music summarization process performed by the music summarization apparatus according to the present invention.

<도면의 주요 부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

110 : 전처리부 120 : 특징벡터 추출부110: preprocessing unit 120: feature vector extraction unit

130 : 다중 레벨 벡터양자화부 140 : 음악 요약 생성부130: multi-level vector quantization unit 140: music summary generation unit

본 발명은 다중 레벨 양자화를 이용한 음악 요약에 관한 것으로, 더욱 상세하게는 음악 컨텐츠의 반복 구간을 음악 요약으로 추출하는 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것이다.The present invention relates to music summarization using multilevel quantization, and more particularly, to a music summarization apparatus and method using multilevel quantization for extracting a repetition section of music content as a music summarization.

주지와 같이, 데이터 압축기술, 인터넷 그리고 통신기술의 발달로 개인이 접하고, 보유할 수 있는 음악 컨텐츠의 양은 상상을 초월하고 있다. 또한 음악 컨텐츠를 판매하는 서비스도 많아지고 있다. 하지만 현재 음악 컨텐츠 판매자가 사용자에게 제공하는 음악 컨텐츠의 요약정보는 컨텐츠의 시작부분 일정구간이나 임의의 구간을 이용하고 있다. 하지만 이러한 정보는 사용자에게 음악 컨텐츠에 대한 충분한 정보를 제공하기가 어렵다. 그래서 음악 컨텐츠의 요약을 제공하는 기술들이 꾸준히 연구되고 있다.As is well known, with the development of data compression technology, the Internet and communication technology, the amount of music content that individuals can access and possess is beyond imagination. In addition, services for selling music contents are increasing. However, the summary information of the music contents provided to the user by the music contents seller currently uses a predetermined section or an arbitrary section at the beginning of the contents. However, such information is difficult to provide the user with sufficient information about the music content. Therefore, technologies for providing a summary of music contents are constantly being studied.

종래 기술에 따라 음악 컨텐츠의 요약을 제공하는 방식은 도 1a에 나타낸 바와 같이 음악 컨텐츠의 서로 다른 특성을 가지는 부분들을 모두 제공하는 방법과 도 1b에 나타낸 바와 같이 음악 컨텐츠내에서 자주 반복되는 구간을 제공하는 방법으로 크게 나뉘어 진다.According to the related art, a method of providing a summary of music contents provides a method of providing all portions having different characteristics of the music contents as shown in FIG. 1A and a section which is frequently repeated in the music contents as shown in FIG. 1B. It is largely divided into ways.

음악 요약을 제공하기 위해 사용하는 특징벡터로는 음성인식분야에서 많이 쓰이고 있는 MFCC(Mel-Frequency Cepstral Coefficient), 스펙트럴 플럭스(Spectral flux), 스펙트럴 파워(Spectral power), 그리고 앰프리튜드 인벨로프(Amplitude envelope) 등을 이용하고 있다.Feature vectors used to provide music summaries include Mel-Frequency Cepstral Coefficient (MFCC), Spectral Flux, Spectral Power, and Amplitude Envelope. Amplitude envelope is used.

이와 같은 특징벡터들을 이용하여 도 1b와 같이 반복되는 구간을 음악 요약으로 제공하는 방법으로는 집단화(Clustering)방법을 이용하는 방법이 대표적인 방법이다. 이 방법은 우선 음악 컨텐츠를 0.1초 단위의 세그먼트로 분할한 뒤, 각 세그먼트 사이의 유사도를 모두 비교하여 유사한 세그먼트들을 동일한 클래스로 분류해 둔다. 다음으로 각 클래스 중 가장 많은 세그먼트를 포함하고 있는 하나의 클래 스를 선정하고, 이 클래스를 그 음악 컨텐츠의 반복구간과 연관성이 가장 높은 클래스로 간주한다. 최종적으로 선정된 클래스 내의 첫 번째 세그먼트를 기준으로 일정구간(20초)을 음악 요약으로 결정한다. 이 방식은 가장 많이 나타나는 클래스를 반복되는 구간으로 포함할 가능성이 크지만, 정확히 반복되는 구간을 제공하기가 어려운 문제점이 있다.A method of using a clustering method as a method of providing a music summary as a music summary using the feature vectors as shown in FIG. 1B is a typical method. This method first divides the music content into segments of 0.1 seconds, and then classifies similar segments into the same class by comparing all similarities between the segments. Next, select one class that contains the most segments of each class, and consider this class as the one most relevant to the repetition period of the music content. Based on the first segment in the finally selected class, a section (20 seconds) is determined as the music summary. This method is more likely to include the most appearing class as a repeating section, but there is a problem that it is difficult to provide a repeating section exactly.

또 다른 반복구간을 찾는 방법으로는 세그먼트보다 작은 시간 구간인 프레임단위에서 집단화 방법을 적용하는 방식이 있다. 이 방식은 가장 많은 프레임을 포함한 클래스를 선정하고, 그 클래스내의 각 프레임을 시작점으로 하는 일정구간들에 대해 프레임들이 속한 클래스의 순서가 같은 구간을 찾아내어 시작점이 가장 빠른 구간을 음악 요약으로 제공한다. 이 방법은 각 프레임에 대해 유사한 프레임들을 찾을 때 사용하는 임계값을 정확하게 결정하기가 어려운 문제점이 있다.Another method to find the repetition section is to apply the grouping method in the frame unit, which is a smaller time interval than the segment. This method selects the class that contains the most frames, finds the sections with the same order of the class of the frames, and provides the section with the earliest starting point for certain sections starting from each frame in the class. . This method has a problem that it is difficult to accurately determine the threshold value used when finding similar frames for each frame.

반복구간을 음악 요약으로 제공하는 방식과 달리 도 1a와 같이 특징적인 음악 부분들을 모두 조합하여 음악 요약으로 제공하는 방식으로는 2차원 유사행렬(2-D similarity matrix)을 이용하여 음악 컨텐츠내에서 특징이 바뀌는 구간을 찾아내고, 그 결과를 이용하여 특징이 다른 부분들을 요약으로 제공하는 방법이 있다. 하지만 주어진 음악 컨텐츠내에 특징이 상이한 부분이 몇 개로 이루어져 있는지 임의로 정해야 하기 때문에, 제공된 요약이 모든 특징을 포함하지 않을 수 있는 문제점이 있다.Unlike a method of providing a repetition section as a music summary, a method of providing a music summary by combining all the characteristic music parts as shown in FIG. 1A is characterized by using a 2-D similarity matrix. There is a method of finding this changing section and using the result to provide a summary of the different features. However, there is a problem that the provided summary may not include all of the features, since it is necessary to arbitrarily determine how many different portions of the feature are provided in a given music content.

본 발명은 이와 같은 종래의 문제점을 해결하기 위하여 제안한 것으로, 음악 컨텐츠를 여러 레벨의 벡터양자화를 이용하여 여러 가지 해상도로 표현하고 반복되는 구간을 찾아내어 음악 요약으로 추출함으로써, 사용자에게 보다 정확하고 신뢰성 높은 음악 컨텐츠의 요약을 제공하는 데 그 목적이 있다.The present invention has been proposed to solve such a conventional problem, by expressing music contents at various resolutions using various levels of vector quantization, finding repeated sections, and extracting them as music summaries, thereby making them more accurate and reliable to the user. The purpose is to provide a summary of high music content.

본 발명의 다른 목적은 음악 컨텐츠에서 반복되는 구간을 찾을 때 양자화 코드워드의 시간에 따른 반복 패턴을 고려함으로써 보다 정확하게 반복되는 구간을 찾아내는 데 있다.Another object of the present invention is to find a more precisely repeating section by considering a repetition pattern over time of a quantization codeword when searching for a repeating section in music content.

이와 같은 목적들을 실현하기 위한 본 발명의 일 관점으로서 다중 레벨 양자화를 이용한 음악 요약 장치는, 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와, 상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와, 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와, 상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부를 포함한다.According to an aspect of the present invention for realizing the above objects, a music summarization apparatus using multi-level quantization includes a preprocessing unit for removing silence or a relatively low energy section in the music content, and a music preprocessing unit through the preprocessing unit. A feature vector extraction unit for obtaining feature vectors for each frame, a multilevel vector quantizer for performing vector quantization at various levels using the feature vectors, and a result of performing the multilevel vector quantization in the music content. It includes a music summary generating unit for finding a section to be repeated to extract the music summary.

본 발명의 다른 관점으로서 다중 레벨 양자화를 이용한 음악 요약 방법은, (a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, (b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, (c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, (d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함한다.According to another aspect of the present invention, a music summarization method using multi-level quantization includes the steps of: (a) removing a section of silence or a relatively low energy in the music content, and (b) the music content that has passed through the step (a). Obtaining feature vectors from frame to frame, (c) performing vector quantization at various levels using the feature vectors, and (d) performing results of the step (c) in the music content. And extracting the repeated section into a music summary.

이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, in describing the present invention, when it is determined that the detailed description of the related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.

도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도이다.2 is a block diagram of a music summarization apparatus capable of performing a music summarization scheme according to the present invention.

도 2를 참조하면 본 발명에 따른 음악 요약 장치는, 음악 컨텐츠내에서 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 해당 프레임을 묵음이라 가정하고 제거하는 전처리부(110)와, 전처리부(110)를 거친 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터 등의 특징벡터들을 구하는 특징벡터 추출부(120)와, 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행하여 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현하는 다중 레벨 벡터양자화부(130)와, 다중 레벨 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부(140)를 포함하여 구성된다.Referring to FIG. 2, the apparatus for summarizing music according to the present invention compares a predetermined threshold value with a frame energy in the music content and assumes that the frame is silent when the frame energy is less than the threshold value. And a feature vector extractor 120 for obtaining feature vectors such as spectral power, ampli? De envelope, and MFCC for each frame of music content that has passed through the preprocessor 110, and the feature vector. Multi-level vector quantization unit 130 that expresses each frame as codebook indices generated by multiple levels of vector quantizations, and the result of performing multi-level vector quantizations. It is configured to include a music summary generator 140 to find a section to be repeated in the extraction to the music summary.

이와 같이 구성된 음악 요약 장치를 통해 수행되는 음악 요약 과정을 도 3의 흐름도를 참조하여 보다 상세히 살펴보면 다음과 같다.A music summarization process performed through the music summarization apparatus configured as described above will be described in detail with reference to the flowchart of FIG. 3.

먼저, 전처리부(110)는 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거한다(S201). 즉 음악 요약을 위한 특징벡터들을 추출하기 전에 고정된 길이를 갖고 0 ∼ 50% 중첩이 되는 프레임들로 분할하고 묵음 구간을 제거한다. 묵음을 제거하는 방법은 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 제거한다. 프레임 에너지를 구하는 방법은 아래의 수학식 1과 같고, 프레임 에너지가 미리 정한 임계값(Threshold value)보다 작으면 현 프레임을 묵음이라고 가정하고 제거한다.First, the preprocessing unit 110 removes silence or a relatively low energy section in the music content (S201). That is, before extracting the feature vectors for the music summary, the frames are divided into frames having a fixed length and overlapped by 0 to 50%, and the silence section is removed. The method of removing silence is to compare the frame energy with a predetermined threshold value and remove the frame energy if it is smaller than the threshold value. The method of obtaining the frame energy is shown in Equation 1 below, and if the frame energy is less than a predetermined threshold value, the current frame is assumed to be silent and removed.

Figure 112006018819546-PAT00001
Figure 112006018819546-PAT00001

여기서, s(n)은 음악신호를 나타내고, N은 프레임내의 샘플수를 나타낸다.Here, s (n) represents a music signal, and N represents the number of samples in a frame.

다음으로, 특징벡터 추출부(120)는 전처리부(110)에 출력되는 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터들을 구한다(S203).Next, the feature vector extractor 120 obtains feature vectors such as spectral power, ampli- tude envelope, and MFCC for each frame of music content output to the preprocessor 110 (S203).

스펙트럴 파워는 주어진 음악 신호 s(n)의 각 프레임에 수학식 2의 해닝(Hanning) 윈도우를 적용하고 푸리에 변환을 취하여 구한다.The spectral power is obtained by applying a Hanning window of Equation 2 to each frame of a given music signal s (n) and taking a Fourier transform.

Figure 112006018819546-PAT00002
Figure 112006018819546-PAT00002

수학식 2에서 s(n)은 음악신호, h(n)는 해밍 윈도우, S(k)는 스펙트랄 파워, N은 프레임내의 샘플 개수를 나타낸다.In Equation 2, s (n) is a music signal, h (n) is a Hamming window, S (k) is spectral power, and N is the number of samples in a frame.

앰프리튜드 인벨로프(RMS)는 시간영역에서 에너지의 변화를 나타낸다. 에너지의 변화는 음악에서 ADSK(Attack, Decay, Sustain, Release)와 같은 정보를 효과적으로 표현한다. 음악 신호의 앰프리튜드 인벨로프는 아래의 수학식 3을 이용해서 구한다.Amplitude envelope (RMS) represents the change of energy in the time domain. Changes in energy effectively represent information such as ADSK (Attack, Decay, Sustain, Release) in music. Amplitude envelope of a music signal is obtained using Equation 3 below.

Figure 112006018819546-PAT00003
Figure 112006018819546-PAT00003

수학식 3에서 x[n]은 차단주파수가 1200Hz인 저역통과 필터를 통과한 신호이다. 여기서, 저역통과 필터를 사용하는 것은 드럼과 같은 모든 주파수 영역에 에너지를 가지고 있는 그런 악기가 에너지의 변화에 주는 영향을 최대한 줄이기 위한 것이다. 저역통과 필터의 차단주파수는 주파수는 실험적으로 구할 수 있으며, 실험에 따르면 샘플링 레이트가 8,000Hz이면 350Hz, 22,050Hz이면 1200Hz, 44100Hz이면 1700Hz로 하는 것이 좋다.In Equation 3, x [n] is a signal passing through a low pass filter having a cutoff frequency of 1200 Hz. Here, the use of a lowpass filter is to minimize the effect of such an instrument on energy change, which has energy in all frequency ranges, such as drums. The cutoff frequency of the lowpass filter can be determined experimentally. According to the experiment, it is recommended to set the sampling rate as 8,000Hz to 350Hz, 22,050Hz to 1200Hz, and 44100Hz to 1700Hz.

음성인식의 가장 대표적인 특징 추출 방법인 MFCC 추출방법은 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그 스케일과 비슷한 멜(Mel) 스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수 추출 방법이다. 멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만, 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식이다.The MFCC extraction method, which is the most representative feature extraction method of speech recognition, is a method of extracting cepstrum coefficients that reflects the auditory characteristics of mel scale similar to the logarithmic scale. to be. According to Mel Scale, it reacts sensitively to small changes at low frequencies, but it becomes less sensitive at higher frequencies, so the frequency analysis frequency is adapted to these characteristics when extracting features.

MFCC를 구하기 위해서는 우선 분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 구한다. 구한 스펙트럼에 대해 멜 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 구하고, 필터뱅크 출력값에 로그를 취한다. 그리고, 로그를 취한 필터뱅크 값에 이산 코사인 변환을 하여 최종 MFCC를 구한다.In order to obtain the MFCC, first, Fourier transform is applied to the speech signal of the analysis section to obtain a spectrum. Correlate triangular filter banks to the mel scale with the obtained spectrum to find the sum of the magnitudes in each band, and log the filter bank output values. The final MFCC is obtained by performing discrete cosine transform on the logarithmd filter bank value.

Figure 112006018819546-PAT00004
Figure 112006018819546-PAT00004

수학식 4에서 Sk는 필터뱅크의 출력값을 나타낸다. In Equation 4, S k represents the output value of the filter bank.

이후, 다중 레벨 벡터양자화부(130)에서는 위에서 얻은 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행한다. 양자화란 입력 신호를 유한한 개수의 값으로 근사화하는 것이고, 입력 신호에 따라 스칼라 양자화와 벡터 양자화로 나눌 수 있다. 본 발명에서는 벡터 양자화를 사용하고 여러 레벨의 벡터 양자화를 사용한다. 그래서 다중 레벨 벡터양자화부(130)에서는 위에서 프레임별로 얻은 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하고 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현한다(S205).Thereafter, the multi-level vector quantization unit 130 performs vector quantization at various levels by using the feature vector obtained above. Quantization is an approximation of the input signal to a finite number of values, and may be divided into scalar quantization and vector quantization according to the input signal. The present invention uses vector quantization and uses multiple levels of vector quantization. Therefore, the multi-level vector quantization unit 130 performs vector quantization at various levels by using the feature vectors obtained for each frame, and expresses each frame as codebook indices generated by vector quantizations of various levels (S205).

그러면, 음악 요약 생성부(140)에서는 다중 레벨 벡터양자화 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아낸다. 여기서, 음악 요약 생성부(140)에 제공되는 음악적 지식은 자주 반복되는 구간이 해당 음악 컨텐츠를 대표한다는 가정을 의미한다. 주어진 음악 컨텐츠의 프레임들(f1, f2, …, fN) 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 음악 요약으로 추출한다. S는 추출할 음악 요약에 해당하는 프레임의 수이다(S209).Then, the music summary generation unit 140 finds a section to be repeated in the music content by using the multilevel vector quantization result. Here, the musical knowledge provided to the music summary generator 140 means an assumption that a frequently repeated section represents the corresponding music content. Find the frame f i with the largest SIC (Same Index Count) value among the frames f 1 , f 2 ,…, f N of the given music content, and replace the interval [f i , f i + S] with the music summary. Extract. S is the number of frames corresponding to the music summary to be extracted (S209).

Figure 112006018819546-PAT00005
Figure 112006018819546-PAT00005

수학식 5에서 M은 양자화 레벨을 나타내고,

Figure 112006018819546-PAT00006
Figure 112006018819546-PAT00007
레벨 벡터양자화에서 프레임
Figure 112006018819546-PAT00008
의 코드워드를 나타낸다.
Figure 112006018819546-PAT00009
는 다중 양자화 레벨에 따른 가중치를 나타낸다. 가중치는 각 레벨의 양자화 오차의 역수를 사용한다.In Equation 5, M represents a quantization level,
Figure 112006018819546-PAT00006
Is
Figure 112006018819546-PAT00007
Frame from Level Vector Quantization
Figure 112006018819546-PAT00008
Represents a codeword of.
Figure 112006018819546-PAT00009
Represents weights according to multiple quantization levels. The weight uses the inverse of the quantization error of each level.

대부분의 집합(Cluster)방법을 이용하는 반복구간기반 음악 요약 방법은 음악 컨텐츠마다 몇 개의 집합으로 표현할 것인지 결정을 하기 위해 적절한 임계값을 결정해야 한다. 하지만 본 발명의 다중 레벨 벡터양자화를 이용한 음악 요약 방법에서는 음악 컨텐츠마다 임계값을 조정할 필요가 없다. 또한, SIC를 구하는 과정에서 시간의 변화에 따른 양자화 코드워드의 반복 패턴을 고려하기 때문에 보다 정확하게 반복되는 구간을 찾을 수 있다.Repeated section-based music summarization methods using most cluster methods must determine an appropriate threshold value to determine how many sets each music content is represented. However, in the music summarization method using the multilevel vector quantization of the present invention, it is not necessary to adjust the threshold for each music content. In addition, since the repetition pattern of the quantization codewords with time changes is considered in the process of obtaining the SIC, a more precisely repeating section can be found.

지금까지 본 발명의 일 실시 예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 당연히 포함되는 것으로 해석되어야 할 것이다.It has been described so far limited to one embodiment of the present invention, it is obvious that the technology of the present invention can be easily modified by those skilled in the art. Such modified embodiments should be construed as naturally included in the technical spirit described in the claims of the present invention.

전술한 바와 같이 본 발명은 종래 기술들보다 정확하게 음악 컨텐츠내에서 반복되는 구간을 찾을 수 있어서 신뢰성 높은 음악 요약을 제공할 수 있다. 즉, 음악 컨텐츠를 벡터양자화로 표현하고, 그 양자화 코드워드의 시간에 따른 변화를 이용하여 반복되는 구간을 찾기 때문에 정확한 결과를 얻을 수 있고 여러 레벨의 벡터 양자화를 이용하기 때문에 음악 컨텐츠를 여러 해상도로 분석할 수 있다. 따라서 본 발명에 의한 정확하고 신뢰도 높은 음악 요약 방법은 사용자에게 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 효과가 있다.As described above, the present invention can find a repeating section in the music content more accurately than the prior art, thereby providing a reliable music summary. In other words, the music content is represented by vector quantization, and the repeated section is found by using the change of the quantization codeword over time, so that accurate results can be obtained. Can be analyzed. Therefore, the accurate and reliable music summarization method according to the present invention has an effect of providing information of music contents to the user more accurately.

Claims (10)

(a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와,(a) removing silent or relatively low energy sections within the music content; (b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와,(b) obtaining feature vectors for each frame of the music content passed through step (a); (c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와,(c) performing vector quantization at various levels using the feature vectors; (d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계(d) finding a section in the music content which is repeated using the result of performing step (c) and extracting it as a music summary 를 포함하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summary method using multi-level quantization comprising a. 제 1항에 있어서,The method of claim 1, 상기 (a) 단계는 상기 음악 컨텐츠를 프레임들로 분할한 후 미리 정한 임계값과 상기 프레임들의 에너지를 비교해서 상기 에너지가 임계값보다 작으면 해당 프레임을 제거하는 것In step (a), the music content is divided into frames, and then a predetermined threshold is compared with the energy of the frames, and if the energy is less than the threshold, the frame is removed. 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summarization method using multi-level quantization characterized in that. 제 1항에 있어서,The method of claim 1, 상기 (b) 단계에서 구하는 특징벡터는 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 중에서 적어도 어느 하나를 포함하는 것The feature vector obtained in step (b) includes at least one of spectral power, ampli? Ve envelope, and MFCC. 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summarization method using multi-level quantization characterized in that. 제 1항에 있어서,The method of claim 1, 상기 (d) 단계는, 상기 음악 컨텐츠의 프레임들을 "f1, f2, …, fN"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)In step (d), when frames of the music content are expressed as “f 1 , f 2 ,..., F N ”, the frame f i having the largest SIC (Same Index Count) value among the frames is found. Extracting a section [f i , f i + S] into the music summary, wherein S is the number of frames corresponding to the music summary to be extracted 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summarization method using multi-level quantization characterized in that. 제 4항에 있어서,The method of claim 4, wherein 상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것The SIC value is obtained by using a quantization codeword according to time change. 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summarization method using multi-level quantization characterized in that. 제 5항에 있어서,The method of claim 5, 상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것Obtaining the weight according to the quantization level using the inverse of the quantization error when obtaining the SIC value 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.Music summarization method using multi-level quantization characterized in that. 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와,A pre-processing unit for removing sections of silence or relatively low energy in the music contents; 상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와,A feature vector extraction unit for obtaining feature vectors for each frame of the music content that has passed through the preprocessor; 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와,A multi-level vector quantizer for performing vector quantization at various levels using the feature vectors; 상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부A music summary generator for finding a section within the music content and extracting it as a music summary by using the result of performing the multilevel vector quantization. 를 포함하는 다중 레벨 양자화를 이용한 음악 요약 장치.Music summary apparatus using multi-level quantization comprising a. 제 7항에 있어서,The method of claim 7, wherein 상기 음악 요약 생성부는, 상기 음악 컨텐츠의 프레임들을 "f1, f2, …, fN"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)The music summary generator, when expressing the frames of the music content as “f 1 , f 2 ,..., F N ”, finds a frame f i having the largest SIC (Same Index Count) value among the frames. extracting [f i , f i + S] into the music summary, where S is the number of frames corresponding to the music summary to be extracted 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.Music summary apparatus using multi-level quantization characterized in that. 제 8항에 있어서,The method of claim 8, 상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것The SIC value is obtained by using a quantization codeword according to time change. 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.Music summary apparatus using multi-level quantization characterized in that. 제 9항에 있어서,The method of claim 9, 상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것Obtaining the weight according to the quantization level using the inverse of the quantization error when obtaining the SIC value 을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.Music summary apparatus using multi-level quantization characterized in that.
KR1020060024768A 2006-03-17 2006-03-17 Music summarization apparatus and method using multi-level vector quantization KR100766170B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060024768A KR100766170B1 (en) 2006-03-17 2006-03-17 Music summarization apparatus and method using multi-level vector quantization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060024768A KR100766170B1 (en) 2006-03-17 2006-03-17 Music summarization apparatus and method using multi-level vector quantization

Publications (2)

Publication Number Publication Date
KR20060029663A true KR20060029663A (en) 2006-04-06
KR100766170B1 KR100766170B1 (en) 2007-10-10

Family

ID=37139917

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060024768A KR100766170B1 (en) 2006-03-17 2006-03-17 Music summarization apparatus and method using multi-level vector quantization

Country Status (1)

Country Link
KR (1) KR100766170B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100764346B1 (en) * 2006-08-01 2007-10-08 한국정보통신대학교 산학협력단 Automatic music summarization method and system using segment similarity
CN111630590A (en) * 2018-02-14 2020-09-04 字节跳动有限公司 Method for generating music data

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2659482B1 (en) 2010-12-30 2015-12-09 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
CN102956238B (en) 2011-08-19 2016-02-10 杜比实验室特许公司 For detecting the method and apparatus of repeat pattern in audio frame sequence

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100481575B1 (en) * 2001-10-26 2005-04-08 모두스타 주식회사 Method for constructing a music database and retrieving a music information using the statistical properties of musical speech
KR20040000798A (en) * 2002-06-25 2004-01-07 엘지전자 주식회사 Progressive segmentation of musical data and method for searching musical data based on melody

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100764346B1 (en) * 2006-08-01 2007-10-08 한국정보통신대학교 산학협력단 Automatic music summarization method and system using segment similarity
CN111630590A (en) * 2018-02-14 2020-09-04 字节跳动有限公司 Method for generating music data
US11887566B2 (en) 2018-02-14 2024-01-30 Bytedance Inc. Method of generating music data

Also Published As

Publication number Publication date
KR100766170B1 (en) 2007-10-10

Similar Documents

Publication Publication Date Title
CN108900725B (en) Voiceprint recognition method and device, terminal equipment and storage medium
Hu et al. Pitch‐based gender identification with two‐stage classification
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN102063904B (en) Melody extraction method and melody recognition system for audio files
JPH05346797A (en) Voiced sound discriminating method
Vuppala et al. Improved consonant–vowel recognition for low bit‐rate coded speech
RU2427909C2 (en) Method to generate print for sound signal
Yu et al. Sparse cepstral codes and power scale for instrument identification
KR100766170B1 (en) Music summarization apparatus and method using multi-level vector quantization
CN110534091A (en) A kind of people-car interaction method identified based on microserver and intelligent sound
Goh et al. Robust speech recognition using harmonic features
CN110610722A (en) Short-time energy and Mel cepstrum coefficient combined novel low-complexity dangerous sound scene discrimination method based on vector quantization
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Kumar et al. Text dependent voice recognition system using MFCC and VQ for security applications
JP4961565B2 (en) Voice search apparatus and voice search method
CN115938346A (en) Intonation evaluation method, system, equipment and storage medium
Park et al. Analysis of confidence and control through voice of Kim Jung-un
Eyben et al. Acoustic features and modelling
CN114724589A (en) Voice quality inspection method and device, electronic equipment and storage medium
CN113744715A (en) Vocoder speech synthesis method, device, computer equipment and storage medium
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
Nosan et al. Speech recognition approach using descend-delta-mean and MFCC algorithm
Ben Messaoud et al. Pitch estimation of speech and music sound based on multi-scale product with auditory feature extraction
CN117409761B (en) Method, device, equipment and storage medium for synthesizing voice based on frequency modulation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20101001

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee