KR100764346B1 - Automatic music summarization method and system using segment similarity - Google Patents

Automatic music summarization method and system using segment similarity Download PDF

Info

Publication number
KR100764346B1
KR100764346B1 KR1020060072503A KR20060072503A KR100764346B1 KR 100764346 B1 KR100764346 B1 KR 100764346B1 KR 1020060072503 A KR1020060072503 A KR 1020060072503A KR 20060072503 A KR20060072503 A KR 20060072503A KR 100764346 B1 KR100764346 B1 KR 100764346B1
Authority
KR
South Korea
Prior art keywords
music
similarity
section
frames
frame
Prior art date
Application number
KR1020060072503A
Other languages
Korean (ko)
Inventor
김상호
김회린
김성탁
Original Assignee
한국정보통신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국정보통신대학교 산학협력단 filed Critical 한국정보통신대학교 산학협력단
Priority to KR1020060072503A priority Critical patent/KR100764346B1/en
Application granted granted Critical
Publication of KR100764346B1 publication Critical patent/KR100764346B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A method and a system for automatically summarizing music on the basis of segment similarity are provided to be applied to a music search service and a music genre classification service and offer various sample music in which request items of a user is better considered by automatically extracting an important part of digital music on the basis of the segment similarity using vector quantization in consideration of general structure of public music. A feature vector extracting unit(100) divides a music signal into a plurality of frames, and extracts feature vectors of the respective frames. A vector quantization unit(101) performs the vector quantization coding of the feature vectors of the respective frames. A segment similarity calculating unit(102) calculates segment similarity and extracts N maximum similar segment pairs.

Description

구간유사도 기반의 자동 음악요약 방법 및 시스템{Automatic music summarization method and system using segment similarity}Automatic music summarization method and system using segment similarity

도 1은 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템을 설명하는 블록도, 1 is a block diagram illustrating an automatic music summary system according to a preferred embodiment of the present invention;

도 2는 본 발명의 바람직한 실시예에 의한 자동 음악요약 방법을 설명하는 흐름도,2 is a flowchart illustrating an automatic music summary method according to a preferred embodiment of the present invention;

도 3은 일반적인 대중음악의 구조를 설명하는 도면이다. 3 is a view for explaining the structure of general popular music.

본 발명은 디지털 음악을 요약하는 기법에 관한 것으로, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악을 효과적으로 요약하는 자동 음악요약 방법 및 시스템에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for summarizing digital music, and to an automatic music summary method and system for effectively summarizing digital music based on interval similarity using vector quantization in consideration of the general structure of popular music.

최근 디지털 시대를 맞아 LP, CD, 카세트테이프와 같은 전통 음악저장/전달 미디어가 음악다운로드, 스트리밍서비스 등 새로운 디지털미디어로 교체되고 있다. 이러한 디지털 음악시장의 약진은 인터넷과 휴대폰 등의 유무선 통신기술에 기인한다. 디지털 음악은 인터넷 또는 휴대폰을 통한 음악 다운로드 뿐만 아니라, 벨소리, 통화연결음 등에도 광범위하게 사용되고 있다. In the recent digital age, traditional music storage / delivery media such as LP, CD, and cassette tapes are being replaced with new digital media such as music download and streaming services. The advancement of the digital music market is due to wired and wireless communication technologies such as the Internet and mobile phones. Digital music is widely used not only for downloading music through the Internet or mobile phones, but also for ringtones and ring back tones.

이에 따라 디지털 음악 데이터베이스가 점점 증가하고, 따라서 효과적인 디지털 음악 검색, 자동 음악 요약, 음악 추천 시스템에 대한 수요가 커지고 있다. 특히 상업적인 가치를 창출할 수 있는 음악 자동 요약 시스템에 대한 중요성이 늘어나고 있다. As a result, digital music databases are increasingly increasing, and there is a growing demand for effective digital music retrieval, automatic music summaries, and music recommendation systems. In particular, the importance of automatic music summarization systems that can generate commercial value is increasing.

기존에는 음악 전체 내에서 가장 많이 반복되는 구간을 중요한 부분이라 여겨 음악 요약으로 제공하거나, 음악 내에서 특성이 다른 부분들의 일정 구간을 추출하여 취합함으로써 음악 요약으로 제공하였다. 즉, 음악 요약을 위해 제일 많이 반복되는 특정 구간을 2차원 유사도행렬이나 벡터 양자화를 이용하여 찾아내어 음악 요약으로 제공하거나, 음악 내에서 특성이나 분위기 등이 상이한 부분들을 2차원 유사도 행렬, HMM, 벡터 양자화 등의 기법을 이용하여 찾아내 일정 구간 마다 추출하여 취합함으로써 음악 요약으로 제공하는 기법이 개발되어 왔다. Conventionally, the most repeating sections in the whole music are regarded as important parts and provided as a music summary, or as a summary of music by extracting and collecting certain sections of different parts in the music. That is, a specific section that is most frequently repeated for music summarization is found by using a two-dimensional similarity matrix or vector quantization and provided as a music summary, or a portion of a music having different characteristics or moods is two-dimensional similarity matrix, HMM, vector. Finding techniques using quantization techniques have been developed to extract and collect at regular intervals to provide a summary of the music.

하지만 이들 기법들은 임계값 설정이나 처리 속도 면에서 문제점을 드러냈다. 또한, 대중음악의 일반적인 구조, 인간의 뇌가 음악의 중요한 부분을 인식하는 프로세스 등을 고려하지 않았기 때문에, 단순한 기계적인 알고리즘이 될 수 밖에 없었다. 결국, 이런 기법들은 음악의 구조적 특성을 고려하지 않았기에, 이용자의 요구사항에 맞지 않고 정확성이 떨어지는 단점이 있었다. However, these techniques have shown problems in terms of threshold setting and processing speed. In addition, since the general structure of popular music and the process of the human brain recognizing an important part of music were not considered, it was simply a mechanical algorithm. After all, these techniques do not take into account the structural characteristics of the music, it has a disadvantage that does not meet the requirements of the user and the accuracy is poor.

본 발명은 상기한 점을 감안하여 발명된 것으로, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악을 효과적으로 요약할 수 있는 구간유사도 기반의 자동 음악요약 방법 및 시스템을 제공함에 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above, and provides an automatic music summary method and system based on the section similarity diagram that can effectively summarize digital music based on the section similarity diagram using vector quantization in consideration of the general structure of popular music. The purpose is to provide.

상기 목적을 달성하기 위한 본 발명에 의한 구간유사도 기반 자동 음악 요약 방법은, (a) 음악신호를 다수의 프레임으로 분할하는 단계, (b) 각 프레임의 특징 벡터를 추출하는 단계, (c) 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 단계 및, (d) 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 단계를 포함하는 것을 특징으로 한다. In accordance with an aspect of the present invention, there is provided an automatic music summarization method based on segmental similarity, (a) dividing a music signal into a plurality of frames, (b) extracting a feature vector of each frame, and (c) each Performing vector quantization coding on the feature vector of the frame; and (d) extracting N maximum likelihood interval pairs by calculating interval similarity.

이때, N개의 최대 유사 구간쌍 중, 각 뒷부분을 음악요약으로 제공하는 것이 바람직하다. At this time, it is preferable to provide each back portion as a music summary among N maximum likelihood interval pairs.

만일, 한 구간만을 음악요약으로 제공하고자 할 경우에는, N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 음악요약으로 제공하는 단계를 더 포함하고, 각 유사 구간쌍의 에너지 비교는, MFCC 필터뱅크 에너지 또는 주파수 도메인에서의 에너지를 비교하는 것이 바람직하다. If only one section is to be provided as a music summary, comparing the energies of the N maximum likelihood interval pairs, and providing the section with the maximum energy as a music summary, comparing the energy of each pair of similar intervals It is preferable to compare MFCC filterbank energy or energy in the frequency domain.

이때, (d) 단계는, (d1) 수학식

Figure 112006055355924-pat00001
를 이 용하여 음악프레임의 유사도(Sframe)를 구하는 단계, (d2) 수학식
Figure 112006055355924-pat00002
를 이용하여 음악구간의 유사도(SS)를 구하는 단계, (d3) 음악구간 유사도 중에 가장 큰 유사도를 갖는 구간을 구하는 단계 및, (d1)~(d3) 단계를 반복하여 N개의 최대 유사 구간쌍을 구하는 단계를 포함하고, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, C(n)은 n번째 프레임의 코드워드 인덱스, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타낸다. At this time, step (d), (d1) equation
Figure 112006055355924-pat00001
Obtaining the similarity (S frame ) of the music frame using the (d2) equation
Figure 112006055355924-pat00002
Obtaining the similarity (SS) of the music section using the step, (d3) Obtaining the section having the largest similarity among the similarity of the music section, and repeating steps (d1) ~ (d3) to N number of maximum similar section pairs Where 0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , and C (n) is the nth frame Codeword index of N, N is the total number of frames of music, L is the number of frames of the music section length, L min is the number of frames corresponding to the predetermined minimum music section length, L max is the frame corresponding to the predetermined maximum music section length Indicates a number.

상기 목적을 달성하기 위한 본 발명에 의한 구간유사도 기반 자동 음악 요약 시스템은, 음악신호를 다수의 프레임으로 분할하고 각 프레임의 특징 벡터를 추출하는 특징벡터 추출부, 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 벡터 양자화부, 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 구간유사도 계산부를 구비하는 것을 특징으로 한다. In accordance with an aspect of the present invention, there is provided a segment similarity-based automatic music summarizing system comprising: a feature vector extractor for dividing a music signal into a plurality of frames and extracting feature vectors of each frame; and vector quantization of feature vectors of each frame. A vector quantizer for performing coding and a section similarity calculation unit for calculating interval similarity diagrams to extract N maximum likelihood interval pairs may be provided.

이때, N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 구하는 에너지 비교부를 더 구비하는 것이 바람직하다. In this case, it is preferable to further include an energy comparison unit for comparing the energy of the N maximum likelihood interval pair, to obtain a section having the maximum energy.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the following embodiments are provided to those skilled in the art to fully understand the present invention, and may be modified in various forms, and the scope of the present invention is limited to the embodiments described below. It doesn't happen.

(실시예)(Example)

이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템을 설명하는 블록도이고, 도 2는 본 발명의 바람직한 실시예에 의한 자동 음악요약 방법을 설명하는 흐름도이다. 1 is a block diagram illustrating an automatic music summary system according to a preferred embodiment of the present invention, Figure 2 is a flow chart illustrating an automatic music summary method according to a preferred embodiment of the present invention.

도 1을 참조하면, 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템은 특징벡터 추출부(100), 벡터 양자화부(101), 구간유사도 계산부(102), 에너지 비교부(103)로 이루어진다. Referring to FIG. 1, an automatic music summary system according to a preferred embodiment of the present invention includes a feature vector extraction unit 100, a vector quantization unit 101, an interval similarity calculation unit 102, and an energy comparison unit 103. .

먼저, 특징벡터 추출부(100)는 음악 신호를 일정한 프레임으로 분할(제200단계)하고, 각 프레임의 특징벡터를 추출하게 된다(제201단계). 특징벡터는 MFCC(Mel-frequency cepstral coefficients), LPC(Linear predictive coding), LPCC(Linear predictive cepstral coefficients), CQT(Constant Q Transform), 'Chromagram' 등 다양한 특징을 사용할 수 있다. 이는 음성 인식, 음악 신호처리 등의 분야에서 널리 알려진 것들이다. First, the feature vector extractor 100 divides the music signal into predetermined frames (step 200), and extracts feature vectors of each frame (step 201). The feature vector may use various features such as mel-frequency cepstral coefficients (MFCC), linear predictive coding (LPC), linear predictive cepstral coefficients (LPCC), constant Q transform (CQT), and 'Chromagram'. These are widely known in the fields of speech recognition, music signal processing, and the like.

MFCC의 경우 인간의 청각 특성을 모델링하여 음성 또는 음악 신호의 특징을 반영하는데 그 기술의 유용성이 이미 잘 알려져 있다. LPCC, LPC 또한 신호의 개략 적인 주파수 스펙트럼을 모델링함으로써 그 기술의 효과가 많이 알려져 있다. In the case of MFCC, the usefulness of the technique is well known to model human auditory characteristics to reflect the characteristics of speech or music signals. LPCC and LPC are also well known for their effects by modeling the approximate frequency spectrum of a signal.

이렇게 프레임 별로 특징을 추출한 후, 벡터 양자화부(101)에서 벡터 양자화가 수행된다(제202단계). 벡터 양자화는 64개의 코드워드(codeword) 또는 128개의 코드워드로 LBG 알고리즘이나 K-means 알고리즘을 이용한다. 즉, 각 프레임의 특징 벡터를 트레이닝 벡터로 하여 정해진 코드북(codebook) 사이즈로 트레이닝 한 후 이를 토대로 각 프레임을 코딩하게 된다. After the feature is extracted for each frame in this manner, the vector quantization unit 101 performs vector quantization (step 202). Vector quantization uses LBG algorithm or K-means algorithm with 64 codewords or 128 codewords. That is, after training in a predetermined codebook size using the feature vector of each frame as a training vector, each frame is coded based on the training.

다음으로, 구간유사도 계산부(102)에서 구간유사도(Segment Similarity: SS)를 계산하여 N개의 최대 유사 구간쌍을 추출한다(제203단계). 구체적으로 음악 프레임의 유사성은 다음의 수학식 1과 같이 정의된다. Next, the segment similarity calculation unit 102 calculates segment similarity (SS) to extract N maximum similar interval pairs (step 203). Specifically, the similarity of the music frame is defined as in Equation 1 below.

Figure 112006055355924-pat00003
Figure 112006055355924-pat00003

여기서, Sframe은 음악 프레임의 유사도를 나타내고, C(n)은 n번째 프레임의 코드워드 인덱스를 나타낸다. 즉, 수학식 1에 의하면, 두 프레임의 코드워드가 같으면 1의 값을 주고, 다르면 0으로 하는 것이다. Here, S frame represents the similarity of the music frame, and C (n) represents the codeword index of the n-th frame. That is, according to Equation 1, if the codewords of the two frames are the same, a value of 1 is given, and if it is different, the value is 0.

수학식 1에서 정의된 유사도 식을 이용한 음악 구간의 유사도는 수학식 2와 같이 구한다. 즉, 수학식 2는 서로 떨어져 있는 일정 길이의 두 음악 구간이 얼마나 비슷한지를 나타내는 식으로서, 여러 프레임이 모여 하나의 구간을 만드므로, 두 구간의 유사도를 구하기 위해 각 구간에 속하는 프레임들의 코드워드 인덱스들의 동일성을 파악하여 두 구간쌍의 유사도를 계산하기 위한 것이다. The similarity of the music section using the similarity formula defined in Equation 1 is calculated as in Equation 2. That is, Equation 2 is an expression of how similar two music sections having a predetermined length apart from each other. Since several frames are gathered together to form one section, codeword indexes of frames belonging to each section to obtain similarity between the two sections This is to calculate the similarity of two pairs of intervals by identifying their identity.

Figure 112006055355924-pat00004
Figure 112006055355924-pat00004

여기서, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타낸다. Where 0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , where N is the total number of frames of music and L is the music interval The number of frames of length, L min, represents the number of frames corresponding to a predetermined minimum music section length, and L max represents the number of frames corresponding to a predetermined maximum music section length.

수학식 2에서 1/(k2-k1) 부분은 프레임 수의 역수로 정규화 하는 부분이다. 예를 들어, 만약 4개의 프레임들을 가진 두 구간에서 모든 프레임들의 코드워드 인덱스가 같을 때, 수학식 2를 적용하여 계산한 값들을 더하면 4 값을 얻게 되고, 프레임 수인 4의 역수 1/4 를 곱하면 유사도가 1의 값을 얻게 된다. In Equation 2, the 1 / (k 2 -k 1 ) part is normalized to the inverse of the number of frames. For example, if the codeword indices of all the frames are the same in two intervals of four frames, adding the values calculated by applying Equation 2 results in four values, multiplied by the inverse 1/4 of the number of frames four. If you do, you get a value of 1.

수학식 2로 구한 구간 유사도 중에 가장 큰 유사도를 갖는 구간을 구하는 것은 수학식 3에서 나타내고 있다. It is shown in Equation 3 to obtain a section having the largest similarity among the section similarities obtained by Equation 2.

Figure 112006055355924-pat00005
Figure 112006055355924-pat00005

수학식 3에 의하면, 구간유사도(SS) 중에 가장 큰 유사도를 갖는 구간 쌍의 프레임 인덱스는 (k1 *, k2 *)로 나타내어진다. According to Equation 3, the frame index of the pair of intervals having the largest similarity among the interval similarities SS is represented by (k 1 * , k 2 * ).

상기와 같은 수학식이 일반적인 대중음악에 적용되는 예를 설명하면, 일반적 으로 대중음악은 도 3과 같은 구조를 갖게 된다. 즉, 'intro' 후에 'verse'가 나오게 되고, 이어서 코러스 파트가 나온 후, 솔로나 브리지 부분이 존재하거나 바로 가사만 조금 바뀐 두 번째 'verse'가 나오게 된다. 이런 패턴으로 중요 구간이 반복되는데, 기존의 방법은 가장 많이 반복된 부분을 음악 요약으로 제공하게 된다.Referring to the example that the above equation is applied to the general popular music, popular music has a structure as shown in FIG. That is, after 'intro', 'verse' comes out, followed by the chorus part, followed by a second 'verse' with solo or bridge parts or just a little bit of lyrics. This pattern repeats the critical sections, and the conventional method provides the most repeated section as a music summary.

하지만 코러스 외에 'verse'가 가장 많이 반복될 수도 있고, 'verse'나 코러스 구간이 아니지만 특성이 비슷한 부분이 계속 반복될 수도 있다. 따라서 한 구간의 반복의 정도를 구하는 것보다 두개의 구간의 유사도를 구해 이 유사도가 가장 높은 구간 쌍을 음악 요약 후보로 설정하는 것이 보다 바람직한 것이다. However, in addition to the chorus, 'verse' may be repeated the most, or 'verse' or the chorus section, but similar characteristics may be repeated repeatedly. Therefore, it is more preferable to determine the similarity of two sections and to set the section pair having the highest similarity as the music summary candidate, rather than finding the degree of repetition of one section.

구간유사도 계산부(102)에서 N개의 최대 유사 구간쌍을 추출하는 것은 상기의 수학식을 이용하여 최대 유사도 구간 쌍을 찾은 후, 이미 찾은 최대 유사도 구간 쌍을 배제하고 다시 상기 수학식을 이용하여 최대 유사도 구간 쌍을 추출하는 것을 반복함으로써 수행된다. 유사도 구간 쌍의 갯수 N은 사용자나 서비스 제공자가 미리 설정할 수 있다. Extracting the N maximum similarity interval pairs from the interval similarity calculation unit 102 finds the maximum similarity interval pair using the above equation, and then excludes the maximum similarity interval pair that has already been found and then uses the above equation again to maximize the maximum similarity interval pair. By repeating extracting the pair of similarity intervals. The number N of the similarity interval pairs may be preset by the user or the service provider.

이러한 최대 유사도 구간 쌍 중 뒷부분을 음악 요약 후보로 설정하는 것이 바람직하다. 예를 들어, 어떤 음악에 대해 구간유사도를 계산한 결과, 6초에서 26초 사이 구간과 120초부터 140초까지의 구간이 서로 유사한 구간 쌍이라면, 뒷 부분인 120초부터 140초의 구간을 음악 요약 후보로 설정하는 것이 바람직하다. 이는 유사 구간 쌍의 뒷부분이 좀 더 다이나믹하고 음악의 정보를 효과적으로 표현할 수 있기 때문이다. The latter part of the maximum similarity interval pair is preferably set as a music summary candidate. For example, if a section similarity is calculated for a piece of music, and if the section between 6 and 26 seconds and the section between 120 and 140 seconds are similar to each other, then the section 120 to 140 seconds after the music is summarized. It is preferable to set as a candidate. This is because the latter part of the similar section pair is more dynamic and can effectively express music information.

다음으로, 한 구간만을 음악요약으로 하고자 하는지 판단(제204단계)하여, 여러 구간을 음악 요약으로 제공하고자 할 경우에는 제203단계에서 구한 N개의 음악 요약 구간을 모두 음악 요약으로 제공하게 된다(제205단계).Next, if it is determined whether only one section is to be a music summary (step 204), and if multiple sections are to be provided as a music summary, all N music summary sections obtained in step 203 are provided as a music summary (second step). Step 205).

만일, 한 구간만을 음악요약으로 제공하고자 할 경우에는, 에너지 비교부(103)에서 각 유사 구간의 에너지를 구해 비교한다(제206단계). 이 때 주파수 도메인에서의 에너지를 구할 수도 있고 MFCC 필터뱅크 에너지의 총합을 계산할 수도 있다. If only one section is to be provided as a music summary, the energy comparison unit 103 obtains and compares the energy of each similar section (step 206). At this time, the energy in the frequency domain can be obtained or the sum of the MFCC filterbank energies can be calculated.

에너지 비교 후, 최대 에너지를 갖는 구간을 음악요약으로 제공한다(제207단계). 일반적으로 코러스나 음악의 하이라이트 부분이 보다 많은 다층적인 화음을 가지고 악기들의 연주가 비교적 높은 음압을 갖게 되므로, 그 에너지가 상대적으로 크다. 따라서, 최대 에너지를 갖는 구간을 음악요약으로 제공하면, 해당 음악의 하이라이트 부분을 사용자에게 제공할 수 있다. After comparing the energy, a section having the maximum energy is provided as a music summary (step 207). In general, the chorus or highlight of music has more multilayered chords, and the performance of the instruments has a relatively high sound pressure, so the energy is relatively large. Therefore, if the section having the maximum energy is provided as the music summary, the highlight portion of the music can be provided to the user.

상기한 바와 같이 본 발명에 의하면, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악의 중요한 부분을 자동으로 추출함으로써, 음악 검색, 음악 장르 분류 등의 서비스에 적용될 수 있으며, 이용자의 요구사항을 보다 잘 고려한 다양한 샘플 음악을 제공할 수 있는 효과가 있다. 또한 음악 정보의 저장을 위해 요약된 음악을 저장함으로써, 음악 검색 시 효율적인 검색이 가능하며 저장 공간의 최소화도 가능하게 된다.As described above, the present invention can be applied to services such as music search and music genre by automatically extracting an important part of digital music by considering the general structure of popular music and based on segment similarity using vector quantization. In addition, there is an effect that can provide a variety of sample music in consideration of the requirements of the user better. In addition, by storing the summarized music for storing the music information, it is possible to efficiently search for music search and to minimize the storage space.

이상, 본 발명의 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되는 것은 아니며, 본 발명의 기술적 사상의 범위내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.As mentioned above, although preferred embodiment of this invention was described in detail, this invention is not limited to the said embodiment, A various deformation | transformation by a person of ordinary skill in the art within the scope of the technical idea of this invention is carried out. This is possible.

Claims (10)

구간유사도를 기반으로 하여 자동으로 음악을 요약하는 방법에 있어서, In the method of automatically summarizing music based on the segment similarity, (a) 음악신호를 다수의 프레임으로 분할하는 단계;(a) dividing a music signal into a plurality of frames; (b) 각 프레임의 특징 벡터를 추출하는 단계;(b) extracting feature vectors of each frame; (c) 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 단계 및;(c) performing vector quantization coding on the feature vector of each frame; (d) 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 단계를 포함하는 것을 특징으로 하는 자동 음악요약 방법.(d) calculating the interval similarity and extracting N maximum likelihood interval pairs. 제1항에 있어서, The method of claim 1, 상기 N개의 최대 유사 구간쌍 중, 각 뒷부분을 음악요약으로 제공하는 것을 특징으로 하는 자동 음악요약 방법.Automatic music summary method, characterized in that each of the back portion of the N maximum similar interval pairs to provide a music summary. 제1항에 있어서, The method of claim 1, 한 구간만을 음악요약으로 제공하고자 할 경우에는, 상기 N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 음악요약으로 제공하는 단계를 더 포함하는 것을 특징으로 하는 자동 음악요약 방법.When only one section is to be provided as a music summary, comparing the energy of the pair of N maximum likelihood section, and providing a section having the maximum energy as a music summary, the automatic music summary method. 제3항에 있어서, 각 유사 구간쌍의 에너지 비교는, MFCC 필터뱅크 에너지 또는 주파수 도메인에서의 에너지를 비교하는 것을 특징으로 하는 자동 음악요약 방 법.The method of claim 3, wherein the energy comparison of each pair of similar intervals compares the energy in the MFCC filterbank energy or the frequency domain. 제1항에 있어서, 상기 (d) 단계는, The method of claim 1, wherein step (d) (d1) 수학식
Figure 112006055355924-pat00006
를 이용하여 음악프레임의 유사도(Sframe)를 구하는 단계;
(d1) Equation
Figure 112006055355924-pat00006
Obtaining a similarity (S frame ) of the music frame using;
(d2) 수학식
Figure 112006055355924-pat00007
를 이용하여 음악구간의 유사도(SS)를 구하는 단계;
(d2) Equation
Figure 112006055355924-pat00007
Obtaining a similarity (SS) of the music section using the S;
(d3) 상기 음악구간 유사도 중에 가장 큰 유사도를 갖는 구간을 구하는 단계 및;(d3) obtaining a section having the largest similarity among the similarities of the music sections; (d4) 상기 (d1)~(d3) 단계를 반복하여 N개의 최대 유사 구간쌍을 구하는 단계를 포함하고, (d4) repeating steps (d1) to (d3) to obtain N maximum likelihood interval pairs, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, C(n)은 n번째 프레임의 코드워드 인덱스, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타내는 것을 특징으로 하는 자동 음악요약 방법.0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , and C (n) is the codeword index of the nth frame, N Is the total number of frames of music, L is the number of frames of the music section length, L min is the number of frames corresponding to the predetermined minimum music section length, L max is the number of frames corresponding to the predetermined maximum music section length Automatic music summary method.
구간유사도를 기반으로 하여 자동으로 음악을 요약하는 시스템에 있어서, In the system for automatically summarizing music based on segment similarity, 음악신호를 다수의 프레임으로 분할하고 각 프레임의 특징 벡터를 추출하는 특징벡터 추출부;A feature vector extractor for dividing a music signal into a plurality of frames and extracting feature vectors of each frame; 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 벡터 양자화부;A vector quantizer for performing vector quantization coding on a feature vector of each frame; 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 구간유사도 계산부를 구비하는 것을 특징으로 하는 자동 음악요약 시스템.Automatic music summary system comprising a section similarity calculation unit for calculating the section similarity to extract the N maximum similar interval pairs. 제6항에 있어서, The method of claim 6, 상기 N개의 최대 유사 구간쌍 중, 각 뒷부분을 음악요약으로 제공하는 것을 특징으로 하는 자동 음악요약 시스템.Automatic music summary system, characterized in that each of the back portion of the N maximum similar interval pair providing a music summary. 제6항에 있어서, The method of claim 6, 상기 N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 구하는 에너지 비교부를 더 구비하는 것을 특징으로 하는 자동 음악요약 시스템.And an energy comparator for comparing the energies of the N maximum likelihood interval pairs to obtain an interval having the maximum energy. 제8항에 있어서, 각 유사 구간쌍의 에너지 비교는, MFCC 필터뱅크 에너지 또는 주파수 도메인에서의 에너지를 비교하는 것을 특징으로 하는 자동 음악요약 시스템. The automatic music summarization system of claim 8, wherein the energy comparison of each pair of similar intervals compares energy of the MFCC filterbank energy or the frequency domain. 제6항에 있어서, 상기 구간유사도 계산부는, The method of claim 6, wherein the section similarity calculation unit, 수학식
Figure 112006055355924-pat00008
를 이용하여 음악프레임의 유사도(Sframe)를 구하고,
Equation
Figure 112006055355924-pat00008
To calculate the similarity (S frame ) of the music frame,
수학식
Figure 112006055355924-pat00009
를 이용하여 음악구간의 유사도(SS)를 구하여,
Equation
Figure 112006055355924-pat00009
To obtain the similarity (SS) of the music section,
상기 음악구간 유사도 중에 가장 큰 유사도를 갖는 구간을 최대 유사 구간쌍으로 추출하되, The section having the largest similarity among the similarity of the music section is extracted as the maximum similar section pair, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, C(n)은 n번째 프레임의 코드워드 인덱스, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타내는 것을 특징으로 하는 자동 음악요약 시스템. 0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , and C (n) is the codeword index of the nth frame, N Is the total number of frames of music, L is the number of frames of the music section length, L min is the number of frames corresponding to the predetermined minimum music section length, L max is the number of frames corresponding to the predetermined maximum music section length Automatic music summary system.
KR1020060072503A 2006-08-01 2006-08-01 Automatic music summarization method and system using segment similarity KR100764346B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060072503A KR100764346B1 (en) 2006-08-01 2006-08-01 Automatic music summarization method and system using segment similarity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060072503A KR100764346B1 (en) 2006-08-01 2006-08-01 Automatic music summarization method and system using segment similarity

Publications (1)

Publication Number Publication Date
KR100764346B1 true KR100764346B1 (en) 2007-10-08

Family

ID=39419379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060072503A KR100764346B1 (en) 2006-08-01 2006-08-01 Automatic music summarization method and system using segment similarity

Country Status (1)

Country Link
KR (1) KR100764346B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852196B1 (en) 2007-02-12 2008-08-13 삼성전자주식회사 System for playing music and method thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030034656A (en) * 2001-10-26 2003-05-09 김종광 Method for constructing a music database and retrieving a music information using the statistical properties of musical speech
KR20030059503A (en) * 2001-12-29 2003-07-10 한국전자통신연구원 User made music service system and method in accordance with degree of preference of user's
JP2003242164A (en) 2002-02-19 2003-08-29 Matsushita Electric Ind Co Ltd Music retrieval and reproducing device, and medium with program for system thereof recorded thereon
US6633845B1 (en) 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
US20050125223A1 (en) 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
KR20060029663A (en) * 2006-03-17 2006-04-06 한국정보통신대학교 산학협력단 Music summarization apparatus and method using multi-level vector quantization
KR20060043080A (en) * 2004-02-24 2006-05-15 마이크로소프트 코포레이션 Systems and methods for generating audio thumbnails
KR20070054801A (en) * 2005-11-24 2007-05-30 삼성전자주식회사 Method and apparatus for summarizing music content automatically

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633845B1 (en) 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
KR20030034656A (en) * 2001-10-26 2003-05-09 김종광 Method for constructing a music database and retrieving a music information using the statistical properties of musical speech
KR20030059503A (en) * 2001-12-29 2003-07-10 한국전자통신연구원 User made music service system and method in accordance with degree of preference of user's
JP2003242164A (en) 2002-02-19 2003-08-29 Matsushita Electric Ind Co Ltd Music retrieval and reproducing device, and medium with program for system thereof recorded thereon
US20050125223A1 (en) 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
KR20060043080A (en) * 2004-02-24 2006-05-15 마이크로소프트 코포레이션 Systems and methods for generating audio thumbnails
KR20070054801A (en) * 2005-11-24 2007-05-30 삼성전자주식회사 Method and apparatus for summarizing music content automatically
KR20060029663A (en) * 2006-03-17 2006-04-06 한국정보통신대학교 산학협력단 Music summarization apparatus and method using multi-level vector quantization

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
특2003-0034656
특2003-0059503

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852196B1 (en) 2007-02-12 2008-08-13 삼성전자주식회사 System for playing music and method thereof
US7786369B2 (en) 2007-02-12 2010-08-31 Samsung Electronics Co., Ltd. System for playing music and method thereof

Similar Documents

Publication Publication Date Title
US9313593B2 (en) Ranking representative segments in media data
JP5853029B2 (en) Passphrase modeling device and method for speaker verification, and speaker verification system
JP4067969B2 (en) Method and apparatus for characterizing a signal and method and apparatus for generating an index signal
CN1300764C (en) Humming transcription system and methodology
CN109493881B (en) Method and device for labeling audio and computing equipment
US20140330556A1 (en) Low complexity repetition detection in media data
JP2004530153A6 (en) Method and apparatus for characterizing a signal and method and apparatus for generating an index signal
CN110472097A (en) Melody automatic classification method, device, computer equipment and storage medium
WO2016102737A1 (en) Tagging audio data
WO2015114216A2 (en) Audio signal analysis
CN110399522A (en) A kind of music singing search method and device based on LSTM and layering and matching
JP5345783B2 (en) How to generate a footprint for an audio signal
Yu et al. Sparse cepstral codes and power scale for instrument identification
WO2016102738A1 (en) Similarity determination and selection of music
Panagiotou et al. PCA summarization for audio song identification using Gaussian mixture models
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
KR100764346B1 (en) Automatic music summarization method and system using segment similarity
KR100766170B1 (en) Music summarization apparatus and method using multi-level vector quantization
Helén et al. A similarity measure for audio query by example based on perceptual coding and compression
Harb et al. A general audio classifier based on human perception motivated model
Sheba et al. Raga identification using clustering algorithm
Balachandra et al. Music Genre Classification for Indian Music Genres
Valero-Mas et al. Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming
Tran et al. Sound event classification based on feature integration, recursive feature elimination and structured classification
Lagrange et al. Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110901

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20120907

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee