KR100764346B1 - Automatic music summarization method and system using segment similarity - Google Patents
Automatic music summarization method and system using segment similarity Download PDFInfo
- Publication number
- KR100764346B1 KR100764346B1 KR1020060072503A KR20060072503A KR100764346B1 KR 100764346 B1 KR100764346 B1 KR 100764346B1 KR 1020060072503 A KR1020060072503 A KR 1020060072503A KR 20060072503 A KR20060072503 A KR 20060072503A KR 100764346 B1 KR100764346 B1 KR 100764346B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- similarity
- section
- frames
- frame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims abstract description 16
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical group N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 1은 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템을 설명하는 블록도, 1 is a block diagram illustrating an automatic music summary system according to a preferred embodiment of the present invention;
도 2는 본 발명의 바람직한 실시예에 의한 자동 음악요약 방법을 설명하는 흐름도,2 is a flowchart illustrating an automatic music summary method according to a preferred embodiment of the present invention;
도 3은 일반적인 대중음악의 구조를 설명하는 도면이다. 3 is a view for explaining the structure of general popular music.
본 발명은 디지털 음악을 요약하는 기법에 관한 것으로, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악을 효과적으로 요약하는 자동 음악요약 방법 및 시스템에 관한 것이다. BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for summarizing digital music, and to an automatic music summary method and system for effectively summarizing digital music based on interval similarity using vector quantization in consideration of the general structure of popular music.
최근 디지털 시대를 맞아 LP, CD, 카세트테이프와 같은 전통 음악저장/전달 미디어가 음악다운로드, 스트리밍서비스 등 새로운 디지털미디어로 교체되고 있다. 이러한 디지털 음악시장의 약진은 인터넷과 휴대폰 등의 유무선 통신기술에 기인한다. 디지털 음악은 인터넷 또는 휴대폰을 통한 음악 다운로드 뿐만 아니라, 벨소리, 통화연결음 등에도 광범위하게 사용되고 있다. In the recent digital age, traditional music storage / delivery media such as LP, CD, and cassette tapes are being replaced with new digital media such as music download and streaming services. The advancement of the digital music market is due to wired and wireless communication technologies such as the Internet and mobile phones. Digital music is widely used not only for downloading music through the Internet or mobile phones, but also for ringtones and ring back tones.
이에 따라 디지털 음악 데이터베이스가 점점 증가하고, 따라서 효과적인 디지털 음악 검색, 자동 음악 요약, 음악 추천 시스템에 대한 수요가 커지고 있다. 특히 상업적인 가치를 창출할 수 있는 음악 자동 요약 시스템에 대한 중요성이 늘어나고 있다. As a result, digital music databases are increasingly increasing, and there is a growing demand for effective digital music retrieval, automatic music summaries, and music recommendation systems. In particular, the importance of automatic music summarization systems that can generate commercial value is increasing.
기존에는 음악 전체 내에서 가장 많이 반복되는 구간을 중요한 부분이라 여겨 음악 요약으로 제공하거나, 음악 내에서 특성이 다른 부분들의 일정 구간을 추출하여 취합함으로써 음악 요약으로 제공하였다. 즉, 음악 요약을 위해 제일 많이 반복되는 특정 구간을 2차원 유사도행렬이나 벡터 양자화를 이용하여 찾아내어 음악 요약으로 제공하거나, 음악 내에서 특성이나 분위기 등이 상이한 부분들을 2차원 유사도 행렬, HMM, 벡터 양자화 등의 기법을 이용하여 찾아내 일정 구간 마다 추출하여 취합함으로써 음악 요약으로 제공하는 기법이 개발되어 왔다. Conventionally, the most repeating sections in the whole music are regarded as important parts and provided as a music summary, or as a summary of music by extracting and collecting certain sections of different parts in the music. That is, a specific section that is most frequently repeated for music summarization is found by using a two-dimensional similarity matrix or vector quantization and provided as a music summary, or a portion of a music having different characteristics or moods is two-dimensional similarity matrix, HMM, vector. Finding techniques using quantization techniques have been developed to extract and collect at regular intervals to provide a summary of the music.
하지만 이들 기법들은 임계값 설정이나 처리 속도 면에서 문제점을 드러냈다. 또한, 대중음악의 일반적인 구조, 인간의 뇌가 음악의 중요한 부분을 인식하는 프로세스 등을 고려하지 않았기 때문에, 단순한 기계적인 알고리즘이 될 수 밖에 없었다. 결국, 이런 기법들은 음악의 구조적 특성을 고려하지 않았기에, 이용자의 요구사항에 맞지 않고 정확성이 떨어지는 단점이 있었다. However, these techniques have shown problems in terms of threshold setting and processing speed. In addition, since the general structure of popular music and the process of the human brain recognizing an important part of music were not considered, it was simply a mechanical algorithm. After all, these techniques do not take into account the structural characteristics of the music, it has a disadvantage that does not meet the requirements of the user and the accuracy is poor.
본 발명은 상기한 점을 감안하여 발명된 것으로, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악을 효과적으로 요약할 수 있는 구간유사도 기반의 자동 음악요약 방법 및 시스템을 제공함에 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above, and provides an automatic music summary method and system based on the section similarity diagram that can effectively summarize digital music based on the section similarity diagram using vector quantization in consideration of the general structure of popular music. The purpose is to provide.
상기 목적을 달성하기 위한 본 발명에 의한 구간유사도 기반 자동 음악 요약 방법은, (a) 음악신호를 다수의 프레임으로 분할하는 단계, (b) 각 프레임의 특징 벡터를 추출하는 단계, (c) 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 단계 및, (d) 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 단계를 포함하는 것을 특징으로 한다. In accordance with an aspect of the present invention, there is provided an automatic music summarization method based on segmental similarity, (a) dividing a music signal into a plurality of frames, (b) extracting a feature vector of each frame, and (c) each Performing vector quantization coding on the feature vector of the frame; and (d) extracting N maximum likelihood interval pairs by calculating interval similarity.
이때, N개의 최대 유사 구간쌍 중, 각 뒷부분을 음악요약으로 제공하는 것이 바람직하다. At this time, it is preferable to provide each back portion as a music summary among N maximum likelihood interval pairs.
만일, 한 구간만을 음악요약으로 제공하고자 할 경우에는, N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 음악요약으로 제공하는 단계를 더 포함하고, 각 유사 구간쌍의 에너지 비교는, MFCC 필터뱅크 에너지 또는 주파수 도메인에서의 에너지를 비교하는 것이 바람직하다. If only one section is to be provided as a music summary, comparing the energies of the N maximum likelihood interval pairs, and providing the section with the maximum energy as a music summary, comparing the energy of each pair of similar intervals It is preferable to compare MFCC filterbank energy or energy in the frequency domain.
이때, (d) 단계는, (d1) 수학식 를 이 용하여 음악프레임의 유사도(Sframe)를 구하는 단계, (d2) 수학식 를 이용하여 음악구간의 유사도(SS)를 구하는 단계, (d3) 음악구간 유사도 중에 가장 큰 유사도를 갖는 구간을 구하는 단계 및, (d1)~(d3) 단계를 반복하여 N개의 최대 유사 구간쌍을 구하는 단계를 포함하고, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, C(n)은 n번째 프레임의 코드워드 인덱스, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타낸다. At this time, step (d), (d1) equation Obtaining the similarity (S frame ) of the music frame using the (d2) equation Obtaining the similarity (SS) of the music section using the step, (d3) Obtaining the section having the largest similarity among the similarity of the music section, and repeating steps (d1) ~ (d3) to N number of maximum similar section pairs Where 0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , and C (n) is the nth frame Codeword index of N, N is the total number of frames of music, L is the number of frames of the music section length, L min is the number of frames corresponding to the predetermined minimum music section length, L max is the frame corresponding to the predetermined maximum music section length Indicates a number.
상기 목적을 달성하기 위한 본 발명에 의한 구간유사도 기반 자동 음악 요약 시스템은, 음악신호를 다수의 프레임으로 분할하고 각 프레임의 특징 벡터를 추출하는 특징벡터 추출부, 각 프레임의 특징 벡터에 대해 벡터 양자화 코딩을 수행하는 벡터 양자화부, 구간유사도를 계산하여 N개의 최대 유사 구간쌍을 추출하는 구간유사도 계산부를 구비하는 것을 특징으로 한다. In accordance with an aspect of the present invention, there is provided a segment similarity-based automatic music summarizing system comprising: a feature vector extractor for dividing a music signal into a plurality of frames and extracting feature vectors of each frame; and vector quantization of feature vectors of each frame. A vector quantizer for performing coding and a section similarity calculation unit for calculating interval similarity diagrams to extract N maximum likelihood interval pairs may be provided.
이때, N개의 최대 유사 구간쌍의 에너지를 비교하여, 최대 에너지를 갖는 구간을 구하는 에너지 비교부를 더 구비하는 것이 바람직하다. In this case, it is preferable to further include an energy comparison unit for comparing the energy of the N maximum likelihood interval pair, to obtain a section having the maximum energy.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the following embodiments are provided to those skilled in the art to fully understand the present invention, and may be modified in various forms, and the scope of the present invention is limited to the embodiments described below. It doesn't happen.
(실시예)(Example)
이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템을 설명하는 블록도이고, 도 2는 본 발명의 바람직한 실시예에 의한 자동 음악요약 방법을 설명하는 흐름도이다. 1 is a block diagram illustrating an automatic music summary system according to a preferred embodiment of the present invention, Figure 2 is a flow chart illustrating an automatic music summary method according to a preferred embodiment of the present invention.
도 1을 참조하면, 본 발명의 바람직한 실시예에 의한 자동 음악요약 시스템은 특징벡터 추출부(100), 벡터 양자화부(101), 구간유사도 계산부(102), 에너지 비교부(103)로 이루어진다. Referring to FIG. 1, an automatic music summary system according to a preferred embodiment of the present invention includes a feature
먼저, 특징벡터 추출부(100)는 음악 신호를 일정한 프레임으로 분할(제200단계)하고, 각 프레임의 특징벡터를 추출하게 된다(제201단계). 특징벡터는 MFCC(Mel-frequency cepstral coefficients), LPC(Linear predictive coding), LPCC(Linear predictive cepstral coefficients), CQT(Constant Q Transform), 'Chromagram' 등 다양한 특징을 사용할 수 있다. 이는 음성 인식, 음악 신호처리 등의 분야에서 널리 알려진 것들이다. First, the
MFCC의 경우 인간의 청각 특성을 모델링하여 음성 또는 음악 신호의 특징을 반영하는데 그 기술의 유용성이 이미 잘 알려져 있다. LPCC, LPC 또한 신호의 개략 적인 주파수 스펙트럼을 모델링함으로써 그 기술의 효과가 많이 알려져 있다. In the case of MFCC, the usefulness of the technique is well known to model human auditory characteristics to reflect the characteristics of speech or music signals. LPCC and LPC are also well known for their effects by modeling the approximate frequency spectrum of a signal.
이렇게 프레임 별로 특징을 추출한 후, 벡터 양자화부(101)에서 벡터 양자화가 수행된다(제202단계). 벡터 양자화는 64개의 코드워드(codeword) 또는 128개의 코드워드로 LBG 알고리즘이나 K-means 알고리즘을 이용한다. 즉, 각 프레임의 특징 벡터를 트레이닝 벡터로 하여 정해진 코드북(codebook) 사이즈로 트레이닝 한 후 이를 토대로 각 프레임을 코딩하게 된다. After the feature is extracted for each frame in this manner, the
다음으로, 구간유사도 계산부(102)에서 구간유사도(Segment Similarity: SS)를 계산하여 N개의 최대 유사 구간쌍을 추출한다(제203단계). 구체적으로 음악 프레임의 유사성은 다음의 수학식 1과 같이 정의된다. Next, the segment
여기서, Sframe은 음악 프레임의 유사도를 나타내고, C(n)은 n번째 프레임의 코드워드 인덱스를 나타낸다. 즉, 수학식 1에 의하면, 두 프레임의 코드워드가 같으면 1의 값을 주고, 다르면 0으로 하는 것이다. Here, S frame represents the similarity of the music frame, and C (n) represents the codeword index of the n-th frame. That is, according to Equation 1, if the codewords of the two frames are the same, a value of 1 is given, and if it is different, the value is 0.
수학식 1에서 정의된 유사도 식을 이용한 음악 구간의 유사도는 수학식 2와 같이 구한다. 즉, 수학식 2는 서로 떨어져 있는 일정 길이의 두 음악 구간이 얼마나 비슷한지를 나타내는 식으로서, 여러 프레임이 모여 하나의 구간을 만드므로, 두 구간의 유사도를 구하기 위해 각 구간에 속하는 프레임들의 코드워드 인덱스들의 동일성을 파악하여 두 구간쌍의 유사도를 계산하기 위한 것이다. The similarity of the music section using the similarity formula defined in Equation 1 is calculated as in Equation 2. That is, Equation 2 is an expression of how similar two music sections having a predetermined length apart from each other. Since several frames are gathered together to form one section, codeword indexes of frames belonging to each section to obtain similarity between the two sections This is to calculate the similarity of two pairs of intervals by identifying their identity.
여기서, 0<x<N-L, x<y<x+L, y<k1, k2<k1+L and Lmin<L< Lmax이고, N은 음악의 전체 프레임 수, L은 음악 구간 길이의 프레임 수, Lmin은 기 지정된 최소 음악 구간 길이에 해당하는 프레임 수, Lmax는 기 지정된 최대 음악 구간 길이에 해당하는 프레임 수를 나타낸다. Where 0 <x <NL, x <y <x + L, y <k 1 , k 2 <k 1 + L and L min <L <L max , where N is the total number of frames of music and L is the music interval The number of frames of length, L min, represents the number of frames corresponding to a predetermined minimum music section length, and L max represents the number of frames corresponding to a predetermined maximum music section length.
수학식 2에서 1/(k2-k1) 부분은 프레임 수의 역수로 정규화 하는 부분이다. 예를 들어, 만약 4개의 프레임들을 가진 두 구간에서 모든 프레임들의 코드워드 인덱스가 같을 때, 수학식 2를 적용하여 계산한 값들을 더하면 4 값을 얻게 되고, 프레임 수인 4의 역수 1/4 를 곱하면 유사도가 1의 값을 얻게 된다. In Equation 2, the 1 / (k 2 -k 1 ) part is normalized to the inverse of the number of frames. For example, if the codeword indices of all the frames are the same in two intervals of four frames, adding the values calculated by applying Equation 2 results in four values, multiplied by the inverse 1/4 of the number of frames four. If you do, you get a value of 1.
수학식 2로 구한 구간 유사도 중에 가장 큰 유사도를 갖는 구간을 구하는 것은 수학식 3에서 나타내고 있다. It is shown in Equation 3 to obtain a section having the largest similarity among the section similarities obtained by Equation 2.
수학식 3에 의하면, 구간유사도(SS) 중에 가장 큰 유사도를 갖는 구간 쌍의 프레임 인덱스는 (k1 *, k2 *)로 나타내어진다. According to Equation 3, the frame index of the pair of intervals having the largest similarity among the interval similarities SS is represented by (k 1 * , k 2 * ).
상기와 같은 수학식이 일반적인 대중음악에 적용되는 예를 설명하면, 일반적 으로 대중음악은 도 3과 같은 구조를 갖게 된다. 즉, 'intro' 후에 'verse'가 나오게 되고, 이어서 코러스 파트가 나온 후, 솔로나 브리지 부분이 존재하거나 바로 가사만 조금 바뀐 두 번째 'verse'가 나오게 된다. 이런 패턴으로 중요 구간이 반복되는데, 기존의 방법은 가장 많이 반복된 부분을 음악 요약으로 제공하게 된다.Referring to the example that the above equation is applied to the general popular music, popular music has a structure as shown in FIG. That is, after 'intro', 'verse' comes out, followed by the chorus part, followed by a second 'verse' with solo or bridge parts or just a little bit of lyrics. This pattern repeats the critical sections, and the conventional method provides the most repeated section as a music summary.
하지만 코러스 외에 'verse'가 가장 많이 반복될 수도 있고, 'verse'나 코러스 구간이 아니지만 특성이 비슷한 부분이 계속 반복될 수도 있다. 따라서 한 구간의 반복의 정도를 구하는 것보다 두개의 구간의 유사도를 구해 이 유사도가 가장 높은 구간 쌍을 음악 요약 후보로 설정하는 것이 보다 바람직한 것이다. However, in addition to the chorus, 'verse' may be repeated the most, or 'verse' or the chorus section, but similar characteristics may be repeated repeatedly. Therefore, it is more preferable to determine the similarity of two sections and to set the section pair having the highest similarity as the music summary candidate, rather than finding the degree of repetition of one section.
구간유사도 계산부(102)에서 N개의 최대 유사 구간쌍을 추출하는 것은 상기의 수학식을 이용하여 최대 유사도 구간 쌍을 찾은 후, 이미 찾은 최대 유사도 구간 쌍을 배제하고 다시 상기 수학식을 이용하여 최대 유사도 구간 쌍을 추출하는 것을 반복함으로써 수행된다. 유사도 구간 쌍의 갯수 N은 사용자나 서비스 제공자가 미리 설정할 수 있다. Extracting the N maximum similarity interval pairs from the interval
이러한 최대 유사도 구간 쌍 중 뒷부분을 음악 요약 후보로 설정하는 것이 바람직하다. 예를 들어, 어떤 음악에 대해 구간유사도를 계산한 결과, 6초에서 26초 사이 구간과 120초부터 140초까지의 구간이 서로 유사한 구간 쌍이라면, 뒷 부분인 120초부터 140초의 구간을 음악 요약 후보로 설정하는 것이 바람직하다. 이는 유사 구간 쌍의 뒷부분이 좀 더 다이나믹하고 음악의 정보를 효과적으로 표현할 수 있기 때문이다. The latter part of the maximum similarity interval pair is preferably set as a music summary candidate. For example, if a section similarity is calculated for a piece of music, and if the section between 6 and 26 seconds and the section between 120 and 140 seconds are similar to each other, then the section 120 to 140 seconds after the music is summarized. It is preferable to set as a candidate. This is because the latter part of the similar section pair is more dynamic and can effectively express music information.
다음으로, 한 구간만을 음악요약으로 하고자 하는지 판단(제204단계)하여, 여러 구간을 음악 요약으로 제공하고자 할 경우에는 제203단계에서 구한 N개의 음악 요약 구간을 모두 음악 요약으로 제공하게 된다(제205단계).Next, if it is determined whether only one section is to be a music summary (step 204), and if multiple sections are to be provided as a music summary, all N music summary sections obtained in
만일, 한 구간만을 음악요약으로 제공하고자 할 경우에는, 에너지 비교부(103)에서 각 유사 구간의 에너지를 구해 비교한다(제206단계). 이 때 주파수 도메인에서의 에너지를 구할 수도 있고 MFCC 필터뱅크 에너지의 총합을 계산할 수도 있다. If only one section is to be provided as a music summary, the
에너지 비교 후, 최대 에너지를 갖는 구간을 음악요약으로 제공한다(제207단계). 일반적으로 코러스나 음악의 하이라이트 부분이 보다 많은 다층적인 화음을 가지고 악기들의 연주가 비교적 높은 음압을 갖게 되므로, 그 에너지가 상대적으로 크다. 따라서, 최대 에너지를 갖는 구간을 음악요약으로 제공하면, 해당 음악의 하이라이트 부분을 사용자에게 제공할 수 있다. After comparing the energy, a section having the maximum energy is provided as a music summary (step 207). In general, the chorus or highlight of music has more multilayered chords, and the performance of the instruments has a relatively high sound pressure, so the energy is relatively large. Therefore, if the section having the maximum energy is provided as the music summary, the highlight portion of the music can be provided to the user.
상기한 바와 같이 본 발명에 의하면, 대중음악의 일반적인 구조를 고려하고 벡터 양자화를 이용하는 구간유사도를 기반으로 하여 디지털 음악의 중요한 부분을 자동으로 추출함으로써, 음악 검색, 음악 장르 분류 등의 서비스에 적용될 수 있으며, 이용자의 요구사항을 보다 잘 고려한 다양한 샘플 음악을 제공할 수 있는 효과가 있다. 또한 음악 정보의 저장을 위해 요약된 음악을 저장함으로써, 음악 검색 시 효율적인 검색이 가능하며 저장 공간의 최소화도 가능하게 된다.As described above, the present invention can be applied to services such as music search and music genre by automatically extracting an important part of digital music by considering the general structure of popular music and based on segment similarity using vector quantization. In addition, there is an effect that can provide a variety of sample music in consideration of the requirements of the user better. In addition, by storing the summarized music for storing the music information, it is possible to efficiently search for music search and to minimize the storage space.
이상, 본 발명의 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되는 것은 아니며, 본 발명의 기술적 사상의 범위내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.As mentioned above, although preferred embodiment of this invention was described in detail, this invention is not limited to the said embodiment, A various deformation | transformation by a person of ordinary skill in the art within the scope of the technical idea of this invention is carried out. This is possible.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072503A KR100764346B1 (en) | 2006-08-01 | 2006-08-01 | Automatic music summarization method and system using segment similarity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072503A KR100764346B1 (en) | 2006-08-01 | 2006-08-01 | Automatic music summarization method and system using segment similarity |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100764346B1 true KR100764346B1 (en) | 2007-10-08 |
Family
ID=39419379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060072503A KR100764346B1 (en) | 2006-08-01 | 2006-08-01 | Automatic music summarization method and system using segment similarity |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100764346B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100852196B1 (en) | 2007-02-12 | 2008-08-13 | 삼성전자주식회사 | System for playing music and method thereof |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030034656A (en) * | 2001-10-26 | 2003-05-09 | 김종광 | Method for constructing a music database and retrieving a music information using the statistical properties of musical speech |
KR20030059503A (en) * | 2001-12-29 | 2003-07-10 | 한국전자통신연구원 | User made music service system and method in accordance with degree of preference of user's |
JP2003242164A (en) | 2002-02-19 | 2003-08-29 | Matsushita Electric Ind Co Ltd | Music retrieval and reproducing device, and medium with program for system thereof recorded thereon |
US6633845B1 (en) | 2000-04-07 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Music summarization system and method |
US20050125223A1 (en) | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
KR20060029663A (en) * | 2006-03-17 | 2006-04-06 | 한국정보통신대학교 산학협력단 | Music summarization apparatus and method using multi-level vector quantization |
KR20060043080A (en) * | 2004-02-24 | 2006-05-15 | 마이크로소프트 코포레이션 | Systems and methods for generating audio thumbnails |
KR20070054801A (en) * | 2005-11-24 | 2007-05-30 | 삼성전자주식회사 | Method and apparatus for summarizing music content automatically |
-
2006
- 2006-08-01 KR KR1020060072503A patent/KR100764346B1/en not_active IP Right Cessation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633845B1 (en) | 2000-04-07 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Music summarization system and method |
KR20030034656A (en) * | 2001-10-26 | 2003-05-09 | 김종광 | Method for constructing a music database and retrieving a music information using the statistical properties of musical speech |
KR20030059503A (en) * | 2001-12-29 | 2003-07-10 | 한국전자통신연구원 | User made music service system and method in accordance with degree of preference of user's |
JP2003242164A (en) | 2002-02-19 | 2003-08-29 | Matsushita Electric Ind Co Ltd | Music retrieval and reproducing device, and medium with program for system thereof recorded thereon |
US20050125223A1 (en) | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
KR20060043080A (en) * | 2004-02-24 | 2006-05-15 | 마이크로소프트 코포레이션 | Systems and methods for generating audio thumbnails |
KR20070054801A (en) * | 2005-11-24 | 2007-05-30 | 삼성전자주식회사 | Method and apparatus for summarizing music content automatically |
KR20060029663A (en) * | 2006-03-17 | 2006-04-06 | 한국정보통신대학교 산학협력단 | Music summarization apparatus and method using multi-level vector quantization |
Non-Patent Citations (2)
Title |
---|
특2003-0034656 |
특2003-0059503 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100852196B1 (en) | 2007-02-12 | 2008-08-13 | 삼성전자주식회사 | System for playing music and method thereof |
US7786369B2 (en) | 2007-02-12 | 2010-08-31 | Samsung Electronics Co., Ltd. | System for playing music and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9313593B2 (en) | Ranking representative segments in media data | |
JP5853029B2 (en) | Passphrase modeling device and method for speaker verification, and speaker verification system | |
JP4067969B2 (en) | Method and apparatus for characterizing a signal and method and apparatus for generating an index signal | |
CN1300764C (en) | Humming transcription system and methodology | |
CN109493881B (en) | Method and device for labeling audio and computing equipment | |
US20140330556A1 (en) | Low complexity repetition detection in media data | |
JP2004530153A6 (en) | Method and apparatus for characterizing a signal and method and apparatus for generating an index signal | |
CN110472097A (en) | Melody automatic classification method, device, computer equipment and storage medium | |
WO2016102737A1 (en) | Tagging audio data | |
WO2015114216A2 (en) | Audio signal analysis | |
CN110399522A (en) | A kind of music singing search method and device based on LSTM and layering and matching | |
JP5345783B2 (en) | How to generate a footprint for an audio signal | |
Yu et al. | Sparse cepstral codes and power scale for instrument identification | |
WO2016102738A1 (en) | Similarity determination and selection of music | |
Panagiotou et al. | PCA summarization for audio song identification using Gaussian mixture models | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
KR100764346B1 (en) | Automatic music summarization method and system using segment similarity | |
KR100766170B1 (en) | Music summarization apparatus and method using multi-level vector quantization | |
Helén et al. | A similarity measure for audio query by example based on perceptual coding and compression | |
Harb et al. | A general audio classifier based on human perception motivated model | |
Sheba et al. | Raga identification using clustering algorithm | |
Balachandra et al. | Music Genre Classification for Indian Music Genres | |
Valero-Mas et al. | Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming | |
Tran et al. | Sound event classification based on feature integration, recursive feature elimination and structured classification | |
Lagrange et al. | Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110901 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20120907 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |