KR100766170B1 - 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 - Google Patents

다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 Download PDF

Info

Publication number
KR100766170B1
KR100766170B1 KR1020060024768A KR20060024768A KR100766170B1 KR 100766170 B1 KR100766170 B1 KR 100766170B1 KR 1020060024768 A KR1020060024768 A KR 1020060024768A KR 20060024768 A KR20060024768 A KR 20060024768A KR 100766170 B1 KR100766170 B1 KR 100766170B1
Authority
KR
South Korea
Prior art keywords
music
quantization
level
frames
frame
Prior art date
Application number
KR1020060024768A
Other languages
English (en)
Other versions
KR20060029663A (ko
Inventor
김회린
김성탁
김상호
이한규
홍진우
Original Assignee
한국정보통신대학교 산학협력단
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국정보통신대학교 산학협력단, 한국전자통신연구원 filed Critical 한국정보통신대학교 산학협력단
Priority to KR1020060024768A priority Critical patent/KR100766170B1/ko
Publication of KR20060029663A publication Critical patent/KR20060029663A/ko
Application granted granted Critical
Publication of KR100766170B1 publication Critical patent/KR100766170B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것으로, 개시된 음악 요약 방법은 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, 묵음이 제거된 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함하며, 정확하고 신뢰도 높은 음악 요약을 생성하여 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 이점이 있다.
음악 요약, 다중 레벨 벡터양자화, SIC(Same Index Count), 반복 패턴

Description

다중 레벨 양자화를 이용한 음악 요약 장치 및 방법{MUSIC SUMMARIZATION APPARATUS AND METHOD USING MULTI-LEVEL VECTOR QUANTIZATION}
도 1a는 종래의 제 1 실시 예에 따른 음악 요약 방식을 보인 개념도,
도 1b는 종래의 제 2 실시 예에 따른 음악 요약 방식을 보인 개념도,
도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도,
도 3은 본 발명에 따른 음악 요약 장치를 통해 수행되는 음악 요약 과정을 보인 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110 : 전처리부 120 : 특징벡터 추출부
130 : 다중 레벨 벡터양자화부 140 : 음악 요약 생성부
본 발명은 다중 레벨 양자화를 이용한 음악 요약에 관한 것으로, 더욱 상세하게는 음악 컨텐츠의 반복 구간을 음악 요약으로 추출하는 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법에 관한 것이다.
주지와 같이, 데이터 압축기술, 인터넷 그리고 통신기술의 발달로 개인이 접하고, 보유할 수 있는 음악 컨텐츠의 양은 상상을 초월하고 있다. 또한 음악 컨텐츠를 판매하는 서비스도 많아지고 있다. 하지만 현재 음악 컨텐츠 판매자가 사용자에게 제공하는 음악 컨텐츠의 요약정보는 컨텐츠의 시작부분 일정구간이나 임의의 구간을 이용하고 있다. 하지만 이러한 정보는 사용자에게 음악 컨텐츠에 대한 충분한 정보를 제공하기가 어렵다. 그래서 음악 컨텐츠의 요약을 제공하는 기술들이 꾸준히 연구되고 있다.
종래 기술에 따라 음악 컨텐츠의 요약을 제공하는 방식은 도 1a에 나타낸 바와 같이 음악 컨텐츠의 서로 다른 특성을 가지는 부분들을 모두 제공하는 방법과 도 1b에 나타낸 바와 같이 음악 컨텐츠내에서 자주 반복되는 구간을 제공하는 방법으로 크게 나뉘어 진다.
음악 요약을 제공하기 위해 사용하는 특징벡터로는 음성인식분야에서 많이 쓰이고 있는 MFCC(Mel-Frequency Cepstral Coefficient), 스펙트럴 플럭스(Spectral flux), 스펙트럴 파워(Spectral power), 그리고 앰프리튜드 인벨로프(Amplitude envelope) 등을 이용하고 있다.
이와 같은 특징벡터들을 이용하여 도 1b와 같이 반복되는 구간을 음악 요약으로 제공하는 방법으로는 집단화(Clustering)방법을 이용하는 방법이 대표적인 방법이다. 이 방법은 우선 음악 컨텐츠를 0.1초 단위의 세그먼트로 분할한 뒤, 각 세그먼트 사이의 유사도를 모두 비교하여 유사한 세그먼트들을 동일한 클래스로 분류해 둔다. 다음으로 각 클래스 중 가장 많은 세그먼트를 포함하고 있는 하나의 클래 스를 선정하고, 이 클래스를 그 음악 컨텐츠의 반복구간과 연관성이 가장 높은 클래스로 간주한다. 최종적으로 선정된 클래스 내의 첫 번째 세그먼트를 기준으로 일정구간(20초)을 음악 요약으로 결정한다. 이 방식은 가장 많이 나타나는 클래스를 반복되는 구간으로 포함할 가능성이 크지만, 정확히 반복되는 구간을 제공하기가 어려운 문제점이 있다.
또 다른 반복구간을 찾는 방법으로는 세그먼트보다 작은 시간 구간인 프레임단위에서 집단화 방법을 적용하는 방식이 있다. 이 방식은 가장 많은 프레임을 포함한 클래스를 선정하고, 그 클래스내의 각 프레임을 시작점으로 하는 일정구간들에 대해 프레임들이 속한 클래스의 순서가 같은 구간을 찾아내어 시작점이 가장 빠른 구간을 음악 요약으로 제공한다. 이 방법은 각 프레임에 대해 유사한 프레임들을 찾을 때 사용하는 임계값을 정확하게 결정하기가 어려운 문제점이 있다.
반복구간을 음악 요약으로 제공하는 방식과 달리 도 1a와 같이 특징적인 음악 부분들을 모두 조합하여 음악 요약으로 제공하는 방식으로는 2차원 유사행렬(2-D similarity matrix)을 이용하여 음악 컨텐츠내에서 특징이 바뀌는 구간을 찾아내고, 그 결과를 이용하여 특징이 다른 부분들을 요약으로 제공하는 방법이 있다. 하지만 주어진 음악 컨텐츠내에 특징이 상이한 부분이 몇 개로 이루어져 있는지 임의로 정해야 하기 때문에, 제공된 요약이 모든 특징을 포함하지 않을 수 있는 문제점이 있다.
본 발명은 이와 같은 종래의 문제점을 해결하기 위하여 제안한 것으로, 음악 컨텐츠를 여러 레벨의 벡터양자화를 이용하여 여러 가지 해상도로 표현하고 반복되는 구간을 찾아내어 음악 요약으로 추출함으로써, 사용자에게 보다 정확하고 신뢰성 높은 음악 컨텐츠의 요약을 제공하는 데 그 목적이 있다.
본 발명의 다른 목적은 음악 컨텐츠에서 반복되는 구간을 찾을 때 양자화 코드워드의 시간에 따른 반복 패턴을 고려함으로써 보다 정확하게 반복되는 구간을 찾아내는 데 있다.
이와 같은 목적들을 실현하기 위한 본 발명의 일 관점으로서 다중 레벨 양자화를 이용한 음악 요약 장치는, 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와, 상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와, 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와, 상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부를 포함한다.
본 발명의 다른 관점으로서 다중 레벨 양자화를 이용한 음악 요약 방법은, (a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와, (b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와, (c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와, (d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계를 포함한다.
이하, 본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 2는 본 발명에 따른 음악 요약 방식을 수행할 수 있는 음악 요약 장치의 블록 구성도이다.
도 2를 참조하면 본 발명에 따른 음악 요약 장치는, 음악 컨텐츠내에서 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 해당 프레임을 묵음이라 가정하고 제거하는 전처리부(110)와, 전처리부(110)를 거친 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터들을 구하는 특징벡터 추출부(120)와, 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행하여 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현하는 다중 레벨 벡터양자화부(130)와, 다중 레벨 벡터양자화의 수행 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부(140)를 포함하여 구성된다.
이와 같이 구성된 음악 요약 장치를 통해 수행되는 음악 요약 과정을 도 3의 흐름도를 참조하여 보다 상세히 살펴보면 다음과 같다.
먼저, 전처리부(110)는 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거한다(S201). 즉 음악 요약을 위한 특징벡터들을 추출하기 전에 고정된 길이를 갖고 0 ∼ 50% 중첩이 되는 프레임들로 분할하고 묵음 구간을 제거한다. 묵음을 제거하는 방법은 미리 정한 임계값과 프레임 에너지를 비교해서 프레임 에너지가 임계값보다 작으면 제거한다. 프레임 에너지를 구하는 방법은 아래의 수학식 1과 같고, 프레임 에너지가 미리 정한 임계값(Threshold value)보다 작으면 현 프레임을 묵음이라고 가정하고 제거한다.
Figure 112006018819546-pat00001
여기서, s(n)은 음악신호를 나타내고, N은 프레임내의 샘플수를 나타낸다.
다음으로, 특징벡터 추출부(120)는 전처리부(110)에 출력되는 음악 컨텐츠에 대해 프레임마다 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 등의 특징벡터들을 구한다(S203).
스펙트럴 파워는 주어진 음악 신호 s(n)의 각 프레임에 수학식 2의 해닝(Hanning) 윈도우를 적용하고 푸리에 변환을 취하여 구한다.
Figure 112006018819546-pat00002
수학식 2에서 s(n)은 음악신호, h(n)는 해밍 윈도우, S(k)는 스펙트랄 파워, N은 프레임내의 샘플 개수를 나타낸다.
앰프리튜드 인벨로프(RMS)는 시간영역에서 에너지의 변화를 나타낸다. 에너지의 변화는 음악에서 ADSK(Attack, Decay, Sustain, Release)와 같은 정보를 효과적으로 표현한다. 음악 신호의 앰프리튜드 인벨로프는 아래의 수학식 3을 이용해서 구한다.
Figure 112006018819546-pat00003
수학식 3에서 x[n]은 차단주파수가 1200Hz인 저역통과 필터를 통과한 신호이다. 여기서, 저역통과 필터를 사용하는 것은 드럼과 같은 모든 주파수 영역에 에너지를 가지고 있는 그런 악기가 에너지의 변화에 주는 영향을 최대한 줄이기 위한 것이다. 저역통과 필터의 차단주파수는 주파수는 실험적으로 구할 수 있으며, 실험에 따르면 샘플링 레이트가 8,000Hz이면 350Hz, 22,050Hz이면 1200Hz, 44100Hz이면 1700Hz로 하는 것이 좋다.
음성인식의 가장 대표적인 특징 추출 방법인 MFCC 추출방법은 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그 스케일과 비슷한 멜(Mel) 스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수 추출 방법이다. 멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만, 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식이다.
MFCC를 구하기 위해서는 우선 분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 구한다. 구한 스펙트럼에 대해 멜 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 구하고, 필터뱅크 출력값에 로그를 취한다. 그리고, 로그를 취한 필터뱅크 값에 이산 코사인 변환을 하여 최종 MFCC를 구한다.
Figure 112006018819546-pat00004
수학식 4에서 Sk는 필터뱅크의 출력값을 나타낸다.
이후, 다중 레벨 벡터양자화부(130)에서는 위에서 얻은 특징벡터를 이용하여 여러 레벨로 벡터양자화를 수행한다. 양자화란 입력 신호를 유한한 개수의 값으로 근사화하는 것이고, 입력 신호에 따라 스칼라 양자화와 벡터 양자화로 나눌 수 있다. 본 발명에서는 벡터 양자화를 사용하고 여러 레벨의 벡터 양자화를 사용한다. 그래서 다중 레벨 벡터양자화부(130)에서는 위에서 프레임별로 얻은 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하고 각 프레임을 여러 레벨의 벡터양자화들로 생성된 코드북 인덱스들로 표현한다(S205).
그러면, 음악 요약 생성부(140)에서는 다중 레벨 벡터양자화 결과를 이용하여 음악 컨텐츠내에서 반복되는 구간을 찾아낸다. 여기서, 음악 요약 생성부(140)에 제공되는 음악적 지식은 자주 반복되는 구간이 해당 음악 컨텐츠를 대표한다는 가정을 의미한다. 주어진 음악 컨텐츠의 프레임들(f1, f2, …, fN) 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 음악 요약으로 추출한다. S는 추출할 음악 요약에 해당하는 프레임의 수이다(S209).
Figure 112006018819546-pat00005
수학식 5에서 M은 양자화 레벨을 나타내고,
Figure 112006018819546-pat00006
Figure 112006018819546-pat00007
레벨 벡터양자화에서 프레임
Figure 112006018819546-pat00008
의 코드워드를 나타낸다.
Figure 112006018819546-pat00009
는 다중 양자화 레벨에 따른 가중치를 나타낸다. 가중치는 각 레벨의 양자화 오차의 역수를 사용한다.
대부분의 집합(Cluster)방법을 이용하는 반복구간기반 음악 요약 방법은 음악 컨텐츠마다 몇 개의 집합으로 표현할 것인지 결정을 하기 위해 적절한 임계값을 결정해야 한다. 하지만 본 발명의 다중 레벨 벡터양자화를 이용한 음악 요약 방법에서는 음악 컨텐츠마다 임계값을 조정할 필요가 없다. 또한, SIC를 구하는 과정에서 시간의 변화에 따른 양자화 코드워드의 반복 패턴을 고려하기 때문에 보다 정확하게 반복되는 구간을 찾을 수 있다.
지금까지 본 발명의 일 실시 예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 당연히 포함되는 것으로 해석되어야 할 것이다.
전술한 바와 같이 본 발명은 종래 기술들보다 정확하게 음악 컨텐츠내에서 반복되는 구간을 찾을 수 있어서 신뢰성 높은 음악 요약을 제공할 수 있다. 즉, 음악 컨텐츠를 벡터양자화로 표현하고, 그 양자화 코드워드의 시간에 따른 변화를 이용하여 반복되는 구간을 찾기 때문에 정확한 결과를 얻을 수 있고 여러 레벨의 벡터 양자화를 이용하기 때문에 음악 컨텐츠를 여러 해상도로 분석할 수 있다. 따라서 본 발명에 의한 정확하고 신뢰도 높은 음악 요약 방법은 사용자에게 음악 컨텐츠의 정보를 보다 정확하게 제공할 수 있는 효과가 있다.

Claims (10)

  1. (a) 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 단계와,
    (b) 상기 (a) 단계를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 단계와,
    (c) 상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 단계와,
    (d) 상기 (c) 단계의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 단계
    를 포함하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  2. 제 1항에 있어서,
    상기 (a) 단계는 상기 음악 컨텐츠를 프레임들로 분할한 후 미리 정한 임계값과 상기 프레임들의 에너지를 비교해서 상기 에너지가 임계값보다 작으면 해당 프레임을 제거하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  3. 제 1항에 있어서,
    상기 (b) 단계에서 구하는 특징벡터는 스펙트럴 파워, 앰프리튜드 인벨로프, MFCC 중에서 적어도 어느 하나를 포함하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  4. 제 1항에 있어서,
    상기 (d) 단계는, 상기 음악 컨텐츠의 프레임들을 "f1, f2, …, fN"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  5. 제 4항에 있어서,
    상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  6. 제 5항에 있어서,
    상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 방법.
  7. 음악 컨텐츠내에서 묵음이나 상대적으로 에너지가 작은 구간을 제거하는 전처리부와,
    상기 전처리부를 거친 상기 음악 컨텐츠에 대해 프레임마다 특징벡터들을 구하는 특징벡터 추출부와,
    상기 특징벡터들을 이용하여 여러 레벨로 벡터양자화를 수행하는 다중 레벨 벡터양자화부와,
    상기 다중 레벨 벡터양자화의 수행 결과를 이용하여 상기 음악 컨텐츠내에서 반복되는 구간을 찾아내 음악 요약으로 추출하는 음악 요약 생성부
    를 포함하는 다중 레벨 양자화를 이용한 음악 요약 장치.
  8. 제 7항에 있어서,
    상기 음악 요약 생성부는, 상기 음악 컨텐츠의 프레임들을 "f1, f2, …, fN"로 표현할 때에, 상기 프레임들 중에서 가장 큰 SIC(Same Index Count)값을 가지는 프레임 fi를 찾고, 구간 [fi, fi+S]를 상기 음악 요약으로 추출하는 것(단, 상기 S는 추출할 음악 요약에 해당하는 프레임의 수)
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.
  9. 제 8항에 있어서,
    상기 SIC값은 시간의 변화에 따른 양자화 코드워드를 이용하여 구하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.
  10. 제 9항에 있어서,
    상기 SIC값을 구할 때에 양자화 레벨에 따른 가중치를 양자화 오차의 역수를 이용하여 구하는 것
    을 특징으로 하는 다중 레벨 양자화를 이용한 음악 요약 장치.
KR1020060024768A 2006-03-17 2006-03-17 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 KR100766170B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060024768A KR100766170B1 (ko) 2006-03-17 2006-03-17 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060024768A KR100766170B1 (ko) 2006-03-17 2006-03-17 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20060029663A KR20060029663A (ko) 2006-04-06
KR100766170B1 true KR100766170B1 (ko) 2007-10-10

Family

ID=37139917

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060024768A KR100766170B1 (ko) 2006-03-17 2006-03-17 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100766170B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313593B2 (en) 2010-12-30 2016-04-12 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
US9547715B2 (en) 2011-08-19 2017-01-17 Dolby Laboratories Licensing Corporation Methods and apparatus for detecting a repetitive pattern in a sequence of audio frames

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100764346B1 (ko) * 2006-08-01 2007-10-08 한국정보통신대학교 산학협력단 구간유사도 기반의 자동 음악요약 방법 및 시스템
GB201802440D0 (en) 2018-02-14 2018-03-28 Jukedeck Ltd A method of generating music data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030034656A (ko) * 2001-10-26 2003-05-09 김종광 음악의 통계적 성질을 이용한 음악데이터베이스 구축 방법및 음악정보 검색 방법
KR20040000798A (ko) * 2002-06-25 2004-01-07 엘지전자 주식회사 음악 데이터의 점진적 분할 방법과 음악 데이터 검색방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030034656A (ko) * 2001-10-26 2003-05-09 김종광 음악의 통계적 성질을 이용한 음악데이터베이스 구축 방법및 음악정보 검색 방법
KR20040000798A (ko) * 2002-06-25 2004-01-07 엘지전자 주식회사 음악 데이터의 점진적 분할 방법과 음악 데이터 검색방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313593B2 (en) 2010-12-30 2016-04-12 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
US9317561B2 (en) 2010-12-30 2016-04-19 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
US9547715B2 (en) 2011-08-19 2017-01-17 Dolby Laboratories Licensing Corporation Methods and apparatus for detecting a repetitive pattern in a sequence of audio frames

Also Published As

Publication number Publication date
KR20060029663A (ko) 2006-04-06

Similar Documents

Publication Publication Date Title
Hu et al. Pitch‐based gender identification with two‐stage classification
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN102063904B (zh) 一种音频文件的旋律提取方法及旋律识别系统
JPH05346797A (ja) 有声音判別方法
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
Vuppala et al. Improved consonant–vowel recognition for low bit‐rate coded speech
RU2427909C2 (ru) Способ формирования отпечатка для звукового сигнала
Yu et al. Sparse cepstral codes and power scale for instrument identification
CN110610722B (zh) 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
Goh et al. Robust speech recognition using harmonic features
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Eyben et al. Acoustic features and modelling
Kumar et al. Text dependent voice recognition system using MFCC and VQ for security applications
JP4961565B2 (ja) 音声検索装置及び音声検索方法
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Park et al. Analysis of confidence and control through voice of Kim Jung-un
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
Allosh et al. Speech recognition of Arabic spoken digits
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
Ben Messaoud et al. Pitch estimation of speech and music sound based on multi-scale product with auditory feature extraction
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20101001

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee