KR20030067377A

KR20030067377A - 멜로디 기반 음악 검색방법과 장치

Info

Publication number: KR20030067377A
Application number: KR1020020007550A
Authority: KR
Inventors: 송정민; 배소영; 윤경로
Original assignee: 엘지전자 주식회사
Priority date: 2002-02-08
Filing date: 2002-02-08
Publication date: 2003-08-14
Also published as: KR100512143B1

Abstract

본 발명은 음악 데이터를 검색함에 있어서, 입력된 멜로디의 특징정보를 추출하고 추출된 멜로디 특징정보를 기반으로 하여 음악 데이터 베이스에서 음악 데이터를 검색하는 방법과 그 검색 장치에 관한 것이다.

본 발명은 음악 데이터 베이스의 음악 데이터에서 멜로디 특징을 추출하고, 질의로 입력되는 음악 데이터에서 멜로디 특징을 추출하고, 상기 추출된 음악 데이터 베이스의 음악 데이터 멜로디 특징정보와 입력된 질의 음악 멜로디 특징정보를 비교하여 그 유사도에 따라 음악 데이터의 검색 결과를 출력해 주는 것을 특징으로 하는 멜로디 기반 음악 데이터 검색장치와 멜로디 기반 음악 데이터 검색 방법이다.

Description

멜로디 기반 음악 검색방법과 장치{METHOD AND APPARATUS FOR SEARCHING OF MUSICAL DATA BASED ON MELODY}

영화, 사진, 음악 등의 멀티미디어 데이터를 검색하는 방법으로 그 멀티미디어에 추가되어 있는 제작자 정보, 제목, 생성 일자 등, 서지 정보를 이용하여 검색하는 방법과, 멀티미디어의 내용을 기반으로 하여 검색하는 방법이 있다.

그러나 전자의 검색방법은 사용자의 검색 의도를 충분히 반영할 수 없는 경우가 많다. 예를 들어 바닷가 백사장 위에 파란 하늘이 있는 사진을 찾고 싶을 때, 그 사진에 풍경을 묘사하는 서지 정보가 없다면 검색이 불가능하다. 그러나 후자의 검색방법은 사진 자체에서 영상처리 기법으로 자동으로 추출할 수 있는 정보인 색상정보를 그 사진의 내용기반 검색을 위한 특징정보로 기술하여 두고, 사용자가 영상 팔레트 또는 비슷한 다른 사진을 질의 이미지로 하여 질의 이미지로부터 추출하는 특징정보와 검색 대상 이미지의 특징정보를 서로 비교함으로써 원하는 사진을 검색할 수 있다.

이렇게 사용자가 멀티미디어를 검색할 때, 그 멀티미디어의 내용적인 정보를 이용하여 검색하면 사용자의 검색의도에 따라 더욱 정확한 검색을 편리하게 할 수 있다. 실제로 사용자는 멀티미디어의 제목, 제작자 등의 정보를 이용하여 검색을 시도하기도 있지만, 동영상인 경우에는 움직임, 색상 정보, 사진의 경우에는 색상, 모양 정보, 음악의 경우에는 음악의 빠르기, 분위기 정보 등에 더 많은 관심을 가질 수 있다. 내용적인 정보는 멀티미디어 제작자가 직접 입력하거나 자동으로 그 정보를 추출하여 검색을 위한 데이터 베이스를 구축할 수 있다.

앞서 설명한 내용기반 멀티미디어 검색에서 음악을 내용기반으로 검색하는 경우 서지 정보(제목, 연주자, 작곡자, 발행년도 등) 이외의 내용적인 질의를 할 수 있으면 검색 의도에 더욱 맞는 검색을 할 수 있다. 음악의 경우에는 어떠한 음악을 듣고 난 뒤에 심상이나 멜로디, 곡의 빠르기 등을 기억하는데, 이는 음악의 서지 정보보다 더욱 기억하기 쉽고 오래 남는다. 따라서 음악을 검색할 때는 이러한 내용적인 정보를 이용하여 검색을 하는 것이 원하는 음악을 찾을 때 효율적이다. 내용 기반 음악 검색을 하는 방법은 그 질의의 종류에 따라서 다음과 같이 대략 4가지 경우로 나눌 수 있다.

1. 멜로디 질의 입력 음악 검색

이 방법은 사용자가 음악의 멜로디를 마이크를 통해 입력하여 그 멜로디가 포함되어 있는 음악을 찾는 방법이다.

2. 음악 스타일 검색

이 방법은 원하는 스타일의 음악 샘플을 입력하거나 해당 음악 스타일을 규정하는 몇 가지 변수를 조절 입력하여 그 음악의 스타일에 해당하는 음악들을 찾는 방법이다.

3. 곡의 빠르기 검색

이 방법은 사용자가 원하는 빠르기를 수치로 입력하여 그에 해당하는 빠르기의 음악을 검색하는 방법이다.

4. 샘플 입력 검색

이 방법은 저장된 음악 파일을 입력하거나 연주되고 있는 음악을 마이크로 입력하여 그 음악과 같은 음악을 데이터 베이스에서 찾는 방법이다.

상기한 음악 데이터 검색 방법에서 멜로디 질의 입력을 이용한 음악 검색 방법에 대해서 살펴본다. 여러 가지 음악의 요소 중에 멜로디는 음악을 듣는 사람이쉽게 기억할 수 있는 요소이다. 오디오 매체를 통해서 들어본 음악은 그 전체 부분이 아니더라도 중요한 부분의 멜로디를 기억하기 쉽다. 이러한 특성을 이용한 검색 방법이 멜로디 질의 입력 음악 검색 방법인데, 사용자가 기억하는 부분의 멜로디를 허밍 또는 노래로 마이크를 통해, 또는 키보드 등의 입력장치를 통해 입력하여 데이터 베이스의 음악 중에서 입력된 멜로디에 해당하는 부분을 포함하는 음악을 검색 결과로 내준다.

이와 같은 멜로디 질의 입력 음악 검색 기술의 특징은 음악 데이터의 멜로디 특징이 수동(매뉴얼)으로 인덱싱(indexing)되어 있는 데이터 베이스를 대상으로 한다는 것이다. 즉, 원래의 음악에 대한 악보 정보, 음 높이, 길이 등이 미리 수동으로 인덱싱되어 있다. 허밍 질의에서는 마이크를 통한 신호를 분석하여 음 높이, 길이 등을 자동으로 추출하여 검색하는데, 그러한 정보들을 키보드로 입력받아 검색 할 수도 있다. 따라서, 이러한 멜로디 매칭은 텍스트 매칭과 같은 스트링 매칭의 문제가 되고, 이 문제를 효율적으로 검색하기 위한 방법들이 발표되었다.

멜로디 매칭을 위한 방법으로는 기호로 표현된 멜로디 질의와 음악간에 스트링 매칭을 하는데 있어서, 일반적인 텍스트 검색에서 사용하는 스트링의 의미적 정보를 이용하여 매칭하는 방법을 도입하여, 멜로디 기호열의 음악적 의미 정보를 추출하여 검색하는 방법이 있다.

또 다른 방법으로는 컴퓨터 음악 표현의 표준적인 형태인 MIDI 포맷을 기반으로 하여 스트링 매칭하는 방법이나, 두 MIDI 파일의 유사도를 멜로디를 기반으로 산출하는 방법, MIDI 파일에서 멜로디 스트링, 리듬 스트링, 코드 스트링을 추출하여 스트링 매칭하는 방법이 있다. 또한, 상기 멜로디 매칭을 위한 MIDI 파일의 표현방법이 소개되기도 한다.

또한 상기한 멜로디 매칭을 위해서, 소리 입력으로부터 멜로디 요소를 추출하는 방법이나, MIDI 파일과 허밍을 매칭할 때 쓰이는 매칭 방법이 소개되기도 하였으며, 멜로디를 연속된 음들과의 차이로 표현하는 방법으로 멜로디 윤곽선을 표현하고 매칭하는 방법이 소개되기도 하였다.

앞서 소개한 기존의 멜로디 검색 방법들은 이미 음악적인 정보(음 높이, 길이)가 추출되어 있는 데이터 베이스를 대상으로 검색하는 방법이다. 이는 실제적으로 사용자들이 보통 생성, 전송, 획득, 소비하는 형태인 음악신호 형태가 아니므로 검색을 위해서는 모든 음악에 대한 음악적인 정보를 수동(매뉴얼)으로 인덱싱해야 되고, 대용량의 음악 데이터 베이스를 대상으로 할 때는 수동 인덱싱이 불가능하므로 인터넷을 통한 음악 검색, 개인 음악 라이브러리 관리 등의 어플리케이션에 적용할 수 없다는 제약이 따른다.

본 발명은 멜로디 기반 음악 데이터 검색에 있어서, 검색하려는 데이터 베이스의 음악적 정보를 음악으로부터 자동으로 추출하고, 멜로디 입력 질의로부터 음악적 정보를 자동으로 추출하여 음악 데이터를 멜로디 기반으로 검색하는 방법과 그 검색장치를 제공함을 목적으로 한다.

본 발명은 데이터 베이스에 저장되어 있는 음악을 검색하는 방법과 검색장치로서, 음악의 제목이나 가수, 앨범 이름 등의 문자적인 정보를 이용하여 검색하지않고, 사람이 쉽게 기억할 수 있는 음악적인 특징인 멜로디에 해당하는 신호를 입력하여 그 멜로디가 포함되어 있는 음악을 검색하는 방법과 검색장치를 제공함을 목적으로 한다.

특히 본 발명에서는 멜로디 입력을 통한 음악 검색에 있어서, 음악적 정보가 수동으로 미리 추출되어 있는 음악 데이터 베이스를 대상으로 하지 않고, 음악적인 정보에 상응하는 정보를 보통의 음악 클립으로부터 자동 추출하여 검색에 사용함으로써, 사용자들이 흔히 접할 수 있는 음악 데이터들에 대하여 다른 부가적인 데이터 즉, 수동으로 인덱싱된 음악적 정보를 사용하지 않고 멜로디 기반 음악 데이터 검색을 할 수 있는 방법과 검색 장치를 제공함을 목적으로 한다.

도1은 본 발명의 멜로디 기반 음악 검색장치의 블럭도

도2는 본 발명에서 멜로디 특정 추출과정을 나타낸 도면

도3은 본 발명에서 부분음 개선을 설명하기 위한 도면

도4는 본 발명에서 하모닉 합산을 설명하기 위한 도면

도5는 본 발명에서 노트 에너지 산출을 설명하기 위한 도면

도6은 본 발명에서 노트 분할을 설명하기 위한 도면

도7은 본 발명에서 정합 경로의 예를 설명하기 위한 도면

도8은 본 발명에서 3방향/5방향 정합 경로 후보를 설명하기 위한 도면

상기 목적을 달성하기 위한 본 발명의 멜로디 기반 음악 검색방법은, 음악 데이터의 멜로디 특징을 음악으로부터 자동으로 추출하여 멜로디 특징 데이터 베이스를 구성하고, 질의로 입력되는 음악의 멜로디 특징을 자동으로 추출하여 이 추출된 질의 음악 멜로디 특징과 상기 멜로디 특징 데이터 베이스의 멜로디 특징의 유사도를 비교하여 음악 데이터를 검색하는 것을 특징으로 한다.

또한 상기 목적을 달성하기 위한 본 발명의 멜로디 기반 음악 검색장치는, 검색 대상이 되는 음악 데이터에서 멜로디 특징을 추출하는 음악 데이터 멜로디 특징 추출수단과, 질의로 입력되는 데이터의 멜로디 특징을 추출하는 질의 멜로디 특징 추출수단과, 상기 질의 멜로디 특징과 음악 멜로디 특징 데이터 베이스의 멜로디 특징의 유사도를 측정하는 유사도 측정수단을 포함하여 이루어지는 것을 특징으로 한다.

도1은 본 발명의 멜로디 기반 음악 검색장치의 실시예를 나타낸 도면으로서, 음악 데이터 베이스의 음악 데이터에서 자동으로 멜로디 특징을 추출하여 멜로디 특징 데이터 베이스를 구성하고, 질의 입력이 마이크를 통한 사용자의 허밍 입력인 경우에 허밍음으로부터 자동으로 멜로디 특징을 추출하고, 상기 추출된 질의 멜로디 특징정보를 이용해서 멜로디 특징 데이터 베이스를 대상으로 하여 음악을 검색하는 예이다.

도1의 멜로디 기반 음악 검색장치는, 검색 대상이 되는 음악 데이터를 저장하는 음악 데이터 베이스(1)와, 상기 음악 데이터 베이스의 음악 데이터에서 멜로디 특징을 추출하는 음악 데이터 멜로디 특징 추출부(2)와, 상기 추출된 음악 데이터 멜로디 특징정보가 저장되는 멜로디 특징 데이터 베이스(3)와, 질의 입력 데이터에서 멜로디 특징을 자동으로 추출하는 질의 입력 멜로디 특징 추출부(4)와, 상기 음악 데이터에서 추출한 멜로디 특징과 질의 멜로디에서 추출한 멜로디 특징을 비교하여 그 유사도를 측정하여 검색 결과를 출력하는 검색부(5)를 포함하여 이루어지고 있다.

음악 데이터 베이스(1)에는 검색 대상이 될 음악 데이터가 저장된다. 음악 데이터 베이스(1)로부터 제공되는 음악 데이터는 음악 데이터 멜로디 특징 추출부(2)에서 멜로디 특징정보가 추출되고, 추출된 멜로디 특징정보는 멜로디 특징 데이터 베이스(3)에 저장된다. 질의로 입력되는 음악 데이터는 질의 메로디 특징 추출부(4)에 의해서 질의 멜로디에 대한 특징정보가 추출된다. 검색부(5)는 질의 멜로디로부터 추출된 특징정보와 상기 멜로디 특징 데이터 베이스(3)에 저장되어 있는 특징정보를 비교하여 양자간의 유사도를 산출하고, 유사도가 높은 순으로 검색 결과를 출력함으로써, 질의 입력 데이터와 유사한 음악 데이터를 검색하여 준다.

상기 음악 데이터 베이스(1)나 멜로디 특징 데이터 베이스(3)는 하나의 컴퓨터 저장장치나, 분산되고 연결된 다수개의 컴퓨터 저장장치, 음악 재생장치에 부가된 저장장치 등을 포함하는 저장장치에 저장할 수 있으며, 멜로디 질의 입력은 마이크와 같은 오디오 신호 입력수단을 통하여 사용자가 허밍이나 노래로 입력한 멜로디, 다른 음악파일을 선택하여 입력된 멜로디, 키보드나 다른 기호 입력 수단을 통하여 멜로디를 표현하는 기호열로 입력된 멜로디, 멜로디를 표현하는 기호열이 저장되어있는 파일 등을 이용할 수 있다.

음악 데이터의 멜로디 특징은 압축되거나 압축되지 않은 모든 형태의 디지털 음악 데이터로부터 컴퓨터 알고리즘, 신호처리 프로세서 등으로 처리하여 자동으로 추출하여 멜로디 특징 데이터 베이스를 구축하고, 이에 대해 음악을 검색한다. 여기서 멜로디 질의는 압축되거나 압축되지 않은 모든 형태의 디지털 음악 데이터로 표현될 수 있으며, 또한 멜로디 질의는 기호로 표시된 멜로디 질의를 오디오 신호로 변환하여 멜로디 특징을 자동으로 추출하여 멜로디 특징 데이터 베이스에 대하여 검색할 수 있다. 또한 상기 특징 데이터 베이스는 기호로 표시된 음악 데이터를 오디오 신호로 변환하여 멜로디 특징을 자동으로 추출하여, 음악 데이터의 멜로디 특징을 데이터 베이스로 구축하고, 이에 대하여 검색한다.

한편, 상기 음악 멜로디 특징을 추출하는 장치 즉, 음악 데이터 멜로디 특징 추출부(3)와, 질의 멜로디 특징 추출 장치 즉, 질의 멜로디 특징 추출부(4)는 스펙트로그램 구성, 부분음 개선, 하모닉 합산, 프레임별 노트 에너지 벡터 산출, 노트 경계 분할, 노트 프래그먼트 구성 수단 및/또는 과정을 포함한다. 도2에 이와 같은 멜로디 특징 추출부를 나타내었다.

도2를 살펴보면 본 발명에 따른 멜로디 특징 추출장치는, 멜로디 특징정보를 추출하기 위한 제1특징정보 추출부(6), 상기 제1특징정보 추출부에서 추출된 정보들을 이용하여 음(계) 분할(segmentation)을 수행하기 위한 제2특징정보 추출부(7), 상기 제1특징정보 추출부와 제2특징정보 추출부에서 추출된 정보들을 이용하여 최종적인 멜로디 특징정보를 추출하기 위한 제3특징정보 추출부(8)를 포함하여 이루어지고 있다. 멜로디 특징 추출을 위한 입력으로 16kHz의 샘플링 비, 8비트의 신호값 해상도, 단채널의 PCM 오디오 형식을 사용하여 음악 검색을 하는데 필요한 오디오 신호 특성의 손실없이 원 음악 신호의 정보량을 줄일 수 있다.

상기 제1특징정보 추출부(6)는 프레임별로 특징정보 추출과정 즉, 스펙트로그램 구성부/또는 과정(601), 부분음 개선부/또는 과정(602), 하모닉 합산부/또는 과정(603), 프레임별 노트 에너지 벡터산출부/또는 과정(604)을 포함하여 이루어지고, 제2특징정보 추출부(7)는 세그멘테이션을 위하여 상기 부분음 개선정보를 이용해서 프레임별 에너지의 산출부/또는 과정(701), 산출된 프레임별 에너지로부터 최소 피크점의 추출부/또는 과정(702)을 포함하여 이루어지고, 상기 제3특징정보 추출부(8)는 세그먼트별로 특징정보의 추출 즉, 상기 프레임별 노트 에너지 벡터 및최소 피크점을 이용한 세그먼트 노트 에너지 벡터의 산출부/또는 과정(801), 세그먼트 노트 에너지 벡터로부터 노트 프래그먼트의 구성부/또는 과정(802)에 의해서 이루어진다.

상기 도2 및 이하 설명될 도3 내지 도8을 참조하여 멜로디 특징정보를 추출하는 과정에 대해서 설명한다. 먼저, 음악 데이터를 음악 CD에서 발췌하여 음악 멜로디 특징을 자동으로 추출하는 경우에 오디오 형식을 변환하여 특징 추출 장치에 입력한다. 음악 CD에서 손실 없이 추출한 오디오 형식인 44 KHz 샘플링 비(sampling rate), 스테레오(stereo), 16 비트 해상도(bit resolution)를 갖는 디지털 신호를 16 KHz, 모노(mono), 8비트로 변환하여 특징을 추출한다. 이는 C0 (16.532 Hz) 음부터 B8 (7902.1Hz) 음까지를 포함할 수 있는 샘플링 비(sampling rate)이며, 음악 중에 멜로디라고 여겨지는 음들이 나타나는 대역의 상한인 B5 음(987.7Hz)에 대하여 8개의 부분음(partial)을 추출할 수 있다.

질의 입력을 마이크를 통한 사람의 허밍으로 할 경우에 음악 데이터가 멜로디 특징 추출 장치에 입력되는 형식과 동일한 형식으로 질의 입력을 변환하여 사용한다.

1. 스펙트로그램 구성(spectrogram construction)

멜로디 특징 추출을 위하여 신호에 대한 주파수 특성을 시간적으로 해석할 수 있는 스펙트로그램 구성을 수행하는데, 스펙트로그램 구성부/또는 과정(601)에 의해서 스펙트로그램을 구성하는 데는 아래의 식1과 같이 고속 푸리어 변환(FFT, Fast Fourier Transform)을 사용한다. 16kHz의 샘플링 비로 샘플링된 신호를 1024의 FFT 크기, 512의 프레임 중첩으로 스펙트로그램을 구성한다. 즉, 스펙트로그램의 FFT를 수행하는 크기(FFT size)는 1024 샘플(sample)이고, 512 샘플(sample)의 중첩을 가지며, 변환 전에 해밍 윈도우(Hamming window)를 사용하여 처리(windowing)한다.

여기에서 T는 오디오 클립의 프레임 크기, N은 FFT size(1024)이다.

이렇게 변환된 신호의 에너지 스펙트럼을 다음의 식2와 같이 구한다.

2. 부분음 개선(partial enhancing]

부분음 개선은 다중음으로 구성된 보통의 음악 클립에서 중요한 음(predominant sound, 사람에게 쉽게 잘 들리는 소리 즉, 뚜렷한 음)을 추출해 내기 위한 처리 작업으로서 부분음 개선부/또는 과정(602)에 의해서 이루어진다. 음악은 여러 가지의 요소음으로 구성이 되는데, 이 중에서 중요한 음은 큰 에너지와 선명한 부분음(partial)들을 가지는 요소음으로 결정된다. 여러 가지의 소리가 섞여있는 음악의 경우에 하나의 요소음은 다른 요소음들이 갖는 부분음들에 의해서 그 부분음이 사라지거나 선명도가 떨어지게 된다. 따라서 선명한(뚜렷한) 부분음을추출하기 위하여 다음의 식3과 같은 부분음 개선 처리를 수행한다.

식3에서 W의 값은 FFT전에 신호에 가해지는 윈도우의 메인로브 크기와 비례하여 결정할 수 있고, 4 혹은 8의 값으로 사용한다. 이 과정은 뚜렷한 부분음을 추출해 내기 위해서 현재 FFT 인덱스와 주위 FFT 인덱스의 에너지 값의 차이를 평균하여 부분음을 개선하는 과정이다. 이를 위하여 FFT를 수행하기 전 신호에 가해지는 윈도우의 메인로브 크기로 평균할 주위의 인덱스 개수를 결정하는데는 주위의 8개 인덱스의 에너지값을 고려하거나, 주위의 16개의 인덱스의 에너지값을 고려하게 된다.

이 과정을 수행하면, 부분음의 절대적인 에너지가 크더라도 주변의 에너지보다 상대적으로 작은 부분음은 작은 값을 가지게 되고, 부분음의 절대적인 에너지가 작더라도 주변의 에너지보다 상대적으로 큰 부분음은 그 값이 커지게 된다. 즉, 도3에 나타낸 예와 같이, 부분음의 절대적인 에너지가 크더라도 개선된 부분음 스펙트럼 상에서 보면 주변의 에너지가 상대적으로 큰 부분음은 그 값이 커지게 되는 것이다. 도3의 (a)는 부분음 개선 전의 주파수별 에너지 스펙트럼 분포를 보여주고 있으며, 도3의 (b)는 부분음 개선 후의 주파수별 에너지 스펙트럼 분포를 보여주고 있다. 도3에서 알 수 있는 바와 같이 부분음 개선(602)을 수행하면 주변의 에너지보다 상대적으로 작은 부분음은 사람의 귀에 잘 들리지 않고, 상대적으로 큰 부분음은 사람의 귀에 잘 들린다는 특징을 반영하게 되고, 이는 사람에게 쉽게 잘 들리는 소리의 부분음의 에너지를 강화하는 효과를 가져오게 된다. 부분음 개선의 결과는 후단의 하모닉 합산부/또는 과정(603)을 위해서 제공되는 한편, 세그멘테이션을 위한 프레임별 에너지 산출부/또는 과정(701)을 위해서도 제공된다.

3. 하모닉 합산(harmonic sum)

위와 같이 개선된 부분음을 입력으로 하여 하모닉 합산이 하모닉 합산부/또는 과정(603)에 의해서 이루어진다. 하모닉 합산과정에서는 개선된 부분음을 주파수 영역에서 등 간격으로 에너지를 합산하여 프레임별 피치값을 추출한다. 또한 합산된 부분음의 수로 합산 값을 정규화하며, 합산의 고려 대상을 FFT 크기의 절반보다 작게 설정한다.

음의 인식에 가장 중요한 요소는 음의 하모닉 특성(harmonicity)이다. 사람의 발성이나 악기의 연주에 의한 소리는 발생기관의 특성에 의해서 주파수 영역에서 부분음들이 일정한 간격으로 나타나게 된다. 음의 인식은 이러한 부분음들이 얼마나 하모닉 특성을 갖는가를 인지하는 과정이다. 하모닉 합산에 의한 피치(pitch) 추출 방법은 다른 어떤 방법보다 성공적임이 보고되어 왔고, 본 발명에서는 개선된 부분음을 입력으로 하여 다음의 식4와 같이 하모닉 합산을 수행한다.

여기에서 [x]는 x를 넘지 않는 정수를 나타낸다. 이와 같은 하모닉 합산 과정의 수행으로 기본 주파수 p에 해당하는 음의 크기를 알 수 있다. 도4에 하모닉 합산의 효과를 예로 나타내었다. 도4에 나타낸 바와 같이 개선된 부분음 스펙트럼을 기반으로 하여 하모닉 합산을 수행하면 기본 주파수 p에 해당하는 음의 크기 즉, 주파수별 에너지를 알 수 있게 된다.

4. 노트 에너지 계산 (note energy calculation)

프레임별 노트 에너지 벡터의 산출은 상기 하모닉 합산의 결과를 이용해서 프레임별로 노트 에너지 벡터(note energy vector)를 산출하는 것으로, 이는 프레임별 노트 에너지 벡터 산출부/또는 과정(604)에 의해서 이루어진다. 프레임별 노트 에너지 벡터 산출 과정에서는 음악의 표준 음계 대역별로 하모닉 합산 값을 구한다. 즉, 노트 에너지를 산출할 때 108개의 표준 음계 대역을 사용한다. 그리고 노트 대역 경계에서의 에너지 값을 FFT 인덱스에서의 에너지 값을 이용하여 보간(interpolation)해서 사용한다.

사람이 음을 인식하는 데는 어느 정도 분해능이 있기 때문에 기본 주파수 별로 하모닉 합산으로 표현한 신호를 대역별로 분리해서 표현한다. 음악에서는 표준적으로 사용하는 음계가 있기 때문에 그 표준음계에 해당하는 대역별로 신호를 표현한다. 표준음계는 C0음에 해당하는 16.532Hz부터 B8음에 해당하는 7902.1Hz까지 걸쳐있는데, 각 음별로 상한과 하한이 결정된다. 현대 음악은 옥타브 당 12음으로 나뉘어지고, 이러한 체계의 음계로 표현된 음 사이의 관계는 다음의 식5와 같이 나타난다.

식5에서 I는 표준음계로 표현된 음의 차이이고 R은 두 음의 기본 주파수 비율이다. 이 식에 의하면 음계상에 인접한 두 음의 비율은 1.059463이다.

표준음계와 대역에 의해서 하모닉 합산에 대한 대역별 에너지를 구하게 되는데, 이를 노트 에너지(note energy)라 하고, 이는 다음의 식6과 같이 구해진다.

식6에서 M은 표준음계의 전체 크기를 나타내는 108이며, 따라서 각 프레임의 노트 에너지는 108개의 요소를 가지는 벡터로 표시된다. 노트 에너지로 음을 표현하면, 음의 시간적인 미세한 차이(바이브레이션 등)를 하나의 음으로 표현할 수 있고, 이후에 매칭의 과정에서 피치 시프트 과정이 간편해진다. 도5는 노트 에너지의 산출과정을 보여준다. 도5의 (a)는 FFT 인덱스에서의 하모닉 합산값과 인접한 하모닉 합산값을 이용해서 보간(interpolation)된 값이며, (b)는 FFT 인덱스, (c)는 노트 인덱스를 각각 나타내고 있다. 도5에서 알 수 있듯이 오디오 신호의 주기적인 성질을 이용해서 구한 하모닉 합산값에 대한 대역별 에너지 즉, 노트 에너지로 음을 표현하였으며, 도5의 (a)와 같은 하모닉 합산값을 기반으로 하여 (c)에 나타낸 바와 같이 노트 C2, C#2, D2, D#2, E2, F2 에 대한 에너지를 산출하였다.

이와 같이 구한 프레임별 노트 에너지 벡터는 세그먼트 노트 에너지 벡터의산출을 위하여 제공된다.

5. 노트 분할(note segmentation)

노트 분할과정 즉, 음(계) 세그멘테이션 과정은 음의 성격이 같은 프레임들을 하나의 세그먼트로 묶는 과정으로, 이 과정을 통해 멜로디 특징을 세그먼트로 표현함으로써 저장과 매칭에 필요한 데이터의 양을 줄일 수 있게 한다. 즉, 노트 경계의 분할 과정은 상기 추출한 개선된 부분음의 프레임별 에너지의 극소점들 중에서 일정한 프레임 간격 내에서의 최소점이 극소점이 되는 점들을 세그먼트의 경계점으로 선택하는 방법으로 노트 분할을 수행하는 것이다.

사람이나 악기가 하나의 음을 내기 위해서는 일정 시간동안 경과음을 발생시키는데 이 시간동안에는 음의 에너지 값이 작다. 여러 소리가 섞여있는 음악에서 중요한 음의 에너지 변화를 얻어내기 위해서 개선된 부분음 스펙트럼을 사용하여 에너지를 구한다. 이 개선된 부분음 스펙트럼으로부터 얻어진 에너지가 시간적으로 변하게 되는데, 개선된 부분음의 프레임별 에너지의 극소점들 중에서 일정한 프레임 간격 내에서의 최소점이 극소점이 되는 점들을 세그먼트의 경계점으로 설정한다.

도6은 노트 분할 과정의 예를 보여준다. 즉, 제2특징정보 추출부(7)에서 프레임별 에너지 산출부/또는 과정(701)과 최소 피크점 추출부/또는 과정(702)을 통해서 노트 분할을 수행하는데, 부분음 개선을 통해서 개선된 부분음을 입력으로 하여, 개선된 부분음의 프레임 에너지를 구하고, 구해진 프레임 에너지의 극소점들 중에서 일정한 프레임 간격 내에서 최소점이 극소점이 되는 점들을 세그먼트의 경계점으로 설정하는 것이다. 이와 같은 방법으로 노트 분할을 수행하고, 구해진 노트 분할의 경계점에 관한 정보를 제3특징정보 추출부(8)의 세그먼트 노트 에너지 벡터 산출부/또는 과정(801)을 위해서 제공한다.

6. 노트 프래그먼트 구성(note fragment construction)

노트 프래그먼트 구성은 하나의 세그먼트안에 포함되어 있는 프레임 노트 에너지 벡터들의 요소 값 평균으로 세그먼트 노트 에너지를 나타내어 노트 프래그먼트를 구성하는 과정이다. 노트 프래그먼트 구성은 상기 노트 분할 과정에서 구한 노트 경계점 내의 노트 에너지 벡터를 요소별로 평균하고 여러 개의 극대값들을 추출하여 세그먼트를 표현하는 노트 에너지 벡터를 구하는 과정이다. 이 때 세그먼트를 표현하는 노트 에너지 벡터의 산출은 노트 에너지 벡터의 요소값들의 평균으로 각 요소 값을 나누어 노트 에너지 벡터를 산출할 수 있다. 또한, 음악 데이터의 경우보다 질의 입력인 경우에 더 적은 수의 극대값들을 추출하는 방법으로 노트 프래그먼트를 구성한다. 예를 들어, 질의 입력이 사용자가 마이크를 통해 입력한 허밍일 경우에, 음악 데이터의 노트 에너지 벡터에서는 7개의 극대값을 추출하고, 허밍 질의 입력의 노트 에너지 벡터에서는 3개의 극대값을 추출한다.

노트 프래그먼트 구성은 제3특징정보 추출부(8)에서 이루어진다. 노트 프래그먼트 구성은 상기 노트 세그멘테이션 과정에서 구해진 노트분할 정보와, 제2특징정보 추출부(6)의 프레임별 노트 에너지 벡터 산출부/또는 과정(604)을 통해서 구해진 프레임별 노트 에너지 벡터를 이용해서 세그먼트별 노트 에너지 벡터의 산출부/또는 과정(801)에서 프레임별 노트 에너지 벡터의 평균을 구하여 세그먼트 노트에너지 벡터를 구하고, 이로부터 노트 프래그먼트 구성부/또는 과정(802)에서 노트 프래그먼트를 구성하게 된다.

노트 프래그먼트 구성은 다음의 식7과 같이 구한다.

여기에서 C값은 세그먼트 S_l에 포함되어 있는 프레임의 개수이며, l_s는 세그먼트의 시작 프레임 인덱스, l_e는 세그먼트의 끝 프레임 인덱스이다. 최종적으로 노트 에너지 벡터는 그 벡터의 요소 값의 평균으로 각 요소를 정규화 하여 구성한다.

그리고, 세그먼트에서 중요한 음들을 추출하는데 노트 에너지의 크기에 따라서 음악 클립일 경우에는 상위 7개 요소의 값을, 마이크를 통한 허밍 질의 입력일 경우에는 상위 3개의 값을 추출한다.

이와 같이 하여 멜로디 특징정보를 추출하였다. 상기한 멜로디 특징정보 추출부/또는 과정을 통해서 추출된 멜로디 특징정보는 음악 데이터 베이스로부터의 음악 데이터에 대한 것이거나, 입력된 질의 데이터에 대한 것이다.

따라서, 도1에 나타낸 바와 같이 음악 데이터 베이스(1)에 대하여 추출된 멜로디 특징정보인 경우에는 해당 데이터 베이스(3)에 저장하고, 입력 질의 데이터에 대한 멜로디 특징정보인 경우에는 검색부(5)에 제공됨으로써, 양자의 유사도 계산을 통해 검색 결과가 출력된다.

7. 유사도의 계산

유사도의 계산(similarity matching) 방법에 대해서 살펴본다. 유사도의 계산은 음악 멜로디 특징과 질의 멜로디 특징의 시간적인 차이, 부분적인 변이, 음악과 질의 입력의 전체적인 음 높이 차이 등을 고려하여 계산한다.

질의 데이터가 허밍일 경우에 허밍은 음악 클립과 전체 길이가 다르고, 부분적으로 음이 틀리거나 길이가 다르게 나타날 수 있으며, 또한 피치 추출 등의 과정에서 잘못된 음 정보가 추출되어 있을 수도 있다. 따라서 부분적인 오류를 허용하면서 시간적인 길이가 다르고 부분적으로 변화를 보이는 두 신호를 매칭하는 방법인 DP 매칭 (Dynamic Programming Matching) 방법을 사용한다. 또한 허밍과 음악 클립의 전체적인 음 높이 차이, 즉 피치 시프트(pitch shift)가 발생하므로, 행렬 요소의 유사도 값을 산출할 때 세그먼트 노트 에너지 벡터의 인덱스를 시프트 시키면서 DP 매칭한다.

DP 매칭은 다음과 같이 수행되며, 도7 및 도8을 참조한다.

두개의 시계열 R과 Q를 가정하고 그 길이를 각각 NR, NQ라고 하면, R과 Q는 각각 다음과 같이 나타낼 수 있다.

R = r₀,r₁,r₂,...,r_i,...,r_NR-1

Q = q₀,q₁,q₂,...,q_j,...,q_NQ-1

두 계열 R,Q를 정합하기 위해서 i행 × j열 행렬을 형성하는데, 피치 시프트가 ps일 때, 행렬의 (i번째, j번째) 요소는 유사도 값인 d_ps(r_i, q_j) 값을 나타낸다. 유사도 값은 다음의 식8과 같이 표현된다.

식8에서 행렬 요소 (i, j)는 각각 r_i와 q_j의 정합에 해당하며, 피치 시프트가 ps일 때의 정합 경로 C_ps는 R과 Q의 정합을 결정하는 연속적인 행렬 요소들의 집합으로 정의된다. 피치 시프트가 ps일 때의 정합 경로 C_ps의 k번째 요소는 c_ps,k=(i, j)로 정의되며, 따라서 다음과 같이 정합 경로 C_ps를 표현한다.

일정한 피치 시프트 ps일 때, 많은 정합 경로 C_ps가 존재할 수 있으나, 다음의 식9와 같이 정합 비용이 최소화되는 경로를 최적의 정합 경로로 선택한다.

식9에서 분모의 K_ps는 여러 정합 경로가 서로 다른 길이를 가지는 것을 보상하기 위한 것이다.

그리고, 여러 피치 시프트 값에 따라 산출한 최소 경로 비용의 최소 값으로 음악 멜로디 특징과 허밍 멜로디 특징의 유사도 값을 다음의 식10과 같이 결정한다.

여기서 정합비용의 합은 유사도를 의미하며, 상기한 정합비용이 작을수록 멜로디 특징정보 요소 사이의 차가 적기 때문에 질의 데이터와 대상 음악 데이터 사이의 유사도가 높다.

따라서, 이와 같이 하여 음악 메로디 특징과 질의 멜로디 즉, 허밍 멜로디 특징의 유사도값을 결정하고, 그 유사도 값이 가장 높은 순으로 음악 데이터를 정렬함으로써 사용자가 원하는 음악 데이터 검색 결과를 낼 수 있게 된다.

도7에서 격자의 교차점은 노트 프래그먼트를 표현하며, 가로축은 질의 데이터의 노트 프래그먼트를, 세로축은 음악 데이터의 노트 프래그먼트를 각각 표현하게 된다.

상기한 정합 경로 후보에서 최소 경로를 결정할 때에는 3방향 정합 경로 후보 또는 5방향 정합 경로 후보에서 최소 경로를 결정하는 방법을 실시할 수 있다.

3방향 정합 경로 후보에서 최소 경로를 결정할 때의 정합 경로는 다음의 식11과 같은 정합식에 의해서 구해진다.

그리고, 5방향 정합 경로 후보에서 최소 경로를 결정할 때의 정합 경로는 다음의 식12와 같은 정합식에 의해서 구해진다.

도8의 (a)는 3방향 정합 경로 후보의 예를 보여주며, 도8의 (b)는 5방향 정합 경로 후보의 예를 보여준다. 도8의 (a)에서는 현재 노트 프래그먼트에서 가로 및 세로와 대각선 방향의 인접한 노트 프래그먼트로의 3방향에 대한 정합 경로 후보를 보여주고 있으며, 도8의 (b)에서는 세로와 대각선 사이의 대각선 방향과, 가로와 대각선 사이의 대각선 방향(점선으로 표현하였다)을 포함하는 5방향에 대한 정합 경로 후보를 보여주고 있다.

지금까지 설명한 DP 매칭은 본 발명에서 다음과 같이 응용하여 유사도 계산이 이루어질 수 있다.

먼저, 유사도 측정 장치가 음악 멜로디 특징과 질의 멜로디 특징의 시간적인 차이, 부분적인 변이, 음악과 질의 입력의 전체적인 음 높이 차이 등을 고려하여 유사도를 측정함에 있어서, 상기한 멜로디 특징 추출의 수행 결과, 특히 구성된 노트 프래그먼트를 이용하여 DP 매칭을 수행한다.

또한, 유사도 측정 시 DP 매칭을 사용함에 있어서, DP 행렬의 요소를 상기 세그먼트를 표현하는 노트에너지 벡터로 표현된 음악 멜로디 특징과 질의 멜로디 특징의 벡터 간의 정규화된 유클리디안 거리를 이용하여 산출한다.

여기서, 상기 DP 행렬의 요소를 산출할 때, 피치 시프트된 특징 벡터를 이용한 거리를 이용하여 산출하고, 여러 가지의 피치 시프트 값에서 산출된 DP 행렬을바탕으로 DP 매칭을 하여 얻어진 여러 가지의 최소 비용 정합 경로 중에서 최소값을 내어주는 피치 시프트를 결정하고, 이 최소값을 음악 멜로디 특징과 질의 멜로디 특징의 유사도로 사용한다.

또한 DP 매칭을 이용한 유사도 계산에서, 상기 마이크를 통한 사용자의 허밍을 질의 입력으로 사용하고, 여러 가지 피치 시프트 값에서 DP 매칭을 수행하여 음악 멜로디 특징과 질의 입력 멜로디 특징의 유사도를 산출할 때, 피치 시프트 값을 보통 사용자가 가능한 최대 최저 피치 시프트 값으로 한정하여 검색할 수 있다.

또한 상기 유사도 측정 시 DP 매칭을 사용함에 있어서, 현재 정합점까지의 최소 비용 정합 경로를 구함에 있어서 3방향 경로의 최소값을 구하거나, 현재 정합점까지의 최소 비용 정합 경로를 구함에 있어서 5방향 경로의 최소값을 구하는 방법으로 DP 매칭을 사용할 수 있다.

또한, 상기 유사도 측정 시 DP 매칭을 사용함에 있어서, 전체 최소 비용 정합 경로를 구할 때, 그 비용을 비용 경로의 길이로 정규화하여 산출할 수 있다.

또는 상기한 바와 같이 현재 정합점까지의 최소 비용 정합 경로를 구함에 있어서 후보 방향 경로 비용을 현재 정합점까지의 정합 길이로 정규화하여 산출하는 방법을 사용할 수 있다.

이러한 DP 매칭 방법에 여러 가지 변형으로 성능을 향상시킬 수 있는데, 본 발명에서는 다음과 같은 DP 매칭의 변형을 사용하였다.

즉, 정합 윈도우를 사용하여 DP 행렬의 가장자리 부분을 정합하지 않고 매칭을 수행함으로써, 매칭 속도를 향상시킬 수 있다.

또한, 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도를 반영할 수 있는 유사도 산출 방법을 사용할 수 있다. 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도를 측정하는 데에는 최소 비용 경로의 길이를 음악 멜로디 특징의 길이와 질의 멜로디 특징의 길이의 합으로 나눈 값을 사용한다. 이러한 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도를 측정하는 값은 상기에서 산출한 최소 비용 정합 경로의 비용 값에 더하거나 곱해서 사용할 수 있다.

한편, 5방향의 정합 스텝 패턴을 사용하여 부분적으로 오류가 있는 유사도 값의 요소를 건너뛰어 매칭할 수 있도록 한다. 또는 수직, 수평 정합 스텝 패턴이 2회 이상 반복적으로 나타나지 않게 함으로써 대각선에서 크게 벗어나는 정합을 수행하지 않도록 한다.

지금까지 설명한 DP 매칭 방법을 사용해서 구하여진 유사도 값을 이용하여 가장 유사한 세그먼트를 포함하는 곡부터 차례대로 일정한 개수 이상을 검색결과로 출력함으로서, 멜로디 기반의 음악 검색이 이루어지게 된다.

본 발명은 음악적 정보가 수동으로 미리 추출되어 있는 음악 데이터 베이스를 대상으로 하지 않고, 음악적인 정보에 상응하는 정보를 보통의 음악 클립으로부터 자동 추출하여 검색에 사용함으로써, 사용자들이 흔히 접할 수 있는 음악 데이터들에 대하여 다른 부가적인 데이터 즉, 수동으로 인덱싱된 음악적 정보를 사용하지 않고 멜로디 기반 음악 데이터 검색을 할 수 있는 방법과 검색 장치를 제공하였다.

Claims

음악 데이터의 멜로디 특징을 음악으로부터 자동으로 추출하여 멜로디 특징 데이터 베이스를 구성하고, 질의로 입력되는 음악의 멜로디 특징을 자동으로 추출하여 이 추출된 질의 음악 멜로디 특징과 상기 멜로디 특징 데이터 베이스의 멜로디 특징의 유사도를 비교하여 음악 데이터를 검색하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 스펙트로그램 구성, 부분음 개선, 하모닉 합산, 프레임별 노트 에너지 벡터의 산출, 노트 경계의 분할, 노트 프래그먼트 구성 과정을 포함하여 이루어지는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 질의는 사용자에 의한 허밍음이나 노래로 입력된 멜로디 질의, 다른 음악 파일을 선택하여 입력된 멜로디 질의, 키보드나 기호 입력수단을 통해서 멜로디를 표현하는 기호열로 입력된 멜로디 질의, 멜로디를 표현하는 기호열이 저장되어 있는 파일을 선택하여 입력된 멜로디 질의의 형태로 입력되는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 스펙트로그램 구성 과정을 포함하고, 스펙트로그램 구성을 할 때 FFT를 사용해서 오디오 프레임 크기의 절반을 시간적으로 중첩하여 처리하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 부분음 개선 과정을 포함하고, 뚜렷한 부분음을 추출해 내기 위해서 현재 FFT 인덱스와 주위 FFT 인덱스의 에너지 값의 차이를 평균하여 부분음을 개선하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 5 항에 있어서, 상기 뚜렷한 부분음을 추출해 내기 위해서 현재 FFT 인덱스와 주위 FFT 인덱스의 에너지 값의 차이를 평균하여 부분음을 개선할 때, FFT를 수행하기 전에 가해지는 윈도우의 메인로브 크기로 평균할 주의의 인덱스 개수를 결정하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 하모닉 합산 과정을 포함하고, 하모닉 합산을 위하여, 개선된 부분음을 주파수 영역에서 등 간격으로 에너지를 합산하여 프레임별 피치값을 추출하거나, 합산된 부분음의 수로 합산 값을 정규화 하거나, 합산의 고려 대상을 FFT 크기의 절반 보다 작게 설정하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 프레임별 노트 에너지 벡터 산출과정을 포함하고, 음악의 표준 음계 대역별로 하모닉 합산한 값을 구하여 노트 에너지 벡터 산출이 이루어지는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 8 항에 있어서, 상기 노트 에너지 산출을 위하여, 노트 대역 경계에서의 에너지 값을 FFT 인덱스에서의 에너지 값을 이용하여 보간(interpolation)하여 사용하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 노트 경계의 분할 과정을 포함하고, 노트 경계의 분할을 위하여, 개선된 부분음의 프레임별 에너지의 극소점들 중에서 일정한 프레임 간격 내에서의 최소점이 극소점이 되는 점들을 세그먼트의 경계점으로 선택하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 멜로디 특징정보의 추출은 특징정보를 추출할 데이터의 노트 프래그먼트 구성 과정을 포함하고, 노트 프래그먼트 구성을 위하여, 노트 경계점 내의 노트 에너지 벡터를 요소별로 평균하고 여러 개의 극대값들을 추출하여 세그먼트를 표현하는 노트 에너지 벡터를 구하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 11 항에 있어서, 상기 노트 프래그먼트를 구성하기 위하여 세그먼트를 표현하는 노트 에너지 벡터를 산출할 때, 노트 에너지 벡터의 요소 값들의 평균으로 각 요소값을 나누어 노트 에너지 벡터를 산출하거나, 노트 프래그먼트를 구성할 때 음악 데이터 보다 질의 입력에 대하여 더 적은 수의 극대값들을 추출하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 1 항에 있어서, 상기 음악 데이터의 멜로디 특징과 질의 멜로디 특징의 유사도 계산은, 양자의 시간적인 차이, 부분적인 변이, 음악과 질의 입력의 전체적인 음 높이 차이 등을 고려하여 유사도를 측정하거나, 질의와 대상 멜로디 특징정보로서 구성한 노트 프래그먼트를 이용하여 DP매칭을 통해서 이루어지는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 13 항에 있어서, 상기 유사도 측정을 위한 DP 매칭은, DP 행렬의 요소를 세그먼트별 노트 에너지 벡터로 표현된 음악 멜로디 특징과 질의 멜로디 특징의 벡터 간의 정규화된 유클리디안 거리를 이용하여 산출하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 13 항에 있어서, 상기 유사도 측정을 위한 DP 매칭은, 전체 최소 비용 정합 경로를 구할 때, 그 비용을 비용 경로의 길이로 정규화하여 산출하거나, 후보방향 경로 비용을 현재 정합점까지의 정합 길이로 정규화하여 산출하는 것을 특징으로 하는 멜로디 기반 음악 검색방법.
제 13항에 있어서, 상기 유사도 측정 시에 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도를 반영하여 유사도를 산출하고, 이 때 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도로서 최소 비용 경로의 길이를 음악 멜로디 특징의 길이와 질의 멜로디 특징의 길이의 합으로 나눈 값을 사용하고, 이러한 최소 비용 정합 경로가 대각선 정합 경로에서 벗어나는 정도를 측정하는 값을 상기에서 산출한 최소 비용 정합 경로의 비용 값에 더하거나 곱해서 사용하는 것을 특징으로 하는 멜로디 기반 음악 검색 방법
음악 데이터베이스로부터 검색 대상이 되는 음악 데이터의 멜로디 특징을 추출하는 음악 데이터 멜로디 특징 추출수단과, 질의로 입력되는 데이터의 멜로디 특징을 추출하는 질의 멜로디 특징 추출수단과, 상기 질의 멜로디 특징과 음악 멜로디 특징 데이터 베이스의 멜로디 특징의 유사도를 측정하는 유사도 측정수단을 포함하여 이루어지는 것을 특징으로 하는 멜로디 기반 음악 검색장치.
제 17 항에 있어서, 상기 음악 데이터 멜로디 특징 추출수단에 의해서 추출된 음악 멜로디 특징정보를 저장하는 멜로디 특징 데이터 베이스를 더 포함하고, 상기 멜로디 특징 데이터 베이스는 하나의 컴퓨터 저장장치나, 분산되고 연결된 다수개의 컴퓨터 저장장치, 음악 재생장치에 부가된 저장장치 등을 포함하는 저장장치로 구성되어 음악 데이터의 멜로디 특징을 자동으로 추출하여 특징 데이터 베이스를 구축하는 것을 특징으로 하는 멜로디 기반 음악 검색장치.
제 17 항에 있어서, 상기 음악 멜로디 특징 추출수단과 질의 멜로디 특징 추출수단은, 입력된 음의 스펙트로그램을 구성하는 스펙트로그램 구성수단, 상기 스펙트로그램으로부터 부분음 개선을 수행하는 부분음 개선수단, 상기 개선된 부분음으로부터 하모닉 합산을 수행하는 하모닉 합산수단, 상기 합산된 하모닉 합산정보를 이용해서 프레임별 노트 에너지 벡터를 산출하는 노트 에너지 벡터 산출수단, 상기 개선된 부분음을 이용해서 노트 경계를 분할하는 노트 세그멘테이션 수단, 상기 노트 경계정보와 프레임별 노트 에너지 벡터를 이용해서 노트 프래그먼트를 구성하는 노트 프래그먼트 구성수단을 포함하여 이루어지는 것을 특징으로 하는 멜로디 기반 음악 검색장치.