KR20050053903A - 허밍과 음성인식을 이용한 음악정보검색방법 - Google Patents

허밍과 음성인식을 이용한 음악정보검색방법 Download PDF

Info

Publication number
KR20050053903A
KR20050053903A KR1020030087153A KR20030087153A KR20050053903A KR 20050053903 A KR20050053903 A KR 20050053903A KR 1020030087153 A KR1020030087153 A KR 1020030087153A KR 20030087153 A KR20030087153 A KR 20030087153A KR 20050053903 A KR20050053903 A KR 20050053903A
Authority
KR
South Korea
Prior art keywords
humming
database
music information
pitch
information retrieval
Prior art date
Application number
KR1020030087153A
Other languages
English (en)
Inventor
정현열
허성필
석수영
Original Assignee
학교법인 영남학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 영남학원 filed Critical 학교법인 영남학원
Priority to KR1020030087153A priority Critical patent/KR20050053903A/ko
Publication of KR20050053903A publication Critical patent/KR20050053903A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 허밍과 음성인식을 이용한 음악정보검색방법에 관한 것으로서, 입력 음악 정보로서 멜로디를 허밍을 이용하여 입력하고,시스템이 입력된 허밍으로부터 노트를 검출하고, 음 길이와 신뢰도 측정에 따른 다중 피치들의 특징을 추출하여 유사성(similarity) 측정 엔진에서는 추출된 특징을 이용하여 허밍과 데이터베이스 사이의 유사성을 측정한 후, 질의(query)엔진은 데이터베이스와 해당되는 허밍을 매칭시키기 위하여 동적 프로그래밍(DP:dynamic Programming,DP)을 수행하고, 그 결과로서 데이터베이스에 포함된 멜로디 중 가장 가까운 매칭 거리를 가지는 멜로디가 선택하는 허밍과 음성인식을 이용한 음악정보검색방법에 있어서;상기 데이터베이스와 허밍 사이의 매칭은 3 차원의 연속 DP를 이용하여 수행하며, 이 방법에서 스팬(span)과 다중 피치 후보를 이용하여 데이터베이스와 허밍 사이의 최적 배열을 계산하는 것을 특징으로 한다.

Description

허밍과 음성인식을 이용한 음악정보검색방법{Music information retrieval method using humming and speech recognition}
본 발명은 허밍과 음성인식을 이용한 음악정보검색방법에 관한 것으로서 허밍(Humming)과 음성인식을 이용한 음악 정보 검색의 최적화된 방법을 제공함으로서 다양한 용도의 목적으로 사용이 가능한 방법을 제공하는 것을 기본적인 특징으로 한다.
허밍을 이용한 음악 정보 검색은 사용자가 멜로디를 다양한 종류의 검색시스템으로 입력할 수 있는 가장 쉬운 방법 중 하나지만, 현재까지 허밍을 이용한 정보 검색은 여러 가지 문제점이 있어 고정도를 가지는 정보 검색 시스템 구현에는 어려움이 있다.
이러한 문제점 중 한가지는 사용자들이 허밍을 이용하여 멜로디를 흥얼거릴 때 음의 높이나 빠르기와 같은 음악적 정보가 정확하지 않다는 것이며 특히 처음 접하는 음악 등은 음의 높이나 음의 길이 등을 정확하게 표현할 수 없다는 것이다.
또 다른 문제점은 이러한 허밍에 의해 발생되는 신호 처리가 어렵다는 것이다. 따라서, 허밍을 이용한 음악 정보 검색은 이러한 허밍 신호처리와 다양한 허밍 오류에 대한 적응력이 높아야 한다.
또한, 음악 정보 검색 시스템에 이용되는 특징벡터로서 사용자의 허밍으로부터 추출된 피치 정보를 이용할 수 있다.
하지만 현재까지 알려진 피치 추출 방법으로는 정확한 피치 추출을 할 수 없고, 이러한 원인은 시스템의 성능감소를 초래 한다.
따라서, 상술하는 문제점들을 고려하여 안출된 본 발명의 허밍과 음성인식을 이용한 음악정보검색방법에서는 다중 피치 후보를 이용하는 음악 정보 검색 시스템을 제안한다.
또, 피치 후보의 에너지로부터 계산되는 신뢰도 측정(Confidencemeasure)을 고려하고, 다중 피치 후보를 다루기 위하여 일반적인 동적 프로그래밍(DP:dynamic Programming, 이하 DP 라 함) 알고리즘의 확장을 제안한다.
이 방법에서 DP 의 패스(path)는 노트(note)가 삽입되고 삭제되는 것을 고려하여 입력과 참조 노트의 주파수와 상대적인 길이에 따라 동적으로 변한다.
또한, 음악 데이터베이스 검색을 위한 노래 제목, 가수 이름 등을 입력하기 위하여 음성인식을 이용한다. 이를 이용하는 경우 키패드형식의 입력방식에 비해 고속으로 검색이 가능하다.
성능평가를 위하여 기존 방법과 본 발명의 방법의 비교 실험을 실시하였으며, 실험결과, 제안한 방법이 일반적인 방법보다 향상된 음악 정보 검색 성능을 나타내었다.
일반적인 음악 정보 검색 시스템(Music Information Retrieval System;MIRS)에서 검색의 중요한 열쇠는 가수나 작곡가, 혹은 제목등과 같은 텍스트 정보이다.
하지만 최근에는 정보 검색의 열쇠로서 허밍(Humming)을 이용하여 음악 정보를 검색하는 시스템들이 많이 연구되고 있다.
허밍을 이용한 정보 검색 시스템의 예로는 기아스(Ghias) 등이 제안한 허밍에 의한 질의 시스템(query-by-humming system)등이 있으며, 맥나브(McNab) 등에 의한 심파인더(the Themefinder), 튠서버(the TuneServer), 미디랩(the MiDiLiB), 슈펴엠박스(the Super MBox) 등과 같은 시스템들도 연구가 되고 있다.
이러한 종래의 시스템에서는 다양한 멜로디 표현과 매칭 방법이 이용되었으며, 음악 정보로서는 스팬(span:음길이)과 사용자의 허밍으로부터 추출되는 피치 정보가 이용되었다.
음악 정보 검색 시스템(MIRS)를 구현하기 위해서 고려되어야 할 문제점들로는 개인마다 틀린 음높이나 빠르기와 같은 개인적인 특성이 있으며, 허밍에 포함되는 노트의 본인의 자의적인 삽입이나 삭제와 같은 가창실수(singing errors)도 있다.
또 다른 문제로는 허밍질의(hummed queries)가 완벽하더라도 허밍 신호를 멜로디 매칭에서 이용되는 음악 표기로 100% 정확히 변환하기 어렵다는 점이다.
이러한 문제점을 해결하기 위해서는 음악적으로 적절한 매칭 방법과 허밍 멜로디의 효과적 표현방법이 필요하다. 따라서, 이벤트검출(event detection), 특징 추출, 멜로디 표현, 멜로디 매칭 등과 같은 단계에서의 문제점 해결은 효과적이고 신뢰할 수 있는 음악 정보 검색 시스템(MIRS)의 구현하기 위해 필수적으로 해결해야 할 문제들이다.
이하의 부수된 도면과 함께 본 발명의 허밍과 음성인식을 이용한 음악정보검색방법을 종래의 방법과 비교하여 더욱 상세하게 설명한다.
도 1 은 본 발명이 적용되는 음악정보검색방법을 도시하는 개략적인 설명도, 도 2 는 본 발명을 설명하기 위한 참고도로서 이벤트검출의 오류가 발생한 예를 도시하는 그래프, 도 3 은 결하된 필터 처리에 의한 이벤트검출을 도시하는 설명도, 도 4 는 복수의 피치의 지원자와 컨피던스 측저의 추출흐름도, 도 5 는 피치 추출비를 평가를 도시하는 도표, 도 6 a, b 는 각각 종래의 방법과 본 발명의 방법에 의한 분리가 발생하는 경우의 상대적인 피치 값 변환법을 도시하는 설명도, 도 7 은 분리 또는 누락이 발생하는 경우의 상대적인 스팬값의 변환법을 설명하는 설명도, 8 은 국부패스제한과 가중치를 도시하는 설명도, 도 9 는 3차원 연속 DP 알고리즘을 설명하는 수식도, 도 10 은 삼차원 여녹 DP 알고리즘을 사용하는 매칭흐름의 예를 도시하는 설명도, 도 11 은 검색정확도를 도시하는 도식, 도 12 는 본 발명을 설명하기 위한 실험의 실험조건을 도시하는 도표, 도 13 은 다양한 특성에 의한 정확도의 비교도표이다.
도 1 에 일반적인 음악 검색 시스템을 간략하게 나타낸다.
이벤트검출(event detection), 특징 추출, 멜로디 표현, 유사성 측정 모듈 등으로 구성되어 있다.
도 1 에서 먼저, 사용자는 입력 음악 정보로서 멜로디를 허밍을 이용하여 입력한다. 시스템은 입력된 허밍으로부터 노트를 검출하고, 음 길이와 신뢰도 측정에 따른 다중 피치들의 특징을 추출한다.
유사성(similarity) 측정 엔진에서는 추출된 특징을 이용하여 허밍과 데이터베이스 사이의 유사성을 측정한다.
질의(query)엔진은 데이터베이스와 해당되는 허밍을 매칭시키기 위하여 DP를 수행하고, 그 결과로서 데이터베이스에 포함된 멜로디 중 가장 가까운 매칭 거리를 가지는 멜로디가 선택된다.
마지막으로 선택된 멜로디의 순위 리스트가 화면에 표시되고, 곡 이름과 시간적 위치를 가지고 있는 멜로디 리스트가 검색 결과로 표현된다.
한편, 현재까지의 피치 추출은 정확하지 못하므로 이러한 오류로 인하여 검색 성능은 저하된다.
이 문제를 위하여 본 발명에서는 다중 피치 후보를 이용하는 방법을 제안한다. 또한, 피치추출이 정확하더라도 불분명한 멜로디나 정확하지 않은 음정 등에 의해 사용자의 허밍에 포함된 오류 등의 문제점도 있었다.
본 발명에서는 이러한 문제를 위하여 새로운 매칭 방법을 제안하는바, 이를 위하여 데이터베이스와 허밍 사이의 매칭은 3 차원의 연속 DP를 이용하여 수행하며, 이 방법에서 스팬(span)과 다중 피치 후보를 이용하여 데이터베이스와 허밍 사이의 최적 배열을 계산한다.
이벤트검출의 목적은 각 노트의 음향학적 신호에서 온셋(onset)과 오프셋(offset)의 경계를 식별하는 것이다. 입력 허밍의 분할된 노트로부터 적절한 문턱치를 이용하여 한 구간(note)을 검출하는 것은 가능하다.
하지만, 2개나 3개의 노트들은 한 개의 노트로 인지될 수 있고, 한 개의 노트는 2개나 3개의 노트로 판단될 수도 있다. 결과적으로 이러한 이벤트검출 오류는 검색 정확도의 저하를 초래한다.
도 2 에서 이러한 이벤트 검출의 오류 예를 나타낸다.
섹션 A와 C에서 2개나 3개의 노트가 한 섹션으로 합쳐진다. 반대로 B에서는 한 개의 노트가 2개의 섹션으로 나눠진다. 따라서, 스팬과 피치의 정확한 추출을 위하여 정확한 노트의 분할이 필요하다.
본 발명에서는 고정도의 이벤트검출을 위하여 에너지 차이를 관측하였으며, 허밍 방법을 /ta/ 나 /cha/로 제한하여 실험하였다.
허밍 방법의 제한 때문에 파열음 /t/와 유성음 /a/사이의 경계를 검출할 수 있다. 또, 정확한 이벤트 검출을 얻기 위하여 디퍼런셜필터(differential filter)를 이용하여 각 프레임에서의 에너지 변화를 관측하고, 호홉음의 검출을 피하기 위해서 밴드패스필터(band pass filter)를 이용한다.
도 3 에 이벤트 검출 방법의 순서도를 나타낸다.
이벤트검출 단계로부터 스팬은 각 노트의 시작 시간부터 다음 노트의 시작시간까지를 취하며, 피치는 모음의 프레임 중간에서 추출된다.
피치는 음의 높고 낮음을 느끼게 해주는 음의 특성이다. 허밍을 이용한 입력에 피치 추출 방법이 적용되나 정확도는 그리 높지 않다. 하지만 정확한 피치 추출은 시스템의 성능에 많은 영향을 끼치므로, 본 발명에서는 검색 성능의 향상을 위하여 다중 피치 후보를 고려한다.
이하에서 피치 추출을 위한 방법을 설명하고 추출 방법의 정확도를 평가하기 위한 실험결과를 보인다.
[다중피치 후보추출]
피치 추출은 켑스트럼 분석에 근거한다. 도 4 에 피치 추출의 기본 순서도를 나타낸다.
첫째로 FFT를 이용하여 파워 스펙트럼이 입력 신호로부터 얻어지고 여기에 로가리즘(logarithm) 과 IFFT가 적용된다.
다음으로 기본 주파수에 존재하는 켑스트럼 피크(peak)가 피치의 후보로서 선택된다.
마지막으로 피크의 큐프런시(quefrencies)가 피치 주파수로 변환된다.
다중 피치 후보는 특징추출에서 질의엔진으로 보내지며, 각 켑스트럼 피크의 에너지로부터 신뢰도 측정이 계산된다. 이러한 신뢰도 측정은 최상위 후보의 에너지에 의해 분할된 피크의 에너지이다.
피치 추출의 정확도는 추출 결과와 실제 피크 값과의 비교에 의해 평가된다. 여기서 비교를 위하여 수작업으로 수행된 레이블링이 이용된다.
도 5 의 도표에 3개의 피치 후보가 고려되었을 경우의 피치 추출 정확도를 나타낸다.
대부분의 프레임으로부터 정확하지 않은 하모닉주파수(실제 피치의 반이나 두배의 피치)가 추출되지만 3개의 피치 후보를 이용하였을 경우 정확도 는 99.7%이며, 이로부터 3 개의 피치 후보가 특징 벡터로서 충분하다는 것을 확인할 수 있다.
[멜로디 표현법]
사용자가 허밍을 입력할 때, 음의 높이와 빠르기는 데이터베이스에 포함된 참조 패턴과 다를 수 있으므로, 허밍 데이터는 정규화될 필요가 있다.
일반적인 멜로디 표현 방법에서는 연속되는 노트에 대응되는 상대적인 스팬비와 상대적인 피치 비를 이용하여 허밍 데이터를 정규화 한다.
이러한 상대적인 피치 값은 센트(cent)로 표현되고, 센트는 반음(semitone)의 1/100 에 해당되는 피치 단위이다.
노트의 삽입과 삭제가 발생할 때 이러한 상대적인 값은 변하며, 도6 a,b 에 예를 보인다. 도 65 에서 노트 솔(SOL)은 허밍데이터에서 두개의 솔로 인식된다. 데이터베이스에서 상대적 피치 열은 {200,300}이지만, 허밍으로부터 얻어진 열은 {200,300,0}이다. 그러므로, 이 열들 사이의 거리는 300cent가 된다.
이러한 비매칭은 상대적 피치의 계산이 노트의 삽입과 삭제 가능성을 고려하지 않았기 때문이다. 그러므로 이러한 비매칭을 위한 멜로디 표현 방법이 필요하고 이를 위하여 본 발명에서는 새로운 멜로디 표현 방법을 제안한다.
허밍에서 이전 노트와는 분리된 한 노트가 매칭 되었다고 가정하면, 현재 노트의 상대적 피치가 현재 노트 이전의 두 번째 노트에 대하여 계산된다.
그러면, 허밍에서 마지막 노트의 상대적 피치는 SOL/MI= 300 cent 대신에 SOL/SOL = 0 가 된다. 이러한 방법이 삭제의 경우에도 적용된다.
스팬의 경우에는 단지 노트를 바꾸는 것으로 해결되지는 않는다.
도 7 에 데이터베이스에서 노트 m3 과 m4가 허밍에서 분리되거나 합쳐지는 경우를 나타낸다. 데이터베이스의 m3과 m4가 한 노트(HUM sequence A)로서 허밍되었을 때, 상대적 span은 m4/m2 대신에 a3/a2 와 비교되어야 한다.
동일한 방법으로 데이터베이스의 m3가 두 노트(HUM sequence B)로서 허밍되었을 때 데이터베이스의 m3/m2 에 대응되는 b3'+b3'' / b2 가 필요하다. 상대적 span비를 취할 때, 실제 span비는 분할이나 합체의 가정에 따라 결정된다.
[3차원 연속 DP 알고리즘]
허밍으로부터 얻어지는 특징과 데이터베이스의 참조 특징은 연속 DP를 이용하여 매칭된다.
여기서, 질의 엔진은 신뢰도 측정과 함께 다중 피치 후보가 이용될 수 있도록 확장되어야 하며, DP 도 수정되어야 한다. 또, 상대적 노트는 노트의 분할과 합체를 고려하여 동적으로 계산되어야 한다. 그러므로 DP방법은 도 9 의 식 (1)과 같이 정의되고 3차원으로 확장된다.
여기서, g(i, j[k]) 는 j번째 허밍 노트와 i번째 음악 노트에서 k 번째 피치 후보 값의 누적 거리이다.
이 스코어는 신뢰도 측정과 span스코어의 가중 합계이며, pz(i, j[k,l])는 피치에서 특정 거리에 할당되는 가중치가 되고, cz(j[k,l]) 는 파워 값으로부터 얻어지는 신뢰도 측정이며, sz(i, j)는 거리에 할당되는 가중치이다. 또, 식 (2)에서 dz(z=1,2,3)는 도 8 에서 국부패스제한에 해당된다.
α, β 는 피치, 신뢰도 측정과 스팬의 상대적 기여도를 반영하기 위해 변경될 수 있다. 즉,α= 1 와 β = 1 일 때, 가중 기여도는 단지 피치에만 근거하고, 반대로, β 가 0일 때, 가중 기여도는 단지 스팬에만 근거한다. 여기서 pz, cz, 와 tz 는 다음과 같이 정의하고, mid (*) 와 hum (*) 는 허밍 열과 데이터베이스의 열이다.
일반적인 DP매칭에서 한 점 dz(i, j)에서의 값은 DP 패스에 독립이며, 단지 i 와 j에만 의존한다.
하지만 제안된 식 (2)에서 같은 점 d(i, j) = dz 는 패스에 따라 변하게 되고, 이것은 상대적 피치와 상대적 스팬을 가지는 노트가 변할 수 있기 때문에 다른 DP 패스에 대응하는 노트를 바꾼다.
도 10 에 3차원으로 확장된 매칭 방법을 나타낸다. 허밍은 3차원으로 확장된 DP면에서 데이터베이스와 매칭된다.
허밍을 데이터베이스와 매칭시킬때, 제안한 방법에서는 모든 후보점에서의 조합을 계산하고, 도 10 에서 보인 것처럼 최적 점과 패스를 결정한다.
[음성인식을 이용한 검색정보 입력]
허밍 정보로부터의 검색뿐만 아니라 기타 부가적인 정보입력을 위해 음성인식을 이용한 곡명, 가수 이름 및 기타 부가 정보입력을 이용한다.
음성인식을 이용한 부가 정보 입력은 기존의 캐패드 번호 입력 방식에 비해 고속으로 편리한 입력이 가능하고, 허밍 검색 정보와 더불어 대용량의 데이터베이스검색의 정도를 향상시킬 수 있다.
[실험결과]
본 발명의 방법의 성능을 평가하기 위해, 음악 검색 실험을 실시하였다. 이 실험에서 고정도의 이벤트 검출을 하기 위하여 허밍의 에너지 변화를 관측하였으며, 정확한 이벤트 검출을 얻기 위하여, 디퍼런셜필터와 밴드패스필터를 이용하였다.
또, 스팬은 각 노트의 시작시간으로부터 다음 노트의 시작시간까지의 길이로서 취해졌으며, 피치는 각 노트의 간격의 중심 프레임으로부터 추출되었다.
다음으로 기존 음악 검색 시스템을 평가하였으며 검색결과를 제안한 방법과 비교하였다. 일반적인 시스템에서는 동적 문턱치를 이용하며, 동적 문턱치는 모든 테스트 허밍 데이터를 이용하여 정해진다. 상대적 피치 값은 세미톤(semitone)차를 100으로 하고, 상대적 스팬값을 비율로 표현하기 위하여 정규화 하였다.
시스템의 성능은 검색정확도를 이용하여 비교되므로, 검색 정확도는 검색 방법을 평가하기 위한 중요한 요소이다. 검색 정확도 A는 도 11 의 식으로 계산된다.
여기서 Q 는 질의의 수를 표시하고 ni(R)는 동일한 비에서 후보로 고려되는 질의 i의 순의 R 안에 있는 후보의 수이다. 예로서, 3개의 후보가 동일한 최고 스코어를 가지고 이 후보들 중 하나가 목표라면, ni(1)=3 과 Ti(1)=1/3 이 된다.
[실험조건]
도 12 에 실험조건을 나타냈으며, 실험에서 한 허밍 데이터의 평균 노트의 수는 9.8이고, 평균 허밍 시간은 4.6초이다. 실험에서 가중된 값(α,β)는 0에서 1까지 0.1단위로 변경시키면서 실험을 수행하였다.
피치 (m)은 m 다중 피치 후보의 이용을 참조한다. 실험결과, 다중 피치 후보를 이용하여 1st 순위의 정확도와 검색 정확도가 향상되었다. 3개의 피치 후보를 이용하였을 때 첫 번째 순위의 정확도는 86.5 %이다. 또, 카테고리 27과 제안된 방법(스팬+피치(2)과 신뢰도 측정)을 비교한 경우 검색 정확도는 81.6%에서 86.5로 향상되었다.
본 발명에서 음악 정보 검색을 위한 새로운 방법을 제안하였다.
본 발명에서는 유사성 측정 방법이 질의 과정에서 피치 오류에 신뢰성을 증대하기 위하여 3차원으로 DP면의 탐색공간을 확장하였으며, 이것은 다중 피치 후보의 신뢰도 측정사용자의 허밍에는 개인마다 다른 빠르기, 다른 음 높이 등의 개인 특성과 노트의 삽입과 삭제와 같은 노래 오류 등을 포함하고 있다.
이러한 문제를 고려하여 본 발명에서는 DP 패스에 따라 동적으로 결정되는 최적 이웃 노트에 대응되는 상대적 비를 이용하여 노트를 표현하였다.
또한, 허밍 질의가 완벽하더라도 허밍 질의로부터 정확하게 피치를 추출하는 것은 어렵다. 따라서, 피치 오류를 고려하여 다중 피치 후보의 이용을 제안하였으며, 본 발명의 방법을 이용하여 3번째 순위에서 피치 추출 정확도를 평가한 결과 99.7%의 정확도를 보였다. 또, 다중 피치 후보를 다루기 위하여 3차원 연속 DP로 검색 방법을 확장하였다.
전체 320질의를 가지는 155곡의 데이터을 대상으로 검색 정확도 측정을 이용하여 제안한 방법을 평가한 결과 본 발명의 방법이 기존 방법에 비해 향상된 효과를 보여주었다.
도 1 은 본 발명이 적용되는 음악정보검색방법을 도시하는 개략적인 설명도.
도 2 는 본 발명을 설명하기 위한 참고도로서 이벤트검출의 오류가 발생한 예를 도시하는 그래프.
도 3 은 결합된 필터 처리에 의한 이벤트검출을 도시하는 설명도.
도 4 는 복수의 피치의 지원자와 컨피던스 측저의 추출흐름도.
도 5 는 피치 추출비를 평가를 도시하는 도표.
도 6 a, b 는 각각 종래의 방법과 본 발명의 방법에 의한 분리가 발생하는 경우의 상대적인 피치 값 변환법을 도시하는 설명도.
도 7 은 분리 또는 누락이 발생하는 경우의 상대적인 스팬값의 변환법을 설명하는 설명도.
도 8 은 국부패스제한과 가중치를 도시하는 설명도.
도 9 는 3차원 연속 DP 알고리즘을 설명하는 수식도.
도 10 은 삼차원 여녹 DP 알고리즘을 사용하는 매칭흐름의 예를 도시하는 설명도.
도 11 은 검색정확도를 도시하는 도식.
도 12 는 본 발명을 설명하기 위한 실험의 실험조건을 도시하는 도표.
도 13 은 다양한 특성에 의한 정확도의 비교도표이다.

Claims (5)

  1. 입력 음악 정보로서 멜로디를 허밍을 이용하여 입력하고,시스템이 입력된 허밍으로부터 노트를 검출하고, 음 길이와 신뢰도 측정에 따른 다중 피치들의 특징을 추출하여 유사성(similarity) 측정 엔진에서는 추출된 특징을 이용하여 허밍과 데이터베이스 사이의 유사성을 측정한 후, 질의(query)엔진은 데이터베이스와 해당되는 허밍을 매칭시키기 위하여 DP를 수행하고, 그 결과로서 데이터베이스에 포함된 멜로디 중 가장 가까운 매칭 거리를 가지는 멜로디가 선택하는 허밍과 음성인식을 이용한 음악정보검색방법에 있어서;
    상기 데이터베이스와 허밍 사이의 매칭은 3 차원의 연속 동적 프로그래밍(DP:dynamic Programming)을 이용하여 수행하며, 이 방법에서 스팬(span)과 다중 피치 후보를 이용하여 데이터베이스와 허밍 사이의 최적 배열을 계산하는 것을 특징으로 하는 허밍과 음성인식을 이용한 음악정보검색방법.
  2. 제 1 항에 있어서;
    상기 피치의 다중 피치 후보를 이용하는 것을 특징으로 하는 허밍과 음성인식을 이용한 음악정보검색방법.
  3. 제 1항에 있어서;
    상기 방법에서 DP 의 패스(path)는 노트(note)가 삽입되고 삭제되는 것을 고려하여 입력과 참조 노트의 주파수와 상대적인 길이에 따라 동적으로 변하는 것을 특징으로 하는 허밍과 음성인식을 이용한 음악정보검색방법.
  4. 제 1 항에 있어서;
    정확한 상기 이벤트검출을 얻기 위하여 디퍼런셜필터(differential filter)를 이용하여 각 프레임에서의 에너지 변화를 관측하고, 호홉음의 검출을 피하기 위해서 밴드패스필터(band pass filter)를 이용하는 것을 특징으로 하는 허밍과 음성인식을 이용한 음악정보검색방법.
  5. 제 1 항에 있어서;
    상기 질의 엔진은 신뢰도 측정과 함께 다중 피치 후보가 이용될 수 있도록 확장되어야 하며, DP 도 수정되며, 상대적 노트는 노트의 분할과 합체를 고려하여 동적으로 계산되어지는 것을 특징으로 하는 허밍과 음성인식을 이용한 음악정보검색방법.
KR1020030087153A 2003-12-03 2003-12-03 허밍과 음성인식을 이용한 음악정보검색방법 KR20050053903A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030087153A KR20050053903A (ko) 2003-12-03 2003-12-03 허밍과 음성인식을 이용한 음악정보검색방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030087153A KR20050053903A (ko) 2003-12-03 2003-12-03 허밍과 음성인식을 이용한 음악정보검색방법

Publications (1)

Publication Number Publication Date
KR20050053903A true KR20050053903A (ko) 2005-06-10

Family

ID=37249307

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030087153A KR20050053903A (ko) 2003-12-03 2003-12-03 허밍과 음성인식을 이용한 음악정보검색방법

Country Status (1)

Country Link
KR (1) KR20050053903A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100695149B1 (ko) * 2005-05-09 2007-03-14 삼성전자주식회사 지식기반 음악검색 방법 및 장치와 그 장치의 음악파일관리 방법 및 장치
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device
US9012755B2 (en) 2008-01-07 2015-04-21 Samsung Electronics Co., Ltd. Method and apparatus for storing/searching for music

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100695149B1 (ko) * 2005-05-09 2007-03-14 삼성전자주식회사 지식기반 음악검색 방법 및 장치와 그 장치의 음악파일관리 방법 및 장치
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device
US9012755B2 (en) 2008-01-07 2015-04-21 Samsung Electronics Co., Ltd. Method and apparatus for storing/searching for music

Similar Documents

Publication Publication Date Title
EP1397756B1 (en) Music database searching
Serra et al. Chroma binary similarity and local alignment applied to cover song identification
Joder et al. A conditional random field framework for robust and scalable audio-to-score matching
Rocher et al. Concurrent Estimation of Chords and Keys from Audio.
US20080300702A1 (en) Music similarity systems and methods using descriptors
Ranjani et al. Carnatic music analysis: Shadja, swara identification and raga verification in alapana using stochastic models
Maddage Automatic structure detection for popular music
Zhu et al. Precise pitch profile feature extraction from musical audio for key detection
Dannenberg et al. Discovering musical structure in audio recordings
Jang et al. Content-based music retrieval using linear scaling and branch-and-bound tree search
Hu et al. A probabilistic model of melodic similarity
Heydarian Automatic recognition of Persian musical modes in audio musical signals
WO2007119221A2 (en) Method and apparatus for extracting musical score from a musical signal
KR20050053903A (ko) 허밍과 음성인식을 이용한 음악정보검색방법
Rocher et al. Dynamic chord analysis for symbolic music
Zenz et al. Automatic chord detection incorporating beat and key detection
Li et al. An efficient approach to humming transcription for query-by-humming system
Dittmar et al. A toolbox for automatic transcription of polyphonic music
US20080017017A1 (en) Method and Apparatus for Melody Representation and Matching for Music Retrieval
Ikemiya et al. Transferring vocal expression of f0 contour using singing voice synthesizer
CN113689836A (zh) 一种将音频转换成音符并显示的方法及终端
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
CN116034421A (zh) 乐曲构造解析装置及乐曲构造解析方法
Salehin et al. A recommender system for music less singing voice signals
Salamon et al. A chroma-based salience function for melody and bass line estimation from music audio signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application