KR100774708B1

KR100774708B1 - 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의벨소리 및/또는 컬러링 생성 시스템 및 방법

Info

Publication number: KR100774708B1
Application number: KR1020060066766A
Authority: KR
Inventors: 김회린; 박만수; 김성탁; 김상호
Original assignee: 한국정보통신대학교 산학협력단
Priority date: 2006-07-18
Filing date: 2006-07-18
Publication date: 2007-11-08

Abstract

본 발명은 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 시스템 및 방법에 관한 것으로, 사용자가 선택한 특정 음악의 멜로디 구간을 오디오쿼리로서 입력하는 오디오쿼리 입력부, 오디오쿼리 입력부로부터 입력된 음악신호에 대해 오디오 핑거프린트를 추출하는 오디오 핑거프린트 추출부, 다수 음악의 메타데이터와 오디오 핑거프린트를 색인하여 저장하는 음악 데이터베이스, 오디오 핑거프린트 추출부에서 추출된 오디오 핑거프린트와 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜 음악을 인식하고, 인식된 음악의 메타정보를 검색하는 음악인식 및 정보검색부, 인식된 음악에 대해 음악 데이터베이스로부터 사용자가 원하는 특정 멜로디 구간을 검출하는 오프셋 검출부 및, 오프셋 검출부에서 검출된 특정 멜로디 구간 만큼 벨소리 및/또는 컬러링을 생성하는 벨소리 및/또는 컬러링 생성부를 구비한다.

음악 인식, 오디오 핑거프린트, 멜로디 구간, 벨소리, 컬러링

Description

실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 시스템 및 방법 {System and method for generating ring tone/ring back tone based on user preference melody part by real-time music identification}

도 1은 본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 시스템을 설명하기 위한 블록도,

도 2는 오디오 해싱 방식에 의해 오디오 핑거프린트를 추출하는 일예를 설명하기 위한 블록도,

도 3은 오디오 해싱 방식에 의해 오디오 핑거프린트를 추출하는 다른 예를 설명하기 위한 블록도,

도 4는 음악 데이터로부터 추출된 오디오 핑거프린트가 색인화되는 일예를 설명하는 도면,

도 5는 오디오 쿼리의 핑거프린트를 기반으로 음악 데이터베이스로부터 검색함으로써 사용자가 입력한 음악을 인식하는 일예를 설명하는 블록도,

도 6은 본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 방법을 설명하기 위한 흐름도이다.

본 발명은 휴대폰에 사용되는 벨소리 및/또는 컬러링을 생성하는 시스템에 관한 것으로, 더욱 구체적으로 오디오 핑거프린트를 이용한 실시간 음악 인식을 통해 사용자가 선호하는 특정 음악의 특정 멜로디 구간에 대해 벨소리 및/또는 컬러링을 생성하는 시스템 및 그 방법에 관한 것이다.

무선 단말기는 이동하면서 통화를 하거나 데이터를 주고받을 수 있는 장치로서, 예를 들면, 휴대폰 또는 개인용 정보 단말기(PDA: Personal Digital Assistant)등과 같은 장치를 말한다. 최근, 이러한 무선 단말기가 널리 이용됨에 따라 이 장치에 다양한 기능들을 부가하기 위한 기술들이 개발되고 있다. 다양한 기능 중에서 대표적인 것으로는 무선 단말기에 다양한 벨소리를 제공하는 기술과, 무선 단말기로 전화를 걸었을 때 사용자가 듣는 기계적인 호출음 대신 다양한 음악으로 만들어지는 컬러링을 제공하는 기술이다.

초기 휴대폰 서비스가 시작될 시기에는 사용자가 휴대폰에 저장된 일정한 벨소리만을 사용할 수 있었지만, 점차 단순한 멜로디에서 최신 인기 가요와 같은 멜로디를 선택할 수 있는 기술로 발전하였다. 이러한 가요 멜로디는 700번 ARS를 통해서 서비스되는데, 이 서비스는 사용자가 가요 멜로디 제공 사업자가 만들어 놓 은 데이터 베이스에서 원하는 노래를 선택하면 선택한 노래에 대응하는 가요 멜로디가 무선 단말기로 전송되는 방식이다. 또한 컬러링도 유사한 방식으로 서비스 되고 있다. 또한 컬러링도 유사한 방식으로 서비스 되고 있다.

이렇게 부가 서비스 사업자에 의해 제공되는 벨소리 및/또는 컬러링 서비스는 한 음악에 대해서는 모두 비슷한 멜로디 구간, 즉 음악의 시작 부분이나 클라이막스 부분을 제공하게 된다. 그러나 개개인의 사용자들은 한 음악에 대해 서비스 제공자에 의해 만들어지는 획일적인 음악 구간 보다는 각 개인마다 선호하는 멜로디 구간을 벨소리 및/또는 컬러링으로 이용하는 것을 더 선호할 것이다.

결국, 기존의 방식은 사업자가 만들어 놓은 곡을 선택할 수밖에 없기 때문에 사용자의 다양한 욕구를 충족시키지 못하는 문제점이 있었다.

본 발명은 상기한 점을 감안하여 발명된 것으로, 실시간 음악 인식 기술을 이용하여, 사용자 개개인이 선호하는 멜로디 구간을 개개인의 요구에 맞게 벨소리 및/또는 컬러링으로 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 시스템은, 사용자가 선택한 특정 음악의 멜로디 구간을 오디오쿼리로서 입력하는 오디오쿼리 입 력부, 오디오쿼리 입력부로부터 입력된 음악신호에 대해 오디오 핑거프린트를 추출하는 오디오 핑거프린트 추출부, 다수 음악의 메타데이터와 오디오 핑거프린트를 색인하여 저장하는 음악 데이터베이스, 오디오 핑거프린트 추출부에서 추출된 오디오 핑거프린트와 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜 음악을 인식하고, 인식된 음악의 메타정보를 검색하는 음악인식 및 정보검색부, 인식된 음악에 대해 음악 데이터베이스로부터 사용자가 원하는 특정 멜로디 구간을 검출하는 오프셋 검출부 및, 오프셋 검출부에서 검출된 특정 멜로디 구간 만큼 벨소리 및/또는 컬러링을 생성하는 벨소리 및/또는 컬러링 생성부를 구비한다.

이때, 오디오쿼리는 사용자가 직접 노래를 부르거나 흥얼거리는 허밍 형태, 라디오/TV 또는 기타 오디오 장치의 스피커로부터 출력되는 음악, 또는 사용자가 직접 연주하거나 공연장에서 직접 연주되는 음악의 형태인 것이 바람직하다.

오디오 핑거프린트 추출부는, 음악신호를 프레임 단위로 분할하는 윈도우 분석부, 음악신호의 주파수 특성을 추출하는 주파수 특성 추출부, 주파수 특성 추출부로부터 출력된 신호의 에너지를 분석하는 파워 스펙트럼부, 파워 스펙트럼부로부터 출력된 신호에 대해 주파수 필터링을 수행하는 수단, 파워 스펙트럼부로부터 출력된 신호에 대해 시간축 필터링을 수행하는 수단 및, 주파수 필터링 수단과 시간축 필터링 수단에서 주파수 및 시간축 필터링이 수행된 신호에 대해 소정 임계값을 기준으로 비트를 할당하여 해쉬코드를 생성하는 수단을 구비하는 것이 바람직하다. 또한, 사용자의 청각 특성을 고려하기 위해 'Mel/bark' 스케일 필터뱅크를 더 구비할 수 있다.

음악인식 및 정보검색부는, 오디오 핑거프린트 추출부에서 추출된 오디오 핑거프린트와 상기 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜, 평균 비트 에러율이 최소가 되는 음악을 인식결과로 선택하는 것이 바람직하다.

본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통해 사용자가 선호하는 멜로디 구간에 대해 벨소리 및/또는 컬러링을 생성하는 방법은, (a) 사용자가 선택한 특정 음악의 멜로디 구간이 오디오 쿼리로서 사용자 단말기에 입력되는 단계, (b) 오디오 쿼리로 입력된 음악 신호에 대해 오디오 핑거프린트를 추출하는 단계, (c) 추출된 오디오 핑거프린트와 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜 음악을 인식하고, 인식된 음악의 메타정보를 검색하는 단계, (d) 인식된 음악에 대해 음악 데이터베이스로부터 오프셋을 검출하는 단계, (e) 검출된 오프셋 위치에서 해당 오디오 쿼리 구간 만큼 벨소리 및/또는 컬러링을 생성하는 단계 및, (f) 생성된 벨소리 및/또는 컬러링과 음악의 메타정보가 사용자 단말기로 제공되는 단계를 포함한다.

이때, (a) 단계 전에, 다수의 음악에 대해 메타데이터와 오디오 핑거프린트를 추출하는 단계 및, 다수 음악 메타데이터와 오디오 핑거프린트를 기초로 음악을 색인화하여 데이터베이스를 구성하는 단계를 더 포함하는 것이 바람직하다.

더욱이, 오디오 핑거프린트를 추출하는 단계는, 음악신호를 프레임 단위로 분할하는 단계, 음악신호의 주파수 특성을 추출하는 단계, 주파수 특성 추출 신호의 에너지를 분석하는 단계, 에너지 분석된 신호에 대해 주파수 필터링 및 시간축 필터링을 수행하는 단계 및, 주파수 및 시간축 필터링이 수행된 신호에 대해 소정 임계값을 기준으로 비트를 할당하여 해쉬코드를 생성하는 단계를 포함하는 것이 바람직하다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다.

(실시예)

이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 시스템을 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 바람직한 실시예에 의한 벨소리 및/또는 컬러링 생성 시스템은 음악 메타데이터 등록부(100), 제1오디오 핑거프린트 추출부(101), 음악색인부(102), 음악 데이터베이스(103), 오디오쿼리 입력부(104), 제2오디오 핑거프린트 추출부(105), 음악인식 및 정보검색부(106), 오프셋 검출부(107) 및, 벨소리 및/또는 컬러링 생성부(108)를 구비한다. 서비스 제공자가 벨소리 및/또는 컬 러링을 제공하기 위한 음악들을 메타데이터 및 오디오 핑거프린트를 기반으로 음악 데이터베이스(103)에 색인 등록하면, 사용자가 입력한 오디오 쿼리 신호를 기반으로 음악인식 및 정보검색부(106)에서 음악을 인식하여 음악 정보 뿐만 아니라 해당 오디오 쿼리의 멜로디 구간을 검출하여 벨소리 및/또는 컬러링으로 제공하게 된다.

이를 위해, 음악 메타데이터 등록부(100)는, 벨소리 및/또는 컬러링의 대상이 되는 원곡으로 구성된 음악 데이터를 기초로 메타정보를 등록한다. 음악 데이터는 가요, 팝송, 클래식 등이 저장된 것을 말하며, 음악의 메타데이터란 음악의 속성을 나타내는 정보로서, 음악의 제목, 장르, 가수, 저작자, 이용 조건, 이용 내력 등을 말한다.

제1오디오 핑거프린트 추출부(101)는 음악 데이터에서 오디오 핑거프린트를 추출하는 기능을 한다. 오디오 핑거프린트(audio fingerprint;聲紋)란 오디오 객체를 가장 효과적으로 요약한 오디오 파라미터 내지는 모델을 의미하는 것으로서, 본 발명에서는 다수의 음악을 인식 또는 구별할 수 있도록 오디오 객체에서 추출되는 오디오 신호의 고유한 특징을 나타내는 파라미터를 말한다. 인간의 지문이 각 개인마다 지니고 있는 유일한 특성을 나타내듯이, 오디오 핑거프린트는 각 오디오 객체가 지니고 있는 고유한 특성을 나타내고, 이는 오디오 신호로부터 내용기반으로 신호 분석을 통해 추출될 수 있다.

음악 색인부(102)는 음악 메타데이터 등록부(100)로부터 제공된 음악 메타데이터와 제1 오디오 핑거프린트 추출부(101)로부터 제공된 오디오 핑거프린트를 음악 데이터베이스(103)에 색인하는 역할을 한다.

오디오 쿼리 입력부(104)는 단말기를 통해 사용자가 선호하는 음악의 멜로디 구간을 오디오 쿼리로 입력받는 기능을 한다. 오디오 쿼리(audio query)란 사용자들이 입력하는 오디오 질의 신호를 의미한다. 즉, 사용자들이 원하는 음악의 일 구간에 대한 신호이다. 사용자가 입력하는 오디오 쿼리 형태는, 사용자가 직접 노래를 부르거나 흥얼거리는 허밍, 스피커를 통해 흘러나오는 음악신호(라디오, TV, 카페, 길거리, 콘서트, 등), 사용자가 직접 연주하는 음악 등이 모두 가능하다. 또한, 사용자 단말기는 휴대폰 등의 무선기기, 인터넷과 연결된 컴퓨터 등이 가능하다.

제2오디오 핑거프린트 추출부(105)는 오디오 쿼리 입력부(104)로부터 입력받은 사용자가 선택한 음악 신호에 대해 오디오 핑거프린트를 추출한다.

음악인식 및 정보검색부(106)는 제2오디오 핑거프린트 추출부(105)에서 추출된 오디오 핑거프린트를 기반으로 음악 데이터베이스(103)로부터 해당 음악을 인식하고, 인식된 음악에 대한 메타정보를 검색한다. 음악인식은 제2오디오 핑거프린트 추출부(105)에서 추출된 오디오 핑거프린트와 음악 데이터베이스(103)에 저장된 다수의 오디오 핑거프린트를 매칭시켜 수행한다.

오프셋 검출부(107)는 음악 데이터베이스(103)로부터 인식된 음악에 대해 사용자가 원하는 특정 구간을 검출하는 역할을 한다. 구체적으로, 오프셋 검출부(107)는 제2오디오 핑거프린트 추출부(105)에서 추출된 오디오 쿼리의 핑거프린트 블록과 음악 데이터베이스(103)에 저장된 음악의 핑거프린트 블록을 매칭하여, 최적의 매칭 구간을 오프셋 구간으로 검출한다. 여기에서 오프셋은 사용자가 입력 한 음악 쿼리 신호의 재생 위치를 의미한다. 일례로서, 원음이 5분의 재생 시간을 가지는 곡일 경우에, 사용자가 입력하는 오디오 쿼리 신호는 5분 이내의 어느 시간위치에서 재생되는지를 나타낸다.

벨소리 및/또는 컬러링 생성부(108)는 오프셋 검출부에서 검출된 소정 음악의 오프셋 위치에서 오디오 쿼리 구간 만큼 벨소리 및/또는 컬러링을 생성한다.

이하에서는, 도 2 ~ 도 5를 참조하여 오디오 핑거프린트를 추출하는 방법, 추출된 오디오 핑거프린트가 음악색인부에서 색인화되어 음악 데이터베이스에 저장되는 방법, 원하는 음악을 인식하고 오프셋을 검출하는 방법에 대해 더욱 상세하게 설명한다.

본 발명에서 제1 및 제2오디오 핑거프린트 추출부(101,105)는 음악 데이터 및 오디오 쿼리의 일정 구간을 분석하여 오디오 핑거프린트를 추출하는 역할을 한다. 이러한 오디오 핑거프린트 추출은 오디오 해싱 방식을 통해 이루어진다. 오디오 해싱 방식이란 각 프레임마다 주파수 밴드의 에너지를 기반으로 하여 핑거프린트를 추출하는 것으로서, 주파수 밴드와 프레임에 대한 변화율의 부호를 기초로 32 비트의 서브 핑거프린트(sub-fingerprint)인 해쉬코드(hash code)를 추출하게 된다.

도 2를 참조하여 설명하면, 입력된 오디오 데이터를 윈도우 분석(200)을 통해 프레임 단위로 분할하고, 오디오 데이터의 주파수 특성을 추출하기 위해 퓨리에 변환(201)을 수행한다. 윈도우 분석은 오디오 데이터를 프레임 단위로 분할하여 각 프레임마다 오디오 핑거프린트 정보를 추출하기 위해 수행되는 것인데, 예를 들어 'Hamming/Hanning' 윈도우 등을 사용할 수 있다.

이렇게 퓨리에 변환된 오디오 데이터의 파워 스펙트럼(202)은 필터뱅크(203)를 통과한다. 필터뱅크로는 사용자의 청각 특성을 고려하기 위해 'Mel/bark' 스케일 필터뱅크를 사용할 수 있다.

다음으로, 필터뱅크 출력의 에너지 시퀀스를 기반으로 주파수 및 시간축 필터링(204,205)을 수행한다. 주파수 및 시간축 필터링은 주파수 인접 밴드와 인접 프레임의 상관 관계를 최소화하기 위해 수행되는 것이다.

이러한 주파수 필터링은 HPF 타입( H_F(z)=1-z^-1), BPF 타입( H_F(z)=z-z^-1 ) 등을 사용할 수 있다. 그러나 실제 환경에서 잡음으로 인하여 주파수 왜곡이 발생한 경우, HPF 타입보다는 BPF 타입의 필터가 더 바람직하다.

그리고 시간축 필터링은 HPF 타입( H_T(z)=1-z^-1 )과 BPF 타입인 RASTA 필터를 사용할 수 있는데 RASTA 필터의 H_T(z)는 다음의 수학식 1과 같다.

필터뱅크 에너지에 채널 잡음과 같이 시간에 대해 일정하게 영향을 주어 왜곡을 일으키는 경우, HPF 타입보다는 RASTA 필터와 같이 채널 정규화 (normalization) 특성을 활용하여 채널에 대한 영향을 최소화 시켜줌으로써, 채널 잡음에 강인한 오디오 핑거프린트를 추출할 수 있다.

주파수 및 시간축 필터링이 수행된 신호는 수학식 2와 같이 특정 임계값(0)을 기준으로 비트를 할당하여 해쉬코드가 만들어진다.

여기에서 n은 프레임 인덱스를 나타내고, m은 주파수 밴드의 인덱스를 나타낸다.

또한, 환경에 따라 k 가지 형태의 주파수-시간축 필터링의 조합을 이용하여 k-step 방식으로 오디오 핑거프린트를 추출할 수도 있다. 즉, 한 프레임당 하나의 핑거프린트 만을 사용하지 않고, 각기 다른 주파수-시간축 필터링 조합으로부터 추출된 k개의 핑거프린트를 사용할 수 있다. 일례로서, 도 3에 도시된 바와 같이 서로 다른 주파수-시간축 필터링 조합(304a,304b)을 적용하여 추출된 두 종류의 핑거프린트를 활용함으로써, 실제 환경에 더욱 강인한 핑거프린트를 추출할 수 잇게 된다.

이렇게 추출된 오디오 핑거프린트는 32비트 해쉬 코드를 기반으로 표현될 수 있다. 제1오디오 핑거프린트 추출부(101)에서 음악 데이터로부터 추출된 핑거프린트는, 도 4에 도시된 바와 같이 음악색인부(102)에서 색인화되어 음악 데이터베이스(103)에 저장된다. 예를 들어, 5분의 재생 시간을 지닌 음원의 경우, 11.6ms 단 위로 윈도우 분석을 하게 되면 약 25,000개 정도의 핑거프린트가 추출되게 된다. 그리고 각 핑거프린트는 32비트 코드로 표현되기 때문에, 2³² 개의 엔트리의 LUT(Lookup Table)로 색인화될 수 있다. 각 엔트리는 해당 해쉬 값이 어느 곡의 어느 오프셋(OFFSET)에 있는지 링크하고 있다.

이하에서는, 사용자가 오디오 쿼리로 입력한 음악을 인식하고 오프셋을 검출하기 위해, 오디오 쿼리의 핑거프린트를 기반으로 음악 데이터베이스로부터 검색하는 방법에 대해 도 5를 참조하여 상세하게 설명한다.

도 5에 도시된 바와 같이, 음악인식 및 정보검색부(106)는 제2오디오 핑거프린트 추출부(105)로부터 입력된 핑거프린트 값과 동일한 값이나 허용 오차 범위 내의 값들을 음악 데이터베이스(103)로부터 검색하여, 우선 인식 후보 대상들을 선정하게 된다. 이때, 왜곡 환경 및 검색 속도 등을 고려하여 허용 오차 범위는 해밍디스턴스 1 비트 내로 한정할 수 있다. 예를 들어, 오디오 쿼리 신호가 7초 정도의 길이라면, 약 600개 정도의 핑거프린트가 추출되고, 1비트 에러까지 허용범위를 한정한다면, 약 20,000(=600*33) 정도의 검색 후보 엔트리가 선정된다.

이러한 인식 후보대상 엔트리를 기반으로, 음악인식 및 정보검색부(106)는 제2오디오 핑거프린트 추출부(105)로부터 입력된 핑거프린트 블록과 음악 데이터베이스(103)에 저장된 인식 대상 음악의 핑거프린트 블록 사이의 평균 비트 에러율(Bit Error Rate)이 최소가 되는 음악을 인식 결과로 선택하게 된다. 이때 평균 비트 에러율(BER)이 신뢰 구간(thr_break) 보다 작을 경우 검색을 종료할 수도 있다.

이어서, 오프셋 검출부(107)는 음악인식 및 정보검색부(106)에서 인식된 음악에서 사용자가 원하는 특정 구간을 오프셋 위치로서 검출하게 된다.

이하에서는, 본 발명의 바람직한 실시예에 따른 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의 벨소리 및/또는 컬러링 생성 방법에 대해 설명한다.

도 6을 참조하면, 먼저 서비스 제공자가 음악 데이터로부터 메타데이터와 오디오 핑거프린트를 추출한다(제600단계). 그리고, 음악 메타데이터와 오디오 핑거프린트를 기초로 음악을 색인화하여 데이터베이스를 구성한다(제601단계).

다음으로, 사용자는 선호하는 음악의 멜로디 구간을 오디오 쿼리로 입력한다(제602단계). 사용자가 입력하는 오디오 쿼리 형태는, 사용자가 직접 노래를 부르거나 흥얼거리는 허밍, 스피커를 통해 흘러나오는 음악신호(라디오, TV, 카페, 길거리, 콘서트, 등), 사용자가 직접 연주하는 음악 등이 모두 가능하다. 따라서, 오디오 쿼리의 입력은 사용자가 소지한 휴대폰 등의 무선 단말기를 이용하여, 서비스 제공자의 서버에 무선으로 접속하는 방식으로 이루어질 수 있고, 또는 컴퓨터 등을 이용하여 서비스 제공자의 서버에 유선으로 접속하는 방식으로 이루어질 수도 있다. 오디오 쿼리 신호는 사용자 단말기에서 녹음될 수도 있고, ARS 서비스를 통해 서비스 제공자의 시스템에 직접 녹음하는 방식으로 이루어질 수도 있다.

다음으로, 오디오 쿼리로 입력된 음악 신호에 대해 오디오 핑거프린트를 추출한다(제603단계). 이러한 오디오 핑거프린트는 사용자 단말기에서 추출될 수도 있으며, 사용자 단말기가 오디오 쿼리를 서비스 제공자에게 전송하면 서비스 제공자의 시스템에서 추출될 수도 있다.

추출된 오디오 핑거프린트를 기반으로 음악 데이터베이스로부터 오디오 쿼리의 음악이 어떤 음악인지 인식하고, 그 음악의 정보에 대해 검색한다(제604단계). 이어서, 인식된 음악에 대해 오프셋을 검출한다(제605단계).

다음으로, 검출된 오프셋 위치에서 해당 오디오 쿼리 구간 만큼 벨소리 및/또는 컬러링을 생성한다(제606단계). 그러면, 서비스 제공자는 생성된 벨소리 및/또는 컬러링과 음원의 상세 정보를 사용자 단말기로 제공한다(제607단계).

상기한 바와 같이 본 발명에 의하면, 사용자가 선호하는 음원의 특정 멜로디 구간을 사용자가 오디오 쿼리로 입력하게 되면, 음악 인식을 통해 해당 음원 및 오프셋 위치를 검출하여 사용자 개개인의 선호에 맞게 음원의 특정 멜로디 구간을 벨소리 및/또는 컬러링으로 제공 하는 효과가 있다.

이상, 본 발명의 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되는 것은 아니며, 본 발명의 기술적 사상의 범위내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.

Claims

실시간 음악 인식을 통해 사용자가 선호하는 멜로디 구간에 대해 벨소리 및/또는 컬러링을 생성하는 시스템에 있어서,

사용자가 선택한 특정 음악의 멜로디 구간을 오디오쿼리로서 입력받는 오디오쿼리 입력부;

상기 오디오쿼리 입력부에서 출력된 음악신호에 대해 오디오 핑거프린트를 추출하는 오디오 핑거프린트 추출부;

다수 음악의 메타데이터와 오디오 핑거프린트를 색인하여 저장하는 음악 데이터베이스;

상기 오디오 핑거프린트 추출부에서 추출된 오디오 핑거프린트와 상기 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜 음악을 인식하고, 인식된 음악의 메타정보를 검색하는 음악인식 및 정보검색부;

상기 인식된 음악에 대해 상기 음악 데이터베이스로부터 사용자가 원하는 특정 멜로디 구간을 검출하는 오프셋 검출부 및;

상기 오프셋 검출부에서 검출된 특정 멜로디 구간 만큼 벨소리 및/또는 컬러링을 생성하는 벨소리 및/또는 컬러링 생성부를 구비하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 시스템.
제1항에 있어서,

상기 오디오쿼리는 사용자가 직접 노래를 부르거나 흥얼거리는 허밍 형태, 라디오/TV 또는 기타 오디오 장치의 스피커로부터 출력되는 음악, 또는 사용자가 직접 연주하거나 공연장에서 직접 연주되는 음악의 형태인 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 시스템.
제1항에 있어서, 상기 오디오 핑거프린트 추출부는,

음악신호를 프레임 단위로 분할하는 윈도우 분석부;

음악신호의 주파수 특성을 추출하는 주파수 특성 추출부;

상기 주파수 특성 추출부로부터 출력된 신호의 에너지를 분석하는 파워 스펙트럼부;

상기 파워 스펙트럼부로부터 출력된 신호에 대해 주파수 필터링을 수행하는 수단;

상기 파워 스펙트럼부로부터 출력된 신호에 대해 시간축 필터링을 수행하는 수단 및;

상기 주파수 필터링 수단과 시간축 필터링 수단에서 주파수 및 시간축 필터링이 수행된 신호에 대해 소정 임계값을 기준으로 비트를 할당하여 해쉬코드를 생성하는 수단을 구비하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 시스템.
제1항에 있어서,

상기 음악인식 및 정보검색부는, 상기 오디오 핑거프린트 추출부에서 추출된 오디오 핑거프린트와 상기 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜, 평균 비트 에러율이 최소가 되는 음악을 인식결과로 선택하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 시스템.
실시간 음악 인식을 통해 사용자가 선호하는 멜로디 구간에 대해 벨소리 및/또는 컬러링을 생성하는 방법에 있어서,

(a) 사용자가 선택한 특정 음악의 멜로디 구간이 오디오 쿼리로서 사용자 단말기에 입력되는 단계;

(b) 오디오 쿼리로 입력된 음악 신호에 대해 오디오 핑거프린트를 추출하는 단계;

(c) 상기 추출된 오디오 핑거프린트와 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜 음악을 인식하고, 인식된 음악의 메타정보를 검색하는 단계;

(d) 상기 인식된 음악에 대해 상기 음악 데이터베이스로부터 오프셋을 검출하는 단계;

(e) 상기 검출된 오프셋 위치에서 해당 오디오 쿼리 구간 만큼 벨소리 및/또 는 컬러링을 생성하는 단계 및;

(f) 생성된 벨소리 및/또는 컬러링과 음악의 메타정보가 사용자 단말기로 제공되는 단계를 포함하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 방법.
제5항에 있어서, 상기 (a) 단계 전에,

다수의 음악에 대해 메타데이터와 오디오 핑거프린트를 추출하는 단계 및;

상기 다수 음악 메타데이터와 오디오 핑거프린트를 기초로 음악을 색인화하여 데이터베이스를 구성하는 단계를 더 포함하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 방법.
제5항에 있어서,

상기 오디오쿼리는 사용자가 직접 노래를 부르거나 흥얼거리는 허밍 형태, 라디오/TV 또는 기타 오디오 장치의 스피커로부터 출력되는 음악, 또는 사용자가 직접 연주하거나 공연장에서 직접 연주되는 음악의 형태인 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 방법.
제5항 또는 6항에 있어서, 오디오 핑거프린트를 추출하는 단계는,

음악신호를 프레임 단위로 분할하는 단계;

음악신호의 주파수 특성을 추출하는 단계;

상기 주파수 특성 추출 신호의 에너지를 분석하는 단계;

상기 에너지 분석된 신호에 대해 주파수 필터링 및 시간축 필터링을 수행하는 단계 및;

주파수 및 시간축 필터링이 수행된 신호에 대해 소정 임계값을 기준으로 비트를 할당하여 해쉬코드를 생성하는 단계를 포함하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 방법.
제5항에 있어서, 상기 (c) 단계에 있어서,

상기 추출된 오디오 핑거프린트와 음악 데이터베이스에 저장된 다수의 오디오 핑거프린트를 매칭시켜, 평균 비트 에러율이 최소가 되는 음악을 인식결과로 선택하는 것을 특징으로 하는 벨소리 및/또는 컬러링 생성 방법.