KR100378047B1

KR100378047B1 - 전화를 이용한 노래의 선택 및 검색방법

Info

Publication number: KR100378047B1
Application number: KR1020000017907A
Authority: KR
Inventors: 고재용
Original assignee: 고재용
Priority date: 2000-04-06
Filing date: 2000-04-06
Publication date: 2003-03-29
Also published as: KR20010094313A

Abstract

본 발명은 전화를 이용한 노래의 선택 및 검색방법에 관한 것으로, 예를 들면 700 서비스를 통한 노래방 등에서 노래를 선택할 때, 보다 손쉽게 노래를 선택할 수 있는 방법을 나타내는 것이다.

검색방법으로는, 사용자가 기억하고 있는 노래 가락의 일부를 음성 등의 소리로 전화기의 송화기를 통해 입력하면 그 소리로부터 곡의 특성을 추출하여, 추출한 내용을 악곡 데이터 베이스 내에 저장되어 있는 곡들과 비교하여 사용자가 입력한 곡과 가장 가까운 곡을 검색한다. 이 검색결과는 여러가지 형태로 제공될 수 있는데, 우선 출력내용이 곡명, 가수명, 레코드사 등 곡에 대한 텍스트(text) 정보일 수 있으며, 이 경우 텍스트 내용을 음성으로 변조하여 수화기를 통해 사용자가 들을 수 있게 하거나, 문자 또는 화상서비스가 가능한 전화이면 문자나 화상으로 출력할 수 있다. 또한, 텍스트 정보뿐만 아니라, 해당 노래의 연주 소리나 반주 등이 수화기를 통해 사용자에게 제공될 수 있다.

Description

전화를 이용한 노래의 선택 및 검색방법{song select and search method using telephone}

본 발명은 전화를 이용한 노래의 선택 및 검색방법에 관한 것으로서, 특히 전화를 이용하여 사용자가 기억하고 있는 일부의 가락을 송화기를 통하여 소리로 입력하면 입력된 소리에 대응하는 노래를 검색하여 사용자의 수화기나 문자 또는 화상 디스플레이를 통해 해당 노래를 출력하는 전화를 이용한 노래의 선택 및 검색방법에 관한 것이다.

A. 콧노래를 통한 검색(Query by humming)

오늘날, 신호처리 기술의 발달에 따라 사람의 콧노래 등 목소리나 악기 소리로부터 그 소리 속에 담긴 곡의 가락(음의 고저, 장단, 강약)정보를 추출해 내는 것이 가능해 졌다. 이를 통해 기존 표준화 동향(Moving Picture Experts Group : MPEG-7) 및 미국특허 US 5874686, US 5963957 등에는 사용자가 가락의 일부는 기억하고 있지만 곡명을 모르는 경우, 컴퓨터 시스템을 이용하여 곡명 등을 알아내고 원하는 곡을 선택할 수 있게 해주는 시스템을 구현하고 있다. 즉, 사용자가 자신이 기억하는 가락을 콧노래 등으로 재현하면 컴퓨터 시스템이 이 소리 신호를 해석하여 사용자가 재현한 가락에 해당하는 곡의 정보를 데이타베이스에서 찾아내는 것이다.

특히, 미국특허 US 5874686 및 US 5963957에서는 악곡 성분을 뽑아내는 신호처리 및 비슷한 곡을 찾아주는 데이타베이스 검색이 개시되어 있으나, 이와 같은 연구는 이미 논문 등을 통해 발표되었으며, 그 상세한 기술적인(technical) 내용을 제외하고는 이미 공지된 것이다.

한편, MPEG-7은 멀티미디어 데이터의 내용에 대한 표현방법을 나타내는 것으로서, 크게 음성이나 음향정보를 포함한 오디오 데이터에 대한 내용기반 검색, 사진이나 그래픽을 포함한 정지영상 테이터에 대한 내용기반 검색, 그리고 비디오를 포함한 동영상 데이터에 대한 내용기반 검색 등을 정의한다. 이 표준화 동향은 데이터베이스나 TV, 라디오 채널 등을 통해 제공되는 멀티미디어 데이터에 관한 표준으로서, 사용자 자신이 원하는 콘텐츠(contents)를 구매하거나 찾아내는데 도움을 주도록 데이터 화일을 구성하는 표준이다.

종래, 노래의 선택 및 검색방법은 도 1에 나타낸 바와 같이, 먼저 사용자가 마이크(101)를 통해 기억하는 가락의 일부를 음성으로 재현한다. 이때, 마이크(101)를 통해 입력된 신호는 소리를 샘플링한 시간도메인(time-domain)의 일차원 신호가 된다.

다음에, 사용자가 입력한 소리 신호의 음악적 특성 즉, 가락에 대한 정보를 특성 추출모듈(102)에서 추출한다. 특성 추출모듈(102)은, 예를 들면 사용자의 음성신호로부터 음들을 분리하고, 각 음의 상대적 길이와 높낮이를 계산한다.

이어서, 상기 특성 추출모듈(102)을 통해 추출된 특성정보와 사업자가 미리음악들에 대한 정보를 저장해 놓은 곡 데이터 베이스(105)내의 정보를 패턴 매칭모듈(104)에서 비교한다. 이때, 곡 데이터 베이스(105)에는 기존에 알려진 음악들에 대한 정보, 예컨대 음악을 이루는 각 음의 음정, 박자 등 음악의 가락에 관련된 정보가 저장되어 있다.

다음에, 패턴 매칭모듈(104)의 비교 결과, 가장 비슷한 특성을 지닌 후보곡들을 곡 데이터 베이스(105)로부터 추출하여 디스플레이(107)에 나타낸다.

B. 노래관련 전화서비스

현재, 전화 노래방이나 삐삐 인사말 녹음서비스 등 전화와 노래 데이터 베이스를 이용한 상용 서비스들이 존재한다. 이들 서비스에서 사용자가 노래를 선택하는 방법은 노래에 번호가 부여된 노래 번호책을 보고 노래를 선택하거나, 또는 노래를 특정 주제로 나누고, 이 주제를 여러번 선택하여 노래를 선택하게 되는 것, 또는 ㄱ은 1번키, ㄴ은 2번키 등의 키 맵핑 안내를 들은 후 복잡한 숫자 입력을 통해 이루어진다.

그러나, 이와 같은 방법으로 전화(700 서비스등)를 통해 노래방 등의 노래(또는 일반적인 악곡) 서비스를 제공받는 경우, 사용자가 원하는 노래를 선택하기 위해 곡명이나 가수명 등을 입력하거나 선택하기가 힘들다. 즉, 전화기의 제한된 숫자판(0∼9까지의 숫자, ＃ 및 ＊ 등의 12키)을 통해 자음과 모음의 순열로 되어있는 곡명이나 가수명을 입력하기가 쉽지 않다. 또, 사용자가 선택할 수 있는 곡들을 합성 음성으로 사용자에게 안내한 후 사용자에게 선택하게 해야 하는데, 수 많은 곡을 음성으로 안내하려면 시간이 많이 걸린다는 문제점이 있었다. 또한, 문자나 화상서비스가 가능한 전화의 경우도 선택 가능한 노래들을 나열하는 전화단말상의 디스플레이가 충분히 크지 않기 때문에, 사용자가 용이하게 곡을 선택할 수 없다는 문제점이 있었다.

따라서, 본 발명의 목적은 사용자가 제한된 키와 디스플레이를 가지는 전화를 통해 노래를 선택할 때, 소리로 노래 가락을 재현하여 곡을 용이하게 선택할 수있는 전화를 이용한 노래의 선택 및 검색방법을 제공하는데 있다.

또한, 본 발명의 다른 목적은 사용자가 제한된 키와 디스플레이를 가지는 전화를 통해 노래를 선택할 때, 소리로 노래 가락을 재현하여 곡과 관련된 제반정보를 제공하는 전화를 이용한 노래의 선택 및 검색방법을 제공하는데 있다.

도 1은 노래 가락을 검색하는 종래 방법의 구성도,

도 2는 본 발명의 주요 시스템의 구성도,

도 3은 도 2의 콜 서버의 기능을 나타내는 상세도,

도 4는 도 2의 곡특성 추출모듈의 상세도,

도 5는 악곡 데이터 베이스의 구조를 나타내는 도면이다.

(도면의 주요 부분에 대한 부호의 설명)

203 콜 서버 204 곡특성 추출모듈

206 패턴 매칭모듈 207 악곡 데이터 베이스

209 정보의 음성화모듈 401 FFT 신호처리과정

402 잡음제거과정 및 음성 비음성 분리과정

403 음표길이 추출과정

404 대표피치 검출과정

상술한 목적을 달성하기 위해, 본 발명은 사용자가 전화를 통해 콜 서버에 접속하여 전화의 송화기를 통해 기억나는 일부의 가락을 소리로 입력하는 입력단계와; 상기 콜 서버의 곡특성 추출모듈을 이용하여 상기 송화기를 통해 입력된 소리로부터 그 곡의 특성을 추출하는 곡특성 추출단계와; 상기 콜 서버의 패턴 매칭모듈을 이용하여 상기 송화기를 통해 입력된 곡의 특성에 대응하는 노래를 미리 곡 특성정보가 저장되어 있는 데이터 베이스내의 노래와 비교하여 검색하는 검색단계와; 상기 검색단계에서 상기 송화기를 통해 입력된 곡과 데이터 베이스내의 곡이 일치하는 경우 상기 데이터 베이스내의 노래를 음성, 문자 또는 화상으로 변환한 후 전화의 음성 및 데이터 채널을 통해 노래 정보를 사용자의 전화로 보내는 정보 취득단계를 포함한다.

이하, 본 발명의 실시형태에 대해서 도면을 참조하여 설명한다.

도 2는 본 발명의 주요 시스템의 구성도이고, 도 3, 도 4 및 도 5는 도 2의 각 모듈의 상세도이다.

우선, 도 5에 나타낸 바와 같이, 악곡 데이터 베이스(207)에는 각 곡마다의 곡명, 가수명, 레코드사, 구입정보 등 곡에 대한 정보와 함께 곡을 이루는 각 음의음정, 박자 등 곡의 가락에 대한 정보가 저장되어 있다.

또한, 악곡 데이터 베이스(207)에 저장되는 곡과 가락에 대한 정보는 사업자가 미리 구축해 놓고, 수시로 추가 및 삭제할 수 있게 되어 있다. 또, 가락에 대한 정보란 곡의 내용을 각 음으로 나누어 각 음의 음정, 박자 정보 등의 형태로 수록되어 빠르게 찾을 수 있는 인덱스를 만들어 데이타베이스화 한 것을 의미한다. 향후 사용자가 전화를 하여 목소리로 곡을 재현하는 경우, 재현된 가락과 가장 가깝게 일치하는 곡들을 찾아주기 위한 것이다.

다음에, 도 2에 나타내는 바와 같이, 불특정 다수의 사용자들이 전화를 걸어 곡 선택을 위해 자신이 기억하고 있는 가락의 일부를 음성 등으로 소리로 재현하여 송화기로 입력한다(도 2의 201, 202 참조).

이와 같은 불특정 다수의 사용자들이 입력한 음성 등의 소리를 처리하기 위해 콜 서버(203) 등이 필요하며, 각 사용자의 요구를 처리할 수 있게 한다. 이때, 전화선을 통해 입력되는 신호는 소리를 샘플링한 시간도메인(time-domain)의 일차원 신호가 된다.

또한, 일차원 신호만을 가지고 사용자가 기억하고 있는 곡을 자동으로 찾아내기란 쉽지 않기 때문에, 사용자가 재현하는 음악적 특성 즉, 가락에 대한 정보를 추출해야 한다.

이때, 가락에 대한 정보는 여러 형태가 될 수 있으며, 예를 들면 각 음의 상대적 길이와 높낮이가 될 수도 있고, 또한 음의 높낮이 전이에 따라 추출될 수도 있으며, 또 음의 강약도 참고가 될 수 있다. 이러한 가락에 대한 정보를 추출하기위해, 신호처리의 여러기법을 사용하여 구현할 수 있는 곡특성 추출모듈(204)을 둔다.

곡특성 추출모듈(204)에서 추출되는 곡특성정보(205)는 악곡 데이터 베이스(207)에 저장되어 있는 가락정보와 호환 가능하여야 한다. 즉, 사업자가 처음에 악곡 데이터 베이스(207)를 구축할 때, 곡특성 추출모듈(204)에서의 곡특성 추출 형태를 고려하여, 악곡 데이터 베이스(207)를 구축하여야 한다. 즉, 도 5에 나타낸 501 및 502는 같은 포맷이어야 한다.

그리고, 곡특성 추출모듈(204)에서 추출되는 곡특성정보(205)와 사업자가 미리 입력해 놓은 곡의 특성정보(205)는 패턴 매칭모듈(206)에 의해 비교 및 검색되어 가장 비슷한 특성을 지닌 후보의 곡들을 악곡 데이터 베이스(207)로부터 추출한다.

이와 같이 추출된 정보를 다시 전화선을 이용하여 사용자에게 전송하기 위해 정보의 음성화모듈(209)을 거쳐 음성으로 전환시켜 사용자에게 전송한다. 또한, 문자나 화상 서비스가 제공되는 전화의 경우 결과를 문자나 화상으로 전송할 수 있다.

이와 같은 일련의 과정을 반복하여 사용자에게 제공된 곡이 자신이 원하는 곡인지를 피드백할 수 있고, 만일 후보곡이 여러 곡 선정되었으면, 그 중 사용자가 원하였던 곡을 전화버튼을 눌러 선택하거나, 다시 곡을 재현하여 정확한 곡을 찾을 수 있다.

이하, 도 2에 나타낸 각 주요구성 부분에 대해서 도 3∼도 5를 참조하여 각각의 세부기능을 설명한다.

(콜 서버:203)

여러 동시 사용자가 전화를 걸어(콜을 하여) 서비스를 요청할 경우, 이러한 불특정 다수의 콜을 실시간으로 서비스 하여야 한다.

도 3에 나타내는 바와 같이, 콜 서버란 각 사용자의 콜 요구에 대해 내부적으로 각각의 프로세스를 생성하여, 그 사용자가 정해진 서비스 방법에 따라 여러 상태(state)를 전이하며 시스템과 상호작용하여 서비스를 받도록 하는 부분이다. 전체적으로는, 여러 동시 사용자가 한 서버로부터 각각 올바른 서비스를 받게 한다.

콜 서버(call sever)는 걸려오는 여러 콜을 받아들이는 하드웨어 장치(예컨대 CTI 등)와, 기존의 멀티프로그래밍(multiprogramming) 환경을 제공하는 오퍼레이팅 시스템(operating system)이 탑재된 컴퓨터 등으로 구현 될 수 있다.

(곡특성 추출모듈:204)

도 4에 나타내는 바와 같이, 곡특성 추출은 피치검출을 이용한 음 곡선 검출 알고리즘을 통해 이루어진다. 상기의 곡특성 추출모듈을 좀더 상세히 설명하면 다음과 같다.

(FFT 신호처리과정:401)

콧노래와 같은 입력신호를 분석하기 위해 먼저 고속 퓨리에변환(Fast Fourier Transform)을 통하여 주파수축으로 변환한다.

(잡음제거과정 및 음성 비음성 분리과정:402)

마이크 등의 입력장치로부터 신호를 입력받을 때 원하는 신호 이외의 다른 간섭신호가 들어오게 된다. 이와 같은 경우 원하지 않은 신호에 의해 피치정보가 손상을 입을 수도 있다. 따라서 주된 음성신호는 보전하고 간섭신호를 제거하기 위한 간섭신호제거를 피치검출의 전단계로서 이용하며, 이러한 방법으로 일반적인 스펙트럼 차감법(spectral subtraction)을 이용한다.

이를 위해, 기본 가정으로서 콧노래는 사람의 성도(vocal tract)로부터 나왔기 때문에 기본적으로 선형시스템으로 모델링할 수 있다. 이러한 성도로 부터 나온 사람의 음성신호와 간섭신호를 주파수축에서 차감함으로서 원래의 음성신호를 추정할 수 있다. 또한, 간섭 잡음의 환경은 어느 정도 정상(stationary) 상태라는 가정을 바탕으로 한다. 수식적으로 나타내면, 잡음신호(N)가 음성신호(X)에 인가되어 오염된 음성신호(Y)를 만든다고 가정했을 때 퓨리에변환을 통하여 아래의 식(1)과 같이 나타낼 수 있다.

····· (1)

여기서 k는 주파수채널, t는 시간 프레임을 나타내는 첨자이다.

다음에, 스펙트럼 차감법에 의해 원래의 음성신호()를 추정하기 위해 평균 잡음 스펙트럼을 오염된 음성신호(Y)로부터 빼는 작업을 수행하며, 아래의 식(2)과 같이 나타낼 수 있다.

····· (2)

(여기서,는 잡음 신호의 평균값을 의미한다)

상기 잡음제거과정을 거친 후에는, 음성 및 비음성 분리과정을 거치게 된다.즉, 실제 피치를 비음성구간에서 찾아내면 그값은 의미가 없기 때문에,오류를 유발할 수 있으며 당연히 계산량도 크게 증가한다. 따라서, 음성을 복소가우시안 확률분포 등으로 모델링하여 음성의 존재와 부재여부를 확률적으로 나타내어 구분하고, 음성이 존재하지 않는 부분은 처리하지 않는다.

(음표길이 추출과정:403)

소리 신호에서 사용자가 의도한 각각의 음의 길이를 추정하기 위해 신호처리의 기본 단위인 시간 프레임(frame)에서의 평균에너지의 변화를 추적한다. 즉, 한 음의 시작부분에서 소리의 에너지가 높아졌다 점차 감쇄하므로 각 에너지가 높아지는 시점을 한 음의 시작점으로 나눈다.

(대표피치 검출과정:404)

한 시간 프레임에서 음의 높낮이에 해당하는 대표피치(k)는 다음과 같은 자기상관함수(autocorrelation)를 이용하여 구할 수 있다. 즉, 아래의 R(k)를 최대화 하는 k가 대표피치이다.

····· (3)

(은 시점 n에서의 소리의 이산 신호(discrete time sequence)이다)

이때, 피치검출기의 가장 큰 문제인 실제의 피치를 반으로 추정을 한다든지 또는 실제의 피치를 배로 추정되는 것을 줄이기 위해, 다음 예와 같이 여러 구간(i=1, 2, 3 등)으로 나누어 피치 값(R)을 계산할 수 있다.

i = 1, k= 80 ....., 143,

i = 2, k= 40 ....., 79,

i = 3, k= 20 ....., 39,

전체 음성신호의 에너지로 정규화 한 자기상관함수가 각 구간에서는 아래의 식(4)과 같이 구해지며,

i = 1, 2, 3 ····· (4)

(는 구간 i에서의 최대 R(k) 값이다)

실제의 피치가 반으로 줄어드는 문제를 해결하기 위해 실제로는 낮은 구간에서 구해진 피치에 강조점을 두어 구하게 된다.

(악곡 데이터 베이스:207 및 패턴 매칭모듈:206)

도 5에 나타낸 바와 같이, 악곡 데이터 베이스(207)모듈은 사용자들이 찾을 것으로 예상되는 대부분의 악곡들에 대한 정보가 저장되어 있다. 즉, 각 악곡은 그 악곡을 이루는 다수 음의 순열로 이루어져 있으며, 각 음은 다시 그 음의 고저, 장단, 강약 정보로 이루어져 있다. 심지어 사용자는 가사의 일부까지 기억할 수 있으므로 음성인식을 통해 가사의 비교를 병행할 수 있다. 이 경우, 데이터 베이스(207)에 가사정보까지 저장할 수 있다.

그러나, 빠른 검색을 위해 이러한 정보는 간략화 될 수 있다. 예를 들면, 각 음의 고저, 즉 주파수만을 저장할 수 있다. 그러나, 이 경우에도 한 음이 가질 수 있는 주파수 값이 상당히 많은 경우의 수가 된다. 예컨대, 피아노의 경우 한 음이 가질 수 있는 주파수의 종류, 즉 건반 수는 88개이다.

이와 같이, 많은 주파수의 종류를 가지게 되면 그만큼 정보량이 많아지고, 비슷한 곡을 검색하는 과정이 복잡해 진다. 또한 사용자가 노래 가락을 재현할 때 주파수를 아주 정확하게 재현하지 않기 때문에 주파수 절대값을 저장하는 것은 크게 의미가 없다.

따라서, 절대적인 고저를 나타내는 주파수 값 대신, 한음에서 다음 음으로 넘어갈 때 높낮이가 높아지는지(Up: 예컨데 `도`에서 `미`로), 낮아지는지(Down: `솔`에서 `도`로), 아니면 같은 높낮이의 반복(Repeat: `파`에서 `파`로)인지 등, 높낮이의 전이만 저장될 수 있다.

이와 같이 하면, 한 음의 고저 성분이 가질 수 있는 경우의 수는 피아노의 경우 88에서 3으로 줄게 된다.

이와 같은 방법으로, 음의 길이에 대해서도 절대적인 길이를 저장하기 보다 한 음에서 다음 음으로 넘어갈 때 그 전 길이보다 길어지는지(Up: 사분음에서 이분음으로), 짧아지는지(Down), 비슷한 길이인지(Repeat)를 저장할 수 있다.

길이의 변화는 고저의 변화보다 폭이 크므로 단순히 3단계의 길어짐(Up), 짧아짐(Down), 반복(Repeat)으로 나누는 것보다 아주 길어짐(UpUp), 길어짐(Up), 반복(Repeat), 짧아짐(Down), 아주 짧아짐(DownDonw)의 다섯 가지로 분류할 수 있다.

마지막으로, 음의 강약 정보는 곡이 연주될 때 마다 연주자의 주관대로 달라질 가능성이 아주 크므로 대부분의 경우 저장해도 도움이 되지 않는다. 이와 같이 각 음에 대해 고저의 전이 3가지와 길이의 전이 5가지를 저장하는 경우 하나의 음은 아래의 표 1에 나타내는 바와 같이 총15개 중의 하나로 나타낼 수 있다.

즉, 각 음은 상기 표 1의 a∼o 중 하나로 표시된다. 이와 같이 분류된 a 부터 o를 음의 알파벳이라고 하면, 각 악곡은 상기와 같이 a∼o 중 하나로 표시되는 음들의 순열로 되어 casablanca 등 마치 문자열(text) 정보처럼 데이타베이스에 저장될 수 있다.

이와 같이 구성되는 데이터는 서비스 제공자에 의해 미리 처리되어(preprocessing) 저장된다. 서비스 제공자는 서비스 제공 전에 충분한 양의 곡들에 대해 상기와 같이 정해진 형식으로 악곡 정보를 저장하며, 서비스 중에도 추가 곡이 있을 경우 상기의 형식대로 곡을 변환하여 악곡 데이터 베이스(207)에 저장할 수 있다.

또한, 곡특성 추출모듈(204)에서 기술한 바와 같이, 곡특성 추출모듈(204)로부터 추출된 사용자 입력의 음 특성과 악곡 데이터 베이스(207) 안에 저정되어 있는 악곡정보는 같은 형식의 문자열로 가공된다(도 5 참조).

도 5의 패턴 매칭모듈(206)에서는 상술된 곡특성 추출모듈(204)에서 뽑아낸악곡정보와 가장 또는 충분히 유사한 정보를 가지는 악곡 데이타베이스(207) 내의 악곡을 검색하는 작업을 한다. 이와 같은 패턴 매칭은 `퍼지`검색을 가능토록 해야 한다.

즉, 악곡 데이터 베이스(207) 내의 악곡 정보(501)와 추출된 사용자의 악곡 특성(502)이 정확이 같지 않더라도 충분히 같은 것을 찾아내야 한다. 이는 사용자가 노래 가락을 재현할 때 항상 정확하게 재현하지 않을 수 있기 때문이다.

사용자 입력이 100% 정확하지 않더라도 충분히 근사한 곡들을 찾아 주어야 하며, 사용자가 원하는 곡으로 생각되는 후보 곡이 여러 곡일 경우 좀더 가까운 곡을 먼저 리스팅(listing)해 주어 사용자의 곡 선택이 쉽도록 한다.

이후, 사용자가 입력한 소리로부터 추출된 음 정보를 패턴(Pattern)(502)이라 부르고, 원곡에 해당하는 음 정보를 텍스트(Text)(501)라 부르기로 한다. 악곡 데이터 베이스(207)에 저장된 원곡의 텍스트(Text)(501)집합을 T = t₁, t₂, t₃, ..., t_m이라 하고, 사용자 입력으로부터 추출된 패턴(Pattern)(502)을 P = p₁, p₂, p₃, ..., p_n(각 p_i, t_i은 음의 알파벳, 즉 a∼o)이라고 하면, 사용자가 발음한 곡과 유사한 곡을 악곡 데이타베이스(207)에서 찾아주는 과정(503)은 T(501)내에서 P(502)와 충분히 유사한 것을 찾는 과정이 된다. 이때, 사용자 발음의 오류나 잡음에 의해 여러 부정확성이 발생할 수 있다.

따라서, 표 2는 자주 발생할 수 있는 부정확한 상황들을 유형별로 정리하고 있으며, 이와 같은 부정확성 하에서 T와 P간을 비교 했을 때, T 내에서 P와 충분이가까운 부분들을 검색하여 그 부분에 해당하는 곡 정보를 나타낼 수 있다. 이때 곡들은 P와 가장 일치하는 것으로부터 충분히 일치하는 것까지 순서대로 나열해 줄 수 있다.

이와 같은 검색은 기존의 유사 문자열 검색 기법(approximate string matching) 등으로 수행할 경우 O(mn) 복잡도부터 O(n log(m)) 복잡도로 수행될 수 있다. 또한 이러한 검색을 음의 고저 성분과 장단 성분에 대해 독립적으로 수행하여 정확도를 높힐 수 있으며, 여러 가지 기법으로 속도와 정확성을 개선할 수 있다.

결국, 상기의 방법으로 악곡 데이터 베이스(207) 검색 질의를 통하여 사용자가 필요한 곡을 검색해 낼 수 있다.

상술한 바와 같이, 본 발명에 의하면 제한된 버튼 입력장치와 선택적으로 작은 문자 또는 화상 디스플레이를 가지는 전화로 악곡서비스를 받을 때, 곡의 선택을 용이하게 할 수 있다는 효과가 있다.

또한, 본 발명에 의하면 사용자가 노래의 곡명이나 가수를 알지 못하더라도그 노래의 가락 일부를 기억하여 콧노래 등 음성으로 전화기의 송화기를 통해 소리로 곡을 입력하면, 악곡 데이터 베이스 내에 저장된 곡과 서로 비교 및 검색하여 가장 가까운 노래의 리스트를 보여줌으로써 사용자는 용이하게 원하는 곡을 선택할 수 있다는 효과도 있다.

또한, 본 발명에 의하면 단지 노래를 선택하는데 사용될 뿐만 아니라, 사용자가 노래의 가락만 기억하고 노래 제목 등을 모를 때, 그 노래 제목이나 구매 정보를 제공해 주는 유료전화 서비스 또는 통신, 인터넷을 통한 악곡 매체의 상거래에도 이용할 수 있다는 효과가 있다.

Claims

전화를 이용한 노래의 선택 및 검색방법에 있어서,

서비스 제공을 위한 다수의 노래의 곡특성이 저장되어 있는 악곡데이터베이스와, 입력된 가락으로부터 곡특성을 추출하는 곡특성 추출모듈과, 곡특성 추출모듈에서 추출된 악곡정보를 악곡데이터베이스에 저장된 노래의 곡특성과 비교하여 악곡정보에 부합하는 노래를 검색하는 패턴 매칭모듈과, 패턴 매칭모듈에서 검색된 악곡정보에 부합하는 노래를 청각을 통하여 인식할 수 있는 형태가 되도록 출력하는 정보의 음성화모듈을 포함하여 이루어지는 콜서버 시스템에 사용자의 전화기가 통신회선을 통하여 연결되는 콜서버 접속단계와,

사용자의 전화기가 상기 콜서버 시스템에 연결되면, 가창 또는 콧노래 등의 일부 가락을 사용자가 전화기의 송화기를 통하여 입력하는 곡 입력단계와,

상기 가창 또는 콧노래로부터 상기 콜서버의 상기 곡특성 추출모듈이 곡특성을 추출하는 곡특성 추출단계와,

상기 곡특성 추출단계에서 추출된 사용자의 악곡정보를 악곡데이터베이스에 저장된 노래의 곡특성과 비교하여, 사용자의 악곡정보에 부합하는 노래를 검색하는 패턴 매칭단계와,

상기 패턴 매칭모듈에서 검색된 사용자의 악곡정보에 부합하는 노래가 사용자의 청각을 통하여 인식될 수 있도록 상기 정보의 음성화모듈에서 출력되는 정보 취득단계를 포함하여 이루어지는 것을 특징으로 하는 전화를 이용한 노래의 선택 및 검색방법.
삭제
삭제