KR20100042705A

KR20100042705A - 오디오 컨텐츠 검색 방법 및 장치

Info

Publication number: KR20100042705A
Application number: KR1020080101816A
Authority: KR
Inventors: 허성필
Original assignee: 주식회사 케이티
Priority date: 2008-10-17
Filing date: 2008-10-17
Publication date: 2010-04-27

Abstract

오디오 컨텐츠 검색 방법 및 장치가 제공된다. 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법은, (a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계, (b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 단계, (c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 단계 및 (d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계를 포함한다.

허밍(humming), 오디오 정보 검색(Audio Information Retrieval;AIR), 동적 프로그래밍(Dynamic Programming;DP)

Description

오디오 컨텐츠 검색 방법 및 장치{METHOD AND APPARATUS FOR SEARCHING AUDIO CONTENTS}

본 발명은 오디오 컨텐츠 검색 방법 및 장치에 관한 것으로서, 보다 상세하게는, 허밍을 이용하여 오디오 컨텐츠를 검색하는 방법 및 장치에 관한 것이다.

최근, 인터넷, 무선 네트워크 및 초고속 네트워크 등의 발달과 더불어 오디오, 비디오, 이미지, 뮤직 비디오 등과 같은 디지털 멀티미디어 컨텐츠의 사용량이 급증하고 있으며, 교육, 오락, 과학 등 많은 분야에서 다양한 컨텐츠가 개발/제작되어 활용되고 있다.

이러한 방대한 양의 멀티미디어 컨텐츠를 효율적으로 사용 및 관리하기 위해서 정보 검색(Information Retrieval) 시스템이 등장하게 되었으며, 최근에는 정보 검색 시스템을 이용한 동영상과 오디오 정보에 대한 검색 요구가 증가하고 있는 상황이다.

동영상과 오디오와 같은 멀티미디어 컨텐츠를 검색하는 방법은 크게 텍스트 기반 검색(Text-based Retrieval)과 내용 기반 검색으로 분류할 수 있는데, 지난 십수년 동안 내용 기반 검색(Contents-based Retrieval)에 대한 연구는 주로 이미 지와 비디오에 초점이 맞추어 이루어져 왔으며, 오디오 및 음악에 있어 내용 기반 검색에 관한 연구는 거의 이루어지지 못하였다.

그러나 최근 들어 허밍을 입력하는 내용 기반 검색에 대한 연구가 국내외적으로 관심을 받고 있지만, 종래의 대용량 음악 정보 검색 시스템은 검색 속도나 검색 정확도와 같은 검색 성능면에 있어서 만족할 만한 결과를 얻지 못하고 있다.

이에, 한국 공개 특허 제 2004-0101592호(멜로디 질의 기반 음악 검색 방법)에서, 허밍과 같은 질의 입력 멜로디를 통하여 음악을 검색하는 방법을 개시하고 있으나, 검색 대상 음악이 저장된 DB의 크기가 방대한 경우(또는 증가하는 경우) 검색 시간 또한 함께 늘어나는 문제점이 있어, 빠른 속도로 검색이 가능하며 높은 정확도의 검색 결과를 제공하는 음악 검색 방법이 요구되고 있는 실정이다.

상술한 종래 기술의 문제점을 해결하기 위해, 본 발명은 사용자로부터 허밍을 입력 받아, 대용량 컨텐츠 DB로부터 원하는 오디오 컨텐츠를 고속(high speed) 및 고정도(high accuracy)로 검색하여 제공하는 다단계 매칭 방법 및 장치를 제공한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 일 측면에 따른 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법은, (a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계, (b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 단계, (c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 단계 및 (d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계를 포함한다.

상기 목적을 달성하기 위하여, 본 발명의 다른 측면에 따른 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 장치는, 허밍으로부터 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 특징량 추출부, 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 선형 매칭부, 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 동적 프로그래밍(Dynamic Programming) 매칭부 및 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 생성하는 검색 결과 통합부를 포함한다.

상기 목적을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술된 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 실시예들은 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.

전술한 본 발명의 허밍을 이용하여 오디오 컨텐츠를 검색하는 방법 및 장치의 과제 해결 수단 중 하나에 의하면, 허밍을 이용한 검색에서, 대용량 컨텐츠 DB 로부터 원하는 오디오 컨텐츠를 고속(high speed) 및 고정도(high accuracy)로 검색하여 제공할 수 있다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명하도록 한다.

그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

참고로, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1 은 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시 스템의 개요를 도시한 도면이다.

본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시스템은, 클라이언트-서버 환경으로서, 사용자 단말(110) 및 컨텐츠 제공 서버(120)를 포함한다.

여기에서 사용자 단말(110)은 데스크 탑 컴퓨터, 노트북 컴퓨터, 랩톱(laptop) 컴퓨터 및 개인 휴대용 단말기를 포함하며, 휴대용 단말기는 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PDA(Personal Digital Assistant), CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함한다.

참고로, 사용자 단말(110)이 데스크 탑 컴퓨터, 노트북 컴퓨터 및 랩톱 컴퓨터와 같은 단말인 경우, 해당 컴퓨터에 내장된 마이크나 해당 컴퓨터와 연결된 별도의 음성 인식 장치를 통해서 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전달 할 수 있다.

또한, 사용자 단말(110)이 개인 휴대용 단말인 경우, 개인 휴대용 단말에서 음성을 전달하는 송화부를 통해 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전달 할 수 있다.

상술한 사용자 단말(110)은 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전 달하고, 허밍과 유사한 부분을 포함하는 오디오 컨텐츠 정보를 컨텐츠 제공 서버(120)로부터 수신하여 사용자 단말(110)의 화면에 디스플레이한다.

한편, 컨텐츠 제공 서버(120)는 대용량 컨텐츠 DB를 포함한다. 대용량 컨텐츠 DB는 악보, 피아노, 전자악기, MP3 및 음악 CD 등을 통해 구축된 각종 오디오 컨텐츠의 음원 DB를 포함하며, 또한, 주선율인 멜로디 정보를 추출하여 메타데이터의 형태로 구축된 상대음고차, 상대음장비 계열의 메타데이터 DB를 포함한다.

사용자 단말(110)로부터 허밍이 입력되면 컨텐츠 제공 서버(120)는 입력된 허밍(더 상세하게는 허밍 신호)로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하고, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다.

또한, 컨텐츠 제공 서버(120)는 허밍의 음표에 대한 음고의 전후 변화값과 대용량 컨텐츠 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성한다(이하, 선형 매칭법이라 칭함).

여기에서 유사도는 허밍과 대용량 컨텐츠 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 큰 값을 가지며, 컨텐츠 제공 서버(120)는 허밍 질의에 부합한 후보곡을 1차로 필터링하여, 유사도 값이 큰 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.

또한, 컨텐츠 제공 서버(120)는 선형 매칭법의 결과인 제 1 검색 결과의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming, 이하 DP라 칭함) 매칭 을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다(이하, DP 매칭법이라 칭함).

여기에서 거리값은 허밍과 대용량 컨텐츠 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 작은 값을 가지며, 컨텐츠 제공 서버(120)는 거리값이 작은 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.

또한, 컨텐츠 제공 서버(120)는 상술한 바와 같은 선형 매칭법 및 DP 매칭법을 통한 제 1 검색 결과 및 제 2 검색 결과를 통합하여, 최종 검색 결과인 상위 m개의 오디오 컨텐츠의 정보를 사용자 단말(110)에게 제공한다.

이때, 제 1 검색 결과 및 제 2 검색 결과의 통합은 각 검색 결과의 검색값을 단순히 적용하는 것이 아니라, 각 검색 결과의 검색값에 대해 통합 함수를 적용하며, 이 통합 함수는 통합 계수를 포함한다.

통합 함수 및 통합 계수에 대한 설명은 후술하기로 한다.

참고로, 상술한 사용자 단말(110) 및 컨텐츠 제공 서버(120)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나, 이동 통신망(mobile radio communication network), 위성 통신망, 블루투스(Bluetooth), Wibro(Wireless Broadband Internet), HSDPA(High Speed Downlink Packet Access) 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.

도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 서버(120)의 구성을 도시한 블록도이다.

본 발명의 일 실시예에 따른 컨텐츠 제공 서버(120)는 대용량 컨텐츠 DB(121), 허밍 질의 입력부(122), 특징량 추출부(123), 선형 매칭부(124), DP 매칭부(125), 검색 결과 통합부(126) 및 전송부(127)를 포함한다.

참고로, 본 발명의 실시예에 따른 도 2에 도시된 구성요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미하며, 소정의 역할들을 수행한다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

먼저, 대용량 컨텐츠 DB(121)는 악보, 피아노, 전자악기, MP3 및 음악 CD 등을 통해 구축된 각종 오디오 컨텐츠의 음원을 저장하는 음원 DB(121a)와, 주선율인 멜로디 정보가 추출되어 메타데이터의 형태로 구축된 상대음고차, 상대음장비 계열 의 메타데이터를 저장하는 메타데이터 DB(121b)를 포함한다.

도 3은 본 발명의 일 실시예에 따른 대용량 컨텐츠 DB(121)의 구성을 도시한 도면이다.

본 발명의 일 실시예에 따른 메타데이터 DB(121b)는, 메타데이터(301), 오디오 컨텐츠명(302), 파일명(303), 파일 크기(304), 컨텐츠 재생 시간(305) 등의 각종 정보가 기록될 수 있다.

한편, 허밍 질의 입력부(122)는 사용자 단말(110)로부터 허밍(더 상세하게는 허밍 신호)을 입력 받는다. 이때, 사용자 단말(110)에 입력되는 허밍은, 사용자가 사용자 단말(110)에 내장된(또는 별도로 연결된) 마이크 또는 송화부를 통해 자유로운 음고, 자유로운 템포로 자신이 기억하는 악곡의 일부분을 노래 부름으로써 이루어진다.

허밍 방법은 휘파람 또는 ‘라라라’, ‘나나나’, ‘차차차’ 와 같은 음절 형태로 하나의 음표를 노래하는 방법을 사용한다. 이 방법의 장점은 전체 시스템에 있어 안정된 선율 정보의 추출이 용이하고 사용자에게도 무리 없는 멜로디 입력 방법이라는 점이다.

한편, 특징량 추출부(123)는 입력된 허밍으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하고, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다.

여기에서 음장은 duration과 IOI(Inter Onset Interval)로 정의할 수 있다. duration은 어떤 음표의 시작 시간과 그 음표의 종료 시간의 차를 의미하며, IOI(또는 스팬(span))는 어떤 음표의 시작 시간에 대한 그 다음 음표의 시작 시간의 차를 의미한다.

참고로, 사용자가 노래를 부를 때, 긴 음표(예를 들어, 이분 음표 이상)에 대해서 실제 음장 길이만큼 정확하게 노래를 부르지 않고 스타카토(staccato) 형태로 노래를 끊어서 부르는 경우가 많기 때문에, duration 보다는 IOI가 더 좋은 검색 결과를 보인다. 따라서 본 발명의 실시예에서는 음장의 특징량으로 IOI를 사용하도록 한다.

이하, 특징량 추출부(123)에서, 입력된 허밍으로부터 특징량을 추출하는 방법을 상세히 설명하도록 한다.

특징량 추출부(123)는 음고(pitch), 음장(IOI)의 동정(identification)을 통해 특징량을 추출한다. 이때, 음장은 입력된 허밍으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별함으로써 구할 수 있고, 음고는 검출된 음표에서 진폭이 안정된 구간에 대해 켑스트럼(cepstrum) 분석을 통해 기본 주파수를 추출함으로써 구할 수 있다.

이후, 특징량 추출부(123)는 동정(identification)된 음고(pitch), 음장(IOI)의 계열(sequence)을 각각의 상대 음고차(deltaPitch), 상대 음장비(IOIratio)로 변환하여 심볼 멜로디 표현 시퀀스를 생성한다.

이때, 음고차(deltaPitch)는 반음(semitone)의 차가 100 센트가 되도록 정규화하고, 상대 음장비(IOIratio)는 바로 이전의 음장과의 비를 백분율(%)로 표현하는데, 이는 검색에 필요한 정보만을 심볼 멜로디 시퀀스로 변환하여 트래픽의 양을 최소화하기 위함이다.

예를 들어, 특징량 추출부(123)에서 입력된 허밍으로부터 아래와 같은 시계열의 값을 추출했다고 가정하면,

- 허밍 음장 시계열 :

{245, 123, 247, 250, 249, 124, 125, 510} [단위: ms]

- 허밍 음고 시계열 :

{260, 292, 331, 393, 392, 348, 330, 261} [단위: Hz]

상기한 바와 같이 동정(identification)된 음장, 음고의 시계열에 대해 특징량 추출부(123)는 아래와 같이 상대화를 수행한다.

- 허밍 상대 음장비(IOIratio) :

{50.2 200.8 101.2 99.2 49.8 100.8 408.0} [단위: %]

- 허밍 상대 음고차(deltaPitch) :

{198 201 297 2 -203 -98 -394} [단위: cent]

한편, 선형 매칭부(124)는 특징량 추출부(123)에서 추출한 음고의 전후 변화값과 대용량 컨텐츠 DB(121)에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하는 선형 매칭법(Linear Matching)을 이용하여 고속(High Speed)의 제 1 검색 결과를 생성한다.

여기에서 유사도는 입력된 허밍과 대용량 컨텐츠 DB(121)에 기 저장된 오디 오 컨텐츠의 일 부분이 일치하는 정도가 클수록 큰 값을 가지며, 선형 매칭부(124)는 유사도가 큰 순서대로 상위 n개의 오디오 컨텐츠를 제 1 검색 결과로 제공한다.

선형 매칭부(124)는 상기한 선형 매칭법을 이용함으로써, 예를 들어, 수 만개의 오디오 컨텐츠를 필터링하여, 입력된 허밍과 유사한 수 백개의 오디오 컨텐츠(제 1 검색 결과)를 DP 매칭부(125)에게 전달할 수 있다.

참고로, 제 1 검색 결과의 상위 개수 n은 컨텐츠 제공 서버(120)의 운영자에 의해서 설정이 가능할 수 있다.

도 4는 본 발명의 일 실시예에 따른 선형 매칭법의 성능을 조사하기 위한 실험 데이터를 나타낸 도면이다.

선형 매칭법의 성능을 조사하기 위해 10,155곡의 대용량 오디오 DB를 대상으로 실험하였으며, 이중 155곡은 동요로 구성되어 있다. 또한, 나머지 1만곡은 확률적 언어 모델인 n-gram을 이용하여 자동적으로 생성한 곡을 사용하였으며, n-gram의 확률은 동요 155곡으로부터 추정하였다.

선형 매칭법의 성능 실험은 예비 선택율(pre-selection rate)과 재현율(recall rate)이라는 두개의 요소로 평가를 수행한다. 예비 선택율은 DB에 저장된 전체 오디오 컨텐츠 중 1차 검색 결과로 필터링될 수 있는 확률이며, 재현율은 1차 검색 결과 내에 허밍과 일치하는 오디오 컨텐츠가 포함될 수 있는 확률을 의미한다.

만일 M개의 곡을 저장하고 있는 DB에 대해서, 허밍 질의수를 Nq, 모든 허밍 질의에 대해 선택된 후보곡 수를 Nc, 전체 후보곡에서 허밍과 일치하는 곡이 포함 된 수를 Nr이라고 하면, 예비 선택율 Rp와 재현율 Rr을 아래와 같이 나타낼 수 있다.

도 4에 나타난 실험 데이터를 이용하여 실험한 본 발명의 일 실시예에 따른 선형 매칭의 성능은, 입력된 허밍 질의에 부합한 제 1 검색 결과를 제공하는데 있어서, 예비 선택율 30%에 재현율은 약 96%, 검색 시간은 약 0.5초 이내의 성능을 보였다.

한편, DP 매칭부(125)는 선형 매칭부(124)를 통해 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대해 DP 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다.

여기에서 거리값은, 허밍과 대용량 컨텐츠 DB(121)에 기 저장된 오디오 컨텐 츠의 일 부분이 일치하는 정도가 클수록 작은 값을 가지며, DP 매칭부(125)는 거리값이 작은 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.

여기에서 제 2 검색 결과의 상위 개수 n은 컨텐츠 제공 서버(120)의 운영자에 의해서 설정이 가능할 수 있다.

이하, DP 매칭부(125)에의한 DP 매칭 과정을 상세하게 설명하도록 한다.

설명의 편의 상, 특징량 추출부(123)에서 예로 들었던 시계열 값 및 상대화 값을 참조하기로 한다.

특징량 추출부(123)에서, 입력된 허밍으로부터 아래와 같은 시계열의 값을 추출하고,

- 허밍 음장 시계열 :

{245, 123, 247, 250, 249, 124, 125, 510} [단위: ms]

- 허밍 음고 시계열 :

{260, 292, 331, 393, 392, 348, 330, 261} [단위: Hz]

상기한 바와 같은 동정(identification)된 음장, 음고의 시계열에 대해 아래와 같이 상대화를 수행했다고 가정하면,

- 허밍 상대 음장비(IOIratio) :

{50.2 200.8 101.2 99.2 49.8 100.8 408.0} [단위: %]

- 허밍 상대 음고차(deltaPitch) :

{198 201 297 2 -203 -98 -394} [단위: cent]

DP 매칭부(125)는 상기한 바와 같은 입력된 허밍의 상대화 값과, 선형 매칭부(124)를 통해 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대한 상대화 값에 대하여 DP 매칭을 수행한다.

예를 들어, 제 1 검색 결과의 오디오 컨텐츠 중 n번째 컨텐츠에 대한 시계열 값이 아래와 같고,

- 제 1 검색 결과 중 n번째 컨텐츠의 음장 시계열 :

{4분음표, 8분음표, 4분음표, 4분음표, 4분음표, 8분음표, 8분음표, 2분음표}

- 제 1 검색 결과 중 n번째 컨텐츠의 음고 시계열 :

{ 도 레 미 솔 솔 파 미 도 }

대용량 컨텐츠 DB(121), 더 상세히는 메타데이터 DB(121b)에 저장된 상대화 값이 아래와 같다고 가정하면,

- 제 1 검색 결과 중 n번째 컨텐츠의 상대 음장비(IOIratio) :

{50 200 100 100 50 100 400} [단위: %]

- 제 1 검색 결과 중 n번째 컨텐츠의 상대 음고차(deltaPitch) :

{200 200 300 0 -200 -100 -400} [단위: cent]

DP 매칭부(125)는 상기한 입력 허밍의 상대화 값과 상기한 메타데이터 DB(121b)에 저장된 상대화 값에 대해서 DP 매칭을 이용하여 거리값을 계산한다.

참고로, 거리값은 아래의 수식을 통해 계산될 수 있다.

입력된 허밍과 대용량 컨텐츠 DB(121)에 저장된 m번째 오디오 컨텐츠에 대한 거리를 Dm, 허밍의 j번째 음표에 대한 상대화 값을 h(j), 대용량 컨텐츠 DB(121)에 저장된 m번째 오디오 컨텐츠의 i번째 음표에 대한 상대화 값을 dm(i)라고 하면, 거리 Dm은 반복적으로 계산이 가능하고,

을 통해 가장 작은 거리값을 가진 오디오 컨텐츠 순으로 결과를 생성한다.

한편, 검색 결과 통합부(126)는 선형 매칭을 이용한 제 1 검색 결과값(S)과 DP 매칭을 이용한 제 2 검색 결과값(D)을 통합하여 최종 결과를 생성하며, 이때, 통합 계수를 포함하는 통합 함수를 이용한다.

통합 계수

를 포함하는 통함 함수 F는

또는

로 나타낼 수 있다.

참고로, 통합 계수

인 경우, DP 매칭에 의한 결과만으로 최종 통 합을 실행했음을 의미하고, 통합 계수

인 경우, 선형 매칭에 의한 결과만으로 최종 통합을 실행했음을 의미한다. 참고로,

값은 실험에 의해 도출해 낸다.

한편, 전송부(127)는 검색 결과 통합부(126)에서 통합한 최종 결과에 대한 정보를 사용자 단말(110)에게 전송한다. 이때, 전송부(128)는 통합된 최종 결과인 상위 m개의 오디오 컨텐츠에 대한 정보를 사용자 단말(110)에게 전송한다.

도 5는 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 과정을 도시한 흐름도이다.

설명의 편의 상, 도 1에 도시된 시스템 및 도 2에 도시된 컨텐츠 제공 서버(120)의 구성을 참조하여 설명하도록 하며, 컨텐츠 제공 서버(120)의 대용량 컨텐츠 DB(121)에는 다수의 오디오 컨텐츠에 대한 음원 및 메타데이터가 저장되어 있다고 가정하도록 한다.

먼저, 허밍 질의 입력부(122)는 사용자 단말(110)로부터 허밍 신호를 입력 받는다(S501).

단계 S501 후, 특징량 추출부(123)는 입력된 허밍(더 상세하게는 허밍 신호)으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다(S502).

단계 S502 후, 선형 매칭부(124)는 단계 S502에서 추출된 음고의 전후 변화 값과 대용량 컨텐츠 DB(121)에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성한다(S503).

단계 S503 후, DP 매칭부(125)는 단계 S503에서 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대해 DP 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다(S504).

단계 S504 후, 검색 결과 통합부(126)는 선형 매칭을 이용한 제 1 검색 결과값(S)과 DP 매칭을 이용한 제 2 검색 결과값(D)을 통합하여 최종 결과를 생성한다(S505).

이때, 통합된 최종 결과 생성에는 통합 계수를 포함하는 통합 함수를 이용하며, 통합 계수

를 포함하는 통함 함수 F는

또는

로 나타낼 수 있다.

단계 S505 후, 전송부(127)는 검색 결과 통합부(126)에서 통합된 최종 결과에 대한 정보를 사용자 단말(110)에게 전송한다(S506).

이때, 전송부(128)는 통합된 최종 결과인 상위 m개의 오디오 컨텐츠에 대한 정보를 사용자 단말(110)에게 전송한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

도 1 은 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시스템의 개요를 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 서버의 구성을 도시한 블록도이다.

도 3은 본 발명의 일 실시예에 따른 대용량 컨텐츠 DB의 구성을 도시한 도면이다.

< 도면의 주요 부분에 관한 부호의 설명 >

121 : 대용량 컨텐츠 DB 121a : 음원 DB 121b : 메타데이터 DB

122 : 허밍 질의 입력부

123 : 특징량 추출부

124 : 선형 매칭부

125 : DP 매칭부

126 : 검색 결과 통합부

127 : 전송부

Claims

허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법에 있어서,

(a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계,

(b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 제 1 검색 결과를 생성하는 단계,

(c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 제 2 검색 결과를 생성하는 단계 및

(d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계

를 포함하는, 오디오 컨텐츠 검색 방법.
제 1 항에 있어서,

상기 음장은 소정 음표의 시작 시간과 그 음표의 종료 시간의 차인 duration 및 소정 음표의 시작 시간에 대해 그 다음 음표의 시작 시간의 차인 IOI(Inter Onset Interval) 중 어느 하나를 사용하는 것인, 오디오 컨텐츠 검색 방법.
제 1 항에 있어서,

상기 유사도는 선행 매칭법에 의해 산출되는 것인, 오디오 컨텐츠 검색 방법.
제 3 항에 있어서,

상기 제 1 검색 결과는 상기 유사도가 큰 순서로 제공되는 것인, 오디오 컨텐츠 검색 방법.
제 1 항에 있어서,

상기 거리값은 상기 허밍과 상기 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 작은 값을 갖는 것인, 오디오 컨텐츠 검색 방법.
제 1 항에 있어서,

상기 (e) 단계의 통합은 통합 계수를 포함하는 통합 함수를 통하여 실행되는 것인, 오디오 컨텐츠 검색 방법.
허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 장치에 있어서,

허밍으로부터 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 특징량 추출부,

상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 제 1 검색 결과를 생성하는 선형 매칭부,

상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 제 2 검색 결과를 생성하는 동적 프로그래밍(Dynamic Programming) 매칭부 및

상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 생성하는 검색 결과 통합부

를 포함하는, 오디오 컨텐츠 검색 장치.
제 7 항에 있어서,

상기 선형 매칭부는 상기 DB에 저장된 전체 오디오 컨텐츠 중 상기 1차 검색 결과로 필터링될 수 있는 확률인 예비 선택율과, 상기 1 차 검색 결과 내에 상기 허밍과 일치하는 오디오 컨텐츠가 포함될 수 있는 확률인 재현율로 선형 매칭의 성능을 나타내는, 오디오 컨텐츠 검색 장치.