KR20100042705A - 오디오 컨텐츠 검색 방법 및 장치 - Google Patents

오디오 컨텐츠 검색 방법 및 장치 Download PDF

Info

Publication number
KR20100042705A
KR20100042705A KR1020080101816A KR20080101816A KR20100042705A KR 20100042705 A KR20100042705 A KR 20100042705A KR 1020080101816 A KR1020080101816 A KR 1020080101816A KR 20080101816 A KR20080101816 A KR 20080101816A KR 20100042705 A KR20100042705 A KR 20100042705A
Authority
KR
South Korea
Prior art keywords
search result
humming
audio content
note
pitch
Prior art date
Application number
KR1020080101816A
Other languages
English (en)
Inventor
허성필
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020080101816A priority Critical patent/KR20100042705A/ko
Publication of KR20100042705A publication Critical patent/KR20100042705A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

오디오 컨텐츠 검색 방법 및 장치가 제공된다. 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법은, (a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계, (b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 단계, (c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 단계 및 (d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계를 포함한다.
허밍(humming), 오디오 정보 검색(Audio Information Retrieval;AIR), 동적 프로그래밍(Dynamic Programming;DP)

Description

오디오 컨텐츠 검색 방법 및 장치{METHOD AND APPARATUS FOR SEARCHING AUDIO CONTENTS}
본 발명은 오디오 컨텐츠 검색 방법 및 장치에 관한 것으로서, 보다 상세하게는, 허밍을 이용하여 오디오 컨텐츠를 검색하는 방법 및 장치에 관한 것이다.
최근, 인터넷, 무선 네트워크 및 초고속 네트워크 등의 발달과 더불어 오디오, 비디오, 이미지, 뮤직 비디오 등과 같은 디지털 멀티미디어 컨텐츠의 사용량이 급증하고 있으며, 교육, 오락, 과학 등 많은 분야에서 다양한 컨텐츠가 개발/제작되어 활용되고 있다.
이러한 방대한 양의 멀티미디어 컨텐츠를 효율적으로 사용 및 관리하기 위해서 정보 검색(Information Retrieval) 시스템이 등장하게 되었으며, 최근에는 정보 검색 시스템을 이용한 동영상과 오디오 정보에 대한 검색 요구가 증가하고 있는 상황이다.
동영상과 오디오와 같은 멀티미디어 컨텐츠를 검색하는 방법은 크게 텍스트 기반 검색(Text-based Retrieval)과 내용 기반 검색으로 분류할 수 있는데, 지난 십수년 동안 내용 기반 검색(Contents-based Retrieval)에 대한 연구는 주로 이미 지와 비디오에 초점이 맞추어 이루어져 왔으며, 오디오 및 음악에 있어 내용 기반 검색에 관한 연구는 거의 이루어지지 못하였다.
그러나 최근 들어 허밍을 입력하는 내용 기반 검색에 대한 연구가 국내외적으로 관심을 받고 있지만, 종래의 대용량 음악 정보 검색 시스템은 검색 속도나 검색 정확도와 같은 검색 성능면에 있어서 만족할 만한 결과를 얻지 못하고 있다.
이에, 한국 공개 특허 제 2004-0101592호(멜로디 질의 기반 음악 검색 방법)에서, 허밍과 같은 질의 입력 멜로디를 통하여 음악을 검색하는 방법을 개시하고 있으나, 검색 대상 음악이 저장된 DB의 크기가 방대한 경우(또는 증가하는 경우) 검색 시간 또한 함께 늘어나는 문제점이 있어, 빠른 속도로 검색이 가능하며 높은 정확도의 검색 결과를 제공하는 음악 검색 방법이 요구되고 있는 실정이다.
상술한 종래 기술의 문제점을 해결하기 위해, 본 발명은 사용자로부터 허밍을 입력 받아, 대용량 컨텐츠 DB로부터 원하는 오디오 컨텐츠를 고속(high speed) 및 고정도(high accuracy)로 검색하여 제공하는 다단계 매칭 방법 및 장치를 제공한다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 측면에 따른 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법은, (a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계, (b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 단계, (c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 단계 및 (d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계를 포함한다.
상기 목적을 달성하기 위하여, 본 발명의 다른 측면에 따른 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 장치는, 허밍으로부터 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 특징량 추출부, 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성하는 선형 매칭부, 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성하는 동적 프로그래밍(Dynamic Programming) 매칭부 및 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 생성하는 검색 결과 통합부를 포함한다.
상기 목적을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술된 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 실시예들은 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.
전술한 본 발명의 허밍을 이용하여 오디오 컨텐츠를 검색하는 방법 및 장치의 과제 해결 수단 중 하나에 의하면, 허밍을 이용한 검색에서, 대용량 컨텐츠 DB 로부터 원하는 오디오 컨텐츠를 고속(high speed) 및 고정도(high accuracy)로 검색하여 제공할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명하도록 한다.
그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
참고로, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 1 은 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시 스템의 개요를 도시한 도면이다.
본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시스템은, 클라이언트-서버 환경으로서, 사용자 단말(110) 및 컨텐츠 제공 서버(120)를 포함한다.
여기에서 사용자 단말(110)은 데스크 탑 컴퓨터, 노트북 컴퓨터, 랩톱(laptop) 컴퓨터 및 개인 휴대용 단말기를 포함하며, 휴대용 단말기는 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PDA(Personal Digital Assistant), CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함한다.
참고로, 사용자 단말(110)이 데스크 탑 컴퓨터, 노트북 컴퓨터 및 랩톱 컴퓨터와 같은 단말인 경우, 해당 컴퓨터에 내장된 마이크나 해당 컴퓨터와 연결된 별도의 음성 인식 장치를 통해서 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전달 할 수 있다.
또한, 사용자 단말(110)이 개인 휴대용 단말인 경우, 개인 휴대용 단말에서 음성을 전달하는 송화부를 통해 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전달 할 수 있다.
상술한 사용자 단말(110)은 사용자의 허밍을 컨텐츠 제공 서버(120)에게 전 달하고, 허밍과 유사한 부분을 포함하는 오디오 컨텐츠 정보를 컨텐츠 제공 서버(120)로부터 수신하여 사용자 단말(110)의 화면에 디스플레이한다.
한편, 컨텐츠 제공 서버(120)는 대용량 컨텐츠 DB를 포함한다. 대용량 컨텐츠 DB는 악보, 피아노, 전자악기, MP3 및 음악 CD 등을 통해 구축된 각종 오디오 컨텐츠의 음원 DB를 포함하며, 또한, 주선율인 멜로디 정보를 추출하여 메타데이터의 형태로 구축된 상대음고차, 상대음장비 계열의 메타데이터 DB를 포함한다.
사용자 단말(110)로부터 허밍이 입력되면 컨텐츠 제공 서버(120)는 입력된 허밍(더 상세하게는 허밍 신호)로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하고, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다.
또한, 컨텐츠 제공 서버(120)는 허밍의 음표에 대한 음고의 전후 변화값과 대용량 컨텐츠 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성한다(이하, 선형 매칭법이라 칭함).
여기에서 유사도는 허밍과 대용량 컨텐츠 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 큰 값을 가지며, 컨텐츠 제공 서버(120)는 허밍 질의에 부합한 후보곡을 1차로 필터링하여, 유사도 값이 큰 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.
또한, 컨텐츠 제공 서버(120)는 선형 매칭법의 결과인 제 1 검색 결과의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming, 이하 DP라 칭함) 매칭 을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다(이하, DP 매칭법이라 칭함).
여기에서 거리값은 허밍과 대용량 컨텐츠 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 작은 값을 가지며, 컨텐츠 제공 서버(120)는 거리값이 작은 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.
또한, 컨텐츠 제공 서버(120)는 상술한 바와 같은 선형 매칭법 및 DP 매칭법을 통한 제 1 검색 결과 및 제 2 검색 결과를 통합하여, 최종 검색 결과인 상위 m개의 오디오 컨텐츠의 정보를 사용자 단말(110)에게 제공한다.
이때, 제 1 검색 결과 및 제 2 검색 결과의 통합은 각 검색 결과의 검색값을 단순히 적용하는 것이 아니라, 각 검색 결과의 검색값에 대해 통합 함수를 적용하며, 이 통합 함수는 통합 계수를 포함한다.
통합 함수 및 통합 계수에 대한 설명은 후술하기로 한다.
참고로, 상술한 사용자 단말(110) 및 컨텐츠 제공 서버(120)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나, 이동 통신망(mobile radio communication network), 위성 통신망, 블루투스(Bluetooth), Wibro(Wireless Broadband Internet), HSDPA(High Speed Downlink Packet Access) 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 서버(120)의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 컨텐츠 제공 서버(120)는 대용량 컨텐츠 DB(121), 허밍 질의 입력부(122), 특징량 추출부(123), 선형 매칭부(124), DP 매칭부(125), 검색 결과 통합부(126) 및 전송부(127)를 포함한다.
참고로, 본 발명의 실시예에 따른 도 2에 도시된 구성요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미하며, 소정의 역할들을 수행한다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
먼저, 대용량 컨텐츠 DB(121)는 악보, 피아노, 전자악기, MP3 및 음악 CD 등을 통해 구축된 각종 오디오 컨텐츠의 음원을 저장하는 음원 DB(121a)와, 주선율인 멜로디 정보가 추출되어 메타데이터의 형태로 구축된 상대음고차, 상대음장비 계열 의 메타데이터를 저장하는 메타데이터 DB(121b)를 포함한다.
도 3은 본 발명의 일 실시예에 따른 대용량 컨텐츠 DB(121)의 구성을 도시한 도면이다.
본 발명의 일 실시예에 따른 메타데이터 DB(121b)는, 메타데이터(301), 오디오 컨텐츠명(302), 파일명(303), 파일 크기(304), 컨텐츠 재생 시간(305) 등의 각종 정보가 기록될 수 있다.
한편, 허밍 질의 입력부(122)는 사용자 단말(110)로부터 허밍(더 상세하게는 허밍 신호)을 입력 받는다. 이때, 사용자 단말(110)에 입력되는 허밍은, 사용자가 사용자 단말(110)에 내장된(또는 별도로 연결된) 마이크 또는 송화부를 통해 자유로운 음고, 자유로운 템포로 자신이 기억하는 악곡의 일부분을 노래 부름으로써 이루어진다.
허밍 방법은 휘파람 또는 ‘라라라’, ‘나나나’, ‘차차차’ 와 같은 음절 형태로 하나의 음표를 노래하는 방법을 사용한다. 이 방법의 장점은 전체 시스템에 있어 안정된 선율 정보의 추출이 용이하고 사용자에게도 무리 없는 멜로디 입력 방법이라는 점이다.
한편, 특징량 추출부(123)는 입력된 허밍으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하고, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다.
여기에서 음장은 duration과 IOI(Inter Onset Interval)로 정의할 수 있다. duration은 어떤 음표의 시작 시간과 그 음표의 종료 시간의 차를 의미하며, IOI(또는 스팬(span))는 어떤 음표의 시작 시간에 대한 그 다음 음표의 시작 시간의 차를 의미한다.
참고로, 사용자가 노래를 부를 때, 긴 음표(예를 들어, 이분 음표 이상)에 대해서 실제 음장 길이만큼 정확하게 노래를 부르지 않고 스타카토(staccato) 형태로 노래를 끊어서 부르는 경우가 많기 때문에, duration 보다는 IOI가 더 좋은 검색 결과를 보인다. 따라서 본 발명의 실시예에서는 음장의 특징량으로 IOI를 사용하도록 한다.
이하, 특징량 추출부(123)에서, 입력된 허밍으로부터 특징량을 추출하는 방법을 상세히 설명하도록 한다.
특징량 추출부(123)는 음고(pitch), 음장(IOI)의 동정(identification)을 통해 특징량을 추출한다. 이때, 음장은 입력된 허밍으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별함으로써 구할 수 있고, 음고는 검출된 음표에서 진폭이 안정된 구간에 대해 켑스트럼(cepstrum) 분석을 통해 기본 주파수를 추출함으로써 구할 수 있다.
이후, 특징량 추출부(123)는 동정(identification)된 음고(pitch), 음장(IOI)의 계열(sequence)을 각각의 상대 음고차(deltaPitch), 상대 음장비(IOIratio)로 변환하여 심볼 멜로디 표현 시퀀스를 생성한다.
이때, 음고차(deltaPitch)는 반음(semitone)의 차가 100 센트가 되도록 정규화하고, 상대 음장비(IOIratio)는 바로 이전의 음장과의 비를 백분율(%)로 표현하는데, 이는 검색에 필요한 정보만을 심볼 멜로디 시퀀스로 변환하여 트래픽의 양을 최소화하기 위함이다.
예를 들어, 특징량 추출부(123)에서 입력된 허밍으로부터 아래와 같은 시계열의 값을 추출했다고 가정하면,
- 허밍 음장 시계열 :
{245, 123, 247, 250, 249, 124, 125, 510} [단위: ms]
- 허밍 음고 시계열 :
{260, 292, 331, 393, 392, 348, 330, 261} [단위: Hz]
상기한 바와 같이 동정(identification)된 음장, 음고의 시계열에 대해 특징량 추출부(123)는 아래와 같이 상대화를 수행한다.
- 허밍 상대 음장비(IOIratio) :
{50.2 200.8 101.2 99.2 49.8 100.8 408.0} [단위: %]
- 허밍 상대 음고차(deltaPitch) :
{198 201 297 2 -203 -98 -394} [단위: cent]
한편, 선형 매칭부(124)는 특징량 추출부(123)에서 추출한 음고의 전후 변화값과 대용량 컨텐츠 DB(121)에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하는 선형 매칭법(Linear Matching)을 이용하여 고속(High Speed)의 제 1 검색 결과를 생성한다.
여기에서 유사도는 입력된 허밍과 대용량 컨텐츠 DB(121)에 기 저장된 오디 오 컨텐츠의 일 부분이 일치하는 정도가 클수록 큰 값을 가지며, 선형 매칭부(124)는 유사도가 큰 순서대로 상위 n개의 오디오 컨텐츠를 제 1 검색 결과로 제공한다.
선형 매칭부(124)는 상기한 선형 매칭법을 이용함으로써, 예를 들어, 수 만개의 오디오 컨텐츠를 필터링하여, 입력된 허밍과 유사한 수 백개의 오디오 컨텐츠(제 1 검색 결과)를 DP 매칭부(125)에게 전달할 수 있다.
참고로, 제 1 검색 결과의 상위 개수 n은 컨텐츠 제공 서버(120)의 운영자에 의해서 설정이 가능할 수 있다.
도 4는 본 발명의 일 실시예에 따른 선형 매칭법의 성능을 조사하기 위한 실험 데이터를 나타낸 도면이다.
선형 매칭법의 성능을 조사하기 위해 10,155곡의 대용량 오디오 DB를 대상으로 실험하였으며, 이중 155곡은 동요로 구성되어 있다. 또한, 나머지 1만곡은 확률적 언어 모델인 n-gram을 이용하여 자동적으로 생성한 곡을 사용하였으며, n-gram의 확률은 동요 155곡으로부터 추정하였다.
선형 매칭법의 성능 실험은 예비 선택율(pre-selection rate)과 재현율(recall rate)이라는 두개의 요소로 평가를 수행한다. 예비 선택율은 DB에 저장된 전체 오디오 컨텐츠 중 1차 검색 결과로 필터링될 수 있는 확률이며, 재현율은 1차 검색 결과 내에 허밍과 일치하는 오디오 컨텐츠가 포함될 수 있는 확률을 의미한다.
만일 M개의 곡을 저장하고 있는 DB에 대해서, 허밍 질의수를 Nq, 모든 허밍 질의에 대해 선택된 후보곡 수를 Nc, 전체 후보곡에서 허밍과 일치하는 곡이 포함 된 수를 Nr이라고 하면, 예비 선택율 Rp와 재현율 Rr을 아래와 같이 나타낼 수 있다.
Figure 112008072168309-PAT00001
Figure 112008072168309-PAT00002
도 4에 나타난 실험 데이터를 이용하여 실험한 본 발명의 일 실시예에 따른 선형 매칭의 성능은, 입력된 허밍 질의에 부합한 제 1 검색 결과를 제공하는데 있어서, 예비 선택율 30%에 재현율은 약 96%, 검색 시간은 약 0.5초 이내의 성능을 보였다.
한편, DP 매칭부(125)는 선형 매칭부(124)를 통해 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대해 DP 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다.
여기에서 거리값은, 허밍과 대용량 컨텐츠 DB(121)에 기 저장된 오디오 컨텐 츠의 일 부분이 일치하는 정도가 클수록 작은 값을 가지며, DP 매칭부(125)는 거리값이 작은 순서대로 상위 n개의 오디오 컨텐츠를 검색 결과로 제공한다.
여기에서 제 2 검색 결과의 상위 개수 n은 컨텐츠 제공 서버(120)의 운영자에 의해서 설정이 가능할 수 있다.
이하, DP 매칭부(125)에의한 DP 매칭 과정을 상세하게 설명하도록 한다.
설명의 편의 상, 특징량 추출부(123)에서 예로 들었던 시계열 값 및 상대화 값을 참조하기로 한다.
특징량 추출부(123)에서, 입력된 허밍으로부터 아래와 같은 시계열의 값을 추출하고,
- 허밍 음장 시계열 :
{245, 123, 247, 250, 249, 124, 125, 510} [단위: ms]
- 허밍 음고 시계열 :
{260, 292, 331, 393, 392, 348, 330, 261} [단위: Hz]
상기한 바와 같은 동정(identification)된 음장, 음고의 시계열에 대해 아래와 같이 상대화를 수행했다고 가정하면,
- 허밍 상대 음장비(IOIratio) :
{50.2 200.8 101.2 99.2 49.8 100.8 408.0} [단위: %]
- 허밍 상대 음고차(deltaPitch) :
{198 201 297 2 -203 -98 -394} [단위: cent]
DP 매칭부(125)는 상기한 바와 같은 입력된 허밍의 상대화 값과, 선형 매칭부(124)를 통해 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대한 상대화 값에 대하여 DP 매칭을 수행한다.
예를 들어, 제 1 검색 결과의 오디오 컨텐츠 중 n번째 컨텐츠에 대한 시계열 값이 아래와 같고,
- 제 1 검색 결과 중 n번째 컨텐츠의 음장 시계열 :
{4분음표, 8분음표, 4분음표, 4분음표, 4분음표, 8분음표, 8분음표, 2분음표}
- 제 1 검색 결과 중 n번째 컨텐츠의 음고 시계열 :
{ 도 레 미 솔 솔 파 미 도 }
대용량 컨텐츠 DB(121), 더 상세히는 메타데이터 DB(121b)에 저장된 상대화 값이 아래와 같다고 가정하면,
- 제 1 검색 결과 중 n번째 컨텐츠의 상대 음장비(IOIratio) :
{50 200 100 100 50 100 400} [단위: %]
- 제 1 검색 결과 중 n번째 컨텐츠의 상대 음고차(deltaPitch) :
{200 200 300 0 -200 -100 -400} [단위: cent]
DP 매칭부(125)는 상기한 입력 허밍의 상대화 값과 상기한 메타데이터 DB(121b)에 저장된 상대화 값에 대해서 DP 매칭을 이용하여 거리값을 계산한다.
참고로, 거리값은 아래의 수식을 통해 계산될 수 있다.
입력된 허밍과 대용량 컨텐츠 DB(121)에 저장된 m번째 오디오 컨텐츠에 대한 거리를 Dm, 허밍의 j번째 음표에 대한 상대화 값을 h(j), 대용량 컨텐츠 DB(121)에 저장된 m번째 오디오 컨텐츠의 i번째 음표에 대한 상대화 값을 dm(i)라고 하면, 거리 Dm은 반복적으로 계산이 가능하고,
Figure 112008072168309-PAT00003
을 통해 가장 작은 거리값을 가진 오디오 컨텐츠 순으로 결과를 생성한다.
한편, 검색 결과 통합부(126)는 선형 매칭을 이용한 제 1 검색 결과값(S)과 DP 매칭을 이용한 제 2 검색 결과값(D)을 통합하여 최종 결과를 생성하며, 이때, 통합 계수를 포함하는 통합 함수를 이용한다.
통합 계수
Figure 112008072168309-PAT00004
를 포함하는 통함 함수 F는
Figure 112008072168309-PAT00005
또는
Figure 112008072168309-PAT00006
로 나타낼 수 있다.
참고로, 통합 계수
Figure 112008072168309-PAT00007
인 경우, DP 매칭에 의한 결과만으로 최종 통 합을 실행했음을 의미하고, 통합 계수
Figure 112008072168309-PAT00008
인 경우, 선형 매칭에 의한 결과만으로 최종 통합을 실행했음을 의미한다. 참고로,
Figure 112008072168309-PAT00009
값은 실험에 의해 도출해 낸다.
한편, 전송부(127)는 검색 결과 통합부(126)에서 통합한 최종 결과에 대한 정보를 사용자 단말(110)에게 전송한다. 이때, 전송부(128)는 통합된 최종 결과인 상위 m개의 오디오 컨텐츠에 대한 정보를 사용자 단말(110)에게 전송한다.
도 5는 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 과정을 도시한 흐름도이다.
설명의 편의 상, 도 1에 도시된 시스템 및 도 2에 도시된 컨텐츠 제공 서버(120)의 구성을 참조하여 설명하도록 하며, 컨텐츠 제공 서버(120)의 대용량 컨텐츠 DB(121)에는 다수의 오디오 컨텐츠에 대한 음원 및 메타데이터가 저장되어 있다고 가정하도록 한다.
먼저, 허밍 질의 입력부(122)는 사용자 단말(110)로부터 허밍 신호를 입력 받는다(S501).
단계 S501 후, 특징량 추출부(123)는 입력된 허밍(더 상세하게는 허밍 신호)으로부터 한 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 허밍을 구성하는 다수의 음표 및 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출한다(S502).
단계 S502 후, 선형 매칭부(124)는 단계 S502에서 추출된 음고의 전후 변화 값과 대용량 컨텐츠 DB(121)에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 고속(High Speed)의 제 1 검색 결과를 생성한다(S503).
단계 S503 후, DP 매칭부(125)는 단계 S503에서 필터링된 제 1 검색 결과의 오디오 컨텐츠에 대해 DP 매칭을 수행한 거리값에 기초하여 고정도(High Accuracy)의 제 2 검색 결과를 생성한다(S504).
단계 S504 후, 검색 결과 통합부(126)는 선형 매칭을 이용한 제 1 검색 결과값(S)과 DP 매칭을 이용한 제 2 검색 결과값(D)을 통합하여 최종 결과를 생성한다(S505).
이때, 통합된 최종 결과 생성에는 통합 계수를 포함하는 통합 함수를 이용하며, 통합 계수
Figure 112008072168309-PAT00010
를 포함하는 통함 함수 F는
Figure 112008072168309-PAT00011
또는
Figure 112008072168309-PAT00012
로 나타낼 수 있다.
단계 S505 후, 전송부(127)는 검색 결과 통합부(126)에서 통합된 최종 결과에 대한 정보를 사용자 단말(110)에게 전송한다(S506).
이때, 전송부(128)는 통합된 최종 결과인 상위 m개의 오디오 컨텐츠에 대한 정보를 사용자 단말(110)에게 전송한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1 은 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 시스템의 개요를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 서버의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 대용량 컨텐츠 DB의 구성을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 선형 매칭법의 성능을 조사하기 위한 실험 데이터를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 허밍을 이용한 오디오 컨텐츠 검색 과정을 도시한 흐름도이다.
< 도면의 주요 부분에 관한 부호의 설명 >
121 : 대용량 컨텐츠 DB 121a : 음원 DB 121b : 메타데이터 DB
122 : 허밍 질의 입력부
123 : 특징량 추출부
124 : 선형 매칭부
125 : DP 매칭부
126 : 검색 결과 통합부
127 : 전송부

Claims (8)

  1. 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 방법에 있어서,
    (a) 상기 허밍으로부터 음표의 시작점(onset)과 끝점(offset)의 경계를 식별하여, 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 단계,
    (b) 상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 제 1 검색 결과를 생성하는 단계,
    (c) 상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 제 2 검색 결과를 생성하는 단계 및
    (d) 상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 제공하는 단계
    를 포함하는, 오디오 컨텐츠 검색 방법.
  2. 제 1 항에 있어서,
    상기 음장은 소정 음표의 시작 시간과 그 음표의 종료 시간의 차인 duration 및 소정 음표의 시작 시간에 대해 그 다음 음표의 시작 시간의 차인 IOI(Inter Onset Interval) 중 어느 하나를 사용하는 것인, 오디오 컨텐츠 검색 방법.
  3. 제 1 항에 있어서,
    상기 유사도는 선행 매칭법에 의해 산출되는 것인, 오디오 컨텐츠 검색 방법.
  4. 제 3 항에 있어서,
    상기 제 1 검색 결과는 상기 유사도가 큰 순서로 제공되는 것인, 오디오 컨텐츠 검색 방법.
  5. 제 1 항에 있어서,
    상기 거리값은 상기 허밍과 상기 DB에 기 저장된 오디오 컨텐츠의 일 부분이 일치하는 정도가 클수록 작은 값을 갖는 것인, 오디오 컨텐츠 검색 방법.
  6. 제 1 항에 있어서,
    상기 (e) 단계의 통합은 통합 계수를 포함하는 통합 함수를 통하여 실행되는 것인, 오디오 컨텐츠 검색 방법.
  7. 허밍(humming)을 이용하여 오디오 컨텐츠를 검색하는 장치에 있어서,
    허밍으로부터 상기 허밍을 구성하는 다수의 음표 및 상기 각 음표의 전후 음고와 전후 음장을 포함하는 특징량을 추출하는 특징량 추출부,
    상기 음고의 전후 변화값과 DB에 기 저장된 다수의 오디오 컨텐츠에 대한 음고의 전후 변화값을 비교한 유사도에 기초하여 제 1 검색 결과를 생성하는 선형 매칭부,
    상기 제 1 검색 결과에 포함된 다수의 오디오 컨텐츠에 대해 동적 프로그래밍(Dynamic Programming) 매칭을 수행한 거리값에 기초하여 제 2 검색 결과를 생성하는 동적 프로그래밍(Dynamic Programming) 매칭부 및
    상기 제 1 검색 결과 및 상기 제 2 검색 결과를 통합하여, 상기 허밍과 유사한 구간을 포함하는 오디오 컨텐츠의 정보를 생성하는 검색 결과 통합부
    를 포함하는, 오디오 컨텐츠 검색 장치.
  8. 제 7 항에 있어서,
    상기 선형 매칭부는 상기 DB에 저장된 전체 오디오 컨텐츠 중 상기 1차 검색 결과로 필터링될 수 있는 확률인 예비 선택율과, 상기 1 차 검색 결과 내에 상기 허밍과 일치하는 오디오 컨텐츠가 포함될 수 있는 확률인 재현율로 선형 매칭의 성능을 나타내는, 오디오 컨텐츠 검색 장치.
KR1020080101816A 2008-10-17 2008-10-17 오디오 컨텐츠 검색 방법 및 장치 KR20100042705A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080101816A KR20100042705A (ko) 2008-10-17 2008-10-17 오디오 컨텐츠 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080101816A KR20100042705A (ko) 2008-10-17 2008-10-17 오디오 컨텐츠 검색 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20100042705A true KR20100042705A (ko) 2010-04-27

Family

ID=42217972

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080101816A KR20100042705A (ko) 2008-10-17 2008-10-17 오디오 컨텐츠 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20100042705A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108337558A (zh) * 2017-12-26 2018-07-27 努比亚技术有限公司 音视频剪辑方法及终端
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108337558A (zh) * 2017-12-26 2018-07-27 努比亚技术有限公司 音视频剪辑方法及终端
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备

Similar Documents

Publication Publication Date Title
JP4274221B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Benetos et al. Automatic music transcription: Breaking the glass ceiling
Kosina Music genre recognition
CN103823867A (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
Tsunoo et al. Beyond timbral statistics: Improving music classification using percussive patterns and bass lines
CN106095925A (zh) 一种基于声乐特征的个性化歌曲推荐系统
CN110010159B (zh) 声音相似度确定方法及装置
Zheng et al. Music genre classification: A n-gram based musicological approach
Six et al. Tarsos: a platform to explore pitch scales in non-western and western music
Paulus Signal processing methods for drum transcription and music structure analysis
Prockup et al. Modeling Genre with the Music Genome Project: Comparing Human-Labeled Attributes and Audio Features.
CN107767850A (zh) 一种演唱评分方法及系统
Heydarian Automatic recognition of Persian musical modes in audio musical signals
KR20030067377A (ko) 멜로디 기반 음악 검색방법과 장치
KR20200070732A (ko) 음악 콘텐츠 추천 장치
Gupta et al. Discovery of syllabic percussion patterns in tabla solo recordings
CN105895079A (zh) 语音数据的处理方法和装置
KR20060019096A (ko) 허밍 기반의 음원 질의/검색 시스템 및 그 방법
KR20100042705A (ko) 오디오 컨텐츠 검색 방법 및 장치
KR100702059B1 (ko) 고객 특성이 피드백 반영되는 질의 풀 기반의 유비쿼터스음악 정보 검색 시스템 및 방법
JP4607660B2 (ja) 楽曲検索装置および楽曲検索方法
Bhatia et al. Analysis of audio features for music representation
CN109710797B (zh) 音频文件的推送方法、装置、电子装置和存储介质
Schuller et al. Applications in intelligent music analysis
Bai et al. Intelligent preprocessing and classification of audio signals

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination