KR20120038737A - 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치 - Google Patents

음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치 Download PDF

Info

Publication number
KR20120038737A
KR20120038737A KR1020100100350A KR20100100350A KR20120038737A KR 20120038737 A KR20120038737 A KR 20120038737A KR 1020100100350 A KR1020100100350 A KR 1020100100350A KR 20100100350 A KR20100100350 A KR 20100100350A KR 20120038737 A KR20120038737 A KR 20120038737A
Authority
KR
South Korea
Prior art keywords
music
information
fingerprint
peaks
fingerprints
Prior art date
Application number
KR1020100100350A
Other languages
English (en)
Other versions
KR101194540B1 (ko
Inventor
정만운
Original Assignee
에스케이커뮤니케이션즈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이커뮤니케이션즈 주식회사 filed Critical 에스케이커뮤니케이션즈 주식회사
Priority to KR20100100350A priority Critical patent/KR101194540B1/ko
Publication of KR20120038737A publication Critical patent/KR20120038737A/ko
Application granted granted Critical
Publication of KR101194540B1 publication Critical patent/KR101194540B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치를 개시하고 있다.
본 발명의 일 실시 예에 따른 음악의 비-텍스트 정보를 추출하는 방법은 음악 파일을 입력받아 주파수 도메인의 데이터로 변환하는 단계, 상기 변환한 데이터에서 피크를 추출하는 단계, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 단계, 및 상기 군집화한 피크들의 정보를 음악 지문으로 음악 특성 데이터베이스에 저장하는 단계를 포함한다.

Description

음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치{METHOD AND APPARATUS OF EXTRACTING NON-TEXT INFORMATION OF MUSIC AND SEARCHING MUSIC}
본 발명은 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치를 개시하고 있다. 보다 상세하게는 녹음 또는 저장된 음악에서 음악 특징 정보를 추출하여 이를 이용하여 음악 정보를 검색하는 방법과 장치를 개시하고 있다.
인터넷을 통한 음악 컨텐츠의 배포 및 공유, 구매 등이 활발해지면서, 음악에 대한 정보를 검색하는 서비스가 다수 존재하여왔다. 예를 들어, 특정 작곡가, 혹은 특정 장르의 음악을 즐기기 위한 검색, 또는 특정 무드의 음악을 즐기기 위한 추천 서비스 등이 제시되어 왔다.
그러나, 이러한 음악의 정보는 음원 파일을 데이터베이스화 하는 과정에서 미리 확보된 정보이거나, 음악을 설명하는 메타 데이터에서 추출된 정보라는 점에서, 음악에 대한 본질적인 검색이 아닌, 메타데이터의 검색이라는 측면이 강하였다.
음악의 본질적인 특징에 대한 검색, 예를 들어 특정 음악을 들으면서, 해당하는 음악을 검색하기 위해서는 검색하고자 하는 특정 음악과 데이터베이스의 음악을 서로 비교하여야 한다. 그러나, 음악은 비-텍스트적 특성을 가지는데, 이러한 특성은 텍스트화된 정보와는 달리 데이터베이스화 하기 어려우므로, 정확한 음악 검색에 있어 음악의 비-텍스트적 특성은 걸림돌이 되어왔다.
본 발명은 음악의 비-텍스트 특성을 이용해서 음악 정보를 검색하여 그 결과를 수신하는 기술을 제시하고자 한다.
본 발명은 음악의 비-텍스트 특성의 검색을 위하여 음악 파일에 대한 피크를 추출하여 음악 지문으로 저장하며, 중복되어 검색되는 상이한 음악을 구분할 수 있도록 다양하게 음악 지문을 생성하고자 한다.
특히, 본 발명은 실시간으로 녹음되는 음악에 대해서 녹음 마이크의 특성을 역으로 적용하여 보다 정확하게 음악을 녹음하여 해당 음악 정보를 검색할 수 있도록 한다.
전술한 과제를 달성하기 위해, 본 발명의 일 실시 예에 따른 음악의 비-텍스트 정보를 추출하는 방법은 음악 파일을 입력받아 주파수 도메인의 데이터로 변환하는 단계, 상기 변환한 데이터에서 피크를 추출하는 단계, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 단계, 및 상기 군집화한 피크들의 정보를 음악 지문으로 음악 특성 데이터베이스에 저장하는 단계를 포함한다.
본 발명의 다른 실시예에 따른 음악의 비-텍스트 정보를 이용한 음악 검색 방법은 클라이언트로부터 N개의 음악 지문을 수신하는 단계, 상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스에서 검색하는 단계, 상기 N 개의 음악 지문에 매칭되어 검색된 음악이 M개인 경우, 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하는 단계, 및 상기 검색된 음악을 해당 음악 지문에 매칭되는 음악으로 파악하여 상기 음악 정보를 상기 클라이언트에게 송신하는 단계를 더 포함한다.
본 발명의 또다른 실시예에 따른 음악의 비-텍스트 정보를 이용한 음악 검색 방법은 음악 파일을 주파수 도메인의 데이터로 변환하는 단계, 상기 변환한 데이터에서 피크를 추출하는 단계, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 단계, 상기 군집화한 피크들의 정보를 음악 지문으로 서버에 송신하는 단계, 및 상기 송신한 음악 지문에 매칭되는 음악 정보를 상기 서버로부터 수신하는 단계를 포함하며, 상기 음악 파일은 새로이 녹음하거나 또는 이전에 녹음되어 저장된 것을 특징으로 한다.
본 발명의 또다른 실시예에 따른 음악의 비-텍스트 정보를 추출하는 장치는 음악 파일을 입력받아 주파수 도메인의 데이터로 변환하는 변환부, 상기 변환한 데이터에서 피크를 추출하는 피크 추출부, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 군집화부, 및 상기 군집화한 피크들의 정보를 음악 지문으로 생성하여 음악 특성 데이터베이스에 저장하는 음악 지문 생성부를 포함한다.
본 발명의 또다른 실시예에 따른 음악의 비-텍스트 정보를 이용한 음악 검색 장치는 클라이언트로부터 N개의 음악 지문을 수신하는 수신부, 상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스에서 검색하는 음악지문 검색부, 상기 N 개의 음악 지문에 매칭되어 검색된 음악이 M개인 경우, 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하는 중복 필터링부, 상기 검색된 음악을 해당 음악 지문에 매칭되는 음악으로 파악하여 상기 음악 정보를 검색하는 음악 정보 검색부, 및 상기 검색된 음악 정보를 상기 클라이언트에게 송신하는 음악 정보 송신부를 포함한다.
본 발명의 또다른 실시예에 따른 음악의 비-텍스트 정보를 이용한 음악 검색 장치는 음악 파일을 주파수 도메인의 데이터로 변환하는 변환부, 상기 변환한 데이터에서 피크를 추출하는 피크 추출부, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 군집화부, 상기 군집화한 피크들의 정보를 음악 지문으로 서버에 송신하는 음악 지문 송신부, 및 상기 송신한 음악 지문에 매칭되는 음악 정보를 상기 서버로부터 수신하는 음악 정보 수신부를 포함하며, 상기 음악 파일은 새로이 녹음하거나 또는 이전에 녹음되어 저장된 것을 특징으로 한다.
도 1은 본 명세서의 일 실시예에 의한 음악 검색 과정을 보여주는 전체 시스템 구성이다.
도 2는 본 명세서의 일 실시예에 의한 음악의 비-텍스트 정보를 추출하여 이를 이용하여 음악을 검색하는 과정을 보여준다.
도 3은 본 명세서의 일 실시예에 의한 음악 특성을 추출하는 과정을 보여주는 도면이다.
도 4a, 4b는 본 명세서의 일 실시예에 의한 음악 특성을 추출하는 예를 보여주는 도면이다.
도 5a, 5b, 5c는 본 명세서의 일 실시예에 의한 재생중인 음악을 녹음하여 특성을 추출하는 과정을 보여주는 도면이다.
도 6a, 6b는 본 명세서의 일 실시예에 의한 음원 지문을 이용하여 음원을 검색하는 예를 보여주는 도면이다.
도 7은 본 명세서의 일 실시예에 의한 음악 지문이 매칭되는 예를 보여주는 도면이다.
도 8은 본 명세서의 일 실시예에 의한 검색 서버가 저장된 음악 파일에서 특성 정보를 추출하여 저장하는 과정을 보여주는 도면이다.
도 9는 본 명세서의 일 실시예에 의한 군집화하여 생성한 음악 지문에서 새로이 음악 지문을 생성하는 예를 보여주는 도면이다.
도 10은 본 명세서의 일 실시예에 의한 검색 서버가 클라이언트로부터 음악 특성 정보를 수신하여 검색하고 그 결과를 제공하는 과정을 보여주는 도면이다.
도 11a, 11b, 11c는 본 명세서의 일 실시예에 의한 다수의 음악들이 검색된 경우 중복 필터링 검색을 실시하여 보다 정확한 음악 정보를 제공하는 예를 보여주는 도면이다.
도 12는 본 명세서의 일 실시예가 음악을 녹음하거나 혹은 기저장된 음악 파일의 특성 정보를 추출하여 서버에 송신하여 음악 정보를 수신하는 과정을 보여주는 도면이다.
도 13은 본 명세서의 다른 실시예에 의한 음악 특성을 추출하여 저장하는 서버의 구성을 보여주는 도면이다.
도 14는 본 명세서의 일 실시예에 의한 음악 특성 정보를 클라이언트로부터 수신하여 음악 정보를 검색하는 서버의 구성을 보여주는 도면이다.
도 15는 본 명세서의 일 실시예에 의한 클라이언트의 구성을 보여주는 도면이다.
도 16은 본 명세서의 일 실시예에 의한 음악 검색 서비스에서 음악 특성 추출 및 정보 검색이 이루어지는 프로세스를 보여주는 도면이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 명세서에서 음악으로 통칭하여 제시하는 컨텐츠는 음악, 음성, 음원 등의 컨텐츠를 포괄하며, 동영상 내에 포함된 음원 데이터 역시 음악 컨텐츠에 포함된다. 즉, 본 명세서에서 음악 컨텐츠는 그 자체로 음악이거나, 혹은 다수의 컨텐츠가 복합하여 저장된 컨텐츠 내에 존재하는 음원/음악 등의 컨텐츠를 포함한다.
도 1은 본 명세서의 일 실시예에 의한 음악 검색 과정을 보여주는 전체 시스템 구성이다. 음악(120)이 출력되면, 클라이언트의 일 실시예인 휴대폰(101), PDA 또는 스마트폰(102), 컴퓨터 또는 노트북(103)들은 음악을 녹음하게 된다(S130). 녹음을 하는 과정에서 각각의 클라이언트들은 음악 특성을 추출하며(S140), 추출한 음악 특성 정보를 음악 검색 서버(111)에 제공한다. 음악 검색 서버(111)는 자체에 보유하고 있는 데이터 베이스 또는 다른 서버의 데이터 베이스를 검색하여, 수신한 음악 특성 정보에 해당하는 음악이 존재하는지 검색하고, 검색한 결과 음악이 존재하는 경우, 음악 정보를 제공한다(S160). 여기서 음악 정보란, 음악에 대한 메타 데이터인 텍스트 정보, 예를 들어, 음악의 제목, 작곡가, 작사가, 가수, 또는 녹음 연도, 장르 등의 정보를 포함한다. 또한, 음악 정보는 해당 음악을 이용할 수 있도록 하는 이용 정보를 포함한다. 예를 들어, 검색된 음악의 구매를 가능하게 하는 인터넷 접속 링크 정보, 또는 음악 구매 및 설치가 가능하게 하는 프로그램 정보, 또는 해당 음악 컨텐츠를 다운로드 할 수 있도록 하는 정보가 될 수 있다. 음악의 이용 정보 이외에도 음악의 검색 순위, 그리고 해당 음악과 연관된 곡의 추천 정보도 음악 정보에 포함될 수 있다. 이러한 정보는 음악의 생성과 관련된 작사, 작곡가, 음악이 포함된 영화, 음악이 노래인 경우 가수, 또는 해당 음악이 포함된 장르 등을 통해 추천 정보가 제공될 수 있고, 음악에 대한 사용자들의 선호도를 분석하여 음악 간의 연관성을 학습한 후, 학습된 음악간의 연관성 정보를 기반으로 추천 정보를 제공할 수도 있다. 또한, 음악 정보는 검색된 음악 컨텐츠 그 자체가 될 수도 있다.
도 1에서 클라이언트(101, 102, 103)는 재생 중인 음악을 실시간으로 녹음하고, 녹음된 사항에서 음악 특성을 추출하고, 추출된 음악 특성 정보를 서버(111)에 제공한다. 또한 서버(111)는 미리 다수의 음악 컨텐츠에서 추출한 음악 특성 정보 데이터베이스를 보유하거나 접근할 수 있으므로, 수신한 음악 특성 정보를 질의어(Query)로 하여 음악을 검색할 수 있다.
도 2는 본 명세서의 일 실시예에 의한 음악의 비-텍스트 정보를 추출하여 이를 이용하여 음악을 검색하는 과정을 보여준다. 도 2의 과정은 하나의 장치 내에서 이루어질 수 있으며, 다수의 장치에서 네트워크를 통해 정보를 교환하는 과정에서 이루어질 수도 있다.
클라이언트는 재생중인 음악을 녹음한다(S210). 음악의 녹음 과정에서, 클라이언트의 특성에 따라 음악 녹음 성능을 향상시키기 위해 녹음부의 기능을 제어할 수 있다. 예를 들어, 휴대폰과 같이 음성 녹음에 특화된 마이크가 장착된 경우에는 음악을 녹음하는 과정에서 음악의 주파수 특징에 보다 적합하도록 상기 마이크를 제어하여 음악을 녹음시킬 수 있다. 녹음한 음악에서 음악 특성을 추출한다(S220). 음악 특성은 다양한 특징을 결합하여 검색 가능한 정보인 것을 포함하는데, 상기 정보의 일 실시예로 음악의 피크(peak) 정보와 피크 정보가 출현한 시간 정보를 이용할 수 있다. 이에 대해서는 후술하고자 한다.
추출된 음악 특성은 검색 프로세스에 제공된다(S230). 이는 클라이언트와 검색 서버가 분리된 경우, 네트워크를 통해 송신될 수 있다. 검색 프로세스는 추출된 음악 특성을 검색 대상으로, 즉 검색시 입력하는 쿼리(query)로 하여 유사한 음악 특성을 가지는 음악들을 검색하게 된다(S240). 그리고 검색된 음악에 대한 정보 또는 음악 컨텐츠 그 자체를 검색 결과로 제공한다(S250). 역시 클라이언트와 검색 서버가 분리된 경우에는 검색 결과를 네트워크를 통해 송신할 수 있다.
도 2에 대한 설명에서는 녹음을 수행하여 특성을 추출하는 클라이언트와 검색하는 서버로 나뉘어 설명하였으나, 이러한 각각의 단계별 작업은 하나의 장치 또는 각기 다른 장치에서 구현 방식에 따라 공유하거나 나누어 진행할 수 있다. 예를 들어 도 2에 대한 설명은 S210, S220, S230을 클라이언트에서 진행하고, S240, S250은 검색 서버에서 진행되지만, 클라이언트에서 S210만 진행하고, 서버에서 S220~S250의 과정을 진행할 수도 있고, 모든 단계가 하나의 장치 내에서 진행될 수도 있다.
도 3은 본 명세서의 일 실시예에 의한 음악 특성을 추출하는 과정을 보여주는 도면이다.
도 3에서는 기저장된 음악 DB(310)에는 음악 컨텐츠가 저장되어 있다. 물론, 해당 음악 컨텐츠에 대한 메타 정보들도 함께 저장될 수 있다. 특성 추출 & 인덱싱 모듈(330)은 음악 DB(310)의 음악 컨텐츠에서 음악 특성을 추출하여 음악 특성 DB(320)에 저장한다. 음악 특성 DB(320)는 음악 DB(310)에 저장된 음악 컨텐츠에 대해 하나 이상의 음악 특성 정보를 저장하게 된다. 저장된 음악 특성은 차후 음악 검색 과정에서 쿼리로 들어오는 음악 특성 쿼리와 비교하게 된다. 예를 들어, 검색 모듈(340)은 외부 클라이언트 혹은 다른 프로세스로부터 수신된 음악 특성 정보를 쿼리로 하여 음악 특성 DB(320)에서 동일 또는 유사한 음악 특성을 검색한다. 검색한 결과 동일 또는 유사한 음악 특성을 가지는 음악 컨텐츠에 대한 식별 정보를 확인하게 되면, 음악 DB(310)에서 해당 음악의 정보를 추출하여 클라이언트 또는 검색을 요청한 프로세스에 제공할 수 있다.
도 3에서 음악의 특성 DB(320)를 생성하기 위해, 또는 검색을 위하여 음악의 특성을 추출하기 위해서는 음악의 특성을 의미있도록 추출하는 것이 필요하다. 음악 특성은 다른 녹음한 음악의 특성과 비교하여 동일한 음악인지 여부를 판단할 수 있는 정보를 포함해야 한다. 예를 들어, 해당 음악의 주파수 특, 시간 특징 등을 포함하는 것이 필요하다. 이하, 음악 특성을 추출하는 과정을 살펴보면 다음과 같다.
도 4a, 4b는 본 명세서의 일 실시예에 의한 음악 특성을 추출하는 예를 보여주는 도면이다.
415는 저장된 음원 파일을 시간을 기준으로 하는 진폭(amplitude)으로 음원을 입력한다(S410). 그리고, 이러한 진폭-시간 기준의 음원을 주파수 변환을 수행하여 주파수 도메인으로 425와 같이 변환한다(S420). 이렇게 변화된 주파수 도메인(425)의 음원은 이후 도 4b에서와 같이 특성 정보를 추출하는데 이용된다.
먼저, 435와 같이 피크(spectral peak)를 추출한다. 주파수 도메인에서 추출한 피크 값은 주파수의 변화가 발생하거나 높은 주파수 값, 또는 낮은 주파수 값, 또는 주파수의 변화 과정 등을 판단하는데 필요하다. 즉 445와 같이 피크 값들의 변화량을 측정한다. 그리고 측정한 변화량을 기준으로, 455와 같이 피크들을 군집화하여 음악 지문을 형성한다(S450). 음악 지문의 구성요소는 군집화한 요소들의 집합으로, 군집화의 요소는 피크의 출현 시간의 유사성 및 상이성, 피크의 값의 유사성 및 상이성, 피크의 주파수 값의 유사성 및 상이성, 피크의 변화량의 임계치(Threshold) 등을 고려할 수 있다. 그 결과, 음악 지문은 2개 이상의 피크 들의 집합으로 구성될 수 있다. 예를 들어, 음원 파일인 M1에서 추출한 피크가 SP1, SP2, ..., SPn 이고, 각각의 피크를 구성하는 주파수, 시간 정보가 SP1(f1, t1), SP2(f2, t2), ..., SPn(fn, tn)인 경우, 음악 지문으로 저장되는 정보들의 일 실시예는 다음과 같다. 두 개 또는 세 개의 피크들을 음악 지문의 구성 요소로 하고 있다.
(1) 두 개의 피크들을 음악 지문의 구성요소로 한 예
SP1(f1, t1), SP2(f2, t2)
SP2(f2, t2), SP3(f3, t3)
(2) 세 개의 피크들을 음악 지문의 구성요소로 한 예
SP3(f3, t3), SP4(f4, t4), SP5(f5, t5)
SP4(f4, t4), SP5(f5, t5), SP6(f6, t6)
이렇게 특정 음원 파일에 대해 피크들로 구성된 음악 지문이 해당 음원의 음악 특성 DB에 저장되고 빠른 검색을 위해 인덱싱 할 수 있으며, 인덱싱시 음원의 메타데이터(아티스트, 곡명, 앨범명, 음원 아이템 코드) 등과 함께 저장할 수도 있고, 음악 DB와 별도로 관리하여 메타데이터는 음악 DB에서 메타 데이터를 검색하고, 음악 특성 DB에서는 음원의 특성 정보를 이용하여 검색하고 매칭되는 음원을 확인하는 과정을 진행할 수 있다.
음원 특성 DB는 다수의 피크들을 클러스터링하여 하나의 구성 요소로 하므로, 클러스터링 하게 되는 정보들이 많아질수록, 음원 DB에서의 검색이 용이해진다. 예를 들어, 두 개의 피크를 클러스터링 한 경우, 동일 또는 유사한 음원으로 검색된 음악이 M1, M2 등 다수가 나오는 경우, 다른 피크들을 이용하여 정확하게 음악을 선별할 수 있다.
도 5a, 5b, 5c는 본 명세서의 일 실시예에 의한 재생중인 음악을 녹음하여 특성을 추출하는 과정을 보여주는 도면이다. 도 4a, 4b와 유사한 방식으로 녹음된 음악의 특성을 추출한다. 그러나, 도 4a, 4b는 저장된 음원 파일에서 특성을 추출하므로 잡음 또는 왜곡 등이 발생하지 않으나, 도 5와 같이, 외부에서 재생되는 음악을 녹음할 경우에는 잡음, 왜곡, 감쇄 등의 현상이 발생하게 되며, 녹음장치의 특성에 따라 음악을 저장하는 과정에서 저장된 음악을 변환하는 과정이 필요할 수 있다.
515와 같이 먼저 단말 클라이언트의 마이크를 통한 미확인 음원을 입력받아 녹음한다(S510). 미확인 음원은 처음부터 녹음되는 것이 아니라, 클라이언트가 녹음을 시작한 시점부터 녹음된다. 따라서 녹음된 음원이 반드시 검색대상 음원의 첫 부분이 되는 것은 아니다. 515에서 녹음된 음원은 타임 도메인 기반(진폭-[시간 기준]으로 구성된다. 다음으로, 도 4a의 425에서 확인한 바와 같이 515의 진폭-시간 기준의 음원을 주파수 변환을 수행하여 주파수 도메인으로 525와 같이 변환한다(S520). 변환된 주파수 도메인에 대해서 특성을 추출하기전, 프로파일을 적용한다. 즉, 535와 같이 녹음을 진행한 마이크의 특성에 따라, 역 이퀄라이징(equalizing)을 수행한다. 예를 들어, 마이크가 휴대폰에 장착된 마이크의 경우, 음성 인식에 보다 적합하도록 다른 주파수의 소리를 감쇄시킬 수 있다. 따라서, 이러한 감쇄를 역으로 보상하기 위해 마이크의 특성에 따라 역이퀄라이징을 한다. 이는 단말의 마이크(microphone)의 주파수 응답(Frequency Response) 프로파일을 적용하여 수행할 수 있다(S530). 이는 휴대폰의 마이크에만 해당하지 않는다. 예를 들어, 컴퓨터에 설치된 마이크의 경우에도 마이크마다 녹음하는 과정에서 어떤 주파수 대역을 제거하거나 또는 증폭시키는 특징이 있는 경우 이를 역으로 적용하여 녹음되는 음원의 왜곡을 제거할 수 있다. 즉, 미확인 음원을 저장하는 클라이언트 프로그램에 이러한 마이크의 특성을 일종의 환경 정보로 저장할 수 있다.
다음으로 미확인 음원에 대한 특성을 추출하는 과정을 살펴본다. 도 5b와 같이 미확인 음원에서 545와 같이 피크(spectral peak)를 추출한다(S540). 도 4b에서 살펴본 바와 같이, 주파수 도메인에서 추출한 피크 값은 주파수의 변화가 발생하거나 높은 주파수 값, 또는 낮은 주파수 값, 또는 주파수의 변화 과정 등을 판단하는데 필요하다. 그리고 555와 같이 피크 값들의 변화량을 측정한다(S550).
그리고 측정한 변화량을 기준으로, 도 5c와 같이 565와 같이 피크들을 군집화하여 음악 지문을 형성한다(S560). 음악 지문의 구성요소는 군집화한 요소들의 집합으로, 군집화의 요소는 피크의 출현 시간의 유사성 및 상이성, 피크의 값의 유사성 및 상이성, 피크의 주파수 값의 유사성 및 상이성, 피크의 변화량의 임계치(Threshold) 등을 고려할 수 있다. 그러나, 도 4b에서 살펴본 전체 음원의 특성 추출과는 달리, 미확인 음원은 전체 음원보다 짧은 길이의 음원이므로, 피크 값들의 변화량을 측정하여 군집화할 수 있는 정보의 양이 많지 않을 수 있다. 또한, 피크 값들을 몇 개로 군집화 시킬 것인지에 따라서도 군집화하는 범위가 달라질 수 있다. 만약, 검색 서버와 미리 K개 이하의 특성 값을 군집화한 것으로 약속된 경우, K개 이하로 특성 값들을 군집화한다. 예를 들어 3개 이하의 피크로 군집화하는 경우, 2개로 군집화한 정보들, 그리고 3개로 군집화한 정보를 각각 생성할 수 있다. 형성된 지문 정보들(575)은 검색 서버로 송신하여 검색을 요청한다(S570).
도 6a, 6b는 본 명세서의 일 실시예에 의한 음원 지문을 이용하여 음원을 검색하는 예를 보여주는 도면이다.
도 6a의 610은 도 5a, 5b, 5c에서 생성된 음악 지문들을 구별한 도면이다. 각각의 피크(Spectral Peak)는 SP1, SP2, ... , SP9이다. 각각의 피크들은 주파수와 시간 정보를 포함한다. 예를 들어, SP1(f1, t1), SP2(f2, t2), ..., SP9(f9, t9)와 같이 해당 피크에서의 주파수 정보(f1, f2, ..., f9)와 시간 정보(t1, t2, ..., t9)를 포함한다. 한편, 미확인 음원의 경우, 처음부터 음악이 녹음되는 것은 아니므로, t1, t2와 같은 시간 정보는 일종의 상대적 정보가 될 수 있다. 특정 기준 시간에서 얼마 더 이격된 시간에 대한 정보를 포함할 수 있다. 이들 피크들로 이루어진 음악 지문들은 각각 음악 지문 1, 2, ..., 7로 구성된다. 각각의 음악 지문은 이를 구성하는 피크들이 둘 이상 결합되어 있다.
검색 서버에 음악 지문들 1, 2, ..., 7들을 송신하고, 서버로부터 각각의 음악 지문에 기반하여 음악 특성 DB에서 같은 지문을 가진 음악을 검색할 수 있다. 음악 지문은 유사한 범위에서 검색할 수 있으며, 또한, 다수의 음악이 검색될 수 있다. 예를 들어, 도 6b의 620과 같이 음악 특성 DB에서 음악 지문 1에 매칭되는 음악 지문들은 후보 1, 2, 3, 4, 5가 나올 수 있다. 이는 음악의 특정 부분에서 다수 음악이 유사할 수 있기 때문이다. 마찬가지로 630과 같이 음악 지문 2를 음악 특성 DB에서 검색하면 후보 1, 3, 6, 7이 나오며, 음악 지문 7을 음악 특성 DB에서 검색하면 후보 1, 7, 9가 나올 수 있다. 각각의 음악 지문들에 대해 동일한 음악 지문을 가지고 있는 것으로 검색된 후보들 중에서 음악 지문들 모두에, 또는 일정 범위 이상을 만족시키는 후보를 검색하고자 하는 음원으로 판단할 수 있다. 도 6에서는 후보 1이 모든 음악 지문에서 검색되었기 때문에 미확인 음원이 매칭되는 음악으로 판단하여, 후보 1에 대한 정보를 클라이언트에게 제공할 수 있다.
도 7은 본 명세서의 일 실시예에 의한 음악 지문이 매칭되는 예를 보여주는 도면이다. 검색을 요청한 음악 지문의 출현 시간에 따라 710, 720과 같이 히스토그램을 그리고, 히스토그램에서 매칭되는 음악 지문 개수를 판단하여 후보 음악이 음악 지문에 매칭되는지 여부를 확인할 수 있다. 710의 경우에는 검색된 음악 지문의 출현 시간이 큰 특징 없이 표시되어 있다. 즉, 검색을 요청한 음악 지문이 출현하지 않았음을 보여준다. 반면 720의 경우에는 특정 영역에서 음악 지문의 출현 시간이 표출되어 있어 음악 지문이 일치하는 것을 보여준다.
도 8은 본 명세서의 일 실시예에 의한 검색 서버가 저장된 음악 파일에서 특성 정보를 추출하여 저장하는 과정을 보여주는 도면이다.
검색 서버는 음악 파일을 입력받아 주파수 도메인의 데이터로 변환한다(S810). 그리고 상기 변환한 데이터에서 피크를 추출한다(S820). 앞서 살펴본 바와 같이 스펙트럴 피크를 추출할 수 있다. 그리고 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화한다(S830). 군집화는 검색 서버에서 미리 설정한 기준에 따라 군집화 할 수 있다. 예를 들어, 군집화 기준을 K로 하고 그 이하로 군집화하도록 설정한 경우, 상기 군집화는 미리 설정된 K개 이하의 인접한 피크들을 결합하여 진행될 수 있다. 그리고, 상기 군집화한 피크들의 정보를 음악 지문으로 음악 특성 데이터베이스에 저장하여 검색할 수 있도록 한다. 이때, 상기 군집화한 피크들을 재배열하여 새로운 음악 지문을 생성할 수도 있다. 예를 들어, K가 2인 경우, 두 개의 피크들을 군집화 할 수 있는데, 이러한 군집화를 진행 중, 또는 완료된 후에 두 개의 군집화된 음악 지문을 결합하여 하나의 음악 지문으로 할 수 있다. 이는 도 9에서 살펴보고자 한다.
도 9는 본 명세서의 일 실시예에 의한 군집화하여 생성한 음악 지문에서 새로이 음악 지문을 생성하는 예를 보여주는 도면이다.
도 9에서 910과 같이 총 9개의 피크들에 대해 1차 군집화로 2개의 피크들을 군집화할 수 있다. 그리고 군집화된 피크들 중에서 주파수의 변화가 큰 음악 지문들을 다시 군집화하여 2차 군집화를 할 수 있다. 총 9개의 피크 중에서 2개씩 군집화할 경우에는 음악 지문이 8가지이며, 3개씩 군집화할 경우 음악 지문이 7가지이다. N개의 피크들에 대해 모두 군집화할 경우, 군집화하는 피크의 수 i는 2~N이다. 군집화하는 피크의 수가 i일 경우, N개의 피크들에서 발생할 수 있는 음악 지문은 N-i+1이다. 따라서, 피크의 수가 2~N인 경우, 발생할 수 있는 모든 음악 지문의 수는 다음 수학식 1과 같다.
[수학식 1]
Figure pat00001
즉, K가 증가할수록 저장해야 하는 음악 지문은 늘어난다. 따라서 음악 지문의 저장 효율을 높이기 위해, K의 수를 조절하되, 주파수의 변이가 큰 음악 지문들의 군집에 대해 추가로 음악 지문을 생성하여 저장할 수 있다. 즉 도 9와 같이 모든 피크들을 2개씩 군집화한 1차 군집화 음악 지문과 주파수 변이가 큰 3개의 음악 지문들을 920과 같이 저장할 수 있다.
도 10은 본 명세서의 일 실시예에 의한 검색 서버가 클라이언트로부터 음악 특성 정보를 수신하여 검색하고 그 결과를 제공하는 과정을 보여주는 도면이다. 여기서 클라이언트는 외부 장치가 될 수도 있고, 내부 프로세스가 될 수도 있다. 먼저, 클라이언트로부터 N개의 음악 지문을 수신한다(S1010). 그리고 상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스에서 검색한다(S1020). 검색 결과 검색된 음악이 하나인지 혹은 다수인지 확인하여(S1030) 하나인 경우, 검색된 음악에 대한 정보를 상기 클라이언트에게 송신한다(S1050). 그러나, N개의 상기 N 개의 음악 지문에 매칭되어 검색된 음악이 다수개인 경우, 예를 들어 M (M > 1)인 경우, 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하여 검색된 음악 정보를 제공한다. 상기 중복 필터링 검색의 일 실시예는 상기 N 개의 음악 지문들에 대한 일치도가 높은 순서를 기준으로 낮은 일치도의 음악을 제외시키는 것을 의미한다. 예를 들어 5개의 음악 지문 중 모두 일치하는 음악 지문을 가진 음악과 하나만 일치하는 음악 지문을 가진 음악 중에서 하나만 일치하는 음악 지문을 제외시킨다. 또한, 중복 필터링 검색의 또다른 실시예로, 앞서 도 9에서 살펴본 음악 지문의 재배열을 수행할 수 있다. 예를 들어, 클라이언트가 2개의 음악 피크들을 군집한 음악 지문을 송신하고, 이들에 대해 다수의 음악이 검색된 경우, 음악 지문들을 재배열하여 새로운 음악 지문을 생성하여 새로이 생성된 음악 지문들을 이용하여 검색된 음악들 중에서 일치하는 음악을 찾을 수 있다. 이에 대해서는 도 11a, 11b에서 보다 상세히 살펴보고자 한다.
음악 정보를 제공함에 있어서, 클라이언트로부터 수신한 미확인 음원 부분이 전체 음원 중 어느 부분인지를 시각적으로 확인할 수 있는 정보를 함께 제공할 수 있다. 음악 시작 시점을 기준으로 한 시간 정보를 숫자로 표시할 수도 있고, 이를 그래픽으로 변환하여 표시할 수도 있다.
도 8의 음악 특성 추출과 도 10의 음악 검색은 동일한 장치에서 진행될 수도 있고, 별도의 장치에서 진행될 수도 있다. 즉, 음악 특성 추출 및 저장을 전담하는 서버에서 일괄 배치(Batch) 방식 프로그램을 실행하여 다량의 음악 컨텐츠에서 음악 특성 정보를 추출하여 저장할 수 있고, 하나의 서버에서 검색과 특성 추출 모두 진행할 수 있다. 별도의 장치라 하여도 추출된 음악 특성은 양 서버가 공유하거나 혹은 복사된 DB 데이터를 공유할 수 있다.
도 11a, 11b, 11c는 본 명세서의 일 실시예에 의한 다수의 음악들이 검색된 경우 중복 필터링 검색을 실시하여 보다 정확한 음악 정보를 제공하는 예를 보여주는 도면이다.
도 11a의 1110은 클라이언트가 제공한 미확인 음원의 특성 정보인 음악지문이다. 제 1, 2, 3, 4 음악 음악 지문은 SP1, SP2, SP3, SP4, SP7, SP8이라는 주파수-시간으로 특정되는 피크들을 포함하며 2개의 피크로 군집화되었다. 이때, 제 1, 2, 3, 4 음악 지문을 모두 가지고 있는 음악은 1120, 1130이 검색되었다. 서로 다른 음악이지만 1125, 1135에서 나타난 봐와 같이, 제 1, 2, 3, 4 음악 지문을 모두 가지고 있다.
따라서, 음악 지문을 재배열하는 과정이 필요하다. 각각의 음악 지문은 둘 이상의 피크를 가지고 있고, 각각의 피크는 주파수-시간 정보를 가지고 있다. 예를 들어, SP1(f1, t1), SP2(f2, t2), SP3(f3, t3) 와 같이 주파수와 시간 정보를 가지고 있다. 따라서, 이들 주파수-시간 정보인 피크를 재배열할 수 있다. 재배열을 위해 각각의 음악 지문들을 첫번째 피크의 시간을 기준으로 배열할 수 있다. 예를 들어 제 1 음악지문과 제 2 음악지문은 SP2(f2, t2)를 공유하고 있다. 따라서 제 1, 제 2 음악 지문을 이용하여 새로운 음악 지문인 SP1, SP2, SP3로 구성된 제 5 음악 지문을 생성할 수 있다. 마찬가지로, 제 2, 3 음악 지문을 배열하여 새로운 음악 지문인 SP2, SP3, SP4로 이루어진 제 6 음악 지문을 생성할 수 있으며, 제 1, 2, 3 음악 지문을 재배열하여 SP1, SP2, SP3, SP4로 이루어진 제 7 음악 지문을 생성할 수 있다(1150 참조). 새롭게 생성된 제 5, 6, 7 음악 지문을 이용하여 도 11b와 같이 1120, 1130에 대해 적용하면 1165와 같이 일치하는 음악이 1120임을 알 수 있다. 1175은 2개의 피크로 구성된 음악에서는 검색이 되지만 재배열한 음악 지문들에 대해서는 동일한 음악 지문을 전혀 가지지 못하고 있다.
한편, 음악을 녹음하는 과정에서 음의 왜곡이 있을 수 있다. 예를 들어, 앞서 SP2는 제 2, 3 음악 지문에 공유되어 있으나, 녹음 과정에서 제 2, 3 음악 지문이 상이한 음악 지문을 가지는 것으로 나타날 수 있다. 이는 도 11c와 같이 주파수와 시간 차이를 계산하여 매우 작은 수(통상 피크간의 주파수, 시간 차이가 각각 200, 1000 단위로 차이남)인 경우, SP2(1181), SP3(1182)를 하나의 피크로 하여 재배열 할 수 있다.
도 12는 본 명세서의 일 실시예가 음악을 녹음하거나 혹은 기저장된 음악 파일의 특성 정보를 추출하여 서버에 송신하여 음악 정보를 수신하는 과정을 보여주는 도면이다. 클러이언트는 특성을 추출하고자 하는 음악을 선택한다(S1210). 이때 음악의 선택은 외부 음악을 녹음하는 것일 수도 있다. 그리고 기 녹음되었거나 스트리밍, 파일 복사 등을 통해 미리 저장된 음악일 수 있다. 만약 외부에서 재생중인 음악이 아닌 경우, 예를 들어, 상기 음악이 이전에 녹음되어 저장된 음악 파일인 경우, 상기 음악 파일은 인터넷을 통해 스트리밍으로 제공되는 음악, 기 저장된 동영상에 포함된 음악, 또는 다른 녹음 장치에서 저장하여 복사한 음악일 수 있다. 이 경우, 음악 파일을 그대로 이용하거나, 혹은 동영상/스트리밍을 통해 추출한 컨텐츠에서 특성을 추출하고자 하는 음악 파일로 변환하여 저장하는 과정을 추가로 포함할 수 있다. 그리고 전술한 바와 같이 음악 파일을 주파수 도메인의 데이터로 변환한다(S1220). 그리고 변환한 음악에 대해 피크를 추출하는 과정을 진행하는데, 이때, 해당 음악이 외부에서 재생중인 음악을 녹음한 것이라면(S1230), 마이크를 이용하여 외부 재생 음악을 한 것이므로, 녹음한 마이크의 특징을 녹음한 음악에 적용하여 역이퀄라이징을 수행할 수 있다(S1235). 따라서 녹음한 음악의 경우 S1220에서 변환한 주파수 도메인 기반 데이트를 프리퀀스 응답 프로파일을 적용하여 새로이 변환할 수 있다.
주파수 도메인 기반으로 변환된 데이터에서 피크를 추출한다(S1240). 그리고 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하여(S1250), 상기 군집화한 피크들의 정보를 음악 지문으로 서버에 송신한다(S1260). 서버는 도 10에서 살펴본 바와 같이, 음악 지문을 이용하여 동일한 음악 지문을 가지는 음악을 검색하고, 그 과정에서 클라이언트가 송신한 음악 파일을 재배열하여 새로운 음악 지문을 생성하여 이를 기준으로 음악을 검색할 수 있다. 서버가 매칭되는 음악을 검색하면, 상기 송신한 음악 지문에 매칭되는 음악 정보를 송신한다. 즉, 클라이언트는 음악 정보를 서버로부터 수신하여(S1270) 이를 표시한다. 앞서 살펴본 바와 같이 서버에 송신한 음악의 명칭 및 장르, 작사/작곡/가수 정보, 리메이크한 음악 또는 유사한 음악을 메타데이터로 제공할 수도 있으며, 서버에 송신한 부분이 검색된 음악에서 시간적으로 어느 부분에 속했는지에 대한 정보도 함께 제공할 수 있다.
도 13은 본 명세서의 다른 실시예에 의한 음악 특성을 추출하여 저장하는 서버의 구성을 보여주는 도면이다. 앞서 도 3에서 본 명세서의 일 실시예에 의한 음악 특성을 추출하기 위하여 데이터베이스 및 관련 모듈들에 대해 살펴보았다. 본 명세서의 다른 실시예에 의하면 도 13과 같이 음악 특성을 추출하여 저장하는 서버를 구성할 수 있다. 음악 특성 추출 서버(1300)는 변환부(1310), 피크 추출부(1320), 군집화부(1330), 음악 지문 생성부(1340)로 구성되며 추가적으로 재배열부(1345)와 음악 특성 DB(1350)를 포함한다. 음악 특성 추출 서버(1300)가 외부에 저장되었거나, 또는 내부의 별도의 저장 공간에 저장된 음악 파일을 변환부(1310)에 제공하면, 변환부(1310)는 입력받은 음악 파일을 입력받아 주파수 도메인의 데이터로 변환한다. 음악 파일의 타임 도메인 데이터를 주파수 도메인으로 변환하는 것은 도 4a에서 살펴보았다. 그리고 피크 추출부(1320)는 상기 변환한 데이터에서 피크를 추출한다. 피크 추출은 도 4b의 435와 같이 진행할 수 있다. 추출된 피크들은 음악 지문을 구성할 수 있도록 군집화부(1330)에서 군집화를 진행한다. 이 때, 상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화 할 수 있다. 이때, 군집화의 일 실시예로, 상기 군집화는 미리 설정된 K개 이하의 인접한 피크들을 결합하여 군집화를 수행할 수 있다. 군집화가 완료되면 음악 지문 생성부(1340)는 상기 군집화한 피크들의 정보를 음악 지문으로 생성하여 음악 특성 데이터베이스(1350)에 저장한다. 이때, 음악 지문 생성부(1340)는 추가로 재배열부(1345)를 이용하여, 군집화한 피크들을 재배열하여 새로운 음악 지문을 생성할 수 있다. 앞서 살펴본 바와 같이, 2개의 피크들을 음악 지문으로 생성하여 저장한 경우, 음악 지문들 중에서 주파수의 변화가 큰 음악 지문들에 포함된 피크들을 새로이 재배열하여 음악 지문으로 생성할 수 있고, 또한 기 군집화된 피크들 중에서 몇 개를 선택하여 음악 지문으로 생성할 수 있다. 도 13의 음악 특성 데이터베이스(1350)는 음악 특성 추출 서버(1300) 내부에 포함될 수도 있고, 외부에 포함될 수도 있다. 외부에 포함된 경우, 음악 특성 추출 서버(1300)는 추출한 음악 지문을 해당 음악 파일에 대한 식별 정보와 함께 외부의 서버에 제공할 수 있다.
도 14는 본 명세서의 일 실시예에 의한 음악 특성 정보를 클라이언트로부터 수신하여 음악 정보를 검색하는 서버의 구성을 보여주는 도면이다.
전체 구성은 수신부(1410), 음악 지문 검색부(1420), 중복 필터링부(1430), 음악 정보 검색부(1440), 그리고 음악 정보 송신부(1450)으로 이루어진다. 음악 특성 데이터베이스(1425)와 음악 데이터베이스(1445)를 포함할 수 있으나, 반드시 동일 서버에 위치할 필요는 없으며, 다른 서버에 데이터베이스가 위치하고 쿼리를 데이터베이스 서버에 제공하여 검색 결과를 수신하는 방식으로 구성될 수도 있다.
수신부(1410)는 클라이언트로부터 N개의 음악 지문을 수신한다. 앞서 설명한 바와 같이, 클라이언트가 외부에 네트워크를 통해 연결된 분리된 장치가 될 수도 있고, 내부 프로그램 또는 프로세스가 될 수도 있다. 이는 음악 검색이 하나의 프로그램으로 설치되어 구현될 수 있기 때문이다. 따라서, 도 14에서의 송신/수신은 네트워크 상에서의 송신 및 수신뿐만 아니라, 프로그램 또는 프로세스 간의 정보 교환을 의미하기도 한다. 수신부(1410)가 수신한 음악 지문 정보는 음악 지문 검색부(1420)가 이용하여 어떤 음악의 지문인지 검색하게 된다. 즉, 음악 지문 검색부(1420)는 상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스(1425)에서 검색한다. 그 결과, 상기 N 개의 음악 지문에 매칭되어 검색된 음악 정보를 클라이언트에게 제공할 수 있다. 그러나, 검색 대상인 음악 지문에 해당하는 음악들이 둘 이상인 경우에는 중복 필터링부(1430)를 이용하여 하나의 음악 또는 가장 적절하게 매칭되는 음악들로 필터링 할 수 있다. 즉, 중복 필터링부(1430)는 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하게 된다. 상기 중복 필터링부(1430)는 상기 N 개의 음악 지문들에 대한 일치도가 높은 순서를 기준으로 낮은 일치도의 음악을 제외시키도록 구현될 수도 있고, 상기 N 개의 음악 지문들을 재 배열하여 새로운 음악 지문을 생성하여, 상기 새로운 음악 지문을 이용하여 상기 검색된 M 개의 음악 중에서 일치하는 음악을 선택하도록 구현될 수도 있다. 앞서, 도 11a, 11b, 11c에서 살펴본 바와 같이 음악 지문 내의 피크들을 재배열하여 검색된 다수의 음악들 중에서 새로이 생성된 음악 지문에 해당되지 않는 음악을 제외시키도록 필터링할 수 있다. 필터링 결과 검색된 음악을 해당 음악 지문에 매칭되는 것으로 파악하여 해당 음악의 정보를 검색한다. 음악 특성 DB(1425)에 음악 정보가 모두 저장될 수도 있으며, 음악 정보는 분리하여 별도의 데이터베이스(1445)에 저장되고, 음악 특성 데이터베이스(1425)에는 음악 식별 정보만 포함시킬 수 있다. 음악 정보 검색부(1440)는 음악 식별 정보를 이용하여 해당 음악의 정보를 검색, 추출하고, 이를 클라이언트에 송신할 수 있도록 변환한다. 그리고 음악 정보 송신부(1450)는 추출한 음악 정보를 클라이언트에게 송신한다.
앞서 살펴본 바와 같이, 음악 정보에는 제목, 장르, 작곡가, 그리고 노래의 경우 작사가와 가수, 관련 음악 정보 등이 포함될 수 있다. 뿐만 아니라, 요청된 음악 지문이 음악의 어느 부분에 위치하는지에 대한 정보도 함께 제공할 수 있다.
도 15는 본 명세서의 일 실시예에 의한 클라이언트의 구성을 보여주는 도면이다.
클라이언트(1500)는 외부에서 재생중인 음악을 녹음하거나, 기 저장된 컨텐츠에 포함된 음악 파일 또는 스트리밍중인 음악에서 음악 파일을 생성하여 저장할 수 있다. 이렇게 저장된 음악은 저장부(1520)에 저장된다. 외부에서 재생중인 음악을 녹음하는 경우 녹음부(1510)가 마이크를 이용하여 외부 음을 녹음할 수 있다. 외부에서 재생되거나, 혹은 스트리밍 되는 컨텐츠에 포함되었거나, 이미 저장된 음악 컨텐츠 내에 포함된 음악은 음악 파일로 저장될 수 있다. 저장부(1520)에 저장된 음악 파일은 변환부(1530)에서 주파수 도메인의 데이터로 변환한다. 이때, 해당 음악 파일이 녹음한 음악인 경우에 역 이퀄라이징부(1525)가 상기 녹음부(1510)의 특징을 적용하여 역이퀄라이징할 수 있다. 휴대폰과 같이 음성 녹음에 특화된 경우에 적용할 수 있다 피크 추출부(1540)는 변환된 주파수 정보에서 피크를 추출하고, 군집화부(1550)는 이들 피크들을 군집화하여 음악 지문을 구성할 수 있도록 한다. 군집화부(1550)는 미리 약속된 방식으로 군집화 할 수 있다. 즉, 서버에서 어떤 방식으로 음악 지문을 저장하고 있느냐에 맞추어 군집화할 수 있다. 군집화되어 생성된 음악 지문은 음악 지문 송신부(1560)가 서버로 송신하게 된다. 서버는 앞서 살펴본 음악 지문 검색 과정을 통해 음악 정보를 추출하여 송신한다. 그 결과 음악 정보 수신부(1570)는 상기 송신한 음악 지문에 매칭되는 음악 정보를 상기 서버로부터 수신하게 된다.
도 16은 본 명세서의 일 실시예에 의한 음악 검색 서비스에서 음악 특성 추출 및 정보 검색이 이루어지는 프로세스를 보여주는 도면이다.
도 16에서 서비스 주체가 음악을 등록한다(S1652). 이때, 음악 파일(바이너리) 과 음악 정보를 함께 음악 데이터베이스(1610)에 저장할 수 있고, 음악 파일은 파일 서버에 저장하고 해당 서버의 위치와 음악 파일에 대한 상세 음악 정보를 음악 데이터베이스(1610)에 저장할 수도 있다. 음악 데이터베이스(1610)에 저장된 음악 정보 및 파일을 이용하여 음악 지문을 추출하고 인덱싱을 수행한다(S1654) 음악 파일에서 스펙트럴 피크와 같은 자질을 추출하고 군집화를 하여 음악 지문을 생성한다. 그리고 피크 정보 또는 음악 지문을 인덱싱하여 빠른 검색이 될 수 있도록 한다. 음악 지문을 인덱싱하면 차후 검색하고자 하는 음악 지문을 수신하여 음악 특성 데이터베이스(1620)에서 검색할 경우, 검색 속도를 향상시킬 수 있다. 음악 특성, 즉 음악 지문의 추출 및 저장이 완료되면 음악 검색 요청을 수신한다. 음악 검색 요청은 앞서 살펴본 바와 같이 마이크를 이용하여 음악을 녹음하거나, 기 저장된 또는 스트리밍중인 컨텐츠에서 음악을 일부 추출하여 음악 검색을 요청할 수 있다(S1656). 추출한 음악에서 음악 검색을 요청하는데, 음악 지문을 추출하는 과정이 필요하다(S1658). 클라이언트가 추출한 음악 지문은 서버에게 전송되고, 서버에서는 음악 지문의 유사도를 음악 특성 데이터베이스(1620)를 이용하여 검색한 결과를 클라이언트에게 제공하고, 클라이언트는 음악 검색 결과 수신한 정보를 제공한다(S1660). 제공할 수 있는 정보로는 아티스트명, 앨범명, 곡명 노출과 같이 메타 데이터를 제공할 수 있다. 추가로 해당 아티스트, 앨범명, 곡명에 따른 검색 페이지로 이동할 수 있도록 링크 정보를 제공하거나, 해당 아티스트, 앨범명, 곡명에 따른 구매 페이지로 이동할 수 있도록 링크 정보를 제공할 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 음악 파일을 입력받아 주파수 도메인의 데이터로 변환하는 단계;
    상기 변환한 데이터에서 피크를 추출하는 단계;
    상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 단계; 및
    상기 군집화한 피크들의 정보를 음악 지문으로 음악 특성 데이터베이스에 저장하는 단계를 포함하는, 음악의 비-텍스트 정보를 추출하는 방법.
  2. 제 1항에 있어서,
    상기 군집화는 미리 설정된 K개 이하의 인접한 피크들을 결합한 것을 특징으로 하는, 음악의 비-텍스트 정보를 추출하는 방법.
  3. 제 1항에 있어서,
    상기 군집화한 피크들을 재배열하여 새로운 음악 지문을 생성하는 단계를 더 포함하는, 음악의 비-텍스트 정보를 추출하는 방법.
  4. 클라이언트로부터 N개의 음악 지문을 수신하는 단계;
    상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스에서 검색하는 단계;
    상기 N 개의 음악 지문에 매칭되어 검색된 음악이 M개인 경우, 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하는 단계; 및
    상기 검색된 음악을 해당 음악 지문에 매칭되는 음악으로 파악하여 상기 음악 정보를 상기 클라이언트에게 송신하는 단계를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  5. 제 4항에 있어서,
    상기 중복 필터링 검색은 상기 N 개의 음악 지문들에 대한 일치도가 높은 순서를 기준으로 낮은 일치도의 음악을 제외시키는 것을 특징으로 하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  6. 제 4항에 있어서,
    상기 중복 필터링 검색 기준에 따라 음악을 검색하는 단계는
    상기 N 개의 음악 지문들을 재 배열하여 새로운 음악 지문을 생성하는 단계; 및
    상기 새로운 음악 지문을 이용하여 상기 검색된 M 개의 음악 중에서 일치하는 음악을 선택하는 단계를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  7. 음악 파일을 주파수 도메인의 데이터로 변환하는 단계;
    상기 변환한 데이터에서 피크를 추출하는 단계;
    상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 단계;
    상기 군집화한 피크들의 정보를 음악 지문으로 서버에 송신하는 단계; 및
    상기 송신한 음악 지문에 매칭되는 음악 정보를 상기 서버로부터 수신하는 단계를 포함하며, 상기 음악 파일은 새로이 녹음하거나 또는 이전에 녹음되어 저장된 것을 특징으로 하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  8. 제 7항에 있어서,
    상기 음악 파일이 새로이 녹음한 것인 경우,
    상기 변환하는 단계 이전에 재생 중인 음악을 녹음하는 단계를 더 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  9. 제 8항에 있어서
    상기 변환하는 단계 이후에 상기 재생 중인 음악을 녹음한 마이크의 특징을 적용하여 역이퀄라이징하는 단계를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  10. 제 7항에 있어서,
    상기 음악 파일이 이전에 녹음되어 저장된 음악 파일인 경우, 상기 음악 파일은 인터넷을 통해 스트리밍으로 제공되는 음악, 기 저장된 동영상에 포함된 음악, 또는 다른 녹음 장치에서 저장하여 복사한 음악 중 하나를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 방법.
  11. 음악 파일을 입력받아 주파수 도메인의 데이터로 변환하는 변환부;
    상기 변환한 데이터에서 피크를 추출하는 피크 추출부;
    상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 군집화부; 및
    상기 군집화한 피크들의 정보를 음악 지문으로 생성하여 음악 특성 데이터베이스에 저장하는 음악 지문 생성부를 포함하는, 음악의 비-텍스트 정보를 추출하는 장치.
  12. 제 11항에 있어서,
    상기 군집화부는 미리 설정된 K개 이하의 인접한 피크들을 결합하여 군집화하는 것을 특징으로 하는, 음악의 비-텍스트 정보를 추출하는 장치.
  13. 제 11항에 있어서,
    상기 군집화한 피크들을 재배열하는 재배열부를 더 포함하며 상기 음악 지문 생성부는 상기 재배열된 피크들을 군집화하여 새로운 음악 지문을 생성하는, 음악의 비-텍스트 정보를 추출하는 장치.
  14. 클라이언트로부터 N개의 음악 지문을 수신하는 수신부;
    상기 N 개의 음악 지문에 매칭되는 음악 지문을 가지는 음악을 음악 특성 데이터베이스에서 검색하는 음악지문 검색부;
    상기 N 개의 음악 지문에 매칭되어 검색된 음악이 M개인 경우, 상기 N 개의 음악 지문을 기준으로 중복 필터링 검색 기준에 따라 음악을 검색하는중복 필터링부;
    상기 검색된 음악을 해당 음악 지문에 매칭되는 음악으로 파악하여 상기 음악 정보를 검색하는 음악 정보 검색부; 및
    상기 검색된 음악 정보를 상기 클라이언트에게 송신하는 음악 정보 송신부를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  15. 제 14항에 있어서,
    상기 중복 필터링부는 상기 N 개의 음악 지문들에 대한 일치도가 높은 순서를 기준으로 낮은 일치도의 음악을 제외시키는 것을 특징으로 하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  16. 제 14항에 있어서,
    상기 중복 필터링부는 상기 N 개의 음악 지문들을 재 배열하여 새로운 음악 지문을 생성하여, 상기 새로운 음악 지문을 이용하여 상기 검색된 M 개의 음악 중에서 일치하는 음악을 선택하는 것을 특징으로 하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  17. 음악 파일을 주파수 도메인의 데이터로 변환하는 변환부;
    상기 변환한 데이터에서 피크를 추출하는 피크 추출부;
    상기 추출한 피크간의 변화량을 측정하여 상기 피크들을 군집화 설정 정보에 따라 군집화하는 군집화부;
    상기 군집화한 피크들의 정보를 음악 지문으로 서버에 송신하는 음악 지문 송신부; 및
    상기 송신한 음악 지문에 매칭되는 음악 정보를 상기 서버로부터 수신하는 음악 정보 수신부를 포함하며, 상기 음악 파일은 새로이 녹음하거나 또는 이전에 녹음되어 저장된 것을 특징으로 하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  18. 제 17항에 있어서,
    상기 음악 파일이 새로이 녹음한 것인 경우 재생중인 음악을 녹음하는 녹음부를 더 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  19. 제 18항에 있어서
    상기 녹음부의 특징을 적용하여 역이퀄라이징하는 역이퀄라이징부를 더 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
  20. 제 17항에 있어서,
    상기 음악 파일이 이전에 녹음되어 저장된 음악 파일인 경우, 상기 음악 파일은 인터넷을 통해 스트리밍으로 제공되는 음악, 기 저장된 동영상에 포함된 음악, 또는 다른 녹음 장치에서 저장하여 복사한 음악 중 하나를 포함하는, 음악의 비-텍스트 정보를 이용한 음악 검색 장치.
KR20100100350A 2010-10-14 2010-10-14 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치 KR101194540B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20100100350A KR101194540B1 (ko) 2010-10-14 2010-10-14 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20100100350A KR101194540B1 (ko) 2010-10-14 2010-10-14 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120038737A true KR20120038737A (ko) 2012-04-24
KR101194540B1 KR101194540B1 (ko) 2012-10-24

Family

ID=46139354

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20100100350A KR101194540B1 (ko) 2010-10-14 2010-10-14 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101194540B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392262A (zh) * 2020-11-26 2021-09-14 腾讯科技(北京)有限公司 音乐识别方法、推荐方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069575A1 (en) 2000-03-13 2001-09-20 Perception Digital Technology (Bvi) Limited Melody retrieval system
KR101041037B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 음성과 음악을 구분하는 방법 및 장치
KR100969870B1 (ko) * 2010-02-01 2010-07-13 전자부품연구원 오디오 입력데이터 특성에 따른 가변 가중치 기반 음원 검색 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392262A (zh) * 2020-11-26 2021-09-14 腾讯科技(北京)有限公司 音乐识别方法、推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR101194540B1 (ko) 2012-10-24

Similar Documents

Publication Publication Date Title
Haitsma et al. A highly robust audio fingerprinting system with an efficient search strategy
Schindler et al. Facilitating Comprehensive Benchmarking Experiments on the Million Song Dataset.
Haitsma et al. A highly robust audio fingerprinting system.
Grosche et al. Audio content-based music retrieval
US20070106405A1 (en) Method and system to provide reference data for identification of digital content
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
KR20150108936A (ko) 오디오 인식 방법 및 기기
US8209313B2 (en) Structuring and searching data in a hierarchical confidence-based configuration
US20100217755A1 (en) Classifying a set of content items
US11636835B2 (en) Spoken words analyzer
CN114328996A (zh) 一种发布信息的方法和装置
US20100146009A1 (en) Method of DJ commentary analysis for indexing and search
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
KR101194540B1 (ko) 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치
CN104866604A (zh) 一种信息处理方法及服务器
CN102375834A (zh) 音频文件检索方法、系统和音频文件类型识别方法、系统
Di Buccio et al. A scalable cover identification engine
Myna et al. Hybrid recommender system for music information retrieval
KR20090065197A (ko) 인덱스 데이터베이스 생성 장치 및 검색 장치
KR102255156B1 (ko) 복수의 음악 파일들을 관리하는 장치 및 방법
Han et al. A filtering method for audio fingerprint based on multiple measurements
US9996621B2 (en) System and method for retrieving internet pages using page partitions
Khan et al. Hybrid query by humming and metadata search system (HQMS) analysis over diverse features
Chen et al. Similarity analysis and repeating pattern detection in fingerprint features
Borjian A survey on query-by-example based music information retrieval

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151014

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161017

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180928

Year of fee payment: 7