KR101647012B1

KR101647012B1 - 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법

Info

Publication number: KR101647012B1
Application number: KR1020150159517A
Authority: KR
Inventors: 조훈영
Original assignee: 주식회사 비글컴퍼니
Priority date: 2015-11-13
Filing date: 2015-11-13
Publication date: 2016-08-23

Abstract

본 발명은 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법에 관한 것으로서, 방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 질의 오디오 신호 형성부; 질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 오디오 DNA 생성부; 상기 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 생성하는 검색 시스템; 및 상기 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 큐시트 생성부를 포함하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 이를 이용한 방법을 제공한다.

Description

오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법{APPARATUS AND METHOD FOR SEARCHING MUSIC INCLUDING NOISE ENVIRONMENT ANALYSIS OF AUDIO STREAM}

본 발명은 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치 및 방법에 관한 것으로서, 보다 상세하게는 오디오 신호에 음악 뿐 아니라 배경음, 사람의 목소리 등과 같은 잡음(noise)이 포함되어 있는 환경에서도 질의 오디오 신호에 대해 보다 정확한 음악 검색 결과를 제공할 수 있으며, 이러한 음악 검색 결과에 기초하여 방송 콘텐츠에 대한 큐시트를 자동으로 생성할 수 있는 장치 및 방법에 관한 것이다.

오디오 DNA라 함은, 오디오 신호의 특징(feature)을 나타내는 데이터를 의미하며, 오디오 핑거프린트(fingerprint)라고도 한다. 이러한 오디오 DNA를 이용하여 음악을 검색하는 다양한 방법이 종래에 알려져 있다.

한편, TV나 라디오 또는 기타 방송 매체를 통해 제공되는 방송 콘텐츠는 수초~수십초 길이의 음악이 다수 삽입된다. 이 때, 음악이 삽입된 구간에 화자(아나운서, DJ, MC 등)의 음성(voice)이 중첩되어 있는 경우가 빈번하다.

또한, 음악이 삽입되지 않은 구간에서는 화자의 말소리 또는 음악 이외의 다양한 신호들이 존재할 수 있으며 전문 음악 방송 프로그램을 제외하고는 대부분의 경우가 음악이 삽입되지 않은 구간에 해당된다. 이는 도 1과 같이 나타낼 수 있다.

도 1은 방송 콘텐츠에 음악만이 삽입되어 있는 경우, 음악이 없는 경우, 음원과 방송 멘트가 중첩되어 있는 경우 등을 시간 구간별로 나타낸 것이다.

도 1에 나타낸 바와 같이, 방송 콘텐츠는 실제 음악만으로 구성되지 않는 경우가 많으므로, 이를 종래의 오디오 DNA 기반 검색 시스템에 의해 검색하는 경우 정확한 결과를 얻을 수 없다. 따라서, 각 구간의 음향적 특성을 파악하고, 그 특성에 맞도록 오디오 DNA 기반의 검색을 보다 신속하고 정확하게 수행할 수 있는 방법이 요망되고 있다.

한편, 방송 콘텐츠는 도 1에 나타낸 바와 같이 실제 방송 콘텐츠 내의 음악 삽입 시점과 삽입된 길이 등이 매우 다양한 형태로 존재하므로, 이런 상황에서도 각각의 음악이 삽입된 시작시점과 종료시점, 곡명을 획득하는 방법이 요망된다고 할 수 있으나, 종래의 단순한 오디오 DNA를 이용하여 음악을 검색하는 방법은 도 1과 같은 방송 콘텐츠에 적용하는 경우 정확한 검색이 이루어지지 않는 경우가 대부분이다.

본 발명은 상기한 바와 같은 한계점을 해결하기 위한 것으로서, 음성과 음악 신호가 섞여 있는 방송 콘텐츠에 대해 시간 구간별로 음악 검색 결과를 제공할 수 있는 새로운 형태의 오디오 DNA 구조를 제공하고 이에 기초하여 정확하고 신속하게 방송 콘텐츠에 대한 시간 구간별 음악 검색 결과를 제공할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 방송 콘텐츠에 대한 시간 구간별 음악 검색 결과에 기초하여 시간대별로 구분된 큐시트를 제공할 수 있는 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.

상기한 바와 같은 과제를 해결하기 위하여 본 발명은, 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치로서, 방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 질의 오디오 신호 형성부; 질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 오디오 DNA 생성부; 상기 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 생성하는 검색 시스템; 및 상기 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 큐시트 생성부를 포함하는 음악 검색 장치를 제공한다.

여기에서, 상기 질의 오디오 신호 형성부는, 상기 방송 콘텐츠에 대해 매 K초마다 L초 길이의 구간으로 분할된 질의 오디오 신호를 생성할 수 있다.

또한, 상기 오디오 DNA 생성부는, 질의 오디오 신호에 대해 질의 오디오 신호를 구성하는 프레임별로 이진 DNA를 생성하는 이진 DNA 생성부; 질의 오디오 신호를 구성하는 프레임들이 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 프레임별로 생성하는 음악성 계수 생성부; 및 질의 오디오 신호에 대해 이진 DNA와 음악성 계수를 결합하여 오디오 DNA를 생성하는 오디오 DNA 구성부를 포함하도록 구성할 수 있다.

또한, 상기 음악성 계수 생성부는, 음악 신호에 가까운 정도를 0~1 사이의 확률값으로 음악성 계수를 생성할 수 있다.

또한, 상기 오디오 DNA 구성부는, 질의 오디오 신호를 구성하는 프레임들 각각에 대해 생성된 이진 DNA와 음악성 계수와 방송 콘텐츠 상에서 해당 질의 오디오 신호의 위치를 나타내는 인덱스 정보를 포함하는 오디오 DNA를 질의 오디오 신호에 대해 생성하도록 할 수 있다.

또한, 상기 검색 시스템은, 질의 오디오 신호에 대해 생성된 오디오 DNA에 포함되어 있는 프레임별 음악성 계수에 기초하여 질의 오디오 신호가 음악 신호가 아닌지의 여부를 판별하는 음악 판단부; 질의 오디오 신호에 포함된 프레임별 이진 DNA를 이용하여 프레임별 이진 DNA에 대응하는 음악 식별자 및 프레임 정보를 검색하는 후보 검색부; 및 질의 오디오 신호의 음악성 계수와 상기 후보 검색부에서 검색된 음악 식별자 및 프레임 정보에 기초하여 질의 오디오 신호의 이진 DNA와 레퍼런스 오디오 DNA 데이터베이스에 저장되어 있는 상기 검색된 음악 식별자에 상응하는 이진 DNA를 비교하여 해당 질의 오디오 신호에 상응하는 음악 식별 정보를 결정하는 음악 식별 정보 결정부를 포함할 수 있다.

또한, 상기 음악 식별 정보 결정부는, 상기 비교되는 이진 DNA들간의 해밍 거리와 음악성 계수에 의한 함수에 의해 음악 식별 정보를 결정하도록 구성할 수 있다.

또한, 상기 음악 식별 정보는, 상기 해밍 거리값이 가장 작은 음악 식별자의 스코어가 미리 정해 놓은 임계치보다 작은 경우 해당 음악 식별자 및 스코어일 수 있다.

또한, 상기 큐시트 생성부는, 상기 음악 식별 정보가 결정된 모든 질의 오디오 신호들을 시간 순으로 정렬하고, 서로 동일한 음악 식별자를 갖는 인접한 질의 오디오 신호들을 동일한 클러스터로 형성하고, 각각의 클러스터에 대해 인접한 클러스터가 서로 동일한 음악 식별자를 갖는 경우 인접한 클러스터를 동일한 클러스터로 통합하고, 상기 클러스터들 각각에 대하여 원본 방송 콘텐츠의 시간 순서에 따라 시간 구간 정보와 음악 식별 정보에 상응하는 메타 정보를 포함하는 큐시트를 생성하도록 구성할 수 있다.

본 발명의 다른 측면에 의하면, 상기한 바와 같은 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치에 의한 음악 검색 방법에 있어서, 방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 제1 단계; 질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 제2 단계; 상기 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 생성하는 제3 단계; 및 상기 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 제4 단계를 포함하는 음악 검색 방법을 제공할 수 있다.

본 발명에 의하면, 음성과 음악 신호가 섞여 있는 방송 콘텐츠에 대해 시간 구간별로 음악 검색 결과를 제공할 수 있는 새로운 형태의 오디오 DNA 구조를 제공하고 이에 기초하여 정확하고 신속하게 방송 콘텐츠에 대한 시간 구간별 음악 검색 결과를 제공할 수 있는 장치 및 방법을 제공할 수 있다.

또한, 본 발명은 방송 콘텐츠에 대한 시간 구간별 음악 검색 결과에 기초하여 시간대별로 구분된 큐시트를 제공할 수 있는 장치 및 방법을 제공할 수 있다.

또한, 본 발명은, 방송 콘텐츠에 대한 시간대별로 구분된 큐시트를 제공할 수 있으므로 이에 의하여 온라인상에서의 저작권 관리에 유용하게 사용할 수 있는 장점이 있다.

도 1은 방송 콘텐츠에 음악만이 삽입되어 있는 경우, 음악이 없는 경우, 음원과 방송 멘트가 중첩되어 있는 경우 등을 시간 구간별로 나타낸 것이다.
도 2는 오디오 신호에 대해 오디오 DNA를 추출하는 종래의 방법을 나타낸 흐름도이다.
도 3은 색인 시스템의 일예를 나타낸 도면이다.
도 4는 색인 시스템과 매칭 시스템에 의해 음원을 식별하는 검색 시스템을 설명하기 위한 도면이다.
도 5는 본 발명에 의한 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치(100)의 구성을 나타낸 도면이다.
도 6은 오디오 DNA 생성부(20)의 내부 구성을 나타낸 도면이다.
도 7은 음악성 계수 생성부(22)에서 음악성 계수를 생성하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명에서 사용되는 오디오 DNA의 구성을 나타낸 도면이다.
도 9는 검색 시스템(30)의 내부 구성을 나타낸 도면이다.
도 10은 큐시트 생성부(40)의 동작을 설명하기 위한 도면이다.
도 11은 큐시트 생성부(40)에 의해 생성된 큐시트의 일예를 나타낸 것이다.
도 12는 본 발명의 음악 검색 장치(100)에서 수행되는 음악 검색 방법의 일실시예를 나타낸 흐름도이다.
도 13은 오디오 DNA 생성부(20)에서 오디오 DNA를 생성하는 과정을 나타낸 흐름도이다.

이하, 첨부 도면을 참조하여 본 발명에 의한 바람직한 실시예를 상세하게 설명하기로 한다.

우선, 본 발명을 설명하기에 앞서서 종래 기술에 의해 알려져 있는 오디오 DNA 생성 방법 및 이를 이용한 음악 검색 방법에 대해 설명한다.

일반적으로 음악 검색은 다음과 같은 방식으로 이루어진다. 우선, 음악 데이터베이스(database)에 저장되어 있는 모든 음악 파일들에 대해 오디오 DNA(핑거프린트(fingerpring)라고도 함)를 추출하고 이를 레퍼런스 오디오 DNA 데이터베이스에 저장해 둔다.

도 2는 오디오 신호에 대해 오디오 DNA를 추출하는 종래의 방법을 나타낸 흐름도이다.

도 2를 참조하면, 우선 오디오 신호를 일정 길이 단위로 프레임(frame)을 분할 형성하고, 각 프레임에 대해서 고속 푸리에 변환(FFT) 등의 주파수 분석을 수행한 뒤, 주파수 영역에 대해 멜 필터뱅크 분석(Mel Filterbank Analysis) 등의 청각 필터뱅크 분석을 통해 주파수 영역의 구간별로 부대역 에너지(sub-band energy)에 해당되는 값을 얻어낸다. 여기에서 일반적으로 부대역의 개수로는 16개 혹은 32개를 많이 사용한다. 이 단계까지의 프로세스를 통해 매 프레임별로 예컨대 32차의 부동소수점(floating point) 형태의 부대역 에너지 벡터를 얻게 되며, 마지막으로 인접 프레임간의 에너지 계수의 변이를 특정 임계치와 비교하여 이진 벡터(binary vector)값을 갖는 오디오 DNA를 획득한다. 이와 같은 과정을 통해 주어진 오디오 신호에 대해 프레임별로 형성된 오디오 DNA를 얻을 수 있다.

음악 데이터베이스에 포함된 모든 음악 파일들에 대해 도 1과 같은 과정을 통해 오디오 DNA가 추출되면 이들로부터 색인 시스템(indexing system)을 구성한다.

도 3은 색인 시스템의 일예를 나타낸 도면이다.

도 3에 나타낸 바와 같이, 색인 시스템은 모든 가능한 경우의 32차 이진벡터(binary vector) 주소 공간에 대해 음악 데이터베이스에 저장되어 있는 음악 파일들 전체에 대한 오디오 신호들로부터 도 1과 같은 방식에 의해 추출한 오디오 DNA들이 자신에 해당하는 주소(address) 위치에 곡명 ID와 해당 곡 상에서의 프레임 번호값의 쌍(pair)으로 등록한 해쉬 테이블(Hash Table)을 이용하여 구성할 수 있다. 이를 통해 주어진 오디오 신호들을 구성하는 각각의 프레임별로 해당하는 해쉬 테이블의 주소 공간을 이용하여 대응되는 곡명 ID/프레임 번호의 값으로 구성되는 색인 시스템을 형성할 수 있다.

이와 같이, 음악 데이터베이스에 저장된 모든 음악 파일들에 대해 오디오 DNA 추출/저장 과정과 색인 시스템이 구성된 상태에서 질의 오디오 신호(query audio signal)가 입력되면, 질의 오디오 신호에 대해 도 1에서 설명한 바와 같이 오디오 DNA를 추출하고 이를 후술하는 검색 시스템(색인 시스템 및 매칭 시스템)을 이용하여 매칭되는 음원 식별 결과 즉, 질의 오디오 신호의 곡목 결과를 제공하게 된다.

질의 오디오 신호에 대해 매칭되는 음원 식별 결과를 검색하는 검색 시스템은 색인 시스템(도 3 참조)과 매칭 시스템(matching system)으로 구성된다.

도 4는 색인 시스템과 매칭 시스템에 의해 음원을 식별하는 검색 시스템을 설명하기 위한 도면이다.

도 4를 참조하면, 매칭 시스템은 입력된 질의 오디오 신호(query audio signal)에 대해 도 1에서 설명한 바와 같은 방식으로 질의 오디오 DNA를 추출하고, 추출된 질의 오디오 DNA에 대해 도 2에 나타낸 바와 같은 색인 시스템(해쉬 테이블)에 저장되어 있는 N개의 곡명 ID/프레임 번호로 구성되는 N개의 1차 후보곡들의 목록을 얻을 수 있다.

그리고, 매칭 시스템은 질의 오디오 DNA와 N개의 1차 후보곡들 각각에 대한 오디오 DNA를 직접 비교하고 유사도 점수(score)를 계산하고, 유사도 점수가 가장 높은 후보곡의 식별자(identifier,ID, 곡목 정보)를 최종적인 결과값으로 출력한다.

다음으로, 도 5 이하를 참조하여 본 발명에 의한 실시예를 상세하게 설명하기로 한다.

도 5는 본 발명에 의한 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치(100, 이하 간단히 "음악 검색 장치(100)"라 한다)의 구성을 나타낸 도면이다.

도 5를 참조하면, 본 발명의 일실시예에 의한 음악 검색 장치(100)는, 질의 오디오 신호 형성부(10), 오디오 DNA 생성부(20), 검색 시스템(30) 및 큐시트 생성부(40)를 포함한다.

이러한 음악 검색 장치(100)의 전체적인 동작을 개략적으로 설명하면 다음과 같다. 즉, 음악 검색 장치(100)는 소정 길이 예컨대 1시간 분량의 방송 콘텐츠에 대해 소정 길이의 시간 구간 단위로 분할하여 질의 오디오 신호를 생성하고, 각 질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하고, 생성된 오디오 DNA를 이용하여 매칭되는 결과를 검색한 후, 검색 결과에 기초하여 방송 콘텐츠 전체에 대한 큐시트를 생성한다.

이하, 음악 검색 장치(100)의 각 구성 요소들에 대해 상세히 설명하기로 한다.

우선, 질의 오디오 신호 형성부(10)는, 방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 기능을 수행한다. 즉, 질의 오디오 신호 형성부(10)는, 예컨대 전체 길이가 1시간 분량인 방송 콘텐츠에 대해 매 K초마다 L초 길이의 구간으로 분할된 질의 오디오 신호를 연속적으로 생성한다. 예컨대, 매 12(K)초마다 120(L)초 길이로 분할된 질의 오디오 신호를 생성함으로써, 각각의 질의 오디오 신호의 시작점이 K초 만큼 간격(shift length)을 두도록 하여, 각각의 질의 오디오 신호가 서로 겹치는 시간 구간이 존재하도록 하는 것이 검색의 정확도가 향상될 수 있다.

오디오 DNA 생성부(20)는, 질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 기능을 수행한다.

도 6은 오디오 DNA 생성부(20)의 내부 구성을 나타낸 도면이다.

도 6을 참조하면, 오디오 DNA 생성부(20)는 이진 DNA 생성부(21), 음악성 계수 생성부(22) 및 오디오 DNA 구성부(23)를 포함한다.

이진 DNA 생성부(21)는 질의 오디오 신호 형성부(10)에서 생성되는 소정 시간 구간 단위로 분할된 질의 오디오 신호에 대해 질의 오디오 신호를 구성하는 프레임별로 이진 DNA를 생성하는 기능을 수행한다.

여기에서, 이진(binary) DNA는 도 2에서 설명한 바와 같이 종래 기술에 의해 알려진 방식에 의해 생성되는 이진 벡터(binary vector) 형태의 DNA를 의미하며, 이진 DNA 생성부(21)는 주어진 질의 오디오 신호에 대해 프레임별로 이진 DNA를 생성한다. 이진 DNA 생성부(21)의 구체적인 구성 및 동작은 도 2에서 설명한 바와 같은 종래 기술에 의해 알려진 기술을 사용할 수 있으며, 또한 이는 본 발명의 직접적인 목적은 아니므로 이에 대한 상세한 설명은 생략한다.

한편, "이진 DNA"는 앞서 도 1 내지 도 4에서 설명한 종래 기술에서의 "오디오 DNA"라는 용어와 같은 의미이지만, 본 발명에서는 후술하는 바와 같이 기존의 "오디오 DNA"에 음악성 계수와 인덱스 정보 등을 포함하여 새롭게 재구성한 것을 "오디오 DNA"라고 정의하였으므로, 이를 종래의 오디오 DNA와 구별하기 위해 종래의 오디오 DNA를 이진 DNA로 칭한다는 점을 유의해야 한다.

음악성 계수 생성부(22)는 질의 오디오 신호에 대해 질의 오디오 신호를 구성하는 프레임별로 해당 프레임이 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 프레임별로 생성하는 기능을 담당한다.

여기에서, "음악성 계수"라 함은, 질의 오디오 신호를 구성하는 각각의 프레임들이 음악 신호에 얼마나 가까운지를 추정하여 0에서 1사이의 값(일례로, 0에 가까울수록 음악 신호일 가능성이 높고 1에 가까울수록 음악 신호가 아닐 확률이 높도록 지정할 수 있음)으로 표현한 계수를 말한다. 즉, 음악성 계수는 음악 신호에 가까운 정도를 0~1 사이의 확률값으로 생성될 수 있다.

앞서 설명한 바와 같이 방송 콘텐츠는 음악 신호 뿐 아니라 화자의 음성만 존재하거나 화자의 음성과 중첩되어 존재하는 경우 등과 같이 음악 신호만으로 구성되어 있지 않은 경우가 빈번하기 때문인데, 음악성 계수는 이러한 경우를 고려하여 질의 오디오 신호의 프레임별로 음악 신호에 얼마나 가까운지를 사전에 판단하여 이를 계수함으로써 후술하는 검색 시스템(30) 및 큐시트 생성부(40)에서 이러한 경우를 고려하여 검색 및 큐시트 생성을 보다 정확하고 효율적으로 수행할 수 있도록 하는 기능을 담당한다.

음악성 계수를 생성하는 방법으로서 종래에 여러 가지 방법이 알려져 있는데 예컨대 사전에 방대한 양의 음악 신호/음악 이외의 신호에 의해 학습(learning)된 분류기(classifier)를 사용할 수 있다.

예컨대, 분류기는 신경회로망으로 구현할 수 있으며, 입력 신호(벡터)에 대해 음악인지의 여부를 미리 학습된 분류 엔진에서 판단하여 클래스에 따라 확률값으로 결과를 출력할 수 있다.

도 7은 음악성 계수 생성부(22)에서 음악성 계수를 생성하는 방법을 설명하기 위한 도면이다.

도 7을 참조하면, 질의 오디오 신호의 매 프레임마다 예컨대 32차의 필터 뱅크 에너지를 추출하고, 임의의 t번째 프레임에서 앞뒤로 w개만큼의 벡터들을 이어 붙여서 슈퍼 벡터(super vector)를 구성하고, 이를 신경회로망으로 구현된 분류기에 통과시키면, 입력 슈퍼 벡터가 음악 신호에 가까울 경우 첫번째 출력 노드(음악 클래스)에서 1에 가까운 값이 나오게 되고 음악 신호가 아닐수록 0에 가까운 값이 나오게 된다. 시스템 설계상의 이유로 0에 가까울수록 음악 신호일 가능성이 높고 1에 가까울수록 음악 신호가 아닐 확률이 높도록 지정하고자 할 경우, 음악성 계수는 1-음악 클래스 출력 확률에 의해 구할 수 있다.

도 7에서 필터 뱅크 에너지는 도 2에서 설명한 청각 필터 뱅크를 거쳐 부대역 에너지(sub-band)를 생성하는 과정에서 획득할 수 있다.

한편, 오디오 DNA 구성부(23)는 질의 오디오 신호에 대해 이진 DNA와 음악성 계수를 결합하여 오디오 DNA를 생성하는 기능을 수행한다.

도 8은 본 발명에서 사용되는 오디오 DNA의 구성을 나타낸 도면이다.

도 8은 하나의 단위 질의 오디오 신호에 대한 오디오 DNA를 나타낸 것으로서, 도 8을 참조하면, 오디오 DNA는 질의 오디오 신호를 구성하는 프레임 1~프레임 N 각각에 대해서 이진 DNA와 음악성 계수를 결합하여 구성되어 있음을 알 수 있다.

여기에서 각 프레임에 대한 이진 DNA는 전술한 이진 DNA 생성부(21)에서 얻을 수 있고, 음악성 계수는 음악성 계수 생성부(22)에서 얻을 수 있다.

이진 DNA와 음악성 계수는 각각 4바이트의 부동 소수점 형태로 표현하였으나 이에 한정되는 것은 아니며, 고정 소수점 형태일 수도 있으며 또한 기타 적절한 바이트를 사용할 수 있다.

또한, 오디오 DNA는 해당 질의 오디오 신호의 프레임 개수(N), 버전 넘버, 프레임 레이트(frame rate), 샘플링 레이트(sampling rate) 등과 같은 정보를 포함할 수 있다.

또한, 오디오 DNA는 헤더 부분에 "원본 방송 콘텐츠 상의 시작 프레임 인덱스(index)" 정보를 포함한다. 이는 원본 방송 콘텐츠 상에서의 해당 질의 오디오 신호의 위치(또는 순서)를 식별하기 위한 것으로서, 예컨대 해당 질의 오디오 신호의 시작 프레임의 번호일 수 있다. 이러한 시작 프레임의 번호는 해당 시작 프레임이 원본 방송 콘텐츠에서 대응하는 시간 정보에 대응하도록 후술하는 큐시트 생성부(40)에 저장해 둔다. 원본 방송 콘텐츠 상의 시작 프레임 인덱스는 후술하는 큐시트 생성부(40)에서 큐시트를 생성할 때 유용하게 사용되는데 이에 대해서는 후술한다.

요컨대, 오디오 DNA 구성부(23)는 질의 오디오 신호를 구성하는 프레임들 각각에 대해 생성된 이진 DNA 및 음악성 계수와 방송 콘텐츠 상에서 해당 질의 오디오 신호의 위치를 나타내는 인덱스 정보를 포함하는 오디오 DNA를 하나의 단위 질의 오디오 신호에 대해 생성한다.

다음으로, 다시 도 5로 돌아가서 검색 시스템(30)에 대하여 설명한다.

검색 시스템(30)은 상기 오디오 DNA 생성부(20)에서 각각의 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스(reference) 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 제공하는 기능을 수행한다.

도 9는 검색 시스템(30)의 내부 구성을 나타낸 도면이다.

도 9를 참조하면, 검색 시스템(30)은 음악 판단부(31), 후보 검색부(32) 및 음악 식별 정보 결정부(33)를 포함한다.

음악 판단부(31)는 질의 오디오 신호에 대해 생성된 오디오 DNA에 포함되어 있는 프레임별 음악성 계수에 기초하여 해당 질의 오디오 신호가 음악 신호가 아닌지의 여부를 판별하는 기능을 수행한다. 만약, 음악 신호가 아닌 것으로 판별되는 경우 이후의 절차를 생략하고 검색 시스템(30)은 예컨대 "검색 결과 없음" 또는 "음악이 아님(Not-Music)" 등과 같은 메시지를 검색 결과로서 제공함으로써 불필요한 연산을 줄이고 전체 검색 속도를 높일 수 있다.

음악 신호인지의 여부는 하나의 단위 질의 오디오 신호에 포함된 N개의 프레임에 대한 N개의 음악성 계수들의 함수에 의해 판단할 수 있는데, 예컨대 N개의 음악성 계수들의 평균값을 구하고 이를 미리 설정해 놓은 특정 임계치와 비교하여 임계치를 넘으면 음악 신호가 아닌 것으로 판단할 수 있다.

후보 검색부(32)는 질의 오디오 신호에 포함된 프레임별 이진 DNA를 이용하여 프레임별 이진 DNA에 대응하는 음악 식별자 및 프레임 정보를 검색하는 기능을 수행한다. 이는 앞서 도 4에서 설명한 1차 후보를 추출하는 과정과 유사하다.

즉, 음악 데이터베이스에 저장되어 있는 모든 음악 파일에 대해 도 3 및 도 4에서 설명한 바와 같은 과정을 통해, 가능한 모든 이진 DNA에 대응하여 음악 식별자(ID)/프레임 번호를 쌍으로 저장해 둔 해쉬 테이블을 구성해 두고(색인 시스템), 후보 검색부(32)는 이러한 해쉬 테이블(색인 시스템)을 검색함으로써 프레임별 이진 DNA에 대응하는 M개의 음악 식별자 및 프레임 정보를 얻을 수 있다.

음악 식별 정보 결정부(33)는 질의 오디오 신호의 음악성 계수와 후보 검색부(32)에서 검색된 M개의 음악 식별자 및 프레임 정보에 기초하여 질의 오디오 신호의 이진 DNA와 레퍼런스 오디오 DNA 데이터베이스에 저장되어 있는 상기 검색된 음악 식별자에 상응하는 이진 DNA를 비교하여 해당 질의 오디오 신호에 상응하는 음악 식별 정보를 결정한다.

이진 DNA를 비교하여 음악 식별 정보를 결정하는 것은, 질의 오디오 신호의 이진 DNA와 M개의 음악 식별자에 대한 이진 DNA를 프레임 단위로 일대일로 비교하여 거리값을 계산하고, 거리값이 가장 작은 음악 식별자의 스코어(score)가 미리 정해 놓은 임계치보다 작은 경우 해당 음악 식별자 및 스코어를 음악 식별 정보로 결정할 수 있다.

질의 오디오 신호의 이진 DNA와 M개의 음악 식별자에 대한 이진 DNA(레퍼런스 이진 DNA)를 프레임 단위로 일대일로 비교하여 거리값을 계산하는 것은 종래 기술에 의해 알려진 바와 같이 이진 DNA의 비트간의 차이를 나타내는 해밍 거리(Hamming Distance)를 이용하여 계산할 수 있다.

비교되는 프레임들의 이진 DNA간의 해밍 거리는 다음과 같은 수식으로 나타낼 수 있다.

또한, 스코어(score)는 비교되는 프레임들 전체에 대한 합을 의미하는데 다음과 같은 수식으로 나타낼 수 있다.

여기에서, r(i)는 i번째 프레임에 해당하는 레퍼런스 이진 DNA를 뜻하고, q(j)는 j번째 프레임에 해당하는 질의 오디오 신호의 이진 DNA이다. 또한, 상기 수식에서 스코어는 단순히 거리의 총합으로 표현하였으나, 레퍼런스 이진 DNA의 한 프레임을 질의 오디오 신호의 이진 DNA의 하나 이상의 프레임과 비교하는 등의 변형된 방법을 사용할 수도 있다.

한편, 본 발명은 상기와 같은 종래의 방식에 더하여, 음악성 계수를 반영하여 거리 계산 및 스코어를 계산하는 것을 특징으로 하는 바, 거리 계산시에 음악성 계수를 반영하여 질의 오디오 신호의 프레임이 음악에 가까울 수록 거리 계산에 유리하도록 조정함으로써 검색의 정확도를 개선시킨다. 즉, 질의 오디오 신호의 특정 프레임 j에 대해서 음악성 계수 m(j)의 값이 1에 가까울수록 해당 프레임은 음악에 해당하지 않을 가능성이 높으므로 거리값이 커지도록 조정되는 방식이다.

이를 수식으로 나타내면 다음과 같다.

[수식 1]

[수식 2]

상기 수식 1은 예컨대 다음과 같은 함수를 사용할 수 있다.

여기에서

는 상수이며, m(j)의 값에 비례하여 커지거나 작아지도록 함으로써 m(j)가 클수록(1에 가까울 수록) 거리값이 커지도록 계산될 수 있게 하고, m(j)가 작을 수록(0에 가까울 수록) 거리값도 작아지도록 계산되도록 한다.

이러한 과정을 거치면, 음악 식별 정보 결정부(33)는 각각의 질의 오디오 신호에 대해 음악성 계수를 고려하여 질의 오디오 신호에 대해 상응하는(매칭되는) 음악 식별 정보(음악 식별자, 스코어)를 결정하여 출력할 수 있다. 따라서, 방송 콘텐츠를 구성하는 모든 질의 오디오 신호에 대해서 상기와 같은 과정을 통해 각각의 질의 오디오 신호에 대한 최종 음악 식별 정보를 얻을 수 있다. 전술한 바와 같이, 스코어가 특정 임계치보다 높은 경우 해당 질의 오디오 신호에 대해서는 음악 식별 정보의 결과값이 존재하지 않을 수도 있다.

다음으로, 다시 도 5로 돌아가서 큐시트 생성부(40)에 대해 설명한다.

큐시트(Q-sheet) 생성부(40)는 상기 음악 식별 정보 결정부(33)에서 결정된 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 기능을 담당한다.

전술한 바와 같이, 음악 식별 정보 결정부(33)는 방송 콘텐츠를 구성하는 질의 오디오 신호들에 대해서 음악 식별 정보(음악 식별자와 스코어)를 결정하여 출력하는데, 큐시트 생성부(40)는 이러한 음악 식별 정보에 기초하여 방송 콘텐츠 전체에 대한 큐시트를 생성한다. 여기에서 큐시트(Q-sheet)라 함은 방송 콘텐츠에 포함된 음악 신호들의 시작 시간/종료 시간/곡목 정보 등과 같은 정보를 리스트 형태로 정리된 것을 의미한다. 또한, 큐시트는 해당 음악 식별자에 상응하는 기타 관련된 메타 정보를 더 포함하도록 할 수도 있다.

도 10은 큐시트 생성부(40)의 동작을 설명하기 위한 도면이다.

도 10에 나타낸 바와 같이, 전술한 검색 시스템(30)을 통해 하나의 주어진 방송 콘텐츠에 대해서 Q개의 질의 오디오 신호 및 Q개의 음악 식별 정보가 생성되는데, 큐시트 생성부(40)는 우선 이들 Q개의 질의 오디오 신호 및 음악 식별 정보를 원본 방송 콘텐츠상에서의 시간 순서에 따라 정렬시킨다. 이는 각각의 질의 오디오 신호에 대한 오디오 DNA의 헤더에 포함되어 있는 "원본 방송 콘텐츠 상의 시작 프레임 인덱스" 정보를 이용하여 이루어질 수 있다. 여기에서, 전술한 바와 같이, 검색 시스템(30)의 음악 식별 정보 결정부(33)는 소정의 임계치 이하인 스코어를 갖는 질의 오디오 신호에 대해서만 음악 식별 정보를 제공하기 때문에 상기 Q개의 질의 오디오 신호에는 원본 방송 콘텐츠 전체에 대해 구성된 질의 오디오 신호의 개수와 일치하지 않을 수 있다. 즉, 상기 Q개의 질의 오디오 신호를 정렬하더라도 부분적으로 빠진 부분이 있을 수 있다. 큐시트 생성부(40)는 빠진 부분 즉, 음악 식별 정보가 결정되지 않은 질의 오디오 신호의 구간은 무시하고 음악 식별 정보가 결정된 Q개의 질의 오디오 신호에 대해서만 이를 시간 순서대로 정렬한다.

다음으로, 큐시트 생성부(40)는 상기 시간 순으로 정렬된 질의 오디오 신호들에 대해서 인접한 질의 오디오 신호들이 음악 식별 정보에 포함된 음악 식별자(ID)가 서로 동일한 경우 이들에 대해 동일한 클러스터 식별자(cluster id)를 부여함으로써 클러스터를 형성한다.

도 10을 참조하면, 질의 오디오 신호 #1은 인접한 질의 오디오 신호인 #2와 음악 식별자가 서로 다르기 때문에 질의 오디오 신호 #1 하나만이 클러스터 #1을 형성한다. 다음으로, 질의 오디오 신호 #2는 인접한 질의 오디오 신호 #3와 서로 동일한 음악 식별자(000789)을 가지므로 이들에 대해 동일한 클러스터 ID(클러스터 #2)를 부여함으로써 클러스터 #2를 형성한다. 이러한 과정을 Q개의 모든 질의 오디오 신호들에 대해 수행하면 K개의 클러스터가 형성된다. K개의 클러스터들은 각각 적어도 하나 이상의 질의 오디오 신호로 구성되고, 인접하는 K개의 클러스터들은 서로 다른 음악 식별자를 갖게 된다.

다음으로, 큐시트 생성부(40)는 각 클러스터들에 대해 인접한 상위 클러스터와 하위 클러스터들의 음악 식별자를 비교하여 이들이 서로 동일하고 해당 클러스터의 시간 간격이 미리 설정해 둔 임계치 이하(T_diff)인 경우, 해당 클러스터를 삭제하고 인접한 상위 하위 클러스터들의 클러스터 ID를 동일하게 부여하여 상위 및 하위 클러스터를 통합(merge)시킨다.

도 10을 참조하면, 클러스터 #3에 대해서, 인접한 상위 클러스터 #2와 하위 클러스터 #4는 서로 동일한 음악 식별자를 가지므로 클러스터 #3에 포함된 질의 오디오 신호들이 차지하는 시간이 임계치(T_diff) 이하인 경우 클러스터 #4의 클러스터 ID를 #2로 변경함으로써 클러스터 #2와 클러스터 #4를 통합시킨다. 여기에서, 클러스터 #3의 시간 구간은 다음과 같이 계산할 수 있다. 즉, 클러스터 #3에 포함된 질의 오디오 신호들의 갯수에 의해 클러스터 #3의 총 시간을 구할 수 있다. 또는, 인접하는 상위 클러스터 #2의 마지막 질의 오디오 신호의 마지막 프레임의 종점과 인접하는 하위 클러스터 #4의 첫번째 질의 오디오 신호의 첫번째 프레임의 시점과의 차이에 의해 구할 수도 있다.

또한, 클러스터 #3은 별개의 독립된 클러스터를 구성한다.

여기에서, 통합된 클러스터들의 시간적 범위는 상위 클러스터의 첫번째 질의 오디오 신호의 첫번째 프레임의 시점으로부터 환산된 원본 방송 콘텐츠 상의 시간값(Cluster_T_Start)로부터 하위 클러스터의 마지막 질의 오디오 신호의 마지막 프레임의 종점까지 환산된 원본 방송 콘텐츠 상의 시간값(Cluster_T_End)으로 변경된다.

이와 같은 과정을 각각의 클러스터들에 대해 모두 수행하면, 최종적인 큐시트를 얻을 수 있다.

도 11은 큐시트 생성부(40)에 의해 생성된 큐시트의 일예를 나타낸 것이다.

도 11을 참조하면, 주어진 방송 콘텐츠에 대해서 시간 순서별로 클러스터 ID들이 배치되고 각각의 클러스터들의 시작 시간/종료시간/음악 식별자/메타 정보가 포함되어 있음을 알 수 있다. 메타 정보로는 해당 음악 식별자에 상응하여 미리 음악 데이터베이스에 저장되어 있는 정보로서, 곡명/가수 등과 같은 정보를 포함할 수 있으며, 이외에도 앨범명, 발매일 등과 같이 기타 필요한 다양한 메타 정보를 포함할 수도 있다.

도 12는 앞서 설명한 본 발명의 음악 검색 장치(100)에서 수행되는 음악 검색 방법의 일실시예를 나타낸 흐름도이다.

도 12를 참조하면, 우선 주어진 소정 길이 구간의 원본 방송 콘텐츠에 대해서 음악 검색 장치(100)의 질의 오디오 신호 형성부(10)는 앞서 설명한 바와 같은 방식으로 소정 길이 구간의 단위 질의 오디오 신호를 생성하고 이를 오디오 DNA 생성부(20)로 전달한다(S100).

오디오 DNA 생성부(20)는 수신된 질의 오디오 신호에 대해서 앞서 도 6 내지 도 8을 참조하여 설명한 바와 같이 오디오 DNA를 생성(S110)하는데, 오디오 DNA는 질의 오디오 신호 자체에서 종래의 기술에 의해 추출된 이진 DNA와 해당 질의 오디오 신호가 음악 신호와 얼마나 가까운지를 나타내는 음악성 계수를 포함한다.

도 13은 오디오 DNA 생성부(20)에서 오디오 DNA를 생성하는 과정을 나타낸 흐름도이다.

도 13에서 좌측의 단계들은 도 2에 나타낸 바와 같은 종래의 오디오 DNA(본 발명에서는 이진 DNA라고 칭함)를 생성하는 과정이며, 우측의 단계 즉, 슈퍼 벡터를 생성하고 분류기를 통해 음악성 계수를 생성하는 과정은 앞서 설명한 바와 같이 본 발명에서 사용하는 음악성 계수를 생성하기 위한 과정이다. 이러한 과정을 거쳐 이진 DNA와 음악성 계수를 포함하여 앞서 도 8에서 설명한 바와 같은 본 발명에서의 "오디오 DNA"를 생성하게 된다.

다시 도 12를 참조하면, 오디오 DNA 생성부(20)가 질의 오디오 신호에 대해 오디오 DNA를 생성하면 검색 시스템(30)은 이에 기초하여 레퍼런스 오디오 DNA를 비교하여 음악 식별 정보를 검색하고 그 결과로서 음악 식별 정보를 제공한다(S120). 이 과정을 통해 질의 오디오 신호에 대해 음악 식별 정보를 획득할 수 있게 된다.

한편, 상기 단계(S120) 이전 또는 이후 단계에서 전술한 바와 같이 음악성 계수에 기초하여 해당 질의 오디오 신호가 음악 신호가 아닌지의 여부를 판단하고 음악 신호가 아닌 경우 이후의 과정을 생략하고 "결과 없음", "음악이 아님" 등과 같은 정보를 검색 결과로서 제공하도록 할 수도 있다.

이러한 과정을 방송 콘텐츠의 마지막 질의 오디오 신호에 대해서까지 모두 수행하면, 방송 콘텐츠를 구성하는 질의 오디오 신호 각각에 대한 음악 식별 정보를 얻을 수 있다. 여기에서, 전술한 바와 같이 일부 질의 오디오 신호에 대해서는 스코어가 임계치 이상인 경우 음악 식별 정보가 존재하지 않는 경우가 있다.

이후, 큐시트 생성부(40)는 음악 식별 정보가 존재하는 질의 오디오 신호에 대해서 도 10 내지 도 11에서 설명한 바와 같은 과정을 통해 큐시트를 생성하게 된다.

이상에서, 본 발명의 바람직한 실시예를 설명하였으나 본 발명은 상기 실시예에 한정되는 것이 아님은 물론이다.

예컨대, 도 7에서 음악성 계수를 생성하는 방법은 예시적인 것이며, 기타 종래 알려진 다른 방법을 사용할 수도 있다.

또한, 도 8에서 설명한 오디오 DNA의 구조 또한 사용 환경에 따라서 기타 필요한 정보를 더 포함하도록 구성할 수도 있음은 물론이다.

또한, 도 11에서 큐시트에 포함된 정보 또한 예시적인 것이며 필요에 따라 기타 정보를 더 포함하도록 구성할 수도 있음은 물론이다.

또한, 검색 시스템(30)에서 사용되는 검색 방법에서 해쉬 테이블을 이용하는 경우에 대해서 설명하였으나 기타 다른 검색 방법을 이용할 수도 있음은 물론이다.

100...음악 검색 장치
10...질의 오디오 신호 형성부
20...오디오 DNA 생성부
30...검색 시스템
40...큐시트 생성부

Claims

오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치로서,
방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 질의 오디오 신호 형성부;
질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 오디오 DNA 생성부;
상기 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 생성하는 검색 시스템; 및
상기 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 큐시트 생성부
를 포함하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제1항에 있어서,
상기 질의 오디오 신호 형성부는, 상기 방송 콘텐츠에 대해 매 K초마다 L초 길이의 구간으로 분할된 질의 오디오 신호를 생성하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제1항에 있어서,
상기 오디오 DNA 생성부는,
질의 오디오 신호에 대해 질의 오디오 신호를 구성하는 프레임별로 이진 DNA를 생성하는 이진 DNA 생성부;
질의 오디오 신호를 구성하는 프레임들이 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 프레임별로 생성하는 음악성 계수 생성부; 및
질의 오디오 신호에 대해 이진 DNA와 음악성 계수를 결합하여 오디오 DNA를 생성하는 오디오 DNA 구성부
를 포함하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제3항에 있어서,
상기 음악성 계수 생성부는, 음악 신호에 가까운 정도를 0~1 사이의 확률값으로 음악성 계수를 생성하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제3항에 있어서,
상기 오디오 DNA 구성부는, 질의 오디오 신호를 구성하는 프레임들 각각에 대해 생성된 이진 DNA와 음악성 계수와 방송 콘텐츠 상에서 해당 질의 오디오 신호의 위치를 나타내는 인덱스 정보를 포함하는 오디오 DNA를 질의 오디오 신호에 대해 생성하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제5항에 있어서,
상기 검색 시스템은,
질의 오디오 신호에 대해 생성된 오디오 DNA에 포함되어 있는 프레임별 음악성 계수에 기초하여 질의 오디오 신호가 음악 신호가 아닌지의 여부를 판별하는 음악 판단부;
질의 오디오 신호에 포함된 프레임별 이진 DNA를 이용하여 프레임별 이진 DNA에 대응하는 음악 식별자 및 프레임 정보를 검색하는 후보 검색부; 및
질의 오디오 신호의 음악성 계수와 상기 후보 검색부에서 검색된 음악 식별자 및 프레임 정보에 기초하여 질의 오디오 신호의 이진 DNA와 레퍼런스 오디오 DNA 데이터베이스에 저장되어 있는 상기 검색된 음악 식별자에 상응하는 이진 DNA를 비교하여 해당 질의 오디오 신호에 상응하는 음악 식별 정보를 결정하는 음악 식별 정보 결정부
를 포함하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제6항에 있어서,
상기 음악 식별 정보 결정부는, 상기 비교되는 이진 DNA들간의 해밍 거리와 음악성 계수에 의한 함수에 의해 음악 식별 정보를 결정하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제7항에 있어서,
상기 음악 식별 정보는, 해밍 거리값이 가장 작은 음악 식별자의 스코어가 미리 정해 놓은 임계치보다 작은 경우 해당 음악 식별자 및 스코어인 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제8항에 있어서,
상기 큐시트 생성부는,
상기 음악 식별 정보가 결정된 모든 질의 오디오 신호들을 시간 순으로 정렬하고,
서로 동일한 음악 식별자를 갖는 인접한 질의 오디오 신호들을 동일한 클러스터로 형성하고,
각각의 클러스터에 대해 인접한 클러스터가 서로 동일한 음악 식별자를 갖는 경우 인접한 클러스터를 동일한 클러스터로 통합하고,
상기 클러스터들 각각에 대하여 원본 방송 콘텐츠의 시간 순서에 따라 시간 구간 정보와 음악 식별 정보에 상응하는 메타 정보를 포함하는 큐시트를 생성하는 것을 특징으로 하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치.
제1항 내지 제9항 중 어느 한 항에 의한 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 장치에 의한 음악 검색 방법에 있어서,
방송 콘텐츠에 대해 미리 설정된 시간 구간 단위로 분할된 질의 오디오 신호를 생성하는 제1 단계;
질의 오디오 신호가 음악 신호인지의 여부에 따른 관계를 나타내는 음악성 계수를 포함하는 오디오 DNA를 생성하는 제2 단계;
상기 질의 오디오 신호에 대해 생성된 오디오 DNA와 레퍼런스 오디오 DNA를 비교하여 질의 오디오 신호의 오디오 DNA에 대한 음악 식별 정보를 생성하는 제3 단계; 및
상기 음악 식별 정보에 기초하여 방송 콘텐츠에 대한 큐시트를 생성하는 제4 단계
를 포함하는 오디오 신호의 배경 잡음 환경을 반영한 음악 검색 방법.