WO2013176329A1

WO2013176329A1 - 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

Info

Publication number: WO2013176329A1
Application number: PCT/KR2012/004537
Authority: WO
Inventors: 조훈영; 이재형; 쉐이커 디르찬드라
Original assignee: (주)엔써즈
Priority date: 2012-05-23
Filing date: 2012-06-08
Publication date: 2013-11-28
Also published as: HK1175358A2; CN103548076B; KR101315970B1; EP2685450B1; JP2014520287A; CN103548076A; EP2685450A4; SG187583A1; JP5813221B2; EP2685450A1

Abstract

본 발명은 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법에 관한 것으로서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부; 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부를 포함하되, 상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공한다. 본 발명에 의하면, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공할 수 있다.

Description

오디오 신호를 이용한 콘텐츠 인식 장치 및 방법

본 발명은 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법에 관한 것으로서, 보다 상세하게는 입력되는 오디오 신호의 핑거프린트에 기초하여 매칭되는 콘텐츠 정보를 제공할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.

네트워크 및 인터넷 기술의 발달과 스마트폰과 같은 이동 통신 단말기의 급속한 보급에 따라 오디오나 비디오를 이용한 다양한 서비스가 네트워크를 통해 제공되고 있다. 또한, 이와 함께 오디오나 비디오에 대해 동일성 여부를 판별하기 위한 방법으로서 핑거프린트를 이용하는 방법 또한 널리 사용되고 있으며 핑거프린트를 이용하여 네트워크를 통해 다양한 오디오나 비디오를 인식하는 기술들도 제안되고 있다.

핑거프린트를 이용하여 오디오나 비디오를 인식하는 기술은 주어진 오디오 또는 비디오 신호를 프레임 단위로 분할하면서 프레임의 특징 벡터를 생성하여 이들을 이용하여 매칭을 수행하는 방법을 사용하는데 종래의 핑거프린트 생성 및 매칭 방법은 연산량이 방대하여 핑거프린트 생성 및 매칭에 시간이 소요되며 네트워크 상의 자원에 부하를 야기시킨다는 문제점이 있다. 이를 해소하기 위하여 생성하는 핑거프린트의 양을 줄이거나 매칭 과정을 단순화할 수는 있으나 이러한 경우에는 매칭의 정확성이 저하된다는 문제점이 발생하게 된다.

대한민국 등록특허공보 제10-0456408호(2004.11.10. 공개)는 "오디오유전자 생성 방법 및 오디오 데이터 검색 방법"에 관한 것으로서, 오디오 신호를 일정한 시간 간격으로 분할하는 시간분할단계와; 시간 간격마다 또는 다수의 시간간격에 포함되는 주파수들의 신호의 크기를 계산하는 주파수변환단계와; 주파수 영역을 일정구간으로 분할하여 인접 주파수구간 사이의 신호의 크기의 차를 계산하는 차계산단계와; 인접 시간간격 사이의 상기 계산값의 차를 구하는 기울기 계산단계와; 상기 기울기가 0 이상인 경우 1로, 0 미만인 경우 0으로 양자화하는 양자화단계와; 상기 양자화된 값들을 저장하여 오디오유전자를 생성하는 오디오유전자 생성단계를 갖는 오디오유전자 생성방법에 대하여 개시하고 있다.

그러나 이러한 기술은 연산량이 방대하고 핑거프린트 추출 과정이 복잡하여 부하를 유발하는 동시에 결과 산출시까지의 시간이 과도하게 소요된다는 한계점을 가지고 있다.

따라서, 부하를 유발하지 않고 빠른 시간내에 정확한 결과를 제공할 수 있는 핑거프린트 추출 및 매칭 방법의 개발이 요망된다고 할 수 있다.

본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공하는 것을 목적으로 한다.

특히 본 발명은 입력되는 오디오 신호를 복수개의 프레임으로 분할하면서 프레임들의 시작점 사이의 간격인 프레임 이동 길이를 많은 정보량을 가지고 있는 구간에 대해서 가변적으로 구성함으로서 정확성을 유지하면서도 신속한 매칭 결과를 제공할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 바와 같은 목적을 달성하기 위하여 본 발명은, 오디오 신호를 이용한 콘텐츠 인식 장치에 있어서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부; 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부를 포함하되, 상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치를 제공한다.

여기에서, 상기 프레임 이동 길이는, 인접 프레임들이 서로 겹치도록 프레임 길이보다 짧도록 구성할 수 있다.

또한, 상기 쿼리 핑거프린트 추출부는, 일부 구간에서의 프레임 이동 길이를 미리 설정된 프레임 이동 길이보다 짧게 하여 프레임을 형성하도록 구성할 수도 있다.

또한, 상기 쿼리 핑거프린트 추출부는, 미리 설정된 시간 구간에 기초하여 상기 일부 구간을 결정하도록 구성할 수도 있다.

또한 상기 쿼리 핑거프린트 추출부는, 신호대잡음비가 임계치보다 높은 값을 갖는 시간 구간을 검출하고 검출된 시간 구간에 기초하여 상기 일부 구간을 결정하도록 구성할 수도 있다.

또한, 상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 해당하는 프레임들 각각에 대하여 프레임별 특징 벡터를 생성하도록 구성할 수도 있다.

또한, 상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 포함될 프레임들에 대한 프레임별 특징 벡터를, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임의 프레임별 특징 벡터에 기초하여 생성하도록 할 수도 있다.

또한, 상기 일부 구간의 시작 위치에 상응하는 프레임은 상기 시작 위치를 마지막으로 포함하는 프레임이고, 상기 일부 구간의 종료 위치에 상응하는 프레임은 상기 종료 위치를 처음으로 포함하는 프레임일 수 있다.

또한, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터를 생성하고, 생성된 프레임별 특징 벡터에 기초하여 선형 내삽법에 의해 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하도록 구성할 수 있다.

또한, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터는 이진수로 형성되고, 상기 이진수로 형성된 프레임별 특징 벡터의 각각의 비트를 비교하여 상이한 비트들에 가능한 이진수를 배열함으로써 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하도록 구성할 수도 있다.

또한, 상기 핑거프린트 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제1 매칭부; 및 상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2 매칭부를 포함하도록 구성할 수도 있다.

또한, 상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 해밍 거리가 임계치 이하인 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트를 매칭되는 레퍼런스 핑거프린트로 판별하도록 할 수도 있다.

또한, 상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터를 순차적으로 레퍼런스 핑거프린트의 프레임별 특징 벡터들과 순차적으로 비교하면서 매칭되는 프레임이 검출된 경우 이후의 프레임에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트에 대한 비교를 수행하도록 구성할 수도 있다.

또한, 제2 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터들 중에서 미리 설정된 프레임 이동 길이가 아닌 프레임들을 제외하여 프레임별 특징 벡터를 재구성하고 재구성된 프레임별 특징 벡터를 레퍼런스 핑거프린트들과 비교하도록 할 수도 있다.

또한, 상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 인식 결과 제공부를 더 포함하도록 구성할 수도 있다.

또한, 상기 오디오 신호를 이용한 콘텐츠 인식 장치는 클라이언트 단말기 내에 포함될 수 있다.

또한, 상기 레퍼런스 핑거프린트 데이터베이스는 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트 및 콘텐츠 정보를 수신하여 저장하도록 구성할 수도 있다.

또한, 사용자가 오디오 신호를 입력할 수 있도록 하는 사용자 인터페이스를 제공하는 인터페이스 제공부를 더 포함하도록 구성할 수도 있다.

또한, 상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보는 상기 레퍼런스 핑거프린트 서버로 전송되도록 구성할 수도 있다.

또한, 상기 쿼리 핑거프린트 추출부는 미리 설정된 구간 단위로 해당 구간에 포함되는 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 구간별 쿼리 핑거프린트를 추출하고, 상기 핑거프린트 매칭부는 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하되, 상기 핑거프린트 매칭부에서 매칭되는 레퍼런스 핑거프린트가 판별될 때까지 쿼리 핑거프린트 추출부가 상기 미리 설정된 구간 단위로 구간별 쿼리 핑거프린트를 연속적으로 추출하도록 구성할 수도 있다.

본 발명의 다른 측면에 의하면, 오디오 신호를 이용한 콘텐츠 인식 방법에 있어서, 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 제1 단계; 및 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 제2 단계를 포함하되, 상기 제1 단계는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법을 제공한다.

여기에서, 상기 제2 단계는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제2-1 단계; 및 상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2-2 단계를 포함하도록 구성할 수 있다.

본 발명에 의하면, 신속하게 결과를 제공하면서도 매칭의 정확성 및 신뢰도를 유지할 수 있는 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법을 제공할 수 있다.

본 발명에 의하면, 입력되는 오디오 신호를 복수개의 프레임으로 분할하면서 프레임들의 시작점 사이의 간격인 프레임 이동 길이를 많은 정보량을 가지고 있는 구간에 대해서 가변적으로 구성함으로서 정확성을 유지하면서도 신속한 매칭 결과를 제공할 수 있다.

또한 본 발명은 가변적 구간에 대해 생성되는 프레임들을 1차 매칭에 사용하되 1차 매칭에서는 프레임별로 매칭되는 프레임들을 갖는 레퍼런스 핑거프린트들을 복수개의 매칭 후보군으로 포함시키고, 2차 매칭에서 매칭 후보군에 포함된 레퍼런스들에 대해 정밀 비교를 수행하는 2단계의 매칭 방법을 사용하므로 신속성과 정확성을 갖는 콘텐츠 인식 장치 및 방법을 제공할 수 있다.

도 1은 본 발명에 의한 오디오 신호를 이용한 콘텐츠 인식 장치(100)의 일실시예의 구성을 나타낸 도면이다.

도 2는 쿼리 핑거프린트 추출부(10)에서 프레임을 형성하고 프레임별로 특징 벡터를 형성하는 방법을 설명하기 위한 도면이다.

도 3은 프레임 이동 길이를 일정 구간에서 변동시키는 경우를 설명하기 위한 도면이다.

도 4는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 과정을 설명하기 위한 도면이다.

도 5는 인접 프레임 핑거프린트에 의해 프레임 핑거프린트를 생성하는 또 다른 방법을 설명하기 위한 도면이다.

도 6은 핑거프린트 매칭부(30)의 구성을 나타낸 도면이다.

도 7은 제1 매칭부(31)의 동작을 설명하기 위한 도면이다.

도 8은 콘텐츠 인식 장치(100)의 연결 및 배치 상태를 설명하기 위한 도면이다.

도 9는 본 발명에 의한 콘텐츠 인식 장치(100)에서 수행되는 콘텐츠 인식 방법을 나타낸 흐름도이다.

이하, 첨부 도면을 참조하여 본 발명에 의한 실시예를 상세하게 설명하기로 한다.

도 1을 참조하면, 본 실시예에 의한 오디오 신호를 이용한 콘텐츠 인식 장치(100, 이하 콘텐츠 인식 장치라 한다)는 쿼리 핑거프린트 추출부(10), 레퍼런스 핑거프린트 데이터베이스(20), 핑거프린트 매칭부(30) 및 인식 결과 제공부(40)를 포함한다.

쿼리 핑거프린트 추출부(10)는 입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이(frame length)를 갖는 복수개의 프레임을 형성하고 각각의 프레임별로 프레임별 특징 벡터(feature vector)를 생성함으로써 쿼리(query) 즉, 비교 대상이 되는 핑거프린트(fingerprint)를 추출하는 기능을 수행한다. 여기에서 복수개의 프레임들은 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이(shift size)를 일부 구간에서 변동시키면서 형성된다.

한편, 여기에서 핑거프린트(fingerprint)라 함은, 오디오 데이터, 이미지 데이터 또는 동영상 데이터 등과 같은 데이터의 특징을 나타내는 특징 데이터를 의미하는 것으로서, 지문 데이터, DNA 데이터 또는 유전자 데이터라고도 한다. 이러한 핑거프린트를 추출하고 이를 이용하여 데이터를 비교하는 기술로서는, 종래 기술에 의하여 여러 가지 방식이 제안되어 있으며, 이러한 핑거프린트를 활용하면 데이터의 동일성 여부를 쉽게 판별할 수 있으므로 저작권 관리(DRM) 분야 등에서 최근 폭넓게 사용되고 있다.

예컨대, 오디오 신호인 경우 오디오 신호의 특징을 나타내는 각종 특징 데이터(예컨대, 주파수, 진폭 등)를 이용하여 핑거프린트를 생성하며, 이미지나 동영상 신호인 경우 이미지나 동영상 신호의 여러 가지 특징 데이터(예컨대, 프레임의 모션 벡터 정보, 색상 정보 등)를 이용하여 핑거프린트를 생성할 수 있다. 본 발명은 이러한 핑거프린트를 생성하는 방법 자체를 목적으로 하는 것은 아니며 종래의 기술에 의한 어떠한 형태의 핑거프린트 생성/추출 방법을 그대로 사용할 수 있으므로 이에 대해서는 상세한 설명은 생략한다.

본 출원인이 출원한 대한민국 특허출원번호 제10-2007-0044251호(오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 및 장치), 제10-2007-0054601호(동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및 장치), 제10-2007-0060978호(동영상 데이터들을 서로 동일성이 있는 동영상 데이터들끼리 클러스터링하는 방법 및 시스템), 제10-2007-0071633호(동영상 데이터 클러스터를 이용한 동영상 데이터 검색 서비스 제공 방법 및 장치), 제10-2007-0091587호(동영상 데이터 클러스터를 이용한 광고 데이터 설정 및 제공 방법 및 장치), 및 제10-2008-0051688호(동영상 처리 방법 및 그 장치)에 의하면, 오디오, 이미지 또는 비디오 데이터의 핑거프린트를 생성하는 방법과 이러한 핑거프린트를 이용하여 데이터를 비교하는 방법에 대해서 기재되어 있으며, 이러한 본 출원인의 핑거프린트 생성 및 추출 방법을 본 발명에 사용할 수도 있음은 물론이다. 요컨대, 본 발명은 핑거프린트를 추출하는 방식이 어떠한 것인가에 관계 없이 종래 알려져 있는 핑거프린트 생성/추출 기술을 그대로 사용할 수 있다.

도 2를 참조하면, 입력되는 오디오 신호에 대해서 소정 크기의 프레임 길이를 갖는 프레임을 소정의 프레임 이동 길이만큼 프레임의 시작점이 간격을 두면서 형성하고 있음을 알 수 있다. 오디오 신호의 가로축은 시간(time) 축일 수 있다. 각각의 프레임(T_n)에 대한 프레임 특징 벡터를 F(T₁)이라고 하면 주어진 오디오 신호에 대한 최종 핑거프린트는 도 2의 하단에 나타낸 바와 같이 이들 프레임 특징 벡터들의 집합으로 볼 수 있다(F(T₁),F(T₂),F(T₃),....,F(T_n-1),F(T_n)). 이 때 프레임 특징 벡터들은 최종적으로 이진수 형태의 바이너리 벡터(binary vector)로 생성될 수 있다. 여기에서 본 발명은 프레임 이동 길이를 오디오 신호의 일정 구간에 대해서 변동시키는 것을 일특징으로 한다.

도 3은 프레임 이동 길이를 일정 구간에서 변동시키는 경우를 설명하기 위한 도면으로서, 도 3을 참조하면, 오디오 신호의 일정 구간(A~B)에서 프레임 이동 길이가 미리 설정된 프레임 이동 길이보다 변동 즉, 단축되어 있음을 알 수 있다.

즉, 오디오 신호의 처음 위치에서부터 미리 설정된 프레임 크기 단위로 미리 설정된 프레임 이동 길이만큼 프레임의 시작점을 이동하면서 프레임을 형성하다가 특정 구간에 대해서는 미리 설정되어 있던 프레임 이동 길이를 변동 즉, 단축시켜서 프레임의 시작점을 이동시키면서 프레임을 형성하고 형성된 프레임에 대해서 프레임별 특징 벡터를 추출한다.

도 3에서 프레임 이동 길이는 미리 설정된 이동 길이보다 짧아지는 것으로 나타내었으나 이동 길이는 미리 설정된 이동 길이보다 길어기도록 할 수도 있다. 이와 같이 프레임의 이동 길이를 일부 구간에서 변동시키는 것은 오디오 신호의 특정 구간은 다른 구간에 비하여 보다 많거나 적은 정보량을 포함하는 경우가 많은데 이러한 점을 고려하여 프레임들을 보다 많이 또는 적게 생성하기 위함이다.

예컨대 특정 구간이 다른 구간에 비하여 많은 정보를 포함한다면 해당 구간에 대해서는 보다 상세한 분석이 필요할 것이고 이를 위해서는 생성되는 프레임의 갯수를 증가시키면 보다 많은 정보를 포함하는 핑거프린트를 생성할 수 있게 된다. 한편 특정 구간의 정보가 적은 경우라면 해당 구간에 대해서는 보다 느슨하게 분석을 수행할 수 있는데 이를 위해서 생성되는 프레임의 갯수를 감소시킬 수 있게 된다.

프레임의 갯수를 증가시키게 되면 즉, 프레임의 이동 길이를 짧게 하면 프레임별 특징 벡터의 갯수가 늘어나게 되므로 후술하는 바와 같이 핑거프린트 매칭부 특히 1차 매칭부에서 N개의 후보군을 고속으로 매칭하는데 매우 유용하게 사용될 수 있다. 이 점에 대해 상세한 것은 매칭부(30)를 참조하여 후술한다.

한편, 프레임 이동 길이는 도 2 및 도 3에 나타낸 바와 같이 서로 인접하는 프레임들이 오디오 신호의 시간 축을 기준으로 서로 겹치도록 형성되는 것이 바람직한데 이는 결국 프레임 이동 길이를 프레임 길이보다 짧게 한다는 것을 의미한다. 물론, 프레임 이동 길이를 프레임 길이와 같게 하거나 더 크게 하는 경우에도 본 발명은 적용 가능하다.

한편, 프레임 이동 길이를 오디오 신호의 어떠한 구간에 대해서 변동 예컨대 짧게 할 것인가는 예컨대 다음과 같은 기준에 의하여 결정할 수 있다.

우선, 특정 시간 구간을 설정하고 이 시간 구간에 대해서 프레임 이동 길이를 짧게 하도록 할 수 있다. 예컨대, 미리 설정되는 프레임 이동 길이를 20ms라고 설정하고, 오디오 신호의 시작점부터 2초간, 종료점부터 2초 이전까지의 구간에 대해서는 프레임 이동 길이를 5ms로 할 수 있다. 다른 방법으로는 오디오 신호의 중간 구간 예컨대 2초~4초 사이를 프레임 이동 길이를 짧게 할 구간으로 설정할 수 있다. 이와 같이 시간 구간을 지정하는 방식 이외에 오디오 신호의 전체 시간의 중간값을 포함하여 전후 구간을 지정하는 등의 방식을 사용할 수도 있다.

또한, 사용자로부터 프레임 이동 길이를 짧게 할 구간을 입력받아서 설정하는 방법도 가능하다.

이와 같이 시간 구간이 설정되면 해당 시간 구간까지 프레임을 미리 설정된 프레임 이동 길이만큼 이동하면서 프레임을 형성하다가 설정된 시간 구간에 도달하는 경우 그 시점부터는 프레임 이동 길이를 짧게 하여 시작점을 단축된 프레임 이동 길이만큼 이동하면서 프레임을 형성한다. 설정된 시간 구간이 종료되면 다시 원래 설정되었던 프레임 이동 길이만큼씩 프레임의 시작점을 이동시키면서 프레임을 형성하고 프레임별 특징 벡터를 생성하는 과정을 반복한다.

한편, 프레임 이동 길이를 변동시킬 구간을 결정하는 것은 신호대잡음비(S/N ratio)를 이용할 수도 있다. 신호대잡음비가 높은 구간은 보다 많은 정보량을 포함하는 것으로 볼 수 있으므로 오디오 신호에 대해 미리 일정 시간 구간 단위로 신호대잡음비를 계산하고 임계치보다 높은 신호대잡음비를 갖는 시간 구간을 결정하고 해당 시간 구간에 대해서 프레임 이동 길이를 짧게 하도록 할 수도 있다. 신호대잡음비를 계산하는 것 자체는 종래 기술에 의해 널리 알려져 있으므로 상세 설명은 생략한다.

이러한 과정을 통해 쿼리 핑거프린트 추출부(10)는 프레임들을 형성하면서 각각의 프레임들에 대해 프레임별 특징 벡터를 생성함으로써 입력 오디오 신호에 대한 쿼리 핑거프린트를 생성하게 된다. 여기에서 프레임별로 특징 벡터를 생성하는 구체적인 과정은 종래의 기술을 그대로 이용할 수 있다.

예컨대, 다음과 같은 방법을 사용할 수 있다. 즉, 입력되는 오디오 신호에 대해 고속 퓨리에 변환(Fast Fourier Transformation, FFT)을 수행하여 주파수 영역의 스펙트럼을 계산하고 이로부터 파워 스펙트럼(power spectrum) 또는 크기 스펙트럼(magnitude spectrum)을 계산한 뒤 N개의 필터로 구성된 필터 뱅크(filter bank)를 통과시킨다. 여기에서 하나의 필터는 특정 주파수 범위 내의 신호 성분만을 추출하는 역할을 수행하게 되는데 각각의 필터에서 추출된 신호 성분에 대해 통상의 신호 처리 방법에 의해 에너지 값을 계산하면 N차의 필터뱅크 에너지가 생성되는데 이값을 프레임별 특징 벡터로 사용할 수 있다.

한편, 쿼리 핑거프린트 추출부(10)는 앞서 설명한 바와 같이 프레임 이동 길이를 짧게 하는 구간에 포함될 프레임들에 대해서는 프레임별 핑거프린트를 직접 생성하는 대신 주변의 프레임 핑거프린트를 이용하는 방법을 사용할 수 있다.

도 3을 참조하면, A~B 구간에 속하는 프레임들, 즉 프레임별 이동 구간이 짧아지는 구간에 속하는 프레임들이 예컨대 10개라고 가정하면, 이들 10개의 프레임 특징 벡터들은 인접 프레임 핑거프린트에 의해 선형 내삽법(linear interpolation)에 의해 생성될 수 있다.

도 4를 참조하면 오디오 신호의 A~B 구간이 프레임 이동 길이가 짧아지는 구간이고 이들 사이에 L개의 프레임이 형성되며 이들 각각의 프레임에 대해 프레임별 특징 벡터를 생성해야 한다. 이 때, L개의 프레임에 대한 프레임 특징 벡터는 A~B 구간의 시작 위치를 마지막으로 포함하는 이전 프레임과 A~B 구간의 종료 위치를 처음으로 포함하는 다음 프레임에 대해 프레임 특징 벡터를 계산하고(T_n, T_n+L) 이들 값을 기초로 선형 내삽법(linear interpolation)을 적용하여 L개의 프레임에 대한 프레임 특징 벡터를 각각 생성할 수 있게 된다. 예컨대, Tn의 값이 1이고 Tn+L의 값이 10이고 8개의 프레임이 포함된다면 각각의 프레임의 특징 벡터의 값은 선형 내삽법에 의해 2,3,4,5,6,7,8,9로 결정할 수 있다.

이와 같은 방법을 사용하면 프레임의 갯수를 증가시켜서 보다 많은 정보량을 갖는 신호 구간에 대한 보다 정밀한 분석을 가능하게 하면서도 연산량을 크게 증가시키지 않는다는 장점을 갖는다.

도 5의 방법은 도 4의 방법과 유사하지만 이동 길이가 짧아지는 구간에 포함될 프레임들에 대한 특징 벡터를 비트 비교에 의해 생성하는 것을 특징으로 한다. 프레임 특징 벡터는 앞서 설명한 바와 같은 방법을 통해 최종적으로 이진수 형태로 최종 생성될 수 있는데 인접하는 프레임들의 프레임 특징 벡터를 서로 비트별로 비교하여 일치하지 않는 비트들을 찾아낸 후 이 비트들에 대해 가능한 경우의 이진수를 대입(Bit Flipping)함으로써 A~B 구간 사이에 포함될 프레임들에 대한 특징 벡터들을 생성할 수 있다. 예컨대 서로 다른 비트수가 R개이면 2^R개의 프레임 특징 벡터를 생성할 수 있고 따라서 2^R개의 프레임을 A~B 구간에 삽입할 수 있다. 이 경우 A~B 구간에서의 프레임 이동 길이는 R에 의해 결정되게 된다.

다시 도 1을 참조하여 콘텐츠 인식 장치(100)의 다른 구성들에 대하여 설명한다.

레퍼런스 핑거프린트 데이터베이스(20)는 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 기능을 수행한다. 즉, 쿼리 핑거프린트와 비교할 대상이 되는 레퍼런스로서의 핑거프린트들과 이들에 대한 콘텐츠 정보를 저장하고 있다가 전술한 바와 같이 쿼리 핑거프린트 추출부(10)에서 쿼리 핑거프린트가 추출되면 후술하는 핑거프린트 매칭부(30)에서 쿼리 핑거프린트와 레퍼런스 핑거프린트 데이터베이스(20)에 저장된 레퍼런스 핑거프린트를 비교하여 매칭되는 레퍼런스 핑거프린트를 판별하게 된다.

레퍼런스 핑거프린트 데이터베이스(20)는 네트워크를 통해 외부의 별도 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트와 콘텐츠 정보를 수신하도록 구성할 수도 있다.

한편 핑거프린트 매칭부(30)는 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 기능을 수행한다. 전술한 바와 같이 쿼리 핑거프린트 추출부(10)에서 쿼리 핑거프린트가 추출되며 핑거프린트 매칭부(30)는 이러한 쿼리 핑거프린트와 레퍼런스 핑거프린트 데이터베이스(20)에 저장되어 있는 레퍼런스 핑거프린트를 비교하여 매칭되는 레퍼런스 핑거프린트를 판별한다.

도 6은 핑거프린트 매칭부(30)의 구성을 나타낸 도면으로서, 도 6을 참조하면 핑거프린트 매칭부(30)는 1차 매칭부(31)와 2차 매칭부(32)를 포함한다.

제1 매칭부(31)는 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트들을 예컨대 N-Best 방식으로 골라서 복수개의 매칭 후보군을 우선적으로 구성하고 제2 매칭부(32)는 매칭 후보군에 포함된 레퍼런스 핑거프린트를 대상으로 정밀 분석을 수행함으로써 보다 정확한 매칭 결과를 제공하게 된다.

제1 매칭부(31)는 복수개의 매칭 후보군을 선별하기 위하여 프레임 단위로 매칭되는 핑거프린트가 하나라도 존재하는지를 판별하는 방법을 사용할 수 있다.

도 7은 제1 매칭부(31)의 동작을 설명하기 위한 도면이다.

도 7을 참조하면, 우선 레퍼런스 핑거프린트 데이터베이스(20)로부터 쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트를 선택하고 쿼리 핑거프린트의 i번째 프레임과 선택된 레퍼런스 핑거프린트의 j번째 프레임의 프레임별 특징 벡터를 비교하여 예컨대 해밍 거리(Hamming Distance)가 미리 설정해 둔 임계치 이하인지를 판단한다(S100, S110, S120).

여기에서 쿼리 핑거프린트의 i번째 프레임과 선택된 레퍼런스 핑거프린트의 j번째 프레임은 맨 처음 프레임부터 순차적으로 선택할 수 있다. 즉, 쿼리 핑거프린트와 선택된 레퍼런스 핑거프린트의 처음 프레임부터 i와 j를 순차적으로 증가시키면서 해밍 거리를 판단한다.

예컨대, 쿼리 핑거프린트의 첫번째 프레임(i=1)을 선택하고 레퍼런스 핑거프린트의 첫번째 프레임(j=1)을 선택하여 해당 프레임들의 프레임별 특징 벡터의 해밍거리가 임계치 이하인지를 판단한다(S120).

임계치 이하인 경우 해당 레퍼런스 핑거프린트를 매칭 후보군에 추가시키고(S130) 해당 레퍼런스 핑거프린트의 나머지 프레임들에 대한 비교는 건너뛰고 다음 레퍼런스 핑거프린트를 선택하여 도 7과 같은 과정을 반복한다.

임계치 이하가 아닌 경우 j를 1 증가시켜서 레퍼런트 핑거프린트의 다음 프레임(j=2)과 쿼리 핑거프린트의 첫번째 프레임(i=1)의 프레임별 특징 벡터의 해밍 거리가 임계치 이하인지를 판단하는 과정을 반복한다. 이 과정중에서 임계치 이하인 경우가 발견되면 앞서 설명한 바와 같이 해당 레퍼런스 핑거프린트를 매칭 후보군에 추가하고 나머지 다음 프레임들에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트를 선택하게 된다.

만약 해당 레퍼런스 핑거프린트의 마지막 프레임까지 해밍 거리가 임계치 이하인 경우가 발견되지 않는 경우에는 i를 1 증가시켜 쿼리 핑거프린트의 다음 프레임을 선택하고 다시 j=1로 하여 앞서 설명한 바와 같은 과정을 반복한다.

이와 같은 과정을 거치면 주어진 쿼리 핑거프린트의 프레임 중 어느 하나라도 레퍼런스 핑거프린트에 매칭되는(즉 해밍거리가 임계치 이하인) 프레임이 발견되는 경우 해당 레퍼런스 핑거프린트를 즉시 매칭 후보군에 추가하고 해당 레퍼런스 핑거프린트의 나머지 프레임들에 대한 비교를 생략함으로써 고속으로 N개의 매칭 후보군들을 판별할 수 있게 된다.

이러한 방법은 프레임별 특징 벡터를 비교하는 것이므로 정확도가 떨어질 수 있으나 앞서 설명한 바와 같이 쿼리 핑거프린트 추출부(10)에서 프레임 이동 길이를 짧게 하는 구간에서는 프레임이 보다 많은 갯수로 생성되므로 정확도를 최대한 유지할 수 있게 된다.

한편 여기에서 매칭되는 레퍼런스 핑거프린트를 매칭 후보군에 추가한다는 의미는 해당 레퍼런스 핑거프린트의 식별자(ID)를 매칭 후보군에 포함시킨다는 의미이다.

또한 앞서 설명한 방법은 프레임들을 맨 처음 프레임부터 순차적으로 비교하는 방법을 예로서 설명하였으나 반드시 이러한 방법을 사용할 필요는 없으며 랜덤하게 프레임을 선택하는 방법이나 중간 프레임부터 선택해서 앞뒤 프레임으로 이동하는 방법을 사용할 수도 있다. 중요한 것은 프레임 단위로 비교해서 매칭되는 프레임이 어느 하나가 발견되면 해당 레퍼런스 핑거프린트에 대해서는 나머지 프레임에 대한 비교를 생략함으로써 정확도를 유지한 채 고속 매칭을 가능하게 한다는 점이다.

이와 같은 과정을 통해 N개의 매칭 후보군이 결정되면, 제2 매칭부(32)는 해당 매칭 후보군에 포함된 레퍼런스 핑거프린트들과 쿼리 핑거프린트들에 대해 2차 매칭을 수행한다.

제2 매칭부(32)는 앞서 설명한 바와 같이 제1 매칭부(31)에 의해 결정된 매칭 후보군에 포함된 레퍼런스 핑거프린트들의 식별자에 상응하는 레퍼런스 핑거프린트들과 쿼리 핑거프린트를 비교하여 최종 매칭 결과를 생성하는 기능을 수행한다.

제2 매칭부(32)가 2차 매칭을 수행하기 위해 사용하는 매칭 방법은 제1 매칭부(31)에서 수행한 1차 매칭보다 정확한 결과를 얻기 위한 것으로서 이 때 앞서 설명한 바와 같이 쿼리 핑거프린트 추출부(10)에서 프레임 이동 길이를 변동(단축)시키면서 생성했던 프레임들의 특징 벡터들은 제외하고 2차 매칭을 수행한다.

즉, 미리 설정된 프레임 이동 길이를 갖는 프레임들의 특징 벡터로만 쿼리 핑거프린트를 재구성하고 이를 매칭 후보군에 포함된 레퍼런스 핑거프린트들과 정밀 비교함으로써 최종 매칭 결과를 산출하게 된다.

한편, 제2 매칭부(32)에서 수행하는 매칭 방법은 종래의 알려진 모든 방법을 사용할 수 있으며 이 방법 자체는 본 발명의 직접적인 목적은 아니므로 이에 대한 상세 설명은 생략한다.

다시 도 1을 참조하여 인식 결과 제공부(40)에 대하여 설명한다.

인식 결과 제공부(40)는 앞서 설명한 바와 같은 과정을 통해 핑거프린트 매칭부(30)에서 최종적으로 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 기능을 수행한다. 여기서 콘텐츠 정보는 앞서 설명한 바와 같이 매칭되는 것으로 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 식별자, 콘텐츠 이름, 저작권자, 콘텐츠 길이, 화질 정보 등과 같은 다양한 정보를 포함할 수 있으며 이들은 전술한 바와 같이 레퍼런스 핑거프린트 데이터베이스(20)에 저장되어 있다.

도 8을 참조하면 콘텐츠 인식 장치(100)는 클라이언트 단말기(300) 내에 구비될 수 있으며, 클라이언트 단말기(300)는 인터넷이나 이동 통신망 등과 같은 네트워크를 통해 레퍼런스 핑거프린트 서버(200)와 연결될 수 있다.

클라이언트 단말기(300)는 컴퓨터나 예컨대 스마트폰 등과 같은 이동 통신 단말기일 수 있다.

레퍼런스 핑거프린트 서버(200)는 도 8에 나타낸 바와 같이 핑거프린트 생성부(210)와 콘텐츠 그룹별 핑거프린트 데이터베이스(220)를 포함할 수 있다.

핑거프린트 생성부(210)는 핑거프린트 생성 대상이 되는 모든 오디오 신호들에 대해 핑거프린트를 생성하는 기능을 수행하며 여기에서 생성된 핑거프린트들은 각각의 핑거프린트에 대응하는 콘텐츠 정보와 함께 콘텐츠 그룹별 핑거프린트 데이터베이스(220)에 저장된다.

콘텐츠 그룹별 핑거프린트 데이터베이스(220)는 핑거프린트 생성부(210)에서 생성된 핑거프린트들과 콘텐츠 정보를 그룹별로 그룹화해서 저장한다. 그룹별로 저장하는 것은 다양한 기준을 사용할 수 있는데 예컨대 특정 콘텐츠들에 대응하여 그룹화할 수 있다. 예컨대, "AAA"라는 노래에 대응되는 모든 핑거프린트들과 콘텐츠 정보를 그룹화할 수 있다.

다른 방법으로는, 콘텐츠별로 레퍼펀스 핑거프린트 서버(200)의 관리자에 의해 설정하도록 함으로써 그룹화를 수행할 수도 있다.

이와 같이 레퍼런스 핑거프린트 서버(200)는 그룹화된 핑거프린트 데이터베이스를 구축하여 두고 클라이언트 단말기(300)측으로 그룹화된 핑거프린트 데이터베이스를 전송하고 클라이언트 단말기(300)의 콘텐츠 인식 장치(100)내의 레퍼런스 핑거프린트 데이터베이스(20)를 이를 수신하여 저장하게 된다.

이와 같이 구성함으로써 클라이언트 단말기(300)에서 인식이 완료(즉, 매칭이 완료)되면 인식 결과를 인식 결과 제공부(40)를 통해 사용자에게 제공하는 동시에 그 결과를 레퍼런스 핑거프린트 서버(200)로 전송하도록 구성할 수도 있다. 이러한 경우 레퍼런스 핑거프린트 서버(200)는 그룹화된 콘텐츠별로 특정 사용자가 그룹화된 콘텐츠에 대해 오디오 신호를 실제 듣고 인식을 수행했는지를 판별할 수 있게 된다. 따라서 이를 광고 방법에 적용하면 특정 사용자들이 특정한 콘텐츠를 인식하도록 하고 그 결과를 서버측에서 집계할 수 있으므로 광고 효과나 이벤트 등에 유용하게 사용할 수 있는 장점이 있다.

한편, 도 1을 다시 참조하면 콘텐츠 인식 장치(100)는 인터페이스 제공부(미도시)를 더 포함할 수 있다. 인터페이스 제공부는 사용자가 오디오 신호를 입력할 수 있도록 하면서 인식 결과를 사용자에게 제공할 수 있도록 하는 사용자 인터페이스를 제공하는 기능을 수행한다.

예컨대, 사용자 인터페이스를 통해 오디오 신호 인식 시작 버튼을 제공해서 사용자가 해당 버튼을 클릭하는 경우 오디오 신호를 마이크 등의 음성 입력 수단에 의해 일정 시간 동안 획득하도록 할 수 있다. 또한 사용자 인터페이스를 통해 인식(매칭)이 완료된 경우 콘텐츠 정보를 예컨대 "인식된 오디오 신호는 가수 aaa의 bbb라는 곡입니다" 등과 같은 형태로 사용자에게 제공할 수 있다.

한편, 도 1 내지 도 8에서 설명한 바와 같이, 쿼리 핑거프린트 추출부(10)는 입력되는 오디오 신호를 소정의 프레임 길이와 프레임 이동 길이에 의해 구성되는 복수개의 프레임들에 대해 각각의 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출한다.

이 때, 이러한 쿼리 핑거프린트를 추출할 때 일정 시간 구간을 설정해 두고 시간 구간 단위로 쿼리 핑거프린트를 추출하고 매칭을 수행한 후, 그 구간내에서 매칭에 실패한 경우 시간 구간을 늘려가면서 추출 및 매칭을 진행할 수도 있다.

예컨대, 시간 구간 단위를 N초라 하면, 입력 오디오 신호는 N₁, N₂, N₃..N_K의 구간으로 분할될 수 있다. 이 때 N은 앞서 설명한 프레임 길이보다는 훨씬 큰 값이다. 이러한 시간 구간에 대해서 우선 N₁의 구간에서 앞서 설명한 바와 같은 쿼리 핑거프린트 추출 및 매칭을 수행하고, 매칭에 실패한 경우 다음 구간 N₂에 대해서 쿼리 핑거프린트 추출 및 매칭을 수행할 수 있다. 이를 반복하면서 매칭에 성공하면 과정을 종료하고 매칭에 계속 실패하면 계속적으로 다음 구간으로 이동하면서 해당 구간의 프레임들에 대해 앞서 설명한 바와 같이 쿼리 핑거프린트 추출 및 매칭을 반복하게 된다.

여기에서 각각의 시간 구간의 크기는 동일하게 하는 것이 바람직하지만 다르게 할 수도 있음은 물론이다.

또한 예컨대 N₂의 구간에서 쿼리 핑거프린트 추출 및 매칭을 수행할 때 N₁에서 추출된 쿼리 핑거프린트를 함께 사용할 수도 있음은 물론이다.

도 9는 도 1 내지 도 8에서 설명한 본 발명에 의한 콘텐츠 인식 장치(100)에서 수행되는 콘텐츠 인식 방법을 나타낸 흐름도이다.

도 9를 참조하면, 우선 쿼리 핑거프린트 추출부(10)에서 앞서 설명한 바와 같은 방법으로 쿼리 핑거프린트를 추출한다(S1000). 쿼리 핑거프린트가 추출되면 핑거프린트 매칭부(20)의 제1 매칭부(21)가 우선적으로 1차 매칭을 수행한다(S1100). 제1 매칭부(21)에서 1차 매칭의 결과는 전술한 바와 같이 N개의 매칭 후보군을 판별하게 된다.

다음으로 핑거프린트 매칭부(20)의 제2 매칭부(22)는 매칭 후보군에 포함된 레퍼런스 핑거프린트들에 대해 2차 매칭을 수행하고(S1200) 최종 매칭 결과를 인식 결과로서 생성하게 된다(S1300).

이상에서 본 발명에 의한 바람직한 실시예를 설명하였으나 본 발명은 이들 실시예에 한정되는 것이 아님은 물론이다.

예컨대, 상기의 실시예들에서는 오디오 신호에 대해서 쿼리 핑거프린트를 추출하고 매칭하는 것으로만 설명하였으나 본 발명은 비디오 신호에 대해서도 그대로 적용할 수 있음은 물론이다. 비디오 신호는 오디오 신호와 비교할 때 특징 벡터를 생성하는 방법에서만 차이가 있을 뿐 앞서 설명한 프레임을 구성하는 방법들은 비디오 신호에 대해서도 그대로 적용될 수 있기 때문이다.

또한, 도 7에서 프레임을 비교할 때 해밍 거리를 비교하는 방법을 예로서 설명하였으나 해밍 거리 이외의 다른 종래의 방법을 사용할 수도 있음은 물론이다.

또한, 도 8에서 콘텐츠 인식 장치(100)는 클라이언트 단말기(300) 내에 일체로 포함되어 있는 것으로 설명하였으나 콘텐츠 인식 장치(100)의 각각의 구성 요소들은 네트워크 상에서 분산되어 배치될 수도 있다. 예컨대, 쿼리 핑거프린트 추출부(10)와 인터페이스 제공부(미도시)만을 클라이언트 단말기(300) 내에 포함되도록 하고 다른 구성 요소들은 네트워크 상에서 독립된 서버로서 분산하여 배치할 수도 있다. 예컨대, 레퍼런스 핑거프린트 데이터베이스와 핑거프린트 매칭부를 각각 별도의 서버에 배치할 수도 있고 이들 2 요소만을 묶어서 하나의 서버에 배치할 수도 있다. 또한, 이들 2 요소를 레퍼런스 핑거프린트 서버(200) 내에 배치할 수도 있다. 중요한 것은 콘텐츠 인식 장치(100)는 물리적으로 하나의 장치로 또는 하나의 장치내에 구성될 수도 있지만 네트워크 상에서 분산되어 배치될 수도 있다는 점이다.

Claims

오디오 신호를 이용한 콘텐츠 인식 장치에 있어서,

입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 쿼리 핑거프린트 추출부;

쿼리 핑거프린트와 비교할 레퍼런스 핑거프린트와 레퍼런스 핑거프린트에 대응되는 콘텐츠 정보를 저장하는 레퍼런스 핑거프린트 데이터베이스; 및

상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 핑거프린트 매칭부

를 포함하되,

상기 쿼리 핑거프린트 추출부는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 프레임 이동 길이는, 인접 프레임들이 서로 겹치도록 프레임 길이보다 짧은 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 쿼리 핑거프린트 추출부는, 일부 구간에서의 프레임 이동 길이를 미리 설정된 프레임 이동 길이보다 짧게 하여 프레임을 형성하는 것을 특징을 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제3항에 있어서,

상기 쿼리 핑거프린트 추출부는, 미리 설정된 시간 구간에 기초하여 상기 일부 구간을 결정하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제3항에 있어서,

상기 쿼리 핑거프린트 추출부는, 신호대잡음비가 임계치보다 높은 값을 갖는 시간 구간을 검출하고 검출된 시간 구간에 기초하여 상기 일부 구간을 결정하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제4항 또는 제5항에 있어서,

상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 해당하는 프레임들 각각에 대하여 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제4항 또는 제5항에 있어서,

상기 쿼리 핑거프린트 추출부는, 상기 결정된 일부 구간에 포함될 프레임들에 대한 프레임별 특징 벡터를, 상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임의 프레임별 특징 벡터에 기초하여 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제7항에 있어서,

상기 일부 구간의 시작 위치에 상응하는 프레임은 상기 시작 위치를 마지막으로 포함하는 프레임이고,

상기 일부 구간의 종료 위치에 상응하는 프레임은 상기 종료 위치를 처음으로 포함하는 프레임인 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제8항에 있어서,

상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터를 생성하고, 생성된 프레임별 특징 벡터에 기초하여 선형 내삽법에 의해 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제8항에 있어서,

상기 일부 구간의 시작 위치 및 종료 위치에 상응하는 프레임들의 프레임별 특징 벡터는 이진수로 형성되고, 상기 이진수로 형성된 프레임별 특징 벡터의 각각의 비트를 비교하여 상이한 비트들에 가능한 이진수를 배열함으로써 일부 구간에 포함될 프레임들의 프레임별 특징 벡터를 생성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 핑거프린트 매칭부는,

상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제1 매칭부; 및

상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2 매칭부;

를 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제11항에 있어서,

상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 해밍 거리가 임계치 이하인 프레임 특징 벡터가 포함된 레퍼런스 핑거프린트를 매칭되는 레퍼런스 핑거프린트로 판별하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제11항에 있어서,

상기 제1 매칭부는, 상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터를 순차적으로 레퍼런스 핑거프린트의 프레임별 특징 벡터들과 순차적으로 비교하면서 매칭되는 프레임이 검출된 경우 이후의 프레임에 대한 비교를 생략하고 다음 레퍼런스 핑거프린트에 대한 비교를 수행하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제11항에 있어서,

제2 매칭부는,

상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터들 중에서 미리 설정된 프레임 이동 길이가 아닌 프레임들을 제외하여 프레임별 특징 벡터를 재구성하고 재구성된 프레임별 특징 벡터를 레퍼런스 핑거프린트들과 비교하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보를 제공하는 인식 결과 제공부를 더 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 오디오 신호를 이용한 콘텐츠 인식 장치는 클라이언트 단말기 내에 포함되는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제16항에 있어서,

상기 레퍼런스 핑거프린트 데이터베이스는 레퍼런스 핑거프린트 서버로부터 레퍼런스 핑거프린트 및 콘텐츠 정보를 수신하여 저장하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

사용자가 오디오 신호를 입력할 수 있도록 하는 사용자 인터페이스를 제공하는 인터페이스 제공부

를 더 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제17항에 있어서,

상기 핑거프린트 매칭부에 의해 판별된 레퍼런스 핑거프린트에 상응하는 콘텐츠 정보는 상기 레퍼런스 핑거프린트 서버로 전송되는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
제1항에 있어서,

상기 쿼리 핑거프린트 추출부는 미리 설정된 구간 단위로 해당 구간에 포함되는 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 구간별 쿼리 핑거프린트를 추출하고, 상기 핑거프린트 매칭부는 상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하되,

상기 핑거프린트 매칭부에서 매칭되는 레퍼런스 핑거프린트가 판별될 때까지 쿼리 핑거프린트 추출부가 상기 미리 설정된 구간 단위로 구간별 쿼리 핑거프린트를 연속적으로 추출하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 장치.
오디오 신호를 이용한 콘텐츠 인식 방법에 있어서,

입력되는 오디오 신호에 대하여 미리 설정된 프레임 길이를 갖는 프레임들을 형성하고 각각의 프레임들에 대한 프레임별 특징 벡터를 생성함으로써 쿼리 핑거프린트를 추출하는 제1 단계; 및

상기 쿼리 핑거프린트에 매칭되는 레퍼런스 핑거프린트를 판별하는 제2 단계

를 포함하되,

상기 제1 단계는, 인접하는 프레임의 시작점 사이의 간격인 프레임 이동 길이를 일부 구간에서 변동시키면서 프레임을 형성하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법.
제21항에 있어서,

상기 제2 단계는,

상기 쿼리 핑거프린트를 구성하는 프레임별 특징 벡터 중 어느 하나와 매칭되는 레퍼런스 핑거프린트들을 판별하고 판별된 레퍼런스 핑거프린트들의 식별자를 매칭 후보군에 포함시킴으로써 1차 매칭을 수행하는 제2-1 단계; 및

상기 매칭 후보군에 포함된 식별자에 상응하는 레퍼런스 핑거프린트들에 대하여 2차 매칭을 수행하는 제2-2 단계

를 포함하는 것을 특징으로 하는 오디오 신호를 이용한 콘텐츠 인식 방법.