KR100921571B1

KR100921571B1 - 오디오 신호를 분석하여 정보를 제공하기 위한 방법,시스템 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR100921571B1
Application number: KR1020080037826A
Authority: KR
Inventors: 김덕환
Original assignee: (주)올라웍스
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2009-10-13

Abstract

본 발명은 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서, (a) 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득하는 단계, (b) 오디오 인식 기술을 사용하여, 상기 오디오 신호로부터 BGM을 추출하는 단계, 및 (c) 오디오 인식 기술을 사용하여, 상기 추출된 BGM의 특정 부분이 상기 디지털 데이터에서 차지하는 시간대 정보를 제공하는 단계를 포함한다. 본 발명에 따르면, 디지털 데이터에 포함된 오디오 신호로부터 추출된 BGM의 분위기가 절정인 시간대 정보를 획득하여 사용자에게 제공함으로써, 사용자로 하여금 방대한 양의 디지털 데이터 중 원하는 시간대의 영상을 효율적으로 시청할 수 있도록 한다.

디지털 데이터, 오디오 신호, 오디오 신호 인식, 음성 인식, BGM, 정보 제공

Description

오디오 신호를 분석하여 정보를 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR PROVIDING INFORMATION BY ANALYZING AUDIO SIGNAL}

본 발명은 오디오 신호를 인식하여 정보를 제공하는 기술에 관한 것으로서, 보다 상세하게는 임의의 동영상에 포함된 오디오 정보를 분석하여, 상기 동영상의 클라이맥스 부분을 찾아 주거나, 상기 오디오 정보에 등장하는 화자의 성별, 나이 등을 인식하여 적절한 광고 정보 등을 제공해 주거나, 또는, 상기 동영상의 BGM을 인식하여 적절한 광고 정보 등을 제공해 주는 방법, 시스템, 및 컴퓨터 판독 기록 매체에 관한 것이다.

최근, 인터넷이라는 무한정 제공되는 공간과 발전된 인프라 덕에 많은 양의 멀티미디어 데이터가 디지털화되어 보존됨으로써, 이를 네트워크상에서 공유하거나 감상할 수 있는 기회가 늘고 있다. 이를 위해, 인터넷 서비스업체들은 사용자들에게 동영상 등의 디지털 데이터를 검색할 수 있는 기능을 제공하고, 검색된 동영상 파일을 사용자의 요청에 따라 사용자 단말 장치에 전송하거나, 온라인 상에서 동영상을 실시간으로 재생하는 서비스를 제공하기 위한 스트리밍(Streaming) 서비스 등 을 제공하고 있다.

일반적으로, 디지털 데이터는 그래픽, 오디오, 이미지 등과 같은 다양한 형태로 구성된 멀티미디어 데이터들을 포함하는 개념으로서, 사용자가 원하는 내용을 보다 효율적으로 검색할 수 있도록 하기 위해 디지털 데이터의 내용에 기반하여 검색하는 서비스 등이 제공되고 있다. 이러한 내용 기반 검색 기술(Content-Based Retrieval Technique)이란, 영상 정보 또는 오디오 정보의 내용을 기반으로 하여 디지털 데이터를 검색하는 기술이다.

내용 기반 검색에 관한 종래 기술로는, 오디오 신호에 포함된 음(note, sound)을 컴퓨터가 해석할 수 있는 형식으로 변환함으로써 오디오 신호의 특징을 추출하고, 추출된 특징을 검색 단서로 사용하는 기술이 있으며, 영상의 색상이나 질감 등의 특징을 추출하여 추출된 특징을 검색 단서로 사용하는 기술이 있다.

하지만, 위와 같은 종래 기술은, 디지털 데이터에 포함된 오디오 신호 및 영상 신호로부터 물리적인 특징을 단순히 추출한다는 점에서, 디지털 데이터를 제공받는 사용자에게 인상적으로 기억되는 청각적 혹은 시각적 정보를 다양하게 고려하지 못하게 되고, 따라서, 사용자에게 적합한 정보를 제공하기 어렵다는 문제점이 있다.

이에 따라, 디지털 데이터에 포함된 오디오 신호로부터 대표적인 BGM(Background Music: 배경음악)을 인식하거나 화자의 성별 및 연령대 등의 다양한 정보를 인식함으로써 얻어지는 정보를 활용하여, 동영상을 감상하는 도중에 발생할 수 있는 사용자의 호기심 내지 지적 욕구를 충족시켜줄 수 있는 정보를 검색 하고 그 검색 결과를 사용자에게 제공할 수 있는 정보 제공 방법이 요청되고 있다.

따라서, 본 발명의 목적은, 상기와 같은 종래 기술의 문제점을 해결하기 위하여, 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 상기 추출된 BGM을 인식함으로써, 상기 디지털 데이터의 분위기가 절정인 시간대 정보를 획득하여, 사용자에게 제공할 수 있도록 하는 것이다.

또한, 본 발명의 다른 목적은, 디지털 데이터에 포함된 오디오 신호를 분석하여 상기 디지털 데이터에 등장하는 화자의 성별 및 연령대를 인식하고, 상기 인식된 화자의 성별 및 연령대를 참조로 함으로써, 상기 분석된 오디오 신호가 제공되는 시간대에 상기 디지털 데이터의 영상 신호에 등장하는 객체 등에 대한 영상 정보 및/또는 상세 정보를 검색하여 사용자에게 제공할 수 있도록 하는 것이다.

또한, 본 발명의 또 다른 목적은, 디지털 데이터에 포함된 오디오 신호를 분석하여 BGM을 인식하고, 상기 인식된 BGM의 음원 및/또는 상세 정보 등을 검색하여 사용자에게 제공할 수 있도록 하는 것이다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서, (a) 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득하는 단계, (b) 오디오 인식 기술을 사용하여, 상기 오디오 신 호로부터 BGM을 추출하는 단계, 및 (c) 오디오 인식 기술을 사용하여, 상기 추출된 BGM의 특정 부분이 상기 디지털 데이터에서 차지하는 시간대 정보를 제공하는 단계를 포함하는 방법이 제공된다.

본 발명의 다른 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서, (a) 오디오 신호 및 영상 신호가 포함된 상기 디지털 데이터를 획득하는 단계, (b) 오디오 인식 기술을 사용하여, 상기 오디오 신호에서 상기 디지털 데이터에 등장하는 화자의 대사 중 특정 객체를 가리키는 대사를 인식하는 단계, (c) 오디오 인식 기술을 사용하여, 상기 특정 객체를 가리키는 대사가 나오는 특정 시간대에 포함된 오디오 신호로부터 상기 화자 또는 상기 화자의 상대방의 성별 및 연령 중 적어도 하나를 인식하는 단계, 및 (d) 오디오 인식 기술을 사용하여, 상기 인식된 성별 및 연령 중 적어도 하나를 참조로 하여, 상기 특정 객체에 대한 정보를 제공하는 단계를 포함하는 영상 제공 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서, (a) 오디오 신호 및 영상 신호가 포함된 상기 디지털 데이터를 획득하는 단계, (b) 오디오 인식 기술을 사용하여, 상기 오디오 신호로부터 BGM을 추출하고 인식하는 단계, (c) 상기 인식된 BGM에 대한 상세 정보를 제공하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 시스템으로서, 오디오 인식 기술을 사용하여, 상기 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 상기 BGM의 분위기가 절정인 부분의 시간대 정보를 획득하는 오디오 신호 분석부, 및 상기 획득된 시간대 정보를 제공하는 정보 검색 및 제공부를 포함하는 시스템이 제공된다.

본 발명의 또 다른 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 시스템으로서, 오디오 인식 기술을 사용하여, 상기 디지털 데이터에 포함된 상기 오디오 신호에서 상기 디지털 데이터에 등장하는 화자의 대사 중 객체를 가리키는 대사를 인식하고, 상기 객체를 가리키는 대사가 나오는 특정 시간대에 포함된 오디오 신호로부터 상기 화자 또는 상기 화자의 상대방의 성별 및 연령 중 적어도 하나를 인식하는 오디오 신호 분석부, 및 상기 객체 중 상기 인식된 성별 및 연령 중 적어도 하나를 참조하여 선택된 특정 객체에 대한 상세 정보를 검색하여 상기 특정 시간대에 제공하는 정보 검색 및 제공부를 포함하는 시스템이 제공된다.

본 발명의 또 다른 태양에 따르면, 디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 시스템으로서, 오디오 인식 기술을 사용하여, 상기 디지털 데이터에 포함된 상기 오디오 신호로부터 BGM을 인식하는 오디오 신호 분석부, 및 상기 인식된 BGM에 대한 상세 정보를 제공하는 정보 검색 및 제공부를 포함하는 시스템이 제공된다.

본 발명의 특징적인 구성으로 인해 달성되는 본 발명의 효과는 다음과 같다.

1. 본 발명에 따르면, 디지털 데이터에 포함된 오디오 신호로부터 추출된 BGM의 분위기가 절정인 시간대 정보를 획득하여 사용자에게 제공함으로써, 사용자로 하여금 방대한 양의 디지털 데이터 중 원하는 시간대의 영상을 효율적으로 시청할 수 있도록 한다.

2. 본 발명에 따르면, 디지털 데이터에 포함된 오디오 신호를 분석하여 인식된 화자의 성별 및 연령대를 참조로 하여, 상기 분석된 오디오 신호가 제공되는 시간대에 상기 디지털 데이터의 영상 신호에 등장하는 소품 등에 대한 정보를 사용자에게 제공함으로써, 디지털 데이터를 감상하면서 생길 수 있는 등장 소품 등에 대한 사용자의 호기심 내지 구매 욕구 등을 효과적으로 충족시켜 줄 수 있다.

3. 본 발명에 따르면, 디지털 데이터에 포함된 오디오 신호를 분석하여 인식된 BGM에 대한 음원 및/또는 상세 정보 등을 제공함으로써, 디지털 데이터를 감상하면서 생길 수 있는 BGM 정보에 대한 호기심 및 BGM의 음원에 대한 구매 욕구 등을 효과적으로 충족시켜 줄 수 있다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어 나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 바람직한 실시예]

본 명세서에 있어서, 디지털 데이터라 함은, 디지털 신호로 구성된 정보의 집합을 총칭하는 것으로서, 특히, 본 명세서에서 언급된 디지털 데이터는, 컴퓨터나 가전 제품, 통신 장치 등에서 정보 처리를 하기 위한 부호 데이터(수치나 문자), 정지 화상, 동화상, 음성 등 여러 가지 다른 형식의 정보가 적어도 하나 포함된 데이터를 포함하는 광의의 개념으로 이해되어야 할 것이다.

본 명세서에 있어서, BGM(Background Music: 배경음악)이라 함은, 주로 영화, 드라마 등의 동영상에 삽입되어 상기 동영상의 분위기를 조성하거나 등장인물의 행동을 강조하는 역할을 수행하는 음악을 총칭하는 것이다. 다만, 본 명세서에서 언급된 BGM은 이에 한정되는 것은 아니며, 디지털 데이터에 포함된 오디오 신호를 구성하는 음악적 요소를 총칭하는 최광의의 개념으로 이해되어야 할 것이다.

전체 시스템의 구성

도 1은 본 발명의 일 실시예에 따라, 임의의 디지털 데이터, 가령 동영상에 포함된 오디오 신호를 분석함으로써, 상기 오디오 신호의 분위기가 절정인 시간대를 찾아 주거나, 상기 오디오 정보에 등장하는 화자의 성별, 나이 등을 인식하여 그에 걸맞는 광고 등의 정보를 제공해 주거나, 상기 오디오 정보에 포함되어 있는 BGM을 인식하여 그에 관한 적절한 광고 등의 정보를 제공하기 위한 전체 시스템의 개략적인 구성도이다.

도 1에 도시되어 있는 바와 같이 본 발명의 일 실시예에 따른 전체 시스템은, 사용자 단말 장치(100), 디지털 데이터에 포함된 오디오 신호를 분석하여 상기 디지털 데이터에 대한 정보를 통신 네트워크를 통해 사용자 단말 장치(100)에 제공하기 위한 정보 제공 시스템(200)으로 구성될 수 있다.

본 발명의 일 실시예에 따르면, 사용자 단말 장치(100)는 디지털 데이터를 조회 또는 시청하고자 하는 사용자가 통신 네트워크를 통하여 정보 제공 시스템(200)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 팜톱 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이, 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(100)로서 채택될 수 있다. 본 발명의 바람직한 실시예에 따르면, 사용자 단말 장치(100)는 웹브라우저(Web Browser) 및 왑브라우저(WAP Browser)와 같은 웹 문서 뷰어(Viewer)를 구비하고 있다(이하, 브라우저라 통칭함).

여기서, 통신 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 발명에서 말하는 통신 네트워크는 공지의 월드와이드웹(WWW: World Wide Web)일 수 있다.

본 발명의 제1 실시예에 따르면, 정보 제공 시스템(200)은 디지털 데이터에 포함된 오디오 신호에서 대표적인 BGM을 추출하고, 상기 추출된 BGM을 인식하여, 상기 BGM의 분위기가 절정인 시간대 정보를 획득하여 사용자에게 제공할 수 있다.

본 발명의 제2 실시예에 따르면, 정보 제공 시스템(200)은 디지털 데이터에 포함된 오디오 신호를 분석하여 상기 디지털 데이터에 등장하는 화자의 성별 및 연령대 등을 인식한 후, 상기 오디오 신호가 제공되는 시간대에 상기 디지털 데이터에 등장하는 소품에 대한 정보를 상기 인식된 화자의 성별 및 연령대를 고려하여 검색하고 이를 사용자 단말 장치(100)에 제공할 수 있다.

본 발명의 제3 실시예에 따르면, 정보 제공 시스템(200)은 디지털 데이터에 포함된 오디오 신호를 분석하여 BGM을 추출하고, 상기 추출된 BGM의 음원 및/또는 이와 관련된 기타 정보를 검색하여 사용자 단말 장치(100)에 제공할 수 있다.

정보 제공 시스템의 구성

도 2는 본 발명의 일 실시예에 따른 정보 제공 시스템(200)의 개략적인 구성 을 나타내는 도면이다.

도 2를 참조하면, 정보 제공 시스템(200)은, 디지털 데이터 획득부(210), 오디오 신호 분석부(220), 영상 신호 분석부(230), 정보 검색 및 제공부(240), 데이터베이스(250), 통신부(260), 제어부(270)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 디지털 데이터 획득부(210), 오디오 신호 분석부(220), 영상 신호 분석부(230), 정보 검색 및 제공부(240), 데이터베이스(250), 통신부(260), 제어부(270)는 그 중 적어도 일부가 정보 제공 시스템(200)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈로서 정보 제공 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 정보 제공 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

본 발명의 일 실시예에 따른 디지털 데이터 획득부(210)는, 통신 네트워크를 통하여 사용자 단말 장치(100) 또는 기타 웹 서버(미도시됨)로부터 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득하는 기능을 수행한다.

본 발명의 일 실시예에 따른 오디오 신호 분석부(220)는, 획득된 디지털 데이터에 포함된 오디오 신호를 분석함으로써, 오디오 신호에서 BGM을 추출하고 이를 인식하여, 상기 BGM의 분위기가 절정인 시간대를 찾아 내는 기능을 수행할 수 있으 며, 오디오 신호에 등장하는 화자의 성별 및/또는 연령대를 인식하는 기능을 수행할 수도 있다

도 3은 오디오 신호 분석부(220)의 구체적인 구성을 예시적으로 나타내는 도면이다.

도 3을 참조하면, 오디오 신호 분석부(220)는 오디오 신호 추출부(221) 및 오디오 신호 인식부(222)를 포함할 수 있다.

본 발명의 제1 실시예 및 제3 실시예에 따르면, 오디오 신호 추출부(221)는 디지털 데이터에서 오디오 신호를 추출하는 기능 및 상기 추출된 오디오 신호로부터 BGM을 추출하는 기능을 수행할 수 있고, 오디오 신호 인식부(222)는 상기 추출된 BGM을 인식하는 기능을 수행할 수 있다. 또한, 디지털 데이터로부터 인식된 BGM의 특징을 나타내는 특정 부분을 판별하고 이에 대한 시간대 정보를 획득하는 기능을 수행할 수 있는데, 특히, 디지털 데이터로부터 인식된 BGM의 분위기가 절정인 부분을 판별하여 이에 대한 시간대 정보를 획득하는 기능을 수행할 수 있다. 오디오 신호의 BGM의 분위기가 절정인 부분을 찾아 내는 구체적인 방법에 대해서는 후술하기로 한다.

본 발명의 제2 실시예에 따르면, 오디오 신호 추출부(221)는 디지털 데이터에서 오디오 신호를 추출하는 기능 및 상기 추출된 오디오 신호로부터 화자(즉, 등장인물)의 대사(가령, 대화, 독백 등)를 추출하는 기능을 수행할 수 있고, 오디오 신호 인식부(222)는 디지털 데이터로부터 추출된 화자의 대사로부터 상기 화자의 성별 및/또는 연령대를 인식하는 기능을 수행할 수 있다. 또한, 오디오 신호 인식 부(222)는 디지털 데이터로부터 추출된 화자의 대사의 내용을 인식함으로써, 오디오 신호에 소품, 인물, 장소 등의 객체를 가리키는 대사가 포함되어 있는지를 파악하는 기능을 수행할 수 있다. 오디오 신호로부터 화자의 성별 및 연령대를 인식하는 구체적인 방법 및 오디오 신호에 소품, 인물, 장소 등의 객체를 가리키는 대사가 포함되어 있는지를 파악하는 구체적인 방법에 대해서는 후술하기로 한다.

본 발명에 따른 영상 신호 분석부(230)는 오디오 신호 분석부(220)에 의하여 분석된 결과에 따라, 디지털 데이터에 포함된 영상 신호로부터 특정 영상 정보를 추출하거나 인식하는 기능을 수행한다. 구체적으로, 본 발명의 제1 실시예에 따르면, 영상 신호 분석부(230)는 오디오 신호 분석부(220)에 의해 결정된 정보, 즉 BGM의 분위기가 절정인 부분의 시간대 정보를 참조로 하여, 상기 시간대 정보에 해당하는 영상 신호를 선택적으로 재생할 수 있도록 사용자 인터페이스를 제공하거나 이러한 영상 신호만을 추출하는 기능을 수행할 수 있다. 또한, 본 발명의 제2 실시예에 따르면, 영상 신호 분석부(230)는 디지털 데이터에 포함된 영상 신호로부터 오디오 신호에 포함된 특정 소품, 인물, 장소 등의 객체를 가리키는 대사가 흘러나오는 시간대 정보에 해당하는 영상 정보를 추출하고, 추출된 영상 정보에서 상기 특정 소품, 인물, 장소 등의 객체를 인식하는 기능을 수행할 수 있다. 영상 신호에 등장하는 소품, 인물, 장소 등의 객체를 인식하는 구체적인 방법에 대해서는 후술하기로 한다

본 발명의 일 실시예에 따른 정보 검색 및 제공부(240)는 통신 네트워크를 통하여 사용자 단말 장치(100) 또는 기타 웹 서버(미도시됨)로부터 디지털 데이터 에 포함된 오디오 신호 및/또는 영상 신호에 대한 상세 정보를 검색하고, 상기 검색된 정보를 사용자 단말 장치(100)에 제공하는 기능을 수행한다. 구체적으로, 본 발명의 제2 실시예에 따르면, 정보 검색 및 제공부(240)는 디지털 데이터의 오디오 신호에 포함된 화자의 대사를 분석하여 특정 소품, 인물, 장소 등의 객체를 가리키는 대사가 존재하는 경우, 이러한 객체에 대한 상세 정보를 검색하여 제공하는 기능을 수행할 수 있는데, 예를 들면, 상기 상세 정보에는, 상기 특정 소품의 브랜드, 제조회사, 가격, 동일 제조회사의 다른 브랜드 등의 상품 정보가 포함될 수 있고, 상기 특정 인물의 이름, 직업, 나이, 약력, 미니홈피주소 등의 인물 정보가 포함될 수 있으며, 또한, 상기 특정 장소의 명칭, 위치, 관광명소 등의 장소 정보가 포함될 수 있을 것이다. 또한, 본 발명의 제3 실시예에 따르면, 정보 검색 및 제공부(240)는 디지털 데이터에 포함된 오디오 신호를 분석하여 인식된 BGM에 대한 상세 정보를 제공하는 기능을 수행할 수 있는데, 예를 들면, 상기 상세 정보에는, BGM의 제목, 가수, 연주자, 작곡가 및 음원(MP3 파일, 휴대폰 벨소리)의 구매 정보 등이 포함될 수 있다.

본 발명에 따르면, 정보 검색 및 제공부(240)는 디지털 데이터가 제공되는 것과 동시에 상기에서 언급된 바와 같은 상세 정보를 함께 제공함으로써, 사용자가 디지털 데이터(예를 들면, 영화, 동영상 등)를 감상하는 도중에 발생할 수 있는 호기심 내지 구매 욕구를 실시간으로 충족시킬 수 있으며, 관심 있는 상품을 보다 신속하고 손쉽게 구매할 수 있도록 할 수 있다.

본 발명에 있어서, 데이터베이스(250)에는 정보 제공의 대상이 되는 디지털 데이터가 저장될 수 있는데, 가령 디지털 데이터에 포함된 오디오 신호 및 영상 신호가 통합되어 또는 별도로 저장될 수 있고, 정보 검색 및 제공부(240)에 의하여 획득된 상세 정보가 저장될 수도 있을 것이다.

한편, 본 발명에 있어서 데이터베이스란, 협의의 데이터베이스뿐만 아니라, 컴퓨터 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 데이터베이스까지도 포함하는 개념으로서, 단순한 연산 처리 로그의 집합이라도 이를 검색하여 소정의 데이터를 추출할 수 있다면 본 발명에서 말하는 데이터베이스에 포함될 수 있음이 이해되어야 한다.

비록 도 1에서 데이터베이스(250)는 정보 제공 시스템(200)에 포함되어 구성되어 있는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(250)는 정보 제공 시스템(200)과 별개로 구성될 수도 있다.

본 발명의 일 실시예에 따른 통신부(260)는 본 발명에 따른 정보 제공 시스템(200)이 통신 네트워크를 통하여 사용자 단말 장치(100) 및 기타 웹 서버(미도시됨) 등과 통신할 수 있도록 하는 기능을 수행한다.

본 발명의 일 실시예에 따른 제어부(270)는 디지털 데이터 획득부(210), 오디오 신호 분석부(220), 영상 신호 분석부(230), 정보 검색 및 제공부(240), 데이터베이스(250), 통신부(260) 간의 데이터의 흐름을 제어하는 기능을 수행한다.

정보 제공 과정

이하에서는, 본 발명의 일 실시예에 따른 정보 제공 시스템(200)이 디지털 데이터에 대한 상세 정보를 제공하는 과정을 도 4 내지 도 6을 참조하여 상세하게 설명하기로 한다.

1. BGM 의 분위기가 절정인 부분이 디지털 데이터에서 차지하는 시간대 정보 제공

먼저, 도 4는 본 발명의 제1 실시예에 따라 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 추출된 BGM의 분위기가 절정인 부분의 시간대 정보를 획득하여, 상기 시간대 정보를 제공하는 과정을 도시하는 흐름도이다.

도 4를 참조하면, 본 발명의 제1 실시예에 따른 정보 제공 시스템(200)은, 디지털 데이터 획득부(210)를 통하여 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득할 수 있다(S410).

다음으로, 본 발명의 제1 실시예에 따른 정보 제공 시스템(200)은, 획득된 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출한 후(S420), 추출된 BGM의 분위기가 절정인 시간대에 대한 정보를 획득할 수 있다(S430). 물론, BGM의 분위기가 절정인 부분의 시간대 정보를 획득하는 것에 한정되는 것이 아니라, BGM의 또 다른 특징을 나타내는 특정 부분의 시간대 정보를 획득하는 것도 가능할 것이다.

오디오 신호에 포함된 BGM의 분위기가 절정인 부분에 대한 정보를 획득하는 것과 관련된 기술로서, 정명범 외 1인이 저술하고, 2006년 ICHIT(International Conference on Hybrid Information Technology)에 게재된 논문인 "Representative melodies retrieval using digital signal processing of audio"를 예로 들 수 있다. 상기 논문에는, 오디오 신호의 분위기가 절정인 부분에서는 오디오 신호의 조 밀도가 커진다는 점을 이용하여, 오디오 신호의 템포(tempo) 및 마디(node)를 추출하고, 상기 추출된 마디 중에서 오디오 신호의 파형의 조밀도(waveform degree of concentration)가 높은 마디가 위치하는 부분을 상기 오디오 신호의 분위기가 절정인 부분인 것으로 결정하는 방법에 대하여 기재하고 있다. 물론, 이에 한정되는 것은 아니며, 다양한 변형 예를 적용하여 본 발명을 구현할 수 있을 것이다.

다음으로, 본 발명의 제1 실시예에 따른 정보 제공 시스템(200)은, 상기 획득된 BGM의 분위기가 절정인 시간대에 대한 정보를 적어도 하나 사용자 단말 장치(100)에 제공할 수 있는데(S440), 상기 사용자 단말 장치(100)에 제공된 시간대 정보 중 적어도 어느 하나를 사용자가 선택하면 상기 선택된 시간대 정보에 해당되는 영상 신호가 곧바로 재생되도록 할 수 있을 것이다.

2. 등장 화자의 성별 및 연령대를 고려하여 등장 객체에 대한 상세 정보 제공

먼저, 도 5는 본 발명의 제2 실시예에 따라 디지털 데이터에 포함된 오디오 신호에 소품, 인물, 장소 등의 객체를 가리키는 화자의 대사가 포함되어 있는지 인식하고, 화자의 성별 및/또는 연령대를 인식한 후, 상기 인식된 객체 중에서 상기 인식된 화자의 성별 및/또는 연령대와 가장 관련성이 높은 객체에 대한 영상 정보 및 이에 대한 상세 정보를 제공하는 과정을 도시하는 흐름도이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 정보 제공 시스템(200)은, 디지털 데이터 획득부(210)를 통하여 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득할 수 있다(S510).

다음으로, 본 발명의 정보 제공 시스템(200)은, 획득된 디지털 데이터에 포함된 오디오 신호로부터 소품, 인물, 장소 등의 객체를 가리키는 화자의 대사를 추출할 수 있다. 만약 오디오 신호에 상기 객체가 포함되어 있지 않은 경우에는, 상기 정보 제공 과정은 종료될 수 있지만, 반대로 오디오 신호에 상기 객체를 가리키는 대사가 포함되어 있는 경우에는, 상기 객체에 대한 정보를 제공하기 위한 단계로 넘어가게 된다(S520).

오디오 신호에 등장하는 소품, 인물, 장소 등의 객체를 인식하는 것과 관련된 기술로서, Hao Ruan 외 1인이 저술하고, Neural Networks, 1995. Proceedings., IEEE International Conference on Volume 5에 게재된 논문인 "Applying Neural Network to Robust Keyword Spotting in Speech Recognition Application"를 예로 들 수 있다. 상기 논문에는, 키워드를 포함한 음성 신호 및 키워드를 포함하지 않은 음성 신호를 입력 받고 상기의 음성 신호를 기반으로 하여 학습을 수행함으로써, 키워드 인식 능력을 구비하게 되는 신경망(neural network)을 이용하여 키워드를 찾아내는 음성 인식 방법에 대하여 기재되어 있다. 물론, 이에 한정되는 것은 아니며, 다양한 변형 예를 적용하여 본 발명을 구현할 수 있을 것이다.

오디오 신호로부터 소품, 인물, 장소 등의 객체를 가리키는 대사가 추출된 경우에는, 상기 추출된 대사가 흘러나오는 시간대의 오디오 신호를 분석하여, 화자의 성별 및 연령대를 인식할 수 있으며(좀더 정확하게는 상기 화자 또는 상기 화자의 대화 상대방의 성별 및 연령대 중 적어도 하나를 인식할 수 있다고 할 것이나, 표현의 편의상 간단하게 표현함)(S530), 상기 추출된 객체 중에서 상기 인식된 화 자의 성별 및 연령대와 가장 관련성이 높은 객체를, 정보 제공의 대상이 될 객체로서 제공할 수 있다(S540).

오디오 신호에 등장하는 화자의 성별을 인식하는 것과 관련된 기술로서, 이계환 외 3인이 저술하고, 2007년 한국음향학회지에 게재된 논문인 "음성신호 기반의 성별인식을 위한 Support Vector Machines의 적용"을 예로 들 수 있다. 또한, 오디오 신호에 등장하는 화자의 연령대를 인식하는 것과 관련된 기술 역시, 위에서 언급한 이계환 외 3인의 논문에 개시된 기술로부터 용이하게 구현될 수 있을 것이다. 물론, 이에 한정되는 것은 아니며, 다양한 변형예를 적용하여 본 발명을 구현할 수 있을 것이다.

다음으로, 정보 제공 시스템(200)은 상기 객체를 가리키는 대사가 등장하는 시간대에 해당하는 영상 신호로부터 상기 선택된 객체를 검출하고 인식할 수 있다(S550).

영상 신호에 등장하는 소품, 인물, 장소 등의 객체를 인식하는 것과 관련된 기술로서, David G. Lowe가 저술하고, “ICCV(International Conference on Computer Vision) 1999”에 게재된 논문인 “Object Recognition from Local Scale-Invariant Features”를 예로 들 수 있다. 상기 논문에는, Scale Invariant Feature Transform을 이용하여 영상 신호에서 객체를 인식하는 방법에 대하여 기재되어 있다. 물론, 이에 한정되는 것은 아니며, 다양한 변형 예를 적용하여 본 발명을 구현할 수 있을 것이다.

이와 동시에, 정보 제공 시스템(200)은 통신 네트워크를 통하여 사용자 단말 장치(100) 또는 기타 웹 서버(미도시됨)로부터 상기 인식된 객체에 대한 상세 정보를 검색하여 제공할 수 있다(S570). 구체적으로, 상기 상세 정보에는, 상기 특정 소품의 브랜드, 제조회사, 가격, 동일 제조회사의 다른 브랜드 등의 상품 정보가 포함될 수 있고, 상기 특정 인물의 이름, 직업, 나이, 약력, 미니홈피주소 등의 인물 정보가 포함될 수 있으며, 또한, 상기 특정 장소의 명칭, 위치, 관광명소 등의 장소 정보가 포함될 수 있을 것이다. 여기서, 이러한 상세 정보는 영상 정보 내에서 검출되고 인식된 해당 객체 자체에 오버랩되어 제공될 수도 있고, 상기 해당 객체의 주변에 제공될 수도 있을 것이다. 또한, 이러한 상세 정보는 마우스 오버 시에만 제공되도록 할 수도 있고, 마우스 오버에 상관없이 제공되도록 할 수도 있는 등 다양한 변형예를 상정해 볼 수 있을 것이다.

예를 들면, 디지털 데이터(영화, 동영상 등)에 등장하는 화자의 대사 중에 “왜 이렇게 전화를 안 받니? 묻고 싶은 것이 있는데, 네 핸드백 어디서 구입했니?”라는 대사가 있는 경우를 상정할 수 있다. 먼저, 정보 제공 시스템(200)은 오디오 신호에 등장하는 “전화”, “핸드백”이라는 단어를 객체(즉, 소품)로 인식할 수 있으며, 이어서, 정보 제공 시스템(200)은 상기 “전화”, “핸드백”이라는 객체가 등장하는 부분의 오디오 신호를 분석하여 화자의 성별이 여성이고, 연령대가 20대라는 점을 인식할 수 있다. 다음으로, 정보 제공 시스템(200)은 화자가 20대의 여성이라는 점을 참조로 하여, “전화”, “핸드백”이라는 객체 중에서 20대 여성과 관련성이 높은 젊은 여성용 (깜찍한 타입의) 핸드폰 및/또는 젊은 여성용 핸드백 등을 정보 제공의 대상으로서 검색하여 제공할 수 있다. 또한, 정보 제공 시스템(200)은 “전화”, “핸드백”이라는 대사가 나오는 시간대의 영상 신호를 분석하여 “전화”, “핸드백”에 해당하는 객체를 해당 영상 정보에서 검출 및 인식하여 표시해 줄 수도 있으며, 동시에, 통신 네트워크를 통하여 “전화”및/또는 “핸드백”에 대한 상세 정보를 검색하여 제공할 수도 있을 것이다.

3. BGM 에 대한 상세 정보 제공

먼저, 도 6은 본 발명의 제3 실시예에 따라 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 추출된 BGM에 대한 상세 정보를 제공하는 과정을 도시하는 흐름도이다.

도 6을 참조하면, 본 발명의 제3 실시예에 따른 정보 제공 시스템(200)은 디지털 데이터 획득부(210)를 통하여 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득할 수 있다(S610).

다음으로, 정보 제공 시스템(200)은 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하여 인식할 수 있고(S620), 이어서, 정보 제공 시스템(200)은 통신 네트워크를 통하여 사용자 단말 장치(100) 또는 기타 웹 서버(미도시됨)로부터 상기 인식된 BGM에 대한 상세 정보를 검색하여 제공할 수 있다(S630). 구체적으로, 상기 상세 정보에는, BGM의 제목, 가수, 연주자, 작곡가 및 음원(MP3 파일, 휴대폰 벨소리)의 구매 정보 등이 포함될 수 있을 것이다. 이때, 정보 제공 시스템(200)은 추출된 BGM이 디지털 데이터에서 차지하는 시간대 정보를 획득하여, 상기 시간대 정보에 해당되는 타이밍에 상기 BGM에 대한 상세 정보를 제공하도록 할 수 있을 것이다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 등과 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

도 1은 본 발명의 일 실시예에 따라, 오디오 신호를 분석하여 정보를 제공하기 위한 전체 시스템의 개략적인 구성도이다.

도 2는 본 발명의 일 실시예에 따른 정보 제공 시스템(200)의 개략적인 구성을 나타내는 도면이다.

도 4는 본 발명의 제1 실시예에 따라 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 추출된 BGM의 분위기가 절정인 부분의 시간대 정보를 획득하여, 상기 시간대 정보를 제공하는 과정을 도시하는 흐름도이다.

도 5는 본 발명의 제2 실시예에 따라 디지털 데이터에 포함된 오디오 신호에 등장하는 소품, 인물, 장소 등의 객체를 인식하고, 또한, 화자의 성별 및 연령대를 인식한 후, 상기 인식된 성별 및 연령대를 참조로 하여 상기 인식된 객체 중에서 상기 인식된 화자의 성별 및 연령대와 가장 관련성이 높은 객체에 대한 영상 정보 및 상세 정보를 제공하는 과정을 도시하는 흐름도이다.

도 6은 본 발명의 제3 실시예에 따라 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 추출된 BGM에 대한 상세 정보를 제공하는 과정을 도시하는 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 사용자 단말 장치

200: 정보 제공 시스템

210: 디지털 데이터 획득부

220: 오디오 신호 분석부

221: 오디오 신호 추출부

222: 오디오 신호 인식부

230: 영상 신호 분석부

240: 정보 검색 및 제공부

250: 데이터베이스

260: 통신부

270: 제어부

Claims

디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서,

(a) 오디오 신호 및 영상 신호가 포함된 디지털 데이터를 획득하는 단계,

(b) 오디오 인식 기술을 사용하여, 상기 오디오 신호로부터 BGM을 추출하는 단계, 및

(c) 오디오 인식 기술을 사용하여, 상기 추출된 BGM의 오디오 신호의 파형의 조밀도가 기설정된(predetermined) 값을 초과하는 부분이 상기 디지털 데이터에서 차지하는 시간대 정보를 제공하는 단계

를 포함하는 방법.
삭제
제1항에 있어서,

상기 BGM의 오디오 신호의 파형의 조밀도가 기설정된 값을 초과하는 시간대 구간이 적어도 하나인 것을 특징으로 하는 방법.
제1항에 있어서,

(d) 상기 제공된 시간대 정보 중 적어도 하나를 선택하면, 상기 선택된 시간대 정보에 해당되는 시간부터 상기 디지털 데이터가 재생되는 단계를 더 포함하는 방법.
삭제
삭제
삭제
삭제
삭제
삭제
디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 방법으로서,

(a) 오디오 신호 및 영상 신호가 포함된 상기 디지털 데이터를 획득하는 단계,

(b) 오디오 인식 기술을 사용하여, 상기 오디오 신호로부터 BGM을 추출하고 인식하는 단계,

(c) 상기 인식된 BGM에 대한 상세 정보를 제공하는 단계를 포함하되,

상기 상세 정보는, 통신 네트워크를 통하여 사용자 단말 장치 및 기타 웹 서버 중 적어도 하나로부터 검색하여 제공되는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 상세 정보는, 상기 BGM의 제목, 가수, 연주자, 작곡가, 음원의 구매 정보 중 적어도 하나를 포함하는 방법.
삭제
디지털 데이터에 포함된 오디오 신호를 인식하여 정보를 제공하기 위한 시스템으로서,

오디오 인식 기술을 사용하여, 상기 디지털 데이터에 포함된 오디오 신호로부터 BGM을 추출하고, 상기 추출된 BGM의 오디오 신호의 파형의 조밀도가 기설정된(predetermined) 값을 초과하는 부분의 시간대 정보를 획득하는 오디오 신호 분석부, 및

상기 획득된 시간대 정보를 제공하는 정보 제공부를 포함하는 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
제1항, 제3항, 제4항, 제11항 및 제12항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.