WO2015133782A1

WO2015133782A1 - 컨텐츠 분석 방법 및 디바이스

Info

Publication number: WO2015133782A1
Application number: PCT/KR2015/002014
Authority: WO
Inventors: 조남국; 이우정; 김상윤; 유영준; 고병섭
Original assignee: 삼성전자 주식회사
Priority date: 2014-03-03
Filing date: 2015-03-03
Publication date: 2015-09-11
Also published as: US10014008B2; KR101844516B1; KR20160110433A; US20160372139A1

Abstract

오디오 컨텐츠의 특징값을 추출하고, 상기 추출된 오디오 컨텐츠의 특징값에 기초하여, 상기 오디오 컨텐츠를 각 구간별로 분류하고, 상기 각 구간의 오디오 컨텐츠가 속한 종류에 기초하여, 상기 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행하는 오디오 컨텐츠를 분석하는 방법이 개시된다.

Description

컨텐츠 분석 방법 및 디바이스

본 발명은 컨텐츠를 분석하는 방법 및 디바이스에 대한 것이다.

멀티미디어 컨텐츠는 오디오 컨텐츠 및 비디오 컨텐츠를 포함할 수 있다. 디바이스는 오디오 컨텐츠를 분석함으로써 멀티미디어 컨텐츠를 분석하거나 내용을 요약할 수 있다.

오디오 컨텐츠를 분석하는 방법으로는 오디오 컨텐츠의 특징을 MFCC(Mel-Frequency Cepstral Coefficients) 등의 방법으로 추출하고, 음악 장르나 사운드 특성에 따라 분류하는 방법이 존재한다. 오디오 컨텐츠는 미리 설정된 클래스의 모델들과 서로 비교됨으로써 분류될 수 있다.

그러나, 기존 방법에 의하면, 1 스텝으로 오디오 컨텐츠가 분류될 수 있으므로, 오디오 컨텐츠의 특성에 따라 안정적인 성능을 내기 어렵다는 문제점이 있다.

본 발명은 컨텐츠를 분석하는 방법 및 디바이스에 관한 것으로, 오디오 컨텐츠를 구간별로 분류하고, 분류된 오디오 컨텐츠를 구간별로 선택적으로 분석하는 방법에 관한 것이다.

일 실시 예에 의하면, 컨텐츠 분석 시 각 구간에 대한 오디오 컨텐츠의 특징값에 따라 선택적으로 분석이 수행됨으로써, 컨텐츠 분석 성능을 향상시킬 수 있다.

도 1은 일 실시 예에 의한 컨텐츠를 분석하는 디바이스의 내부 구조를 나타낸 블록도이다.

도 2는 일 실시 예에 의한 AME(110)의 1차 분석부(200)의 내부 구성을 나타낸 블록도이다.

도 3은 일 실시 예에 의한 특징 추출부의 내부 구조를 나타낸 블록도이다.

도 4는 일 실시 예에 있어서, 2차 분석부(400)의 내부 구조를 나타낸 블록도이다.

도 5는 일 실시 예에 의한 컨텐츠 요약부의 내부 구조를 나타낸 블록도이다.

도 6은 일 실시 예에 의한 오디오 컨텐츠를 분석하는 방법을 나타낸 순서도이다.

도 7은 일 실시 예에 의한 오디오 컨텐츠의 토픽을 결정하는 방법을 나타낸 순서도이다.

도 8은 일 실시 예에 의한 스포츠 하이라이트 정보를 생성하는 방법을 나타낸 순서도이다.

도 9는 일 실시 예에 의한 스포츠 하이라이트 정보의 일 예를 나타낸 예시 도면이다.

도 10은 일 실시 예에 의한 컨텐츠의 시청 등급 정보를 생성하는 방법을 나타낸 순서도이다.

도 11 및 도 12는 일 실시 예에 의한 컨텐츠를 분석하는 디바이스의 내부 구조를 나타낸 블록도이다.

일 실시 예에 의한 오디오 컨텐츠를 분석하는 방법에 있어서, 상기 오디오 컨텐츠의 특징값을 추출하는 단계; 상기 추출된 오디오 컨텐츠의 특징값에 기초하여, 상기 오디오 컨텐츠를 각 구간별로 분류(classify)하는 단계; 상기 각 구간의 오디오 컨텐츠가 속한 종류(class)에 기초하여, 상기 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행하는 단계를 포함한다.

더하여, 상기 분류하는 단계는 상기 각 종류에 속하는 적어도 하나의 오디오 컨텐츠의 특징값에 관한 정보를 포함하는 데이터베이스를 이용하여, 상기 오디오 컨텐츠의 특징값과 상기 데이터베이스의 특징값을 비교함으로써 상기 오디오 컨텐츠를 분류하는 단계를 포함한다.

더하여, 상기 특징값을 추출하는 단계는 상기 오디오 컨텐츠를 적어도 하나의 기본 함수(elementary function)로 분해(decomposition)하는 단계; 상기 분해된 오디오 컨텐츠에 대하여, 상기 각 구간별로 상기 기본 함수 중 적어도 하나를 주요 기본 함수(dominant elementary function)로 선택하는 단계; 상기 선택된 주요 기본 함수를 이용하여, 상기 각 구간별로 기저 함수를 상기 오디오 컨텐츠의 특징값으로 추출하는 단계를 포함한다.

더하여, 상기 특징값을 추출하는 단계는 상기 오디오 컨텐츠의 소정 구간에서, 순간적인 특징(instantaneous feature) 값을 적어도 하나 추출하는 단계; 상기 소정 구간에 속하는 상기 적어도 하나의 순간적인 특징값으로부터 통계적 특징(Statistical feature) 값을 추출하는 단계를 포함한다.

더하여, 상기 분석을 수행하는 단계는 음성 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하는 단계; 상기 선택된 구간의 오디오 컨텐츠에 대하여 음성 인식 및 화자 인식(speaker recognition) 중 적어도 하나를 수행하는 단계를 포함한다.

더하여, 상기 분석을 수행하는 단계는 상기 음성 인식 또는 화자 인식된 결과를 이용하여, 소정 구간의 상기 오디오 컨텐츠에 대한 토픽을 결정하는 단계를 포함한다.

더하여, 상기 분석을 수행하는 단계는 환경 잡음 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하는 단계; 상기 선택된 구간 별로 상기 오디오 컨텐츠에 포함된 어쿠스틱 이벤트를 검출하는 단계를 포함한다.

더하여, 상기 분석을 수행하는 단계는 상기 선택된 구간과 대응되는 비디오 컨텐츠에 대하여 분석을 수행하는 단계; 상기 비디오 컨텐츠에 대한 분석 결과를 이용하여, 상기 오디오 컨텐츠에 대한 분석 결과를 보정하는 단계를 포함한다.

일 실시 예에 의한 디바이스는 오디오 컨텐츠를 수신하는 수신부; 상기 오디오 컨텐츠의 특징값을 추출하고, 상기 추출된 오디오 컨텐츠의 특징값에 기초하여, 상기 오디오 컨텐츠를 각 구간별로 분류(classify)하고, 상기 각 구간의 오디오 컨텐츠가 속한 종류(class)에 기초하여, 상기 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행하는 제어부를 포함한다.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.

일 실시 예에 의한 디바이스(100)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 디바이스(100)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다.

일 실시 예에 의한 디바이스(100)는 오디오 컨텐츠를 2단계로 분석할 수 있다. 1차 분석 단계에서, 디바이스(100)는 오디오 컨텐츠의 특성을 추출하고, 추출된 특성에 따라 구간별로 오디오 컨텐츠를 분류할 수 있다. 2차 분석 단계에서, 디바이스(100)는 분석하고자 하는 오디오 컨텐츠의 구간을 각 구간이 속한 클래스에 따라 선택하고, 선택된 오디오 컨텐츠 구간에 대하여 분석을 수행할 수 있다. 디바이스(100)는 분석 방법에 따라 오디오 컨텐츠 구간을 선택할 수 있다.

더하여, 디바이스(100)는 오디오 컨텐츠와 대응되는 비디오 컨텐츠에 대한 분석을 함께 수행할 수 있다. 디바이스(100)는 비디오 컨텐츠의 분석 결과와 오디오 컨텐츠의 분석결과를 서로 비교함으로써, 비디오 컨텐츠 및 오디오 컨텐츠를 포함하는 멀티 미디어 컨텐츠에 대한 분석 정보를 최종적으로 결정할 수 있다.

컨텐츠에 대한 분석 정보는 예를 들면, 각 구간별로 컨텐츠에 포함된 키워드 정보, 화자 정보, 미리 설정된 특징의 어쿠스틱 이벤트의 포함 여부에 관한 정보 등을 포함할 수 있다.

도 1을 참조하면, 디바이스(100)는 AME(Audio Mining Engine, 110), VME(Video Mining Engine, 120), 결정 모듈(130) 및 컨텐츠 요약부(140)를 포함할 수 있다.

AME(110) 및 VME(120)에서는 각각 오디오 컨텐츠 및 비디오 컨텐츠를 분석할 수 있다. AME(110)는 오디오 컨텐츠를 2단계로 분석하고, 오디오 컨텐츠에 대한 분석 정보를 출력할 수 있다. VME(120)는 비디오 컨텐츠에 대한 분석 정보를 출력할 수 있다.

결정 모듈(130)은 AME(110) 및 VME(120)에 의해 출력된 컨텐츠 분석 정보를 서로 비교하여, 컨텐츠에 대한 구간별 분석 정보를 최종적으로 결정할 수 있다. 예를 들면, 결정 모듈(120)은 VME(120)에 의해 출력된 컨텐츠 분석 정보를 이용하여 AME(110)에 의해 출력된 컨텐츠 분석 정보를 보정함으로써 멀티미디어 컨텐츠에 대한 구간별 분석 정보를 최종 결정할 수 있다. 컨텐츠의 구간별 분석 정보는 예를 들면, 소정 구간에 포함된 키워드 정보, 화자 정보, 미리 설정된 특징의 어쿠스틱 이벤트의 포함 여부에 관한 정보 등을 포함할 수 있으며, 이에 더하여 구간의 위치 정보로써 해당 구간의 시작 및 끝 지점에 관한 정보를 더 포함할 수 있다.

결정 모듈(130)은 실시간으로 입력된 컨텐츠에 대하여 분석을 지속적으로 수행함으로써 컨텐츠 분석 정보를 실시간으로 출력할 수 있다. 컨텐츠 요약부(140)는 최종적으로 결정된 컨텐츠의 분석 정보에 기초하여, 소정 구간의 컨텐츠에 대한 요약 정보, 토픽, 하이라이트 장면 정보, 등급 정보 등을 생성하여 출력할 수 있다. 컨텐츠 요약부(140)는 컨텐츠 분석 정보에 포함된 각 구간별로 포함된 키워드 정보, 화자 정보 등을 이용하여 컨텐츠에 대한 요약 정보, 등급 정보 등을 생성할 수 있다.

디바이스(100)는 실시간으로 시청중인 컨텐츠 또는 사용자에 의해 선택된 컨텐츠에 대한 컨텐츠 분석 정보 또는 요약 정보를 출력할 수 있다. 사용자는 디바이스(100)에 의해 출력된 컨텐츠 요약 정보를 보고, 현재 시청중이거나 사용자에 의해 선택된 컨텐츠의 요약, 핵심 주제 등을 파악할 수 있다. 따라서, 일 실시 예에 의한 컨텐츠 분석 방법에 따르면, 사용자는 컨텐츠 전체를 시청하지 않고도 컨텐츠에 대한 요약 및 주요 정보들을 확인할 수 있으므로, 사용자 편의가 증대될 수 있다.

디바이스(100)는 향후 검색을 위하여, 결정 모듈(130)에 의해 생성된 컨텐츠 분석 정보 및 컨텐츠 요약부(140)에 의해 생성된 요약 정보들을 저장 공간에 저장해둘 수 있다. 디바이스(100)는 컨텐츠 분석, 요약 정보들을 컨텐츠를 검색하는데 이용할 수 있다. 예를 들면, 디바이스(100)는 특정 키워드를 포함하는 컨텐츠를 미리 저장된 컨텐츠 분석, 요약 정보들을 이용하여 검색할 수 있다.

이하, 디바이스(100)의 각 구성요소들에 대하여, 도 2 내지 도 5에서 더 자세히 설명하기로 한다.

도 2는 일 실시 예에 의한 AME(110)의 1차 분석부(200)의 내부 구성을 나타낸 블록도이다. 도 2의 1차 분석부(200)는 도 1의 1차 분석부(111)와 대응된다.

1차 분석부(200)는 오디오 컨텐츠의 특징을 소정 구간별로 추출하고, 추출된 특징에 따라 각 구간별로 오디오 컨텐츠가 속한 클래스를 결정함으로써 오디오 컨텐츠를 분류할 수 있다. 1차 분석부(200)는 각 구간별로 결정된 오디오 컨텐츠의 클래스 정보를 출력할 수 있다.

도 2를 참조하면, 1차 분석부(200)는 신호 입력부(210), 음원 분리부(220), 특징 추출부(230), 분류부(240) 및 구간 분할부(250)를 포함할 수 있다.

신호 입력부(210)는 오디오 컨텐츠를 입력 받아 음원 분리부(source separation unit, 220)로 전달할 수 있다. 음원 분리부(220)는 입력된 오디오 컨텐츠를 음원 별로 분리할 수 있다. 오디오 컨텐츠는 음원 별로 다양한 사운드를 포함할 수 있으며, 예를 들면, 오디오 컨텐츠는 사람의 음성, 악기 소리, 경적 소리 등 다양한 사운드를 포함할 수 있다. 음원 분리부(220)는 선택적으로 오디오 컨텐츠의 음원 분리를 수행할 수 있으며, 1차 분석부(200)는 음원 분리부(220)에 의해 분리된 음원 별로 오디오 컨텐츠를 분류할 수 있다.

특징 추출부(230)는 오디오 컨텐츠의 특징을 추출할 수 있다. 음원 분리부(220)에 의해 음원별로 오디오 컨텐츠가 분리되어 있는 경우, 특징 추출부(230)는 음원별로 오디오 컨텐츠의 특징을 추출할 수 있다.

특징 추출부(230)는 순간적인 특징(instantaneous features)의 추출 및 통계적인 특징(statistical features)의 추출을 수행함으로써, 오디오 컨텐츠의 특징을 추출할 수 있다. 순간적인 특징의 추출은 오디오 컨텐츠의 아주 짧은 구간 동안에 대하여 수행될 수 있으며, 통계적인 특징의 추출은 일정량의 순간적인 특징으로부터 통계적인 값을 구함으로써 수행될 수 있다. 예를 들어, 통계적인 특징은 일정량의 순간적인 특징 값들의 평균(mean), 표준 편차(standard deviation), 비대칭도(skewness), 첨도(kurtosis), 1차/2차 미분(derivation) 등으로부터 추출될 수 있다.

특징 추출부(230)에 의해 오디오 컨텐츠의 순간적인 특징을 추출하는 방법은 2가지 방법을 이용하여 수행될 수 있다.

첫번째는, 오디오 컨텐츠의 직관적인 특징(perceptual features)을 추출함으로써 순간적인 특징을 추출하는 방법이다. 예를 들면, 직관적인 특징은 오디오 컨텐츠의 음향 신호에 대한 스펙트럴 중심(spectral centroid), 스펙트럴 편평도(spectral flatness), 스펙트럴 플럭스(spectral flux), 스펙트럴 롤오프(spectral rolloff), 제로 크로싱 율(zero crossing rate) 등을 포함할 수 있다. 디바이스(100)는 오디오 컨텐츠의 직관적인 특징들을 오디오 컨텐츠의 특징을 추출하는 방법 중 하나인 MFCC 방법과 함께 이용하여 오디오 컨텐츠의 특징을 추출할 수 있다.

두번째는, 오디오 컨텐츠의 고유 특성을 추출함으로써 순간적인 특징을 추출하는 방법이다. 두번째 방법에 의하면, 첫번째 방법과는 달리 오디오 컨텐츠 신호에 대한 기저 함수(basis function)을 구함으로써 오디오 컨텐츠의 특징이 추출될 수 있다. 두번째 방법에 대하여는 이하 도 3에서 더 자세히 설명하기로 한다.

특징 추출부(230)는 두가지 방법 중 하나만 이용하여 특징을 추출하거나, 첫번째 방법 및 두번째 방법을 혼합하여 오디오 컨텐츠의 특징을 추출할 수도 있다. 예를 들면, 특징 추출부(230)는 첫번째 방법에 의한 특징값과 두번째 방법에 의한 특징값을 서로 비교함으로써 최종적인 오디오 컨텐츠의 특징값을 추출할 수 있다.

특징 추출부(230)는 상술된 오디오 컨텐츠의 순간적인 특징을 추출하는 방법을 이용하여, 소정 구간에서 순간적인 특징들을 추출할 수 있고, 소정 구간에 대한 다수의 순간적인 특징들로부터 통계적인 특징을 추출할 수 있다. 특징 추출부(230)는 구간별로 획득된 오디오 컨텐츠의 통계적인 특징을 분류부(240)로 출력할 수 있다.

분류부(240)는 특징 추출부(230)에 의해 출력된 구간별 특징값에 따라서, 각 구간의 오디오 컨텐츠를 분류할 수 있다. 분류부(240)는 미리 설정된 크기의 단위 구간별로 오디오 컨텐츠를 분류할 수 있다.

예를 들면, 분류부(240)는 오디오 컨텐츠의 각 구간을 음성, 배경음(back ground music), 환경 잡음(environment noise) 등 3가지 중 하나로 분류할 수 있다. 화자(speaker)의 목소리를 포함하는 구간은 음성으로 분류될 수 있다. 악기, 음악 소리를 포함하는 구간은 배경음으로 분류될 수 있다. 소정의 환경에서 발생될 수 있는 소음들을 포함하거나, 음성 또는 배경음에 해당되지 않는 구간은 환경 잡음으로 분류될 수 있다. 음성, 배경음, 환경 잡음 등으로 분류될 수 있는 오디오 컨텐츠 특징값의 모델들이 데이터 베이스(260)에 미리 저장되어 있을 수 있다.

분류부(240)는 데이터 베이스(260)에 저장된 각각 음성, 배경음, 환경 잡음 등에 속하는 오디오 컨텐츠 특징값들을 특징 추출부(230)에 의해 추출된 특징값과 비교함으로써 오디오 컨텐츠를 구간별로 분류할 수 있다.

분류부(240)는 데이터 베이스(260)에 저장된 특징값과 특징 추출부(230)에 의해 추출된 특징값의 유사한 정도가 일정 수준 이상인 경우, 데이터 베이스(260)에 저장된 특징값이 속하는 클래스를 현재 구간의 오디오 컨텐츠의 클래스로 결정할 수 있다.

분류부(240)는 오디오 컨텐츠의 클래스를 결정한 후, 클래스 결정 시 이용한 오디오 컨텐츠의 특징값을 이용하여 데이터 베이스(260)에 저장된 오디오 컨텐츠 특징값들을 갱신할 수 있다. 분류부(240)는 현재 추출된 오디오 컨텐츠의 특징값을 특징값이 속하는 클래스와 관련시켜 데이터 베이스(260)에 저장할 수 있다.

상술된 음성, 배경음, 환경 잡음 등은 예시에 불과하며, 오디오 컨텐츠는 다양한 클래스로 분류될 수 있다.

구간 분할부(segmentation unit, 250)는 분류부(240)에 의해 분류된 각 구간의 오디오 컨텐츠에 대하여, 보다 긴 구간을 기준으로 오디오 컨텐츠에 대한 클래스를 재결정할 수 있다. 예를 들면, 구간 분할부(250)는 1~5초 단위의 구간별로 분류된 복수 개의 오디오 컨텐츠에 대하여, 10초 단위의 구간에서 하나의 클래스로 오디오 컨텐츠를 재분류할 수 있다. 10초 단위의 구간 중 1초 정도의 구간만 환경 잡음으로 분류되어 있고, 나머지 9초 정도의 구간이 음성으로 분류되어 있는 경우, 구간 분할부(250)는 환경 잡음으로 분류되어 있는 구간을 음성으로 재분류할 수 있다.

따라서, 보다 긴 구간에서 오디오 컨텐츠가 재분류됨으로써, 짧은 단위의 구간별로 오디오 컨텐츠가 분류됨에 따라 발생될 수 있는 오류가 수정될 수 있다. 상술된 긴 구간의 길이는 미리 설정된 값이거나 오디오 컨텐츠의 특징에 따라 가변적으로 결정될 수 있는 값일 수 있다.

또한, 구간 분할부(250)는 시작 지점 및 끝 지점에 해당되는 구간에 대한 오디오 컨텐츠의 클래스 정보를 출력할 수 있다. 클래스 정보는 시작 지점, 끝 지점, 레이블링 정보를 포함할 수 있다. 시작 지점 및 끝지점은 상술된 재분류된 긴 구간의 위치를 의미한다. 동일한 클래스로 분류되어 있는 연속된 컨텐츠 구간에 대한 클래스 정보는, 동일한 레이블링 정보가 연속적으로 존재하지 않도록 하나의 클래스 정보로 출력될 수 있다. 레이블링 정보는 오디오 컨텐츠가 속하는 클래스에 관한 정보로 예를 들면 음성, 배경음, 환경 잡음 중 하나의 값을 포함할 수 있다.

이하 도 3을 참조하여, 상술한 오디오 컨텐츠의 특징을 추출하는 방법 중 두번째 방법에 관하여 더 자세히 설명하기로 한다.

도 3에 도시된 특징 추출부(230)는 상술된 두번째 방법에 의한 오디오 컨텐츠의 고유 특성을 추출함으로써 순간적인 특징을 추출하는 방법에 따른 것이다. 두번째 방법에 의하면, 컨텐츠의 고유 특성인 기저함수가 순간적인 특징으로써 추출될 수 있다.

도 3을 참조하면, 특징 추출부(230)는 신호 분해부(231), 주요 기본 함수 선택부(232), 기저함수 생성부(233) 및 통계적 특징 결정부(234)를 포함할 수 있다.

신호 분해부(decomposition unit, 231)는 미리 설정된 기본 함수(elementary function)를 이용하여 오디오 컨텐츠 신호를 분해할 수 있다. 신호 분해부(231)는 희소 코딩(sparse coding) 방법을 이용하여 오디오 컨텐츠 신호를 분해할 수 있다. 분해 결과, 오디오 컨텐츠 신호는 적어도 하나의 기본 함수로 분해될 수 있다.

주요 기본 함수 선택부(232)는 신호 분해부(231)에 의해 분해된 오디오 컨텐츠 신호에 대하여 주요 기본 함수(dominant elementary function)를 결정할 수 있다. 주요 기본 함수 선택부(232)는 상술된 오디오 컨텐츠의 분해 결과인 적어도 하나의 기본 함수 중 적어도 하나를 주요 기본 함수로 선택할 수 있다.

기저 함수 생성부(233)는 주요 기본 함수로 선택된 기본 함수를 합성함으로써 기저 함수를 생성할 수 있다. 기저 함수는 오디오 컨텐츠의 순간적인 특징 값으로써 출력될 수 있다.

통계적 특성 결정부(234)는 다수의 오디오 컨텐츠의 순간적인 특징값으로부터 통계적인 특징을 출력할 수 있다. 통계적인 특징의 추출은 일정량의 순간적인 특징으로부터 통계적인 값을 구함으로써 수행될 수 있다.

이하 도 4를 참조하여 AME의 2차 분석 방법에 관하여 더 자세히 설명하기로 한다.

도 4는 일 실시 예에 있어서, 2차 분석부(400)의 내부 구조를 나타낸 블록도이다. 도 4의 2차 분석부(400)는 도 1의 2차 분석부(112)와 대응된다.

일 실시 예에 의한 2차 분석부(400)는 1차 분석부(111)에 의해 출력된 클래스 정보 및 오디오 컨텐츠를 이용하여 2차 분석을 수행할 수 있다. 2차 분석부(400)는 클래스 정보를 이용하여 분석하고자 하는 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간에 대한 2차 분석을 수행할 수 있다.

도 4를 참조하면, 2차 분석부(400)는 구간 선택부(410), 신호 분석부(420) 및 태깅부(430)를 포함할 수 있다.

구간 선택부(410)는 클래스 정보에 기초하여 분석하고자 하는 오디오 컨텐츠의 구간을 선택할 수 있다. 예를 들면, 키워드를 추출하여, 추출된 키워드에 기초하여 오디오 컨텐츠를 분석하고자 하는 경우, 키워드가 추출될 수 있는 음성 신호를 포함하는 오디오 컨텐츠 구간에 대하여 분석하는 것이 바람직하다. 따라서, 구간 선택부(410)는 음성으로 분류된 오디오 컨텐츠 구간을 선택할 수 있다.

신호 분석부(420)는 구간 선택부(410)에 의해 선택된 오디오 컨텐츠 구간에 대하여 분석을 수행할 수 있다. 예를 들면, 신호 분석부(420)는 선택된 구간에 대하여 음성 인식을 수행함으로써, 선택된 구간에 포함된 키워드를 추출할 수 있다. 추출된 키워드는 컨텐츠의 분석 정보로써 출력될 수 있다.

태깅부(430)는 신호 분석부(420)에 의해 출력된 분석 정보를 대응되는 오디오 컨텐츠의 구간에 대하여 태깅할 수 있다. 예를 들면, 태깅부(430)는 신호 분석부(420)에 의해 추출된 키워드 정보를 대응되는 오디오 컨텐츠 구간에 대한 분석 정보로써 출력할 수 있다.

이하 도 5를 참조하여, 태깅된 분석 정보를 이용하여 컨텐츠 요약을 수행하는 방법에 관하여 더 자세히 설명하기로 한다.

도 5는 일 실시 예에 의한 컨텐츠 요약부의 내부 구조를 나타낸 블록도이다. 도 5의 컨텐츠 요약부(500)는 도 1의 컨텐츠 요약부(140)와 대응된다.

컨텐츠 요약부(500)는 오디오 컨텐츠의 각 구간에 대하여 태깅된 적어도 하나의 분석 정보를 이용하여 오디오 컨텐츠에 대한 컨텐츠 정보를 생성하고 출력할 수 있다.

도 5를 참조하면, 컨텐츠 요약부(500)는 씬 검출부(510), 씬 분할부(520), 통계 획득부(530) 및 컨텐츠 정보 생성부(540)를 포함할 수 있다.

일 실시 예에 의한 씬은 하나의 공간에서 연속된 시간에 일어난 하나의 사건을 포함하는 구간으로, 씬은 문맥적인 의미에 따라서 분할될 수 있다.

씬 검출부(510)는 컨텐츠의 씬을 검출할 수 있다. 예를 들면, 씬 검출부(510)는 연속적인 두 프레임 간의 비디오 신호의 유사도에 기초하여 씬을 검출할 수 있다. 또한, 씬 검출부(510)는 오디오 신호로부터 무음성 구간을 검출함으로써 새로운 씬으로 전환됨을 검출할 수 있다. 씬 검출부(510)는 씬이 전환되는 지점인 장면 전환점을 결정함으로써 씬을 검출할 수 있다. 씬 검출부(510)는 멀티 미디어 컨텐츠의 경우, 오디오 컨텐츠 및 비디오 컨텐츠를 함께 고려하여 장면 전환점을 검출할 수 있다. 예를 들면, 씬 검출부(510)는 오디오 컨텐츠에 대하여 검출된 장면 전환점과 비디오 컨텐츠에 대하여 검출된 장면 전환점을 서로 비교함으로써, 최종적으로 멀티미디어 컨텐츠의 장면 전환점을 검출할 수 있다.

상술한 바와 같이 씬은 문맥적인 의미에 따라 분할될 수 있는 점에서 새로운 씬으로 전환되면 새로운 토픽이 시작될 가능성이 높다. 따라서, 컨텐츠 요약부(500)는 컨텐츠에 포함된 씬을 검출하고, 씬 단위의 컨텐츠 구간에 대하여 컨텐츠 요약을 수행할 수 있다.

씬 분할부(520)는 씬 검출의 결과 어떠한 장면(scene)에도 속하지 않는 고립 샷(isolated shot)을 앞 또는 뒤의 장면에 포함시킴으로써 최종 씬의 경계를 검출할 수 있다. 샷은 화면 전환 없이 한번에 촬영된 구간을 의미하며, 씬은 복수 개의 샷으로 구성될 수 있다. 예를 들면, 씬 분할부(520)는 고립 샷과 앞 또는 뒤의 장면에 속하는 샷들과의 유사도를 검출하고, 검출된 유사도에 따라 고립샷을 씬 검출부(510)에 의해 검출된 씬에 포함시킬 수 있다.

통계 획득부(530)는 씬 분할부(520)에 의해 최종적으로 결정된 씬 구간과 대응되는 컨텐츠 분석 정보들을 획득하고, 분석 정보들로부터 컨텐츠 요약 정보를 생성하기 위한 통계 정보를 구할 수 있다. 컨텐츠 분석 정보는 상술된 결정 모듈(130)에 의해 출력된 정보를 의미한다.

예를 들면, 통계 획득부(530)는 하나의 씬 구간과 대응될 수 있는 적어도 하나의 분석 정보에 포함된 키워드들을 획득하고, 각 키워드들의 빈도 수를 획득할 수 있다. 또한, 통계 획득부(530)는 하나 이상의 씬 구간에 대하여 획득된 키워드들이 예약어로 미리 등록된 단어에 해당되는지 판단하고, 각 예약어들의 빈도 수를 획득할 수 있다. 예약어로 미리 등록된 단어의 경우, 출현 빈도 수에 따라 결정될 수 있는 토픽에 관한 정보가 함께 존재할 수 있다.

컨텐츠 정보 생성부(540)는 통계 획득부(530)에 의한 통계 정보에 따라 컨텐츠 요약 정보를 생성할 수 있다. 예를 들면, 컨텐츠 정보 생성부(540)는 키워드 또는 예약어의 빈도 수에 따라 각 키워드 또는 예약어와 관련된 토픽을 최종적으로 결정할 수 있다.

예를 들어, 예약어로써 구름, 비, 눈, 해, 온도 등의 단어가 미리 등록되어 있고 이들과 관련된 토픽은 날씨 예보로 결정될 수 있도록 미리 설정되어 있는 것으로 가정한다. 하나 이상의 씬 구간에서의 구름, 비, 눈, 해, 온도 등의 단어가 다수 출현하는 경우, 컨텐츠 정보 생성부(540)는 토픽을 날씨 예보로 결정할 수 있다.

이하 도 6 내지 도 9를 참조하여, 컨텐츠를 분석하는 방법에 관하여 더 자세히 설명하기로 한다.

도 6을 참조하면, 단계 S601에서, 디바이스(100)는 분석하고자 하는 오디오 컨텐츠로부터 특징값을 추출할 수 있다. 디바이스(100)는 순간적인 특징값을 추출하고, 순간적인 특징값으로부터 소정 구간에 대한 통계적인 특징값을 추출함으로써 오디오 컨텐츠의 특징값을 추출할 수 있다.

단계 S603에서, 디바이스(100)는 단계 S601에서 추출된 오디오 컨텐츠의 특징값에 기초하여 오디오 컨텐츠를 각 구간별로 분류할 수 있다. 디바이스(100)는 데이터 베이스(260)에 저장된 오디오 컨텐츠의 특징값과 단계 S601에서 추출된 오디오 컨텐츠의 특징값을 비교함으로써 오디오 컨텐츠가 속하는 클래스를 결정할 수 있다. 클래스는, 오디오 컨텐츠의 특징값에 따라 결정될 수 있으며, 예를 들면, 오디오 컨텐츠는 음성, 배경음, 환경 잡음 중 하나의 클래스로 분류될 수 있다.

디바이스(100)는 데이터 베이스(260)에 저장된 값들 중 추출된 오디오 컨텐츠의 특징값과 가장 유사한 오디오 컨텐츠의 특징값을 구할 수 있다. 디바이스(100)는 가장 유사한 것으로 결정된 데이터 베이스(260)의 특징값이 속한 클래스를 현재 구간의 오디오 컨텐츠의 클래스로 결정할 수 있다.

디바이스(100)는 1차 분석의 결과, 각 구간의 오디오 컨텐츠의 클래스 정보를 출력할 수 있다. 클래스 정보는 각 구간의 위치 정보 및 각 구간이 속하는 클래스에 관한 정보를 포함할 수 있다.

단계 S605에서, 디바이스(100)는 각 구간의 오디오 컨텐츠가 속한 종류(class)에 기초하여 오디오 컨텐츠를 분석하기 위한 구간을 선택할 수 있다. 디바이스(100)는 2차 분석을 수행하기 위하여, 1차 분석의 결과 각 구간의 클래스 정보에 기초하여, 오디오 컨텐츠를 분석하기 위한 구간을 선택할 수 있다. 디바이스(100)는 컨텐츠를 분석하는 방법에 따라 구간을 선택할 수 있다. 예를 들어, 디바이스(100)는 컨텐츠로부터 키워드를 추출하고자 하는 경우, 음성 인식이 가능한 컨텐츠를 포함하는 음성 클래스에 속하는 컨텐츠 구간을 선택할 수 있다.

일 실시 예에 의한 디바이스(100)는 오디오 컨텐츠의 특성에 따라 선택적으로 분석을 수행함으로써 오디오 컨텐츠의 분석 성능을 향상시킬 수 있다. 키워드 추출을 위한 음성 인식 기술의 경우, 입력 신호가 음성 신호인 것을 전제로 알고리즘이 짜여있으므로, 음성 신호를 포함하는 오디오 컨텐츠에 대하여 음성 인식이 최적으로 수행될 수 있다. 또한, 일 실시 예에 의하면 음성이 포함되어 있지 않고, 환경 잡음이나 배경음만 포함되어 있는 오디오 컨텐츠에 대하여 불필요하게 음성 인식이 수행될 수 있는 경우가 최소화될 수 있다.

단계 S607에서, 디바이스(100)는 단계 S605에서 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행할 수 있다. 디바이스(100)는 선택된 구간의 오디오 컨텐츠에 대하여 2차 분석을 수행함으로써 컨텐츠 분석 정보를 생성할 수 있다. 디바이스(100)는 컨텐츠로부터 키워드를 추출하고자 하는 경우, 음성 클래스로 분류된 오디오 컨텐츠 구간에 대하여 음성 인식을 수행함으로써 키워드를 추출할 수 있다. 디바이스(100)는 음성 인식이 수행됨에 따라 오디오 컨텐츠에 포함된 단어 또는 문장을 검출할 수 있으며, 음성 인식된 결과로부터 미리 저장된 예약어 목록에 포함된 단어들을 추출함으로써 키워드를 추출할 수 있다.

한편, 디바이스(100)는 컨텐츠로부터 화자를 인식하고자 하는 경우, 음성 클래스로 분류된 오디오 컨텐츠 구간에 대하여 화자 인식을 수행할 수 있다.

이하 도 7 내지 도 10을 참조하여, 2차 분석에 있어서, 각 시나리오 별로 컨텐츠를 분석하는 방법에 관해 더 자세히 설명하기로 한다. 도 7 내지 도 10에 도시된 컨텐츠 분석 방법은 디바이스(100)의 2차 분석 방법에 관한 것으로 1차 분석은 이미 선행되어 있는 것으로 가정한다.

일 실시 예에 의한 2차 분석 방법으로, 토픽 결정 방법, 스포츠 하이라이트 정보 생성 방법 및 시청 등급 정보 생성 방법을 이하 도 7 내지 도 10에서 더 자세히 설명하기로 한다.

도 7을 참조하면, 단계 S701에서, 디바이스(100)는 오디오 컨텐츠는 음성을 포함하고 있는 오디오 컨텐츠 구간을 선택할 수 있다. 디바이스(100)는 1차 분석 결과 구간별로 결정된 클래스에 관한 정보를 이용하여 오디오 컨텐츠 구간을 선택할 수 있다. 디바이스(100)는 음성 구간에 대한 분석을 통해 오디오 컨텐츠의 토픽을 결정할 수 있으므로, 음성 클래스로 분류된 오디오 컨텐츠 구간을 선택할 수 있다.

단계 S703에서, 디바이스(100)는 단계 S701에서 선택된 구간의 오디오 컨텐츠에 대하여 음성 인식 및 화자 인식 중 적어도 하나를 수행할 수 있다. 음성 인식은 오디오 컨텐츠에 포함된 키워드를 인식하기 위한 것이며, 화자 인식은 오디오 컨텐츠에 포함된 음성의 화자를 인식하기 위한 것이다. 토픽은 인식된 키워드 및 화자에 기초하여 생성될 수 있다.

단계 S705에서, 디바이스(100)는 단계 S703의 음성 인식의 결과인 키워드 정보 및 화자 인식의 결과인 화자 인식 정보를 오디오 컨텐츠의 구간별로 태깅할 수 있다. 디바이스(100)는 오디오 컨텐츠의 각 구간에 대한 키워드 정보 및 화자 인식 정보를 오디오 컨텐츠에 태깅할 수 있다. 디바이스(100)는 VME(120)에 의해 결정된 컨텐츠 분석 정보를 이용하여 태깅하고자 하는 키워드 정보 및 화자 인식 정보를 포함하는 컨텐츠 분석 정보를 최종 결정할 수 있다. 디바이스(100)는 컨텐츠 구간의 시작 및 끝 시각 정보, 키워드 정보, 화자 인식 정보를 이용하여 태깅할 수 있다.

단계 S707에서, 디바이스(100)는 토픽 결정을 위하여 오디오 컨텐츠가 포함된 멀티 미디어 컨텐츠의 씬을 검출할 수 있다. 씬은 문맥적인 의미로 구분될 수 있는 점에서, 새로운 씬이 시작되는 지점에서는 새로운 토픽이 시작될 가능성이 높다. 따라서, 디바이스(100)는 씬을 검출하고, 씬 단위로 토픽을 결정할 수 있다.

단계 S709에서, 디바이스(100)는 단계 S707에서 검출된 씬의 소정 구간과 대응되는 컨텐츠에 대하여 태깅된 정보를 이용하여 키워드 및 인식된 화자에 대한 검출 빈도수를 획득할 수 있다. 그리고, 단계 S711에서, 단계 S709에서 검출된 빈도수에 기초하여 토픽을 최종 결정할 수 있다. 디바이스(100)는 소정 구간에서 검출된 사전 등록된 예약어들과 대응되는 토픽을 구할 수 있다. 또한, 디바이스(100)는 소정 구간에서의 인식된 화자 정보를 포함하는 토픽을 결정할 수 있다.

도 8에 도시된 스포츠 하이라이트 정보를 생성하는 방법에 의하면, 디바이스(100)는 스포츠 프로그램이 방영되고 있는 동안 지속적으로 스포츠 프로그램을 분석하여 컨텐츠 분석 정보를 생성할 수 있다. 그리고, 디바이스(100)는 사용자 입력에 따라 생성된 컨텐츠 분석 정보에 기초하여, 스포츠 하이라이트 정보를 생성할 수 있다. 사용자는 스포츠 프로그램을 시청하지 못하더라도, 디바이스(100)에 의해 생성된 스포츠 하이라이트 정보를 이용하여 해당 컨텐츠의 주요 장면들을 추후에 시청할 수 있다.

도 8을 참조하면, 단계 S801에서, 디바이스(100)는 음성을 포함하고 있는 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간에 대하여 흥분된 음성(excited speech)을 검출할 수 있다. 디바이스(100)는 흥분된 음성을 포함하는 오디오 컨텐츠 구간을 검출할 수 있다. 디바이스(100)는 1차 분석 결과 구간별로 결정된 클래스에 관한 정보를 이용하여 오디오 컨텐츠 구간을 선택할 수 있다.

스포츠 중계 중 극적인 장면이 연출되거나 득점이 이뤄지면, 아나운서는 흥분된 목소리로 발성할 수 있다. 따라서, 디바이스(100)는 극적인 장면 또는 득점 장면을 이용하여 스포츠 하이라이트 정보를 생성하기 위하여 음성 클래스로 분류된 오디오 컨텐츠로부터 흥분된 음성을 검출할 수 있다. 흥분된 음성은 목소리 크기가 현저히 크거나 높은 주파수를 가질 수 있다. 따라서, 흥분된 음성은 평상시의 음성과 비교해 볼 때 음성 신호적인 특징이 서로 다르다는 점을 이용하여 디바이스(100)는 흥분된 음성을 포함하는 오디오 컨텐츠 구간을 검출할 수 있다.

디바이스(100)는 음성을 포함하는 오디오 컨텐츠 구간 중에서 흥분된 음성을 포함하는 오디오 컨텐츠 구간을 검출하기 위하여, 흥분된 음성에 관한 특징 정보를 이용할 수 있다. 흥분된 음성에 관한 특징 정보는 다른 저장 공간에 미리 저장될 수 있다.

단계 S803에서, 디바이스(100)는 환경 잡음을 포함하고 있는 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간에 대하여 어쿠스틱 이벤트(acoustic event)를 검출할 수 있다. 어쿠스틱 이벤트는 음성이나 음악 이외의 사운드를 포함할 수 있으며, 극적인 장면 또는 득점 장면과 관련된 관중들의 함성소리(shouting), 휘슬 소리(whistle), 공 차는 소리(ball hit sound) 등을 포함할 수 있다. 디바이스(100)는 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간을 검출할 수 있다. 디바이스(100)는 1차 분석 결과 구간별로 결정된 클래스에 관한 정보를 이용하여 환경 잡음을 포함하는 오디오 컨텐츠 구간을 선택할 수 있다. 그리고, 디바이스(100)는 선택된 오디오 컨텐츠 구간 중 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간을 선택할 수 있다. 디바이스(100)는 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간을 이용하여 스포츠 하이라이트 정보를 생성할 수 있다.

디바이스(100)는 환경 잡음을 포함하는 오디오 컨텐츠 구간 중에서 미리 설정된 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간을 검출하기 위하여, 어쿠스틱 이벤트에 관한 특징 정보를 이용할 수 있다. 어쿠스틱 이벤트에 관한 특징 정보는 다른 저장 공간에 미리 저장될 수 있다.

단계 S805에서, 디바이스(100)는 단계 S801 및 S803에서 검출된 흥분된 음성 및 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간에 대하여 태깅을 수행할 수 있다. 태깅될 수 있는 정보는 오디오 컨텐츠 구간의 시작 및 끝 시각 정보, 흥분된 음성 및 어쿠스틱 이벤트에 관한 정보를 포함할 수 있다.

디바이스(100)는 태깅된 정보를 이용하여 흥분된 음성 및 어쿠스틱 이벤트 중 적어도 하나를 포함하는 컨텐츠 구간을 이용하여 스포츠 하이라이트 정보를 생성할 수 있다. 예를 들면, 디바이스(100)는 흥분된 음성 및 어쿠스틱 이벤트 중 적어도 하나를 포함하는 컨텐츠 구간을 포함하는 클립 영상을 생성함으로써 스포츠 하이라이트 정보를 생성할 수 있다.

도 9의 900을 참조하면, 스포츠 하이라이트 장면들(911, 912)이 도시되어 있다. 스포츠 하이라이트 장면은, 흥분된 음성 및 어쿠스틱 이벤트 중 적어도 하나를 포함하는 컨텐츠 구간을 기준으로 생성될 수 있다.

도 10에 도시된 컨텐츠 시청 등급 정보를 생성하는 방법에 의하면, 디바이스(100)는 현재 시청 중이거나 시청 가능한 컨텐츠에 대한 선정성 또는 폭력성 정도에 대한 정보를 포함하는 시청 등급 정보를 생성할 수 있다. 사용자는 컨텐츠의 시청 등급 정보를 참조하여, 해당 컨텐츠의 선정성 또는 폭력성 정도를 확인할 수 있다.

도 10을 참조하면, 단계 S1001에서, 디바이스(100)는 음성을 포함하고 있는 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간으로부터 음성 인식을 수행함으로써 비속어를 검출할 수 있다. 디바이스(100)는 미리 저장된 비속어에 관한 정보를 이용하여 선택된 오디오 컨텐츠 구간에 포함된 비속어를 검출할 수 있다.

단계 S1003에서, 디바이스(100)는 환경 잡음을 포함하고 있는 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간으로부터 어쿠스틱 이벤트를 검출할 수 있다. 어쿠스틱 이벤트는 음성이나 음악 이외의 사운드를 포함할 수 있으며, 선정성 및 폭력성과 관련된 총소리(gun shot), 폭탄 소리(bombing), 비명소리(scream) 등을 포함할 수 있다.

단계 S1005에서, 디바이스(100)는 단계 S1001 및 S1003에서 검출된 비속어 및 어쿠스틱 이벤트를 포함하는 오디오 컨텐츠 구간에 대하여 태깅을 수행할 수 있다. 태깅될 수 있는 정보는 오디오 컨텐츠 구간의 시작 및 끝 시각 정보, 비속어 및 어쿠스틱 이벤트에 관한 정보를 포함할 수 있다. 디바이스(100)는 태깅된 정보를 이용하여 비속어 및 어쿠스틱 이벤트 중 적어도 하나를 포함하는 컨텐츠 구간을 이용하여 시청 등급 정보를 생성할 수 있다.

단계 S1007에서, 디바이스(100)는 시청 등급 정보 생성을 위해 오디오 컨텐츠가 포함된 멀티 미디어 컨텐츠의 씬을 검출할 수 있다. 씬은 문맥적인 의미로 구분될 수 있는 점에서, 새로운 씬이 시작되는 지점에서는 새로운 내용이 시작될 가능성이 높다. 따라서, 디바이스(100)는 씬을 검출하고, 씬 단위로 시청 등급 정보를 생성할 수 있다.

단계 S1009에서, 디바이스(100)는 단계 S1007에서 검출된 씬의 소정 구간과 대응되는 컨텐츠에 대하여 태깅된 정보를 이용하여 비속어 및 어쿠스틱 이벤트의 검출 빈도수를 획득할 수 있다. 디바이스(100)는 비속어 및 어쿠스틱 이벤트의 검출 빈도수에 대한 통계를 구할 수 있다.

단계 S1011에서, 단계 S709에서 검출된 빈도수에 기초하여 시청 등급 정보를 생성할 수 있다. 디바이스(100)는 비속어 및 어쿠스틱 이벤트가 검출된 구간은 선정성 구간 또는 폭력성 구간으로 결정할 수 있다. 디바이스(100)는 각각의 비속어 및 어쿠스틱 이벤트에 대하여 선정성 또는 폭력성 정도에 미치는 가중치를 다르게 둘 수 있다. 디바이스(100)는 각각의 비속어 및 어쿠스틱 이벤트의 검출 횟수 및 가중치에 따라 각 구간의 선정성 또는 폭력성 정도를 결정할 수 있다. 가중치는 미리 결정되어 있는 값일 수 있다.

디바이스(100)는 컨텐츠 전체 또는 상당 구간에 대한 선정성 구간 또는 폭력성 구간이 차지하는 비율과, 각 구간의 선정성 또는 폭력성 정도를 구함으로써 시청 등급 정보를 생성할 수 있다. 디바이스(100)는 2차원 공간에서 x축을 선정성 정도, y축을 폭력성 정도로 두어, 컨텐츠의 선정성 또는 폭력성 구간의 선정성 또는 폭력성 정도를 나타내는 시청 등급 정보를 생성할 수 있다.

이하 도 11 및 도 12를 참조하여, 컨텐츠를 분석하는 디바이스에 관하여 더 자세히 설명하기로 한다.

도 11은 일 실시 예에 의한 컨텐츠를 분석하는 디바이스의 내부 구조를 나타낸 블록도이다.

도 11을 참조하면, 디바이스(1100)는 수신부(1110) 및 제어부(1120)를 포함할 수 있다. 도 11의 디바이스(1100)는 도 1의 디바이스(100)와 대응될 수 있다.

수신부(1110)는 분석하고자 하는 컨텐츠를 수신할 수 있다. 더하여, 수신부(1110)는 컨텐츠 분석 시 이용될 수 있는 클래스별 오디오 컨텐츠의 특징값들, 키워드 추출을 위한 예약어 정보 등을 획득할 수 있다.

제어부(1120)는 수신부(1110)에 의해 수신된 컨텐츠에 대하여 분석을 수행할 수 있다. 제어부(1120)는 수신된 오디오 컨텐츠의 특징값을 추출하고, 추출된 특징값에 기초하여 오디오 컨텐츠를 각 구간별로 분류할 수 있다. 그리고, 제어부(1120)는 각 구간의 오디오 컨텐츠가 속한 종류에 기초하여, 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행할 수 있다.

제어부(1120)는 오디오 컨텐츠로부터 키워드 추출을 하는 경우, 음성 클래스로 분류된 오디오 컨텐츠 구간을 선택하고, 선택된 오디오 컨텐츠 구간에 대하여 음성 인식 및 화자 인식을 수행함으로써 컨텐츠를 분석할 수 있다.

도 12는 일 실시 예에 의한 디바이스(1200)의 내부 구조를 나타낸 블록도이다.

도 12에 도시된 바와 같이 디바이스(1200)는, 예를 들어, 휴대폰, 스마트폰, 태블릿 PC, PDA, MP3 플레이어, 키오스크, 전자 액자, 네비게이션 장치, 디지털 TV, 스마트 TV, 손목 시계(Wrist watch) 또는 HMD(Head-Mounted Display)와 같은 웨어러블 기기(Wearable device) 등과 같은 사용자가 사용할 수 있는 다양한 유형의 장치를 포함할 수 있다.

디바이스(1200)는 상술된 도 1 및 도 11의 디바이스(100, 1100)와 대응될 수 있으며, 수신된 오디오 컨텐츠를 분석하고, 컨텐츠 요약 정보를 출력할 수 있다.

예를 들어, 도 12에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1200)는, 디스플레이부(1210), 제어부(1270), 메모리(1220), GPS 칩(1225), 통신부(1230), 비디오 프로세서(1235), 오디오 프로세서(1240), 사용자 입력부(1245), 마이크부(1250), 촬상부(1255), 스피커부(1260) 및 움직임 감지부(1265) 등을 포함할 수 있다.

이하 상기 구성요소들에 대해 차례로 살펴본다.

디스플레이부(1210)는 표시패널(1211) 및 표시 패널(1211)을 제어하는 컨트롤러(미도시)를 포함할 수 있다. 표시패널(1211)에는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, AM-OLED(Active-Matrix Organic Light-Emitting Diode), PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 표시패널(1211)은 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 디스플레이부(1210)는 사용자 입력부(1245)의 터치 패널(1247)과 결합되어 터치 스크린으로 제공될 수 있다. 예를 들어, 터치 스크린은 표시 패널(1211)과 터치 패널(1247)이 적층 구조로 결합된 일체형의 모듈을 포함할 수 있다.

일부 실시 예에 의한 디스플레이부(1210)는 제어부(1270)의 제어에 따라 오디오 컨텐츠를 분석한 결과 및 오디오 컨텐츠의 요약 정보를 표시할 수 있다.

메모리(1220)는 내장 메모리(Internal Memory)(미도시) 및 외장 메모리(External Memory)(미도시) 중 적어도 하나를 포함할 수 있다.

내장 메모리는, 예를 들어, 휘발성 메모리(예를 들면, DRAM(Dynamic RAM), SRAM(Static RAM), SDRAM(Synchronous Dynamic RAM) 등), 비휘발성 메모리(예를 들면, OTPROM(One Time Programmable ROM), PROM(Programmable ROM), EPROM(Erasable and Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), Mask ROM, Flash ROM 등), 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다. 일 실시 예에 따르면, 제어부(1270)는 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한, 제어부(1270)는 다른 구성요소로부터 수신하거나 생성된 데이터를 비휘발성 메모리에 보존할 수 있다.

외장 메모리는, 예를 들면, CF(Compact Flash), SD(Secure Digital), Micro-SD(Micro Secure Digital), Mini-SD(Mini Secure Digital), xD(extreme Digital) 및 Memory Stick 중 적어도 하나를 포함할 수 있다.

메모리(1220)는 디바이스(1200)의 동작에 사용되는 각종 프로그램 및 데이터를 저장할 수 있다. 예를 들어, 메모리(1220)는 각 클래스에 속하는 오디오 컨텐츠의 특징값들, 예약어, 흥분된 음성의 특징 정보 및 어쿠스틱 이벤트의 특징 정보 중 적어도 하나를 임시 또는 반영구적으로 저장할 수 있다.

제어부(1270)는 메모리(1220)에 저장된 정보의 일부가 디스플레이부(1210)에 표시되도록 디스플레이부(1210)를 제어할 수 있다. 다시 말하자면, 제어부(1270)는 메모리(1220)에 멀티미디어 컨텐츠 및 컨텐츠 요약 정보를 디스플레이부(1210)에 표시할 수 있다. 또는, 제어부(1270)는 디스플레이부(1210)의 일 영역에서 사용자 제스처가 이루어지면, 사용자의 제스처에 대응되는 제어 동작을 수행할 수 있다.

제어부(1270)는 RAM(1271), ROM(1272), CPU(1273), GPU(Graphic Processing Unit)(1274) 및 버스(1275) 중 적어도 하나를 포함 할 수 있다. RAM(1271), ROM(1272), CPU(1273) 및 GPU(1274) 등은 버스(1275)를 통해 서로 연결될 수 있다.

CPU(1273)는 메모리(1220)에 액세스하여, 메모리(1220)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메모리(1220)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

ROM(1272)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 예로, 디바이스(1200)는 턴온 명령이 입력되어 전원이 공급되면, CPU(1273)가 ROM(1272)에 저장된 명령어에 따라 메모리(1220)에 저장된 O/S를 RAM(1271)에 복사하고, O/S를 실행시켜 시스템을 부팅시킬 수 있다. 부팅이 완료되면, CPU(1273)는 메모리(1220)에 저장된 각종 프로그램을 RAM(1271)에 복사하고, RAM(1271)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다. GPU(1274)는 사용자 디바이스(1200)의 부팅이 완료되면, 디스플레이부(1210)의 영역에 UI 화면을 디스플레이한다. 구체적으로는, GPU(1274)는 컨텐츠, 아이콘, 메뉴 등과 같은 다양한 객체를 포함하는 전자문서가 표시된 화면을 생성할 수 있다. GPU(1274)는 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성 값을 연산한다. 그리고, GPU(1274)는 연산된 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성할 수 있다. GPU(1274)에서 생성된 화면은 디스플레이부(1210)로 제공되어, 디스플레이부(1210)의 각 영역에 각각 표시될 수 있다.

GPS 칩(1225)은 GPS(Grobal Positioning System) 위성으로부터 GPS 신호를 수신하여, 디바이스(1200)의 현재 위치를 산출할 수 있다. 제어부(1270)는 네비게이션 프로그램을 이용할 때나 그 밖에 사용자의 현재 위치가 필요할 경우에, GPS 칩(1225)을 이용하여 사용자 위치를 산출할 수 있다.

통신부(1230)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행할 수 있다. 통신부(1230)는 와이파이칩(1231), 블루투스 칩(1232), 무선 통신 칩(1233), NFC 칩(1234) 중 적어도 하나를 포함할 수 있다. 제어부(1270)는 통신부(1230)를 이용하여 각종 외부 기기와 통신을 수행할 수 있다. 예를 들면, 제어부(1270)는 통신부(1230)를 통해 제어 신호를 외부 기기로부터 수신하고, 제어 신호에 따른 결과를 외부 기기로 전송할 수 있다.

와이파이 칩(1231), 블루투스 칩(1232)은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행할 수 있다. 와이파이 칩(1231)이나 블루투스 칩(1232)을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩(1233)은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. NFC 칩(1234)은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다.

비디오 프로세서(1235)는 통신부(1230)를 통해 수신된 멀티미디어 컨텐츠 또는, 메모리(1220)에 저장된 멀티미디어 컨텐츠에 포함된 비디오 컨텐츠를 처리할 수 있다. 비디오 프로세서(1235)에서는 비디오 컨텐츠에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.

오디오 프로세서(1240)는 통신부(1230)를 통해 수신된 멀티미디어 컨텐츠 또는, 메모리(1220)에 저장된 멀티미디어 컨텐츠에 포함된 오디오 컨텐츠를 처리할 수 있다. 오디오 프로세서(1240)는 오디오 컨텐츠를 재생하거나 분석을 수행하기 위하여 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리를 수행할 수 있다.

제어부(1270)는 멀티미디어 컨텐츠에 대한 재생 프로그램이 실행되면 비디오 프로세서(1235) 및 오디오 프로세서(1240)를 구동시켜, 멀티미디어 컨텐츠를 재생할 수 있다. 스피커부(1260)는 오디오 프로세서(1240)에서 생성한 오디오 컨텐츠를 출력할 수 있다.

사용자 입력부(1245)는 사용자로부터 다양한 명령어를 입력 받을 수 있다. 사용자 입력부(1245)는 키(1246), 터치 패널(1247) 및 펜 인식 패널(1248) 중 적어도 하나를 포함할 수 있다. 디바이스(1200)는 키(1246), 터치 패널(1247) 및 펜 인식 패널(1248) 중 적어도 하나로부터 수신된 사용자 입력에 따라서 다양한 컨텐츠 또는 사용자 인터페이스를 표시할 수 있다.

키(1246)는 디바이스(1200)의 본체 외관의 전면부나 측면부, 배면부 등의 다양한 영역에 형성된 기계적 버튼, 휠 등과 같은 다양한 유형의 키를 포함할 수 있다.

터치 패널(1247)은 사용자의 터치 입력을 감지하고, 감지된 터치 신호에 해당하는 터치 이벤트 값을 출력할 수 있다. 터치 패널(1247)이 표시 패널(1211)과 결합하여 터치 스크린(미도시)을 구성한 경우, 터치 스크린은 정전식이나, 감압식, 압전식 등과 같은 다양한 유형의 터치 센서로 구현될 수 있다. 정전식은 터치 스크린 표면에 코팅된 유전체를 이용하여, 사용자의 신체 일부가 터치 스크린 표면에 터치되었을 때 사용자의 인체로 야기되는 미세 전기를 감지하여 터치 좌표를 산출하는 방식이다. 감압식은 터치 스크린에 내장된 두 개의 전극 판을 포함하여, 사용자가 화면을 터치하였을 경우, 터치된 지점의 상하 판이 접촉되어 전류가 흐르게 되는 것을 감지하여 터치 좌표를 산출하는 방식이다. 터치 스크린에서 발생하는 터치 이벤트는 주로 사람의 손가락에 의하여 생성될 수 있으나, 정전 용량 변화를 가할 수 있는 전도성 재질의 물체에 의해서도 생성될 수 있다.

펜 인식 패널(1248)은 사용자의 터치용 펜(예컨대, 스타일러스 펜(stylus pen), 디지타이저 펜(digitizer pen))의 운용에 따른 펜의 근접 입력 또는 터치 입력을 감지하고 감지된 펜 근접 이벤트 또는 펜 터치 이벤트를 출력할 수 있다. 펜 인식 패널(1248)은, 예로, EMR 방식으로 구현될 수 있으며, 펜의 근접 또는 터치에 의한 전자기장의 세기 변화에 따라 터치 또는 근접 입력을 감지할 수 있다. 상세하게는 펜 인식 패널(1248)은 그리드 구조를 가지는 전자 유도 코일 센서(미도시)와 전자 유도 코일 센서의 각 루프 코일에 순차적으로 소정의 주파수를 가지는 교류 신호를 제공하는 전자 신호 처리부(미도시)를 포함하여 구성될 수 있다. 이러한 펜 인식 패널(1248)의 루프 코일 근방에 공진회로를 내장하는 펜이 존재하면, 해당 루프 코일로부터 송신되는 자계가 펜 내의 공진회로에 상호 전자 유도에 기초한 전류를 발생시킨다. 이 전류를 기초로 하여, 펜 내의 공진 회로를 구성하는 코일로부터 유도 자계가 발생하게 되고, 펜 인식 패널(1248)은 이 유도 자계를 신호 수신 상태에 있는 루프 코일에서 검출하게 되어 펜의 접근 위치 또는 터치 위치가 감지될 수 있다. 펜 인식 패널(1248)은 표시 패널(1211)의 하부에 일정 면적, 예를 들어, 표시 패널(1211)의 표시 영역을 커버할 수 있는 면적을 가지고 마련될 수 있다.

마이크부(1250)는 사용자 음성이나 기타 소리를 입력 받아 오디오 데이터로 변환할 수 있다. 제어부(1270)는 마이크 부(1250)를 통해 입력되는 사용자 음성을 통화 동작에서 이용하거나, 오디오 데이터로 변환하여 메모리(1220)에 저장할 수 있다.

촬상부(1255)는 사용자의 제어에 따라 정지 영상 또는 동영상을 촬상할 수 있다. 촬상부(1255)는 전면 카메라, 후면 카메라와 같이 복수 개로 구현될 수도 있다.

촬상부(1255) 및 마이크부(1250)가 마련된 경우, 제어부(1270)는 마이크부(1250)를 통해 입력되는 사용자 음성이나 촬상부(1255)에 의해 인식되는 사용자 모션에 따라 제어 동작을 수행할 수도 있다. 예컨대, 디바이스(1200)는 모션 제어 모드나 음성 제어 모드로 동작할 수 있다. 모션 제어 모드로 동작하는 경우, 제어부(1270)는 촬상부(1255)를 활성화시켜 사용자를 촬상하고, 사용자의 모션 변화를 추적하여 그에 대응되는 제어 동작을 수행할 수 있다. 예를 들면, 제어부(1270)는 촬상부(1255)에 의해 감지된 사용자의 모션 입력에 따라 현재 시청 중인 컨텐츠의 요약 정보를 생성하여 출력할 수 있다. 음성 제어 모드로 동작하는 경우 제어부(1270)는 마이크부(1250)를 통해 입력된 사용자 음성을 분석하고, 분석된 사용자 음성에 따라 제어 동작을 수행하는 음성 인식 모드로 동작할 수 있다.

움직임 감지부(1265)는 사용자 디바이스(1200)의 본체 움직임을 감지할 수 있다. 사용자 디바이스(1200)는 다양한 방향으로 회전되거나 기울어질 수 있다. 이 때, 움직임 감지부(1265)는 지자기 센서, 자이로 센서, 가속도 센서 등과 같은 다양한 센서들 중 적어도 하나를 이용하여 회전 방향 및 각도, 기울기 등과 같은 움직임 특성을 감지할 수 있다. 예를 들면, 움직임 감지부(1265)는 디바이스(1200)의 본체 움직임을 감지함으로써 사용자 입력을 수신하고, 수신된 입력에 따라 제어 동작을 수행할 수 있다.

그 밖에, 도 34에 도시하지는 않았으나, 실시예에는, 사용자 디바이스(1200) 내에 USB 커넥터가 연결될 수 있는 USB 포트나, 헤드셋, 마우스, LAN 등과 같은 다양한 외부 단자와 연결하기 위한 다양한 외부 입력 포트, DMB(Digital Multimedia Broadcasting) 신호를 수신하여 처리하는 DMB 칩, 다양한 센서 등을 더 포함할 수 있다.

전술한 디바이스(1200)의 구성 요소들의 명칭은 달라질 수 있다. 또한, 본 개시에 따른 디바이스(1200)는 전술한 구성요소들 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다.

일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

Claims

오디오 컨텐츠를 분석하는 방법에 있어서,

상기 오디오 컨텐츠의 특징값을 추출하는 단계;

상기 추출된 오디오 컨텐츠의 특징값에 기초하여, 상기 오디오 컨텐츠를 각 구간별로 분류(classify)하는 단계;

상기 각 구간의 오디오 컨텐츠가 속한 종류(class)에 기초하여, 상기 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 분류하는 단계는

상기 각 종류에 속하는 적어도 하나의 오디오 컨텐츠의 특징값에 관한 정보를 포함하는 데이터베이스를 이용하여, 상기 오디오 컨텐츠의 특징값과 상기 데이터베이스의 특징값을 비교함으로써 상기 오디오 컨텐츠를 분류하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 특징값을 추출하는 단계는

상기 오디오 컨텐츠를 적어도 하나의 기본 함수(elementary function)로 분해(decomposition)하는 단계;

상기 분해된 오디오 컨텐츠에 대하여, 상기 각 구간별로 상기 기본 함수 중 적어도 하나를 주요 기본 함수(dominant elementary function)로 선택하는 단계;

상기 선택된 주요 기본 함수를 이용하여, 상기 각 구간별로 기저 함수를 상기 오디오 컨텐츠의 특징값으로 추출하는 단계를 포함하는 방법.
제1항에 있어서, 상기 특징값을 추출하는 단계는

상기 오디오 컨텐츠의 소정 구간에서, 순간적인 특징(instantaneous feature) 값을 적어도 하나 추출하는 단계;

상기 소정 구간에 속하는 상기 적어도 하나의 순간적인 특징값으로부터 통계적 특징(Statistical feature) 값을 추출하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 분석을 수행하는 단계는

음성 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하는 단계;

상기 선택된 구간의 오디오 컨텐츠에 대하여 음성 인식 및 화자 인식(speaker recognition) 중 적어도 하나를 수행하는 단계를 포함하는, 방법.
제5항에 있어서, 상기 분석을 수행하는 단계는

상기 음성 인식 또는 화자 인식된 결과를 이용하여, 소정 구간의 상기 오디오 컨텐츠에 대한 토픽을 결정하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 분석을 수행하는 단계는

환경 잡음 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하는 단계;

상기 선택된 구간 별로 상기 오디오 컨텐츠에 포함된 어쿠스틱 이벤트를 검출하는 단계를 포함하는 방법.
제1항에 있어서, 상기 분석을 수행하는 단계는

상기 선택된 구간과 대응되는 비디오 컨텐츠에 대하여 분석을 수행하는 단계;

상기 비디오 컨텐츠에 대한 분석 결과를 이용하여, 상기 오디오 컨텐츠에 대한 분석 결과를 보정하는 단계를 포함하는, 방법.
오디오 컨텐츠를 수신하는 수신부;

상기 오디오 컨텐츠의 특징값을 추출하고, 상기 추출된 오디오 컨텐츠의 특징값에 기초하여, 상기 오디오 컨텐츠를 각 구간별로 분류(classify)하고, 상기 각 구간의 오디오 컨텐츠가 속한 종류(class)에 기초하여, 상기 오디오 컨텐츠를 분석하기 위한 구간을 적어도 하나 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 분석을 수행하는 제어부를 포함하는, 디바이스.
제9항에 있어서, 상기 제어부는

상기 각 종류에 속하는 적어도 하나의 오디오 컨텐츠의 특징값에 관한 정보를 포함하는 데이터베이스를 이용하여, 상기 오디오 컨텐츠의 특징값과 상기 데이터베이스의 특징값을 비교함으로써 상기 오디오 컨텐츠를 분류하는, 디바이스.
제9항에 있어서, 상기 제어부는

상기 오디오 컨텐츠를 적어도 하나의 기본 함수(elementary function)로 분해(decomposition)하고, 상기 분해된 오디오 컨텐츠에 대하여, 상기 각 구간별로 상기 기본 함수 중 적어도 하나를 주요 기본 함수(dominant elementary function)로 선택하고, 상기 선택된 주요 기본 함수를 이용하여, 상기 각 구간별로 기저 함수를 추출하는, 디바이스.
제9항에 있어서, 상기 제어부는

상기 오디오 컨텐츠의 소정 구간에서, 순간적인 특징값을 적어도 하나 추출하고, 상기 소정 구간에 속하는 상기 적어도 하나의 순간적인 특징값으로부터 통계적 특징값을 추출하는, 디바이스.
제9항에 있어서, 상기 제어부는

음성 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하고, 상기 선택된 구간의 오디오 컨텐츠에 대하여 음성 인식 및 화자 인식(speaker recognition) 중 적어도 하나를 수행하는, 디바이스.
제13항에 있어서, 상기 제어부는

상기 음성 인식 또는 화자 인식된 결과를 이용하여, 소정 구간의 상기 오디오 컨텐츠에 대한 토픽을 결정하는, 디바이스.
제9항에 있어서, 상기 제어부는

환경 잡음 클래스에 속하는 상기 오디오 컨텐츠의 구간을 선택하고, 상기 선택된 구간 별로 상기 오디오 컨텐츠에 포함된 어쿠스틱 이벤트를 검출하는, 디바이스.