KR20090038475A

KR20090038475A - 감정 검출 방법, 감정 검출 장치, 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체

Info

Publication number: KR20090038475A
Application number: KR1020097004066A
Authority: KR
Inventors: 고 이리에; 고타 히다카; 다카시 사토; 유키노부 다니구치; 신야 나카지마
Original assignee: 니뽄 덴신 덴와 가부시키가이샤
Priority date: 2006-09-13
Filing date: 2007-09-13
Publication date: 2009-04-20
Also published as: US20090265170A1; EP2063416A1; JPWO2008032787A1; JP5039045B2; KR101029786B1; EP2063416A4; US8386257B2; CN101506874A; WO2008032787A1; CN101506874B; EP2063416B1

Abstract

음성 신호 데이터로부터 분석 프레임마다 음성 특징량을 추출하여, 이 음성 특징량을 기억부에 기억시킨다(S120). 그 다음에, 상기 음성 특징량을 기억부로부터 독출하고, 미리 입력된 학습용 음성 신호 데이터에 기초하여 구성된 하나 이상의 통계 모델을 사용하여, 상기 감정적 상태에 대응하는 상기 음성 특징량의 감정적 상태 확률을 계산한다(S130, S140, S150). 그리고 상기 계산된 감정적 상태 확률에 기초하여, 상기 분석 프레임을 포함하는 구간의 감정적 상태를 판정한다(S160).

음성 신호 데이터, 분석 프레임, 음성 특징량, 기억부, 통계 모델, 감정적 상태, 감정적 상태 확률, 음성 특징량 출현 확률

Description

감정 검출 방법, 감정 검출 장치, 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체{FEELING DETECTION METHOD, FEELING DETECTION DEVICE, FEELING DETECTION PROGRAM CONTAINING THE METHOD, AND RECORDING MEDIUM CONTAINING THE PROGRAM}

본 발명은 음성 신호 데이터에 기초하는 감정 검출 기술에 관한 것이다.

현재, 멀티미디어 컨텐츠의 증가에 수반하여, 단시간에서의 시청을 가능하게 하는 컨텐츠 요약 기술이 시장에서 요구되고 있다. 또, 컨텐츠의 종류도, 예를 들어 영화, 드라마, 홈 비디오, 뉴스, 다큐멘터리, 음악 컨텐츠 등 다양화하고 있고, 그에 따라 시청자의 시청 요구도 다양화하고 있다.

그 시청 요구의 다양화에 수반하여, 시청자의 시청 요구에 대해서, 보고 싶은 영상, 신(scene)을 즉시 검색, 제시하기 위한 기술이 요구되고 있다. 그 기술에 관하여, 예를 들어 시청 컨텐츠에 포함되는 음성 신호 데이터에 기초하여 컨텐츠를 요약하는 컨텐츠 요약 기술(예를 들어 특허문헌 1, 특허문헌 2 참조)이 알려져 있다.

상기 특허문헌 1의 컨텐츠 요약 기술에서는, 음성 데이터를 해석하여, 기본 주파수, 파워, 동적 특징량의 시간 변동 특성 중 적어도 하나 및/또는 그들의 프레 임간 차분의 적어도 하나의 음성 특징량의 세트를 음성 특징량 벡터로서 추출한다. 그 추출된 음성 특징량 벡터를 양자화하여 얻은 대표 벡터와, 화자의 감정, 감정 표출 확률을 대응지은 부호장을 사용하여, 웃음, 분노, 슬픔의 감정적 상태의 표출 확률을 구한다.

이 감정적 상태의 표출 확률에 기초하여 감정적 상태라고 판정된 구간을 포함하는 부분을 컨텐츠 중의 중요 부분이라고 판정하여 추출하는 감정 검출 방법에 대해서 개시되어 있다.

또, 마찬가지로, 상기 특허문헌 2의 컨텐츠 요약 기술은, 음성 데이터를 해석하여, 기본 주파수, 파워, 동적 특징량의 시간 변동 특성 중 적어도 하나 및/또는 그들의 프레임간 차분의 적어도 하나의 음성 특징량의 세트를 음성 특징량 벡터로서 추출한다. 그 추출된 음성 특징량 벡터를 양자화하여 얻은 대표 벡터와, 발화(發話)의 강조 상태 확률 및 평정 상태 확률을 각각 대응지은 부호장을 사용하여, 강조 상태, 평정 상태의 표출 확률을 구한다.

상기 감정 검출 방법에서는, 학습용 음성 신호 데이터를 복수 보존하고, 새롭게 입력된 음성 신호 데이터와 그들을 비교함으로써, 이것을 감정적 상태의 판정 기준으로 하고 있었기 때문에, 판정 정밀도를 높이기 위해서는 많은 학습용 음성 신호 데이터를 보존해야 하여, 메모리, 및 계산 시간의 비용이 방대해진다는 문제가 알려져 있다.

또한, 관련 기술로서, 기본 주파수 및 파워의 추출법(예를 들어 비특허문헌 1 참조), 발화 속도의 시간 변동 특성의 추출 방법(예를 들어 비특허문헌 2 참조), 확률 모델의 파라미터 추정 방법(예를 들어 비특허문헌 3, 비특허문헌 4 참조), 일반화 상태 공간 모델을 구하는 방법(예를 들어 비특허문헌 5 참조)이 알려져 있다.

[특허문헌 1] : 일본 특허 공개 2005-345496호 공보(단락 [0011]∼ [0014] 등).

[특허문헌 2] : 일본 특허 제3803311호.

[비특허문헌 1] : 후루이 사다오키, 「디지털 음성 처리 제4장 4.9피치 추출」, 도카이 대학 출판회, 1985년 9월, pp.57~59.

[비특허문헌 2] : 사가야마 시게키, 이타쿠라 후미타다, 「음성의 동적 척도에 포함되는 개인성 정보」, 일본 음향학회 소화 54년도 춘계연구발표회 강연 논문집, 3-2-7, 1979년, pp.589~590.

[비특허문헌 3] : 이시이 겐이치로, 우에다 나오노리, 마에다 에이사쿠, 무라세 히로시, 「이해하기 쉬운 패턴 인식」, 옴사, 제1판, 1998년 8월, pp.52~54.

[비특허문헌 4] : 왕진팡, 데즈카 슈, 우에다 나오노리, 다구리 마사아키, 「계산통계 I 확률계산의 새로운 수법 통계과학의 프론티어 11 제Ⅲ장 3EM법 4변분 베이즈법」, 이와나미 서점, 2003년 6월, pp.157~186.

[비특허문헌 5] : Kitagawa, G., "Non-Gaussian state-space modeling of nonstationary time series", Journal of the American Statistical Association, 1987년 12월, pp.1032~1063.

(발명의 개시)

(발명이 해결하고자 하는 과제)

상기 서술한 감정 검출 방법에서는, 감정적 발화에 빈번히 나타나는, 목소리의 들뜸이나 고함, 떨림과 같은 발생 상황에 대한 고려가 이루어져 있지 않기 때문에, 판정할 수 있는 감정적 상태는 전형적인 웃음, 분노, 슬픔과 같은 한정된 종류에밖에 대응할 수 없었다.

또, 음성 특징량으로부터 얻어지는 정보에만 기초하여, 강조 상태나 감정적 상태의 판정을 행하고 있었기 때문에, 잡음 성분이 강한 음성을 대상으로 한 경우에, 음성 특징량으로부터 얻어지는 정보만으로부터는 충분한 판정의 근거가 얻어지지 않는다. 이 때문에, 예를 들어 본래대로라면 분노의 감정적 상태라고 판정되어야 할 음성임에도 불구하고, 잡음의 영향을 받은 음성 특징량이 우연히 슬픔의 감정적 상태에 닮아 있는 경우에, 슬픔이라고 판정되어 버리는 것과 같은 오검출이 많이 보여졌다.

마찬가지로, 본래, 웃음의 감정적 상태라고 판정되어야 할 하나 이상의 프레임을 포함하는 구간에, 슬픔의 감정적 상태일 확률이 매우 높은 값을 가지는 프레임이 존재한 경우에, 슬픔이라고 잘못된 판정을 한다는 문제가 있었다.

또, 프레임마다 음성 특징량 벡터를 양자화하여, 연속량인 음성 특징량 벡터를 몇 개의 대표 벡터로 대표시키고 있었기 때문에, 감정적 상태에서의 발성에 특징적으로 나타나는 음성 특징량 벡터의 중요한 변화를 검출할 수 없고, 그 결과 감정적 상태의 판정 정밀도가 낮다는 문제가 있었다.

본 발명은 상기 과제에 기초하여 이루어진 것으로, 감정적 상태에서의 발성에 특징적으로 나타나는 음성 특징량 벡터의 중요한 변화를 검출하고, 또한, 음성 특징량 벡터의 변화뿐만 아니라, 감정적 상태 그 자체의 성질을 고려함으로써, 잡음이 강한 음성을 대상으로 하는 것 같은 경우에서도 감정적 상태의 판정 정밀도를 높이고, 보다 광범위한 영역에 실시 가능한 감정 검출 방법, 감정 검출 장치 및 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체를 제공하는 것이다.

여기서 감정적 상태 그 자체의 성질은, 감정적 상태의 행동에 관련되는 성질이다. 예를 들어 감정적 상태에는 변화하기 쉬움과 어려움이 존재하여, 바로 전까지 기쁨의 감정적 상태였는데 급격하게 슬픔의 감정적 상태로 변화하는 일은 일어나기 어렵다.

따라서, 예를 들어 어느 구간의 감정적 상태를 판정할 때에, 가령 그 구간의 음성 특징량이 슬픔인 경우에 유사해도, 그 구간 전후의 구간의 감정적 상태를 판단 재료로 하여 추론하여, 이들이 기쁨일 가능성이 높은 경우에는, 이것에 기초하여 단순히 슬픔이라고 판단해버리는 것을 피할 수 있다.

이러한 감정적 상태의 행동 그 자체를 고려하여 판정을 행함으로써, 음성 특징량만으로부터의 판정에서는 잘못하기 쉬운 경우에서도, 높은 정밀도로 판정할 수 있는 감정 검출 방법, 감정 검출 장치 및 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체를 제공한다.

(과제를 해결하기 위한 수단)

본 발명의 제1 관점에 의하면, 입력된 음성 신호 데이터의 음성 특징량에 기초하여 감정 검출 처리를 행하는 감정 검출 방법 또는 장치는,

상기 음성 신호 데이터로부터 분석 프레임마다, 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중, 하나 이상을 음성 특징량 벡터로서 추출하여, 이 음성 특징량 벡터를 기억부에 기억시키고,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 데이터에 기초하여 구성된 제1 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열을 조건으로 하여 상기 음성 특징량 벡터가 되는 음성 특징량 출현 확률을 산출하고,

제2 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열의 시간 방향으로의 천이 확률을 감정적 상태 천이 확률로서 산출하고,

상기 음성 특징량 출현 확률과 상기 감정적 상태 천이 확률에 기초하여 감정적 상태 확률을 계산하고,

상기 산출된 감정적 상태 확률에 기초하여, 분석 프레임을 하나 이상 포함하는 각 구간의 감정적 상태에 관한 정보를 출력한다.

본 발명의 제2 관점에 의하면, 입력된 음성 신호 데이터의 음성 특징량에 기초하여 감정 검출 처리를 행하는 감정 검출 방법 또는 장치는,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 신호 데이터에 기초하여 구성된 하나 이상의 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열에 대한 상기 음성 특징량 벡터를 조건으로 한 감정적 상태 확률을 계산하고,

상기 감정적 상태 확률에 기초하여, 상기 분석 프레임을 포함하는 구간의 감정적 상태를 판정하고,

상기 판정된 감정적 상태에 관한 정보를 출력한다.

또한, 본 발명의 상기 제1 또는 제2 관점에 의한 감정 검출 방법을 실장한 컴퓨터 프로그램 및 그 프로그램을 기록한 기록 매체를 제공한다. 또한, 본 발명은 상기 제1 또는 제2 관점에 의한 감정 검출 방법을 실장한 컴퓨터에서 실시 가능한 프로그램 및 그 프로그램을 기록한 기록 매체를 포함한다.

(발명의 효과)

이상 나타낸 바와 같이, 본 발명의 제1 관점의 방법 또는 장치에 의하면, 음성 특징량에 관한 통계 모델뿐만 아니라, 감정적 상태 계열의 천이 확률에 관한 통계 모델을 함께 이용하고, 이들 처리하는 정보의 상이한 2개의 통계 모델에 기초하여 감정적 상태 확률을 계산하고 있으므로, 감정적 상태에 관한 정보 및 그 자연스러운 천이를 보다 정확하게 파악할 수 있다. 게다가, 감정적 상태가 기본적인 성질로서 갖추는 감정의 시간적 천이 특성을 고려하여 감정적 상태에 관한 정보를 얻기 때문에, 음성 특징량에 강한 잡음이 중첩되어도, 종래와 같이 음성 특징량에만 기초하여 계산한 경우에 프레임의 음성 특징량 출현 확률이 본래의 값과 상이해지는 것에 의한 감정적 상태에 관한 정보의 부정확함을 개선할 수 있다.

본 발명의 제2 관점의 방법 또는 장치에 의하면, 음성 특징량에 관한 통계 모델에 기초하여, 감정적 상태에서의 발화에서 빈출하는 음성 특징량의 변화를 파악하기 때문에, 감정적 발화에서의 특징적인 발성 상황을 고려한 감정적 상태의 판정을 가능하게 하고, 보다 다양한 감정적 상태를 보다 고정밀도로 판정할 수 있다.

상기 제1 또는 제2 관점의 방법 또는 장치에서, 얻어진 감정적 상태 확률의 내림차순으로 감정적 상태를 선택함으로써, 혼합된 복수의 감정적 상태 및 그 변화의 보다 상세한 정보를 검출할 수 있다.

상기 제1 또는 제2 관점의 방법 또는 장치에서, 하나의 감정적 상태인 확률과, 그 이외의 감정적 상태인 확률의 볼록 결합과의 차에 기초하여 감정적 상태를 판정함으로써, 상이한 감정적 상태의 상기(想起) 관계를 고려한 감정적 상태의 판정을 행할 수 있다.

상기 제1 또는 제2 관점의 방법 또는 장치에서, 입력 음성 신호 데이터를 연속하는 발화 구간마다의 음성 소단락으로 합쳐서, 각 음성 소단락의 감정도에 기초하여 컨텐츠 요약을 추출함으로써, 시청자의 요약 요구 조건에 대해서 보다 유연하게 대응할 수 있다.

상기 제1 또는 제2 관점의 방법 또는 장치에서, 입력 음성 신호 데이터를 주기성에 기초하여 하나 이상의 연속된 분석 프레임의 구간으로 합쳐서, 각 음성 소단락의 감정도에 기초하여 컨텐츠 요약을 추출함으로써, 시청자의 요약 요구 조건에 대해서 보다 유연하게 대응할 수 있다.

이들로써 감정 검출 기술 분야에 공헌할 수 있다.

도 1은 본 실시형태에서의 감정 검출 방법을 설명하는 플로우차트.

도 2는 본 실시형태에서의 통계 모델을 구성하는 스텝의 처리 상세를 도시하는 플로우차트.

도 3은 기본 주파수의 시간 변동 특성을 구하는 방법의 개념도.

도 4는 음성 특징량 벡터의 시간적인 변화를 설명하기 위한 도면.

도 5는 일반화 상태 공간 모델의 개념도.

도 6은 기쁨, 슬픔, 평정의 감정적 상태를 다룬 경우의 감정적 상태 확률의 일례를 도시하는 도면.

도 7은 음성 소단락과 감정도의 관계를 도시하는 개념도.

도 8은 음성 단락의 생성 방법의 일례를 도시하는 도면.

도 9는 음성 단락과 감정도의 관계를 도시하는 개념도.

도 10은 컨텐츠의 감정적 상태를 판정하고, 요약 컨텐츠를 생성하는 처리 플로우.

도 11은 본 실시형태에서의 감정 검출 장치의 논리적인 구성도.

도 12는 본 실시형태에서의 감정 검출 장치의 물리적인 구성도.

(발명을 실시하기 위한 최선의 형태)

본 실시형태에서의 감정 검출 방법을 도 1에 기초하여 설명한다. 도 1은 본 실시형태에서의 감정 검출 방법을 설명하는 플로우차트이다. 또한, 본 실시형태의 설명에서의 데이터는 범용적인 기억부(예를 들어 메모리나 하드디스크 장치) 또는 기억 수단에 기억되고, 액세스되는 것으로 한다.

우선, 스텝 S110(통계 모델 구축 처리 스텝)은, 본 실시형태에 따른 감정 검출 방법에 의해, 실제로 감정적 상태의 판정을 행하기 전에, 미리 행해 두는 스텝이며, 감정적 상태 확률을 계산하기 위해서 사용하는 2개의 통계 모델(제1 통계 모델 및 제2 통계 모델이라고 함)을 구축하는 스텝이다. 또한, 상기 통계 모델의 실체는 그 통계를 계산하는 함수, 및, 통계량 등의 파라미터를 프로그램으로서 기재한 것이다. 상기 통계 모델의 파라미터 및 함수형을 나타내는 부호는 기억부에 저장되게 되는데, 그들을 위한 기억 용량은 실제의 데이터를 전부 저장해 두는 것 보다 작다.

그 다음에, 스텝 S120(음성 특징량 추출 처리 스텝)에서는, 취입(取入)된 컨텐츠의 음성 신호 데이터로부터, 원하는 음성 특징량을 벡터로 하여 하나 이상의 분석 프레임(이하, 간단히 프레임이라고도 함)마다 계산하여 추출한다. 구체적으로는, 예를 들어 각 분석 프레임은 복수의 서브프레임으로 구성되어 있고, 입력 음성 신호 데이터는 서브프레임마다 분석되어 음성 특징량인 기본 주파수 및 파워가 계산되고, 각 분석 프레임마다 그 프레임을 포함하는 1 이상의 소정수의 분석 프레임에 포함되는 서브프레임의 음성 특징량에 기초하여 음성 특징량 벡터가 구성된다. 또한, 이 음성 특징량 벡터는 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중 하나 이상의 요소로 구성되는 벡터이다. 또, 음성 신호 데이터는 음성 신호 데이터 입력 수단(예를 들어 후술하는 도 12의 입력부(210))에 의해 입력되는 것으로 한다. 추출된 음성 특징량은 기억부에 기억된다. 스텝 S120∼S150은 감정적 상태 확률을 계산하는 처리이다.

그 다음에, 스텝 S130(음성 특징량 출현 확률 계산 처리 스텝)에서는, 스텝 S120에서 계산되어 기억부에 기억된 음성 특징량 벡터에 기초하여, 프레임마다 감정적 상태에 대응하는 음성 특징량 벡터가 출현할 확률을, 스텝 S110에서 미리 구성된 제1 통계 모델에 의해 산출하고, 그 산출 결과를 음성 특징량 출현 확률로 간주한다.

그 다음에, 스텝 S140(감정적 상태 천이 확률 계산 처리 스텝)에서는, 프레임마다 스텝 S110에서 미리 구성된 제2 통계 모델을 사용하여, 감정적 상태에 대응하는 하나 이상의 상태 변수의 시간 방향으로의 천이 확률을 산출하고, 그 산출 결과를 감정적 상태 천이 확률로 간주한다.

그 다음에, 스텝 S150(감정적 상태 확률 계산 처리 스텝)에서는, 프레임마다 스텝 S130에서 계산한 음성 특징량 출현 확률 및 S140에서 계산한 감정적 상태 천이 확률에 기초하여, 감정적 상태 확률을 계산하고, 프레임 번호, 시각 정보 중 어느 하나에 대응시켜 기억부에 기억시킨다.

그리고 스텝 S160(감정적 상태 판정 처리 스텝)에서는, 프레임마다 스텝 S150에서 계산한 감정적 상태 확률에 기초하여, 이 프레임의 감정적 상태를 판정하 고, 대응하는 프레임 번호와 함께 출력한다. 판정은, 예를 들어 프레임마다의 최대의 감정적 상태 확률을 주는 감정적 상태를 판정해도 되고, 최대의 감정적 상태 확률로부터 내림차순으로 소정수의 감정적 상태를 판정해도 되며, 간단히 전체 감정적 상태의 감정적 상태 확률이 큰 순서를 판정해도 된다. 이들 판정은 후술하는 음성 소단락, 또는 음성 단락과 같은 하나 이상의 프레임에 의해 구성되는 구간마다 행해도 된다.

이렇게 해서 판정한 결과를 음성 신호 데이터의 감정적 상태에 관한 정보로서 출력한다. 예를 들어, 입력 음성 신호 데이터가 시청용 컨텐츠인 경우, 시청자에게 이 프레임 번호 또는 시각 정보에 대응지어진 판정 결과를 컨텐츠와 함께 제공하면, 시청자는 판정 결과를 사용하여 컨텐츠 중의 원하는 감정적 상태를 조건으로 하는 프레임 혹은 구간을 검색할 수 있다.

필요하면, 스텝 S170(요약 컨텐츠 생성 출력 처리 스텝)에서, 스텝 S160에서 판정된 감정적 상태가 연속하는 하나 이상의 프레임으로 구성되는 구간을 단위로 한 컨텐츠의 요약을 생성하여 출력한다. 스텝 S150에서 얻어진 감정적 상태 확률은 입력 음성 신호 데이터의 프레임마다의 감정적 상태를 나타내는 정보이며, 따라서, 상기 서술한 스텝 S160의 판정을 행하지 않고, 프레임 번호 또는 시각 정보와 대응지은 감정적 상태 확률을 출력해도 된다. 예를 들어, 이 프레임 번호에 대응지어진 감정적 상태 확률을 시청자에게 컨텐츠와 함께 제공하고, 시청자가 감정적 상태 확률에 대해서 원하는 기준을 설정하여 컨텐츠로부터 요약을 추출하는 것에 이용할 수 있다.

이하에, 감정 검출 방법의 각 스텝을 상세하게 설명한다.

우선, 2개의 통계 모델을 구성하는 스텝 S110의 처리 상세를 도 2에 기초하여 설명한다. 또한, 통계 모델은 학습용 음성 신호 데이터로부터 학습을 행함으로써 획득하는 것으로 한다.

우선, 스텝 S111에서, 학습용 음성 신호 데이터를 입력한다. 또한, 학습용 음성 신호 데이터는 컨텐츠 음성 신호 데이터의 입력 수단과 동일한 입력 수단으로부터 입력되어도 되고, 학습용 음성 신호 데이터 전용의 입력 수단(예를 들어 학습용 음성 신호 데이터를 기록한 기록 매체)로부터 입력되어도 된다.

그 다음에, 스텝 S112에서, 이 학습용 음성 신호 데이터에 대해서, 학습용 음성 신호 데이터 전부에 걸쳐, 프레임마다 인간이 실제로 시청해서 판단한 그 프레임에서의 감정적 상태 e의 값을 설정한다. 여기서, 각 프레임에 대해서, 인간에 의해 판정된 감정적 상태 e의 값을 정하는 정보를 라벨이라고 하는 것으로 하고, 판정된 감정적 상태의 값을 그 프레임에 대응지어 입력하는 행위를 라벨 붙임이라고 하는 것으로 한다. 라벨로서는, 주목하는 감정의 종류를 각각 구별할 수 있는 것이면 수치여도 되고 부호여도 된다.

또, 엄밀하게는 프레임마다 감정적 상태 e의 라벨이 주어져 있지 않는 경우라도, 프레임 단위로 라벨 붙임되도록 변환할 수 있는 것이면, 이것으로 변환하여 이용해도 된다. 라벨 붙임의 예로는, 어느 복수의 연속하는 프레임에 걸친 구간에서 감정적 상태 e의 라벨이 부여되어 있는 경우도 있다. 이 경우에는, 그 구간에 포함되는 각 프레임에 대해서, 구간에 부여된 라벨과 동일한 라벨을 부여함으로써, 프레임마다 라벨을 붙일 수 있다. 보다 구체적으로는, 음성의 어느 시각 t1로부터 t2의 구간이 감정적 상태 e라고 라벨 붙임되어 있는 경우에는, 이 구간의 전체 프레임은 전부 e라고 라벨이 주어져 있다.

그 다음에, 스텝 S113에서, 프레임마다 상기 스텝 S120과 마찬가지로, 음성 특징량 벡터 x를 추출한다. 후술하는 바와 같이, 각 프레임에서의 음성 특징량 벡터 x는 그 프레임의 음성 특징량뿐만 아니라, 그보다 과거의 소정수의 프레임의 음성 특징량도 포함시켜서 결정해도 된다. 이하에서는, 프레임 번호 t의 프레임 F_t에서의 음성 특징량 벡터를 x_t, 감정적 상태를 e_t라고 나타낸다.

그 다음에, 스텝 S114에서, 음성 특징량 출현 확률을 계산하기 위한 제1 통계 모델과, 감정적 상태 천이 확률을 계산하기 위한 제2 통계 모델을 각각 학습에 의해 구성한다.

우선, 음성 특징량 출현 확률을 계산하기 위한 제1 통계 모델의 학습 방법의 일례를 설명한다.

음성 특징량 출현 확률을 계산하기 위한 제1 통계 모델은, 프레임마다 주어지는 음성 특징량 벡터 x 공간상의 확률 분포이며, 예를 들어 프레임 F_t에서는 그 프레임으로부터 그 이전의 소정수 n까지의 연속하는 프레임 구간에서의 감정적 상태의 계열 E_t={e_t, e_t-1, …, e_t-n+1}에 의존하여 x_t가 출현할 확률을 나타내는 조건부 확률 분포 p^A(x_t｜E_t)로서 작성한다. n은 1 이상의 정수이지만, 예를 들어 2∼3정 도로 하는 것이 좋다.

이 조건부 확률 분포 p^A(x_t｜E_t)는, 예를 들어 E_t가 취할 수 있는 값마다, x_t의 출현 확률의 정규 분포, 혼합 정규 분포, 은닉 마코프 모델(Hidden Markov Model:HMM) 등과 같은 확률 모델을 사용하여 구성해도 된다. 또, 추가로 음성 특징량의 종류별로, 정규 분포, 다항 분포나, 그들의 혼합 분포 등과 같은 확률 모델을 사용하여 구성하는 것이어도 된다. 이들 확률 모델의 파라미터를 학습용 음성 신호 데이터로부터 종래의 학습 수법에 의해 추정하여, 제1 통계 모델로 한다.

또한, 종래의 파라미터의 추정 방법으로서는, 예를 들어 최우추정법이나, EM 알고리즘, 변분 Bayes법 등의 공지된 것(예를 들어 비특허문헌 3, 비특허문헌 4 등을 참조)을 사용할 수 있다.

그 다음에, 감정적 상태 천이 확률을 계산하기 위한 제2 통계 모델을 설명한다.

감정적 상태 천이 확률을 계산하기 위한 제2 통계 모델은, 음성 특징량 출현 확률을 계산하기 위한 제1 통계 모델과 마찬가지로, 학습용 음성 신호 데이터로부터, 학습을 행함으로써 획득한다.

상기 스텝 S111∼S113에서, 상기 학습용 음성 신호 데이터는, 학습용 음성 신호 데이터 전부에 걸쳐, 프레임마다 추출된 음성 특징량 벡터 x와, 인간이 실제로 청취해서 판단한 그 프레임에서의 감정적 상태 e의 라벨이 주어져 있다는 전제로, 이하에 스텝 S114의 학습을 행하는 스텝의 일례에 대해서 설명한다. 또한, 프 레임 번호 t에서의 감정적 상태를 e_t로 나타낸다.

감정적 상태 천이 확률 계산을 위한 제2 통계 모델은, t-n+1번째부터 t번째의 프레임에서의 감정적 상태의 계열 E_t 공간상의 확률 분포이며, F_t 이전의 (n-1) 프레임에서의 감정적 상태의 계열 E_t-1={e_t-1, e_t-2, …, e_t-n}에 의존하여, E_t={e_t, e_t-1, …, e_t-n+1}이 출현할 확률을 나타내는 조건부 확률 분포 p^B(E_t｜E_t-1)로서 작성한다.

또한, e_t는 "기쁨", "슬픔", "무서움", "격심함", "멋짐", "귀여움", "익사이팅", "정열적", "로맨틱", "폭력적", "평온함", "위로받음", "따뜻함", "차가움", "불안함"과 같은 감정이나, "웃음", "울음", "외침", "비명", "속삭임" 등의 감정 표출과 같은 감정적 상태의 표기의 변수이며, 이산 변수이기 때문에, 상기 조건부 확률 분포 p^B(E_t｜E_t-1)은, 예를 들어 bi-gram형의 확률 분포를 작성함으로써 구성할 수 있다. 이 경우는, 학습용 음성 신호 데이터에 기초하여, E_t-1이 주어져 있을 때에, 각 감정적 상태의 계열 E_t가 몇 번 출현하는지를 계수함으로써 이것을 구성할 수 있다. 이것이 바로 최우추정법인데, 이 밖에 적당한 사전 분포를 정해서 Bayes법에 의해 학습하는 것으로 해도 된다.

이상이 스텝 S110의 상세 처리이다.

그 다음에, 스텝 S120에서는, 취입된 컨텐츠의 음성 신호 데이터로부터, 원 하는 음성 특징량 벡터를 프레임마다 추출한다. 또한, 본 발명에서의 음성은 인간에 의한 회화 음성뿐만 아니라, 가창 음성, 또는 음악 등도 포함하는 것으로 한다.

이하에, 음성 특징량 벡터 추출 방법의 일례를 설명한다.

우선, 음성 특징량에 대해서 설명한다. 본 실시형태에서의 음성 특징량으로서는, 고차(高次)의 음성 스펙트럼 피크 등과 비교하여, 잡음 환경하에서도 안정적으로 얻어지고, 또한 감정적 상태를 판정함에 있어서, 화자의 프로필에 의존하기 어려운 것이 바람직하다. 상기 서술한 바와 같은 조건을 만족하는 음성 특징량으로서, 기본 주파수 f0, 기본 주파수의 시간 변동 특성의 계열 {rf0ⁱ}, 파워 p, 파워의 시간 변동 특성의 계열 {rpⁱ}, 발화 속도의 시간 변동 특성 등의 하나 이상을 추출한다. 또한, i는 시간 변동 특성의 인덱스이다.

또, 본 실시형태에서는, 계열은 하나 이상의 요소를 가지는 집합이라고 정의한다. 시간 변동 특성의 예로서는, 예를 들어, 회귀계수, 프레임 내 변화량의 평균값, 최대값, 최소값이나, 프레임 내 변화량의 절대값의 누적합, 레인지 등이 생각되고, 필요에 따라서 선택하면 된다. 특히, 회귀계수의 경우에는, 인덱스는 차수에 대응지을 수 있다. 회귀계수는 몇 차까지를 사용해도 되는데, 예를 들어 1∼3차정도로 해도 된다. 이하의 예에서는, 시간 변동 특성으로서 회귀계수만을 채용한 경우에 대해서 설명하지만, 이 밖의 시간 변동 특성과 조합시켜 사용해도 된다. 파워 p는 음성 신호 파형의 진폭 값을 사용하는 것이어도 되고, 절대값이나 평활값, rms값을 사용하는 것이어도 된다. 또, 어느 주파수 대역, 예를 들어 인간이 알아 듣기 쉬운 500Hz∼4KHz 등의 영역에서의 파워의 평균값 등을 사용하는 것이어도 된다. 또, 각종 추출한 음성 특징량에 대해서, 적당한 좌표 변환(예를 들어 주성분 분석 등)을 포함하는 선형 변환, 비선형 변환, 적분 변환(예를 들어 푸리에 변환, 코사인 변환 등)을 하나 이상 행한 결과 얻어지는 값을 다시 음성 특징량으로서 채용해도 된다.

상기 추출해야 할 기본 주파수 f0 및 파워 p의 추출법은 여러가지이다. 그들 추출 방법은 공지이며, 그 상세에 대해서는 예를 들어 상기 서술한 비특허문헌 1에 기재된 방법 등을 참조하기 바란다.

상기 추출해야 할 발화 속도의 시간 변동 특성은, 기존에 알려진 방법(예를 들어 비특허문헌 2, 특허문헌 1 참조)에 의해, 동적 척도 m의 시간 변동 특성 rm으로서 추출한다. 예를 들어 동적 척도의 피크를 검출하고, 그 수를 카운트함으로써 발화 속도를 검출하는 방법을 채용해도 되고, 또 발화 리듬에 상당하는 피크 간격의 평균값, 분산값을 계산해서 발화 속도의 시간 변동 특성을 검출하는 방법을 채용하는 것이어도 된다.

이하의 설명에서는, 동적 척도의 피크 간격 평균값을 사용한, 동적 척도의 시간 변동 특성을 rm으로서 사용하여 설명하는 것으로 한다. 상기 추출해야 할 기본 주파수의 시간 변동 특성의 계열 {rf0ⁱ}, 및 파워의 시간 변동 특성의 계열 {rpⁱ}로서, 회귀계수를 추출하는 방법의 일례에 대해서 설명한다.

분석하는 프레임의 시각을 t로 했을 때, 시각 t에서 추출된 기본 주파수 f0_t 또는 p_t와, {rf0ⁱ _t} 또는 {rpⁱ _t}와의 관계는 다음 근사식에 의해 나타난다.

단, I는 회귀 함수의 최대 차수를 나타낸다. 예를 들어 I=1인 경우는 직선 근사를 나타내고, I=2인 경우는 2차 곡선 근사를 나타낸다. t의 근방에서 이 근사 오차가 작아지도록 {rf0ⁱ _t} 및 {rpⁱ _t}를 결정하면 되고, 이것을 실현하는 방법으로서, 예를 들어 최소자승법을 사용할 수 있다.

I는 임의의 값으로 좋지만, 여기서는, 예로서 I=1일 때의 rf0¹ _t를 구하는 경우에 대해서 설명한다. 분석하는 프레임의 시각을 t로 하면, t에서의 기본 주파수의 시간 변동 특성 rf0¹ _t는,

로 구할 수 있다. 도 3은 음성 신호 데이터로부터 프레임마다 구한 기본 주파수 f0의 계열을 도시한다. I=O인 시간 변동 특성 rf0_t ^I ⁼⁰인 식 (4)는 구간 (t-d)∼(t+d)에서의 기본 주파수 f0의 평균을 나타내고 있고, I=1인 시간 변동 특성 rf0_t ^I=1인 식 (3)은 도 3 중에 모식적으로 도시하는 구간 (t-d)∼(t+d)에서의 f0으로부터 최소자승법에 의해 구한 근사 직선 3A의 구배를 나타내고 있다. 여기서, d는 시간 변동 특성의 계산에 사용하는 시각 t 전후의 서브프레임의 수이며, t의 근방에 대응한다. 예를 들어 d=2로 한다. 어느 프레임의 회귀계수를 구할 때, 반드시 그 프레임 내에 들어가지 않는 범위의 서브프레임을 이용하여 계산을 행해도 된다. rp¹ _t에 대해서도 마찬가지로 계산할 수 있다.

이하에서는, 예를 들어 I=1인 경우에 구한 rf0¹ _t, rp¹ _t만을 각각 기본 주파수의 시간 변동 특성 rf0, 파워의 시간 변동 특성 rp로서 다루는 경우에 대해서 설명한다.

분석 프레임마다 음성 특징량을 계산하는 방법의 일례를 설명한다. 1 분석 프레임의 길이(이하, 프레임 길이라고 함)를 100msec로 하고, 다음 프레임은 현프레임에 대해서 50msec의 시간 시프트에 의해 형성되는 것으로 한다. 실제로는, 음성 신호 데이터로부터 도 3에 도시된 바와 같이 분석 프레임 길이보다 상당히 짧은 예를 들어 10msec 간격의 서브프레임마다 음성 특징량인 기본 주파수 및 파워가 추출되고, 각 분석 프레임 내에서의 이들 서브프레임의 음성 특징량의 평균값, 즉, 평균 기본 주파수 f0', 기본 주파수의 평균 시간 변동 특성 rf0', 평균 파워 p', 파워의 평균 시간 변동 특성 rp', 동적 척도의 평균 피크 간격 평균값 rm'이 계산된다. 또는, 이들의 평균값뿐만 아니라, 프레임 내에서의 각 음성 특징량의 최대값, 최소값, 또는 변동폭 등을 계산해서 사용해도 된다. 이하에서는, 평균값만을 사용한 경우에 대해서 설명한다.

각 음성 특징량은 미리 규격화해 두는 것이 바람직하다. 규격화는, 예를 들어 각 프레임의 f0'에 대해서, 예를 들어 처리 대상이 되는 음성 신호 데이터 전체에 걸친 평균 기본 주파수를 빼거나, 혹은, 평균 기본 주파수로 나눔으로써 행하는 것이어도 되고, 표준 정규화하여 평균 0 분산 1로 하는 것이어도 된다. 그 밖의 음성 특징량에 대해서도, 마찬가지로 행하는 것이 생각된다. 또, 필요한 경우에는 평활화 처리를 행해 둔다.

감정적 상태의 판정에서는, 음성 특징량의 시간적인 변화를 파악하는 것이 필요하다. 본 실시형태에서는, 프레임마다 그 프레임을 포함하는 하나 이상 소정수의 프레임의 음성 특징량을 사용하여 음성 특징량 벡터를 구성하여, 음성 특징량 의 시간적인 변화의 포착을 실현한다. 또한, 이 음성 특징량 벡터를 추출하는 구간을, 음성 특징량 벡터 추출 구간(예를 들어 도 4 중의 부호 W로 도시하는 구간)이라고 하는 것으로 한다.

이하, 그 음성 특징량의 시간적인 변화의 포착 방법의 일례를 도 4에 기초하여 설명한다.

현 프레임 F에 대해서, 그 프레임 번호를 j로 두고, F_j로 나타낸다. F_j에 포함되는 음성 특징량을 각각, 평균 기본 주파수 f0'_j, 기본 주파수의 평균 시간 변동 특성 rf0'_j, 평균 파워 p'_j, 파워의 평균 시간 변동 특성 rp'_j, 동적 척도의 평균 피크 간격 평균값 rm'_j로 한다.

이상에서 구한 음성 특징량에 기초한 음성 특징량 벡터의 구성 방법은, 예를 들어 음성 특징량 벡터 추출 구간에 포함되는 프레임마다의 음성 특징량을, 지연 좌표 공간에 메워넣음으로써 구성하는 방법이 생각된다. 즉 현프레임 F_t로부터 S프레임만큼 과거의 프레임 F_t-S까지 포함되는 원하는 음성 특징량을 벡터 표기함으로써 구성하는 것으로 한다.

예를 들어 평균 기본 주파수의 경우, 도 4에 도시된 예에서는, 프레임 F_t, F_t-1, …, F_t-S의 각각의 음성 특징량으로부터 취출한 평균 기본 주파수 f0'_t, f0'_t-1, …, f0'_t-S에 의해, f0^v={f0'_t, fO'_t-1, …, f0'_t-S}^T로 나타나는 평균 기본 주파수의 음성 특징량 벡터 f0^v를 구한다.

또는, 음성 특징량마다 현프레임 F_t와, 그로부터 S프레임만큼 과거의 프레임 F_t-S까지의 프레임간 차분량을 계산하고, 이것을 벡터 표기함으로써 구성하는 방법도 생각된다. 프레임간 차분으로서는, 예를 들어 현프레임 F_t와, 그 직전으로부터 S프레임 과거의 프레임 F_t-S까지의 각각의 프레임 F_t-1, …, F_t-S 사이의 음성 특징량의 차분을 구한다.

여기서, 상기 S의 값을, 예를 들어 S=5로 하면, 상기 서술한 분석 프레임 길이가 100msec이고, 인접 프레임이 50msec 시프트되어 있는 경우는, 음성 특징량 벡터 추출 구간 W의 길이는 예를 들어 350msec가 된다. 마찬가지로, 기본 주파수의 평균 시간 변동 특성의 음성 특징량 벡터 rf0^v, 평균 파워의 음성 특징량 벡터 p^v, 파워의 평균 시간 변동 특성의 음성 특징량 벡터 rp^v, 동적 척도의 평균 시간 변동 특성의 음성 특징량 벡터 rm^v를 구성한다.

미리, 감정적 상태를 판정하기 위해서 사용한다고 결정한 전체 음성 특징량 벡터를 나열한 것을 x라고 표기하는 것으로 한다. 예를 들어 추출한 음성 특징량 전부를 사용하는 경우는, x={f0^vT, rf0^vT, p^vT, rp^vT, rm^vT}^T가 된다. 또는, 기본 주파수의 시간 변동 특성 rfO, 파워의 시간 변동 특성 rp, 동적 척도의 피크 간격 평 균값 rm을 사용하는 경우에는 x={rf0^vT, rp^vT, rm^vT}^T가 된다. 또한, 상기 서술에서는 예를 들어 벡터 f0^v는 열 벡터라고 규정하고 있으므로, 그 전치를 나타내는 벡터 f0^vT는 행 벡터를 규정하고 있다.

본 실시형태에서는, 상기 음성 특징량 중 하나 이상을 사용하면, 감정적 상태를 판정하는 것이 가능하다. 단, 감정적 상태에서 특징적으로 나타나는 발화에서는 기본 주파수 f0 그 자체의 추출이 곤란한 경우가 많아 종종 결손하는 일이 있다. 이 때문에, 그러한 결손을 보완하는 효과를 용이하게 얻을 수 있는, 기본 주파수의 시간 변동 특성 rf0을 포함하는 것이 바람직하다. 또한, 화자 의존성을 낮게 억제한 채, 판정 정밀도를 높이기 위해서, 파워의 시간 변동 특성 rp를 또한 포함하는 것이 바람직하다.

이상과 같이, 컨텐츠 전체에 걸쳐서 프레임마다 음성 특징량, 음성 특징량 벡터의 계산 처리를 행함으로써, 모든 프레임에 대해서 음성 특징량 벡터를 얻는 것이 가능하다.

이상이 스텝 S120의 상세 처리이다.

그 다음에, 스텝 S13O은 스텝 S12O에서 추출된 각 프레임의 음성 특징량 벡터와, 스텝 S11O에서 미리 구성해 둔 제1 통계 모델을 사용하여 각 감정적 상태에서의 음성 특징량 벡터의 출현 확률(음성 특징량 출현 확률)을 계산한다.

이하에, 스텝 S130에서 실행하는 처리의 일례를 설명한다.

스텝 S110에서 작성한 제1 통계 모델에 기초하여, 음성 특징량 벡터의 출현 확률을 계산하는 방법의 일례를 설명한다.

제1 통계 모델은 프레임마다 주어지는 음성 특징량 벡터 x_t 공간상의 조건부 확률 분포 p^A(x_t｜E_t)이기 때문에, 입력된 음성 특징량 벡터 x_t에 대해서, 스텝 S110에 의해 미리 작성한 제1 통계 모델 p^A(x_t｜E_t)에 기초하여 프레임마다 E_t가 취할 수 있는 각 값에 대한 x_t의 우도(尤度)를 전부 계산한다. 이 계산한 우도를 각 감정적 상태 계열 E_t에서 x_t가 출현하는 음성 특징량 출현 확률로 간주한다.

이상의 처리를 컨텐츠(입력 음성 신호 데이터)의 모든 프레임에 걸쳐서 행함으로써, 모든 프레임에 대해서 음성 특징량 출현 확률을 계산할 수 있다.

이상이 스텝 S130의 상세 처리이다.

그 다음에, 스텝 S140에서는, 제2 통계 모델을 사용하여, 감정적 상태를 판정하는 프레임(현프레임) 직전의 하나 이상 거슬러 오른 프레임의 감정적 상태에 의존하여, 현프레임에서 각 감정적 상태로 천이하는 천이 확률(즉 감정적 상태 천이 확률)이 계산된다.

이하에, 스텝 S140을 실행하기 위해서 처리의 일례를 설명한다.

우선, 스텝 S110에서 작성한 제2 통계 모델에 기초하여, 감정적 상태 천이 확률을 계산하는 방법의 일례를 설명한다.

제2 통계 모델은 감정적 상태 E_t의 공간상의 조건부 확률 분포 p^B(E_t｜E_t-1)이 므로, E_t-1의 모든 취할 수 있는 값에 대해서, p^B(E_t｜E_t-1)의 값이 모두 계산되어 있다. 이 계산된 값을 감정적 상태 천이 확률로 한다.

이상의 처리를, 모든 프레임에 걸쳐서 행함으로써, 모든 프레임에 대해서 감정적 상태 천이 확률을 계산할 수 있다.

이상이 스텝 S140의 상세 처리이다.

그 다음에, 스텝 S150에서는, 스텝 S130 및 스텝 S140에서 계산된 음성 특징량 출현 확률 및 감정적 상태 천이 확률에 기초하여 감정적 상태 확률이 계산된다.

이하에, 스텝 S150에서 행하는 감정적 상태 확률을 계산하는 처리의 일례에 대해서 설명한다.

상기 2개의 통계 모델 p^A(x_t｜E_t)와 p^B(E_t｜E_t-1)의 세트는, 모두 일반화 상태 공간 모델이라고 하는 구조를 가지고 있고, 음성 인식 등에 자주 사용되는 Left-to-Right형의 HMM(Hidden Markov Models) 등과 마찬가지의 인과 구조(예를 들어 도 5 중의 부호 S_t1로 도시되는 감정 상태 E_t-1, E_t와, 부호 S_t2로 도시되는 음성 특징량 x_t-1, x_t임)를 가진다.

일반화 상태 공간 모델에서는, 시각 t까지의 음성 특징량 벡터의 계열 {x_t}를 얻은 경우에, 시각 t에서의 감정적 상태 계열 E_t의 확률 p(E_t｜{x_t})는 p^A(x_t｜E_t) 와 p^B(x_t｜E_t-1)에 기초하여, 이하의 식을 재귀적으로 계산함으로써 구할 수 있다(예를 들어 비특허문헌 5 참조).

단, SE는 E_t가 취할 수 있는 모든 값의 집합을 나타낸다.

일반적으로, 일반화 상태 공간 모델에서는, SE의 값이 매우 큰 값이 되기 때문에, 상기 식 (5), (6)을 직접 계산하여 p(E_t｜{x_t})의 값을 구하는 것은 곤란하다.

본 실시형태에서는, E_t가 취할 수 있는 모든 값은, 취급하는 감정적 상태, 예를 들어 "기쁨", "슬픔", "무서움", "격심함", "멋짐", "귀여움", "익사이팅", "정열적", "로맨틱", "폭력적", "평온함", "위로받음", "따뜻함", "차가움", "불안함"과 같은 감정이나, "웃음", "울음", "외침", "비명", "속삭임" 등의 감정 표출 등에 한정되어 있고, 이 수를 ｜E｜로 하면, E_t={e_t, e_t-1, …, e_t-n+1}에서의 가능한 모든 조합을 생각했을 때, SE의 사이즈는 ｜E｜ⁿ이다.

예를 들어 본 실시형태에서는, 상정하는 취급하는 감정적 상태의 수 ｜E｜ 는, 상기의 예의 경우, 약 10의 수 배 정도이다. 이 때, 예를 들어 n=3으로 하면, SE의 사이즈는 오더로 하여 10³정도이며, 현재 보급되어 있는 범용적인 컴퓨터라도, 상기 식 (5), (6)을 충분히 직접 계산 가능한 규모이다.

따라서, 본 실시형태에서는, 식 (5), (6)을 사용하여 컴퓨터에 의해 확률 p(E_t｜{x_t})의 값을 감정적 상태 확률로서 직접 계산하는 것으로 한다. 계산이 곤란한 경우에는, 예를 들어 비특허문헌 5에 기재된 근사 방법 등을 채용하면 된다.

또한, E_t의 요소로부터 e_t를 제외한 것을 E'_t={e_t-1, …, e_t-n+1}로 하고, 또한 E'_t가 취할 수 있는 모든 값의 집합을 SE'로 나타낸다고 하면, 식 (6)에서 구한 p(E_t｜{x_t})로부터 프레임마다의 감정적 상태 e_t의 감정적 상태 확률은,

를 계산함으로써 구하는 것이 가능하다. 도 6에 기쁨, 슬픔, 평정의 감정적 상태를 다룬 경우의 감정적 상태 확률의 예를 도시한다. 즉 도 6 중의 부호 L1로 도시한 곡선이 기쁨의 감정적 상태 확률, 부호 L2로 도시한 곡선이 평정의 감정적 상태 확률, 부호 L3으로 도시한 곡선이 슬픔의 감정적 상태 확률이다.

상기 서술한 방법은, 감정적 상태 E_t의 확률을 구하기 위해서, 시각 t까지의 음성 특징량 벡터의 계열 {x_t}에 기초하여 계산을 실행하기 때문에, 실시간으로 처리를 실행할 수 있는 방법이다. 한편, 실시간 처리를 행할 필요가 없는 경우에는, 보다 강건한 검출을 실현하기 위해서, 시각 T>t까지의 음성 특징량 벡터 계열 {x_T}를 얻은 경우의 감정적 상태 계열 E_t의 확률 p(E_t｜{x_T})를 계산하고, 이것을 감정적 상태 확률로 해도 된다. p(E_t｜{x_T})는 식 (5), (6)에 더해, 또한 이하의 식을 사용함으로써 구할 수 있다(예를 들어 비특허문헌 5 참조).

단, SE는 E_t+1이 취할 수 있는 모든 값의 집합이다. 이 경우의 프레임마다의 감정적 상태 e_t의 감정적 상태 확률은,

를 계산함으로써 구할 수 있다.

이상의 처리를 모든 프레임에 걸쳐서 행함으로써, 모든 프레임에 대해서 감정적 상태 확률을 계산하는 것이 가능하다.

이상이 스텝 S150의 상세 처리이다.

스텝 S160에서, 스텝 S150에서 계산된 감정적 상태 확률이 감정 판정 수단에 취입되어, 감정적 상태 확률에 기초하여 감정적 상태가 판정된다.

이하, 감정적 상태를 판정하는 스텝 S16O의 처리의 일례를 설명한다. 또한, 이하의 설명에서는, 취급하는 감정적 상태의 카테고리를 순서대로 e¹, e², …, e^K라고 인덱스를 붙인다. 예를 들어 기쁨, 분노, 슬픔, 공포, 놀람, 초조함, 평정의 감정적 상태를 취급하는 경우에는, e¹:기쁨, e²:분노, e³:슬픔, e⁴:공포, e⁵:놀람, e⁶:초조함, e⁷:평정 등으로 하면 되고, 이 경우에는 K=7이다.

스텝 S150에서, 프레임 번호 t의 프레임 F_t에서의 감정적 상태가 e^k인 감정적 상태 확률 p^k _t=p(e_t=e^k｜{x_t})가 k=1, …, K에 대해서 각각 계산되어 있기 때문에, 그것을 사용하여 가장 단순하게는, 이 확률 p^k _t가 가장 높은 e^k에 대응하는 감정적 상태를, F_t에서의 감정적 상태라고 판정할 수 있다. 또는, p^k _t가 높은 값을 취하는 e^k를, 내림차순으로 하나 이상 선출하고, 이들의 감정적 상태를 가지고 판정 결과로 해도 된다.

또는, 감정적 상태에 따라서는, 동 시각에 상호 상기하기 쉬운 것과, 어려운 것이 있다. 예를 들어 기쁨과 슬픔은 동시에 상기하기 어려운 것은 용이하게 상상 할 수 있다. 이러한 현상을 고려하여, 어느 감정적 상태 e^k에 대응하는 감정적 상태 확률 p^k _t로부터, 그 밖의 감정적 상태 {e¹, e², …, e^k-1, e^k+1, …, e^K}에 대응하는 감정적 상태 확률 {p¹ _t, p² _t, …, p^k-1 _t, p^k+1 _t, …, p^K _t}의 볼록 결합인,

을 감산하고, 규격화한 것을 새로운 p^k _t로 하여, 이것을 각각의 감정적 상태간에서 비교해도 된다.

또는, 간단하게, 미리 어느 임계값을 정하고, 이것보다 값이 큰 p^k _t에 대응하는 감정적 상태 e^k를, 그 프레임 F_t의 감정적 상태라고 판정해도 된다.

이상의 처리를 모든 프레임에 걸쳐서 행함으로써, 프레임마다 감정적 상태를 판정하는 것이 가능하다.

이상이 스텝 S160의 상세 처리이다.

이상의 스텝 S110∼S160에 의해, 임의의 음성 신호 데이터를 포함하는 컨텐츠에 대해서, 프레임마다 감정적 상태를 판정하는 것이 가능해진다.

그리고 스텝 S170에서는, 스텝 S150에서 계산된 감정적 상태 확률, 스텝 S16O에서 판정한 감정적 상태에 기초하여 요약 컨텐츠를 생성하여 출력한다.

이하, 요약 컨텐츠를 생성하는 처리의 일례에 대해서 설명한다.

본 발명의 원리에 의하면, 프레임마다 감정적 상태 확률 및 감정적 상태가 주어지기 때문에, 최소단위로서는 프레임 단위에서의 요약 제시가 가능한데, 요약된 컨텐츠는 시청자에게 있어서 의미가 이해 가능한 것이 바람직하다. 따라서, 본 실시형태에서는, 연속하는 하나 이상의 프레임을 하나의 구간으로서 합치는 처리를 행해 둔다. 이하, 이 구간을 음성 소단락이라고 한다.

여기서, 음성 소단락을 생성하는 방법의 일례를 설명한다.

우선, 컨텐츠 음성 신호 데이터로부터 발화 구간이라고 생각되는 구간을 추출한다. 이러한 구간을 추출하는 방법의 일례로서는, 음성 파형에서의 발화 구간의 주기성을 이용하여, 음성 신호 데이터의 자기 상관 함수가 높은 구간을 발화 구간이라고 간주하여 해당 구간을 추출하는 방법이 있다.

구체적으로는, 예를 들어 프레임마다 자기 상관 함수값을 어느 소정 임계값과 비교하여, 임계값보다 크면 발화 프레임이라고 판정하고, 그렇지 않으면 비발화프레임이라고 판정한다. 임계값보다 높은 자기 상관 함수값을 나타내는 일련의 발화 프레임의 구간을 발화 구간이라고 판정하고, 그렇지 않은 구간을 비발화 구간이라고 판정한다. 이 임계값을 주는 방법은, 미리 상수, 예를 들어 0.7로서 주어도 되고, 요약할 컨텐츠 전체의 자기 상관 함수값을 계산한 후, 일반의 경우의 발화 시간(또는 유성(有聲) 시간)과 비발화시간 (또는 무성(無聲) 시간)의 비율을 기준 으로 하여, 이 기준에 가까운 발화 시간 비율이 되도록 임계값을 결정해도 된다.

본 실시형태에서는, 발화 구간을 추출하는 다른 방법으로서, 음성 특징량 벡터에 포함되어 있는 기본 주파수가 소정 주파수 범위(예를 들어 50∼350Hz) 내에 들어가 있는 일련의 프레임을 발화 구간이라고 판정해도 된다.

이상의 처리에 의해, 컨텐츠 중에서 프레임 단위로 발화 구간과 비발화 구간을 분리하는 것이 가능하다.

그 다음에, 추출된 발화 구간 중, 연속하는 발화라고 생각되는 일련의 발화 구간의 집합을 하나의 음성 소단락으로서 합쳐 간다. 이러한 음성 소단락을 생성하는 방법의 일례에 대해서 설명한다.

컨텐츠 중의 발화 구간 F'의 집합을 시각이 빠른 것부터 순서대로 {F'₁, F'₂, …, F'_N}으로 한다. 여기서, N은 발화 구간의 총 수이다.

그 다음에, 시간축상 이웃하는 발화 구간 F'_i, F'_i+1의 시간 간격, 즉 발화 구간 F'_i의 종료 시각 t_iend와, 다음 발화 구간 F'_i+1의 개시 시각 t_i+1start에 대해서, 그 시각의 차 t_i+1start-t_iend를 계산한다.

그 다음에, 그 계산 결과를 미리 결정한 어느 임계값과 비교하여 작으면, F'_i와 F'_i ₊₁은 연속하는 발화 구간이라고 생각하고, 동일한 음성 소단락에 속하는 것으로 한다. 그리고 이것을 모든 발화 구간에 걸쳐 반복함으로써, 연속 발화라고 생각되는 일련의 발화 구간을 음성 소단락으로 합칠 수 있다.

또, 음성 소단락을 생성하는 방법의 다른 예로서는, 다음과 같은 것이 생각된다.

우선, 요약할 컨텐츠 전체에 걸쳐 발화 구간마다 개시 시각, 종료 시각을 구하고, 이들을 합쳐서 2차원의 벡터로 간주한다.

그리고 이 벡터에 대해서, 요약할 컨텐츠 전체의 발화 시간과 비발화 시간의 비가, 일반의 경우의 발화 시간과 비발화 시간의 비율과 동일한 정도가 되도록 바텀업 클러스터링법을 적용하여 음성 소단락을 생성한다. 예를 들어 일반의 경우의 발화 시간과 비발화 시간의 비율이 6:4였다고 한다. 이 때, 다음과 같이 음성 소단락을 구성할 수 있다.

우선, 발화 구간 F'_i의 개시 시각 t_istart와 종료 시각 t_iend를 나열한 벡터를 t_i로 한다. 이 때, 컨텐츠 중의 전체 발화 시간은 t_istart-t_iend의 총합에 의해 정의할 수 있고, 비발화 시간은 컨텐츠 전체의 길이로부터 전체 발화 시간을 감산한 것으로서 정의할 수 있다. 각각의 벡터 t_i에 대해서 벡터 t_i+1 또는 t_i-1의 놈(norm)을 계산한다. 이 놈은 예를 들어 2차의 놈｜t_i-t_i-1｜²이면 (t_istart-t_i-1start)²+(t_iend-t_i-1end)²에 의해 계산한다. 이 놈에 임계값을 마련하고, 임계값 이하인 발화 구간끼리를 연결함으로써 새로운 발화 구간 F'_i를 정의하고, 그 개시 시각 t_istart와 종료 시각 t_iend를 다시 계산한다. 이것에 의해, 시각적으로 가까운 발화 구간은 순서대로 일련의 발화 구간, 즉 음성 소단락으로 합쳐져 가는 것이 되고, 발화 시간은 증가한다. 이하, 이것을 놈에 대한 임계값을 단계적으로 높게 하여, 발화 구간과 비발화 구간의 시간의 비율이 6:4에 가장 가까운 비율이 될 때까지 반복하면 된다.

이 방법은, 미리 임계값을 결정해 두는 방법과는 상이하게, 컨텐츠간의 발화 속도의 차를 흡수하여 적응적으로 음성 소단락을 구성할 수 있다.

그 밖의 방법의 일례로서는, 음성의 연속 발화, 비발화에 상관없이, 음성의 주기성에 기초하여 음성 소단락을 구성하는 방법이 있다. 이 주기성은 상기 서술한 예와 마찬가지로, 자기 상관 함수의 값을 사용하여 판단하는 것으로 해도 되고, 스펙트럼에 의해 판단하는 것으로 해도 된다.

자기 상관 함수값을 사용하는 경우에는, 분류 기준을 마련하고, 이것에 기초하여 음성 소단락을 구성해도 된다. 예를 들어, 자기 상관 함수값이 0.3 이하이면 주기성이 낮다, 0.3보다 크고 0.7 이하이면 주기성은 약간 높다, O.7보다 큰 경우에는 주기성이 높다, 등과 같이 분류 기준을 마련하고, 이것에 기초하여 음성 소단락을 구성해도 된다.

예를 들어 인접 구간의 자기 상관 함수값이 이들 3개의 영역의 하나로부터 다른 하나로 변화하고 있는 경우는, 그 인접 구간 사이를 음성 소단락의 경계라고 판정한다. 또는, 명확한 분류 기준을 마련하지 않고, 자기 상관 함수의 값이 어느 일정값보다 크게 변화된 인접 구간 사이를 음성 소단락의 경계로 하여, 음성 소단락을 구성해도 된다.

스펙트럼을 사용하는 경우도, 자기 상관 함수값을 사용하는 경우와 마찬가지 로, 분류 기준을 마련하거나 변화의 크기에 기준을 마련하여 음성 소단락을 구성한다. 분류 기준을 마련할 경우에는, 예를 들어 0∼500Hz의 스펙트럼의 평균 파워가 일정값 이상/이하인지, 500Hz∼1kHz의 스펙트럼의 평균 파워가 어느 일정값 이상/이하인지 등에 따라 다양한 분류 기준을 설정하고, 어느 구간이 해당하는 분류 기준이 그 직전의 구간이 해당하는 분류 기준으로부터 변화되고 있었던 경우, 이들 2개의 구간 사이를 음성 소단락의 경계라고 판정한다. 또, 주목하는 대역(예를 들어 0∼500Hz)을 미리 정해 두고, 인접 구간에서 그 대역의 스펙트럼의 평균 파워가 어느 일정값보다 크게 변화된 경우(예를 들어 평균 파워 차분 또는 평균 파워비가 소정값 이상이 된 경우), 인접 구간 사이를 음성 소단락의 경계로 하여, 음성 소단락을 구성해도 된다.

이상의 처리에 의해, 컨텐츠로부터 프레임 단위로 음성 소단락을 추출하는 것이 가능하다.

이상의 처리에 의해, 프레임 전체를 몇 개의 음성 소단락으로 합치는 것이 가능하다.

그 다음에, 구성한 음성 소단락 단위에서의 감정적 상태의 감정도를 계산한다. 이하, 이 감정도를 계산하는 방법의 일례를 도 7에 기초하여 설명한다.

컨텐츠 중의 음성 소단락 S의 집합을 시각이 빠른 것부터 순서대로 {S₁, S₂, …, S_NS}로 한다. 예를 들어 도 7 중에서는, 음성 소단락 S_i-1, S_i, S_i+1을 도시하고 있다. NS는 음성 소단락의 총 수이다. 또, 어느 음성 소단락 S_i에 포함되는 일련 의 프레임을 {f₁, f₂, …, f_NFi}라고 나타낸다. NFi는 음성 소단락 S_i에 포함되는 프레임수이다.

각 프레임 f_t는 감정적 상태 확률 계산 수단에 의해, 감정적 상태 확률 p(e_t｜{x_t})가 식 (7) 또는 (9)에 의해 주어져 있다. 음성 소단락 S_i의 감정적 상태 e가 e^k인 감정도 p_Si(e=e^k)는, 예를 들어 평균값을 나타내는 다음 식에 의해 계산하는 것이 생각된다.

또는, 예를 들어 최대값을 나타내는 다음 식에 의해 계산해도 된다.

이들 이외에도, 예를 들어, 음성 소단락 내에서 윈도잉(windowing)하고 나서 감정도를 계산하는 등, 방법은 여러가지로 생각되지만, 음성 소단락간에서 감정도를 비교하는 경우가 있기 때문에, 감정도는 어느 일정한 값의 범위 내, 예를 들어 0∼1 사이에 들어가도록 하는 것이 바람직하다.

또한, 도 7에는 각 음성 소단락 S_i 내의 일련의 프레임에 대해서, 각각의 감정적 상태 e¹, e², …, e^K에 대한 결정된 감정도 p_Si(e=e¹), p_Si(e=e²), …, p_Si(e=e^K)를 나타내고 있다.

이상과 같은 계산을, 모든 음성 소단락에 대해서 행하고, 모든 음성 소단락에 대해서 모든 감정적 상태의 감정도를 계산하는 것이 가능하다.

그 다음에, 도 1에서의 스텝 S170의 요약 컨텐츠 생성에 대해서 설명한다.

요약 컨텐츠는 감정도가 높은 음성 소단락을 포함하는 일련의 음성 소단락에 의해 구성된 목표 시간 길이 이내의 음성 단락을 컨텐츠로부터 순차 추출함으로써 작성한다. 음성 단락의 목표 시간은, 예를 들어 5sec(초) 또는 10sec정도로 설정하고, 이것에 가까워지도록 음성 소단락을 합쳐 간다.

이 처리 방법을, 도 8을 사용하여 설명한다. 컨텐츠로부터 추출된 전체 음성 소단락 중, 최후로부터 거슬러 오르는 방향으로 목표 시간 내에서, 또는 최초로부터 진행하는 방향으로 목표 시간 내에서 가장 높은 감정도(어느 감정적 상태의 것이어도 됨)가 부여되어 있는 음성 소단락을 S_i로 한다. 이 음성 소단락 S_i를 기점으로, 더욱 목표 시간에 이를 때까지, 시각을 i-1, i-2, …로 거슬러 오르는 방향, 또는 기점으로부터 시각을 i+1, i+2, …로 진행하는 방향으로 합쳐 간다. 또는, 그 양방향으로 교대로 합쳐 가도 된다. 이렇게 해서 하나의 음성 단락이 정해지면, 다음 목표 시간 내의 가장 높은 감정도의 음성 소단락을 기점으로 하여 마찬가지의 처리에 의해 음성 단락을 정한다. 이러한 처리를 전체 컨텐츠에 걸쳐서 실 행함으로써 일련의 음성 단락을 생성할 수 있다.

예를 들어 시각을 거슬러 오르는 방향으로 합쳐 가는 경우에는, 요약 컨텐츠에서, 감정적 상태가 강하게 나타나고 있는 음성 소단락 S_i가, 도 8에 도시된 바와 같이, 음성 단락 VC의 최후에 배치된다. 이 음성 단락 VC를 시청하면, 최후의 음성 소단락 S_i보다 선행하는 음성 소단락 S_i-1, S_i-2, …에, 감정적 상태가 강해지는 원인이 된 사상이 도시되는 가능성이 높다. 따라서, 감정적 상태가 나타남에 이르는 원인과 결과가 반영된 요약 컨텐츠로 할 수 있는 이점이 있다.

한편, 시각을 진행하는 방향으로 합쳐 가는 경우에는, 요약 컨텐츠에서, 감정적 상태가 강하게 나타나고 있는 음성 소단락 S_i가 음성 단락의 최초에 배치된다. 이 음성 단락을 시청하면, 인상적인 감정적 상태가 나타나 있는 구간을 최초로 시청할 수 있는 요약 컨텐츠가 되고, 보다 인상적인 요약 컨텐츠가 되는 이점이 있다.

또는, 인접 음성 소단락간의 시간 길이가, 어느 일정한 임계값 이하인 경우에는 이들을 합침으로써 음성 단락을 구성해도 된다.

도 9는 상기 서술한 바와 같이 하여 정해진 일련의 음성 단락 VC1, VC2, VC3을 도시하고, VC1은 3개의 음성 소단락 S₁₁, S₁₂, S₁₃으로 구성되고, VC2는 4개의 음성 소단락 S₁₄, S₁₅, S₁₆, S₁₇로 구성되며, VC3은 3개의 음성 소단락 S₁₈, S₁₉, S₂₀으로 구성되어 있는 예를 도시하고 있다.

감정도는 음성 소단락 단위로 주어져 있기 때문에, 각 음성 단락은 (음성 소단락의 수)×(감정적 상태수)만큼 감정도를 가지고 있게 된다. 도 9에서는 각 음성 단락 내의 각각의 음성 소단락 S_i에 대해서 구해져 있는 감정도 p_Si(e=e¹), p_Si(e=e²), …, p_Si(e=e^K)를 ×표시로 도시하고, 동일한 종류의 감정적 상태 e^k에 대한 감정도를 직선으로 연결하여 도시하고 있다.

실제로는, 각 감정적 상태 e^k에 대한 감정도에 기초하여, 각 음성 단락 내의 누적 감정도를 계산한다. 이 계산 방법으로서는, 예를 들어 각 음성 소단락의 감정도의 평균, 또는 가중 평균, 또는 최대값을 음성 단락에 걸쳐서 누적 가산하여 음성 단락의 누적 감정도를 구한다. 또는, 누적 가산 결과를 그 음성 단락의 음성 소단락수로 나누어 얻은 평균값을 누적 감정도로 해도 된다.

요약 컨텐츠는 누적 감정도(각 음성 단락에는 감정적 상태수 K개와 동일한 수의 누적 감정도가 얻어져 있음)가 최대의 음성 단락으로부터 내림차순으로 랭킹되고, 전체 컨텐츠와의 비인 압축률을 어느 일정한 목표값에 가까워지도록 상위로부터 순서대로 음성 단락을 추출함으로써 작성해도 된다.

또한, 이 목표값은 시청자가 희망하는 것을 입력해도 된다. 또한, 시청자가 원하는 감정적 상태에 대한 누적 감정도의 원하는 기준값을 입력하고, 그 기준값에 정합하는 음성 단락을 우선적으로 추출하여 요약을 작성해도 된다.

또한, 컨텐츠가 시청자가 바라는 감정적 상태에 있는 부분을 포함하는지 여 부를 판정하는 방법의 일례를 도 10에 기초하여 설명한다.

우선, 스텝 S181에서, 음성 단락마다 부여된 각 감정적 상태 e^k(k=1, …, K)의 누적 감정도에 대해서, 예를 들어 컨텐츠 전체를 통한 평균, 가중 평균, 최대값 등을 계산하고, 그 계산 결과에 기초하여 각 감정적 상태 e^k에 대한 컨텐츠 전체의 감정도(이후 컨텐츠 감정도라고 하고, PC^k로 나타내는 것으로 함)를 각각 계산한다. 이 K개의 컨텐츠 감정도 PC^k(k=1, …, K)에 의해, 그 컨텐츠가 어떠한 감정적 상태를 어느 정도 포함하고 있는지에 대한 지표를 줄 수 있다.

그 다음에, 스텝 S182에서, 시청자가 원하는 감정적 상태 e^k와 그 감정적 상태에서의 원하는 컨텐츠 감정도 RPC^k를 조건으로 하여 입력한다.

그 다음에, 스텝 S183에서, 컨텐츠에 부여된 컨텐츠 감정도 PC^k와, 입력 조건 RPC^k를 비교 참조함으로써, 컨텐츠가 시청자가 원하는 감정적 상태 e^k를 포함하는 컨텐츠인지 여부의 판정을 행한다.

그 판정 방법은, 예를 들어 조건으로서 지정된 감정적 상태 e^k의 컨텐츠 감정도 RPC^k와, 컨텐츠에 부여된 대응하는 감정적 상태 e^k의 컨텐츠 감정도 PC^k의 차의 절대값 ｜RPC^k-PC^k｜가, 미리 결정된 임계값보다 작으면 그 컨텐츠는 조건을 만 족하는 컨텐츠라고 판정하는 것이 생각된다. 또는, PC^k>RPC^k이면 조건을 만족하는 컨텐츠라고 판정해도 된다.

그리고 스텝 S184에서, 시청자가 원하는 컨텐츠이면, 요약 컨텐츠를 작성하고, 판정 결과와 함께 제시한다.

이상의 처리에 의해, 컨텐츠가 시청자가 바라는 감정적 상태에 있는 부분을 포함하는지 여부를 판정할 수 있다.

이상이 스텝 S170에서의 요약 컨텐츠 생성 처리에 대한 상세이다.

이상, 본 실시형태에서의 감정 검출 방법을 상세하게 설명했다.

또한, 본 실시형태의 감정 검출 방법에서의 각 수단의 일부 혹은 전부의 기능을 컴퓨터의 프로그램으로 구성하고, 그 프로그램을 컴퓨터를 사용하여 실행해서 본 발명을 실현할 수 있는 것, 본 실시형태의 감정 검출 방법에서의 순서를 컴퓨터 프로그램으로 구성하고, 그 프로그램을 컴퓨터에 실행시킬 수 있는 것은 말할 필요도 없다.

도 11은 본 발명에 의한 감정 검출 장치의 기능 구성을 도시하는 블럭도이다. 도 11에서 감정 검출 장치(8O0)는 음성 특징량 추출부(820), 음성 특징량 출현 확률 계산부(830), 감정적 상태 천이 확률 계산부(840), 감정적 상태 확률 계산부(850), 감정적 상태 판정부(860), 컨텐츠 요약부(870)로 구성된다.

또한, 음성 특징량 출현 확률 계산부(830)는 제1 통계 모델(810A)을, 감정적 상태 천이 확률 계산부(840)는 제2 통계 모델(810B)을 각각 구비하고 있다.

제1 및 제2 통계 모델(810A, 810B)은 학습용 음성 신호 데이터에 포함되는 음성 특징량 및 그 음성으로부터 추측되는 감정적 상태에 기초하여, 종래의 수법에 의해 학습을 행하여 구축한 음성 특징량 출현 확률 분포 p^A(x_t｜E_t)와 감정적 상태 천이 확률 분포 p^B(E_t｜E_t-1)을 각각 모델화한 것이다.

음성 특징량 추출부(820)는 입력되는 컨텐츠 음성 신호 데이터에 포함되는 음성 특징량 벡터를 프레임마다 추출한다.

음성 특징량 출현 확률 계산부(830)는 추출한 음성 특징량 벡터가 감정적 상태에서 출현할 확률 p(x_t｜E_t)를 제1 통계 모델(810A)에 기초하여 계산한다.

감정적 상태 천이 확률 계산부(840)는 제2 통계 모델(810B)에 기초하여, 감정적 상태의 시간적인 천이 확률 p(E_t｜E_t-1)을 계산한다.

감정적 상태 확률 계산부(850)는 음성 특징량 출현 확률 계산부(830)가 계산한 출현 확률 p(x_t｜E_t)와, 감정적 상태 천이 확률 계산부(840)가 계산한 천이 확률 p(E_t｜E_t-1)에 기초하여, 식 (5), (6)을 사용하여 감정적 상태 확률 p(E_t｜{x_t})를 계산한다.

감정적 상태 판정부(860)는 감정적 상태 확률 계산부(850)가 계산한 감정적 상태 확률 p(E_t｜{x_t})에 기초하여 입력 음성 신호 데이터의 각 프레임의 감정적 상태 e^k(k=1, …, K)를 판정한다.

컨텐츠 요약부(870)는 감정 검출 장치(800)에 필요에 따라서 구비되는 것이며, 판정된 감정적 상태, 감정적 상태 확률, 연속 발화 시간 및 연속 비발화 시간 중 하나 이상에 기초하여, 감정적 상태에 있는 구간을 검출하고, 이것을 기초로 컨텐츠의 요약을 작성한다.

도 11에 도시한 감정 검출 장치(800)의 기능 구성을 실시하는 컴퓨터의 구체적인 장치 구성예를 도 12에 기초하여 설명한다.

도 12 중의 입력부(210)에 외부로부터 디지털 신호로서 입력된 음성 신호 데이터를 포함하는 컨텐츠는 제어부인 CPU(Central Processing Unit)(221)의 제어에 의해 하드디스크 장치(222)에 일시 저장된다.

입력부(210)에는, 예를 들어 마우스 등의 포인팅 디바이스(212)와 키보드(211) 등이 접속되어 있다.

또한, 컨텐츠는 통신 네트워크를 통하여 수신된 컨텐츠여도 되고, CD(Compact Disk), DVD(Digital Versatile Disk) 등으로부터 광학 디스크 드라이브 장치(213)를 사용하여 독출된 컨텐츠여도 된다.

표시부(230)는, 예를 들어 액정화면 등의 모니터 화면을 가지고, 키보드(211) 또는 포인팅 디바이스(212)의 조작에 따라 CPU(221)로부터 출력하는 정보를 표시할 수 있다. 표시부(230)의 모니터 화면에는 입력 데이터, 처리 경과, 처리 결과, 요약, 컨텐츠, 그 밖의 정보가 필요에 따라서 표시된다. 또, 음성도 재생할 수 있는 것으로 한다.

도 11에 도시한 감정 검출 장치(800)에서의 음성 특징량 추출부(820), 음성 특징량 출현 확률 계산부(830), 감정적 상태 천이 확률 계산부(840), 감정적 상태 확률 계산부(850), 감정적 상태 판정부(860), 컨텐츠 요약부(870)의 처리 기능을 기술한 프로그램은 도 12 중의 CPU(221)에 의해 실행되어 실현된다. 또한, 그 프로그램은, 예를 들어 하드디스크 장치(222)에 저장되어 있고, 실행시에는 필요한 프로그램 및 데이터가 RAM(Random Access Memory)(224)에 읽힌다. 그 읽힌 프로그램은 CPU(221)에 의해 실행된다.

하드디스크 장치(222)에는 그 밖에 제1 통계 모델(810A)과 제2 통계 모델(810B)이 저장되어 있고, 또, 입력된 컨텐츠가 저장된다. R0M(Read 0nly Memory)(223)은 컴퓨터를 기동하기 위한 기본 프로그램, 그 밖의 프로그램 및 제어용의 파라미터 등을 기억한다.

출력부(24O)는 부가적 기능으로서 CPU(221)의 프로그램 실행에 의해 입력된 컨텐츠에서의 음성 신호 데이터 중의 감정적 상태인 부분을 추출하고, 이것에 기초하여 생성한 요약 컨텐츠를 출력하는 기능을 가진다. 또한, 출력부(240)는 상기 생성한 요약 컨텐츠를 CD, DVD 등에 기록하는 기능을 포함하고 있어도 된다. 출력부(240)는 통신 기능을 가지고, 외부에 데이터를 송신 가능한 것이어도 된다. 출력부(240)는 음성 신호 데이터에 대응하는 구간의 영상 신호 데이터를 추출하고, 요약 컨텐츠로서 필요에 따라서 음성과 함께 출력해도 된다.

이상과 같이, 본 실시형태에서는, 음성 특징량으로서 기본 주파수의 시간 변동 특성의 계열을 포함함으로써, 기본 주파수의 결손이 있는 경우에도 그것을 보완하는 효과를 얻을 수 있어, 보다 안정적인 판정을 할 수 있다. 이것은 감정적 상 태에서의 발화에서, 기본 주파수를 종종 추출할 수 없다는 종래 기술의 문제에 대처한 것이다. 또, 보존하는 것은 제1 및 제2 통계 모델의 함수형을 나타내는 부호 및 그 파라미터의 부호만이면 되어, 사용하는 메모리, 및 계산 시간 비용을 보다 줄일 수 있다.

이하에 이 본 실시형태에 의해 원하는 감정적 상태를 판정하고, 요약 컨텐츠 생성을 행하는 실시예를 나타낸다.

[제1 실시예]

제1 실시예는 「감정적임」이거나 「감정적이지 않음」이라는 2종류의 감정적 상태를 다루고, 각각을 판정하는 실시예이다. 제1 실시예를 이하에 설명한다.

제1 실시예에서는, 학습용 음성 신호 데이터 중의 「감정적임」이라고 판단되는 구간에 「감정적」이라고 라벨 붙임을 행하고, 그 이외의 구간에서 「감정적이지 않음」이라고 판단되는 구간에 「비감정적」이라고 라벨 붙임을 행한다.

이 학습용 음성 신호 데이터에서, 라벨 붙임이 시행된 구간에 포함되는 프레임을 모두 추출하고, 각각 추출한 구간에 시행된 라벨과 동일한 라벨을 프레임에 부여한다. 이것에 의해, 프레임 단위로 라벨 붙임된 학습용 음성 신호 데이터를 얻을 수 있다.

이 학습용 음성 신호 데이터에 기초하여, 음성 특징량 출현 확률을 계산하기 위한 제1 통계 모델 p^A(x_t｜E_t)(예를 들어 도 11 중의 구체적인 제1 통계 모 델(810A))와 감정적 상태 천이 확률을 계산하기 위한 제2 통계 모델 p^B(E_t｜E_t-1)(예를 들어 도 11 중의 구체적인 제2 통계 모델(810B))을 구축하여 기억시켜 둔다.

제1 실시예에서의 감정적 상태 판정의 순서는 이하와 같다.

우선, 입력된 컨텐츠로부터 음성 신호 데이터를 취입하고, 프레임 단위로 분할한다(스텝 1). 그 다음에, 프레임마다 음성 특징량 벡터를 추출한다(스텝 2). 그리고 미리 구축해 둔 제1 통계 모델을 사용하여, 프레임마다 「감정적임」의 확률과, 「감정적이지 않음」의 확률을 계산하고, 「감정적이지 않음」의 확률과 비교하여, 「감정적임」의 확률쪽이 높은 프레임을 「감정적임」의 프레임으로 판정한다(스텝 3).

[제2 실시예]

제2 실시예는 상기 제1 실시예에서 계산한 프레임마다의 「감정적임」의 감정적 상태 확률, 및 「감정적이지 않음」의 감정적 상태 확률을 사용하여, 음성 단락을 생성하고, 컨텐츠의 요약을 생성하는 실시예이다.

제2 실시예에서도 제1 실시예의 스텝 1∼스텝 3과 동일한 처리 순서를 행한다. 스텝 3에 이어서, 발화 프레임을 자기 상관 함수값을 이용하여 추출한 후, 전체 프레임에 대해서, 음성 단락 구간과 그 이외의 구간의 비가 어느 일정한 목표값에 가까워지도록 바텀업 클러스터링법을 적용하여 음성 단락을 생성한다(스텝 4).

그 다음에, 스텝 4에서 생성한 각 음성 단락에 대해서, 「감정적임」의 누적 감정도와 「감정적이지 않음」의 누적 감정도를 계산한다(스텝 5). 그리고 다음 중 어느 하나의 제시 방법을 선택하여, 요약 컨텐츠를 작성하고 제시한다(스텝 6).

제1 제시 방법으로서는, 시청자가 요약 시간을 입력하고, 음성 단락에 대해서, 「감정적임」의 누적 감정도가 높은 것으로부터 내림차순으로, 입력된 요약 시간에 가장 가까운 시간만큼만 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

제2 제시 방법으로서는, 음성 단락에 대해서, 「감정적임」의 누적 감정도가 높은 것으로부터 내림차순으로, 미리 정한 요약 시간에 가장 가까운 시간만큼만 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

제3 제시 방법으로서는, 시청자가 임계값을 입력하는, 혹은 미리 임계값을 결정해 두고, 이 임계값보다 높은 「감정적임」의 누적 감정도를 가지는 음성 단락을 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

[제3 실시예]

제3 실시예는 감정적 상태로서, 몇 개의 구체적 상태(즉 기쁨, 분노, 슬픔, 공포, 놀람, 초조함, 평정 등의 다양한 감정적 상태)를 다루고, 각각을 판정하는 실시예이다.

제1 실시예와 마찬가지로, 학습용 음성 신호 데이터 중의, 각각의 감정적 상태에 있다고 생각되는 구간에 대응하는 라벨을 부여한다.

이 학습용 음성 신호 데이터로부터 라벨 붙임이 시행된 구간에 포함되는 프레임을 모두 추출하고, 각각 추출한 구간에 시행된 라벨과 동일한 라벨을 프레임에 부여한다. 이것에 의해, 프레임 단위로 라벨 붙임된 학습용 음성 신호 데이터를 얻을 수 있다. 이 학습용 음성 신호 데이터에 기초하여, 음성 특징량 출현 확률을 계산하는 제1 통계 모델과, 감정적 상태 천이 확률을 계산하는 제2 통계 모델을 구축하여 기억시켜 둔다.

제3 실시예에서의 감정적 상태 판정의 순서는 이하와 같다.

우선, 입력된 컨텐츠로부터 음성 신호 데이터를 취입하고, 프레임 단위로 분할한다(스텝 1). 그 다음에, 프레임마다 음성 특징량 벡터를 추출한다(스텝 2). 그리고 미리 구축해 둔 제1 및 제2 통계 모델을 사용하여, 프레임마다 각 감정적 상태 확률을 계산하고, 가장 감정적 상태 확률이 높은 감정적 상태를 그 프레임에서의 감정적 상태라고 판정한다(스텝 3).

[제4 실시예]

제4 실시예는 상기 제3 실시예에서 계산한 프레임마다의 각 감정적 상태 확률을 사용하여, 음성 단락을 생성하고 컨텐츠의 요약을 생성하는 실시예이다.

제4 실시예에서의 스텝 1∼스텝 3까지는 제3 실시예의 경우와 동일한 순서로 행한다. 그 이후에는 이하와 같은 순서가 된다.

스텝 3에 이어서, 발화 프레임을 자기 상관 함수값을 이용하여 추출한 후, 모든 프레임에 대해서, 음성 단락 구간과 그 이외의 구간의 비가 어느 일정한 목표값에 가까워지도록 바텀업 클러스터링법을 적용하여 음성 단락을 생성한다(스텝 4).

그 다음에, 스텝 4에서 생성한 각 음성 단락에 대해서, 각 감정적 상태의 누적 감정도를 계산한다(스텝 5). 그 다음에, 다음 중 어느 하나의 방법을 선택하 여, 요약 컨텐츠를 작성하고 제시한다(스텝 6).

제1 제시 방법으로서는, 시청자가 원하는 감정적 상태, 및 요약 시간을 입력하고, 음성 단락에 대해서, 입력된 감정적 상태의 누적 감정도가 높은 것으로부터 내림차순으로, 입력된 요약 시간에 가장 가까운 시간만큼만 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

제2 제시 방법으로서는, 시청자가 원하는 감정적 상태를 입력하고, 음성 단락에 대해서, 입력된 감정적 상태의 누적 감정도가 높은 것으로부터 내림차순으로, 미리 정한 요약 시간에 가장 가까운 시간만큼만 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

제3 제시 방법으로서는, 시청자가 입력한 감정적 상태, 및 시청자가 입력한 혹은 미리 결정한 임계값에 기초하여, 입력된 감정적 상태에 대해서, 이 임계값보다 높은 누적 감정도를 가지는 음성 단락을 추출하고, 결합하여 요약 컨텐츠를 작성하고 제시한다.

[제5 실시예]

제5 실시예는 상기 제3 실시예에서 계산한 프레임마다의 각 감정적 상태 확률 및 판정된 감정적 상태를 사용하여, 컨텐츠가 시청자가 지정한 감정적 상태를 포함하는지 여부의 판정을 행하는 실시예이다.

제5 실시예의 스텝 1로부터 스텝 5까지는 제4 실시예의 경우와 동일한 순서로 행한다. 그 이후에는 이하와 같은 순서가 된다.

스텝 5에 이어서, 다음 중 어느 하나의 판정 방법을 선택하여 컨텐츠의 판정 을 행한다.

제1 판정 방법으로서는, 시청자가 원하는 감정적 상태 및 컨텐츠 감정도의 임계값을 입력하고, 입력된 감정적 상태의 컨텐츠 감정도가 입력된 임계값보다 높은 경우에는 그 감정적 상태를 포함한다고 판정하고, 결과를 출력한다.

제2 판정 방법으로서는, 시청자가 원하는 감정적 상태를 입력하고, 입력된 감정적 상태의 컨텐츠 감정도가 미리 결정한 임계값보다 높은 경우에는 그 감정적 상태를 포함한다고 판정하고, 결과를 출력한다.

또한, 제5 실시예에서는, 상기 제4 실시예의 스텝 6과 마찬가지로, 판정된 컨텐츠에 대해서 요약을 생성하고 제시해도 된다.

이상, 본 발명의 실시형태에 대해 설명했는데, 본 발명은 설명한 실시형태에 한정되는 것이 아니라, 각 청구항에 기재한 범위에서 각종 변형을 행하는 것이 가능하다.

예를 들어 생성된 요약 컨텐츠를 포함하는 XML(eXtensible Markup Language) 데이터를 생성해도 된다. 범용적인 XML 데이터이면, 요약 컨텐츠의 이용성을 높일 수 있다.

Claims

입력된 음성 신호 데이터의 음성 특징량에 기초하여, 감정 검출 처리를 행하는 감정 검출 방법으로서,

상기 음성 신호 데이터로부터 분석 프레임마다, 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중, 하나 이상을 음성 특징량 벡터로서 추출하여, 이 음성 특징량 벡터를 기억부에 기억시키는 음성 특징량 추출 스텝과,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 신호 데이터에 기초하여 구성된 제1 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열을 조건으로 하여 상기 음성 특징량 벡터가 되는 음성 특징량 출현 확률을 산출하는 음성 특징량 출현 확률 계산 처리 스텝과,

제2 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열의 시간 방향으로의 천이 확률을 감정적 상태 천이 확률로서 산출하는 감정적 상태 천이 확률 계산 처리 스텝과,

상기 음성 특징량 출현 확률과 상기 감정적 상태 천이 확률에 기초하여 감정적 상태 확률을 계산하는 감정적 상태 확률 계산 처리 스텝과,

상기 산출된 감정적 상태 확률에 기초하여, 분석 프레임을 하나 이상 포함하는 각 구간의 감정적 상태에 관한 정보를 출력하는 정보 출력 스텝,

을 포함하는 것을 특징으로 하는 감정 검출 방법.
입력된 음성 신호 데이터의 음성 특징량에 기초하여, 감정 검출 처리를 행하는 감정 검출 방법으로서,

상기 음성 신호 데이터로부터 분석 프레임마다, 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중, 하나 이상을 음성 특징량 벡터로서 추출하여, 이 음성 특징량 벡터를 기억부에 기억시키는 음성 특징량 추출 처리 스텝과,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 신호 데이터에 기초하여 구성된 하나 이상의 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열에 대한 상기 음성 특징량 벡터를 조건으로 한 감정적 상태 확률을 계산하는 감정적 상태 확률 처리 스텝과,

상기 감정적 상태 확률에 기초하여, 상기 분석 프레임을 포함하는 구간의 감정적 상태를 판정하는 감정적 상태 판정 스텝과,

상기 판정된 감정적 상태에 관한 정보를 출력하는 스텝,

을 포함하는 것을 특징으로 하는 감정 검출 방법.
제2항에 있어서, 상기 감정적 상태 확률 처리 스텝은,

상기 하나 이상의 통계 모델 중 제1 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열을 조건으로 하여 상기 음성 특징량 벡터가 되는 음성 특징량 출현 확률을 산출하는 음성 특징량 출현 확률 계산 처리 스텝과,

상기 하나 이상의 통계 모델 중 제2 통계 모델을 사용하여 하나 이상의 감정적 상태의 계열의 시간 방향으로의 천이 확률을 감정적 상태 천이 확률로서 산출하는 감정적 상태 천이 확률 계산 처리 스텝과,

상기 음성 특징량 출현 확률과 상기 감정적 상태 천이 확률에 기초하여, 상기 감정적 상태 확률을 계산하는 스텝,

을 포함하는 것을 특징으로 하는 감정 검출 방법.
제1항 또는 제3항에 있어서, 상기 음성 특징량 출현 확률 계산 처리 스텝은, 하나 이상의 분석 프레임을 포함하는 구간에서, 상기 음성 특징량 출현 확률을, 상기 감정적 상태의 계열이 주어졌을 때의 음성 특징량 벡터의 조건부 출현 확률로서 구성된 상기 제1 통계 모델에 기초하여 계산하는 스텝인 것을 특징으로 하는 감정 검출 방법.
제1항 또는 제3항에 있어서, 상기 감정적 상태 천이 확률 계산 처리 스텝은, 하나 이상의 분석 프레임을 포함하는 구간에서, 상기 감정적 상태의 계열이 출현할 확률이, 이 구간보다 적어도 1 분석 프레임 이상 전의 구간의 감정적 상태의 계열을 주었을 때의 현분석 프레임에서의 감정적 상태의 계열의 조건부 천이 확률인 것으로서 구성된 상기 제2 통계 모델에 기초하여, 상기 감정적 상태 천이 확률을 계산하는 스텝인 것을 특징으로 하는 감정 검출 방법.
제2항 또는 제3항에 있어서, 상기 감정적 상태 판정 스텝은, 상기 감정적 상태 확률의 내림차순으로 상기 감정적 상태를 선출하고, 이 선출된 감정적 상태를 상기 분석 프레임을 포함하는 구간의 감정적 상태라고 판정하는 스텝을 포함하는 것을 특징으로 하는 감정 검출 방법.
제2항 또는 제3항에 있어서, 상기 감정적 상태 판정 스텝은, 하나의 상기 감정적 상태인 확률과, 그 이외의 감정적 상태인 확률의 볼록 결합의 차를 각각의 상기 감정적 상태에 대하여 계산하고, 이 차가 가장 큰 것으로부터 내림차순으로 하나 이상의 감정적 상태를 선출하고, 그 선출된 감정적 상태를 상기 분석 프레임을 포함하는 구간의 감정적 상태라고 판정하는 스텝을 포함하는 것을 특징으로 하는 감정 검출 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 또한 분석 프레임마다 음성 특징량 벡터와, 감정적 상태의 라벨이 부가된 학습용 음성 신호 데이터를 입력하는 스텝을 포함하는 것을 특징으로 하는 감정 검출 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 또한 분석 프레임마다 발화 프레임인지 여부를 판정하여, 하나 이상의 연속된 발화 프레임마다 발화 구간을 구성하고, 연속하는 하나 이상의 발화 구간마다 음성 소단락을 구성하며, 각 음성 소단락마다 그것에 포함되는 분석 프레임의 상기 감정적 상태 확률에 기초하여 감정적 상 태의 감정도를 계산하고, 이 감정도에 기초하여, 상기 입력된 음성 신호 데이터로부터 컨텐츠의 요약을 추출하는 스텝을 포함하는 것을 특징으로 하는 감정 검출 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 또한 분석 프레임마다 상기 음성 신호 데이터로부터 신호의 주기성을 구하고, 상기 주기성에 기초하여 하나 이상의 연속된 분석 프레임마다 구간을 구성하고, 이 구간마다 상기 감정적 상태 확률에 기초하여 감정적 상태의 감정도를 계산하고, 이 감정도에 기초하여, 상기 입력된 음성 신호 데이터로부터 컨텐츠의 요약을 추출하는 스텝을 포함하는 것을 특징으로 하는 감정 검출 방법.
입력된 음성 신호 데이터의 음성 특징량에 기초하여, 감정 검출 처리를 행하는 감정 검출 장치로서,

상기 음성 신호 데이터로부터 분석 프레임마다, 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중, 하나 이상을 음성 특징량 벡터로서 추출하여, 이 음성 특징량 벡터를 기억부에 기억시키는 음성 특징량 추출 수단과,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 데이터에 기초하여 구성된 제1 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열을 조건으로 하여 상기 음성 특징량 벡터가 되는 음성 특징 량 출현 확률을 산출하는 음성 특징량 출현 확률 계산 처리 수단과,

제2 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열의 시간 방향으로의 천이 확률을 감정적 상태 천이 확률로서 산출하는 감정적 상태 천이 확률 계산 처리 수단과,

상기 음성 특징량 출현 확률과 상기 감정적 상태 천이 확률에 기초하여 감정적 상태 확률을 계산하는 감정적 상태 확률 계산 처리 수단과,

상기 산출된 감정적 상태 확률에 기초하여, 분석 프레임을 하나 이상 포함하는 각 구간의 감정적 상태에 관한 정보를 출력하는 정보 출력 수단,

을 포함하는 것을 특징으로 하는 감정 검출 장치.
입력된 음성 신호 데이터의 음성 특징량에 기초하여, 감정 검출 처리를 행하는 감정 검출 장치로서,

상기 음성 신호 데이터로부터 분석 프레임마다, 기본 주파수, 기본 주파수의 시간 변동 특성의 계열, 파워, 파워의 시간 변동 특성의 계열, 발화 속도의 시간 변동 특성 중, 하나 이상을 음성 특징량 벡터로서 추출하여, 이 음성 특징량 벡터를 기억부에 기억시키는 음성 특징량 추출 처리 수단과,

각 분석 프레임의 상기 음성 특징량 벡터를 기억부로부터 독출하고, 미리 입력된 학습용 음성 신호 데이터에 기초하여 구성된 하나 이상의 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열에 대한 상기 음성 특징량 벡터를 조건으로 한 감정적 상태 확률을 계산하는 감정적 상태 확률 처리 수단과,

상기 감정적 상태 확률에 기초하여, 상기 분석 프레임을 포함하는 구간의 감정적 상태를 판정하는 감정적 상태 판정 수단과,

상기 판정된 감정적 상태에 관한 정보를 출력하는 정보 출력 수단,

을 포함하는 것을 특징으로 하는 감정 검출 장치.
제12항에 있어서, 상기 감정적 상태 확률 처리 수단은,

상기 하나 이상의 통계 모델의 하나로서 제1 통계 모델을 사용하여, 하나 이상의 상기 감정적 상태의 계열을 조건으로 하여 상기 음성 특징량 벡터가 되는 음성 특징량 출현 확률을 산출하는 음성 특징량 출현 확률 계산 처리 수단과,

상기 하나 이상의 통계 모델의 다른 하나로서 제2 통계 모델을 사용하여, 하나 이상의 감정적 상태의 계열의 시간 방향으로의 천이 확률을 감정적 상태 천이 확률로서 산출하는 감정적 상태 천이 확률 계산 처리 수단과,

상기 음성 특징량 출현 확률과 상기 감정적 상태 천이 확률에 기초하여, 상기 감정적 상태 확률을 계산하는 수단,

을 포함하는 것을 특징으로 하는 감정 검출 장치.
제11항 또는 제13항에 있어서, 상기 음성 특징량 출현 확률 계산 처리 수단은, 하나 이상의 분석 프레임을 포함하는 구간에서, 상기 음성 특징량 출현 확률을, 상기 감정적 상태의 계열이 주어졌을 때의 음성 특징량 벡터의 조건부 출현 확률로서 구성된 상기 제1 통계 모델에 기초하여 계산하는 수단인 것을 특징으로 하 는 감정 검출 장치.
제11항 또는 제13항에 있어서, 상기 감정적 상태 천이 확률 계산 처리 수단은, 하나 이상의 분석 프레임을 포함하는 구간에서, 상기 감정적 상태의 계열이 출현할 확률이, 이 구간보다 적어도 1 분석 프레임 이상 전의 구간에 감정적 상태의 계열을 주었을 때의 현분석 프레임에서의 감정적 상태의 계열의 조건부 천이 확률인 것으로서 구성된 상기 제2 통계 모델에 기초하여, 상기 감정적 상태 천이 확률을 계산하는 수단인 것을 특징으로 하는 감정 검출 장치.
제12항 또는 제13항에 있어서, 상기 감정적 상태 판정 수단은, 상기 감정적 상태 확률의 내림차순으로 상기 감정적 상태를 선출하고, 이 선출된 감정적 상태를 상기 분석 프레임을 포함하는 구간의 감정적 상태라고 판정하는 수단을 포함하는 것을 특징으로 하는 감정 검출 장치.
제12항 또는 제13항에 있어서, 상기 감정적 상태 판정 수단은, 하나의 상기 감정적 상태인 확률과, 그 이외의 감정적 상태인 확률의 볼록 결합의 차를 각각의 상기 감정적 상태에 대하여 계산하고, 이 차가 가장 큰 것으로부터 내림차순으로 하나 이상의 감정적 상태를 선출하고, 이 선출된 감정적 상태를 상기 분석 프레임의 감정적 상태라고 판정하는 수단을 포함하는 것을 특징으로 하는 감정 검출 장치.
제11항 내지 제17항 중 어느 한 항에 있어서, 또한 분석 프레임마다 음성 특징량 벡터와, 감정적 상태의 라벨이 부가된 학습용 음성 신호 데이터를 입력하는 수단을 포함하는 것을 특징으로 하는 감정 검출 장치.
제11항 내지 제18항 중 어느 한 항에 있어서, 또한 분석 프레임마다 발화 프레임인지 여부를 판정하여, 하나 이상의 연속된 발화 프레임마다 발화 구간을 구성하고, 연속하는 하나 이상의 발화 구간마다 음성 소단락을 구성하며, 각 음성 소단락마다 이것에 포함되는 분석 프레임의 상기 감정적 상태 확률에 기초하여 감정적 상태의 감정도를 계산하고, 이 감정도에 기초하여, 상기 입력된 음성 신호 데이터로부터 컨텐츠의 요약을 추출하는 수단을 포함하는 것을 특징으로 하는 감정 검출 장치.
제11항 내지 제18항 중 어느 한 항에 있어서, 또한 분석 프레임마다 상기 음성 신호 데이터로부터 신호의 주기성을 구하고, 상기 주기성에 기초하여 하나 이상의 연속된 분석 프레임마다 구간을 구성하고, 이 구간마다 상기 감정적 상태 확률에 기초하여 감정적 상태의 감정도를 계산하고, 이 감정도에 기초하여, 상기 입력된 음성 신호 데이터로부터 컨텐츠의 요약을 추출하는 수단을 포함하는 것을 특징으로 하는 감정 검출 장치.
제1항 내지 제10항 중 어느 한 항에 기재된 감정 검출 방법을 컴퓨터에서 실시 가능한 것을 특징으로 하는 프로그램.
제21항에 기재된 프로그램을 기록한 컴퓨터로 판독 가능한 것을 특징으로 하는 기록 매체.