KR20080019278A

KR20080019278A - 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램

Info

Publication number: KR20080019278A
Application number: KR1020087000497A
Authority: KR
Inventors: 지 미쓰요시; 가오루 오가타; 후미아키 몬마
Original assignee: 미쓰요시 슌지; 가부시키가이샤 에이.지.아이
Priority date: 2005-06-09
Filing date: 2006-06-02
Publication date: 2008-03-03
Also published as: US20090210220A1; EP1901281A4; TW200707409A; CN101199002B; WO2006132159A1; EP1901281B1; JPWO2006132159A1; CA2611259C; JP4851447B2; KR101248353B1; RU2007149237A; RU2403626C2; CA2611259A1; US8738370B2; TWI307493B; EP1901281A1; CN101199002A

Abstract

본 발명의 음성 해석 장치는, 음성 취득부, 주파수 변환부, 자기 상관부, 피치 검출부를 구비한다. 주파수 변환부는, 음성 취득부에서 취득한 음성신호를 주파수 스펙트럼으로 변환한다. 자기 상관부는, 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관파형을 구한다. 피치 검출부는, 자기 상관파형의 로컬인 산과 산 또는 골짜기와 골짜기의 간격으로부터 피치 주파수를 구한다.

Description

피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법, 및 음성 해석 프로그램{SPEECH ANALYZER DETECTING PITCH FREQUENCY, SPEECH ANALYZING METHOD, AND SPEECH ANALYZING PROGRAM}

본 발명은, 음성의 피치 주파수를 검출하는 음성 해석의 기술에 관한 것이다.

또한, 본 발명은, 음성의 피치 주파수로부터 감정을 추정하는 감정 검출의 기술에 관한 것이다.

종래, 피험자의 음성신호를 분석하고, 피험자의 감정을 추정하는 기술이 개시되어 있다.

예를 들면, 특허문헌 1에는, 가창 음성의 기본 주파수를 구하여, 노래가 끝난 부분에서의 기본 주파수의 상하 변화로부터, 가창자의 감정을 추정하는 기술이 제안되어 있다.

특허문헌 1 : 일본 특허공개공보 평성10-187178

[발명이 해결하고자 하는 과제]

그런데, 악기음에서는, 기본 주파수가 명료하게 나타나기 때문에, 기본 주파수를 검출하는 것이 용이하다.

그러나, 일반적인 음성에서는, 쉰 소리나 떨리는 소리 등을 포함하기 때문에, 기본 주파수가 흔들린다. 또한, 배음의 구성 성분이 불규칙하게 된다. 그 때문에, 이런 종류의 음성으로부터, 기본 주파수를 확실히 검출하는 유효한 방법이 확립하고 있지 않다.

따라서, 본 발명의 목적은, 음성의 주파수를 정확하고 확실히 검출하는 기술을 제공하는 것이다.

또한, 본 발명의 다른 목적은, 음성 처리에 기초하는 새로운 감정 추정의 기술을 제공하는 것이다.

[과제를 해결하기 위한 수단]

≪1≫ 본 발명의 음성 해석 장치는, 음성 취득부, 주파수 변환부, 자기 상관부, 및 피치 검출부를 구비한다.

음성 취득부는, 피험자의 음성신호를 취득한다.

주파수 변환부는, 음성신호를 주파수 스펙트럼으로 변환한다.

자기 상관부는, 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관 파형을 구한다.

피치 검출부는, 자기 상관 파형의 로컬인 산과 산(crests) 또는 골짜기와 골짜기(troughs)의 간격에 기초하여 피치 주파수를 구한다.

≪2≫ 한편 바람직하게는, 자기 상관부는, 주파수 스펙트럼을 주파수축상에서 이산적으로 늦추면서, 자기 상관 파형의 이산 데이터를 구한다. 피치 검출부는, 이 자기 상관 파형의 이산 데이터를 보간(補間)하여, 그 보간 라인으로부터 로컬인 산 또는 골짜기의 출현 주파수를 구한다. 피치 검출부는, 이와 같이 구한 출현 주파수의 간격에 기초하여 피치 주파수를 구한다.

≪3≫ 또한 바람직하게는, 피치 검출부는, 자기 상관 파형의 산 또는 골짜기의 적어도 한 쪽에 대해서, (출현순번, 출현 주파수)를 복수 구한다. 피치 검출부는, 이들의 출현 순번과 출현 주파수를 회귀분석하여, 얻어진 회귀 직선의 기울기에 기초하여 피치 주파수를 구한다.

≪4≫ 한편 바람직하게는, 피치 검출부는, 복수 구한(출현 순번, 출현 주파수)의 모집단으로부터, 자기 상관 파형의 레벨 변동이 작은 표본을 제외한다. 피치 검출부는, 이와 같이 하여 남은 모집단에 대해서 회귀분석을 실시하여, 얻어진 회귀 직선의 기울기에 기초하여 피치 주파수를 구한다.

≪5≫ 또한 바람직하게는, 피치 검출부는, 추출부 및 감산부를 구비한다.

추출부는, 자기 상관 파형을 곡선 근사하는 것에 의해서, 자기 상관 파형에 포함되는 '폴먼트에 의존하는 성분'을 추출한다.

감산부는, 자기 상관 파형으로부터 이 성분을 제거하는 것에 의해, 폴먼트의 영향을 경감한 자기 상관 파형을 구한다.

이 구성에 의해, 피치 검출부는, 폴먼트의 영향을 경감한 자기 상관 파형에 기초하여,피치 주파수를 구하는 것이 가능하게 된다.

≪6≫ 한편 바람직하게는, 상술한 음성 해석 장치에, 대응 기억부, 감정 추정부를 구비한다.

대응 기억부는, 적어도 '피치 주파수'와 '감정상태'와의 대응관계를 기억한다.

감정 추정부는, 피치 검출부에서 검출된 피치 주파수를 대응관계에 조회하여, 피험자의 감정상태를 추정한다.

≪7≫ 한편 바람직하게는, 상기 ≪3≫의 음성 해석 장치에 있어서, 피치 검출부는, '회귀 직선에 대한(출현 순번, 출현 주파수)의 분산 정도' 및, '회귀 직선과 원점과의 차이'의 적어도 한 쪽을, 피치 주파수의 불규칙성으로서 구한다. 이 음성 해석 장치에, 대응 기억부, 감정 추정부를 구비한다.

대응 기억부는, 적어도 '피치 주파수' 및 '피치 주파수의 불규칙성'과 '감정상태'와의 대응관계를 기억한다.

감정 추정부는, 피치 검출부에서 구한 '피치 주파수' 및 '피치 주파수의 불규칙성'을 대응관계에 조회하여, 피험자의 감정상태를 추정한다.

≪8≫ 본 발명의 음성 해석 방법은, 다음의 스텝을 갖는다.

(스텝 1) 피험자의 음성신호를 취득하는 스텝

(스텝 2) 음성신호를 주파수 스펙트럼으로 변환하는 스텝

(스텝 3) 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관 파형을 구하는 스텝

(스텝 4) 자기 상관 파형의 로컬인 산과 산 또는 골짜기와 골짜기의 간격에 기초하여 피치 주파수를 구하는 스텝

≪9≫ 본 발명의 음성 해석 프로그램은, 컴퓨터를, 상기 ≪1≫~≪7≫의 어느 한 항에 기재의 음성 해석 장치로서 기능시키기 위한 프로그램이다.

[발명의 효과]

[1]본 발명에서는, 음성신호를 주파수 스펙트럼으로 일단 변환한다. 이 주파수 스펙트럼에는, 기본 주파수의 흔들림이나 배음 성분의 불규칙성이 노이즈분으로서 포함된다. 그 때문에, 이 주파수 스펙트럼으로부터 기본 주파수를 읽어내는 것은 곤란하다.

따라서, 본 발명은, 이 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관 파형을 구한다. 이 자기 상관 파형에서는, 주기성이 낮은 스펙트럼 노이즈가 억제된다. 그 결과, 자기 상관 파형에는, 주기성이 강한, 배음 성분이 산이 되어 주기적으로 나타난다.

본 발명에서는, 이 저노이즈화된 자기 상관파형으로부터, 주기적으로 나타나는 로컬인 산과 산(또는 골짜기와 골짜기)의 간격을 구함으로써, 피치 주파수를 정확하게 구한다.

이와 같이 얻어진 피치 주파수는, 기본 주파수에 유사한 경우도 있지만, 자기 상관파형의 최대 피크나 1번째의 피크로부터 구하는 것은 아니기 때문에, 반드시 기본 주파수와는 일치하지 않는다. 오히려, 산과 산(또는 골짜기와 골짜기)의 간격으로부터 구하는 것에 의해, 기본 주파수의 불명료한 음성으로부터도 안정하고 정확하게 피치 주파수를 구하는 것이 가능해진다.

[2] 또한, 본 발명에 있어서는, 주파수 스펙트럼을 주파수축상에서 이산적으로 늦추면서, 자기 상관파형의 이산 데이터를 구하는 것이 바람직하다. 이러한 이산적인 처리에 의해, 연산 회수를 경감하여, 처리 시간의 단축을 도모할 수 있다. 그러나, 이산적으로 늦추는 주파수를 크게 하면, 자기 상관파형의 분해능이 낮아져, 피치 주파수의 검출 정밀도가 저하한다. 따라서, 자기 상관파형의 이산 데이터를 보간하여, 로컬인 산(또는 골짜기)의 출현 주파수를 정밀하게 구하는 것에 의해, 이산 데이터의 분해능보다 세세한 정밀도로 피치 주파수를 구하는 것이 가능하게 된다.

[3] 또한, 음성에 따라서는, 자기 상관파형에 주기적으로 나타나는 로컬인 산과 산(또는 골짜기와 골짜기)의 간격이 부등간격이 되는 경우도 있다. 이 때, 어딘가 1개소의 간격만을 참조하여 피치 주파수를 결정해서는, 정확한 피치 주파수를 구할 수 없다. 따라서, 자기 상관파형의 산 또는 골짜기의 적어도 한쪽에 대해서, (출현 순번, 출현 주파수)를 복수 구하는 것이 바람직하다. 이것들(출현 순번, 출현 주파수)을 회귀 직선으로 근사하는 것에 의해서, 부등 간격의 변동을 평균화한 피치 주파수를 구하는 것이 가능하게 된다.

이러한 피치 주파수의 구하는 방법에 의해, 극히 미약한 발화 음성으로부터도 피치 주파수를 정확하게 구하는 것이 가능하게 된다. 그 결과, 피치 주파수의 분석이 곤란한 음성에 대해서도, 감정 추정의 성공율을 높이는 것이 가능하게 된다.

[4] 한편, 자기 상관파형의 레벨 변동이 작은 개소는, 완만한 산(또는 골짜기)이 되기 때문에, 산이나 골짜기의 출현 주파수를 정확하게 구하는 것이 곤란해진다. 따라서, 상기와 같이 구한(출현 순번, 출현 주파수)의 모집단으로부터, 자기 상관파형의 레벨 변동이 작은 표본을 제외하는 것이 바람직하다. 이와 같이 하여 한정한 모집단에 대해서 회귀분석을 실시하는 것에 의해, 피치 주파수를 한층 안정하고 정확하게 구하는 것이 가능하게 된다.

[5] 음성의 주파수 성분에는, 시간적으로 이동하는 특정의 피크가 나타난다. 이 피크를 폴먼트라고 말한다. 자기 상관파형에도, 파형의 산 골짜기와는 별도로, 이 폴먼트를 반영한 성분이 나타난다. 따라서, 자기 상관파형의 흔들림에 피팅하는 정도의 곡선으로 근사한다. 이 곡선은, 자기 상관파형에 포함되는 '폴먼트에 의존하는 성분'이라고 추정할 수 있다. 이 성분을, 자기 상관파형으로부터 제외하는 것에 의해서, 폴먼트의 영향을 경감한 자기 상관파형을 구할 수 있다. 이러한 처리를 실시한 자기 상관파형은, 폴먼트에 의한 혼란이 적어진다. 그 때문에, 피치 주파수를 보다 정확하고 확실히 구하는 것이 가능하게 된다.

[6] 이와 같이 얻을 수 있는 피치 주파수는, 소리의 높이나 소리의 질 등의 특징을 나타내는 파라미터이며, 발화시의 감정에 따라서도 민감하게 변화한다. 그 때문에, 이 피치 주파수를 감정 추정의 재료로 하는 것에 의해서, 기본 주파수의 검출 곤란한 음성에 있어서도 확실히 감정 추정을 실시하는 것이 가능하게 된다.

[7] 또한, 주기적인 산과 산(또는 골짜기와 골짜기)의 간격의 불규칙성을 새로운 음성 특징으로서 검출하는 것이 바람직하다. 예를 들면, 회귀 직선에 대한(출현 순번, 출현 주파수)의 분산 정도를 통계적으로 구한다. 또한 예를 들면, 회귀 직선과 원점과의 차이를 구한다.

이와 같이 구한 불규칙성은, 음성의 집음 환경의 선악을 나타냄과 함께, 소리의 미묘한 변화를 표시하는 것이다. 따라서, 이 피치 주파수의 불규칙성을 감정추정의 재료에 더하는 것에 의해, 추정 가능한 감정의 종류를 늘리거나 미묘한 감정의 추정 성공율을 높이는 것이 가능하게 된다.

한편, 본 발명에 있어서의 상술한 목적 및 그 이외의 목적은, 이하의 설명과 첨부 도면에 있어서 구체적으로 나타난다.

도 1은 감정검출장치(음성 해석 장치를 포함한다)(11)의 블록도이다.

도 2는 감정검출장치(11)의 동작을 설명하는 흐름도이다.

도 3은 음성신호의 처리 과정을 설명하는 도면이다.

도 4는 자기 상관파형의 보간처리를 설명하는 도면이다.

도 5는 회귀 직선과 피치 주파수와의 관계를 설명하는 도면이다.

[실시형태의 구성]

도 1은, 감정검출장치(음성 해석 장치를 포함한다)(11)의 블럭도이다. 도 1에 있어서, 감정검출장치(11)는, 아래와 같은 구성을 구비한다.

(1) 마이크(12)‥피험자의 음성을 음성신호로 변환한다.

(2) 음성 취득부(13)‥음성신호를 취득한다.

(3) 주파수 변환부(14)‥취득된 음성신호를 주파수 변환하여, 음성신호의 주파수 스펙트럼을 구한다.

(4) 자기 상관부(15)‥주파수 스펙트럼에 대해 주파수축상에서 자기 상관을 구하여, 주파수축상에 주기적으로 나타나는 주파수 성분을 자기 상관파형으로서 구한다.

(5) 피치 검출부(16)‥자기 상관파형의 산과 산(또는 골짜기와 골짜기)의 주파수 간격을, 피치 주파수로서 구한다.

(6) 대응 기억부(17)‥피치 주파수나 분산 등의 판단재료와 피험자의 감정상태와의 대응관계를 기억한다. 이 대응관계는, 피치 주파수나 분산 등의 실험 데이터와, 피험자가 신고하는 감정상태(분노, 기쁨, 긴장, 또는 슬픔 등)를 대응짓는 것에 의해서 작성할 수 있다. 이 대응관계의 기술방식으로서는, 대응 테이블이나 판단 논리나 뉴럴네트 등이 바람직하다.

(7) 감정 추정부(18)‥피치 검출부(16)에서 구한 피치 주파수를, 대응 기억부(17)의 대응관계에 조회하여, 대응하는 감정상태를 결정한다. 결정된 감정상태는, 추정 감정으로서 출력된다.

한편, 상술한 구성 13~18에 대해서는, 그 일부 또는 전부를 하드웨어적으로 구성해도 좋다. 또한, 컴퓨터에 있어서 감정검출 프로그램(음성 해석 프로그램을 포함한다)을 실행하는 것에 의해, 구성 13~18의 일부 또는 전부를 소프트웨어적으로 실현되어도 좋다.

[감정검출장치(11)의 동작 설명]

도 2는, 감정검출장치(11)의 동작을 설명하는 흐름도이다.

이하, 도 2에 나타내는 스텝 번호에 따라서, 구체적인 동작을 설명한다.

스텝 S1 : 주파수 변환부(14)는, 음성 취득부(13)로부터 FFT(Fast Fourier Transform) 연산에 필요한 구간의 음성신호를 잘라낸다(도 3[A] 참조). 이 때, 절단구간의 양단의 영향을 경감하도록, 절단구간에 대해서 코사인창 등의 창함수를 실시한다.

스텝 S2 : 주파수 변환부(14)는, 창함수로 가공한 음성신호에 대해서 FFT 연산을 실시하여, 주파수 스펙트럼을 구한다(도 3[B] 참조).

한편, 주파수 스펙트럼에 대해서는, 일반적인 대수 연산에 의한 레벨 억압처리를 실시하면, 음의 값이 발생하기 때문에, 후술하는 자기 상관 연산이 복잡하고 곤란하게 된다. 따라서, 주파수 스펙트럼에 대해서는, 대수 연산의 레벨 억압 처리가 아니라, 루트 연산 등의 양의 값을 얻을 수 있는 레벨 억압 처리를 실시해 두는 것이 바람직하다.

또한, 주파수 스펙트럼의 레벨 변화를 강조하는 경우에는, 주파수 스펙트럼의 값을 4승연산하는 등의 강조 처리를 가해도 좋다.

스텝 S3 : 주파수 스펙트럼에는, 악기음으로 말하면 배음에 상당하는 스펙트럼이 주기적으로 나타난다. 그러나, 발화 음성의 주파수 스펙트럼은, 도 3[B]에 나타내는 바와 같이 복잡한 성분을 포함하기 때문에, 이대로는 주기적인 스펙트럼을 명확하게 구별하는 것이 어렵다. 따라서, 자기 상관부(15)는, 이 주파수 스펙트럼을 주파수축방향으로 소정폭씩 늦추면서 자기 상관치를 차례차례 구한다. 이 연산에 의해 얻을 수 있는 자기 상관치의 이산 데이터를, 늦추어 주파수마다 플롯하는 것에 의해서 자기 상관파형을 얻을 수 있다(도 3[C] 참조).

한편, 주파수 스펙트럼에는, 음성 대역 이외의 불필요한 성분(직류 성분이나 극단적으로 저역의 성분)이 포함된다. 이러한 불필요한 성분은, 자기 상관의 연산을 어긋나게 한다. 따라서, 자기 상관의 연산에 앞서, 주파수 변환부(14)는, 주파수 스펙트럼으로부터 이러한 불필요한 성분을 억제 또는 제거해 두는 것이 바람직하다.

예를 들면, 주파수 스펙트럼으로부터, 직류성분(예를 들면 60헤르츠 이하 등)을 커트해 두는 것이 바람직하다.

또한 예를 들면, 소정의 하한 레벨(예를 들면 주파수 스펙트럼의 평균 레벨)을 설정하여 주파수 스펙트럼의 하한 커트(하한 리미트)를 행하여, 미소한 주파수 성분을 노이즈로서 커트해 두는 것이 바람직하다.

이러한 처리에 의해, 자기 상관 연산에 있어서 생기는 파형 혼란을 미연에 방지할 수 있다.

스텝 S4 : 자기 상관파형은, 도 4에 나타내는 바와 같이 이산 데이터이다. 따라서, 피치 검출부(16)는, 이산 데이터를 보간하는 것에 의해, 복수의 산 및/또는 골짜기에 대해서 출현 주파수를 구한다. 예를 들면, 여기서의 보간방법으로서는, 산이나 골짜기의 부근의 이산 데이터에 대해서, 직선 보간이나 곡선 함수로 보간하는 방법이 간편하고 바람직하다. 한편, 이산 데이터의 간격이 충분히 좁은 경우는, 이산 데이터의 보간처리를 생략하는 것도 가능하다. 이와 같이 하여, (출현 순번, 출현 주파수)의 표본 데이터를 복수 구한다.

한편, 자기 상관파형의 레벨 변동이 작은 개소는, 완만한 산(또는 골짜기)이 되기 때문에, 이 산이나 골짜기의 출현 주파수를 정확하게 구하는 것이 어렵다. 그 때문에, 부정확한 출현 주파수를 그대로 표본으로서 포함하면, 나중에 검출하는 피치 주파수의 정밀도가 낮아진다. 따라서, 상기와 같이 구한(출현 순번, 출현 주파수)의 모집단으로부터, 자기 상관파형의 레벨 변동이 작은 표본 데이터를 판정한다. 이와 같이 판정된 표본 데이터를 모집단으로부터 제거하는 것에 의해, 피치 주파수의 분석에 적절한 모집단을 얻는다.

스텝 S5 : 피치 검출부(16)는, 스텝 S4에서 구한 모집단으로부터 표본 데이터를 각각 꺼내어, 출현 주파수를 출현 순번마다 나열한다. 이 때, 자기 상관파형의 레벨 변동이 작기 때문에 제거된 출현 순번에 대해서는 결번이 된다.

피치 검출부(16)는, 이와 같이 표본 데이터를 나열한 좌표 공간에 있어서 회귀분석을 실시하여, 회귀 직선의 기울기를 구한다. 이 기울기에 기초하여, 출현 주파수의 흔들림을 배제한 피치 주파수를 구할 수 있다.

한편, 회귀분석을 실시할 때에, 피치 검출부(16)는, 회귀 직선에 대한 출현 주파수의 분산을 통계적으로 구해 피치 주파수의 분산으로 한다.

또한, 회귀 직선과 원점과의 차이(예를 들면, 회귀 직선의 절편)를 구하여, 이 차이가, 미리 정해진 허용 한계보다 큰 경우, 피치 주파수의 검출에 적합하지 않는 음성구간(소음 등)이라고 판정해도 좋다, 이 경우, 그 음성구간을 제외하고, 나머지의 음성구간에 대해서 피치 주파수를 검출하는 것이 바람직하다.

스텝 S6 : 감정 추정부(18)는, 스텝 S5에서 구한(피치 주파수, 분산)의 데이터를, 대응 기억부(17)의 대응관계에 조회하여, 대응하는 감정상태(분노, 기쁨, 긴장, 또는 슬픔 등)를 결정한다.

[본 실시형태의 효과 등]

우선, 도 5[A][B]를 이용하여, 본 실시형태와 종래기술과의 차이에 대해서 설명한다. 본 실시형태의 피치 주파수는, 자기 상관파형의 산과 산(또는 골짜기와 골짜기)의 간격에 상당하고, 도 5[A][B]에서는, 회귀 직선의 기울기에 대응한다. 한편, 종래의 기본 주파수는, 도 5[A][B]에 나타내는 첫번째의 산의 출현 주파수에 상당한다.

도 5[A]에서는, 회귀 직선이 원점 근방을 통과하고, 그 분산이 작다. 이 경우, 자기 상관파형에는, 산이 거의 등간격으로 규칙적으로 바르게 나타난다. 따라서, 종래 기술에서도, 기본 주파수를 명료하게 검출할 수 있는 케이스이다.

한편, 도 5[B]는, 회귀 직선이 원점으로부터 크게 벗어나, 분산이 크다. 이 경우, 자기 상관파형의 산은 부등간격으로 나타난다. 따라서, 기본 주파수가 불명료한 음성이며, 기본 주파수를 특정하는 것이 곤란해진다. 종래기술에서는, 첫번째의 산의 출현 주파수로부터 구하기 위해, 이러한 케이스에 대해서는, 잘못된 기본 주파수를 구해 버린다.

본 발명에서는, 이러한 케이스에서는, 산의 출현 주파수로부터 구한 회귀 직선이 원점 근방을 지나는지 아닌지, 피치 주파수의 분산이 작은지 아닌지 등에 의해서, 피치 주파수의 신뢰성을 판단할 수 있다. 따라서, 본 실시형태에서는, 도 5[B]의 음성신호에 대해서는, 피치 주파수의 신뢰성이 낮다고 판단하여 감정 추정의 재료로부터 제외하는 것이 가능하게 된다. 그것에 의해, 신뢰성이 높은 피치 주파수만을 사용하는 것이 가능하게 되어, 감정 추정의 성공율을 한층 높이는 것이 가능하게 된다.

한편, 도 5[B]와 같은 케이스에 대해서는, 기울기의 정도를 광의의 피치 주파수로서 구하는 것이 가능하다. 이 광의의 피치 주파수를 감정 추정의 재료로 하는 것도 바람직하다. 게다가, '분산 정도' 및/또는 '회귀 직선과 원점과의 차이'를 피치 주파수의 불규칙성으로서 구하는 것도 가능하다. 이와 같이 구한 불규칙성을, 감정 추정의 재료로 하는 것도 바람직하다. 물론, 이와 같이 구한 광의의 피치 주파수 및 그 불규칙성을, 감정추정의 재료로 하는 것도 바람직하다. 이러한 처리에서는, 협의의 피치 주파수에 한정하지 않고, 음성 주파수의 특징이나 변화를 종합적으로 반영한 감정 추정이 가능하게 된다.

또한, 본 실시형태에서는, 자기 상관파형의 이산 데이터를 보간하여, 로컬인 산과 산(또는 골짜기와 골짜기)의 간격을 구한다. 따라서, 한층 높은 분해능으로 피치 주파수를 구하는 것이 가능하게 된다. 그 결과, 피치 주파수의 변화를 보다 세세하게 검출하는 것이 가능하게 되어, 보다 정밀한 감정 추정이 가능하게 된다.

게다가, 본 실시형태에서는, 피치 주파수의 분산 정도(분산이나 표준 편차 등)도, 감정 추정의 판단 재료에 더한다. 이 피치 주파수의 분산 정도는, 음성신호의 불안정함이나 불협화음의 정도 등의 독특한 정보를 나타내는 것으로, 발화자의 자신이 없음이나 긴장 정도 등의 감정을 검출하는데 적합하다. 또한, 이 긴장 정도 등에서 거짓말 특유의 감정을 검출하는 거짓말탐지기를 실현하는 것 등이 가능하게 된다.

[실시형태의 보충사항]

한편, 상술한 실시형태에서는, 자기 상관파형으로부터 그대로 산이나 골짜기의 출현 주파수를 구하고 있다. 그러나, 본 발명은 이것에 한정되는 것은 아니다.

예를 들면, 음성신호의 주파수 성분에는, 시간적으로 이동하는 특정의 피크(폴먼트)가 나타난다. 자기 상관파형에도, 피치 주파수와는 별도로, 이 폴먼트를 반영한 성분이 나타난다. 따라서, 자기 상관파형을, 산골짜기의 세세한 변동에 피팅되지 않을 정도의 곡선 함수와 근사함으로써, 자기 상관파형에 포함되는 '폴먼트에 의존하는 성분'을 추정하는 것이 바람직하다. 이와 같이 추정한 성분(근사 곡선)을, 자기 상관파형으로부터 감산하는 것에 의해서, 폴먼트의 영향을 경감한 자기 상관파형을 구할 수 있다. 이러한 처리를 실시하는 것에 의해, 자기 상관파형으로부터 폴먼트에 의한 혼란 파형을 제외한 것이 가능하게 되어, 피치 주파수를 보다 정확하고 확실히 구하는 것이 가능하게 된다.

또한 예를 들면, 특수한 음성신호에서는, 자기 상관파형의 산과 산의 사이에 작은 산이 출현한다. 이 작은 산을, 자기 상관파형의 산이라 잘못 인식하면, 하프 피치의 주파수를 구해 버리게 된다. 이 경우, 자기 상관파형의 산의 높이를 비교하여, 작은 산에 대해서는 파형의 골짜기라고 보는 것이 바람직하다. 이 처리에 의해, 정확한 피치 주파수를 구하는 것이 가능하게 된다.

또한 예를 들면, 자기 상관파형에 대해서 회귀분석을 실시하여 회귀 직선을 구하여, 그 회귀 직선보다 위쪽의 자기 상관파형의 피크점을, 자기 상관파형의 산으로서 검출해도 좋다.

상술한 실시형태에서는, (피치 주파수, 분산)를 판단 재료로서 감정 추정을 실시한다. 그러나, 실시형태는 이것에 한정되는 것은 아니다. 예를 들면, 적어도 피치 주파수를 판단 재료로서 감정 추정을 실시해도 좋다. 또한 예를 들면, 이러한 판단 재료를 시계열에 수집한 시계열 데이터를 판단 재료로서 감정 추정을 실시해도 좋다. 또한 예를 들면, 과거에 추정한 감정을 판단 재료에 더함으로써, 감정의 변화 경향을 가미한 감정 추정을 실현해도 좋다. 또한 예를 들면, 음성인식한 의미 정보를 판단 재료에 더함으로써, 회화 내용을 가미한 감정 추정을 실현해도 좋다.

또한, 상술한 실시형태에서는, 회귀분석에 의해 피치 주파수를 구하고 있다. 그러나, 실시형태는 이것에 한정되는 것은 아니다. 예를 들면, 자기 상관파형의 산(또는 골짜기)의 간격을 구하고, 피치 주파수라고 해도 좋다. 또한 예를 들면, 산(또는 골짜기)의 간격마다 피치 주파수를 구하여, 이들 복수의 피치 주파수를 모집단으로서 통계 처리를 실시하여, 피치 주파수 및, 그 만큼산정도를 결정해도 좋다.

한편, 상술한 실시형태에서는, 말하는 소리에 대해 피치 주파수를 구하여 그 피치 주파수의 시간 변화(억양적인 변화량)에 기초하여, 감정 추정용의 대응관계를 작성하는 것이 바람직하다.

본 발명자는, 이 말하는 소리로부터 실험적으로 작성된 대응관계를 사용하여, 노래하는 음성이나 악기 연주 등의 악곡(음성신호의 일종)에 대해서도 감정 추정을 시도하였다.

구체적으로는, 음표보다 짧은 시간 간격으로 피치 주파수의 시간변화를 샘플 링 하는 것에 의해, 단순한 음정 변화와는 다른 억양적인 정보를 얻는 것이 가능하게 된다.(한편, 하나의 피치 주파수를 구하기 위한 음성구간은, 음표보다 짧게 해도 길게 해도 좋다)

또한 다른 수법으로서, 절(節) 단위 등의 복수의 음표를 포함한 긴 음성구간에서 샘플링하여 피치 주파수를 구함으로써, 복수의 음표를 반영한 억양적인 정보를 얻는 것이 가능하게 된다.

이 악곡에 의한 감정 추정에서는, 악곡을 들었을 때에 사람이 느끼는 감정(혹은 악곡 작성자가 악곡에 담았을 것인 감정)과 거의 같은 경향의 감정 출력을 얻을 수 있는 것을 알 수 있었다.

예를 들면, 장조/단조라고 하는 상태의 차이에 따라서, 기쁨/슬픔이라고 하는 감정을 검출하는 것이 가능하게 된다. 또한, 들썩들썩하는 템포가 좋은 구불거리는 부분에서는, 강한 기쁨을 검출하는 것이 가능하게 된다. 또한, 격렬한 드럼음에서는, 분노를 검출하는 것이 가능하게 된다.

한편, 여기에서는 말하는 소리로부터 작성한 대응관계를 그대로 겸용하고 있지만, 악곡 전용의 감정검출장치이면, 악곡에 특화한 대응관계를 실험적으로 작성하는 것도 물론 가능하다.

이와 같이, 본 실시형태의 감정검출장치를 이용하는 것에 의해, 악곡에 나타나는 감정을 추정하는 것도 가능하게 된다. 이것을 응용하는 것에 의해서, 인간의 음악감상상태를 시뮬레이션 하는 장치나, 악곡이 나타내는 희로 애락에 따라서 반응하는 로봇 등을 작성할 수 있다.

또한, 상술한 실시형태에서는, 피치 주파수를 기준으로 하여, 대응하는 감정상태를 추정한다. 그러나, 본 발명은 이것에 한정되는 것은 아니다. 예를 들면, 아래와 같은 파라미터의 적어도 1개를 가미하여, 감정상태를 추정해도 좋다.

(1) 시간 단위에 있어서의 주파수 스펙트럼의 변화량

(2) 피치 주파수의 흔들림주기, 상승시간, 유지시간, 또는 하강시간

(3) 저역측의 산(골짜기)으로부터 구한 피치 주파수와 평균피치 주파수와의 차이

(4) 고역측의 산(골짜기)으로부터 구한 피치 주파수와 평균 피치 주파수와의 차이

(5) 저역측의 산(골짜기)으로부터 구한 피치 주파수와 고역측의 산(골짜기)으로부터 구한 피치 주파수와의 차이, 또는 증감 경향

(6) 산(골짜기)의 간격의 최대치, 또는 최소치

(7) 산(골짜기)이 연속하는 수

(8) 발화 스피드

(9) 음성신호의 파워치, 또는 그 시간 변동

(10) 음성신호에 있어서의 인간의 가청 지역을 벗어난 주파수역의 상태

피치 주파수와 상기의 파라미터의 실험 데이터와 피험자가 신고하는 감정상태(분노, 기쁨, 긴장, 또는 슬픔 등)를 대응짓는 것에 의해서, 감정 추정용의 대응관계를 미리 작성할 수 있다. 대응 기억부(17)은, 이 대응관계를 기억한다. 한편, 감정 추정부(18)는, 음성신호로부터 구한 피치 주파수와 상기 파라미터를, 대 응 기억부(17)의 대응관계에 조회하는 것에 의해, 감정상태를 추정한다.

[피치 주파수의 응용예]

(1) 음성이나 음향으로부터의 감정요소의 피치 주파수의 추출(본 실시형태)에 의해, 주파수 특성이나 피치가 구해진다. 게다가, 폴먼트정보나 파워정보에 대해서도, 시간축에서의 변화로부터 용이하게 구할 수 있다. 게다가, 이들 정보를 가시화하는 것도 가능하게 된다.

또한, 피치 주파수의 추출에 의해, 시간 변화에 의한 음성이나 음향, 음악 등의 흔들림의 상태가 명확하게 되기 때문에, 부드러운 음성이나 음악의 감정 감성 리듬 해석이나 음색분석도 가능하게 된다.

(2) 본 실시형태에서의 피치 해석으로 얻어진 정보의 시간 변화에 있어서의 변화패턴정보 등을 감성 회화 이외에도, 영상, 액션(표정이나 동작), 음악, 영상, 구문 등에 응용하는 것도 가능하다.

(3) 또한, 영상, 액션(표정이나 동작), 음악, 영상, 구문 등의 리듬을 갖는 정보(리듬정보를 말한다)를 음성신호라 간주하여 피치 해석하는 것도 가능하다. 또한, 리듬정보에 대해서 시간축에서의 변화패턴분석도 가능하다. 이러한 해석 결과에 기초하여 리듬정보를 가시화하거나 음성화하는 것에 의해, 다른 표현 형태의 정보로 변환하는 것도 가능하게 된다.

(4) 또한, 감정이나 감성, 리듬정보, 음색분석수단 등에서 얻어진, 변화 패턴 등을 감정 감성 심리 특성 해석 등에 응용할 수도 있다. 그 결과를 이용하여, 공유 혹은 연동하는 감성의 변화 패턴이나 파라미터, 역치 등을 구하는 것도 가능 하게 된다.

(5) 2차 이용으로서, 감정요소의 편차 정도나 많은 감정의 동시 검출상태 등으로부터, 진의라고 하는 심리정보를 추측하여, 심리나 정신상태를 추측하는 것도 가능하게 된다. 그 결과, 고객이나 유저나 상대의 심리 상태에 의한, 금융이나 콜 센터 등에서의 상품고객 분석관리 시스템, 진위분석 등에의 응용이 가능하게 된다.

(6) 또한, 피치 주파수에 의한 감정요소의 판단에서는, 인간이 갖는 심리 특성{감정, 지향성, 기호성, 사고(심리 의사)}를 분석하여, 시뮬레이션 구축하는 요소를 얻는 것이 가능하게 된다. 이 인간의 심리 특성을, 기존의 시스템, 상품, 서비스, 비즈니스모델에 응용하는 것도 가능하다.

(7) 상술한 바와 같이, 본 발명의 음성 해석에서는, 불명료한 가성, 콧노래, 악기음 등에서도 피치 주파수를 안정하고 확실히 검출할 수 있다.이것을 응용하는 것에 의해서, 종래는 평가가 곤란하고, 어느 불명료한 가성등에 대해서도, 가창의 정확함을 적확하게 평가 판정하는 가라오케 시스템을 실현할 수 있다.

또한, 피치 주파수나 그 변화를 화면에 표시하는 것에 의해, 가성의 음정이나 억양이나 피치 변화를 가시화하는 것이 가능하게 된다. 이와 같이 가시화된 음정이나 억양이나 피치 변화를 참고로 하는 것에 의해, 정확한 음정이나 억양이나 피치 변화를 보다 단시간에 감각적으로 습득하는 것이 가능하게 된다. 게다가, 상급자의 음정이나 억양이나 피치 변화를 가시화하여 표본으로 하는 것에 의해, 상급자의 음정이나 억양이나 피치 변화를 보다 단시간에 감각적으로 습득하는 것도 가능하게 된다.

(8) 또한, 본 발명의 음성 해석을 실시하는 것에 의해, 종래는 곤란하였던 불명료한 콧노래나 아카펠라로부터도 피치 주파수를 검출할 수 있기 때문에, 안정하고 확실히 보면(譜面)을 자동 작성하는 것이 가능하게 된다.

(9) 본 발명의 음성 해석을, 언어교육 시스템에 응용하는 것도 가능하다. 즉, 본 발명의 음성 해석을 이용하는 것에 의해, 서투른 외국어나 표준어나 방언의 발화 음성으로부터도 피치 주파수를 안정하고 확실히 검출할 수 있다. 이 피치 주파수에 기초하여, 외국어나 표준어나 방언의 올바른 리듬이나 발음을 유도하는 언어교육 시스템을 구축하는 것이 가능하게 된다.

(10) 게다가, 본 발명의 음성 해석을, 대사 지도 시스템에 응용하는 것도 가능하다.

즉, 본 발명의 음성 해석을 이용하는 것에 의해, 서투른 대사의 피치 주파수를 안정하고 확실히 검출할 수 있다. 이 피치 주파수를, 상급자의 피치 주파수와 비교하는 것에 의해, 대사의 지도나 나아가서는 연출을 실시하는 대사 지도 시스템을 구축하는 것이 가능하게 된다.

(11) 또한, 본 발명의 음성 해석을, 보이스 트레이닝 시스템에 응용하는 것도 가능하다. 즉, 음성의 피치 주파수로부터, 음정의 불안정함이나, 발성 방법의 실수를 검출하여 어드바이스 등을 출력하는 것에 의해, 올바른 발성방법을 지도하는 보이스 트레이닝 시스템을 구축하는 것이 가능하게 된다.

[감정 추정으로 얻을 수 있는 심적 상태의 응용예]

(1) 일반적으로, 심적 상태의 추정 결과는, 심적 상태에 반응하여 처리를 변 화시키는 제품 전반에 사용이 가능하다. 예를 들면, 상대의 심적 상태에 따라 응답(성격, 회화 특성, 심리 특성, 감성, 감정 패턴, 또는 회화 분기 패턴 등)을 변화시키는 가상 인격(에이전트, 캐릭터 등)을 컴퓨터상에서 구축하는 것이 가능하다. 또한 예를 들면, 고객의 심적 상태에 유연하게 대응하여, 상품 검색, 상품 클레임 대응, 콜 센터 업무, 접수 시스템, 고객 감성분석, 고객관리, 게임, 파칭코, 파치슬로, 컨텐츠 전달, 컨텐츠 작성, 네트검색, 휴대전화 서비스, 상품설명, 프레젠테이션, 또는 교육지원 등을 실현하는 시스템에도 응용이 가능하게 된다.

(2) 또한, 심적 상태의 추정결과는, 심적 상태를 유저에 관한 교정 정보로 함으로써 처리의 정확성을 높이는 제품 전반에도 사용이 가능하다. 예를 들면, 음성인식 시스템에 있어서, 인식된 어휘의 후보 중에서, 발화자의 심적 상태에 대해서 친화도가 높은 어휘를 선택하는 것에 의해, 음성인식의 정밀도를 높이는 것이 가능하게 된다.

(3) 게다가, 심적 상태의 추정 결과는, 심적 상태로부터 유저의 부정 의도를 추측하는 것에 의해, 시큐러티를 높이는 제품 전반에도 사용이 가능하다. 예를 들면, 사용자 인증 시스템에서는, 불안 또는 연기 등의 심적 상태를 나타내는 유저에 대해서, 인증 거부를 하거나 추가의 인증을 구하는 것에 의해서 시큐러티를 높이는 것이 가능하게 된다. 나아가서는, 이러한 고시큐러티인 인증 기술을 기초로서 유비쿼타스 시스템을 구축하는 것도 가능하다.

(4) 또한, 심적 상태의 추정 결과는, 심적 상태를 조작 입력으로서 취급하는 제품 전반에도 사용이 가능하다. 예를 들면, 심적 상태를 조작 입력으로서 처리 (제어, 음성처리, 화상처리, 또는 텍스트처리 등)를 실행하는 시스템을 실현할 수 있다. 또한 예를 들면, 심적 상태를 조작 입력으로서 캐릭터 동작을 컨트롤하는 것에 의해서, 스토리를 전개시키는 스토리 창작 지원 시스템을 실현하는 것이 가능하게 된다. 또한 예를 들면, 심적 상태를 조작 입력으로서 음률, 키, 또는 악기 구성 등을 변경하는 것에 의해, 심적 상태에 따른 음악 창작이나 편곡을 실시하는 음악창작 지원 시스템을 실현하는 것도 가능하게 된다. 또한 예를 들면, 심적 상태를 조작 입력으로서, 조명, BGM 등의 주변 환경을 컨트롤하는 연출장치를 실현하는 것도 가능하다.

(5) 또한, 심적 상태의 추정 결과는, 정신분석, 감정분석, 감성분석, 성격분석, 또는 심리분석을 목적으로 하는 장치 전반에도 사용이 가능하다.

(6) 또한, 심적 상태의 추정 결과는, 소리, 음성, 음악, 향기, 색, 영상, 문자, 진동, 또는 빛 등의 표현수단을 이용하여, 심적 상태를 외부 출력하는 장치 전반에도 사용이 가능하다. 이러한 장치를 사용함으로써, 대인간에 있어서의 심정의 커뮤니케이션을 지원하는 것이 가능하게 된다.

(7) 게다가, 심적 상태의 추정 결과는, 심적 상태를 정보통신하는 통신 시스템 전반에도 사용이 가능하다. 예를 들면, 감성통신, 또는 감성감정공명통신 등에 응용할 수 있다.

(8) 또한, 심적 상태의 추정 결과는, 영상이나 음악 등의 컨텐츠가 인간에게 주는 심리적인 효과를 판정(평가)하는 장치 전반에도 사용이 가능하다. 또한, 이 심리 효과를 항목으로서 컨텐츠를 분류함으로써, 심리 효과의 면으로부터 컨텐츠 검색이 가능하게 되는 데이타베이스 시스템을 구축하는 것도 가능하게 된다.

한편, 영상이나 음악 등의 컨텐츠 그 자체를, 음성신호와 같이 분석하는 것에 의해, 컨텐츠 출연자나 악기 연주자의 음성 흥분도나 감정 경향 등을 검출하는 것도 가능하다. 또한, 컨텐츠의 음성을 음성인식 또는 음소 편인식함으로써 컨텐츠의 특징을 검출하는 것도 가능하다. 이러한 검출 결과에 따라서 컨텐츠를 분류함으로써, 컨텐츠의 특징을 단면으로 한 컨텐츠 검색이 가능하게 된다.

(9) 게다가, 심적 상태의 추정 결과는, 상품 사용시에 있어서의 유저 만족도 등을 심적 상태에 의해서 객관적으로 판정하는 장치 전반에도 사용이 가능하다. 이러한 장치를 사용하는 것에 의해, 유저에게 있어서 친해지기 쉬운 제품 개발이나 사양 작성이 용이하게 된다.

(10) 게다가, 심적 상태의 추정 결과는, 아래와 같은 분야 등에도 응용이 가능하다.

개호(介護) 지원 시스템, 카운셀링 시스템, 카 네비게이션, 자동차 제어, 운전자의 상태 감시, 유저 인터페이스, 오퍼레이션 시스템, 로봇, 아바타, 인터넷 쇼핑몰, 통신교육 시스템, E러닝, 학습 시스템, 매너 연수, 노하우 학습 시스템, 능력 판정, 의미정보 판단, 인공지능 분야, 뉴럴네트 워크(뉴런도 포함한다)에의 응용, 확률 모델이 필요한 시뮬레이션이나 시스템 등의 판단 기준이나 분기 기준, 경제·금융 등의 시장 시뮬레이션에의 심리요소 입력, 앙케이트 수집, 예술가의 감정이나 감성의 해석, 금융 신용 조사, 여신관리 시스템, 운세 등의 컨텐츠, 착용식 컴퓨터(wearable computer), 유비쿼타스 네트워크 상품, 인간의 지각 판단의 지원, 광고업무, 빌딩이나 홀 등의 관리, 필터링, 유저의 판단지원, 키친이나 욕실이나 화장실 등의 제어, 휴먼 디바이스, 부드러움, 통기성이 변화하는 섬유와의 연동에 의한 피복, 치유나 커뮤니케이션을 목적으로 한 가상 패트나 로봇, 플래닝 시스템, 코디네이터 시스템, 교통지원 제어 시스템, 요리지원 시스템, 연주지원, DJ 영상효과, 가라오케장치, 영상제어 시스템, 개인인증, 디자인, 설계 시뮬레이터, 구매 의욕을 자극하는 시스템, 인사관리 시스템, 오디션, 가상의 고객 집단 시장 조사, 배심원·재판원 시뮬레이션 시스템, 스포츠나 예술이나 영업이나 전략 등의 이미지 트레이닝, 고인이나 선조의 메모리얼 컨텐츠 작성지원, 생전의 감정이나 감성의 패턴을 보존하는 시스템이나 서비스, 네비게이션·컨시어지(concierge) 서비스, 블로그 작성 지원, 메신저서비스, 자명종, 건강기구, 마사지기구, 칫솔, 의료기구, 생체 디바이스, 스위칭 기술, 제어 기술, 허브, 분기 시스템, 콘덴서 시스템, 분자 컴퓨터, 양자 컴퓨터, 노이만형 컴퓨터, 생체 소자 컴퓨터, 볼츠만(Boltzmann) 시스템, AI제어, 퍼지 제어.

[비고 : 소음 환경하에서의 음성신호의 취득에 대해]

본 발명자는, 소음 환경하에 있어서도, 음성의 피치 주파수를 양호하게 검출하기 위해, 다음과 같은 방음 마스크를 이용한 계측 환경을 구축하였다.

우선, 방음 마스크의 기재로서 방독 마스크(TOYO제 SAFETY No1880-1)를 조달한다. 이 방독 마스크는, 입에 접하여 가리는 부분이 고무제이다. 이 고무는 주변 소음에 의해서 진동하기 때문에, 주변 소음이 마스크내에 침입한다. 따라서, 이 고무부분에 실리콘(닛신 레진 가부시키가이샤제, 퀵 실리콘, 라이트 그레이 액 상, 비중 1.3)을 주입하여 무겁게 한다. 게다가, 방독 마스크의 통기 필터에는, 키친 페이퍼 5매 이상과 스펀지를 다층으로 겹쳐서 밀폐성을 높인다. 이 상태의 마스크실의 중앙 부분에 소형 마이크를 피트시켜 설치한다. 이와 같이 준비된 방음 마스크는, 실리콘의 자중과 이질물의 적층 구조에 의해서 주변 소음의 진동을 효과적으로 감쇠시킬 수 있다. 그 결과, 피험자의 입 주변에 마스크 형태의 소형 방음실을 설치하는 것에 성공하여, 주변 소음의 영향을 억제하면서, 피험자의 음성을 양호하게 집음할 수 있게 된다.

게다가, 같은 방음 대책을 실시한 헤드폰을 피험자의 귀에 장착하는 것에 의해, 주변 소음의 영향을 그다지 받지 않고, 피험자와 회화를 실시하는 것이 가능하게 된다.

한편, 피치 주파수의 검출에는, 상기의 방음 마스크가 유효하다. 다만, 방음 마스크의 밀폐 공간이 좁기 때문에, 음성이 분명하지 않기 쉬운 경향이 된다. 그 때문에, 피치 주파수 이외의 주파수 해석이나 음색의 분석에는 적합하지 않다. 그러한 용도에는, 마스크와 같은 방음 처리를 실시한 파이프라인을 방음 마스크에 통과시켜, 방음 환경의 외계(공기실)와 통기시키는 것이 바람직하다. 이 경우, 호흡에 지장이 없기 때문에, 입 뿐만이 아니라 코도 포함하여 마스크할 수 있다. 이 통기 설비의 추가에 의해서, 방음 마스크에 있어서의 음성의 분명하지 않음을 저감할 수 있다. 게다가, 피험자에게 있어서 가슴이 답답함 등의 불쾌감이 적기 때문에, 보다 자연스러운 상태의 음성을 집음할 수 있게 된다.

한편, 본 발명은, 그 정신 또는 주요한 특징으로부터 일탈하는 일 없이, 다 른 여러 가지 형태로 실시할 수 있다. 그 때문에, 상술의 실시예는 모든 점에서 단순한 예시에 지나지 않고, 한정적으로 해석해서는 안된다. 본 발명의 범위는, 특허 청구의 범위에 의해서 나타내는 것으로, 명세서 본문에는, 아무런 구속되지 않는다. 게다가, 특허청구의 범위의 균등 범위에 속하는 변형이나 변경은, 모두 본 발명의 범위내의 것이다.

이상 설명한 바와 같이, 본 발명은, 음성 해석 장치 등에 이용 가능한 기술이다.

Claims

피험자의 음성신호를 취득하는 음성 취득부와,

상기 음성신호를 주파수 스펙트럼으로 변환하는 주파수 변환부와,

상기 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관파형을 구하는 자기 상관부와,

상기 자기 상관파형의 로컬인 산과 산(crests) 또는 골짜기와 골짜기(troughs)의 간격에 기초하여 피치 주파수를 구하는 피치 검출부를 구비한 것을 특징으로 하는 음성 해석 장치.
제 1 항에 있어서,

상기 자기 상관부는, 상기 주파수 스펙트럼을 상기 주파수축상에서 늦추면서, 상기 자기 상관파형의 이산 데이터를 구하고,

상기 피치 검출부는, 상기 자기 상관파형의 상기 이산 데이터를 보간하고, 로컬인 산 또는 골짜기의 출현 주파수를 구하여 상기 출현 주파수의 간격에 기초하여 피치 주파수를 구하는 것을 특징으로 하는 음성 해석 장치.
제 1 항 또는 제 2 항에 있어서,

상기 피치 검출부는, 상기 자기 상관파형의 산 또는 골짜기의 적어도 한 쪽에 대해서, (출현 순번, 출현 주파수)를 복수 구하여, 상기 출현 순번과 상기 출현 주파수를 회귀분석하여, 회귀 직선의 기울기에 기초하여 상기 피치 주파수를 구하는 것을 특징으로 하는 음성 해석 장치.
제 3 항에 있어서,

상기 피치 검출부는, (상기 출현 순번, 상기 출현 주파수)의 모집단으로부터, 상기 자기 상관파형의 레벨 변동이 작은 표본을 제외하고, 남은 상기 모집단에 대해서 상기 회귀분석을 실시하여, 상기 회귀 직선의 기울기에 기초하여 상기 피치 주파수를 구하는 것을 특징으로 하는 음성 해석 장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 피치 검출부는

상기 자기 상관파형을 곡선 근사하는 것에 의해, 상기 자기 상관파형에 포함되는 '폴먼트에 의존하는 성분'을 추출하는 추출부와,

상기 자기 상관파형으로부터 상기 성분을 제거하는 것에 의해, 폴먼트의 영향을 경감한 자기 상관파형을 구하는 감산부를 구비하고,

폴먼트의 영향을 경감한 상기 자기 상관파형에 기초하여, 피치 주파수를 구하는 것을 특징으로 하는 음성 해석 장치.
제 1 항 내지 제 5 항 중의 어느 한 항에 있어서,

적어도 '피치 주파수'와 '감정상태'와의 대응관계를 기억하는 대응 기억부 와, 상기 피치 검출부에서 검출된 상기 피치 주파수를 상기 대응관계에 조회하여, 상기 피험자의 감정상태를 추정하는 감정 추정부를 구비한 것을 특징으로 하는 감정 검출용의 음성 해석 장치.
제 3 항에 있어서,

상기 피치 검출부는, '상기 회귀직선에 대한(상기 출현 순번, 상기 출현 주파수)의 분산 정도' 및 '상기 회귀직선과 원점과의 차이'의 적어도 한 쪽을, 상기 피치 주파수의 불규칙성으로서 구하여,

적어도 '피치 주파수' 및 '피치 주파수의 불규칙성'과 '감정상태'와의 대응관계를 기억하는 대응 기억부와,

상기 피치 검출부에서 구한 '피치 주파수' 및 '피치 주파수의 불규칙성'을 상기 대응관계에 조회하여, 상기 피험자의 감정상태를 추정하는 감정 추정부를 구비한 것을 특징으로 하는 감정 검출용의 음성 해석 장치.
피험자의 음성신호를 취득하는 스텝과,

상기 음성신호를 주파수 스펙트럼으로 변환하는 스텝과,

상기 주파수 스펙트럼을 주파수축상에서 늦추면서 자기 상관파형을 구하는 스텝과,

상기 자기 상관파형의 로컬인 산과 산 또는 골짜기와 골짜기의 간격에 기초하여 피치 주파수를 구하는 스텝을 구비한 것을 특징으로 하는 음성 해석 방법.
컴퓨터를, 제 1 항 내지 제 7 항 중의 어느 한 항에 기재된 음성 해석 장치로서 기능시키기 위한 음성 해석 프로그램.