KR20180105716A

KR20180105716A - 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템

Info

Publication number: KR20180105716A
Application number: KR1020187025687A
Authority: KR
Inventors: ？지 미쓰요시; 슈지 시노하라
Original assignee: 피에스티 가부시키가이샤; ？지 미쓰요시
Priority date: 2016-02-09
Filing date: 2017-01-27
Publication date: 2018-09-28
Also published as: US11147487B2; TWI721095B; EP3417780A4; WO2017138376A1; US20190142323A1; CA3014574C; CA3014574A1; JP2017140170A; TW201742053A; CN108601567B; EP3417780A1; JP6306071B2; RU2714663C1; CN108601567A; KR102218214B1; EP3417780B1

Abstract

피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정한다.

Description

추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템

본 발명은 피험자(被驗者)의 건강 상태를 추정하는 추정 방법, 추정 프로그램, 추정 장치, 및 추정 시스템에 관한 것이다.

사람의 뇌의 활동(즉, 사람의 감정 상태 혹은 심신 상태)은 사람이 발화(發話)하는 음성에 나타나는 것이 알려져 있다. 예를 들어, 사람이 발화한 음성의 신호로부터 피치 주파수 등을 산출하고, 피치 주파수 등과 감정 상태와의 대응 관계를 나타내는 정보와 산출한 피치 주파수 등의 파라미터에 기초하여, 사람의 감정 상태(혹은 심신 상태)를 추정하는 기술이 제안되어 있다(예를 들어, 특허문헌 1 참조).

국제 공개공보 제2006/132159호

피치 주파수 등의 파라미터와 감정 상태와의 대응 관계는, 여러 가지 상황이나 장면에 있어서 발화된 음성의 샘플 데이터를 이용하여, 복수의 사람의 각각에, 각 샘플 데이터의 음성을 발화한 사람의 감정 상태(예를 들어, 기쁨이나 화남 등)를 판정시키는 것으로 생성된다. 즉, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계의 생성에는, 가능한 한 많은 샘플 데이터를 미리 준비하고, 샘플 데이터마다 발화한 사람의 감정 상태를, 복수의 사람 각자에게 판정시키기 때문에, 시간이 걸린다. 또한, 복수의 사람 각자가 사람의 감정 상태를 주관적으로 판정함으로써, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계에 기초하여 추정되는 감정 상태 혹은 심신 상태는, 객관성이 부족한 경우가 있다.

또한, 생성된 대응 관계에는, 파라미터로부터 감정 상태를 추정하기 위한 여러가지 임계치가 설정되어 있다. 그러나 설정되는 임계치는, 음성 데이터에 포함되는 노이즈나, 음성 데이터에 대한 다운 샘플링 등의 처리에 의한 음질의 열화에 대해, 영향을 받기 쉽다는 문제가 있다.

하나의 측면에서는, 본건에 개시된 추정 방법, 추정 프로그램, 추정 장치, 및 추정 시스템은, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있는 기술을 제공하는 것을 목적으로 한다.

하나의 관점에 의한 추정 방법은, 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정한다.

다른 관점에 의한 추정 프로그램은, 피험자가 발한 발화의 음성 데이터로부터 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 처리를 컴퓨터에 실행시킨다.

다른 관점에 의한 추정 장치는, 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 제1 산출부가 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 제2 계측부가 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 추정부를 갖는다.

다른 관점에 의한 추정 시스템은, 피험자가 발화한 음성 데이터를 취득하는 취득 장치와, 취득 장치가 취득한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 제1 산출부가 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 제2 산출부가 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 추정부를 포함하는 추정 장치를 갖는다.

본건에 개시된 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템은, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다.

도 1은 추정 장치의 일실시형태를 나타내는 도면이다.
도 2는 추정 장치의 다른 실시형태를 나타내는 도면이다.
도 3은 도 2에 나타낸 휴대 통신 단말을 통하여 취득한 음성 데이터의 일례를 나타내는 도면이다.
도 4는 도 2에 나타낸 제1 산출부(10a)가 산출한 특징량 간에 있어서의 상관성을 나타내는 도면이다.
도 5는 도 4에 나타낸 특징량 간에 있어서의 상관성의 계속을 나타내는 도면이다.
도 6은 도 2에 나타낸 추정 시스템에 있어서의 추정 처리의 일례를 나타내는 도면이다.

이하, 도면을 이용하여 실시형태에 대해서 설명한다.

도 1은 추정 장치 및 추정 방법의 일실시형태를 나타낸다.

도 1에 나타낸 추정 장치(100)는, CPU(Central Processing Unit) 등의 연산 처리 장치와 하드 디스크 장치 등의 기억 장치를 갖는 컴퓨터 장치 등이다. 추정 장치(100)는, 예를 들어 연산 처리 장치가 기억 장치에 기억된 추정 프로그램을 실행함으로써, 제1 산출부(10), 제2 산출부(20) 및 추정부(30)로서 기능한다. 또한, 제1 산출부(10), 제2 산출부(20) 및 추정부(30)는 하드웨어에 의해 실현되어도 좋다.

제1 산출부(10)는, 추정 장치(100)의 기억 장치에 기억된 피험자가 발화한 음성 데이터, 혹은 스마트폰 등의 휴대 통신 단말을 통하여 취득한 피험자의 음성 데이터를 이용하여, 음성의 피치 주파수나 음성의 강도 등을 산출한다. 그리고 제1 산출부(10)는, 피치 주파수나 음성의 강도 등의 시간 변화에 기초하여, 피험자의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성의 강도의 증가(또는 감소율) 등을 산출한다. 피치 주파수의 검출 빈도 및 음성의 강도의 증가율 등은 음성의 특징량의 일례이다.

또한, 제1 산출부(10)는 피치 주파수의 검출 빈도 및 음성 강도의 증가율(또는 감소율)의 적어도 하나를 산출해도 좋다.

제2 산출부(20)는, 산출한 피치 주파수의 검출 빈도 등의 특징량에 기초하여, 피험자에 있어서의 심신 상태를 나타내는 정도를 산출한다. 예를 들어, 제2 산출부(20)는, 산출한 피치 주파수의 검출 빈도 및 음성 강도의 증가율 등을 가산한 값을, 피험자의 심신 상태를 나타내는 정도(이하, 건강도라고도 칭해진다)로서 산출한다. 또한, 제2 산출부(20)는, 피치 주파수의 검출 빈도 혹은 강도의 증가율 등의 적어도 하나를 피험자 건강도로 해도 좋다. 또한, 제2 산출부(20)는, 피치 주파수의 검출 빈도 혹은 강도의 증가율 등을, 가중치 가산한 값을 피험자 건강도로 해도 좋다.

추정부(30)는, 산출한 건강도에 기초하여 피험자에 있어서의 심신 상태(예를 들어, 우울 상태 등인지 아닌지)를 추정한다. 그리고 추정 장치(100)는, 추정부(30)에 의해 추정된 심신 상태를 나타내는 정보를, 외부의 유기 EL(Organic Electro-Luminescence)이나 액정 등의 디스플레이에 출력한다.

또한, 추정 장치(100)의 구성 및 동작은, 도 1에 나타낸 예에 한정되지 않는다. 예를 들어, 추정 장치(100)와, 스마트폰 등의 휴대 통신 단말과, 유기 EL 등의 디스플레이를 포함함으로써, 추정 시스템으로 해도 좋다.

이상, 도 1에 나타낸 실시형태에서는, 추정 장치(100)는, 피험자의 음성 데이터를 이용하여, 피험자의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성의 강도의 증가율 등의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자의 심신 상태를 나타내는 건강도를 산출한다. 그리고 추정 장치(100)는, 산출한 건강도에 기초하여 피험자의 심신 상태를 추정한다. 이에 의해, 추정 장치(100)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다. 또한, 건강도는 산출한 특징량에 기초하여 산출되기 때문에, 추정 장치(100)는, 피험자의 심신 상태를 객관적으로 평가할 수 있다. 또한, 추정 장치(100)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 이용하지 않기 때문에, 노이즈 등의 음질 열화에 대한 내성을 갖는다.

도 2는, 추정 방법, 추정 장치 및 추정 시스템의 다른 실시형태를 나타낸다.

도 2에 나타낸 추정 시스템(SYS)은, 추정 장치(100a) 및 휴대 통신 단말(200)을 갖는다. 추정 장치(100a)와 휴대 통신 단말(200)은 유선 또는 무선을 통하여 접속된다. 또한, 추정 장치(100a)와 휴대 통신 단말(200)은, 네트워크를 통하여 접속되어도 좋다.

휴대 통신 단말(200)은, 휴대 전화, 스마트폰 혹은 태블릿형 단말이다. 휴대 통신 단말(200)은, 휴대 통신 단말(200)에 포함되는 마이크로폰을 통하여 피험자(PA)가 발화하는 음성의 신호를 취득하고, 취득한 신호를 소정의 샘플링 주파수(예를 들어, 11 킬로헤르츠 등)로 샘플링함으로써 디지탈 신호의 음성 데이터를 생성한다. 그리고 휴대 통신 단말(200)은 생성한 음성 데이터를 추정 장치(100a)에 송신한다. 또한, 휴대 통신 단말(200)은, 추정 장치(100a)에 의해 추정된 결과를, 휴대 통신 단말(200)에 포함되는 유기 EL 등의 디스플레이에 표시한다. 휴대 통신 단말(200)은 취득 장치의 일례이다.

또한, 휴대 통신 단말(200) 대신에, 마이크로폰이 유선 또는 무선을 통하여 추정 장치(100a)에 접속되어도 좋다. 이 경우, 추정 장치(100a)는, 마이크로폰으로부터의 음성의 신호를, 소정의 샘플링 주파수로 샘플링하여, 디지탈 신호의 음성 데이터를 생성해도 좋다.

추정 장치(100a)는, CPU 등의 연산 처리 장치와, 하드 디스크 장치 등의 기억 장치를 갖는 컴퓨터 장치 등이다. 추정 장치(100a)는, 예를 들어 연산 처리 장치가 기억 장치에 기억된 추정 프로그램을 실행함으로써, 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)로서 기능한다. 또한, 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는 하드웨어에 의해 실현되어도 좋다.

또한, 추정 장치(100a)는 휴대 통신 단말(200)에 있어서 실현되어도 좋다. 즉, 휴대 통신 단말(200)에 포함되는 CPU가, 휴대 통신 단말(200)에 포함되는 메모리 등의 기억부에 기억된 추정 프로그램을 실행함으로써, 휴대 통신 단말(200)은 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)로서 기능해도 좋다.

제1 산출부(10a)는, 휴대 통신 단말(200)로부터 취득한 피험자(PA)의 음성 데이터를 이용하여, 음성의 피치 주파수나 음성의 강도 등을 산출한다. 그리고 제1 산출부(10a)는, 산출한 피치 주파수나 강도 등의 시간 변화에 기초하여, 피험자(PA)의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성 강도의 증가율 등의 음성의 특징량을 산출한다. 또한, 제1 산출부(10a)의 동작에 대해서는 도 3에서 설명한다.

제2 산출부(20a)는, 제1 산출부(10a)가 산출한 피치 주파수의 검출 빈도 등의 특징량에 기초하여, 피험자(PA)에 있어서의 심신 상태를 나타내는 정도(건강도)를 산출한다. 제2 산출부(20a)의 동작에 대해서는, 도 4에서 설명한다.

추정부(30a)는, 제2 산출부(20a)가 산출한 정도에 기초하여 피험자(PA)에 있어서의 심신 상태를 추정한다. 그리고 추정 장치(100a)는 추정부(30a)에 의해 추정된 심신 상태를 나타내는 정보를 휴대 통신 단말(200)에 출력하고, 휴대 통신 단말(200)에 포함되는 유기 EL 등의 디스플레이에 표시시킨다.

도 3은, 도 2에 나타낸 휴대 통신 단말(200)을 통하여 취득한 음성 데이터의 일례를 나타낸다. 도 3(a)는, 휴대 통신 단말(200)을 통하여 취득한 피험자(PA)가 발화한 음성의 음압(音壓)의 시간 변화를 나타내고, 도 3(b)는, 피험자(PA)가 발화한 음성의 강도의 시간 변화를 나타낸다. 또한, 도 3의 가로축은 시각을 나타내고, 도 3(a)의 세로축은 음성의 음압을 나타내고, 도 3(b)의 세로축은 음성의 강도(PW)를 나타낸다. 음성의 강도(PW)는 음압의 제곱이다.

도 3은 피험자(PA)에 의한 발화의 음성 데이터 중,"고맙습니다"라고 발화한 발화 단위의 데이터를 나타낸다. 시각 t0, t1, t2, t3, t4는, "고", "맙", "습", "니", "다"의 각 말(語)의 발화의 개시 시각을 나타낸다. 또한, "고맙습니다"의 발화 단위 중, "맙"의 말을 발화한 음성 데이터에 대한 제1 산출부(10a)의 산출 처리에 대해서 설명하지만, 제1 산출부(10a)는, "고맙습니다"외 말 및 다른 발화 단위에 대해서도, 동일 또는 마찬가지로 산출 처리를 실행한다.

제1 산출부(10a)는, 예를 들어 휴대 통신 단말(200)로부터 취득한 음성 데이터를 이용하여, 피치 주파수, 강도 및 제로점 교차수 단계를, 윈도우(WD)마다 산출한다. 예를 들어, 제1 산출부(10a)는, 취득한 음성 데이터를 이용하여, "고맙습니다" 등의 발화 단위의 데이터마다, 윈도우(WD)의 폭으로 FFT(Fast Fourier Transform) 등의 스펙트럼 해석을 실행하고, 파워 스펙트럼을 산출한다. 제1 산출부(10a)는, 산출되는 음성의 강도(PW)의 값이 큰 편차를 나타내는 경우가 있기 때문에, 음성의 강도(PW)를 윈도우(WD)마다 평균을 취하여 산출한다. 즉, 도 3(b)는 이동 평균한 음성의 강도(PW)의 시간 변화를 나타낸다.

또한, 제1 산출부(10a)는 산출한 파워 스펙트럼에 대해서 자기 상관 처리를 실행하고, 산출한 자기 상관 계수의 분포에 있어서 인접하는 극대치(또는 극소치) 간의 주파수의 간격에 기초하여, 피치 주파수를 산출한다. 또한, 제1 산출부(10a)는, 각 윈도우(WD)의 음성 데이터에 있어서, 음성의 파형의 음압이 기준 압력(예를 들어, "0"으로 한다)을 가로지르는 회수를, 제로점 교차수로 하여 산출한다.

또한, 윈도우(WD)의 폭은, 예를 들어 512 등의 샘플수를 가지며, 제1 산출부(10a)는 윈도우(WD)의 폭의 4분의 1 등의 소정의 간격으로 윈도우(WD)를 이동시켜서, 피치 주파수 등을 각 윈도우(WD)에서 산출한다. 즉, 도 3(b)에 나타낸 시각 t1, t11, t12, t13, t14, t15, t16, t17, t18, t19, t2에 있어서의 강도(PW)는, "맙"의 말이 발화된 음성 데이터를 이용하여, 제1 산출부(10a)가 산출한 강도를 나타낸다. 그리고 시각 t1, t11, t12, t13, t14, t15, t16, t17, t18, t19, t2의 각각의 시간 간격은, 윈도우(WD)를 이동시킨 소정의 간격과 동일하다.

또한, 제1 산출부(10a)는, 피치 주파수(F0)나 템포 등의 파라미터를, 음성 데이터로부터 산출해도 좋다.

다음에, 제1 산출부(10a)는, "고맙습니다" 등의 발화 단위마다 산출한 피치 주파수, 강도, 제로점 교차수 단계에 기초하여, 피험자(PA)의 발화에 있어서의 피치 주파수의 검출 빈도, 및 강도(PW)의 증가율 등의 특징량을 산출한다. 예를 들어, 제1 산출부(10a)는, 발화 단위의 각각에 있어서, 모든 윈도우(WD) 중 피치 주파수가 산출된 윈도우(WD)의 비율을, 피치 주파수의 검출율을 나타내는 PITCH_RATE로서 산출한다. 즉, PITCH_RATE는, 피험자(PA)의 음성에 있어서 유성음(모음)이 발화된 비율을 나타낸다. 제1 산출부(10a)는, 각 발화 단위의 PITCH_RATE를, 각 발화 단위의 개시 시각(예를 들어, "고맙습니다"의 경우의 시각 t0)이나 종료 시각(예를 들어, "고맙습니다"의 경우의 시각 t5) 등의 시각에 대응시킨다. 그리고 제1 산출부(10a)는, 피험자(PA)의 발화에 있어서의 PITCH_RATE의 시간 변화를 취득한다.

또한, 제1 산출부(10a)는, 윈도우(WD)마다 산출한 제로점 교차수를 이용하여, 인접하는 윈도우(WD)의 제로점 교차수와의 차분인 Δ제로점 교차수의 각 발화 단위에 있어서의, 편차의 정도를 나타내는 DELTA_ZERO_DIV를 산출한다. 예를 들어, 제1 산출부(10a)는, 서로 인접하는 윈도우(WD) 사이에서 제로점 교차수의 차분을 각각 구하고, 구한 제로점 교차수의 차분의 표준 편차를 DELTA_ZERO_DIV로서 산출한다. 또한, 제1 산출부(10a)는, 각 윈도우(WD) 사이에서 구한 제로점 교차수의 차분의 분산치를, DELTA_ZERO_DIV로서 산출해도 좋다. 혹은, 제1 산출부(10a)는, 각 윈도우(WD) 사이에서 구한 제로점 교차수의 차분의 평균치와, 각 윈도우(WD)간의 제로점 교차수의 차분과의 차이의 절대치를 가산한 값을, DELTA_ZERO_DIV로서 산출해도 좋다. 제1 산출부(10a)는, 각 발화 단위의 DELTA_ZERO_DIV를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DELTA_ZERO_DIV의 시간 변화를 취득한다.

또한, 도 3(b)에 나타내는 바와 같이, 예를 들어 "고맙습니다"의 발화 단위에 있어서, "고", "맙", "습", "니", "다"의 각 말의 강도(PW)의 시간 변화는, 강도가 증가하는 Attack의 영역과 강도가 일정으로 유지되는 Keep의 영역과 강도가 감소하는 Decay의 영역을 갖는다. 여기서, 제1 산출부(10a)는, Attack의 영역 및 Decay의 영역에 있어서의 강도(PW)의 기울기를 산출한다. 예를 들어, 제1 산출부(10a)는, "맙"의 말에서 산출한 강도(PW) 중, Attack의 영역에 포함되는 시각(t1)의 강도(PW(t1))와 시각(t12)의 강도(PW(t12))와, 식 (1)을 이용하여, Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)를 산출한다.

δAS=(PW(t12)-PW(t1))/(t12-t1)…(1)

그리고 제1 산출부(10a)는, "고맙습니다"의 각 말에서 산출한 기울기(δAS)의 평균치를, "고맙습니다"의 발화 단위의 Attack의 영역에 있어서의 강도(PW)의 기울기 ATTACK_SLOPE로서 산출한다. 그리고 제1 산출부(10a)는, 각 발화 단위의 ATTACK_SLOPE를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 ATTACK_SLOPE의 시간 변화를 취득한다.

또한, 제1 산출부(10a)는, 시각(t1)의 강도(PW(t1)), 시각(t11)의 강도(PW(t11)) 및 시각(t12)의 강도(PW(t12))를 이용하여, "맙"의 말의 Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)를 산출해도 좋다. 예를 들어, 제1 산출부(10a)는, 시각(t1)의 강도(PW(t1))와 시각(t11)의 강도(PW(t11)) 사이의 강도의 기울기와, 시각(t11)의 강도(PW(t11))와 시각(t12)의 강도(PW(t12)) 사이의 강도의 기울기를 각각 산출한다. 그리고 제1 산출부(10a)는, 산출한 각 강도의 기울기의 평균치를, "맙"의 말의 Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)로서 산출한다.

한편, 예를 들어 제1 산출부(10a)는, "맙"의 말에서 산출한 강도(PW) 중, Decay의 영역에 포함되는 시각(t18)의 강도(PW(t18))와 시각(t2)의 강도(PW(t2))와, 식 (2)을 이용하여, Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)를 산출한다.

δDS=(PW(t2)-PW(t18))/(t2-t18)…(2)

그리고 제1 산출부(10a)는, "고맙습니다"의 각 말에서 산출한 기울기(δDS)의 평균치를, "고맙습니다"의 발화 단위의 Decay의 영역에 있어서의 강도(PW)의 기울기 DECAY_SLOPE로서 산출한다. 그리고 제1 산출부(10a)는, 각 발화 단위의 DECAY_SLOPE를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DECAY_SLOPE의 시간 변화를 취득한다.

또한, 제1 산출부(10a)는, 시각(t18)의 강도(PW(t18)), 시각(t19)의 강도(PW(t19)) 및 시각(t2)의 강도(PW(t2))를 이용하여, "맙"의 말의 Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)를 산출해도 좋다. 예를 들어, 제1 산출부(10a)는, 시각(t18)의 강도(PW(t18))와 시각(t19)의 강도(PW(t19)) 사이의 강도의 기울기와, 시각(t19)의 강도(PW(t19))와 시각(t2)의 강도(PW(t2)) 사이의 강도의 기울기를 각각 산출한다. 그리고 제1 산출부(10a)는, 산출한 각 강도의 기울기의 평균치를, "맙"의 말의 Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)로서 산출한다.

또한, 제1 산출부(10a)는, 도 3(b)에 나타내는 바와 같이, 발화 단위"고맙습니다"의 각 말의 발화의 종료 시각 t1, t2, t3, t4, t5에 있어서의 강도(PW)의 평균치를, DECAY_POWER로서 산출한다. 제1 산출부(10a)는, 각 발화 단위의 DECAY_POWER를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DECAY_POWER의 시간 변화를 취득한다.

또한, 제1 산출부(10a)는, DECAY_SLOPE_DIV, DELTA_ZERO_MAX_ABS, DELTA_ZERO_DIV_ABS, DECAY_COUNT, 및 POWER_PEAK_COUNT 등의 특징량을 산출해도 좋다. 또한, 제1 산출부(10a)는, DECAY_POWER_DIV, ATTACK_SLOPE_DIV, ATTACK_COUNT, 및 PITCH_TIME_CORRE 등의 특징량을 산출해도 좋다.

또한, DECAY_SLOPE_DIV는, 각 발화 단위에 있어서의 DECAY_SLOPE의 편차의 정도를 나타내는 표준 편차나 분산치 등이다. DELTA_ZERO_MAX_ABS는, 각 발화 단위에 있어서 산출된 복수의 DELTA_ZERO_DIV 중, 소정의 강도 이상의 강도(PW)를 갖는 음성 데이터를 이용하여 산출된 최대의 DELTA_ZERO_DIV의 절대치이다. DELTA_ZERO_DIV_ABS는, DELTA_ZERO_DIV의 절대치이다. DECAY_COUNT는, 도 3(b)에 나타내는 바와 같이, 각 발화 단위의 강도(PW)에 있어서, Decay의 영역에서 샘플링된 데이터 수이다.

또한, POWER_PEAK_COUNT는, 각 발화 단위에 있어서, 예를 들어 서로 인접하는 3개의 윈도우(WD)에 있어서 산출된 강도(PW)의 시간 변화가 돌출 형상이 되는, 1초 등의 단위시간 당의 수이다. 또한, POWER_PEAK_COUNT를 산출하는 것에 있어서, 인접하는 윈도우(WD)의 수는, 3 이상의 복수라도 좋다. 또한, 각 윈도우(WD)의 강도(PW)는, 노이즈 레벨 이상인 것이 바람직하다.

또한, DECAY_POWER_DIV는, 예를 들어 각 발화 단위에 있어서의 DECAY_POWER의 편차의 정도를 나타내는 표준 편차나 분산치 등이다. ATTACK_SLOPE_DIV는, 각 발화 단위에 있어서의 ATTACK_SLOPE의 편차를 나타내는 표준 편차나 분산치 등이다. ATTACK_COUNT는, 도 3(b)에 나타내는 바와 같이, 각 발화 단위의 강도(PW)에 있어서, Attack의 영역에서 샘플링된 데이터 수이다. PITCH_TIME_CORRE는, 각 발화 단위에 있어서, 윈도우(WD)를 번호 부가한 경우에, 윈도우(WD)의 차례(즉 시간 경과)와 피치 주파수의 시간 변화 사이의 상관 계수이다.

도 4 및 도 5는, 도 2에 나타낸 제1 산출부(10a)가 산출한 특징량 간에 있어서의 상관성을 나타낸다. 특징량 간의 상관성을 나타내는 상관 테이블(CT)은, LABEL, AUC(Area Under the Curve) 및 DECAY_POWER 등의 복수의 특징량의 각각을 기억하는 영역을 갖는다. LABEL의 영역에는, DECAY_POWER 등의 특징량을 나타내는 명칭이 저장된다.

AUC의 영역에는, 예를 들어 의사에 의해서 라벨(예를 들어, 우울 상태인지 아닌지, 뇌경색인지 아닌지 등)이 부여된 복수의 피험자 음성 데이터를, LABEL 영역의 각 특징량을 이용하여 분류한 경우의 ROC 곡선에 대한 AUC가 저장된다. 즉, 저장되는 AUC의 값은, 각 특징량이 갖는 피험자(PA)의 심신 상태를 판정하는 능력의 정도를 나타낸다. 또한, ROC는, Receiver Operating Characteristic의 약어(略記)이다.

즉, 예를 들어 AUC의 값이 0.7 이상의 특징량은 단독으로 이용된 경우라도, 피험자(PA)의 심신 상태를 올바르게 판정할 수 있고, AUC의 값이 0.7보다 낮은 특징량은 단독으로 이용된 경우, 피험자(PA)의 심신 상태를 올바르게 판정할 수 없는 것을 나타낸다. 상관 테이블(CT)에서는, AUC의 값을 0.7 이상 갖는 특징량을 나타낸다.

복수의 특징량의 영역(이하, 특징량 영역이라고도 칭해진다)의 각각에는, 피험자(PA)의 음성 데이터를 이용하여 산출된, 각 특징량 영역의 특징량이 나타내는 시간 변화와, LABEL의 영역의 각 특징량이 나타내는 시간 변화 사이의 상호 상관 계수가 저장된다. 또한, 도 4 및 도 5에 나타낸 상관 테이블(CT)에서는, 상호 상관 계수의 절대치가 소정의 계수치, 예를 들어 0.65 이상을 나타내는 특징량 영역을 망점 패턴으로 나타내고 있다. 이것은, 상호 상관 계수의 절대치가 소정의 계수치 이상을 나타내는, 특징량 영역의 특징량과 LABEL의 영역의 특징량은, 추정 장치(100a)가, 피험자(PA)의 음성 데이터를 이용하여, 어느 한쪽의 특징량을 산출한 경우, 다른쪽의 특징량을 추정할 수 있는 것을 나타낸다. 즉, 추정 장치(100a)는, 도 4 및 도 5에 나타낸 상관 테이블(CT)의 LABEL의 영역의 특징량 중, 일부의 특징량을 산출함으로써, LABEL의 영역의 모든 특징량을 산출하는 바와 동등한 것을 나타낸다.

여기서, 추정 장치(100a)는, 도 4 및 도 5에 나타낸 상관 테이블(CT)에 기초하여, LABEL의 영역의 특징량 중, AUC의 값이 0.7 이상으로 크고, 또한 다른 특징량과의 상관성이 없는, 혹은 다른 특징량과의 상관성이 소정의 계수치보다 작은 특징량을 선택한다. 예를 들어, 추정 장치(100a)는, LABEL의 영역에 있어서 망점 패턴으로 나타내는 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 4개의 특징량을 선택한다.

또한, 추정 장치(100a)는, 주성분 분석법, 혹은 자기 부호화기(符號化器) 등의 신경 회로망을 이용하여, AUC의 값이 0.7 이상으로 크고, 또한 다른 특징량과의 관계성이 없는, 혹은 관계성이 낮은 특징량을 선택해도 좋다.

제1 산출부(10a)는, 피험자(PA)의 음성 데이터를 이용하여, 선택된 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다. 제2 산출부(20a)는, 식 (3)을 이용하여, 산출된 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 가중치 가산하여, 피험자(PA)의 심신 상태를 나타내는 정도(건강도)(α)를 산출한다.

α=-DECAY_POWER+DECAY_SLOPE+PITCH_RATE+0.5×DELTA_ZERO_DIV…(3)

또한, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량의 가중치 계수는, 식 (3)의 경우에 한정되지 않는다. 예를 들어, 각 특징량을 가중치 계수는, 대상이 되는 피험자(PA)의 직업, 가족 구성 혹은 생활 환경 등에 대응하여 적절히 설정되는 것이 바람직하다. 예를 들어, 제2 산출부(20a)는, 식 (4)를 이용하여, 피험자(PA)의 건강도(α)를 산출해도 좋다. 또한, 식 (4)에 있어서의 DECAY_SLOPE의 계수는, "0"이다.

α=-0.5×DECAY_POWER+PITCH_RATE+0.5×DELTA_ZERO_DIV…(4)

또한, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량의 각각은, 소정의 계수치, 예를 들어 0.65 이상의 상호 상관 계수를 나타내는 특징량으로 대체해도 좋다. 예를 들어, DECAY_SLOPE는, ATTACK_SLOPE와의 사이에서 상호 상관 계수가 0.79인 것으로부터, 제1 산출부(10a)는, DECAY_SLOPE 대신에, ATTACK_SLOPE를 산출해도 좋다. 그리고 제2 산출부(20a)는, DECAY_POWER, PITCH_RATE, DELTA_ZERO_DIV, 식 (3)과 함께, ATTACK_SLOPE를 이용하여, 건강도(α)를 산출한다. 또한, ATTACK_SLOPE의 가중치 계수는 적절히 설정되는 것이 바람직하다.

또한, 건강도(α)는, AUC의 값이 높은 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV 등의 특징량의 어느 하나를 이용하여 산출되어도 좋다.

또한, DECAY_POWER_DIV 및 PITCH_TIME_CORRE는, 다른 특징량과의 상관성이 낮지만, 다른 특징량과 비교해서 AUC의 값이 가장 작기 때문에, 건강도(α)를 산출하는 식 (3)에는 포함되지 않았다. 그러나 DECAY_POWER_DIV 및 PITCH_TIME_CORRE는 제1 산출부(10a)에 의해 산출되고, 식 (3)에 포함되어도 좋다.

추정부(30a)는, 제2 산출부(20a)가 산출한 건강도(α)와 임계치와의 비교에 기초하여, 피험자(PA)에 있어서의 심신 상태, 예를 들어 피험자(PA)가 우울 상태인지 아닌지를 추정한다. 예를 들어, 추정부(30a)는, 건강도(α)가 임계치보다 작은(즉, 피험자(PA)가 발화하는 음성이 불명료하고, 발음이 좋지 않은) 경우, 피험자(PA)의 심신 상태가 좋지 않다(예를 들어, 우울 상태)고 추정한다. 한편, 추정부(30a)는, 건강도(α)가 임계치 이상[즉, 피험자(PA)가 발하는 음성이 명료하고, 발음이 좋은] 경우, 피험자(PA)의 심신 상태가 좋고, 건강하다고 추정한다.

또한, 추정부(30a)가 이용하는 임계치는, 예를 들어 민감도가 "1"이며, 가짜 양성율(1-특이도)이 "0"인 점으로부터의 거리가 최소가 되는 건강도(α)의 ROC 곡선 상의 점에 기초하여 설정된다. 혹은, 임계치는, 건강도(α)의 ROC 곡선과 AUC가 0.5의 경우의 ROC 곡선과의 사이의 거리(민감도+특이점-1)를 나타내는 Youden Index 등에 기초하여 설정되어도 좋다.

도 6은, 도 2에 나타낸 추정 장치(100a)에 의한 추정 처리의 일례를 나타낸다. 스텝 S100으로부터 스텝 S130은, 추정 장치(100a)에 탑재되는 연산 처리 장치가, 추정 장치(100a)의 기억 장치에 기억되는 추정 프로그램을 실행함으로써 실현된다. 즉, 도 6은, 추정 프로그램 및 추정 방법의 다른 실시형태를 나타낸다. 이 경우, 도 2에 나타낸 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는, 추정 프로그램의 실행에 의해 실현된다. 또한, 도 6에 나타낸 처리는, 추정 장치(100a)에 탑재되는 하드웨어에 의해 실현되어도 좋다. 이 경우, 도 2에 나타낸 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는, 추정 장치(100a) 내에 배치되는 회로에 의해 실현된다.

또한, 추정 프로그램은, 예를 들어 DVD(Digital Versatile Disc) 등의 리무버블 디스크에 기록하여 반포할 수 있다. 또한, 추정 프로그램은, USB(Universal Serial Bus) 메모리 등의 운반 가능형 기억 매체에 기록하여 반포해도 좋다. 혹은, 추정 장치(100a)는, 추정 장치(100a)에 포함되는 네트워크 인터페이스를 통하여, 네트워크를 통해서 추정 프로그램을 다운로드하고, 메모리 등의 기억부에 저장해도 좋다.

스텝 S100에서는, 제1 산출부(10a)는 휴대 통신 단말(200)을 통하여 취득한 피험자(PA)가 발화한 음성 데이터를 이용하여, 피치 주파수, 강도 및 제로점 교차수 단계의 파라미터를, 윈도우(WD)마다 산출한다.

스텝 S110에서는, 제1 산출부(10a)는, 스텝 S100에서 산출한 피치 주파수, 강도 및 제로점 교차수 단계의 파라미터를 이용하여, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다.

스텝 S120에서는, 제2 산출부(20a)는, 스텝 S110에서 산출한 특징량과 식 (3)을 이용하여, 피험자(PA)의 건강도(α)를 산출한다.

스텝 S130에서는, 추정부(30a)는, 스텝 S120에서 산출된 건강도(α)와 임계치와의 비교에 기초하여, 피험자(PA)의 심신 상태(예를 들어, 우울 상태인지 아닌지)를 추정한다.

추정 장치(100a)는, 추정부(30a)에 의해 추정된 심신 상태를 나타내는 정보를 휴대 통신 단말(200)에 출력하고, 휴대 통신 단말(200)의 디스플레이에 표시시킨다. 그리고 추정 장치(100a)는, 추정 처리를 종료한다. 도 6에 나타낸 처리는, 피험자(PA)가 휴대 통신 단말(200)를 향하여 발화할 때마다 반복 실행된다.

이상, 도 2로부터 도 6에 나타낸 실시형태에서는, 추정 장치(100a)는, 피험자(PA)의 음성 데이터를 이용하여, 피험자의 발화에 있어서의 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다. 그리고 추정 장치(100a)는, 산출한 특징량과 식 (3)을 이용하여, 피험자(PA)의 심신 상태를 나타내는 건강도(α)를 산출한다. 그리고 추정 장치(100a)는, 산출한 건강도(α)와 임계치와의 비교에 기초하여 피험자의 심신 상태를 추정한다. 이에 의해, 추정 장치(100a)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다. 또한, 건강도(α)는 산출한 특징량에 기초하여 산출되는 것으로부터, 추정 장치(100a)는, 피험자(PA)의 심신 상태를 객관적으로 평가할 수 있다. 또한, 추정 장치(100a)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 이용하지 않기 때문에, 노이즈 등의 음질 열화에 대한 내성을 갖는다.

또한, 추정 장치(100(100a))는, 정신 분석, 행동 예측, 행동 분석 등의 심리 카운셀링, 정신 의료, 일반 의료에 있어서의 면접이나 처방에 적용했을 경우를 나타냈지만, 이에 한정되지 않는다. 예를 들어, 추정 장치(100)는, 로봇, 인공지능이나 자동차, 혹은 콜센터, 엔터테인먼트, 인터넷, 스마트폰이나 태블릿형 단말 등의 휴대 단말 장치 어플리케이션이나 서비스, 검색 시스템에 응용되어도 좋다. 또한, 추정 장치(100)는, 진단 장치, 자동 문진 장치, 재해 트리아지(triage) 등에 응용되어도 좋다. 또한, 추정 장치(100)는, 금융 여신 관리 시스템이나 행동 예측, 기업, 학교, 행정 기관, 경찰이나 군사, 정보 수집 활동 등에서의 정보 분석, 허위 발견에 연결되는 심리 분석, 조직 그룹 관리에 응용되어도 좋다. 또한, 추정 장치(100)는, 조직의 구성원, 연구자나 종업원, 관리자 등의 마음의 건강이나 행동 예측을 관리하는 시스템, 주거나 오피스, 비행기나 우주선 등의 환경을 제어하는 시스템, 혹은 가족이나 친구의 마음 상태나 행동 예측을 알기 위한 수단에 적용되어도 좋다. 또한, 추정 장치(100)는, 음악이나 영화 전달, 일반적인 정보 검색, 정보 분석 관리나 정보 처리, 혹은 고객 감성 기호 마켓 분석 등이나 이것들을 네트워크나 스탠드 어론(stand alone)으로 관리하는 시스템 등에 적용되어도 좋다.

이상의 상세한 설명에 의해, 실시형태의 특징점 및 이점은 명백해질 것이다. 이는 특허 청구의 범위가 그 정신 및 권리 범위를 일탈하지 않는 범위에서 상술한 바와 같은 실시형태의 특징점 및 이점에까지 미치는 것을 의도하는 것이다. 또한, 상기 기술 분야에 있어서 통상의 지식을 갖는 사람이면, 모든 개량 및 변경에 용이하게 도달할 수 있을 것이다. 따라서, 발명성을 갖는 실시형태의 범위를 상술한 것으로 한정하려는 의도는 없고, 실시형태에 개시된 범위에 포함되는 적절한 개량물 및 균등물에 의한 것도 가능하다.

10, 10a…제1 산출부;
20, 20a…제2 산출부;
30, 30a…추정부;
100, 100a…추정 장치;
200…휴대 통신 단말;
CT…상관 테이블;
SYS…추정 시스템

Claims

피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고,
산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고,
산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 것을 특징으로 하는 추정 방법.
제 1 항에 있어서,
상기 특징량을 산출하는 처리는, 복수의 상기 특징량 중, 다른 특징량과의 상관이 없는, 혹은 다른 특징량과의 상관 계수의 절대치가 소정치보다 작은 특징량을 상기 음성 데이터로부터 산출하고,
상기 정도를 산출하는 처리는, 산출된 특징량에 기초하여 상기 정도를 산출하는 것을 특징으로 하는 추정 방법.
제 1 항 또는 제 2 항에 있어서,
산출되는 특징량은, ROC(Receiver Operating Characteristic) 곡선에 있어서의 AUC(Area Under the Curve)를 0.7 이상 갖는 것을 특징으로 하는 추정 방법.
피험자가 발한 발화의 음성 데이터로부터 적어도 하나의 특징량을 산출하고,
산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고,
산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 처리를 컴퓨터에 실행시키는 추정 프로그램.
피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와,
상기 제1 산출부가 산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와,
상기 제2 산출부가 산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 추정부를 구비하는 것을 특징으로 하는 추정 장치.
피험자가 발화한 음성 데이터를 취득하는 취득 장치와,
상기 취득 장치가 취득한 상기 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 상기 제1 산출부가 산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 상기 제2 산출부가 산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 추정부를 포함하는 추정 장치를 구비하는 것을 특징으로 하는 추정 시스템.