KR20180105716A - 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템 - Google Patents
추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템 Download PDFInfo
- Publication number
- KR20180105716A KR20180105716A KR1020187025687A KR20187025687A KR20180105716A KR 20180105716 A KR20180105716 A KR 20180105716A KR 1020187025687 A KR1020187025687 A KR 1020187025687A KR 20187025687 A KR20187025687 A KR 20187025687A KR 20180105716 A KR20180105716 A KR 20180105716A
- Authority
- KR
- South Korea
- Prior art keywords
- calculated
- subject
- calculating
- degree
- estimation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 13
- 230000003340 mental effect Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 63
- 238000004891 communication Methods 0.000 description 28
- 230000036541 health Effects 0.000 description 27
- 238000001514 detection method Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 10
- 230000002996 emotional effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 230000006996 mental state Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000001671 psychotherapy Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Veterinary Medicine (AREA)
- Child & Adolescent Psychology (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Hospice & Palliative Care (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Epidemiology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정한다.
Description
본 발명은 피험자(被驗者)의 건강 상태를 추정하는 추정 방법, 추정 프로그램, 추정 장치, 및 추정 시스템에 관한 것이다.
사람의 뇌의 활동(즉, 사람의 감정 상태 혹은 심신 상태)은 사람이 발화(發話)하는 음성에 나타나는 것이 알려져 있다. 예를 들어, 사람이 발화한 음성의 신호로부터 피치 주파수 등을 산출하고, 피치 주파수 등과 감정 상태와의 대응 관계를 나타내는 정보와 산출한 피치 주파수 등의 파라미터에 기초하여, 사람의 감정 상태(혹은 심신 상태)를 추정하는 기술이 제안되어 있다(예를 들어, 특허문헌 1 참조).
피치 주파수 등의 파라미터와 감정 상태와의 대응 관계는, 여러 가지 상황이나 장면에 있어서 발화된 음성의 샘플 데이터를 이용하여, 복수의 사람의 각각에, 각 샘플 데이터의 음성을 발화한 사람의 감정 상태(예를 들어, 기쁨이나 화남 등)를 판정시키는 것으로 생성된다. 즉, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계의 생성에는, 가능한 한 많은 샘플 데이터를 미리 준비하고, 샘플 데이터마다 발화한 사람의 감정 상태를, 복수의 사람 각자에게 판정시키기 때문에, 시간이 걸린다. 또한, 복수의 사람 각자가 사람의 감정 상태를 주관적으로 판정함으로써, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계에 기초하여 추정되는 감정 상태 혹은 심신 상태는, 객관성이 부족한 경우가 있다.
또한, 생성된 대응 관계에는, 파라미터로부터 감정 상태를 추정하기 위한 여러가지 임계치가 설정되어 있다. 그러나 설정되는 임계치는, 음성 데이터에 포함되는 노이즈나, 음성 데이터에 대한 다운 샘플링 등의 처리에 의한 음질의 열화에 대해, 영향을 받기 쉽다는 문제가 있다.
하나의 측면에서는, 본건에 개시된 추정 방법, 추정 프로그램, 추정 장치, 및 추정 시스템은, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있는 기술을 제공하는 것을 목적으로 한다.
하나의 관점에 의한 추정 방법은, 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정한다.
다른 관점에 의한 추정 프로그램은, 피험자가 발한 발화의 음성 데이터로부터 적어도 하나의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고, 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 처리를 컴퓨터에 실행시킨다.
다른 관점에 의한 추정 장치는, 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 제1 산출부가 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 제2 계측부가 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 추정부를 갖는다.
다른 관점에 의한 추정 시스템은, 피험자가 발화한 음성 데이터를 취득하는 취득 장치와, 취득 장치가 취득한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 제1 산출부가 산출한 특징량에 기초하여 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 제2 산출부가 산출한 정도에 기초하여 피험자에 있어서의 심신 상태를 추정하는 추정부를 포함하는 추정 장치를 갖는다.
본건에 개시된 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템은, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다.
도 1은 추정 장치의 일실시형태를 나타내는 도면이다.
도 2는 추정 장치의 다른 실시형태를 나타내는 도면이다.
도 3은 도 2에 나타낸 휴대 통신 단말을 통하여 취득한 음성 데이터의 일례를 나타내는 도면이다.
도 4는 도 2에 나타낸 제1 산출부(10a)가 산출한 특징량 간에 있어서의 상관성을 나타내는 도면이다.
도 5는 도 4에 나타낸 특징량 간에 있어서의 상관성의 계속을 나타내는 도면이다.
도 6은 도 2에 나타낸 추정 시스템에 있어서의 추정 처리의 일례를 나타내는 도면이다.
도 2는 추정 장치의 다른 실시형태를 나타내는 도면이다.
도 3은 도 2에 나타낸 휴대 통신 단말을 통하여 취득한 음성 데이터의 일례를 나타내는 도면이다.
도 4는 도 2에 나타낸 제1 산출부(10a)가 산출한 특징량 간에 있어서의 상관성을 나타내는 도면이다.
도 5는 도 4에 나타낸 특징량 간에 있어서의 상관성의 계속을 나타내는 도면이다.
도 6은 도 2에 나타낸 추정 시스템에 있어서의 추정 처리의 일례를 나타내는 도면이다.
이하, 도면을 이용하여 실시형태에 대해서 설명한다.
도 1은 추정 장치 및 추정 방법의 일실시형태를 나타낸다.
도 1에 나타낸 추정 장치(100)는, CPU(Central Processing Unit) 등의 연산 처리 장치와 하드 디스크 장치 등의 기억 장치를 갖는 컴퓨터 장치 등이다. 추정 장치(100)는, 예를 들어 연산 처리 장치가 기억 장치에 기억된 추정 프로그램을 실행함으로써, 제1 산출부(10), 제2 산출부(20) 및 추정부(30)로서 기능한다. 또한, 제1 산출부(10), 제2 산출부(20) 및 추정부(30)는 하드웨어에 의해 실현되어도 좋다.
제1 산출부(10)는, 추정 장치(100)의 기억 장치에 기억된 피험자가 발화한 음성 데이터, 혹은 스마트폰 등의 휴대 통신 단말을 통하여 취득한 피험자의 음성 데이터를 이용하여, 음성의 피치 주파수나 음성의 강도 등을 산출한다. 그리고 제1 산출부(10)는, 피치 주파수나 음성의 강도 등의 시간 변화에 기초하여, 피험자의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성의 강도의 증가(또는 감소율) 등을 산출한다. 피치 주파수의 검출 빈도 및 음성의 강도의 증가율 등은 음성의 특징량의 일례이다.
또한, 제1 산출부(10)는 피치 주파수의 검출 빈도 및 음성 강도의 증가율(또는 감소율)의 적어도 하나를 산출해도 좋다.
제2 산출부(20)는, 산출한 피치 주파수의 검출 빈도 등의 특징량에 기초하여, 피험자에 있어서의 심신 상태를 나타내는 정도를 산출한다. 예를 들어, 제2 산출부(20)는, 산출한 피치 주파수의 검출 빈도 및 음성 강도의 증가율 등을 가산한 값을, 피험자의 심신 상태를 나타내는 정도(이하, 건강도라고도 칭해진다)로서 산출한다. 또한, 제2 산출부(20)는, 피치 주파수의 검출 빈도 혹은 강도의 증가율 등의 적어도 하나를 피험자 건강도로 해도 좋다. 또한, 제2 산출부(20)는, 피치 주파수의 검출 빈도 혹은 강도의 증가율 등을, 가중치 가산한 값을 피험자 건강도로 해도 좋다.
추정부(30)는, 산출한 건강도에 기초하여 피험자에 있어서의 심신 상태(예를 들어, 우울 상태 등인지 아닌지)를 추정한다. 그리고 추정 장치(100)는, 추정부(30)에 의해 추정된 심신 상태를 나타내는 정보를, 외부의 유기 EL(Organic Electro-Luminescence)이나 액정 등의 디스플레이에 출력한다.
또한, 추정 장치(100)의 구성 및 동작은, 도 1에 나타낸 예에 한정되지 않는다. 예를 들어, 추정 장치(100)와, 스마트폰 등의 휴대 통신 단말과, 유기 EL 등의 디스플레이를 포함함으로써, 추정 시스템으로 해도 좋다.
이상, 도 1에 나타낸 실시형태에서는, 추정 장치(100)는, 피험자의 음성 데이터를 이용하여, 피험자의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성의 강도의 증가율 등의 특징량을 산출하고, 산출한 특징량에 기초하여 피험자의 심신 상태를 나타내는 건강도를 산출한다. 그리고 추정 장치(100)는, 산출한 건강도에 기초하여 피험자의 심신 상태를 추정한다. 이에 의해, 추정 장치(100)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다. 또한, 건강도는 산출한 특징량에 기초하여 산출되기 때문에, 추정 장치(100)는, 피험자의 심신 상태를 객관적으로 평가할 수 있다. 또한, 추정 장치(100)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 이용하지 않기 때문에, 노이즈 등의 음질 열화에 대한 내성을 갖는다.
도 2는, 추정 방법, 추정 장치 및 추정 시스템의 다른 실시형태를 나타낸다.
도 2에 나타낸 추정 시스템(SYS)은, 추정 장치(100a) 및 휴대 통신 단말(200)을 갖는다. 추정 장치(100a)와 휴대 통신 단말(200)은 유선 또는 무선을 통하여 접속된다. 또한, 추정 장치(100a)와 휴대 통신 단말(200)은, 네트워크를 통하여 접속되어도 좋다.
휴대 통신 단말(200)은, 휴대 전화, 스마트폰 혹은 태블릿형 단말이다. 휴대 통신 단말(200)은, 휴대 통신 단말(200)에 포함되는 마이크로폰을 통하여 피험자(PA)가 발화하는 음성의 신호를 취득하고, 취득한 신호를 소정의 샘플링 주파수(예를 들어, 11 킬로헤르츠 등)로 샘플링함으로써 디지탈 신호의 음성 데이터를 생성한다. 그리고 휴대 통신 단말(200)은 생성한 음성 데이터를 추정 장치(100a)에 송신한다. 또한, 휴대 통신 단말(200)은, 추정 장치(100a)에 의해 추정된 결과를, 휴대 통신 단말(200)에 포함되는 유기 EL 등의 디스플레이에 표시한다. 휴대 통신 단말(200)은 취득 장치의 일례이다.
또한, 휴대 통신 단말(200) 대신에, 마이크로폰이 유선 또는 무선을 통하여 추정 장치(100a)에 접속되어도 좋다. 이 경우, 추정 장치(100a)는, 마이크로폰으로부터의 음성의 신호를, 소정의 샘플링 주파수로 샘플링하여, 디지탈 신호의 음성 데이터를 생성해도 좋다.
추정 장치(100a)는, CPU 등의 연산 처리 장치와, 하드 디스크 장치 등의 기억 장치를 갖는 컴퓨터 장치 등이다. 추정 장치(100a)는, 예를 들어 연산 처리 장치가 기억 장치에 기억된 추정 프로그램을 실행함으로써, 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)로서 기능한다. 또한, 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는 하드웨어에 의해 실현되어도 좋다.
또한, 추정 장치(100a)는 휴대 통신 단말(200)에 있어서 실현되어도 좋다. 즉, 휴대 통신 단말(200)에 포함되는 CPU가, 휴대 통신 단말(200)에 포함되는 메모리 등의 기억부에 기억된 추정 프로그램을 실행함으로써, 휴대 통신 단말(200)은 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)로서 기능해도 좋다.
제1 산출부(10a)는, 휴대 통신 단말(200)로부터 취득한 피험자(PA)의 음성 데이터를 이용하여, 음성의 피치 주파수나 음성의 강도 등을 산출한다. 그리고 제1 산출부(10a)는, 산출한 피치 주파수나 강도 등의 시간 변화에 기초하여, 피험자(PA)의 발화에 있어서의 피치 주파수의 검출 빈도, 및 음성 강도의 증가율 등의 음성의 특징량을 산출한다. 또한, 제1 산출부(10a)의 동작에 대해서는 도 3에서 설명한다.
제2 산출부(20a)는, 제1 산출부(10a)가 산출한 피치 주파수의 검출 빈도 등의 특징량에 기초하여, 피험자(PA)에 있어서의 심신 상태를 나타내는 정도(건강도)를 산출한다. 제2 산출부(20a)의 동작에 대해서는, 도 4에서 설명한다.
추정부(30a)는, 제2 산출부(20a)가 산출한 정도에 기초하여 피험자(PA)에 있어서의 심신 상태를 추정한다. 그리고 추정 장치(100a)는 추정부(30a)에 의해 추정된 심신 상태를 나타내는 정보를 휴대 통신 단말(200)에 출력하고, 휴대 통신 단말(200)에 포함되는 유기 EL 등의 디스플레이에 표시시킨다.
도 3은, 도 2에 나타낸 휴대 통신 단말(200)을 통하여 취득한 음성 데이터의 일례를 나타낸다. 도 3(a)는, 휴대 통신 단말(200)을 통하여 취득한 피험자(PA)가 발화한 음성의 음압(音壓)의 시간 변화를 나타내고, 도 3(b)는, 피험자(PA)가 발화한 음성의 강도의 시간 변화를 나타낸다. 또한, 도 3의 가로축은 시각을 나타내고, 도 3(a)의 세로축은 음성의 음압을 나타내고, 도 3(b)의 세로축은 음성의 강도(PW)를 나타낸다. 음성의 강도(PW)는 음압의 제곱이다.
도 3은 피험자(PA)에 의한 발화의 음성 데이터 중,"고맙습니다"라고 발화한 발화 단위의 데이터를 나타낸다. 시각 t0, t1, t2, t3, t4는, "고", "맙", "습", "니", "다"의 각 말(語)의 발화의 개시 시각을 나타낸다. 또한, "고맙습니다"의 발화 단위 중, "맙"의 말을 발화한 음성 데이터에 대한 제1 산출부(10a)의 산출 처리에 대해서 설명하지만, 제1 산출부(10a)는, "고맙습니다"외 말 및 다른 발화 단위에 대해서도, 동일 또는 마찬가지로 산출 처리를 실행한다.
제1 산출부(10a)는, 예를 들어 휴대 통신 단말(200)로부터 취득한 음성 데이터를 이용하여, 피치 주파수, 강도 및 제로점 교차수 단계를, 윈도우(WD)마다 산출한다. 예를 들어, 제1 산출부(10a)는, 취득한 음성 데이터를 이용하여, "고맙습니다" 등의 발화 단위의 데이터마다, 윈도우(WD)의 폭으로 FFT(Fast Fourier Transform) 등의 스펙트럼 해석을 실행하고, 파워 스펙트럼을 산출한다. 제1 산출부(10a)는, 산출되는 음성의 강도(PW)의 값이 큰 편차를 나타내는 경우가 있기 때문에, 음성의 강도(PW)를 윈도우(WD)마다 평균을 취하여 산출한다. 즉, 도 3(b)는 이동 평균한 음성의 강도(PW)의 시간 변화를 나타낸다.
또한, 제1 산출부(10a)는 산출한 파워 스펙트럼에 대해서 자기 상관 처리를 실행하고, 산출한 자기 상관 계수의 분포에 있어서 인접하는 극대치(또는 극소치) 간의 주파수의 간격에 기초하여, 피치 주파수를 산출한다. 또한, 제1 산출부(10a)는, 각 윈도우(WD)의 음성 데이터에 있어서, 음성의 파형의 음압이 기준 압력(예를 들어, "0"으로 한다)을 가로지르는 회수를, 제로점 교차수로 하여 산출한다.
또한, 윈도우(WD)의 폭은, 예를 들어 512 등의 샘플수를 가지며, 제1 산출부(10a)는 윈도우(WD)의 폭의 4분의 1 등의 소정의 간격으로 윈도우(WD)를 이동시켜서, 피치 주파수 등을 각 윈도우(WD)에서 산출한다. 즉, 도 3(b)에 나타낸 시각 t1, t11, t12, t13, t14, t15, t16, t17, t18, t19, t2에 있어서의 강도(PW)는, "맙"의 말이 발화된 음성 데이터를 이용하여, 제1 산출부(10a)가 산출한 강도를 나타낸다. 그리고 시각 t1, t11, t12, t13, t14, t15, t16, t17, t18, t19, t2의 각각의 시간 간격은, 윈도우(WD)를 이동시킨 소정의 간격과 동일하다.
또한, 제1 산출부(10a)는, 피치 주파수(F0)나 템포 등의 파라미터를, 음성 데이터로부터 산출해도 좋다.
다음에, 제1 산출부(10a)는, "고맙습니다" 등의 발화 단위마다 산출한 피치 주파수, 강도, 제로점 교차수 단계에 기초하여, 피험자(PA)의 발화에 있어서의 피치 주파수의 검출 빈도, 및 강도(PW)의 증가율 등의 특징량을 산출한다. 예를 들어, 제1 산출부(10a)는, 발화 단위의 각각에 있어서, 모든 윈도우(WD) 중 피치 주파수가 산출된 윈도우(WD)의 비율을, 피치 주파수의 검출율을 나타내는 PITCH_RATE로서 산출한다. 즉, PITCH_RATE는, 피험자(PA)의 음성에 있어서 유성음(모음)이 발화된 비율을 나타낸다. 제1 산출부(10a)는, 각 발화 단위의 PITCH_RATE를, 각 발화 단위의 개시 시각(예를 들어, "고맙습니다"의 경우의 시각 t0)이나 종료 시각(예를 들어, "고맙습니다"의 경우의 시각 t5) 등의 시각에 대응시킨다. 그리고 제1 산출부(10a)는, 피험자(PA)의 발화에 있어서의 PITCH_RATE의 시간 변화를 취득한다.
또한, 제1 산출부(10a)는, 윈도우(WD)마다 산출한 제로점 교차수를 이용하여, 인접하는 윈도우(WD)의 제로점 교차수와의 차분인 Δ제로점 교차수의 각 발화 단위에 있어서의, 편차의 정도를 나타내는 DELTA_ZERO_DIV를 산출한다. 예를 들어, 제1 산출부(10a)는, 서로 인접하는 윈도우(WD) 사이에서 제로점 교차수의 차분을 각각 구하고, 구한 제로점 교차수의 차분의 표준 편차를 DELTA_ZERO_DIV로서 산출한다. 또한, 제1 산출부(10a)는, 각 윈도우(WD) 사이에서 구한 제로점 교차수의 차분의 분산치를, DELTA_ZERO_DIV로서 산출해도 좋다. 혹은, 제1 산출부(10a)는, 각 윈도우(WD) 사이에서 구한 제로점 교차수의 차분의 평균치와, 각 윈도우(WD)간의 제로점 교차수의 차분과의 차이의 절대치를 가산한 값을, DELTA_ZERO_DIV로서 산출해도 좋다. 제1 산출부(10a)는, 각 발화 단위의 DELTA_ZERO_DIV를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DELTA_ZERO_DIV의 시간 변화를 취득한다.
또한, 도 3(b)에 나타내는 바와 같이, 예를 들어 "고맙습니다"의 발화 단위에 있어서, "고", "맙", "습", "니", "다"의 각 말의 강도(PW)의 시간 변화는, 강도가 증가하는 Attack의 영역과 강도가 일정으로 유지되는 Keep의 영역과 강도가 감소하는 Decay의 영역을 갖는다. 여기서, 제1 산출부(10a)는, Attack의 영역 및 Decay의 영역에 있어서의 강도(PW)의 기울기를 산출한다. 예를 들어, 제1 산출부(10a)는, "맙"의 말에서 산출한 강도(PW) 중, Attack의 영역에 포함되는 시각(t1)의 강도(PW(t1))와 시각(t12)의 강도(PW(t12))와, 식 (1)을 이용하여, Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)를 산출한다.
δAS=(PW(t12)-PW(t1))/(t12-t1)…(1)
그리고 제1 산출부(10a)는, "고맙습니다"의 각 말에서 산출한 기울기(δAS)의 평균치를, "고맙습니다"의 발화 단위의 Attack의 영역에 있어서의 강도(PW)의 기울기 ATTACK_SLOPE로서 산출한다. 그리고 제1 산출부(10a)는, 각 발화 단위의 ATTACK_SLOPE를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 ATTACK_SLOPE의 시간 변화를 취득한다.
또한, 제1 산출부(10a)는, 시각(t1)의 강도(PW(t1)), 시각(t11)의 강도(PW(t11)) 및 시각(t12)의 강도(PW(t12))를 이용하여, "맙"의 말의 Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)를 산출해도 좋다. 예를 들어, 제1 산출부(10a)는, 시각(t1)의 강도(PW(t1))와 시각(t11)의 강도(PW(t11)) 사이의 강도의 기울기와, 시각(t11)의 강도(PW(t11))와 시각(t12)의 강도(PW(t12)) 사이의 강도의 기울기를 각각 산출한다. 그리고 제1 산출부(10a)는, 산출한 각 강도의 기울기의 평균치를, "맙"의 말의 Attack의 영역에 있어서의 강도(PW)의 기울기(δAS)로서 산출한다.
한편, 예를 들어 제1 산출부(10a)는, "맙"의 말에서 산출한 강도(PW) 중, Decay의 영역에 포함되는 시각(t18)의 강도(PW(t18))와 시각(t2)의 강도(PW(t2))와, 식 (2)을 이용하여, Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)를 산출한다.
δDS=(PW(t2)-PW(t18))/(t2-t18)…(2)
그리고 제1 산출부(10a)는, "고맙습니다"의 각 말에서 산출한 기울기(δDS)의 평균치를, "고맙습니다"의 발화 단위의 Decay의 영역에 있어서의 강도(PW)의 기울기 DECAY_SLOPE로서 산출한다. 그리고 제1 산출부(10a)는, 각 발화 단위의 DECAY_SLOPE를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DECAY_SLOPE의 시간 변화를 취득한다.
또한, 제1 산출부(10a)는, 시각(t18)의 강도(PW(t18)), 시각(t19)의 강도(PW(t19)) 및 시각(t2)의 강도(PW(t2))를 이용하여, "맙"의 말의 Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)를 산출해도 좋다. 예를 들어, 제1 산출부(10a)는, 시각(t18)의 강도(PW(t18))와 시각(t19)의 강도(PW(t19)) 사이의 강도의 기울기와, 시각(t19)의 강도(PW(t19))와 시각(t2)의 강도(PW(t2)) 사이의 강도의 기울기를 각각 산출한다. 그리고 제1 산출부(10a)는, 산출한 각 강도의 기울기의 평균치를, "맙"의 말의 Decay의 영역에 있어서의 강도(PW)의 기울기(δDS)로서 산출한다.
또한, 제1 산출부(10a)는, 도 3(b)에 나타내는 바와 같이, 발화 단위"고맙습니다"의 각 말의 발화의 종료 시각 t1, t2, t3, t4, t5에 있어서의 강도(PW)의 평균치를, DECAY_POWER로서 산출한다. 제1 산출부(10a)는, 각 발화 단위의 DECAY_POWER를, 각 발화 단위의 개시 시각이나 종료 시각 등의 시각에 대응시켜서, 피험자(PA)의 발화에 있어서의 DECAY_POWER의 시간 변화를 취득한다.
또한, 제1 산출부(10a)는, DECAY_SLOPE_DIV, DELTA_ZERO_MAX_ABS, DELTA_ZERO_DIV_ABS, DECAY_COUNT, 및 POWER_PEAK_COUNT 등의 특징량을 산출해도 좋다. 또한, 제1 산출부(10a)는, DECAY_POWER_DIV, ATTACK_SLOPE_DIV, ATTACK_COUNT, 및 PITCH_TIME_CORRE 등의 특징량을 산출해도 좋다.
또한, DECAY_SLOPE_DIV는, 각 발화 단위에 있어서의 DECAY_SLOPE의 편차의 정도를 나타내는 표준 편차나 분산치 등이다. DELTA_ZERO_MAX_ABS는, 각 발화 단위에 있어서 산출된 복수의 DELTA_ZERO_DIV 중, 소정의 강도 이상의 강도(PW)를 갖는 음성 데이터를 이용하여 산출된 최대의 DELTA_ZERO_DIV의 절대치이다. DELTA_ZERO_DIV_ABS는, DELTA_ZERO_DIV의 절대치이다. DECAY_COUNT는, 도 3(b)에 나타내는 바와 같이, 각 발화 단위의 강도(PW)에 있어서, Decay의 영역에서 샘플링된 데이터 수이다.
또한, POWER_PEAK_COUNT는, 각 발화 단위에 있어서, 예를 들어 서로 인접하는 3개의 윈도우(WD)에 있어서 산출된 강도(PW)의 시간 변화가 돌출 형상이 되는, 1초 등의 단위시간 당의 수이다. 또한, POWER_PEAK_COUNT를 산출하는 것에 있어서, 인접하는 윈도우(WD)의 수는, 3 이상의 복수라도 좋다. 또한, 각 윈도우(WD)의 강도(PW)는, 노이즈 레벨 이상인 것이 바람직하다.
또한, DECAY_POWER_DIV는, 예를 들어 각 발화 단위에 있어서의 DECAY_POWER의 편차의 정도를 나타내는 표준 편차나 분산치 등이다. ATTACK_SLOPE_DIV는, 각 발화 단위에 있어서의 ATTACK_SLOPE의 편차를 나타내는 표준 편차나 분산치 등이다. ATTACK_COUNT는, 도 3(b)에 나타내는 바와 같이, 각 발화 단위의 강도(PW)에 있어서, Attack의 영역에서 샘플링된 데이터 수이다. PITCH_TIME_CORRE는, 각 발화 단위에 있어서, 윈도우(WD)를 번호 부가한 경우에, 윈도우(WD)의 차례(즉 시간 경과)와 피치 주파수의 시간 변화 사이의 상관 계수이다.
도 4 및 도 5는, 도 2에 나타낸 제1 산출부(10a)가 산출한 특징량 간에 있어서의 상관성을 나타낸다. 특징량 간의 상관성을 나타내는 상관 테이블(CT)은, LABEL, AUC(Area Under the Curve) 및 DECAY_POWER 등의 복수의 특징량의 각각을 기억하는 영역을 갖는다. LABEL의 영역에는, DECAY_POWER 등의 특징량을 나타내는 명칭이 저장된다.
AUC의 영역에는, 예를 들어 의사에 의해서 라벨(예를 들어, 우울 상태인지 아닌지, 뇌경색인지 아닌지 등)이 부여된 복수의 피험자 음성 데이터를, LABEL 영역의 각 특징량을 이용하여 분류한 경우의 ROC 곡선에 대한 AUC가 저장된다. 즉, 저장되는 AUC의 값은, 각 특징량이 갖는 피험자(PA)의 심신 상태를 판정하는 능력의 정도를 나타낸다. 또한, ROC는, Receiver Operating Characteristic의 약어(略記)이다.
즉, 예를 들어 AUC의 값이 0.7 이상의 특징량은 단독으로 이용된 경우라도, 피험자(PA)의 심신 상태를 올바르게 판정할 수 있고, AUC의 값이 0.7보다 낮은 특징량은 단독으로 이용된 경우, 피험자(PA)의 심신 상태를 올바르게 판정할 수 없는 것을 나타낸다. 상관 테이블(CT)에서는, AUC의 값을 0.7 이상 갖는 특징량을 나타낸다.
복수의 특징량의 영역(이하, 특징량 영역이라고도 칭해진다)의 각각에는, 피험자(PA)의 음성 데이터를 이용하여 산출된, 각 특징량 영역의 특징량이 나타내는 시간 변화와, LABEL의 영역의 각 특징량이 나타내는 시간 변화 사이의 상호 상관 계수가 저장된다. 또한, 도 4 및 도 5에 나타낸 상관 테이블(CT)에서는, 상호 상관 계수의 절대치가 소정의 계수치, 예를 들어 0.65 이상을 나타내는 특징량 영역을 망점 패턴으로 나타내고 있다. 이것은, 상호 상관 계수의 절대치가 소정의 계수치 이상을 나타내는, 특징량 영역의 특징량과 LABEL의 영역의 특징량은, 추정 장치(100a)가, 피험자(PA)의 음성 데이터를 이용하여, 어느 한쪽의 특징량을 산출한 경우, 다른쪽의 특징량을 추정할 수 있는 것을 나타낸다. 즉, 추정 장치(100a)는, 도 4 및 도 5에 나타낸 상관 테이블(CT)의 LABEL의 영역의 특징량 중, 일부의 특징량을 산출함으로써, LABEL의 영역의 모든 특징량을 산출하는 바와 동등한 것을 나타낸다.
여기서, 추정 장치(100a)는, 도 4 및 도 5에 나타낸 상관 테이블(CT)에 기초하여, LABEL의 영역의 특징량 중, AUC의 값이 0.7 이상으로 크고, 또한 다른 특징량과의 상관성이 없는, 혹은 다른 특징량과의 상관성이 소정의 계수치보다 작은 특징량을 선택한다. 예를 들어, 추정 장치(100a)는, LABEL의 영역에 있어서 망점 패턴으로 나타내는 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 4개의 특징량을 선택한다.
또한, 추정 장치(100a)는, 주성분 분석법, 혹은 자기 부호화기(符號化器) 등의 신경 회로망을 이용하여, AUC의 값이 0.7 이상으로 크고, 또한 다른 특징량과의 관계성이 없는, 혹은 관계성이 낮은 특징량을 선택해도 좋다.
제1 산출부(10a)는, 피험자(PA)의 음성 데이터를 이용하여, 선택된 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다. 제2 산출부(20a)는, 식 (3)을 이용하여, 산출된 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 가중치 가산하여, 피험자(PA)의 심신 상태를 나타내는 정도(건강도)(α)를 산출한다.
α=-DECAY_POWER+DECAY_SLOPE+PITCH_RATE+0.5×DELTA_ZERO_DIV…(3)
또한, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량의 가중치 계수는, 식 (3)의 경우에 한정되지 않는다. 예를 들어, 각 특징량을 가중치 계수는, 대상이 되는 피험자(PA)의 직업, 가족 구성 혹은 생활 환경 등에 대응하여 적절히 설정되는 것이 바람직하다. 예를 들어, 제2 산출부(20a)는, 식 (4)를 이용하여, 피험자(PA)의 건강도(α)를 산출해도 좋다. 또한, 식 (4)에 있어서의 DECAY_SLOPE의 계수는, "0"이다.
α=-0.5×DECAY_POWER+PITCH_RATE+0.5×DELTA_ZERO_DIV…(4)
또한, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량의 각각은, 소정의 계수치, 예를 들어 0.65 이상의 상호 상관 계수를 나타내는 특징량으로 대체해도 좋다. 예를 들어, DECAY_SLOPE는, ATTACK_SLOPE와의 사이에서 상호 상관 계수가 0.79인 것으로부터, 제1 산출부(10a)는, DECAY_SLOPE 대신에, ATTACK_SLOPE를 산출해도 좋다. 그리고 제2 산출부(20a)는, DECAY_POWER, PITCH_RATE, DELTA_ZERO_DIV, 식 (3)과 함께, ATTACK_SLOPE를 이용하여, 건강도(α)를 산출한다. 또한, ATTACK_SLOPE의 가중치 계수는 적절히 설정되는 것이 바람직하다.
또한, 건강도(α)는, AUC의 값이 높은 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV 등의 특징량의 어느 하나를 이용하여 산출되어도 좋다.
또한, DECAY_POWER_DIV 및 PITCH_TIME_CORRE는, 다른 특징량과의 상관성이 낮지만, 다른 특징량과 비교해서 AUC의 값이 가장 작기 때문에, 건강도(α)를 산출하는 식 (3)에는 포함되지 않았다. 그러나 DECAY_POWER_DIV 및 PITCH_TIME_CORRE는 제1 산출부(10a)에 의해 산출되고, 식 (3)에 포함되어도 좋다.
추정부(30a)는, 제2 산출부(20a)가 산출한 건강도(α)와 임계치와의 비교에 기초하여, 피험자(PA)에 있어서의 심신 상태, 예를 들어 피험자(PA)가 우울 상태인지 아닌지를 추정한다. 예를 들어, 추정부(30a)는, 건강도(α)가 임계치보다 작은(즉, 피험자(PA)가 발화하는 음성이 불명료하고, 발음이 좋지 않은) 경우, 피험자(PA)의 심신 상태가 좋지 않다(예를 들어, 우울 상태)고 추정한다. 한편, 추정부(30a)는, 건강도(α)가 임계치 이상[즉, 피험자(PA)가 발하는 음성이 명료하고, 발음이 좋은] 경우, 피험자(PA)의 심신 상태가 좋고, 건강하다고 추정한다.
또한, 추정부(30a)가 이용하는 임계치는, 예를 들어 민감도가 "1"이며, 가짜 양성율(1-특이도)이 "0"인 점으로부터의 거리가 최소가 되는 건강도(α)의 ROC 곡선 상의 점에 기초하여 설정된다. 혹은, 임계치는, 건강도(α)의 ROC 곡선과 AUC가 0.5의 경우의 ROC 곡선과의 사이의 거리(민감도+특이점-1)를 나타내는 Youden Index 등에 기초하여 설정되어도 좋다.
도 6은, 도 2에 나타낸 추정 장치(100a)에 의한 추정 처리의 일례를 나타낸다. 스텝 S100으로부터 스텝 S130은, 추정 장치(100a)에 탑재되는 연산 처리 장치가, 추정 장치(100a)의 기억 장치에 기억되는 추정 프로그램을 실행함으로써 실현된다. 즉, 도 6은, 추정 프로그램 및 추정 방법의 다른 실시형태를 나타낸다. 이 경우, 도 2에 나타낸 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는, 추정 프로그램의 실행에 의해 실현된다. 또한, 도 6에 나타낸 처리는, 추정 장치(100a)에 탑재되는 하드웨어에 의해 실현되어도 좋다. 이 경우, 도 2에 나타낸 제1 산출부(10a), 제2 산출부(20a) 및 추정부(30a)는, 추정 장치(100a) 내에 배치되는 회로에 의해 실현된다.
또한, 추정 프로그램은, 예를 들어 DVD(Digital Versatile Disc) 등의 리무버블 디스크에 기록하여 반포할 수 있다. 또한, 추정 프로그램은, USB(Universal Serial Bus) 메모리 등의 운반 가능형 기억 매체에 기록하여 반포해도 좋다. 혹은, 추정 장치(100a)는, 추정 장치(100a)에 포함되는 네트워크 인터페이스를 통하여, 네트워크를 통해서 추정 프로그램을 다운로드하고, 메모리 등의 기억부에 저장해도 좋다.
스텝 S100에서는, 제1 산출부(10a)는 휴대 통신 단말(200)을 통하여 취득한 피험자(PA)가 발화한 음성 데이터를 이용하여, 피치 주파수, 강도 및 제로점 교차수 단계의 파라미터를, 윈도우(WD)마다 산출한다.
스텝 S110에서는, 제1 산출부(10a)는, 스텝 S100에서 산출한 피치 주파수, 강도 및 제로점 교차수 단계의 파라미터를 이용하여, DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다.
스텝 S120에서는, 제2 산출부(20a)는, 스텝 S110에서 산출한 특징량과 식 (3)을 이용하여, 피험자(PA)의 건강도(α)를 산출한다.
스텝 S130에서는, 추정부(30a)는, 스텝 S120에서 산출된 건강도(α)와 임계치와의 비교에 기초하여, 피험자(PA)의 심신 상태(예를 들어, 우울 상태인지 아닌지)를 추정한다.
추정 장치(100a)는, 추정부(30a)에 의해 추정된 심신 상태를 나타내는 정보를 휴대 통신 단말(200)에 출력하고, 휴대 통신 단말(200)의 디스플레이에 표시시킨다. 그리고 추정 장치(100a)는, 추정 처리를 종료한다. 도 6에 나타낸 처리는, 피험자(PA)가 휴대 통신 단말(200)를 향하여 발화할 때마다 반복 실행된다.
이상, 도 2로부터 도 6에 나타낸 실시형태에서는, 추정 장치(100a)는, 피험자(PA)의 음성 데이터를 이용하여, 피험자의 발화에 있어서의 DECAY_POWER, DECAY_SLOPE, PITCH_RATE, 및 DELTA_ZERO_DIV의 특징량을 산출한다. 그리고 추정 장치(100a)는, 산출한 특징량과 식 (3)을 이용하여, 피험자(PA)의 심신 상태를 나타내는 건강도(α)를 산출한다. 그리고 추정 장치(100a)는, 산출한 건강도(α)와 임계치와의 비교에 기초하여 피험자의 심신 상태를 추정한다. 이에 의해, 추정 장치(100a)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 미리 준비하는 일 없이, 종래에 비해 용이하게 피험자의 심신 상태를 추정할 수 있다. 또한, 건강도(α)는 산출한 특징량에 기초하여 산출되는 것으로부터, 추정 장치(100a)는, 피험자(PA)의 심신 상태를 객관적으로 평가할 수 있다. 또한, 추정 장치(100a)는, 피치 주파수 등의 파라미터와 감정 상태와의 대응 관계를 나타내는 정보를 이용하지 않기 때문에, 노이즈 등의 음질 열화에 대한 내성을 갖는다.
또한, 추정 장치(100(100a))는, 정신 분석, 행동 예측, 행동 분석 등의 심리 카운셀링, 정신 의료, 일반 의료에 있어서의 면접이나 처방에 적용했을 경우를 나타냈지만, 이에 한정되지 않는다. 예를 들어, 추정 장치(100)는, 로봇, 인공지능이나 자동차, 혹은 콜센터, 엔터테인먼트, 인터넷, 스마트폰이나 태블릿형 단말 등의 휴대 단말 장치 어플리케이션이나 서비스, 검색 시스템에 응용되어도 좋다. 또한, 추정 장치(100)는, 진단 장치, 자동 문진 장치, 재해 트리아지(triage) 등에 응용되어도 좋다. 또한, 추정 장치(100)는, 금융 여신 관리 시스템이나 행동 예측, 기업, 학교, 행정 기관, 경찰이나 군사, 정보 수집 활동 등에서의 정보 분석, 허위 발견에 연결되는 심리 분석, 조직 그룹 관리에 응용되어도 좋다. 또한, 추정 장치(100)는, 조직의 구성원, 연구자나 종업원, 관리자 등의 마음의 건강이나 행동 예측을 관리하는 시스템, 주거나 오피스, 비행기나 우주선 등의 환경을 제어하는 시스템, 혹은 가족이나 친구의 마음 상태나 행동 예측을 알기 위한 수단에 적용되어도 좋다. 또한, 추정 장치(100)는, 음악이나 영화 전달, 일반적인 정보 검색, 정보 분석 관리나 정보 처리, 혹은 고객 감성 기호 마켓 분석 등이나 이것들을 네트워크나 스탠드 어론(stand alone)으로 관리하는 시스템 등에 적용되어도 좋다.
이상의 상세한 설명에 의해, 실시형태의 특징점 및 이점은 명백해질 것이다. 이는 특허 청구의 범위가 그 정신 및 권리 범위를 일탈하지 않는 범위에서 상술한 바와 같은 실시형태의 특징점 및 이점에까지 미치는 것을 의도하는 것이다. 또한, 상기 기술 분야에 있어서 통상의 지식을 갖는 사람이면, 모든 개량 및 변경에 용이하게 도달할 수 있을 것이다. 따라서, 발명성을 갖는 실시형태의 범위를 상술한 것으로 한정하려는 의도는 없고, 실시형태에 개시된 범위에 포함되는 적절한 개량물 및 균등물에 의한 것도 가능하다.
10, 10a…제1 산출부;
20, 20a…제2 산출부;
30, 30a…추정부;
100, 100a…추정 장치;
200…휴대 통신 단말;
CT…상관 테이블;
SYS…추정 시스템
20, 20a…제2 산출부;
30, 30a…추정부;
100, 100a…추정 장치;
200…휴대 통신 단말;
CT…상관 테이블;
SYS…추정 시스템
Claims (6)
- 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하고,
산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고,
산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 것을 특징으로 하는 추정 방법. - 제 1 항에 있어서,
상기 특징량을 산출하는 처리는, 복수의 상기 특징량 중, 다른 특징량과의 상관이 없는, 혹은 다른 특징량과의 상관 계수의 절대치가 소정치보다 작은 특징량을 상기 음성 데이터로부터 산출하고,
상기 정도를 산출하는 처리는, 산출된 특징량에 기초하여 상기 정도를 산출하는 것을 특징으로 하는 추정 방법. - 제 1 항 또는 제 2 항에 있어서,
산출되는 특징량은, ROC(Receiver Operating Characteristic) 곡선에 있어서의 AUC(Area Under the Curve)를 0.7 이상 갖는 것을 특징으로 하는 추정 방법. - 피험자가 발한 발화의 음성 데이터로부터 적어도 하나의 특징량을 산출하고,
산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하고,
산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 처리를 컴퓨터에 실행시키는 추정 프로그램. - 피험자가 발화한 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와,
상기 제1 산출부가 산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와,
상기 제2 산출부가 산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 추정부를 구비하는 것을 특징으로 하는 추정 장치. - 피험자가 발화한 음성 데이터를 취득하는 취득 장치와,
상기 취득 장치가 취득한 상기 음성 데이터를 이용하여, 적어도 하나의 특징량을 산출하는 제1 산출부와, 상기 제1 산출부가 산출한 특징량에 기초하여 상기 피험자에 있어서의 심신 상태를 나타내는 정도를 산출하는 제2 산출부와, 상기 제2 산출부가 산출한 상기 정도에 기초하여 상기 피험자에 있어서의 심신 상태를 추정하는 추정부를 포함하는 추정 장치를 구비하는 것을 특징으로 하는 추정 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016022895A JP6306071B2 (ja) | 2016-02-09 | 2016-02-09 | 推定装置、推定プログラム、推定装置の作動方法および推定システム |
JPJP-P-2016-022895 | 2016-02-09 | ||
PCT/JP2017/003003 WO2017138376A1 (ja) | 2016-02-09 | 2017-01-27 | 推定方法、推定プログラム、推定装置および推定システム |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180105716A true KR20180105716A (ko) | 2018-09-28 |
KR102218214B1 KR102218214B1 (ko) | 2021-02-19 |
Family
ID=59563260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187025687A KR102218214B1 (ko) | 2016-02-09 | 2017-01-27 | 추정 장치, 추정 프로그램이 기록된 기록 매체, 추정 장치의 작동 방법 및 추정 시스템 |
Country Status (9)
Country | Link |
---|---|
US (1) | US11147487B2 (ko) |
EP (1) | EP3417780B1 (ko) |
JP (1) | JP6306071B2 (ko) |
KR (1) | KR102218214B1 (ko) |
CN (1) | CN108601567B (ko) |
CA (1) | CA3014574C (ko) |
RU (1) | RU2714663C1 (ko) |
TW (1) | TWI721095B (ko) |
WO (1) | WO2017138376A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7125094B2 (ja) * | 2018-04-18 | 2022-08-24 | Pst株式会社 | 推定プログラム、推定装置の作動方法および推定装置 |
JP7389421B2 (ja) * | 2018-07-13 | 2023-11-30 | Pst株式会社 | 精神・神経系疾患を推定する装置 |
WO2020049687A1 (ja) * | 2018-09-06 | 2020-03-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム記録媒体 |
KR20220061505A (ko) * | 2020-11-06 | 2022-05-13 | 현대자동차주식회사 | 감정 조절 시스템 및 감정 조절 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132159A1 (ja) | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
JP2007000280A (ja) * | 2005-06-22 | 2007-01-11 | Toyota Motor Corp | 覚醒度低下判定装置 |
JP2011045520A (ja) * | 2009-08-27 | 2011-03-10 | Hitachi Computer Peripherals Co Ltd | 運動機能評価システム、運動機能評価方法およびプログラム |
JP2013072979A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析システムおよび音声解析装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5825894A (en) | 1994-08-17 | 1998-10-20 | Decibel Instruments, Inc. | Spatialization for hearing evaluation |
RU2162657C1 (ru) * | 1999-12-08 | 2001-02-10 | Научно-исследовательский психоневрологический институт им. В.М. Бехтерева | Способ оценки психического здоровья |
DE60115653T2 (de) * | 2001-10-05 | 2006-08-10 | Sony Deutschland Gmbh | Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten |
JP3973434B2 (ja) * | 2002-01-31 | 2007-09-12 | 三洋電機株式会社 | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 |
JP2004317822A (ja) | 2003-04-17 | 2004-11-11 | Agi:Kk | 感情分析・表示装置 |
RU2240031C1 (ru) * | 2003-06-19 | 2004-11-20 | Мирошник Елена Владимировна | Способ оценки психического состояния и степени психической адаптации личности |
CN101346758B (zh) | 2006-06-23 | 2011-07-27 | 松下电器产业株式会社 | 感情识别装置 |
JP2008076905A (ja) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | 感情判別方法 |
BRPI0621991A2 (pt) * | 2006-10-03 | 2011-12-27 | Andrey Evgenievich Nazdratenko | mÉtodo para determinaÇço do estado de estresse de uma pessoa de acordo com sua voz e um dispositivo para execuÇço do dito mÉtodo |
WO2011011413A2 (en) * | 2009-07-20 | 2011-01-27 | University Of Florida Research Foundation, Inc. | Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data |
WO2011055505A1 (ja) * | 2009-11-09 | 2011-05-12 | パナソニック株式会社 | 注意状態判定装置、方法およびプログラム |
JP5719533B2 (ja) * | 2010-06-16 | 2015-05-20 | ヤンマー株式会社 | 管理機 |
IL208055A (en) * | 2010-09-07 | 2015-05-31 | Penina Ohana Lubelchick | A diagnostic system for measuring the level of consciousness and its method |
US20140243608A1 (en) * | 2011-07-05 | 2014-08-28 | Robert D. Hunt | Systems and methods for clinical evaluation of psychiatric disorders |
US9763617B2 (en) * | 2011-08-02 | 2017-09-19 | Massachusetts Institute Of Technology | Phonologically-based biomarkers for major depressive disorder |
IN2014CN03726A (ko) * | 2011-11-22 | 2015-07-03 | Koninkl Philips Nv | |
JP2013183755A (ja) * | 2012-03-05 | 2013-09-19 | Fujitsu Ltd | 検出装置、検出プログラムおよび検出方法 |
US10068060B2 (en) * | 2012-08-16 | 2018-09-04 | Ginger.io, Inc. | Method for modeling behavior and psychotic disorders |
WO2014036263A1 (en) * | 2012-08-29 | 2014-03-06 | Brown University | An accurate analysis tool and method for the quantitative acoustic assessment of infant cry |
EP2932899A4 (en) * | 2012-12-15 | 2016-08-10 | Tokyo Inst Tech | APPARATUS FOR EVALUATING A HUMAN MENTAL CONDITION |
CN103258545A (zh) * | 2012-12-20 | 2013-08-21 | 苏州大学 | 一种病理嗓音细分方法 |
AU2014225626B2 (en) * | 2013-03-06 | 2018-02-15 | Cerora, Inc. | Form factors for the multi-modal physiological assessment of brain health |
KR20160055103A (ko) * | 2013-03-15 | 2016-05-17 | 아담 제이 사이먼 | 뇌 건강의 다중-모드 생리적 자극 및 평가를 위한 시스템 및 시그너처 |
US20150142492A1 (en) * | 2013-11-19 | 2015-05-21 | Hand Held Products, Inc. | Voice-based health monitor including a vocal energy level monitor |
WO2015083357A1 (ja) * | 2013-12-05 | 2015-06-11 | Pst株式会社 | 推定装置、プログラム、推定方法および推定システム |
WO2015168606A1 (en) * | 2014-05-02 | 2015-11-05 | The Regents Of The University Of Michigan | Mood monitoring of bipolar disorder using speech analysis |
-
2016
- 2016-02-09 JP JP2016022895A patent/JP6306071B2/ja active Active
-
2017
- 2017-01-27 US US16/074,351 patent/US11147487B2/en active Active
- 2017-01-27 KR KR1020187025687A patent/KR102218214B1/ko active IP Right Grant
- 2017-01-27 CA CA3014574A patent/CA3014574C/en active Active
- 2017-01-27 RU RU2018131306A patent/RU2714663C1/ru active
- 2017-01-27 EP EP17750101.2A patent/EP3417780B1/en active Active
- 2017-01-27 WO PCT/JP2017/003003 patent/WO2017138376A1/ja active Application Filing
- 2017-01-27 CN CN201780010227.6A patent/CN108601567B/zh active Active
- 2017-02-08 TW TW106104120A patent/TWI721095B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132159A1 (ja) | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
JP2007000280A (ja) * | 2005-06-22 | 2007-01-11 | Toyota Motor Corp | 覚醒度低下判定装置 |
JP2011045520A (ja) * | 2009-08-27 | 2011-03-10 | Hitachi Computer Peripherals Co Ltd | 運動機能評価システム、運動機能評価方法およびプログラム |
JP2013072979A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析システムおよび音声解析装置 |
Also Published As
Publication number | Publication date |
---|---|
US11147487B2 (en) | 2021-10-19 |
TWI721095B (zh) | 2021-03-11 |
EP3417780A4 (en) | 2019-10-02 |
WO2017138376A1 (ja) | 2017-08-17 |
US20190142323A1 (en) | 2019-05-16 |
CA3014574C (en) | 2022-05-31 |
CA3014574A1 (en) | 2017-08-17 |
JP2017140170A (ja) | 2017-08-17 |
TW201742053A (zh) | 2017-12-01 |
CN108601567B (zh) | 2021-06-11 |
EP3417780A1 (en) | 2018-12-26 |
JP6306071B2 (ja) | 2018-04-04 |
RU2714663C1 (ru) | 2020-02-18 |
CN108601567A (zh) | 2018-09-28 |
KR102218214B1 (ko) | 2021-02-19 |
EP3417780B1 (en) | 2024-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benba et al. | Voiceprints analysis using MFCC and SVM for detecting patients with Parkinson's disease | |
Benba et al. | Detecting patients with Parkinson's disease using Mel frequency cepstral coefficients and support vector machines | |
KR20180105716A (ko) | 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템 | |
Qi et al. | The estimation of signal-to-noise ratio in continuous speech for disordered voices | |
JP7389421B2 (ja) | 精神・神経系疾患を推定する装置 | |
JP6731631B2 (ja) | 認知機能評価装置、プログラム | |
US20100292594A1 (en) | Lie detection method and system | |
WO2012003523A1 (en) | Emotional and/or psychiatric state detection | |
Benba et al. | Voice analysis for detecting persons with Parkinson’s disease using MFCC and VQ | |
Varnet et al. | Using auditory classification images for the identification of fine acoustic cues used in speech perception | |
CA3081962A1 (en) | Systems and methods for detecting impairment of an individual | |
Ryskaliyev et al. | Speech signal analysis for the estimation of heart rates under different emotional states | |
Desai et al. | Dataset size considerations for robust acoustic and phonetic speech encoding models in EEG | |
JP7125094B2 (ja) | 推定プログラム、推定装置の作動方法および推定装置 | |
Heard et al. | Speech workload estimation for human-machine interaction | |
Abrams et al. | Retrieving musical information from neural data: how cognitive features enrich acoustic ones. | |
Le | The use of spectral information in the development of novel techniques for speech-based cognitive load classification | |
Frühholz et al. | The effect of narrow-band transmission on recognition of paralinguistic information from human vocalizations | |
US9907509B2 (en) | Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method | |
CN116048282A (zh) | 一种数据处理方法、系统、装置、设备及存储介质 | |
EP3841570A1 (en) | System and method for measurement of vocal biomarkers of vitality and biological aging | |
US20230113656A1 (en) | Pathological condition analysis system, pathological condition analysis device, pathological condition analysis method, and pathological condition analysis program | |
JP6933335B2 (ja) | 推定方法、推定プログラムおよび推定装置 | |
Monson et al. | Are auditory percepts determined by experience? | |
EP4088666A1 (en) | Device for estimating mental/nervous system diseases using speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |