WO2020174680A1

WO2020174680A1 - 感情推定装置、感情推定方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2020174680A1
Application number: PCT/JP2019/007918
Authority: WO
Inventors: 隆行荒川
Original assignee: 日本電気株式会社
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2020-09-03
Also published as: EP3932311A1; JP7115625B2; US11984136B2; JPWO2020174680A1; EP3932311A4; US20220148617A1; CN113473913A

Abstract

感情推定装置１は、外耳道に出力された第一の音響信号と、第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、生成部２と、音響特性情報を用いて、感情を推定する、推定部３と、を有する。

Description

感情推定装置、感情推定方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、感情を推定する感情推定装置、感情推定方法に関し、更には、これらを実現するためのプログラムを記録しているコンピュータ読み取り可能な記録媒体に関する。

　感情を推定する技術を用いて、コミュニケーションを円滑にする装置が知られている。そのような感情を推定する技術は、例えば、電話による会話、ロボットとの対話などを円滑に行うために用いられている。

　関連する技術として、特許文献１には、マイクロホンを介して入力された利用者の音声、撮像装置を用いて撮像した利用者の表情が撮像された画像などを用いて、利用者の感情を推定し、対話を支援する装置が開示されている。

特開２００６－０７１９３６号公報

　しかしながら、上述した特許文献１に開示された装置では、マイクロホンを用いて利用者の音声が入力されるため、環境音などノイズの影響を音声が受けやすい。そのため、感情を推定する精度が低下する。

　そこで、特許文献１に開示された装置では、更に、利用者の音声に、利用者の表情が撮像された画像を組み合わせて感情を推定しているが、画像は照明の影響などを受けやすいため、やはり感情を推定する精度が低下する。

　本発明の目的の一例は、感情を推定する精度を向上させる、感情推定装置、感情推定方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明の一側面における感情推定装置は、
　外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、生成部と、
　前記音響特性情報を用いて、感情を推定する、推定部と、
　を有することを特徴とする。

　また、上記目的を達成するため、本発明の一側面における感情推定方法は、
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を有することを特徴とする。

　更に、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
　コンピュータに、
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を実行させる命令を含むプログラムを記録していることを特徴とする。

　以上のように本発明によれば、感情を推定する精度を向上させることができる。

図１は、感情推定装置の一例を示す図である。図２は、感情推定装置を有するシステムの一例を示す図である。図３は、共鳴周波数とスペクトル形状の一例を示す図である。図４は、共鳴周波数情報と状態推定情報のデータ構造の一例を示す図である。図５は、スペクトル形状情報と状態推定情報のデータ構造の一例を示す図である。図６は、状態推定情報に含まれる共鳴周波数とスペクトル形状の一例を示す図である。図７は、状態情報と感情推定情報のデータ構造の一例を示す図である。図８は、変形例の感情推定情報のデータ構造の一例を示す図である。図９は、感情推定装置の動作の一例を示す図である。図１０は、感情推定装置を実現するコンピュータの一例を示す図である。

（実施の形態）
　以下、本発明の実施の形態について、図１から図１０を参照しながら説明する。

［装置構成］
　最初に、図１を用いて、本実施の形態における感情推定装置１の構成について説明する。図１は、感情推定装置の一例を示す図である。

　図１に示す感情推定装置は、感情を推定する精度を向上させる装置である。また、図１に示すように、感情推定装置１は、生成部２と、推定部３とを有する。

　このうち、生成部２は、外耳道に出力された音響信号（第一の音響信号）と、当該音響信号が体内で反響した反響音信号（第二の音響信号）とを用いて、音響特性を表す音響特性情報を生成する。推定部３は、音響特性情報を用いて、感情を推定する。

　このように、本実施の形態においては、対象となる利用者の外耳道に出力された音響信号ｘ（ｔ）と、体内の器官の状態が反映された反響音信号ｙ（ｔ）とを用いて、インパルス応答ｈ（ｔ）又は伝達関数Ｈ（ω）又はＨ（ｚ）などの音響特性情報を用いて生成する。そのため、音響特性情報から体内の器官の状態を推定できるので、対象者の感情を精度よく推定することができる。

［システム構成］
　続いて、図２を用いて、本実施の形態における感情推定装置１の構成をより具体的に説明する。図２は、感情推定装置を有するシステムの一例を示す図である。

　図２に示すように、本実施の形態におけるシステムは、感情推定装置１に加え、耳装着装置２０、出力装置３０を有する。また、感情推定装置１は、生成部２と、推定部３に加え、検査電気信号生成部１１、反響電気信号取得部１２、出力情報生成部１３を有する。更に、推定部３は、算出部１４、状態推定部１５、感情推定部１６を有する。耳装着装置２０は、検査音信号再生部２１、反響音信号録音部２２を有する。

　耳装着装置２０は、外耳道に音響信号を出力するための検査音信号再生部２１と、外耳道において反響音信号を入力（計測）する反響音信号録音部２２とを有している。具体的には、耳装着装置２０は、図２の外耳の断面図（耳介、外耳道、鼓膜を示す図）に示すように、外耳道に装着して用いる装置である。耳装着装置２０としては、例えば、マイクロホン付のイヤホンなどが考えられる。

　なお、耳装着装置２０の構成は、図２に示した構成に限定されるものではなく、音響信号に対する反響音信号を計測できる構成であればよい。

　検査音信号再生部２１（音響信号出力部）は、検査電気信号生成部１１で生成された音響信号に対応する電気信号を受信すると、受信した電気信号に基づいて音響信号を生成し、生成した音響信号を外耳道に出力する。なお、検査音信号再生部２１は、例えば、スピーカなどが考えられる。

　反響音信号録音部２２（音響信号入力部）は、検査電気信号生成部１１から出力された音響信号に対する反響音信号を受信すると、反響音信号を、電気信号に変換して反響電気信号取得部１２へ送信する。なお、反響音信号録音部２２は、例えば、マイクロホンなどが考えられる。

　出力装置３０は、出力情報生成部１３により、出力可能な形式に変換された、後述する出力情報を取得し、その出力情報に基づいて、生成した画像及び音声などを出力する。出力装置３０は、例えば、液晶、有機ＥＬ（Electro Luminescence）、ＣＲＴ（Cathode Ray Tube）を用いた画像表示装置などである。更に、画像表示装置は、スピーカなどの音声出力装置などを備えていてもよい。なお、出力装置３０は、プリンタなどの印刷装置でもよい。

　検査電気信号生成部１１は、音響信号を出力するために用いる電気信号を生成し、検査音信号再生部２１へ送信する。具体的には、検査電気信号生成部１１は、音響信号に対応する電気信号として、Ｍ系列（Maximal Length Sequence）信号、ＴＳＰ（Time Stretched Pulse）信号、Ｌｏｇ－ＴＳＰ信号などを生成する。また、検査電気信号生成部１１は、音響信号に対応する電気信号を生成部２へ送信する。

　なお、音響信号には、スイープ信号、音楽、ガイド音声などを含めてもよい。また、音響信号で用いる周波数は、対象とする器官に応じて設定する。例えば、声道・気道などを対象とする場合には、音響信号の周波数帯は１００［Ｈｚ］から４ｋ［Ｈｚ］とすることが望ましい。ただし、この周波数帯に限定されるものではない。

　ここで、声道（構音器官）とは、例えば、声の通る道で、声帯より発せられた音が、体外に放出されるまでの間に通過してくる、体内の空洞である。気道（発生器官）は、例えば、呼吸音の通る道で、外呼吸に関与し、上気道（鼻腔、咽頭、喉頭など）と下気道（気管、主気管支、肺など）から構成される

　反響電気信号取得部１２は、反響音信号に対応する電気信号を反響音信号録音部２２から受信し、受信した電気信号を調整して、生成部２へ送信する。具体的には、反響電気信号取得部１２は、受信した電気信号をフィルタ、増幅器などを有する回路を用いて調整をし、調整した電気信号を生成部２へ送信する。

　生成部２は、音響信号ｘ（ｔ）に対応する電気信号と、反響音信号ｙ（ｔ）に対応する電気信号とを用いて、音響特性を表す音響特性情報を生成する。音響特性としては、例えば、インパルス応答ｈ（ｔ）、又はインパルス応答をフーリエ変換又はラプラス変換した伝達関数Ｈ（ω）又はＨ（ｚ）などを用いる。

　具体的には、生成部２は、まず、検査電気信号生成部１１から音響信号ｘ（ｔ）に対応する電気信号を受信する。また、生成部２は、反響電気信号取得部１２から反響音信号ｙ（ｔ）に対応する電気信号を受信する。続いて、生成部２は、受信した音響信号ｘ（ｔ）と反響音信号ｙ（ｔ）とに対応する電気信号それぞれに基づいて、音響特性情報（インパルス応答ｈ（ｔ）又は伝達関数Ｈ（ω）又はＨ（ｚ）など）を生成する。

　続いて、生成部２は、音響特性情報を不図示の記憶部に記憶する。なお、記憶部は、感情推定装置１の内部に設けてもよいし、外部に設けてもよい。

　反響音信号ｙ（ｔ）には、対象者の器官の状態に応じた変化（反射率・減衰率などの変化）が反映されているので、インパルス応答ｈ（ｔ）又は伝達関数Ｈ（ω）又はＨ（ｚ）などの音響特性情報を生成することで、体内の器官の状態に関連する情報を抽出できる。また、反響音信号には、例えば、頭部から肺にかけての空間（外耳道及び声道・気道）から戻ってきた音響信号が含まれる。なお、反射率は、入力に対して反射した割合であり、減衰率は、単位時間もしくは単位周期に減衰する割合である。

　推定部３は、音響特性情報を用いて感情を推定する。具体的には、推定部３は、音響特性情報を用いて、声道の状態、気道の状態を推定し、推定した声道の状態、気道の状態を用いて感情を推定する。なお、推定部３は、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類（肺呼吸、腹式呼吸など）のいずれか一つ以上の状態を推定し、声道の状態、気道の状態とする。

　推定部３（算出部１４、状態推定部１５、感情推定部１６）について具体的に説明する。

　算出部１４は、音響特性情報を用いて、共鳴周波数（周波数特性におけるピーク値をとる周波数）を表す情報を有する共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を算出する。

　図３は、共鳴周波数とスペクトル形状の一例を示す図である。図３は、共鳴周波数情報に含まれる共鳴周波数ｆ１、ｆ２、ｆ３と、スペクトル形状情報に含まれるスペクトルの形状を示している。

　共鳴周波数の算出について説明する。
　算出部１４は、まず、生成部２から音響特性情報を取得する。続いて、算出部１４は、音響特性を用いてスペクトル分析をして、対象者に関する共鳴周波数を算出する。算出部１４は、例えば、スペクトル分析として線形予測符号化（ＬＰＣ：Linear Predictive Coding）などを採用して、共鳴周波数を算出する。その後、算出部１４は、共鳴周波数を表す共鳴周波数情報を生成して、生成した共鳴周波数情報を記憶部に記憶する。なお、共鳴周波数の算出方法は、線形予測符号化に限定されず、共鳴周波数が算出できる方法であればよい。

　スペクトル形状の算出について説明する。
　算出部１４は、まず、生成部２から音響特性情報を取得する。続いて、算出部１４は、音響特性を用いてスペクトル分析をして、対象者に関するスペクトル形状（スペクトル包絡）を算出する。算出部１４は、例えば、スペクトル分析としてケムストラム分析などを採用して、スペクトル形状を算出する。その後、算出部１４は、スペクトル形状を表すスペクトル形状情報を生成して、生成したスペクトル形状情報を記憶部に記憶する。

　状態推定部１５は、生成した共鳴周波数情報、又はスペクトル形状情報を用いて、対象者の器官の状態を推定する。具体的には、状態推定部１５は、まず、生成した共鳴周波数情報、又はスペクトル形状情報を取得する。

　続いて、状態推定部１５は、共鳴周波数情報、又はスペクトル形状情報を用いて、あらかじめ記憶されている状態推定情報を参照して、対象者の器官の状態を推定する。器官の状態は、例えば、声道の状態、気道の状態などである。

　なお、声道の状態は、例えば、口の開閉、声帯の開閉、構音の位置などの状態が考えられる。気道の状態は、例えば、呼吸の種類が考えられる。

　口の開閉においては、口が開いている場合、口内の圧力が下がるため、低周波の音圧が下がる。また、口の開閉により気柱管共鳴モデルにおける開端・閉端が変化するので、共鳴周波数が変化する。

　声帯の開閉においては、声帯（声門）の開閉によって気柱の長さが変化する。例えば、口から声帯までの気柱の長さ、又は口から肺までの気柱の長さが変化する。

　構音の位置においては、舌や歯の位置の変化により、共鳴周波数を含むフォルマント周波数、スペクトル形状が変化する。

　呼吸の種類においては、肺呼吸、腹式呼吸かにより、肺呼吸（肺が収縮）、腹式呼吸（横隔膜が上下）により、気道の大きさが変化する。

　続いて、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。状態情報は、例えば、声道の状態、気道の状態を表す情報を有している。声道の状態には、例えば、口の開閉、声帯の開閉、構音の位置などの状態を表す情報を有している。また、気道の状態は、例えば、呼吸の種類を表す情報を有している。

　共鳴周波数を用いた場合について説明する。
　状態推定部１５は、まず、算出部１４が生成した共鳴周波数情報を取得する。続いて、状態推定部１５は、図４に示す共鳴周波数情報と状態推定情報とを用いて距離を算出し、算出した距離を用いて器官の状態を推定する。

　図４は、共鳴周波数情報と状態推定情報のデータ構造の一例を示す図である。例えば、口の開閉を推定する場合、状態推定部１５は、共鳴周波数情報４１に含まれる共鳴周波数ｆ１、ｆ２・・・を特徴とする特徴量を用いて、状態推定情報４２が有する口の開閉に含まれる開に対応する共鳴周波数Ｆ１１、Ｆ１２・・・を特徴とする特徴量と、閉に対応する共鳴周波数Ｆ２１、Ｆ２２・・・を特徴とする特徴量との距離をそれぞれ算出する。

　また、状態推定部１５は、距離が近い特徴量を選択し、選択した特徴量に対応する状態を口の開閉状態とする。同様に、声帯の開閉、構音の位置（「ａ」「ｅ、ｏ」「ｉ」「ｍ、ｎ」「ｕ」の音など）、呼吸の種類（肺呼吸、腹式呼吸）についても、状態推定部１５は状態を推定する。続いて、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。

　スペクトル形状を用いた場合について説明する。
　状態推定部１５は、まず、算出部１４が生成したスペクトル形状情報を取得する。続いて、状態推定部１５は、図５に示すスペクトル形状情報と状態推定情報とを用いて距離を算出し、算出した距離を用いて器官の状態を推定する。

　図５は、スペクトル形状情報と状態推定情報のデータ構造の一例を示す図である。例えば、口の開閉を推定する場合、状態推定部１５は、スペクトル形状情報５１に含まれるスペクトル形状を表す情報ｓｐ１を特徴とする特徴量を用いて、状態推定情報５２が有する口の開閉に含まれる開に対応するスペクトル形状ＳＰ１１を特徴とする特徴量と、閉に対応するスペクトル形状ＳＰ２１を特徴とする特徴量との距離をそれぞれ算出する。

　図６は、状態推定情報に含まれる共鳴周波数とスペクトル形状の一例を示す図である。図６のＡ、Ｂに示すスペクトル形状は、例えば、図５に示すスペクトル形状ＳＰ１１、ＳＰ１２に対応する。

　その後、状態推定部１５は、距離が近い特徴量に対応する状態を選択して、口の開閉状態とする。同様に、声帯の開閉、構音の位置（「ａ」「ｅ、ｏ」「ｉ」「ｍ、ｎ」「ｕ」の音など）、呼吸の種類（肺呼吸、腹式呼吸）についても、状態推定部１５は状態を推定する。続いて、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。

　感情推定部１６は、推定した声道の状態、気道の状態を用いて感情を推定する。具体的には、感情推定部１６は、まず、状態推定部１５から状態情報を取得する。続いて、感情推定部１６は、状態情報を用いて、感情推定情報を参照し、感情を推定する。その後、感情推定部１６は、推定した感情を表す情報を出力情報生成部１３に送信する。

　図７は、状態情報と感情推定情報のデータ構造の一例を示す図である。例えば、図７に示すように状態情報７１が、口の開閉、声帯の開閉、構音の位置、気道の状態、呼吸の種類についての情報を有している場合、感情推定情報７２を参照して、感情を選択する。図７の例では、感情として「喜び」が選択される。

　また、感情推定部１６は、主成分分析又は重回帰分析などの多変量解析を用いて生成した関数、感情を推定してもよい。

　主成分分析の場合、例えば、状態情報が有する情報それぞれを変数とし、感情それぞれを主成分（合成変数）とし、合成変数ができるだけ多く元の変数の情報量（分散）を含むように決められた重み付を用いて関数を生成する。そして、感情推定部１６は、生成した関数を用いて感情を推定する。

　重回帰分析の場合、例えば、状態情報が有する情報それぞれを説明変数とし、感情それぞれを目的変数として回帰式を生成する。そして、感情推定部１６は、生成した回帰式を用いて感情を推定する。

　更に、感情推定部１６は、ＳＶＭ（Support Vector Machine）を用いて、感情を推定してもよい。具体的には、感情推定部１６に、感情を識別する学習モデルを適用し、状態情報を入力として感情を推定する。例えば、推定した口の開閉、声帯の開閉、構音の位置、気道の状態、呼吸の種類などを、学習モデルに入力して、感情を推定する。

　なお、学習モデルは、学習フェーズにおいて、教師ありデータを用いて、あらかじめ学習をして生成する。

　また、ＳＶＭ以外の機械学習に基づいて生成した学習モデルを感情推定部１６に適用してもよい。例えば、ＳＶＭ以外の機械学習としては、ニューラルネットワーク、決定木を用いることが考えられる。

　更に、推定部３は、音響特性情報を用いて、声道の状態、気道の状態を推定し、推定した声道の状態、気道の状態を用いて、対象者の顔の表情を推定してもよい。その場合、図８に示すように、「真顔」などの顔の表情を追加する。図８は、変形例の感情推定情報のデータ構造の一例を示す図である。

　出力情報生成部１３は、感情推定部１６から感情を表す情報を取得すると、当該情報に基づいて出力情報を生成して、出力情報を出力装置３０へ送信する。出力装置３０は、出力情報に基づいて、対象者の感情を出力する。

［装置動作］
　次に、本発明の実施の形態における感情推定装置の動作について図９を用いて説明する。図９は、感情推定装置の動作の一例を示す図である。以下の説明においては、適宜図２から図８を参照する。また、本実施の形態では、感情推定装置を動作させることによって、感情推定方法が実施される。よって、本実施の形態における感情推定方法の説明は、以下の感情推定装置の動作説明に代える。

　図９に示すように、最初に、検査音信号再生部２１は、検査電気信号生成部１１で生成された音響信号に対応する電気信号を受信すると、受信した電気信号に基づいて音響信号を生成し、生成した音響信号を外耳道に出力する（ステップＡ１）。

　続いて、反響音信号録音部２２は、検査電気信号生成部１１から出力された音響信号に対する反響音信号を入力（計測）する（ステップＡ２）。その後、反響音信号録音部２２は、受信した反響音信号を、電気信号に変換して反響電気信号取得部１２へ送信する。

　続いて、生成部２は、音響信号ｘ（ｔ）に対応する電気信号と、反響音信号ｙ（ｔ）に対応する電気信号とを用いて、音響特性を表す音響特性情報を生成する（ステップＡ３）。音響特性としては、例えば、インパルス応答ｈ（ｔ）、又はインパルス応答をフーリエ変換又はラプラス変換した伝達関数Ｈ（ω）又はＨ（ｚ）などを用いる。

　具体的には、ステップＡ３において、生成部２は、まず、検査電気信号生成部１１から音響信号ｘ（ｔ）に対応する電気信号を受信する。また、生成部２は、反響電気信号取得部１２から反響音信号ｙ（ｔ）に対応する電気信号を受信する。

　続いて、ステップＡ３において、生成部２は、受信した音響信号ｘ（ｔ）と反響音信号ｙ（ｔ）とに対応する電気信号それぞれに基づいて、音響特性情報（インパルス応答ｈ（ｔ）又は伝達関数Ｈ（ω）又はＨ（ｚ）など）を生成する。そして、ステップＡ３において、生成部２は、音響特性情報を不図示の記憶部に記憶する。

　続いて、算出部１４は、音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を算出する（ステップＡ４）。

　ステップＡ４における共鳴周波数の算出について説明する。
　ステップＡ４において、算出部１４は、まず、生成部２から音響特性情報を取得する。続いて、算出部１４は、音響特性を用いてスペクトル分析をして、対象者に関する共鳴周波数を算出する。算出部１４は、例えば、スペクトル分析として線形予測符号化（ＬＰＣ：Linear Predictive Coding）などを採用して、共鳴周波数を算出する。その後、ステップＡ４において、算出部１４は、共鳴周波数を表す共鳴周波数情報を生成して、生成した共鳴周波数情報を記憶部に記憶する。

　ステップＡ４におけるスペクトル形状の算出について説明する。
　ステップＡ４において、算出部１４は、まず、生成部２から音響特性情報を取得する。続いて、算出部１４は、音響特性を用いてスペクトル分析をして、対象者に関するスペクトル形状（スペクトル包絡）を算出する。算出部１４は、例えば、スペクトル分析としてケムストラム分析などを採用して、スペクトル形状を算出する。その後、ステップＡ４において、算出部１４は、スペクトル形状を表すスペクトル形状情報を生成して、生成したスペクトル形状情報を記憶部に記憶する。

　続いて、状態推定部１５は、生成した共鳴周波数情報、又はスペクトル形状情報を用いて、対象者の器官の状態を推定する（ステップＡ５）。具体的には、ステップＡ５において、状態推定部１５は、まず、生成した共鳴周波数情報、又はスペクトル形状情報を取得する。

　続いて、ステップＡ５において、状態推定部１５は、共鳴周波数情報、又はスペクトル形状情報を用いて、あらかじめ記憶されている状態推定情報を参照して、対象者の器官の状態を推定する。

　続いて、ステップＡ５において、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。状態情報は、例えば、声道の状態、気道の状態を表す情報を有している。声道の状態には、例えば、口の開閉、声帯の開閉、構音の位置などの状態を表す情報を有している。また、気道の状態は、例えば、呼吸の種類を表す情報を有している。

　共鳴周波数を用いて推定する場合について説明する。
　ステップＡ５おいて、状態推定部１５は、まず、算出部１４が生成した共鳴周波数情報を取得する。続いて、ステップＡ５おいて、状態推定部１５は、図４に示す共鳴周波数情報と状態推定情報とを用いて距離を算出し、算出した距離を用いて器官の状態を推定する。

　例えば、口の開閉を推定する場合、状態推定部１５は、共鳴周波数情報４１に含まれる共鳴周波数ｆ１、ｆ２・・・を特徴とする特徴量を用いて、状態推定情報４２が有する口の開閉に含まれる開に対応する共鳴周波数Ｆ１１、Ｆ１２・・・を特徴とする特徴量と、閉に対応する共鳴周波数Ｆ２１、Ｆ２２・・・を特徴とする特徴量との距離をそれぞれ算出する。

　その後、ステップ５おいて、状態推定部１５は、距離が近い特徴量を選択し、選択した特徴量に対応する状態を口の開閉状態とする。同様に、声帯の開閉、構音の位置（「ａ」「ｅ、ｏ」「ｉ」「ｍ、ｎ」「ｕ」の音など）、呼吸の種類（肺呼吸、腹式呼吸）についても、状態推定部１５は状態を推定する。続いて、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。

　スペクトル形状を用いて推定する場合について説明する。
　ステップ５おいて、状態推定部１５は、まず、算出部１４が生成したスペクトル形状情報を取得する。続いて、ステップ５おいて、状態推定部１５は、図５に示すスペクトル形状情報と状態推定情報とを用いて距離を算出し、算出した距離を用いて器官の状態を推定する。

　例えば、口の開閉を推定する場合、状態推定部１５は、スペクトル形状情報５１に含まれるスペクトル形状を表す情報ｓｐ１を特徴とする特徴量を用いて、状態推定情報５２が有する口の開閉に含まれる開に対応するスペクトル形状ＳＰ１１を特徴とする特徴量と、閉に対応するスペクトル形状ＳＰ２１を特徴とする特徴量との距離をそれぞれ算出する。

　その後、ステップ５おいて、状態推定部１５は、距離が近い特徴量に対応する状態を選択して、口の開閉状態とする。同様に、声帯の開閉、構音の位置（「ａ」「ｅ、ｏ」「ｉ」「ｍ、ｎ」「ｕ」の音など）、呼吸の種類（肺呼吸、腹式呼吸）についても、状態推定部１５は状態を推定する。続いて、状態推定部１５は、器官の状態を表す状態情報を生成して、記憶部に記憶する。

　続いて、感情推定部１６は、推定した声道の状態、気道の状態を用いて感情を推定する（ステップＡ６）。具体的には、ステップＡ６において、感情推定部１６は、まず、状態推定部１５から状態情報を取得する。続いて、ステップＡ６において、感情推定部１６は、状態情報を用いて、感情推定情報を参照し、感情を推定する。その後、ステップＡ６において、状態推定部１５は、推定した感情を表す情報を出力情報生成部１３に送信する。

　例えば、図７に示すように状態情報７１が、口の開閉、声帯の開閉、構音の位置、気道の状態、呼吸の種類についての情報を有している場合、感情推定情報７２を参照して、感情を選択する。図７の例では、感情として「喜び」が選択される。

　また、ステップＡ６においては、感情推定部１６は、主成分分析又は重回帰分析などの多変量解析を用いて生成した関数、感情を推定してもよい。

　更に、感情推定部１６は、ＳＶＭを用いて、感情を推定してもよい。具体的には、感情推定部１６に、感情を識別する学習モデルを適用し、状態情報を入力として感情を推定する。例えば、推定した口の開閉、声帯の開閉、構音の位置、気道の状態、呼吸の種類などを、学習モデルに入力して、感情を推定する。

　また、ステップＡ６においては、推定部３は、音響特性情報を用いて、声道の状態、気道の状態を推定し、推定した声道の状態、気道の状態を用いて、対象者の顔の表情を推定してもよい。その場合、図８に示すように、「真顔」などの顔の表情を追加する。

　続いて、出力情報生成部１３は、感情推定部１６から感情を表す情報を取得すると、当該情報に基づいて出力情報を生成する（ステップＡ７）。そして、出力情報生成部１３は、出力情報を出力装置３０へ送信する。続いて、出力装置３０は、出力情報に基づいて、対象者の感情を出力する（ステップＡ８）。

［本実施の形態の効果］
　以上のように本実施の形態によれば、対象となる利用者の外耳道に出力された音響信号ｘ（ｔ）と、体内の器官の状態が反映された反響音信号ｙ（ｔ）とを用いて、インパルス応答ｈ（ｔ）又は伝達関数Ｈ（ｚ）などの音響特性情報を用いて生成する。そのため、音響特性情報から体内の器官の状態を推定できるので、これら器官の状態を用いることで、対象者の感情を精度よく推定することができる。

　また、本実施の形態を用いることにより感情を推定できるため、電話を介した会話、ロボットとの対話などにおいて、円滑なコミュニケーションを実現することができる。

　また、本実施の形態を用いることにより感情を推定できるため、犯罪捜査、マーケティング、医療などの分野において、音声プロファイリングなどに有用である。

［プログラム］
　本発明の実施の形態におけるプログラムは、コンピュータに、図９に示すステップＡ１からＡ８を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における感情推定装置と感情推定方法とを実現することができる。この場合、コンピュータのプロセッサは、生成部２、推定部３（算出部１４、状態推定部１５、感情推定部１６）、出力情報生成部１３として機能し、処理を行なう。

　また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、生成部２、推定部３（算出部１４、状態推定部１５、感情推定部１６）、出力情報生成部１３のいずれかとして機能してもよい。

［物理構成］
　ここで、実施の形態におけるプログラムを実行することによって、感情推定装置を実現するコンピュータについて図１０を用いて説明する。図１０は、本発明の実施の形態における感情推定装置を実現するコンピュータの一例を示すブロック図である。

　図１０に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

　ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。

　また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

　データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

　なお、本実施の形態における感情推定装置１は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、感情推定装置１は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

［付記］
　以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する（付記１）から（付記１６）により表現することができるが、以下の記載に限定されるものではない。

（付記１）
　外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、生成部と、
　前記音響特性情報を用いて、感情を推定する、推定部と、
　を有することを特徴とする感情推定装置。

（付記２）
　付記１に記載の感情推定装置であって、
　前記推定部は、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とする感情推定装置。

（付記３）
　付記２に記載の感情推定装置であって、
　前記推定部は、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とする感情推定装置。

（付記４）
　付記２又は３に記載の感情推定装置であって、
　前記推定部は、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類、のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とする感情推定装置。

（付記５）
　付記４に記載の感情推定装置であって、
　前記推定部は、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とする感情推定装置。

（付記６）
　付記１から５のいずれか一つに記載の感情推定装置であって、
　前記外耳道に前記第一の音響信号を出力する、音響信号出力部と、
　前記第二の音響信号を入力する、音響信号入力部と、
　を有することを特徴とする感情推定装置。

（付記７）
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を有することを特徴とする感情推定方法。

（付記８）
　付記７に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とする感情推定方法。

（付記９）
　付記８に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とする感情推定方法。

（付記１０）
　付記８又は９に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類、のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とする感情推定方法。

（付記１１）
　付記１０に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とする感情推定方法。

（付記１２）
　コンピュータに、
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１３）
　付記１２に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１４）
　付記１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１５）
　付記１３又は１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類、のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１６）
　付記１５に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　以上のように本発明によれば、感情を推定する精度を向上させることができる。本発明は、音声プロファイリングなどが必要な分野において有用である。具体的には、電話を介した会話、ロボットとの対話、犯罪捜査、マーケティング、医療などの分野において有用である。

　　１　感情推定装置
　　２　生成部
　　３　推定部
　１１　検査電気信号生成部
　１２　反響電気信号取得部
　１３　出力情報生成部
　１４　算出部
　１５　状態推定部
　１６　感情推定部
　２０　耳装着装置
　２１　検査音信号再生部
　２２　反響音信号録音部
　３０　出力装置
　４１　共鳴周波数情報
　４２　状態推定情報
　５１　スペクトル形状情報
　５２　状態推定情報
　７１　状態情報
　７２、８１　感情推定情報
１１０　コンピュータ
１１１　ＣＰＵ
１１２　メインメモリ
１１３　記憶装置
１１４　入力インターフェイス
１１５　表示コントローラ
１１６　データリーダ／ライタ
１１７　通信インターフェイス
１１８　入力機器
１１９　ディスプレイ装置
１２０　記録媒体
１２１　バス

Claims

　外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、生成手段と、
　前記音響特性情報を用いて、感情を推定する、推定手段と、
　を有することを特徴とする感情推定装置。
　請求項１に記載の感情推定装置であって、
　前記推定手段は、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とする感情推定装置。
　請求項２に記載の感情推定装置であって、
　前記推定手段は、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とする感情推定装置。
　請求項２又は３に記載の感情推定装置であって、
　前記推定手段は、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とする感情推定装置。
　請求項４に記載の感情推定装置であって、
　前記推定手段は、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とする感情推定装置。
　請求項１から５のいずれか一つに記載の感情推定装置であって、
　前記外耳道に前記第一の音響信号を出力する、音響信号出力手段と、
　前記第二の音響信号を入力する、音響信号入力手段と、
　を有することを特徴とする感情推定装置。
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を有することを特徴とする感情推定方法。
　請求項７に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とする感情推定方法。
　請求項８に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とする感情推定方法。
　請求項８又は９に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とする感情推定方法。
　請求項１０に記載の感情推定方法であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とする感情推定方法。
　コンピュータに、
（ａ）外耳道に出力された第一の音響信号と、前記第一の音響信号が体内で反響した第二の音響信号とを用いて、音響特性を表す音響特性情報を生成する、ステップと、
（ｂ）前記音響特性情報を用いて、感情を推定する、ステップと、
　を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１２に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて前記感情を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、声道の状態、気道の状態を推定し、推定した前記声道の状態、前記気道の状態を用いて表情を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１３又は１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、少なくとも口の開閉、声帯の開閉、構音の位置、呼吸の種類のいずれか一つ以上の状態を推定し、前記声道の状態、前記気道の状態とする
　ことを特徴とするコンピュータ読み取り可能な記録媒体。
　請求項１５に記載のコンピュータ読み取り可能な記録媒体であって、
　前記（ｂ）のステップにおいて、前記音響特性情報を用いて、共鳴周波数を表す共鳴周波数情報、又はスペクトル形状を表すスペクトル形状情報を生成し、生成した前記共鳴周波数情報、又は前記スペクトル形状情報を用いて、前記声道の状態、前記気道の状態を推定する
　ことを特徴とするコンピュータ読み取り可能な記録媒体。