WO2023032016A1

WO2023032016A1 - 推定方法、推定装置および推定プログラム

Info

Publication number: WO2023032016A1
Application number: PCT/JP2021/031807
Authority: WO
Inventors: 佑樹北岸; 岳至森; 太一浅見; 歩相名神山
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-03-09
Also published as: JPWO2023032016A1

Abstract

取得部（１５ａ）が、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ（１４ａ）を取得する。算出部（１５ｂ）が、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。学習部（１５ｃ）が、学習データ（１４ａ）と、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ（１４ｂ）を学習する。

Description

推定方法、推定装置および推定プログラム

　本発明は、推定方法、推定装置および推定プログラムに関する。

　従来、人間の音声や顔、身振り手振り等の非言語・パラ言語情報に表れる心の状態を自動的に推定する技術の研究開発が行われてきた。例えば、エージェントやロボットとの対話において、それらの反応の生成時に対話相手の心の状態を反映させたり、メンタルヘルスケアの一環として推定結果を活用したり、ｗｅｂ会議等で参加者の状態を数値化して把握しやすくしたりすることが期待されている。

　このような非言語・パラ言語情報に表れる心の状態の推定は、一般に、音声や動画像から抽出される特徴量やデータそのもの等の入力に対し、定義された心の状態を表す各ラベルの事後確率等を出力する教師あり学習として定義される（非特許文献１参照）。

　ここで、感情や表情認識は、平常、喜び、悲しみ、驚き、恐怖、憎悪、怒り、軽蔑等のいくつかのクラスに分類される。また、理解度等の特定の度合いは任意の段階に分類される。教師あり学習においては、このように定義されたクラスに対応するラベルが、一人または複数の作業者によってアノテーションされる。

　しかしながら、このようなアノテーションすなわちラベル付与の作業は、ラベルの粒度が細かくなるほど難しくなる。例えば、理解度であれば、理解していない、普通、理解しているという３段階から、理解していない、やや理解していない、普通、やや理解している、理解しているという５段階に粒度を細かくすると、ラベル付与の難易度が上がる。

　このように粒度の細かい分類問題に対しては、作業者によるアノテーション結果は、大局的には一致しても局所的には一致しにくい。例えば、５段階の理解度について、複数名の作業者がアノテーションを行う場合、全作業者で理解度が低いことは一致しても、「理解していない」「やや理解していない」については僅差で評価が分かれる場合がある。この場合に、作業者にかかる疲労、経験、判断基準等のバイアスが変わると、結果も変わる可能性がある。これでは、教師あり学習ではノイズの含まれた正確ではない正解ラベルが混在することになり、学習や評価に対して悪影響を及ぼす。

　そこで、従来、ｒｅｌａｂｅｌｉｎｇ等といわれるラベルの修正技術が知られている（非特許文献２、３参照）。

D.　Rangulov　and　M.　Fahim,　"Emotion　Recognition　on　large　video　dataset　based　on　Convolutional　Feature　Extractor　and　Recurrent　Neural　Network"，2020　IEEE　4th　International　Conference　on　Image　Processing,　Applications　and　Systems（IPAS）,　2020年 K.　Wang,　X.　Peng,　J.　Yang,　S.　Lu,　and　Y.　Qiao,　"Suppressing　Uncertainties　for　Large-Scale　Facial　Expression　Recognition",　2020年 B.　Zhang,　L.　Li,　S.　Wang,　Z.　Zha,　and　Q.　Huang,　"State-Relabeling　Adversarial　Active　Learning",　2020年

　しかしながら、従来技術では、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を正確に行うことは困難であった。例えば、従来技術では、１名の作業者のラベル付与結果あるいは複数名の投票結果の最大値だけをラベルとして保持しており、人間の知見を十分に活かせているとは言い難い。

　本発明は、上記に鑑みてなされたものであって、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る推定方法は、推定装置が実行する推定方法であって、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得工程と、取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出工程と、前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習工程と、を含んだことを特徴とする。

　本発明によれば、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことが可能となる。

図１は、推定装置の概略構成を例示する模式図である。図２は、推定装置の処理を説明するための図である。図３は、学習データのデータ構成を例示する図である。図４は、推定処理手順を示すフローチャートである。図５は、推定処理手順を示すフローチャートである。図６は、推定プログラムを実行するコンピュータを例示する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［推定装置の構成］
　図１は、推定装置の概略構成を例示する模式図である。また、図２は、推定装置の処理を説明するための図である。本実施形態の推定装置１０は、非言語・パラ言語情報である対象者の上半身が映る動画に対して、ニューラルネットワークを用いて、非言語・パラ言語情報に表れる心の状態として、理解度を５段階で推定する。理解度は、例えば、１．理解していない、２．やや理解していない、３．平常状態、４．やや理解している、５．理解している、として、数字が大きいほど理解していることを表すように定義される。

　まず、図１に例示するように、本実施形態の推定装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、サーバや、学習用データを管理する装置等の外部の装置と制御部１５とのネットワークを介した通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。本実施形態において、記憶部１４には、例えば、後述する推定処理に用いられる学習データ１４ａや、推定処理で生成・更新されるモデルパラメタ１４ｂ等が記憶される。

　ここで、図３は、学習データのデータ構成を例示する図である。図３に示すように、学習データ１４ａには、少なくとも非言語・パラ言語情報としての対象者の上半身が映る動画データと、各動画データを識別するデータＩＤと、各動画データに表れる理解度等の心の状態を表す正解ラベルとが含まれる。図３に示す例では、正解ラベルとしての理解度ラベルが含まれている。

　学習データ１４ａには、個人を識別可能な個人ＩＤ、年齢、性別等の人物の属性を表すラベルが含まれていてもよい。また、必要に応じて、学習データ１４ａの学習、開発、あるいは評価セットへの分割やデータ拡張が行われてもよい。

　なお、コントラストの正規化、顔検出等の事前処理を行って、動画データのある領域のみが利用されてもよい。また、入力データ（動画データ）のコーデック等は特に限定されない。また、学習データ１４ａには、後述する更新部１５ｄの処理によって更新された理解度の正解ラベルが保持される。

　具体的には、後述する推定処理で動画データから理解度を推定する場合に、例えばＷｅｂカメラで３０フレーム／秒で収録されたＨ２６４形式の動画データを、１辺が２２４ピクセルとなるようにリサイズするとよい。Ｘ個の各動画データには、Ｓ人の対象者の個人ＩＤ，Ａ名によって付与された理解度の正解ラベル、更新部１５ｄの処理によって更新された理解度の正解ラベルが付与される。図３に示す例では、更新された正解ラベルとして、更新後理解度ラベルが含まれている。

　図１の説明に戻る。制御部１５は、ＣＰＵ（Central　Processing　Unit）やＮＰ（Network　Processor）やＦＰＧＡ（Field　Programmable　Gate　Array）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、取得部１５ａ、算出部１５ｂ、学習部１５ｃ、および更新部１５ｄとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば取得部１５ａは他の機能部とは異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

　取得部１５ａは、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ１４ａを取得する。具体的には、取得部１５ａは、入力部１１を介して、あるいは学習データを生成する装置等から通信制御部１３を介して、非言語・パラ言語情報としての対象者の上半身が映る動画データと、各動画データを識別するデータＩＤと、各動画データに表れる理解度等の心の状態を表す正解ラベルとを含む学習データ１４ａを取得する。

　取得部１５ａは、以下の処理に先立って予め取得した学習データ１４ａを、記憶部１４に記憶させる。なお、取得部１５ａは、取得した学習データ１４ａを記憶部１４に記憶させずに、以下に示す算出部１５ｂに転送してもよい。

　算出部１５ｂは、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。例えば、算出部１５ｂは、学習データ１４ａの動画データについて、ニューラルネットワークを用いて、予測したい事象すなわち動画データに表れる理解度等の心の状態に関する事後確率を算出する。

　なお、以下に説明するニューラルネットワークを用いた処理は、本実施形態に限定されず、例えば、Batch　Normalization、ドロップアウト、Ｌ１／Ｌ２正則化等の周知の技術の要素が任意の箇所に付与されてもよい。

　具体的には、算出部１５ｂは、フレーム長Ｔの動画データｘ_１：Ｔから、２Ｄ　ＣＮＮ（Convolutional　Neural　Network）で、フレーム単位の特徴量を抽出する。次に、算出部１５ｂは、Ｄ次元の出力次元を持つＲＮＮ（Recurrent　Neural　Network）で、次式（１）に示すように、時間方向の埋め込み表現テンソルＨ_ｘを算出する。ここで、θはＣＮＮのパラメタ集合、φはＲＮＮのパラメタ集合である。

　次に、算出部１５ｂは、次式（２）に示すように、ｍｕｌｔｉ－ｈｅａｄ　ｓｅｌｆ　ａｔｔｅｎｔｉｏｎ機構を用いて、時間方向に対して着目すべき時刻を算出し、時間方向の重み付け和ベクトルｖを算出する。

　上記式（２）では、算出部１５ｂは、ｑｕｅｒｙＱ_ｉおよびｋｅｙＫ_ｉからａｔｔｅｎｔｉｏｎ　ｗｅｉｇｈｔを算出して、ｖａｌｕｅＶ_ｉに適用し、最後に時間方向の合計を算出している。

　ここで、ｄはａｔｔｅｎｔｉｏｎ　ｈｅａｄｓの数、ｉは各ａｔｔｅｎｔｉｏｎ　ｈｅａｄｓ、Ｗ_ｉ ^Ｑ、Ｗ_ｉ ^Ｋ、Ｗ_ｉ ^Ｖはそれぞれ、各ａｔｔｅｎｔｉｏｎ　ｈｅａｄｓにおけるＱｕｅｒｙ、ｋｅｙ、ｖａｌｕｅに対する重みを表す。

　最後に、算出部１５ｂは、次式（３）に示すように、２層の全結合層を用いて、５段階の理解度のそれぞれに対する事後確率ｐ（Ｃ｜ｘ_１：Ｔ）を算出する。

　ここで、Ｗ_１ ^ＦＣ、Ｗ_２ ^ＦＣは、２層の全結合層の重みを表し、Ｄ^ＦＣは１層目の全結合層の出力次元数を表し、Ｃは予測ラベルの数を表す（本実施形態ではＣ＝５）。また、１層目の全結合層の活性化関数には、ＲｅＬＵ関数が用いられている。

　学習部１５ｃは、学習データ１４ａと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ１４ｂを学習する。

　具体的には、学習部１５ｃは、モデルパラメタ集合Ωを更新し、学習済みモデルパラメタ集合Ω’を取得する。学習部１５ｃは、周知の損失関数や更新手法を適用可能である。例えば、モデルパラメタ集合Ωは、任意の他のタスクで事前学習されたものが含まれてもよいし、任意の乱数で初期値が生成されてもよいし、一部のモデルパラメタが更新されなくてもよい。

　例えば、学習部１５ｃは、確率的勾配法（ＳＧＤ）を用いて、次式（４）に示す交差エントロピーＬを損失関数として、モデルパラメタ集合Ωを更新する。その際には、学習率等のハイパーパラメタには任意の値が用いられる。

　ここで、ｍ^ｘは入力される動画データｘ_１：Ｔの正解分布である。正解分布の表現手法は特に限定されず、例えば、図３に例示した理解度ラベルＬ_ｘを用いて、ｏｎｅ－ｈｏｔ　ｖｅｃｔｏｒとして表現されてもよい。あるいは、正解分布は、正解クラスを中心とする正規分布を近似して表されてもよいし、アノテーション結果をそのままｓｏｆｔ－ｌａｂｅｌとして用いて表されてもよい。

　なお、学習部１５ｃは、取得した学習済みモデルパラメタ集合Ω’をモデルパラメタ１４ｂとして、記憶部１４に記憶させる。

　図１の説明に戻る。更新部１５ｄは、学習されたモデルパラメタ１４ｂを用いて、学習データ１４ａの正解ラベルを更新する。具体的には、更新部１５ｄは、学習されたモデルパラメタ１４ｂを用いて算出された心の状態の事後確率と、学習データ１４ａの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ１４ａの正解ラベルを更新する。

　例えば、更新部１５ｄは、複数の作業者によって付与された学習データ１４ａのラベルの分布を正規化した正解ラベルＬを更新する。まず、更新部１５ｄは、学習済みモデルパラメタ集合Ω’を用いて、学習データ１４ａに対する理解度の事後確率を予測する。その後、更新部１５ｄは、正解ラベルと事後確率との類似度を算出し、算出した類似度が所定の閾値以上であれば、正解ラベルを更新する。

　更新部１５ｄは、学習済みモデルパラメタΩ’を用いて、入力される動画データｘの理解度の正解ラベルＬ_ｘを更新する場合に、まず、各理解度に対する事後確率ｐ（Ｃ｜ｘ_１：Ｔ，Ω’）を算出する。次に、更新部１５ｄは、Ｌ_ｘとｐ（Ｃ｜ｘ_１：Ｔ，Ω’）との類似度を算出する。更新部１５ｄが算出する類似度は特に限定されないが、例えば、交差エントロピー、カルバック・ライブラー・ダイバージェンス、コサイン類似度、ユークリッド距離等、ベクトル間の距離や類似度を算出可能なアルゴリズムを用いて算出する。

　更新部１５ｄは、例えば、次式（５）に示すように、コサイン類似度ｃ_ｘ（－１≦ｃ_ｘ≦１）を算出する。

　また、更新部１５ｄは、特定の条件を満たすか否かを基準として更新可否を判定することも可能である。例えば、更新部１５ｄは、ｍａｘ（ｐ（Ｃ｜ｘ_１：Ｔ，Ω’））が所定の閾値以上である場合に、Ｌ_ｘに対する更新判定をＴＲＵＥとしてもよい。

　あるいは、更新部１５ｄは、Ｌｘの上位の２値が隣接していて、かつその比率が４：６～６：４の範囲内であれば、その２クラス内で正解が変わる場合の更新判定をＴＲＵＥとしてもよい。例えば、図３に示したデータＩＤ＝００００００２のデータの理解度ラベルにおいて、上位２値（０．４、０．６）が隣接していて、かつその比率が４：６～６：４の範囲内であるので、更新判定はＴＲＵＥとされる。一方、データＩＤ＝０００１４５９のデータの理解度ラベルにおいて、上位２値（０．８、０．２）が隣接しているものの、その比率が４：６～６：４の範囲内ではないため、更新判定はＦＡＬＳＥとされる。

　次に、更新部１５ｄは、算出した類似度が所定の閾値以上か否かを判定し、真であればＬ_ｘを更新して、更新後理解度ラベルＬ_ｘ’にｐ（Ｃ｜ｘ_１：Ｔ，Ω’）を代入する。その際に、更新部１５ｄは、単一の条件で更新判定してもよいし、複数のＡＮＤ条件やＯＲ条件を組み合わせて更新判定を行ってもよい。

　また、更新部１５ｄは、０．１未満等のわずかな値を０として再度正規化する等の事前処理を行った後に、Ｌ_ｘ’にｐ（Ｃ｜ｘ_１：Ｔ，Ω’）を代入してもよい。Ｌ_ｘ’は、モデルパラメタ１４ｂを引き続き学習する際の正解ラベルとして、Ｌ_ｘの代わりに損失関数の計算に用いられる。

　なお、更新部１５ｄの処理は、学習部１５ｃのモデルパラメタ１４ｂの学習の任意のタイミングで起動可能である。例えば、更新部１５ｄは、学習部１５ｃにおいてモデルパラメタ１４ｂの学習による更新回数が所定の閾値以上に達した場合に、処理を起動するようにしてもよい。あるいは、更新部１５ｄは、より複雑に、例えば、１回目の処理の起動は、学習部１５ｃにおけるモデルパラメタ１４ｂの更新回数が１０００回後に行い、２回目以降の処理の起動は、学習部１５ｃにおけるモデルパラメタ１４ｂの更新回数が１００回後に行うようにしてもよい。

［推定処理］
　次に、推定装置１０による推定処理について説明する。図４よび図５は、推定処理手順を示すフローチャートである。本実施形態の推定処理は、学習処理と更新処理とを含む。まず、図４は、学習処理手順を示す。図４のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。

　まず、取得部１５ａは、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ１４ａを取得する（ステップＳ１）。取得部１５ａは、取得した学習データ１４ａを記憶部１４に記憶させる。あるいは、取得部１５ａは、取得した学習データ１４ａを記憶部１４に記憶させずに、算出部１５ｂに転送してもよい。

　また、算出部１５ｂが、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する（ステップＳ２）。

　次に、学習部１５ｃが、学習データ１４ａと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ１４ｂを学習する（ステップＳ３）。これにより、一連の学習処理が終了する。

　次に、図５は、更新処理手順を示す。図５のフローチャートは、例えば、更新処理の開始を指示する入力があったタイミングで開始される。

　まず、更新部１５ｄは、学習されたモデルパラメタ１４ｂを用いて、学習データ１４ａに対する理解度の事後確率を算出する（ステップＳ１１）。

　次に、更新部１５ｄは、算出された心の状態の事後確率と、学習データ１４ａの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ１４ａの正解ラベルを更新する（ステップＳ１２）。これにより、一連の更新処理が終了する。

［効果］
　以上、説明したように、本実施形態の推定装置１０において、取得部１５ａが、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ１４ａを取得する。算出部１５ｂが、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。学習部１５ｃが、学習データ１４ａと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ１４ｂを学習する。

　これにより、推定装置１０は、複数名により付与された正解ラベルを用いた大局的なラベル付与の学習により、非言語情報またはパラ言語情報に表れる心の状態を精度高く推定することが可能となる。したがって、推定装置１０は、推定した結果を用いて心の状態を表すラベルを精度高く付与することが可能となる。このように、推定装置１０によれば、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことが可能となる。

　また、更新部１５ｄが、学習されたモデルパラメタ１４ｂを用いて、学習データ１４ａの正解ラベルを更新する。具体的には、更新部１５ｄは、学習されたモデルパラメタ１４ｂを用いて算出された心の状態の事後確率と、学習データ１４ａの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ１４ａの正解ラベルを更新する。

　これにより、推定装置１０は、複数名による正解ラベルの付与結果の分布とある程度類似している場合にのみ、正解ラベルを修正することが可能となる。したがって、誤って意味の遠いクラスのラベルが付与される可能性を排除して、大局的なラベル付与を変えることなく局所的にラベルの修正を行うことが可能となる。また、人間によるラベル付与の傾向を参照することにより、ある種の制約を設けることとなり、少ないデータ量で安定してラベル修正を行うことが可能となる。このように、推定装置１０によれば、ラベル付与が難しいデータに対しても、精度高くラベルの修正を行うことが可能となる。

　学習部１５ｃにおいてモデルパラメタ１４ｂの学習による更新回数が所定の閾値以上に達した場合に、更新部１５ｄの処理を起動する。これにより、さらに精度高くラベルの修正を行うことが可能となる。

［プログラム］
　上記実施形態に係る推定装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を推定装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、推定装置１０の機能を、クラウドサーバに実装してもよい。

　図６は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、推定プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した推定装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、推定プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、推定プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　推定装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１４ａ　学習データ
　１４ｂ　モデルパラメタ
　１５　制御部
　１５ａ　取得部
　１５ｂ　算出部
　１５ｃ　学習部
　１５ｄ　更新部

Claims

　推定装置が実行する推定方法であって、
　非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得工程と、
　取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出工程と、
　前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習工程と、
　を含んだことを特徴とする推定方法。
　学習された前記モデルパラメタを用いて、前記学習データの正解ラベルを更新する更新工程を、さらに含んだことを特徴とする請求項１に記載の推定方法。
　前記更新工程は、学習された前記モデルパラメタを用いて算出された心の状態の事後確率と、前記学習データの正解ラベルとの類似度が所定の閾値以上である場合に、前記学習データの正解ラベルを更新することを特徴とする請求項２に記載の推定方法。
　前記学習工程において前記モデルパラメタの学習による更新回数が所定の閾値以上に達した場合に、前記更新工程を起動することを特徴とする請求項２に記載の推定方法。
　非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得部と、
　取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出部と、
　前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習部と、
　を有することを特徴とする推定装置。
　非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得ステップと、
　取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出ステップと、
　前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習ステップと、
　をコンピュータに実行させるための推定プログラム。