WO2021130916A1

WO2021130916A1 - 意図特徴量抽出装置、学習装置、方法およびプログラム

Info

Publication number: WO2021130916A1
Application number: PCT/JP2019/050882
Authority: WO
Inventors: 江藤　力
Original assignee: 日本電気株式会社
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-07-01
Also published as: US20220318917A1; JPWO2021130916A1; EP4083872A1; JP7279821B2; EP4083872A4

Abstract

意図特徴量抽出装置８０は、入力部８１と、学習部８２と、特徴量抽出部８３とを備えている。入力部８１は、対象者の意思決定履歴の入力を受け付ける。学習部８２は、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。特徴量抽出部８３は、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する。

Description

意図特徴量抽出装置、学習装置、方法およびプログラム

　本発明は、対象者の意図を表わす特徴量を抽出する意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、抽出された特徴量を用いて学習を行うモデル学習システム、学習装置、学習方法および学習プログラムに関する。

　近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。

　数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数（報酬関数）を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように目的関数を更新していくことで、熟練者の目的関数を推定する。

　なお、熟練者が想定する意図は複雑であり、状況に応じて様々に変化する。そのため、複数の意図を単純にモデル化した場合、目的関数も複雑化するため、推定された目的関数から熟練者の意図を判断することは難しい。そこで、複雑な意図を複数のシンプルな意図の組合せという、人間にとって解釈可能な形で表現された目的関数として学習する方法が求められている。

　解釈可能な形で表現された目的関数として学習する方法に関し、非特許文献１には、場合に応じた予測モデルを選択可能な区分疎線形回帰モデルについて記載されている。非特許文献１に記載された区分疎線形回帰モデルは、階層型混合エキスパートモデル（ＨＭＥ：Hierarchical Mixtures of Experts）の一種であり、葉ノードにコンポーネント（目的関数、予測モデル）、それ以外のノードに門関数と呼ばれるノードを割り当てた木構造で表される。

Riki Eto, Ryohei Fujimakiy, Satoshi Morinaga, Hiroshi Tamano, "Fully-Automatic Bayesian Piecewise Sparse Linear Models", AISTATS, pp.238-246, 2014.

　様々な状況下で取得される意思決定履歴は、熟練者の様々な意図を含むデータと言える。例えば、ドライバの走行データの中には、特徴の異なるドライバの走行データや、運転シーンの異なる状況での走行データが含まれる。しかし、意思決定履歴は、熟練者の意図そのものを表わすデータではなく、熟練者の意図に基づいて行われた行動の結果を表わすデータである。そのため、意思決定履歴そのものを参照しても、熟練者の意図を把握することは難しい。

　非特許文献１に記載された方法により、解釈性の高い予測モデルを学習することは可能である。しかし、非特許文献１に記載された方法により学習される予測モデルから予測結果に影響する要因を判断することは可能であるが、対象者の意図そのものを解釈することは難しい。

　一方、逆強化学習により得られる目的関数を用いることで、熟練者の行動を模倣することは可能である。しかし、行動そのものが熟練者の意図を反映したものであったとしても、その行動そのものを参照しても、熟練者の意図を客観的に判断することは困難である。そこで、対象者の意図を解釈可能な態様で把握できることが好ましい。

　そこで、本発明は、解釈可能な特徴量として対象者の意図を抽出できる意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、その特徴量を用いたモデル学習システム、学習装置、学習方法および学習プログラムを提供することを目的とする。

　本発明による意図特徴量抽出装置は、対象者の意思決定履歴の入力を受け付ける入力部と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えたことを特徴とすることを特徴とする。

　本発明による学習装置は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする。

　本発明によるモデル学習システムは、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする

　本発明による意図特徴量抽出方法は、対象者の意思決定履歴の入力を受け付け、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出することを特徴とする。

　本発明による学習方法は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする。

　本発明による意図特徴量抽出プログラムは、コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させることを特徴とする。

　本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させることを特徴とする。

　本発明によれば、解釈可能な特徴量として対象者の意図を抽出できる。

本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。階層型混合エキスパートモデルの概要を説明する説明図である。目的関数の例を示す説明図である。意図特徴量抽出装置の動作例を示す説明図である。学習装置の動作例を示す説明図である。本発明による意図特徴量抽出装置の概要を示すブロック図である。本発明による学習装置の概要を示すブロック図である。本発明によるモデル学習システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。本実施形態の意図特徴量抽出装置１００は、記憶部１０と、入力部２０と、学習部３０と、抽出部４０と、出力部５０とを備えている。

　意図特徴量抽出装置１００は、対象者の意思決定履歴から、その対象者の意図を示す目的関数を学習し、その目的関数から解釈可能な対象者の意図を、その対象者の特徴量として抽出する装置である。また、図１に例示するように、意図特徴量抽出装置１００が、学習装置２００に接続されていてもよい。

　記憶部１０は、意図特徴量抽出装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する学習部３０が処理に用いる各種パラメータを記憶してもよい。また、記憶部１０は、後述する入力部２０が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部１０は、例えば、磁気ディスク等により実現される。

　入力部２０は、対象者の意思決定履歴（トラジェクトリ）の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部２０は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻ｔでの状態ｓ_ｔと、時刻ｔでの行動ａ_ｔとの組み合わせの時系列データ｛ｓ_ｔ，ａ_ｔ｝_ｔ＝１ ^Ｈとして表される。

　学習部３０は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。具体的には、学習部３０は、対象者の行動から報酬（関数）を推定する逆強化学習により、線形回帰式で表される目的関数を学習する。

　逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移（予測）モデルを用いて学習が行われる。

　そこで、学習部３０は、熟練者の意思決定履歴に基づいて一の目的関数を推定し、この目的関数に基づく意思決定履歴と、熟練者の意思決定履歴との差を小さくするように目的関数を更新する。目的関数が更新されると、学習部３０は、この目的関数を用いて意思決定シミュレーションを行う。具体的には、学習部３０は、意思決定シミュレーションにおいて、状態遷移モデルと目的関数とを用いて方策を決定する最適化計算を行い、最適化計算の結果出力される行動をシミュレータで評価することで、意思決定履歴を決定する。そして、学習部３０は、この決定された意思決定履歴を目的関数の更新にさらに利用し、上記処理を繰り返すことにより、目的関数と熟練者の意思決定との差をなくすように熟練者の目的関数を推定する。

　なお、状態遷移モデルの精緻化は困難であることが多い。そこで、学習部３０は、状態遷移モデルを用いずに目的関数を推定可能なモデルフリー逆強化学習を行ってもよい。モデルフリー逆強化学習では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の意思決定シミュレーションが不要になるため、計算コストを削減することも可能になる。

　さらに、各場合に応じた目的関数を学習するため、学習部３０は、上述するモデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法を用いてもよい。具体的には、学習部３０は、ランダム方策に基づく重点サンプリングを用いた相対エントロピー逆強化学習により階層型混合エキスパートモデルを学習してもよい。

　相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いて、状態遷移モデルを用いずに（すなわち、モデルフリーで）報酬関数を学習する方法である。この学習方法では、学習部３０は、熟練者の意思決定履歴を場合分けし、各場合の目的関数および分岐ルールの学習を、熟練者の意思決定履歴を精度よく再現できるまで交互に繰り返すことで、分岐条件および各場合における目的関数を推定する。

　図２は、階層型混合エキスパートモデルの概要を説明する説明図である。図２に例示する階層型混合エキスパートモデルは、状態・観測情報に応じて目的関数を１つ選択するモデルである。図２に示す例では、入力される状態・観測情報が条件１を満たし、条件２を満たさずに、スパースな線形目的関数２が選択されたことを示す。

　図３は、目的関数の例を示す説明図である。図３に示す例では、ドライバの運転履歴データを意思決定履歴として用いて学習されたモデル予測制御における目的関数の例を示す説明図である。図３に例示する目的関数において、各説明変数の重み係数は、運転時に「何をどれくらい重視するのか」を表わす。

　例えば、図３に例示する目的関数において、λ_１は、現在地と目的地との距離の差を重視する程度を表わす係数である。同様に、λ_２は、現在の速度と目的とする速度との差を重視する程度を表わす係数である。また、λ_３は、ステアリングの角度、λ_４は、加速度、λ_５は、危険回避、λ_６は、燃費を、それぞれ重視する程度を表わす係数である。このように学習された目的関数は、対象者の意図を表わしていると言える。

　また、解釈可能な目的関数を学習するため、学習部３０は、階層型混合エキスパートモデル学習として、異種混合学習を利用してもよい。異種混合学習では、各葉ノードに配される目的関数が線形回帰式で表されるため、目的変数に対する説明変数の影響度合いを解釈することが容易になる。

　なお、学習部３０が、学習に用いる対象とする意思決定履歴の範囲は任意である。学習部３０は、例えば、時間や状況、場所等に応じて、意思決定履歴を分割し、分割された意思決定履歴ごとに目的関数を学習してもよい。

　抽出部４０は、学習された目的関数の説明変数の重みを、対象者の意図を表わす特徴量として抽出する。例えば、入力部２０が受け付けた意思決定履歴が、対象者の運転履歴であった場合、抽出部４０は、対象者の運転の意図を示す特徴量として目的変数の重みを抽出してもよい。また、例えば、入力部２０が受け付けた意思決定履歴が、対象者の発注履歴であった場合、抽出部４０は、対象者の発注の意図を示す特徴量として目的変数の重みを抽出してもよい。また、他にも、入力部２０が受け付けた意思決定履歴が、対象者の指導履歴であった場合、抽出部４０は、対象者の指導の意図を示す特徴量として目的変数の重みを抽出してもよい。

　出力部５０は、抽出された特徴量を出力する。その際、出力部５０は、抽出された特徴量に教師ラベルを対応付けて出力してもよい。出力部５０は、例えば、学習時に用いられた意思決定履歴から特定可能な情報を教師ラベルとして対応付けてもよい。例えば、意思決定履歴が運転履歴の場合、出力部５０は、事故発生の有無を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が発注履歴の場合、出力部５０は、売上数量や利益を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が指導履歴の場合、出力部５０は、退職者数を教師ラベルとして対応付けてもよい。

　なお、特徴量と教師ラベルとが対応付けられたデータは、後述する学習装置２００が学習を行う際の学習データとして用いることが可能である。そのため、このようなデータを出力する意図特徴量抽出装置１００のことを、学習データ生成装置ということができる。また、このような意図特徴量抽出装置１００と、学習装置２００とを含むシステムを、モデル学習システムということもできる。

　入力部２０と、学習部３０と、抽出部４０と、出力部５０とは、プログラム（意図特徴量抽出プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

　例えば、プログラムは、意図特徴量抽出装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、学習部３０、抽出部４０および出力部５０として動作してもよい。また、意図特徴量抽出装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　入力部２０と、学習部３０と、抽出部４０と、出力部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、意図特徴量抽出装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　学習装置２００は、入力部２１０と、モデル学習部２２０と、出力部２３０とを備えている。

　入力部２１０は、学習データの入力を受け付ける。入力部２１０は、例えば、意図特徴量抽出装置１００が生成した情報を、学習データとして受け付けてもよい。

　モデル学習部２２０は、入力された学習データを用いた機械学習により予測モデルを学習する。なお、モデル学習部２２０が機械学習を行う方法は任意である。また、モデル学習部２２０は、入力された学習データの内容および用途に応じたモデルを学習すればよい。

　例えば、学習データが運転履歴の場合、その学習データが示す特徴は、対象者の運転特徴と言える。そこで、モデル学習部２２０は、事故発生の有無や自動車保険料を目的変数とする予測モデルを学習してもよい。また、例えば、学習データが発注履歴の場合、その学習データが示す特徴は、対象者の発注特徴と言える。そこで、モデル学習部２２０は、利益率や廃棄数などを目的変数とする予測モデルを学習してもよい。また、他にも、学習データが指導履歴の場合、その学習データが示す特徴は、対象者の指導特徴と言える。そこで、モデル学習部２２０は、退職者数や評価度合いを目的変数とする予測モデルを学習してもよい。

　出力部２３０は、生成されたモデルを出力する。

　入力部２１０と、モデル学習部２２０と、出力部２３０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサによって実現される。

　次に、本実施形態の意図特徴量抽出装置１００の動作を説明する。図４は、本実施形態の意図特徴量抽出装置１００の動作例を示す説明図である。入力部２０は、対象者の意思決定履歴の入力を受け付ける（ステップＳ１１）。学習部３０は、入力された意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する（ステップＳ１２）。そして、抽出部４０は、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する（ステップＳ１３）。

　次に、本実施形態の学習装置２００の動作を説明する。図５は、本実施形態の学習装置２００の動作例を示す説明図である。入力部２１０は、対象者の意思決定履歴に基づいて学習された目的関数をもとに抽出される特徴量を学習データとして入力する（ステップＳ２１）。モデル学習部２２０は、入力された学習データを用いた機械学習により予測モデルを学習する（ステップＳ２２）。そして、出力部２３０は、学習した予測モデルを出力する（ステップＳ２３）。

　以上のように、本実施形態では、入力部２０が、対象者の意思決定履歴の入力を受け付け、学習部３０が、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。そして、抽出部４０が、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する。よって、対象者の意図を解釈可能な特徴量として抽出できる。

　また、本実施形態では、入力部２１０が、上述する意図特徴量抽出装置１００により抽出される特徴量を学習データとして入力し、モデル学習部２２０が、入力された学習データを用いた機械学習により予測モデルを学習し、出力部２３０が、学習された予測モデルを出力する。そのため、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。

　次に、本発明の概要を説明する。図６は、本発明による意図特徴量抽出装置の概要を示すブロック図である。本発明による意図特徴量抽出装置８０（例えば、意図特徴量抽出装置１００）は、対象者の意思決定履歴の入力を受け付ける入力部８１（例えば、入力部２０）と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部８２（例えば、学習部３０）と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部８３（例えば、抽出部４０）とを備えている。

　そのような構成により、解釈可能な特徴量として対象者の意図を抽出できる。

　また、学習部８２は、逆強化学習により線形回帰式で表される目的関数を学習してもよい。この場合、各線形回帰式に含まれる説明変数の各係数を特徴量として抽出できる。

　また、学習部８２は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習してもよい。このような構成により、各場合を考慮した目的関数を学習することが可能になる。

　具体的には、入力部８１は、対象者の運転履歴を意思決定履歴として受け付けてもよい。そして、特徴量抽出部８３は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出してもよい。そのような構成により、運転手の意図を示す特徴量を運転特徴として抽出することが可能になる。

　また、学習部８２は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習してもよい。この場合、各場合の目的関数を、線形回帰式で学習することが可能になる。

　図７は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置９０（例えば、学習装置２００）は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部９１（例えば、入力部２１０）と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部９２（例えば、モデル学習部２２０）と、学習した予測モデルを出力する出力部９３（例えば、出力部２３０）とを備えている。

　そのような構成により、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。

　具体的には、入力部９１は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、その運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力してもよい。そして、モデル学習部９２は、その学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習してもよい。

　なお、図８は、本発明によるモデル学習システムの概要を示すブロック図である。本発明によるモデル学習システム７０（例えば、図１に例示する意図特徴量抽出装置１００と学習装置２００との組み合わせ）は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部７１（例えば、学習部３０）と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部７２（例えば、抽出部４０）と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部７３（例えば、モデル学習部２２０）と、学習した予測モデルを出力する出力部７４（例えば、出力部２３０）とを備えている。

　このような構成によっても、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。

　図９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述の意図特徴量抽出装置８０および学習装置９０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（意図特徴量抽出プログラム、学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）対象者の意思決定履歴の入力を受け付ける入力部と、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
　学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えたことを特徴とする意図特徴量抽出装置。

（付記２）学習部は、逆強化学習により線形回帰式で表される目的関数を学習する付記１記載の意図特徴量抽出装置。

（付記３）学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習する付記１または付記２記載の意図特徴量抽出装置。

（付記４）入力部は、対象者の運転履歴を意思決定履歴として受け付け、特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する付記１から付記３のうちのいずれか１つに記載の意図特徴量抽出装置。

（付記５）学習部は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習する付記１から付記４のうちのいずれか１つに記載の意図特徴量抽出装置。

（付記６）対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とするモデル学習システム。

（付記７）対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする学習装置。

（付記８）入力部は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、モデル学習部は、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記７記載の学習装置。

（付記９）対象者の意思決定履歴の入力を受け付け、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出することを特徴とする意図特徴量抽出方法。

（付記１０）逆強化学習により線形回帰式で表される目的関数を学習する付記９記載の意図特徴量抽出方法。

（付記１１）対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする学習方法。

（付記１２）対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記１１記載の学習方法。

（付記１３）コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させるための意図特徴量抽出プログラム。

（付記１４）コンピュータに、学習処理で、逆強化学習により線形回帰式で表される目的関数を学習させる付記１３記載の意図特徴量抽出プログラム。

（付記１５）コンピュータに、対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させるための学習プログラム。

（付記１６）コンピュータに、入力処理で、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力させ、学習処理で、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習させる付記１５記載の学習プログラム。

　１０　記憶部
　２０　入力部
　３０　学習部
　４０　抽出部
　５０　出力部
　１００　意図特徴量抽出装置
　２００　学習装置
　２１０　入力部
　２２０　モデル学習部
　２３０　出力部

Claims

　対象者の意思決定履歴の入力を受け付ける入力部と、
　前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
　学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えた
　ことを特徴とする意図特徴量抽出装置。
　学習部は、逆強化学習により線形回帰式で表される目的関数を学習する
　請求項１記載の意図特徴量抽出装置。
　学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習する
　請求項１または請求項２記載の意図特徴量抽出装置。
　入力部は、対象者の運転履歴を意思決定履歴として受け付け、
　特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する
　請求項１から請求項３のうちのいずれか１項に記載の意図特徴量抽出装置。
　学習部は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習する
　請求項１から請求項４のうちのいずれか１項に記載の意図特徴量抽出装置。
　対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
　学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、
　抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、
　学習した予測モデルを出力する出力部とを備えた
　ことを特徴とするモデル学習システム。
　対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、
　入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、
　学習した予測モデルを出力する出力部とを備えた
　ことを特徴とする学習装置。
　入力部は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、
　モデル学習部は、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する
　請求項７記載の学習装置。
　対象者の意思決定履歴の入力を受け付け、
　前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、
　学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する
　ことを特徴とする意図特徴量抽出方法。
　学習部は、逆強化学習により線形回帰式で表される目的関数を学習する
　請求項９記載の意図特徴量抽出方法。
　対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、
　入力された学習データを用いた機械学習により予測モデルを学習し、
　学習した予測モデルを出力する
　ことを特徴とする学習方法。
　対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、
　前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する
　請求項１１記載の学習方法。
　コンピュータに、
　対象者の意思決定履歴の入力を受け付ける入力処理、
　前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、
　学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理
　を実行させるための意図特徴量抽出プログラム。
　コンピュータに、
　学習処理で、逆強化学習により線形回帰式で表される目的関数を学習させる
　請求項１３記載の意図特徴量抽出プログラム。
　コンピュータに、
　対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、
　入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、
　学習した予測モデルを出力する出力処理
　を実行させるための学習プログラム。
　コンピュータに、
　入力処理で、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力させ、
　学習処理で、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習させる
　請求項１５記載の学習プログラム。