JPWO2020065808A1

JPWO2020065808A1 - 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム

Info

Publication number: JPWO2020065808A1
Application number: JP2020547703A
Authority: JP
Inventors: 亮太比嘉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2021-08-30
Anticipated expiration: 2038-09-27
Also published as: US20220036122A1; JP7192870B2; WO2020065808A1

Abstract

本発明は、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させることを目的とする。本発明にかかる情報処理装置（１）は、特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する生成部（１１）と、前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部（１２）と、を備える。

Description

本開示は、情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体に関する。

ＡＩ（Artificial intelligence）の分野において、機械学習を行うための様々なアルゴリズムが提案されている。一例として、特許文献１には、人間が制御システムの制御を行う際に行っていると考えられる知的作業の方法手段を、機械的に実現するための技術が開示されている。

また、非特許文献１には、シミュレーションを用いた逆強化学習に関する技術が開示されている。

特開平０７−３２５６０４号公報

Shoichiro Yamaguchi, Honda Naoki, Muneki Ikeda, Yuki Tsukada, Shunji Nakano, Ikue Mori, Shin Ishii, Identification of animal behavioral strategies by inverse reinforcement learning, PLOS Computational Biology, May 2, 2018.

特許文献１及び非特許文献１に記載された技術を用いることにより、特定の環境及びエージェントにより運用される第１のシステムにおいて蓄積されたエキスパートデータから、第１のシステムに適応した第１のモデルを求めることが可能である。しかしながら、環境又はエージェントが類似するものの第１のシステムとは異なる第２のシステムには、上記で求められた第１のモデルをそのまま用いて運用することができない。仮に、第２のシステムに上記第１のモデルをそのまま用いた場合、意図しない出力を返してしまうおそれがあるためである。

また、第２のシステムに適応した第２のモデルを新たに求めるには、別途、第２のシステムにおけるエキスパートデータを用いて、再度の学習が必要となり、コストがかかる。そのため、所定のシステムに適応させたモデルについて、環境又はエージェントの変化に応じた活用が不十分である、という問題点がある。

本開示は、このような問題点を解決するためになされたものであり、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させるための情報処理装置を提供することを目的とする。

本開示の第１の態様にかかる情報処理装置は、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える。

本開示の第２の態様にかかる情報処理システムは、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第１のモデルに対して前記補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える。

本開示の第３の態様にかかるモデル適応方法は、
コンピュータが、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成し、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる。

本開示の第４の態様にかかるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体は、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する処理と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる処理と、
をコンピュータに実行させる。

上述の態様によれば、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させるための情報処理装置及びシステム、並びに、モデル適応方法及びプログラムを提供することができる。

本実施の形態１にかかる情報処理装置の構成を示すブロック図である。本実施の形態１にかかるモデル適応方法の流れを示すフローチャートである。本実施の形態２にかかる情報処理システムの全体構成を示すブロック図である。本実施の形態２にかかるシステムの概念を説明するための図である。本実施の形態２にかかる情報処理装置のハードウェア構成を示すブロック図である。本実施の形態２にかかるモデル適応方法の流れを示すフローチャートである。本実施の形態３にかかる情報処理システムの全体構成を示すブロック図である。本実施の形態３にかかるモデル適応方法の流れを示すフローチャートである。本実施の形態４にかかる情報処理システムの全体構成を示すブロック図である。本実施の形態４にかかるモデル比較処理の流れを示すフローチャートである。自動車の運転における車線変更の例を説明するための図である。本実施の形態５にかかる運転技術のモデル生成の概念を説明するための図である。本実施の形態５にかかるモデルを他の道路へ適用した場合の概念を説明するための図である。自動販売機のカテゴリごとのフェイスデータ群の概念を説明するための図である。本実施の形態６にかかる自動販売機のフェイスデータのモデル生成の概念を説明するための図である。本実施の形態６にかかるモデルを異なる条件の複数の自動販売機へ適用した場合に提案されたフェイスデータの例を説明するための図である。本実施の形態７にかかる地域における水道インフラの水道モデルを他の水道局へ適用する場合の概念を説明するための図である。

以下では、本開示の実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

ここで、機械学習の一種として強化学習（Reinforcement Learning）が知られている。強化学習は、「状態」が変化しうる「環境」において「行動」を行う「エージェント」（人やコンピュータ）について、環境の状態に応じた適切な行動を学習する方法である。ここで、環境の状態に応じた行動を出力する関数を「ポリシー（方策）関数」と呼ぶ。ポリシー関数は、強化学習が行われることにより、環境の状態に応じた適切な行動を出力するようになる。

また、強化学習では、前提として、エージェントの行動や、エージェントの行動によって遷移した環境の状態に対して与えられる「報酬」を出力する「報酬関数」が与えられる。報酬はエージェントの行動を評価する基準（評価基準）であり、報酬に基づいて評価値が定められる。例えば評価値は、エージェントが一連の行動を行う間に得られる報酬の合計である。評価値は、エージェントの行動の目的を決めるための指標である。例えば、ポリシー関数の学習は、「評価値を最大化する」という目的を達成するように行われる。なお、評価値は報酬に基づいて定まることから、ポリシー関数の学習は報酬関数に基づいて行われるともいえる。

ここで、実社会問題に取り組む場合、報酬関数の設計が難しいことがある。その場合、模倣学習（Imitation learning）が用いられることがある。模倣学習では、熟練したエージェントであるエキスパートによる状態に応じた行動等を蓄積したエキスパートデータを用いてモデルを学習することで、エキスパートの行動を模倣するための方策（ポリシー）関数を導出する。そして、模倣学習の一種として逆強化学習（Inverse Reinforcement Learning）が注目されつつある。

＜実施の形態１＞
図１は、本実施の形態１にかかる情報処理装置１の構成を示すブロック図である。情報処理装置１は、所定のシステムの環境等の条件から、システムのユーザであるエージェントが取るべき行動を出力するためのモデルを生成及びモデルのパラメータの学習（適応）を行うためのコンピュータであり、学習装置ということもできる。尚、情報処理装置１は、２台以上のコンピュータにより構成されていてもよい。情報処理装置１は、生成部１１と、適応部１２とを備える。

生成部１１は、第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する。ここで、「第１のシステム」とは、特定の環境及びエージェントを含む第１の条件に基づき運用される情報システム又は制御システムである。または、「第１のシステム」は、これらの情報システム又は制御システムを含めた社会システムであってもよい。ここで、「環境」は、入力される行動に応じて複数の「状態」を取り得るものであり、狭義のシステムと呼ぶこともできる。「状態」は状態ベクトルで表すことができる。「エージェント」は、その環境において複数の「行動」を行ない得る者であり、システムのユーザである人間（運用者）又は（エージェントプログラムにより動作する）コンピュータである。そして、環境は、エージェントの行動に応じて状態が遷移する。また、エージェントは、環境の現在の状態に応じて次の行動を決める。また、「運用」とは、特定のエージェントにより特定の環境においてシステムを稼働、実行させることを含む。

「第１のモデル」は、パラメータと変数とで定義される関数等のモデル式であり、入力に応じて求められる値を出力する。特に、第１のモデルは、第１のシステムの環境及びエージェントを含む第１の条件においてパラメータが適応（最適化）されたものである。尚、第１のモデルは、運用者、管理者等によって経験則から作成されたものであるか、熟練したエージェントの行動と状態の履歴であるエキスパートデータセットを用いて模倣学習されたものであってもよい。第１のモデルは、例えば、コンビニエンスストアの店舗の状態に応じた店長の行動を出力するモデルであってもよい。または、第１のモデルは、高速道路における道路形状や周囲の車両の位置関係、車両速度に応じて、運転者が取るべき運転動作（アクセル、ブレーキ及びハンドル操作等）等を出力するモデルであってもよい。

また、「適応」とは、モデルにおけるパラメータ値を対象のシステムの条件に対して最適化することをいう。つまり、「適応」とは、モデルのパラメータが最適になるように調整することをいう。そのため、「第１のモデル」は、第１のシステムの環境及びエージェントを含む条件に対して最適化されたパラメータ値を含むものとする。

「補正用モデル」とは、モデルに補正を加えるためのモデル式、補正用パラメータ等である。補正用モデルは、予め設定されたものであるか、第２の条件に基づいて算出されたものであってもよい。

適応部１２は、生成部１１により生成された第２のモデルを第２のシステムに適応させる。ここで、「第２のシステム」は、第１の条件と一部が異なる第２の条件に基づき運用されるシステムである。第２の条件は、第１の条件に含まれる特定の環境又は特定のエージェントの少なくともいずれかが異なるものである。つまり、第１のシステムと第２のシステムとは、異なる目的のシステムではなく、目的が共通又は類似するシステム同士であるものとする。逆に言うと、第１の条件と第２の条件とは条件に共通部分がある。

「第２のモデルを第２のシステムに適応させる」とは、上記同様、第２のモデルに含まれるパラメータ値を第２のシステムの第２の条件（環境及びエージェント）に合せて最適化することを意味する。

図２は、本実施の形態１にかかるモデル適応方法の流れを示すフローチャートである。まず、生成部１１は、第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する（Ｓ１１）。次に、適応部１２は、第２のシステムに、第２のモデルを適応させる（Ｓ１２）。これにより、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させることができる。

ここで、第１のシステムと第２のシステムは、特定用途を対象とする点では共通するが、具体的な適用先の環境（時期、場所等）又はエージェント（人員等）等が異なる。そのため、第２のシステムに第１のモデルをそのまま用いて運用を行うと、第１のモデルが意図しない出力を返してしまうおそれがある。そのため、第２のシステムに第１のモデルをそのまま用いることができない。一方、第２のシステムに適応させた第２のモデルを、第１のモデルと同様の方法で求めるには、コストがかかる。例えば、第２のモデルを適切に定義することは、高度な知識が必要であり、難易度が高い。また、第２のモデルのパラメータを模倣学習により高精度に調整するには、第２のシステムにおける大量かつ良質なエキスパートデータが必要となる。しかし、大量かつ良質なエキスパートデータを蓄積するには長期間を要する。特に、第２のシステムが運用前である場合には、エキスパートデータを取得すること自体が困難である。

そこで、本実施の形態では、第２のシステムと類似する第１のシステムにおいて、何らかの方法で適応済みの第１のモデルが存在することを前提とする。そして、第１のモデルに対して、補正用モデルを用いて補正を行う。そして、補正後のモデルである第２のモデルを用いて、第２のシステムの第２の条件に適応させる。このように適応された第２のモデルを用いて第２のシステムを運用することで、第２のモデルは本来の意図に即した出力を行うことができる。その理由は、第２のモデルは、第２のシステムと類似する第１のシステムに対して適応済の第１のモデルから一部を修正したものであるものだからである。また、修正後の第２のモデルについて第２のシステム向けに適応している。そのため、意図しない出力を返す可能性が低い。また、第２のモデルの生成に要するコスト、及び、適応に要するコストを大幅に削減することができる。その理由は、第２のモデルを一から設計しておらず第１のモデルをベースに一部を補正するためである。また、第２のモデルを用いて第２のシステムで運用した際の出力は、本来の意図に近いものであるため、運用により取得される運用データを用いて学習することで、少量のデータで高精度な適応を行わせることができる。

尚、情報処理装置１は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施の形態にかかるモデル適応方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、生成部１１及び適応部１２の機能を実現する。

または、生成部１１及び適応部１２は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array）等を用いることができる。

また、情報処理装置１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、情報処理装置１の機能がＳａａＳ（Software as a Service）形式で提供されてもよい。

また、情報処理装置１は、第１のモデルを予め外部から取得し、内部の記憶装置又はメモリに保存するものとする。そして、前記プロセッサは、記憶装置又はメモリにほぞんされた第１のモデルに対して補正等を行うものとする。また、前記プロセッサは、適応済みの第２のモデルを内部の記憶装置に保存するか、外部のシステム又は記憶装置へ出力してもよい。

＜実施の形態２＞
本実施の形態２は、上述した実施の形態１の具体例である。本実施の形態２にかかる情報処理システムは、逐次的報酬学習部と、モデル補正部と、適応部と、記憶部とを備える。但し、逐次的報酬学習部と適応部とは共用可能である。また、記憶部は、少なくとも上述した第１のモデルと補正用モデルとを記憶するものであればよい。また、モデル補正部及び適応部は、少なくとも上述した生成部１１及び適応部１２と同様の機能を有するものであればよい。

図３は、本実施の形態２にかかる情報処理システム１０００の全体構成を示すブロック図である。情報処理システム１０００は、システムＡ１００と、エキスパートデータセット１１０と、システムＢ２００と、運用データセット２１０と、情報処理装置３００とを備える。システムＡ１００は、第１のシステムの一例である。

図４は、本実施の形態２にかかるシステムＡ１００の概念を説明するための図である。システムＡ１００は、対象環境１０１と、エージェント１０２とを含む。対象環境１０１は、上述した「環境」に相当し、複数の状態を取り得るものである。エージェント１０２は、上述した「エージェント」に相当し、その環境において複数の行動を行ない得る者（人又はコンピュータ）である。

例えば、システムＡ１００を自動運転システムとした場合、エージェント１０２は自動運転車両、対象環境１０１の状態１０４はその自動運転車両の運転状態、周囲の状態（周囲の地図、他車両の位置や速度、及び、道路の状態等）の集合となる。よって、状態１０４は、状態ベクトルＳ＝（ｓ１、ｓ２、・・・）で表される。また、エージェント１０２がある行動１０３（アクセル、ブレーキ、ハンドルの動作）を取ると、対象環境１０１は、行動１０３に応じた状態１０４（速度の上下、車線の移動等）へ遷移する。また、システムＡ１００について後述する逐次的報酬学習がなされる際には、報酬関数１０５が用いられる。つまり、対象環境１０１は、行動１０３を報酬関数１０５に入力し、報酬をエージェント１０２へ出力する。

ここで、エージェント１０２が行うべき行動１０３は、対象環境１０１の状態１０４に応じて異なる。上述の自動運転システムの例であれば、前方に障害物が存在しなければ車両はそのまま進行してよいが、前方に障害物があればその障害物を回避するように進行するという行動１０３をエージェント１０２は取る必要がある。また、前方の路面の状態や前方の車両との車間距離などに応じ、車両の走行速度を変更するという行動１０３をエージェント１０２は取る必要がある。

図３に戻り説明を続ける。エキスパートデータセット１１０は、システムＡ１００における熟練したエージェント１０２における行動１０３と、そのときの状態１０４との組合せ等の行動データである。つまり、エキスパートデータセット１１０は、システムＡ１００において運用された場合の運用データセットである。但し、システムＡ１００がシミュレータの場合、エキスパートデータセット１１０は、シミュレーション結果のデータも含まれる。エキスパートデータセット１１０は、ストレージ装置等に格納されているものとする。

システムＢ２００は、第２のシステムの一例である。つまり、システムＢ２００は、システムＡ１００と類似するシステムである。例えば、システムＢ２００は、システムＡ１００をシミュレータとした場合の実環境、システムＡ１００に対するバージョンアップもしくはマイグレーション後のシステム、又は、システムＡ１００をベースモデルとした場合の派生モデル等である。尚、システムＢ２００の概念はシステムＡ１００と同等であるため図示及び詳細な説明を省略する。

運用データセット２１０は、システムＢ２００が運用された場合のデータの集合である。但し、運用データセット２１０のデータ量は、エキスパートデータセット１１０と比べて少なくても構わない。

情報処理装置３００は、情報処理装置１の一例である。情報処理装置３００は、逐次的報酬学習部３１０と、モデル補正部３２０と、適応部３３０と、記憶部３４０とを備える。記憶部３４０は、ハードディスク、フラッシュメモリ等の記憶装置又はメモリである。記憶部３４０は、条件Ａ３４１と、モデルＡ３４２と、補正用モデル３４３と、条件Ｂ３４４と、モデルＢ３４５とを記憶する。

条件Ａ３４１は、上述した第１の条件を示す情報の一例であり、システムＡ１００が運用される際の対象環境１０１及びエージェント１０２の集合を示す情報である。また、条件Ｂ３４４は、上述した第２の条件を示す情報の一例であり、システムＢ２００が運用される際の対象環境１０１及びエージェント１０２の集合を示す情報である。つまり、条件Ａ３４１と条件Ｂ３４４は、対象環境１０１及びエージェント１０２の少なくとも一部が異なる。

モデルＡ３４２は、上述した第１のモデルの一例であり、システムＡ１００に適応させたパラメータ値を含むモデル式を示す情報群である。モデルＡ３４２は、例えば、モデル式が実装されたプログラムファイルと最適化されたパラメータ値を含む設定ファイル等の集合であってもよい。ここで、モデル式は、例えば、上述した状態１０４及び行動１０３のそれぞれのベクトルと、パラメータ変数の集合とを用いて表現されたものであってもよい。また、モデルＡ３４２は、後述するように、ポリシー関数、報酬関数、物理方程式、及び、状態遷移確率等を含むものであってもよい。尚、報酬関数と物理方程式をまとめて評価基準と呼ぶこともできる。モデルＢ３４５は、上述した第２のモデルの一例であり、システムＢ２００に適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。

補正用モデル３４３は、上述した補正用モデルの一例であり、本実施形態では、状態ｓ及び行動ａを用いたパラメータ関数とする。但し、補正用モデル３４３は、これに限定されない。

逐次的報酬学習部３１０は、エキスパートデータセット１１０を用いてシステムＡ１００におけるモデルＡ３４２の逐次的報酬学習を行う。すなわち、逐次的報酬学習部３１０は、エキスパートデータセット１１０を学習用データとしてモデルＡ３４２のパラメータを最適な値に調整する。また、逐次的報酬学習部３１０は、調整済みのパラメータ値を設定した学習済みのモデルＡ３４２を記憶部３４０に保存又は更新する。

ここで、逐次的報酬学習の処理内容について補足する。まず、逐次的報酬学習部３１０は、逐次的報酬学習によってポリシー関数の生成を行う。ここで、「逐次的報酬学習」とは、模倣学習や逆強化学習に留まらず、模倣に基づく報酬関数の設計と設計された報酬関数を更新する処理を含む手法である。尚、模倣学習は、エキスパート（熟練者）の行動を模倣して方策関数を学習する処理である。また、逆強化学習は、エキスパートの行動を再現できる報酬関数まで学習する処理である。これに対し、逐次的報酬学習は、エキスパート以上の学習を目指すものである。また、「ポリシー関数」とは、対象環境１０１の状態１０４に応じてエージェント１０２が行うべき行動１０３を出力する関数であり、「方策関数」ともいう。そして、ポリシー関数が理想的なものに学習されれば、ポリシー関数は、対象環境の状態に応じ、エージェントが行うべき最適な行動を出力するものとなる。

また、逐次的報酬学習は、状態ベクトルｓと行動ａとを対応づけたデータ（以下、行動データ）を利用して行われる。尚、本実施形態では、行動データとしてエキスパートデータセット１１０を用いる。逐次的報酬学習によって得られるポリシー関数は、与えた行動データを模倣するものとなる。なお、逐次的報酬学習のアルゴリズムには、既存のものを利用することができる。

さらに本実施形態の逐次的報酬学習部３１０は、ポリシー関数の逐次的報酬学習を通じ、報酬関数の学習も行う。そのために、ポリシー関数Ｐが、状態ベクトルｓを報酬関数ｒに入力することで得られる報酬ｒ（ｓ）を入力としてとる関数として定められる。そして、ポリシー関数Ｐは、行動ａを出力とする。そのため、ポリシー関数Ｐは、ａ＝Ｐ（ｒ（ｓ））として定義することができる。

また、エージェントが行動ａを選択する規則である方策（ポリシー）をπと表わし、この方策πのもと、状態ｓにおいて行動ａを選択する確率を、π（ｓ，ａ）と表わすものとする。この場合、方策πから得られる行動ａは、以下に例示する式１で定められる。
ａ〜π（ａ｜ｒ（ｓ））（式１）

すなわち、本実施形態の逐次的報酬学習部３１０は、ポリシー関数を報酬関数の汎関数として定式化する。このような定式化をしたポリシー関数を定めた上で逐次的報酬学習を行うことにより、逐次的報酬学習部３１０は、ポリシー関数の学習を行いつつ、報酬関数の学習も行うことで、ポリシー関数及び報酬関数を生成する。

また、ある状態ｓおよび行動ａから状態ｓ´を選択する確率は、π（ａ｜ｓ）と表わすことができる。上記に示す式１のように方策を定めた場合、報酬関数ｒ（ｓ，ａ）を用いて、以下に例示する式２の関係を定めることができる。尚、報酬関数ｒ（ｓ，ａ）を、ｒ_ａ（ｓ）と記すこともある。
π（ａ｜ｓ）：＝ π（ａ｜ｒ（ｓ，ａ））（式２）

逐次的報酬学習部３１０は、以下に例示する式３のように定式化した関数を用いて報酬関数ｒ（ｓ，ａ）を学習してもよい。尚、式３において、λ´およびθ´は、データにより決定されるパラメータであり、ｇ´（θ´）は、正則化項である。

（式３）

また、方策を選択する確率π（ａ｜ｓ）は、ある状態ｓにおける行動ａにより得られる報酬と関連することから、上記の報酬関数ｒ_ａ（ｓ）を用いて、以下に例示する式４の形式で定義できる。なお、Ｚ_Ｒは分配関数であり、Ｚ_Ｒ＝Σ_ａｅｘｐ（ｒ_ａ（ｓ））である。

（式４）

ここで、上記の式４に示すように、ある状態ｓにおいてとるべき行動ａを表す方策πは、ある環境の状態ｓと、その状態において選択される行動ａによって得られる報酬ｒを決定するための報酬関数ｒ（ｓ，ａ）と関連性を有すると言える。強化学習は、この関連性を考慮して学習を行うことで、適切な方策πを見出そうと言うものである。

一方、本発明者は、強化学習において状態ｓと行動ａに基づいて方策πを見出すという考え方が、ある現象に基づいて非自明なシステムの仕組みを見出すことに利用できるという着想を得た。なお、ここでのシステムとは、機械的に構成されたシステムに限定されず、自然界に存在する任意の体系も含む。

ある状態の確率分布を表す一具体例が、統計力学におけるボルツマン分布（ギブス分布）である。統計力学の観点でも、ある実験データに基づいて実験を行った場合、所定の仕組みに基づいて何らかのエネルギー状態が生じるため、このエネルギー状態は、強化学習における報酬に対応すると考えられる。

言い換えると、上記内容は、強化学習において、ある報酬が決まっていることに起因して方策が推定できるように、統計力学において、ある運動方程式が決まっていることに起因してエネルギー分布が推定できることを表しているとも言える。このように、関係性が対応付けられる一因として、両者がエントロピーという概念で繋がっていることが挙げられる。

一般に、エネルギー状態は、エネルギーに対応する物理量を表す「物理方程式」（例えば、ハミルトニアン）で表すことができる。そこで、逐次的報酬学習部３１０は、強化学習の枠組みで統計力学におけるボルツマン分布を推定できるように、強化学習において推定する関数についての問題設定を与えておく。

具体的には、逐次的報酬学習部３１０は、強化学習で対象とする問題設定として、環境の状態ｓにおいて取るべき行動ａを決定する方策π（ａ｜ｓ）を所定の状態の確率分布を表すボルツマン分布に対応付ける。さらに、逐次的報酬学習部３１０は、強化学習で対象とする問題設定として、環境の状態ｓおよびその状態において選択される行動により得られる報酬ｒを決定する報酬関数ｒ（ｓ，ａ）をエネルギーに対応する物理量を表す物理方程式（ハミルトニアン）に対応付ける。このようにして逐次的報酬学習部３１０は、強化学習が対象とする問題をモデル化する。

ここで、ハミルトニアンをＨ、一般化座標をｑ、一般化運動量をｐとしたとき、ボルツマン分布ｆ（ｑ，ｐ）は、以下に例示する式５で表すことができる。なお、式５において、βは系の温度を表すパラメータであり、Ｚ_Ｓは分配関数である。

（式５）

上記に示す式４と比較すると、式５におけるボルツマン分布が、式４における方策に対応し、式５におけるハミルトニアンが、式４における報酬関数に対応していると言える。すなわち、上記式４および式５の対応関係からも、統計力学におけるボルツマン分布を強化学習の枠組みでモデル化できていると言える。

以下、報酬関数ｒ（ｓ，ａ）に対応付ける物理方程式（ハミルトニアン、ラグランジアンなど）の具体例を説明する。物理方程式ｈ（ｓ，ａ）を基本とした「状態遷移確率」ｐについて、以下の式６に示す式が成り立つ。
ｐ（ｓ´｜ｓ，ａ）＝ｐ（ｓ´｜ｈ（ｓ，ａ））（式６）
また、式６における右辺は、以下に示す式７のように定義できる。式７において、Ｚ_Ｓは分配関数であり、Ｚ_Ｓ＝Σ_Ｓ´ｅｘｐ（ｈ_ｓ´（ｓ，ａ））である。

（式７）

ｈ（ｓ，ａ）に対して、時間反転、空間反転、二次形式など、物理法則を満たす条件を与えた場合、物理方程式ｈ（ｓ，ａ）を、以下に示す式８のように定義できる。尚、式８において、λおよびθは、データにより決定されるパラメータであり、ｇ（θ）は、正則化項である。

（式８）

エネルギー状態は、行動を伴う必要がない場合も存在する。逐次的報酬学習部３１０は、式８に示すように、行動ａに起因する効果と、行動とは独立の状態ｓに起因する効果とを分けて運動方程式を設定することで、行動を伴わない場合の状態も表すことができる。

さらに、上記に示す式３と比較すると、式８における運動方程式の各項は、式３における報酬関数の各項に対応付けることができる。したがって、強化関数の枠組みで報酬関数を学習する方法を用いることで、物理方程式を推定することが可能になる。このように、以上のような処理を行うことで、逐次的報酬学習部３１０が学習に必要なモデル（具体的には、コスト関数）を設計できる。

逐次的報酬学習部３１０は、上記設定されたモデルに基づき、状態ｓを含む学習データ（エキスパートデータセット１１０等）を用いて強化学習を行うことにより、物理方程式のパラメータを推定する。上述するように、エネルギー状態は、行動を伴う必要がない場合も存在するため、逐次的報酬学習部３１０は、少なくとも状態ｓを含む学習データを用いて強化学習を行う。さらに、逐次的報酬学習部３１０は、状態ｓおよび行動ａを含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定してもよい。

例えば、時刻ｔで観測されたシステムの状態をｓ_ｔ、行動をａ_ｔとしたとき、これらのデータは、システムへの行動および作用を表す時系列の運用データセットＤ_ｔ＝｛ｓ_ｔ，ａ_ｔ｝と言うことができる。また、物理方程式のパラメータを推定することで、物理現象の挙動を模擬する情報が得られることから、逐次的報酬学習部３１０は、物理シミュレータを生成していると言うこともできる。

逐次的報酬学習部３１０は、例えば、ニューラルネットワークを用いて物理シミュレータを生成してもよい。例えば、パーセプトロンについて、状態ｓおよび行動ａに応じて決定されるシミュレート結果である物理方程式ｈ（ｓ，ａ）を入力層に入力し、出力層で次の状態ｓ´を出力してもよい。

または、逐次的報酬学習部３１０は、混合ガウス分布の最尤推定を行うことによりパラメータを推定してもよい。または、逐次的報酬学習部３１０は、積モデルおよび最大エントロピー法を用いて物理シミュレータを生成してもよい。

このように、逐次的報酬学習部３１０が報酬関数ｒ（ｓ，ａ）と物理方程式ｈ（ｓ，a）とを対応付けているため、逐次的報酬学習部３１０は、報酬関数を推定する方法を用いて物理方程式を推定した結果としてボルツマン分布を推定できる。すなわち、定式化した関数を強化学習の問題設定として与えることで、強化学習の枠組みで、運動方程式のパラメータを推定することが可能になる。

また、逐次的報酬学習部３１０が運動方程式を推定することで、推定された運動方程式から、物理現象などのルールを抽出することや、既存の運動方程式を更新することも可能になる。尚、逐次的報酬学習部３１０は、エキスパートデータセット１１０からシステムＡ１００における報酬関数とポリシー関数とを生成してもよい。または、逐次的報酬学習部３１０は、エキスパートデータセット１１０からシステムＡ１００における物理方程式と状態遷移確率とを生成してもよい。さらに、逐次的報酬学習部３１０は、エキスパートデータセット１１０からシステムＡ１００におけるポリシー関数、報酬関数、物理方程式、及び、状態遷移確率を生成してもよい。

以上を踏まえて、本実施の形態にかかる第１のモデルは、ポリシー関数及び報酬関数を含むことが望ましい。ここで、ポリシー関数及び報酬関数は、逐次的報酬学習部３１０が、特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたものである。そして、報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力するものといえる。また、ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力するものといえる。

さらに、本実施の形態にかかる第１のモデルは、前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含むことが望ましい。

続いて、モデル補正部３２０は、上述した生成部１１の一例である。モデル補正部３２０は、システムＡ１００に適応させたモデルＡ３４２に対して補正用モデル３４３を用いて補正し、モデルＢ３４５を生成し、記憶部３４０に保存又は更新する。さらに、モデル補正部３２０は、モデルＢ３４５を生成する前に、システムＢ２００における運用データセット２１０を用いて補正用モデル３４３を算出してもよい。その場合、モデル補正部３２０は、当該算出した補正用モデル３４３を用いて、モデルＡ３４２に対して補正を行うことによりモデルＢ３４５を生成するようにしてもよい。

適応部３３０は、システムＢ２００にモデルＢ３４５を用いて運用して得られた運用データセット２１０を取得し、取得した運用データセット２１０を用いてモデルＢ３４５をシステムＢ２００に適応させる。ここで、モデルＢ３４５は、システムＢ２００と類似するシステムＡ１００に適応済みのモデルＡ３４２から生成されたものである。そのため、モデルＢ３４５を新規に生成して（逐次的報酬学習部３１０による）逐次的報酬学習（又は、再学習）を行う場合と比べて、より少ない運用データによりパラメータを学習でき、精度の良い適応モデルを効率的に得ることができる。つまり、少量の運用データであっても精度良く適応させることができる。また、短時間、低コストで適応が可能となる。

図５は、本実施の形態２にかかる情報処理装置３００のハードウェア構成を示すブロック図である。情報処理装置３００は、ＣＰＵ３０１と、メモリ３０２と、ＩＦ部３０３と、記憶装置３０４とを少なくとも備える。記憶装置３０４は、上述した記憶部３４０に相当するハードディスク、フラッシュメモリ等の記憶装置である。記憶装置３０４は、図３で記載した条件Ａ３４１、モデルＡ３４２、補正用モデル３４３、条件Ｂ３４４及びモデルＢ３４５に加え、図３では記載を省略したモデル適応プログラム３４６を記憶しているものとする。モデル適応プログラム３４６は、本実施の形態にかかるモデル適応方法の処理が実装されたコンピュータプログラムである。

メモリ３０２は、ＲＡＭ（Random Access Memory）等の揮発性記憶装置であり、ＣＰＵ３０１の動作時に一時的に情報を保持するための記憶領域である。ＩＦ部３０３は、情報処理装置３００の外部との入出力を行うインタフェースである。例えば、ＩＦ部３０３は、キーボード、マウス、タッチパネル等の入力デバイス（不図示）を介して、ユーザの操作を受け付け、受け付けた操作内容をＣＰＵ３０１へ出力する。また、ＩＦ部３０３は、ＣＰＵ３０１からの指示に応じて、タッチパネル、表示装置、プリンタ等（不図示）へ出力を行う。

ＣＰＵ３０１は、情報処理装置３００の各構成を制御するプロセッサつまり制御装置である。ＣＰＵ３０１は、記憶装置３０４からモデル適応プログラム３４６をメモリ３０２へ読み込み、モデル適応プログラム３４６を実行する。これにより、ＣＰＵ３０１は、逐次的報酬学習部３１０、モデル補正部３２０及び適応部３３０の機能を実現する。

図６は、本実施の形態２にかかるモデル適応方法の流れを示すフローチャートである。まず、逐次的報酬学習部３１０は、エキスパートデータセット１１０を用いた逐次的報酬学習により、モデルＡ３４２をシステムＡ１００に適応させる（Ｓ２１）。このとき、逐次的報酬学習部３１０は、モデルＡ３４２自体の生成を含めて行っても良い。そして、逐次的報酬学習部３１０は、適応済みのパラメータ値を設定したモデルＡ３４２を記憶部３４０に保存する。

次に、モデル補正部３２０は、モデルＡ３４２からＯｎｅ−ｓｈｏｔ適応によりモデルＢ３４５を生成する（Ｓ２２）。例えば、まず、モデル補正部３２０は、条件Ｂ３４４に基づき補正用モデル３４３を算出する。そして、モデル補正部３２０は、補正用モデル３４３をモデルＡ３４２に乗算したモデルＢ３４５を算出し、記憶部３４０に保存する。

例えば、モデル補正部３２０は、以下のようにしてモデルＢ３４５を算出してもよい。まず、モデルＡ３４２には、条件Ａ３４１におけるシステムＡ１００のポリシー関数π_Ａ（式９）と状態遷移確率ｐ_Ａ（式１０）とが含まれているものとする。

（式９）

（式１０）

また、補正用モデル３４３は、状態ｓ及び行動ａを用いたパラメータ関数α（ｓ、ａ）及びβ（ｓ’、ｓ、ａ）を含むものとする。

次に、モデル補正部３２０は、記憶部３４０から、モデルＡ３４２のうちポリシー関数π_Ａ及び状態遷移確率ｐ_Ａ、並びに、補正用モデル３４３のうちパラメータ関数α及びβを読み出す。そして、モデル補正部３２０は、ポリシー関数π_Ａにパラメータ関数αを乗じてポリシー関数π_Ａ’（式１１）とし、状態遷移確率ｐ_Ａにパラメータ関数βを乗じて状態遷移確率ｐ_Ａ’（式１２）として算出する。

（式１１）

（式１２）

そして、モデル補正部３２０は、算出したポリシー関数π_Ａ’及び状態遷移確率ｐ_Ａ’を含めてモデルＢ３４５として記憶部３４０に保存する。

ここで、ステップＳ２２では、Ｏｎｅ−ｓｈｏｔ適応を行うものとする。例えば、条件Ａ３４１に基づくパラメータ関数の分布と、条件Ｂ３４４に基づくパラメータ関数の分布とが事前に与えられる場合には、モデル補正部３２０は、これらに基づき補正用モデル３４３及びそのパラメータ値を算出してもよい。具体的には、条件Ｂ３４４に基づくシステムＢ２００を運用した場合の運用データが少量存在する場合には、モデル補正部３２０は、当該運用データを用いて補正用モデル３４３及びそのパラメータ値を算出してもよい。つまり、モデル補正部３２０は、モデルＡ３４２に補正用モデル３４３を乗じたモデルＢ３４５について、少量の運用データを用いて学習することにより、モデルＢ３４５を生成してもよい。

尚、ステップＳ２２では、上述したＯｎｅ−ｓｈｏｔ適応の代わりに、Ｚｅｒｏ−ｓｈｏｔ適応又はＦｅｗ−ｓｈｏｔ適応を用いても構わない。例えば、Ｚｅｒｏ−ｓｈｏｔ適応の場合、モデル補正部３２０は、パラメータ関数α（ｓ、ａ）＝β（ｓ’、ｓ、ａ）＝１やβ（ｓ’、ｓ、ａ）＝１と変化しない部分を仮定して追加データがゼロの状況でも、モデルＡ３４２に乗じて、システムＢ２００に適応させる初期更新を行うことにより、モデルＢ３４５を生成する。

または、Ｆｅｗ−ｓｈｏｔ適応の場合、モデル補正部３２０は、パラメータ関数α及びβをモデルＡ３４２に乗じたモデルＢ３４５を生成した上で、システムＢ２００に数回適応させて、少量の運用データを取得する。その後、モデル補正部３２０は、取得した少量の運用データを用いて、モデルＢ３４５をシステムＢ２００に適応させて、パラメータ値を更新することにより、モデルＢ３４５を生成する。そのため、Ｏｎｅ−ｓｈｏｔ適応、Ｚｅｒｏ−ｓｈｏｔ適応又はＦｅｗ−ｓｈｏｔ適応をまとめてＸ−ｓｈｏｔ適応と呼び、本実施の形態にかかるモデル補正部３２０は、Ｘ−ｓｈｏｔ適応により、モデルＢ３４５を生成するものといえる。

続いて、適応部３３０は、モデルＢ３４５を用いてシステムＢ２００を運用する（Ｓ２３）。そして、適応部３３０は、ステップＳ２３の運用により生じた運用データを運用データセット２１０として保存する（Ｓ２４）。その後、適応部３３０は、運用データセット２１０を用いてモデルＢ３４５をシステムＢ２００に適応させる（Ｓ２５）。このとき、適応部３３０は、逐次的報酬学習部３１０と同様に逐次的報酬学習により、モデルＢ３４５のパラメータ値を調整（最適化）し、調整後のパラメータを設定したモデルＢ３４５を記憶部３４０に保存又は更新する。以降、適応部３３０は、システムＢ２００の運用に応じて、適宜、モデルＢ３４５を適応させて更新する。

このように、本実施形態では、ステップＳ２２において、補正用モデル３４３の初期パラメータを迅速に調整（又は設定）することができる。そして、モデルＢ３４５に対して、システムＢ２００の運用中に適宜、実運用データを用いて学習することができる。よって、システムＢ２００に適応したモデルＢ３４５をより迅速に提供することができる。

例えば、逐次的報酬学習部３１０を用いて、システムＢ２００の適応モデルを生成するには、膨大な量のエキスパートデータセットが必要であり、その蓄積に長期間を要する。また、エキスパートデータセットを用いた適応モデルの学習には長時間を要する。さらに、逐次的報酬学習部３１０によりシステムＡ１００向けに学習された適応モデルは、特定の環境及びエージェントを含む条件Ａ３４１を前提としたものであり、環境又はエージェントが変更されることを想定していない。特に、条件Ａ３４１のうち環境及びエージェントの両方が変更された場合には対応できない。そのため、条件Ａ３４１と一部の環境又はエージェントが変更された条件Ｂ３４４、つまり、システムＡ１００と類似するシステムＢ２００には、モデルＡ３４２をそのまま流用することができない。システムＢ２００にモデルＡ３４２をそのまま用いた場合、意図しない出力を返してしまうおそれがあるためである。

そこで、本実施の形態により、モデルＡ３４２に対して補正用モデル３４３を用いて補正したモデルＢ３４５を用いることで、システムＢ２００に適応させたモデルを早期かつ、低費用で提供することができる。

また、本実施の形態により、生成されたモデルＢ３４５に対して、実運用中にモデルパラメータの自律的な更新を行うことができる。また、本実施の形態２は、複数のシステムＢ２００に対して第２のモデルを生成しても良い。

＜実施の形態３＞
本実施の形態３は、上述した実施の形態１の具体例であり、上述した実施の形態２とは異なる態様の実施例である。本実施の形態３では、実施形態２と比べて、第１のモデルの全体を補正するのではなく、第１のモデルに含まれる評価基準（式）に対して補正を行うことで、より迅速に第２のモデルを生成するものである。また、本実施の形態３では、第１のモデルを複数の類似システムに展開する例について説明する。但し、本実施の形態３を類似システムが一つの場合に適用してもよい。

図７は、本実施の形態３にかかる情報処理システム１０００ａの全体構成を示すブロック図である。情報処理システム１０００ａは、情報処理システム１０００と比べて情報処理装置３００が情報処理装置３００ａに置き換わり、システムＣ２００ａ及び運用データセット２１０ａ並びにシステムＤ２００ｂ及び運用データセット２１０ｂが追加されたものである。尚、図３と同等の構成には同一の符号を付し、適宜、説明を省略する。

システムＣ２００ａ及びシステムＤ２００ｂは、第３のシステムの一例であり、システムＢ２００と同様、システムＡ１００と類似するシステムである。尚、システムＢ２００、システムＣ２００ａ及びシステムＤ２００ｂは、それぞれ、類似するシステムであるものとする。例えば、システムＢ２００、システムＣ２００ａ及びシステムＤ２００ｂは、店舗システムである場合、環境の違いとして、店舗の所在地（周辺環境）が異なり、運営する店長（エージェント）が異なる場合に該当する。また、運用データセット２１０ａはシステムＣ２００ａが運用された場合のデータの集合であり、運用データセット２１０ｂはシステムＤ２００ｂが運用された場合のデータの集合である。

情報処理装置３００ａは、情報処理装置３００との違いについて説明する。まず、記憶部３４０は、図３と比べて、補正用モデル３４３が補正用モデル３４３ａに置き換わり、条件Ｃ３４４ａ、モデルＣ３４５ａ、条件Ｄ３４４ｂ、モデルＤ３４５ｂをさらに記憶する。補正用モデル３４３ａは、上述した補正用モデルの一例であり、本実施形態では、補正用パラメータの集合とする。但し、補正用モデル３４３ａは、これに限定されない。条件Ｃ３４４ａは、システムＣ２００ａが運用される際の対象環境１０１及びエージェント１０２の集合を示す情報である。条件Ｄ３４４ｂは、システムＤ２００ｂが運用される際の対象環境１０１及びエージェント１０２の集合を示す情報である。尚、条件Ｂ３４４を第２の条件とした場合、条件Ｃ３４４ａ及び条件Ｄ３４４ｂの少なくともいずれか一方は、条件Ａ３４１及び条件Ｂ３４４のいずれとも一部が異なる第３の条件と呼ぶことができる。

また、モデルＣ３４５ａは、システムＣ２００ａに適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。同様に、モデルＤ３４５ｂは、システムＤ２００ｂに適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。尚、モデルＣ３４５ａ及びモデルＤ３４５ｂは、適応前においては、適応前のモデルＢ３４５と同様のものを用いても良い。

モデル補正部３２０ａは、上述したモデル補正部３２０に加えて、モデルＡ３４２に含まれるエージェント１０２の行動１０３を評価する評価基準に対して、補正用モデル３４３を用いて補正する。実施形態２と比べて補正対象が少ないため、処理時間を短縮でき、より早く第２のモデルを生成できる。さらに、モデル補正部３２０ａは、評価基準のパラメータを補正する補正用パラメータを補正用モデル３４３として用いることにより、モデルＢ３４５（、モデルＣ３４５ａ及びモデルＤ３４５ｂ）を生成する。このように、第１のシステム用に最適化されたパラメータ値に修正を加えることで、第１のモデルの修正量を少なくし、既存の第１のモデルを有効活用できる。

適応部３３０ａは、適応部３３０と同様にモデルＢ３４５をシステムＢ２００に適応させる。さらに、適応部３３０ａは、システムＣ２００ａにモデルＣ３４５ａを用いて運用して得られた運用データセット２１０ａを取得し、取得した運用データセット２１０ａを用いてモデルＣ３４５ａをシステムＣ２００ａに適応させる。また、適応部３３０ａは、システムＤ２００ｂにモデルＤ３４５ｂを用いて運用して得られた運用データセット２１０ｂを取得し、取得した運用データセット２１０ｂを用いてモデルＤ３４５ｂをシステムＤ２００ｂに適応させる。

図８は、本実施の形態３にかかるモデル適応方法の流れを示すフローチャートである。まず、逐次的報酬学習部３１０は、図６と同様に、エキスパートデータセット１１０を用いた逐次的報酬学習により、モデルＡ３４２をシステムＡ１００に適応させる（Ｓ２１）。次に、モデル補正部３２０ａは、モデルＡ３４２から評価基準式を抽出する（Ｓ２２ａ）。例えば、モデルＡ３４２には、式９に示したポリシー関数π_Ａと、式１０に示した状態遷移確率ｐ_Ａとが含まれているものとする。この場合、モデル補正部３２０ａは、ポリシー関数π_Ａから評価基準式として報酬関数ｒ_Ａ（ｓ、ａ）を抽出し、状態遷移確率ｐ_Ａから物理方程式ｈ_Ａ（ｓ、ａ）を抽出する。

そして、モデル補正部３２０ａは、評価基準式のパラメータ部分を補正用モデル３４３ａを用いて補正してモデルＢ３４５、モデルＣ３４５ａ及びモデルＤ３４５ｂを生成する（Ｓ２２ｂ）。そして、モデル補正部３２０ａは、生成したモデルＢ３４５、モデルＣ３４５ａ及びモデルＤ３４５ｂを記憶部３４０に保存する。ここで、補正用モデル３４３ａは、条件Ｂ３４４、条件Ｃ３４４ａ及び条件Ｄ３４４ｂに基づいて予め生成されたものである。

例えば、モデル補正部３２０ａは、以下の式１３に示すように、抽出した評価基準式である報酬関数ｒ_Ａ（ｓ、ａ）に補正用パラメータδ_ｒＡ’を加算して報酬関数ｒ_Ａ’（ｓ、ａ）を算出する。

（式１３）

また、モデル補正部３２０ａは、以下の式１４に示すように、抽出した評価基準式である物理方程式ｈ_Ａ（ｓ、ａ）に補正用パラメータδ_ｈＡ’を加算して物理方程式ｈ_Ａ’（ｓ、ａ）を算出する。

（式１４）

より具体的には、モデルＡ３４２の評価基準式の一つである報酬関数ｒ_Ａ（ｓ、ａ）が以下の式１５である場合、補正用パラメータδ_ｒＡ’が加算された報酬関数ｒ_Ａ’（ｓ、ａ）は、以下の式１６のように算出できる。

（式１５）

（式１６）

つまり、補正後の報酬関数ｒ_Ａ’（ｓ、ａ）は、補正前の報酬関数ｒ_Ａ（ｓ、ａ）内の各状態ｓ_ｉ及び行動ａ_ｉについて、補正用パラメータが加算されていることを示す。

同様に、モデルＡ３４２の評価基準式の一つである物理方程式ｈ_Ａ（ｓ、ａ）が以下の式１７である場合、補正用パラメータδ_ｈＡ’が加算された物理方程式ｈ_Ａ’（ｓ、ａ）は、以下の式１８のように算出できる。

（式１７）

（式１８）

そして、モデル補正部３２０ａは、上記のように補正した評価基準式をモデルＡ３４２に含めてモデルＢ３４５等を生成する。ここで、補正用パラメータδ_ｒＡ’及びδ_ｈＡ’がシステムＢ２００、システムＣ２００ａ及びシステムＤ２００ｂの間で共通であれば、モデルＢ３４５、モデルＣ３４５ａ及びモデルＤ３４５ｂは、この段階では同じであっても構わない。

例えば、モデルＢ３４５等には、以下の式１９に示すポリシー関数π_Ａ’と、以下の式２０に示す状態遷移確率ｐ_Ａ’とが含まれているものとする。

（式１９）

（式２０）

その後、適応部３３０ａは、モデルＢ３４５を用いてシステムＢ２００を運用する（Ｓ２３）。そして、適応部３３０は、ステップＳ２３の運用により生じた運用データを運用データセット２１０として保存する（Ｓ２４）。その後、適応部３３０は、運用データセット２１０を用いてモデルＢ３４５をシステムＢ２００に適応させる（Ｓ２５）。このとき、適応部３３０は、逐次的報酬学習部３１０と同様に逐次的報酬学習により、モデルＢ３４５のパラメータ値を調整（最適化）し、調整後のパラメータを設定したモデルＢ３４５を記憶部３４０に保存又は更新する。

ステップＳ２３からＳ２５と並行して、適応部３３０ａは、モデルＣ３４５ａを用いてシステムＣ２００ａを運用する（Ｓ２３ａ）。そして、適応部３３０ａは、ステップＳ２３ａの運用により生じた運用データを運用データセット２１０ａとして保存する（Ｓ２４ａ）。その後、適応部３３０ａは、運用データセット２１０ａを用いてモデルＣ３４５ａをシステムＣ２００ａに適応させる（Ｓ２５ａ）。このとき、適応部３３０ａは、逐次的報酬学習部３１０と同様に逐次的報酬学習により、モデルＣ３４５ａのパラメータ値を調整（最適化）し、調整後のパラメータを設定したモデルＣ３４５ａを記憶部３４０に保存又は更新する。

ステップＳ２３からＳ２５並びにステップＳ２３ａからＳ２５ａと並行して、適応部３３０ａは、モデルＤ３４５ｂを用いてシステムＤ２００ｂを運用する（Ｓ２３ｂ）。そして、適応部３３０ａは、ステップＳ２３ｂの運用により生じた運用データを運用データセット２１０ｂとして保存する（Ｓ２４ｂ）。その後、適応部３３０ａは、運用データセット２１０ｂを用いてモデルＤ３４５ｂをシステムＤ２００ｂに適応させる（Ｓ２５ｂ）。このとき、適応部３３０ａは、逐次的報酬学習部３１０と同様に逐次的報酬学習により、モデルＤ３４５ｂのパラメータ値を調整（最適化）し、調整後のパラメータを設定したモデルＤ３４５ｂを記憶部３４０に保存又は更新する。

このように本実施の形態３では、第１のモデルの全体を補正するのではなく、第１のモデルに含まれる評価基準（式）に対して補正を行うことで、より迅速に第２のモデルを生成することができる。また、第１のモデルに含まれる適応済のパラメータ値に補正を加えるため、修正量を最小限に抑えつつ、高精度に適応させることができる。また、第２のモデルを適応させる際には、少量の運用データで学習が可能であるため、例えば、システムの移行直後や運用開始直後などに得られた少量の運用データから高精度かつ高速に適応（モデルパラメータの更新）が可能となる。

尚、上述した補正用モデル３４３ａは、システムＢ２００、システムＣ２００ａ及びシステムＤ２００ｂのそれぞれに対応した複数の補正用モデルであってもよい。また、補正用モデル３４３ａは、ランダムな値であっても良く、又は、システムＢ２００、システムＣ２００ａ及びシステムＤ２００ｂのそれぞれに対応したモデルの確率分布に基づく値であってもよい。

その場合、モデル補正部３２０ａ（生成部）は、モデルＡ３４２（第１のモデル）に対して、条件Ｂ３４４（第２の条件）に応じた第１の補正用モデルを用いて補正することによりモデルＢ３４５（第２のモデル）を生成する。そして、モデル補正部３２０ａは、モデルＡ３４２に対して、条件Ａ３４１及び条件Ｂ３４４のいずれとも一部が異なる条件Ｃ３４４ａ（第３の条件）に応じた第２の補正用モデルを用いて補正することによりモデルＣ３４５ａ（第３のモデル）を生成する。また、モデル補正部３２０ａは、モデルＡ３４２に対して、条件Ａ３４１、条件Ｂ３４４及び条件Ｃ３４４ａのいずれとも一部が異なる条件Ｄ３４４ｂに応じた補正用モデルを用いて補正することによりモデルＤ３４５ｂを生成する。その後、適応部３３０ａは、システムＢ２００（第２のシステム）に、モデルＢ３４５を適応させ、システムＣ２００ａ（第３のシステム）に、モデルＣ３４５ａを適応させ、システムＤ２００ｂにモデルＤ３４５ｂを適応させる。

＜実施の形態４＞
本実施の形態４は、上述した実施の形態３の改良例である。本実施の形態４において、前記生成部は、前記第１の条件と一部が異なる第４の条件に基づき運用される第４のシステムに適応させた第４のモデルに対して前記補正用モデルを用いて補正した第４のモデルを生成する。そして、前記適応部は、前記第４の条件に基づき運用される第４のシステムに、前記第４のモデルを適応させる。そして、前記情報処理装置は、前記適応部により適応させた前記第２のモデルと前記第４のモデルとの比較結果を出力する出力部をさらに備える。

図９は、本実施の形態４にかかる情報処理システム１０００ｂの全体構成を示すブロック図である。情報処理システム１０００ｂは、情報処理システム１０００ａと比べて情報処理装置３００ａが情報処理装置３００ｂに置き換わったものである。そして、情報処理装置３００ｂは、情報処理装置３００ａと比べて、比較・出力部３５０が追加されたものである。比較・出力部３５０は、適応部３３０ａにより適応済みのモデルＢ３４５、モデルＣ３４５ａ及びモデルＤ３４５ｂのそれぞれの比較を行ない、比較結果を出力する。ここで、比較結果には、モデルを構成する行動又は状態の差異、対応する行動又は状態におけるパラメータ値の違い、条件の違い等を示す情報が含まれる。また、モデル補正部３２０ａは、実施形態２と同様に、Ｘ−ｓｈｏｔ適応を行っても良い。また、比較・出力部３５０は、モデルＡ３４２（第１のモデル）と他のモデルとの比較を行い、その比較結果を出力してもよい。尚、図７と同等の構成には同一の符号を付し、適宜、説明を省略する。

図１０は、本実施の形態４にかかるモデル比較処理の流れを示すフローチャートである。モデル比較処理は、上述した図８のモデル適応方法の後に実行されるものである。まず、比較・出力部３５０は、記憶部３４０からモデルＢ３４５、モデルＣ３４５ａ及びモデルＤ３４５ｂを読み出す（Ｓ５１）。次に、比較・出力部３５０は、ステップＳ５２、Ｓ５３及びＳ５４を任意の順序で、又は、適宜、並行して処理する。

ステップＳ５２において、比較・出力部３５０は、モデルＢ３４５とモデルＣ３４５ａを比較し、比較結果を求める。ステップＳ５３において、比較・出力部３５０は、モデルＣ３４５ａとモデルＤ３４５ｂを比較し、比較結果を求める。ステップＳ５４において、比較・出力部３５０は、モデルＤ３４５ｂとモデルＢ３４５を比較し、比較結果を求める。

ステップＳ５２からＳ５４の後、比較・出力部３５０は、各比較結果を集約して（又は個別に）出力する（Ｓ５５）。例えば、比較・出力部３５０は、情報処理装置３００ｂの画面（不図示）に各比較結果を表示してもよい。または、比較・出力部３５０は、記憶部３４０に各比較結果を保存してもよい。または、比較・出力部３５０は、（ネットワークを介して）外部の記憶装置、コンピュータ、又は、表示装置へ各比較結果を出力してもよい。

本実施の形態により、互いに条件の一部が異なるものの、類似するシステムＢ２００、システムＣ２００ａ、システムＤ２００ｂとの間のシステムのメカニズム（例えば、物理方程式）や運用の意図（報酬関数）を明示的に比較することができる。さらに、生成された評価基準式を用いて、各システムに共通する普遍的な挙動、運用方法の改善、アンサンブルによる精度向上が可能となる。さらに、比較対象として第１のモデル（モデルＡ３４２）を加えることで、システムＡ１００を含めた分析が可能となる。

＜実施の形態５＞
本実施の形態５は、上述した実施の形態３又は４の応用例である。本実施の形態５は、自動運転システムに適用する場合である。一般に、生活道路における運転には、安全に対する基準が明確とはいえない。そこで、本実施の形態５は、生活道路における人間の運転履歴から自動車の運転動作を自律的に学習し、生活道路における自動運転を安全に実現することを目指すものである。以下では、特に、車線変更を対象とするものとする。

図１１は、自動車の運転における車線変更の例を説明するための図である。ケースｈ１−１は、運転車両Ｃ１１の前方（同じ車線上）に車両Ｖ１１が存在する（例えば、駐停車又は走行している）場合に、運転車両Ｃ１１が前方の車両Ｖ１１に接触することなく、安全に隣の車線に移動したことを示す。このとき、運転車両Ｃ１１を運転する運転者は、前方の車両Ｖ１１を避けるべく、運転車両Ｃ１１を隣の車線に移動するようにハンドル操作を行い、必要に応じてアクセス及びブレーキも操作したものとする。そして、当該運転者によるこれら運転操作は、エージェント１０２の行動１０３である。また、対象環境１０１（運転環境）は、運転車両の種類（トラック、普通自動車等）及びサイズ、周辺車両の情報（数、位置関係、車種及びサイズ等）、交通量、時間帯及び天気（明るさ）、道路の情報（車線数、車幅、信号、カーブ）等である。例えば、ケースｈ１−１では、運転車両Ｃ１１の走行車線が左側であること、車両Ｖ１１が同じ車線の前方に存在していること、車両Ｖ１１と運転車両Ｃ１１との距離、車線数、道路の傾斜やカーブの角度等は、対象環境１０１における状態１０４といえる。よって、ケースｈ１−１における行動１０３及び状態１０４が運用データとなる。また、ケースｈ１−１では、事故が起きていないため、運転車両Ｃ１１の運転者を熟練者とみなし、ケースｈ１−１における運用データをエキスパートデータとすることができる。

また、ケースｈ１−２は、運転車両Ｃ１２の前方（同じ車線上）に車両Ｖ１２が存在すると共に、運転車両Ｃ１２の真横（隣の車線）に車両Ｖ１３が存在している場合を示す。このとき、運転車両Ｃ１２は真横の車両Ｖ１３に接触せずに車線変更したが、前方の車両Ｖ１２に接触してしまったことを示す。このときの運用データ（ハンドル操作等と、車両Ｖ１３の存在等）は、ケースｈ１−１の場合の運用データとは異なる。また、ケースｈ１−２では、事故が起きてしまったため、運転車両Ｃ１２の運転者をエキスパートから除外し、ケースｈ１−２における運用データをエキスパートデータとはしない。

つまり、安全な車線変更を行うには、熟練者による運転操作（行動）が重要である。一方で、安全に車線変更できるか否かには、運転環境の影響も大きいといえる。そのため、エキスパートデータとして、熟練者の運転操作とその時の環境情報とをセットにすることが重要である。そして、車線変更のエキスパートデータを蓄積し、これらを用いて逐次的報酬学習部３１０により逐次的報酬学習することで、適応済みの第1のモデルを生成することができる。また、ある道路（運転者及び環境）における車線変更の適応済み第１のモデルが生成された場合、モデル補正部３２０ａ等により、第１のモデルに対して補正用モデルにより補正して第２のモデルを生成できる。そして、適応部３３０ａ等は、第２のモデルを他の条件（運転者及び環境（場所等））における道路の車線変更操作に適応させることで、様々な道路における安全な車線変更モデルを生成できる。

図１２は、本実施の形態５にかかる運転技術のモデル生成の概念を説明するための図である。ケースｈ２−１は、運転車両Ｃ２１の前方には他の車両が存在しないが、隣の車線上に車両Ｖ２１が存在する場合を示す。そして、このとき、運転車両Ｃ２１は、車線変更して車両Ｖ２１の後方に安全に近付いたことを示す。ケースｈ２−２は、運転車両Ｃ２２の前方に車両Ｖ２２が存在し、運転車両Ｃ２２の真横に車両Ｖ２３が存在し、かつ、車両Ｖ２３の前方には他の車両が存在しない場合を示す。そして、このとき、運転車両Ｃ２２は、前方の車両Ｖ２２及び真横の車両Ｖ２３に接触することなく、安全に隣の車線に移動したことを示す。ケースｈ２−３は、運転車両Ｃ２３の前方の両車線に車両Ｖ２４及びＶ２５が存在し、運転車両Ｃ２３の真横に車両Ｖ２６が存在する場合を示す。そして、このとき、運転車両Ｃ２３は、真横の車両Ｖ２６に接触することなく車線変更して車両Ｖ２４の後方に安全に近付いたことを示す。ケースｈ２−４は、運転車両Ｃ２４の前方の両車線に車両Ｖ２７及びＶ２８が存在する場合を示す。そして、このとき、運転車両Ｃ２４は、車線変更して車両Ｖ２８の後方に安全に近付いたことを示す。つまり、ケースｈ２−１からｈ２−４における運用データは、エキスパートデータの一例といえる。そして、逐次的報酬学習部３１０、モデル補正部３２０ａ及び適応部３３０ａ等は、これらのエキスパートデータから適宜、自律的に学習することで、様々な道路で利用可能な車線変更モデルを生成できる。

図１３は、本実施の形態５にかかるモデルを他の道路へ適用した場合の概念を説明するための図である。ケースｈ３−１は、運転車両Ｃ３１の前方（同じ車線上）に車両Ｖ３１が存在する場合において、適応部３３０ａ等により適応済みの車線変更モデルを用いて自動運転し、車線変更した経過を示す。また、ケースｈ３−２は、運転車両Ｃ３２の前方（同じ車線上）に車両Ｖ３２が存在し、かつ、運転車両Ｃ３２の真横に車両Ｖ３３が存在する場合において、適応部３３０ａ等により適応済みの車線変更モデルを用いて自動運転し、車線変更した経過を示す。ケースｈ３−１及びｈ３−２では、いずれも安全に車線変更できたことを示す。

さらに、本実施の形態４にかかるモデル比較処理を適用することで、汎用的な車線変更モデルの特徴を抽出することもできる。例えば、本実施の形態５により生成された複数の車線変更モデルの比較結果から、「車間距離がｘメールになった時、速度を１／３に落とし、ｙ度の角度でハンドルを切る」などといった安全な車線変更のための環境（条件）及び運転操作（行動）を導出できる。そのため、生活道路における安全基準として、例えば、乗車人数が無関係であること、等も導くことができる。

＜実施の形態６＞
本実施の形態６は、上述した実施の形態３又は４の他の応用例である。本実施の形態６は、自動販売機のフェイスデータに適用する場合である。フェイスデータとは、例えば、飲料の自動販売機において、販売対象の飲料のサンブルの配置（段の位置や並び順）やラベル内容を示す情報である。ここで、自動販売機における売り上げの傾向は、設置場所の周辺環境、客層に加えて、フェイスデータの影響が大きいことが知られている。例えば、環境情報としては、ある自動販売機の隣に設置された他の自動販売機で取り扱う飲料の種類や数、その自動販売機が自社又は他社のものかが挙げられる。また、別の環境情報としては、近隣にコンビニエンスストアがあるか否か、設置場所が住宅地（マンション又は戸建）か商業地区、ビル内であれば階数とその階のオフィスの部署が挙げられる。一方で、自動販売機ごとに採用されるフェイスデータのパターンは、現場のルートマン（飲料の配達及び補充員）の経験に基づき、環境情報を加味した判断に一任されていることがほとんどである。そのため、自動販売機の売上は、ルートマンの熟練度（どのようなフェイスデータを採用するか）に依存することも知られている。

ここで、自動販売機で取り扱う物品（飲料等）の種類やその比率（本数）は、コラム構成と呼ばれ、販売会社において事前に決定されていることが一般的である。コラム構成は、主要な取扱い飲料のグループをカテゴリとして呼ばれることもある。図１４は、自動販売機のカテゴリごとのフェイスデータ群の概念を説明するための図である。例えば、フェイスデータ群Ｆ１は、コーヒーを中心に販売するコーヒー型のカテゴリにおけるフェイスデータの集合である。フェイスデータ群Ｆ２は、炭酸飲料を中心に販売する炭酸型のカテゴリにおけるフェイスデータの集合である。フェイスデータ群Ｆ３は、お茶を中心に販売するお茶型のカテゴリにおけるフェイスデータの集合である。

ここで、自動販売機ごとのフェイスデータ及び環境情報を全て（大量に）取得して、ディープラーニングにより環境ごとのフェイスデータを導出するモデルを生成することも考えられる。しかしながら、自動販売機ごとのフェイスデータ及び環境情報は、現状、ほとんど電子化されていないため、全ての自動販売機のフェイスデータを取得することはルートマンの負担が大きく、実現が困難である。一方で、自動販売機ごとの売上情報は、飲料ごとの売上本数又は売上金額が所定の期間ごとに正確に記録されている。そして、期間は、ルートマンが配達及び補充するタイミングと関連し、フェイスデータの変更との関連も明確である。

そこで、売上の高い自動販売機を担当しているルートマンを熟練者とし、熟練者が採用したフェイスデータを「行動」とし、適用された自動販売機（対象環境）における「状態」との組をエキスパートデータとすることが考えられる。ここで、状態としては、上述した環境情報、客層、フェイスデータの適用期間及び適用期間における売上情報等が含まれる。このように、熟練したルートマンが採用したフェイスデータに限定するため、フェイスデータの取得及び電子化の負担は相対的に低いといえる。

図１５は、本実施の形態６にかかる自動販売機のフェイスデータのモデル生成の概念を説明するための図である。ここでは、フェイスデータ群Ｆ１、Ｆ２、Ｆ３及びＦ４は、エキスパートが採用したものとし、電子化されたデータであるものとする。尚、フェイスデータ群Ｆ４は、機能性型のカテゴリの自動販売機におけるフェイスデータの集合である。フェイスデータ群Ｆ１〜Ｆ４は、例えば、自動販売機の正面（販売物品のサンプル及びラベル）を撮影した撮影画像であるか、販売対象の飲料のサンブルの配置（段の位置や並び順）やラベル内容をテキスト化したものとする。また、フェイスデータ群Ｆ１〜Ｆ４に対応する環境情報もエキスパートから聴取した上で電子化（テキスト化）されたものとする。そして、これらのフェイスデータ並びに環境情報及び売上情報等のエキスパートデータを用いて逐次的報酬学習部３１０により逐次的報酬学習することで、適応済みの第１のモデルを生成することができる。さらに、モデル補正部３２０ａ等により、第１のモデルに対して補正用モデルにより補正して、第２のモデルを生成できる。そして、適応部３３０ａ等は、第２のモデルを、一部の条件が異なる自動販売機に適応させることで、当該条件における最適なフェイスデータを提案できる。例えば、ある設置場所における自動販売機では、これまでとは異なるカテゴリのフェイスデータが提案される可能性もある。

図１６は、本実施の形態６にかかるモデルを異なる条件の複数の自動販売機へ適用した場合に提案されたフェイスデータの例を説明するための図である。例えば、フェイスデータＦ５は、コーヒー型のカテゴリにおける最適なフェイスデータの例である。また、フェイスデータＦ６は、炭酸型のカテゴリにおける最適なフェイスデータの例である。また、フェイスデータＦ７は、お茶型のカテゴリにおける最適なフェイスデータの例である。

このように、本実施の形態により、適応済みのモデルを用いて環境情報に応じて最適なフェイスデータを提案することができる。また、販売会社に対して、自動販売機の環境情報に基づいて、コラム構成とフェイス構成の最適なセットを提案（販売）することもできる。

＜実施の形態７＞
本実施の形態７は、上述した実施の形態３又は４の他の応用例である。本実施の形態７は、水道インフラストラクチャ（以下、水道インフラと記す。）に適用する場合である。水道インフラは、時間の経過や環境の変化に応じて見直すことが望まれる。例えば、水道インフラにおいて、人口減少や節水効果による水需要の減少や、施設や管路の老朽化に伴う更新コストを考慮した場合、水道インフラのダウンサイジングが必要になることもある。

例えば、水道インフラの事業経営の効率化に向けた設備整備計画を立案するためには、将来の水需要減少や設備の更新時期などを考慮しながら、施設能力の適正化や施設の統廃合を実施する必要がある。具体的には、水需要が減少している場合には、過剰に水を供給する施設のポンプを入れ替えることで水の量を減少するようにダウンサイジングすることが考えられる。他にも、配水施設そのものを廃止するとともに、別の配水施設からの管路を追加して他の区域と統合（共有化）することも考えられる。このようなダウンサイジングを行うことで、コスト削減や効率化が期待できるからである。

また、異なる地域（自治体）の間で水道インフラには、共通点が多い。そのため、ある地域の水道インフラにおいて生成及び適応されたモデル（及びパラメータ）は、他の地域の水道インフラに適用することが効果的といえる。

ここで、水道インフラをシステムとして捉えた場合、対象環境、状態、エージェント、行動は、次のものがいえる。まず、対象環境は、水道インフラの状態（例えば、配水ネットワーク、ポンプの能力、配水管の状態など）の集合として表される。状態は、各拠点の電圧、水位、圧力、水量など、運用者が明示的に操作できないネットワークのダイナミクスを記述する変数で表される。また、エージェントは、意思決定に基づき行動を行う運用者や、外部システムに対応する。そして、エージェントが行うべき行動は、配水ネットワーク上の需要エリアに、過不足なく水を供給する必要がある。そこで、行動は、バルブの開閉、水の引き入れ、ポンプの閾値など、運用ルールに基づいて制御できる変数で表わされる。

図１７は、本実施の形態７にかかる地域における水道インフラの水道モデルを他の水道局へ適用する場合の概念を説明するための図である。水道インフラＷ１は、ある地域の水道局の水道インフラである。そして、水道インフラＷ１における熟練した職員によるオペレーションとその際の環境の状態とがエキスパートデータといえる。そこで、当該エキスパートデータを蓄積し、これらを用いて逐次的報酬学習部３１０により逐次的報酬学習することで、適応済みの第1のモデルを生成することができる。そして、モデル補正部３２０ａ等により、第１のモデルに対して補正用モデルにより補正して第２のモデルを生成できる。
ここで、水道インフラＷ２からＷ５は、水道インフラＷ１とは異なる地域又は将来のダウンサイジング対象の条件であるものとする。そこで、適応部３３０ａ等は、第２のモデルを水道インフラＷ２からＷ５に適応させることで、様々な地域又は条件における精度の高い制御を実現できる。

＜その他の実施の形態＞
尚、上述した本実施の各形態は転移学習の一種ということができる。

なお、上記実施の形態において、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、ＣＰＵ（Central Processing Unit）、メモリ、その他の回路で構成することができ、ソフトウェア的には、ＣＰＵがメモリにロードして実行するプログラム等によって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、又はそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

また、上記のプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）、ＣＤ−Ｒ（CD-Recordable）、ＣＤ−Ｒ／Ｗ（CD-ReWritable）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
（付記１）
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える情報処理装置。
（付記２）
前記適応部は、
前記第２のシステムに前記第２のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第２のモデルを前記第２のシステムに適応させる
付記１に記載の情報処理装置。
（付記３）
前記生成部は、
前記第１のモデルに含まれる前記エージェントの行動を評価する評価基準に対して、前記補正用モデルを用いて補正する
付記１又は２に記載の情報処理装置。
（付記４）
前記生成部は、
前記評価基準のパラメータを補正する補正用パラメータを前記補正用モデルとして用いることにより、前記第２のモデルを生成する
付記３に記載の情報処理装置。
（付記５）
前記生成部は、
前記第２のシステムにおける運用データを用いて前記補正用モデルを算出し、
当該算出した補正用モデルを用いて、前記第１のモデルに対して補正を行うことにより前記第２のモデルを生成する
付記１又は２に記載の情報処理装置。
（付記６）
前記適応部は、
前記第１の条件及び前記第２の条件のいずれとも一部が異なる第３の条件に基づき運用される第３のシステムに、前記第２のモデルを適応させる
付記１乃至５のいずれか１項に記載の情報処理装置。
（付記７）
前記生成部は、
前記第１のモデルに対して、前記第２の条件に応じた第１の補正用モデルを用いて補正することにより前記第２のモデルを生成し、
前記第１のモデルに対して、前記第１の条件及び前記第２の条件のいずれとも一部が異なる第３の条件に応じた第２の補正用モデルを用いて補正することにより第３のモデルを生成し、
前記適応部は、
前記第３の条件に基づき運用される第３のシステムに、前記第３のモデルを適応させる
付記１乃至５のいずれか１項に記載の情報処理装置。
（付記８）
前記生成部は、
前記第１の条件と一部が異なる第４の条件に基づき運用される第４のシステムに適応させた第４のモデルに対して前記補正用モデルを用いて補正した第４のモデルを生成し、
前記適応部は、
前記第４の条件に基づき運用される第４のシステムに、前記第４のモデルを適応させ、
前記情報処理装置は、
前記適応部により適応させた前記第２のモデルと前記第４のモデルとの比較結果を出力する出力部をさらに備える
付記１乃至５のいずれか１項に記載の情報処理装置。
（付記９）
前記第１のモデルは、
前記特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において前記特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたポリシー関数及び報酬関数を含み、
前記報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力し、
前記ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力する
付記１乃至８のいずれか１項に記載の情報処理装置。
（付記１０）
前記第１のモデルは、
前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含む、
付記９に記載の情報処理装置。
（付記１１）
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第１のモデルに対して前記補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える情報処理システム。
（付記１２）
前記適応部は、
前記第２のシステムに前記第２のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第２のモデルを前記第２のシステムに適応させる
付記１１に記載の情報処理システム。
（付記１３）
コンピュータが、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成し、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる
モデル適応方法。
（付記１４）
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する処理と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる処理と、
をコンピュータに実行させるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体。

１情報処理装置
１１生成部
１２適応部
１０００情報処理システム
１０００ａ情報処理システム
１０００ｂ情報処理システム
１００システムＡ
１０１対象環境
１０２エージェント
１０３行動
１０４状態
１０５報酬関数
１１０エキスパートデータセット
２００システムＢ
２１０運用データセット
２００ａシステムＣ
２１０ａ運用データセット
２００ｂシステムＤ
２１０ｂ運用データセット
３００情報処理装置
３００ａ情報処理装置
３００ｂ情報処理装置
３０１ＣＰＵ
３０２メモリ
３０３ＩＦ部
３０４記憶装置
３１０逐次的報酬学習部
３２０モデル補正部
３２０ａモデル補正部
３３０適応部
３３０ａ適応部
３４０記憶部
３４１条件Ａ
３４２モデルＡ
３４３補正用モデル
３４３ａ補正用モデル
３４４条件Ｂ
３４５モデルＢ
３４４ａ条件Ｃ
３４５ａモデルＣ
３４４ｂ条件Ｄ
３４５ｂモデルＤ
３４６モデル適応プログラム
３５０比較・出力部
Ｃ１１運転車両
Ｃ１２運転車両
Ｃ２１運転車両
Ｃ２２運転車両
Ｃ２３運転車両
Ｃ２４運転車両
Ｃ３１運転車両
Ｃ３２運転車両
Ｖ１１車両
Ｖ１２車両
Ｖ１３車両
Ｖ２１車両
Ｖ２２車両
Ｖ２３車両
Ｖ２４車両
Ｖ２５車両
Ｖ２６車両
Ｖ２７車両
Ｖ２８車両
Ｖ３１車両
Ｖ３２車両
Ｖ３３車両
ｈ１−１ケース
ｈ１−２ケース
ｈ２−１ケース
ｈ２−２ケース
ｈ２−３ケース
ｈ２−４ケース
ｈ３−１ケース
ｈ３−２ケース
Ｆ１フェイスデータ群
Ｆ２フェイスデータ群
Ｆ３フェイスデータ群
Ｆ４フェイスデータ群
Ｆ５フェイスデータ
Ｆ６フェイスデータ
Ｆ７フェイスデータ
Ｗ１水道インフラ
Ｗ２水道インフラ
Ｗ３水道インフラ
Ｗ４水道インフラ
Ｗ５水道インフラ

図１１は、自動車の運転における車線変更の例を説明するための図である。ケースｈ１−１は、運転車両Ｃ１１の前方（同じ車線上）に車両Ｖ１１が存在する（例えば、駐停車又は走行している）場合に、運転車両Ｃ１１が前方の車両Ｖ１１に接触することなく、安全に隣の車線に移動したことを示す。このとき、運転車両Ｃ１１を運転する運転者は、前方の車両Ｖ１１を避けるべく、運転車両Ｃ１１を隣の車線に移動するようにハンドル操作を行い、必要に応じてアクセル及びブレーキも操作したものとする。そして、当該運転者によるこれら運転操作は、エージェント１０２の行動１０３である。また、対象環境１０１（運転環境）は、運転車両の種類（トラック、普通自動車等）及びサイズ、周辺車両の情報（数、位置関係、車種及びサイズ等）、交通量、時間帯及び天気（明るさ）、道路の情報（車線数、車幅、信号、カーブ）等である。例えば、ケースｈ１−１では、運転車両Ｃ１１の走行車線が左側であること、車両Ｖ１１が同じ車線の前方に存在していること、車両Ｖ１１と運転車両Ｃ１１との距離、車線数、道路の傾斜やカーブの角度等は、対象環境１０１における状態１０４といえる。よって、ケースｈ１−１における行動１０３及び状態１０４が運用データとなる。また、ケースｈ１−１では、事故が起きていないため、運転車両Ｃ１１の運転者を熟練者とみなし、ケースｈ１−１における運用データをエキスパートデータとすることができる。

Claims

特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える情報処理装置。
前記適応部は、
前記第２のシステムに前記第２のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第２のモデルを前記第２のシステムに適応させる
請求項１に記載の情報処理装置。
前記生成部は、
前記第１のモデルに含まれる前記エージェントの行動を評価する評価基準に対して、前記補正用モデルを用いて補正する
請求項１又は２に記載の情報処理装置。
前記生成部は、
前記評価基準のパラメータを補正する補正用パラメータを前記補正用モデルとして用いることにより、前記第２のモデルを生成する
請求項３に記載の情報処理装置。
前記生成部は、
前記第２のシステムにおける運用データを用いて前記補正用モデルを算出し、
当該算出した補正用モデルを用いて、前記第１のモデルに対して補正を行うことにより前記第２のモデルを生成する
請求項１又は２に記載の情報処理装置。
前記適応部は、
前記第１の条件及び前記第２の条件のいずれとも一部が異なる第３の条件に基づき運用される第３のシステムに、前記第２のモデルを適応させる
請求項１乃至５のいずれか１項に記載の情報処理装置。
前記生成部は、
前記第１のモデルに対して、前記第２の条件に応じた第１の補正用モデルを用いて補正することにより前記第２のモデルを生成し、
前記第１のモデルに対して、前記第１の条件及び前記第２の条件のいずれとも一部が異なる第３の条件に応じた第２の補正用モデルを用いて補正することにより第３のモデルを生成し、
前記適応部は、
前記第３の条件に基づき運用される第３のシステムに、前記第３のモデルを適応させる
請求項１乃至５のいずれか１項に記載の情報処理装置。
前記生成部は、
前記第１の条件と一部が異なる第４の条件に基づき運用される第４のシステムに適応させた第４のモデルに対して前記補正用モデルを用いて補正した第４のモデルを生成し、
前記適応部は、
前記第４の条件に基づき運用される第４のシステムに、前記第４のモデルを適応させ、
前記情報処理装置は、
前記適応部により適応させた前記第２のモデルと前記第４のモデルとの比較結果を出力する出力部をさらに備える
請求項１乃至５のいずれか１項に記載の情報処理装置。
前記第１のモデルは、
前記特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において前記特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたポリシー関数及び報酬関数を含み、
前記報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力し、
前記ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力する
請求項１乃至８のいずれか１項に記載の情報処理装置。
前記第１のモデルは、
前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含む、
請求項９に記載の情報処理装置。
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第１のモデルに対して前記補正用モデルを用いて補正した第２のモデルを生成する生成部と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる適応部と、
を備える情報処理システム。
前記適応部は、
前記第２のシステムに前記第２のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第２のモデルを前記第２のシステムに適応させる
請求項１１に記載の情報処理システム。
コンピュータが、
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成し、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる
モデル適応方法。
特定の環境及びエージェントを含む第１の条件に基づき運用される第１のシステムに適応させた第１のモデルに対して補正用モデルを用いて補正した第２のモデルを生成する処理と、
前記第１の条件と一部が異なる第２の条件に基づき運用される第２のシステムに、前記第２のモデルを適応させる処理と、
をコンピュータに実行させるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体。