WO2023233664A1

WO2023233664A1 - 最適化装置、最適化方法、およびプログラム

Info

Publication number: WO2023233664A1
Application number: PCT/JP2022/022680
Authority: WO
Inventors: 達哉森
Original assignee: 日本電気株式会社
Priority date: 2022-06-03
Filing date: 2022-06-03
Publication date: 2023-12-07

Abstract

非線形最適化問題において用いる逆温度をより適切な値に調整する、との課題を解決するために、最適化装置（１００）は、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成部（１０１）と、複数の最適変数候補の各々について、目的関数を評価する目的関数評価部（１０２）と、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化部（１０３）と、逆温度に基づき、目的関数についての重みを計算する重み評価部（１０４）と、最適変数候補、重み、および信念分布に基づき、信念分布を更新する信念分布更新部（１０５）と、を備える。

Description

最適化装置、最適化方法、およびプログラム

　本発明は、非線形最適化問題を解く技術に関する。

　非線形最適化問題において、目的関数の勾配値を用いずに最適変数を近似計算する技術が知られている。例えば、非特許文献１、２には、その一例であるInformation Theoretic Model Predictive Control（ＩＴＭＰＣ）が記載されている。ＩＴＭＰＣは、（ｉ）信念分布に基づいて生成した複数の最適変数候補の各々について、目的関数値と、逆温度とを参照して、ベイズ更新における重みを求め、（ｉｉ）、複数の最適変数候補と、それぞれの重みとを参照して信念分布を更新する。また、ＩＴＭＰＣは、（ｉ）（ｉｉ）の処理を繰り返すことにより更新された信念分布を参照して、近似解を出力する。

Grady Williams, et al.著、「Information Theoretic MPC for Model-Based Reinforcement Learning」、ICRA2017 Grady Williams, et al.著、「Information Theoretic Model Predictive Control:Theory and Applications to Autonomous Driving」、IEEE Transactions on Robotics (Volume: 34, Issue: 6, 2018年12月)

　ここで、逆温度は、最適化システムの効率性と正確性を決めるパラメータである。また、ベイズ更新において、逆温度の適切な値は、最適変数候補の生成結果、目的関数の内容、または、信念分布の形状等の、その時々の状況次第で異なり得る。逆温度が適切でない場合、有効サンプルサイズが適切でなくなり、ベイズ更新に問題が生じる。非特許文献１、２に記載された技術においては、逆温度の適切な値まではわからないため、逆温度の調整が難しい、という問題がある。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、非線形最適化問題において用いる逆温度をより適切な値に調整する技術を提供することである。

　本発明の一側面に係る最適化装置は、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、を備える。

　本発明の一側面に係る最適化方法は、信念分布に基づき、複数の最適変数候補を生成することと、前記複数の最適変数候補の各々について、目的関数を評価することと、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、前記逆温度に基づき、前記目的関数についての重みを計算することと、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、を含む。

　本発明の一側面に係るプログラムは、コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、として機能させる。

　本発明の一態様によれば、非線形最適化問題において用いる逆温度をより適切な値に調整することができる。

本発明の例示的実施形態１に係る最適化装置の構成を示すブロック図である。本発明の例示的実施形態１に係る最適化方法の流れを示すフロー図である。本発明の例示的実施形態２に係る最適化システムの構成を示すブロック図である。本発明の例示的実施形態２に係る最適化方法の流れを示すフロー図である。本発明の例示的実施形態３に係る最適化システムの構成を示すブロック図である。本発明の例示的実施形態３に係る最適化方法の流れを示すフロー図である。本発明の適用例に係る最適化システムの構成を示すブロック図である。本発明の適用例における操作レバーの可動範囲の一例を示す模式図である。本発明の適用例に係る最適化方法の流れを示すフロー図である。本発明の適用例における参照軌道を説明するための模式図である。関連技術と本発明の適用例とを比較するためのグラフである。関連技術と本発明の適用例とを比較するための他のグラフである。関連技術と本発明の適用例とを比較するための表である。関連技術と本発明の適用例とを比較するための他の表である。関連技術に係る最適化システムの構成を示すブロック図である。図１５に示す最適化システムによる処理の流れを示すフロー図である。各例示的実施形態および適用例における各装置のハードウェア構成例を示す図である。

　〔本発明の基礎となる知見〕
　本願発明者は、非線形最適化問題を解くためのベイズ更新において、逆温度と有効サンプルサイズとの相関関係に着目することで、逆温度の適切な値を得ることができるとの知見を得た。以下、当該知見の詳細に説明する。

　まず、非特許文献１、２に記載された関連技術であるＩＴＭＰＣについて、図１５、図１６を参照して説明する。図１５は、ＩＴＭＰＣを用いて非線形最適化問題を解く最適化システム９の構成を示すブロック図である。図１６は、最適化システム９による処理の流れを示すフロー図である。

　図１５に示すように、最適化システム９は、最適化装置９０と、入力装置９３と、出力装置９４とを含む。最適化装置９０は、制御部９１と、記憶部９２と、を含む。制御部９１は、最適変数候補生成部９１１と、目的関数評価部９１２と、重み評価部９１４と、信念分布更新部９１５と、を含む。記憶部９２は、最適変数候補記憶部９２１と、目的関数値記憶部９２２と、逆温度記憶部９２４と、重み記憶部９２５と、信念分布記憶部９２６と、を含む。

　最適化システム９は、例えば、図１６に示すように動作する。ステップＳ９１において、制御部９１は、ユーザが入力装置９３を介して入力した、任意の逆温度を取得し、逆温度記憶部９２４に記録する。また、制御部９１は、ユーザが入力装置９３を介して入力した、任意の信念分布を取得し、信念分布記憶部９２６に記録する。

　次に、制御部９１は、ステップＳ９２～Ｓ９６を繰り返し実行する。ステップＳ９２において、最適変数候補生成部９１１は、信念分布記憶部９２６に記録された信念分布を元に最適変数候補を複数生成し、最適変数候補記憶部９２１に記録する。生成に用いる信念分布は、繰り返し処理の１回目は、ステップＳ９１で入力された入力初期信念分布である。また、生成に用いる信念分布は、繰り返し処理の２回目以降は、後述するステップＳ９５において更新された信念分布である。

　ステップＳ９３において、目的関数評価部９１２は、最適変数候補記憶部９２１に記録される各最適変数候補について目的関数を評価し、各評価値を目的関数値記憶部９２２に記録する。以降、目的関数を評価した評価値を、目的関数値とも記載する。また、目的関数値を、単に目的関数と記載する場合もある。

　ステップＳ９４において、重み評価部９１４は、目的関数値記憶部９２２に記録される各目的関数値と、逆温度記憶部９２４に記録される逆温度を参照し、各最適変数候補について、ベイズ更新における重み、すなわち尤度を周辺尤度で割った量、を評価し、重み記憶部９２５に記録する。

　ステップＳ９５において、信念分布更新部９１５は、重み記憶部９２５に記録される各重みと、最適変数候補記憶部９２１に記録される各最適変数候補および信念分布記憶部９２６に記録される信念分布を参照し、新たな信念分布として事後信念分布を近似計算し、信念分布記憶部９２６に記録する。

　ステップＳ９６において、制御部９１は、所定の終了条件が満たされるか否かを判断する。所定の終了条件は、ユーザによって指定されたものであってもよい。当ステップで真と判断した場合、ステップＳ９７において、制御部９１は、信念分布記憶部９２６に記録された信念分布を、出力装置９４に出力する。また、制御部９１は、当該信念分布の最頻値となる最適変数候補を、対象とする最適化問題の近似解、すなわち近似最適変数として採用し、当該近似解を出力する。

　ステップＳ９６において偽と判断した場合、制御部９１は、信念分布記憶部９２６に記録された信念分布を参照して、ステップＳ９２からの処理を繰り返す。

　ここで、ＩＴＭＰＣにおける尤度関数Ｌは次式（Ａ１）で定義される。

　式（Ａ１）において、ｖは最適変数候補であり、Ｓは目的関数である。また、λは逆温度であり、正の実数値を持つハイパーパラメータである。なお、１／λ＝βを逆温度と呼称してもよいが、本明細書では、λを逆温度と称する。尤度関数Ｌはｖが最適変数である確率であり、目的関数値がλより小さくなるほど確率が１に、λより大きくなるほど０に、指数関数的に近づく。つまり、逆温度λは、最適変数候補ｖが最適であるかどうかを決めるある種の閾値である、と解釈できる。

　また、逆温度λは、ベイズ更新１回に対する信念分布の変動量を調節するハイパーパラメータである、とも解釈できる。式（Ａ１）より、逆温度λが小さいほど変動量が大きく、λが大きいほど変動量が小さいことが示唆される。ただし、実応用上は事後信念分布を近似計算する必要があり、λが小さいほど近似精度が悪化するため、最適化方法としての正確性に欠ける。このように、逆温度λは、最適化システム９の効率性と正確性を決めるパラメータでもあり、その調節が応用上重要である。

　このようなＩＴＭＰＣの問題点は、良質な近似最適変数を得るために逆温度の調整が重要であるにも関わらず、その調整が難しい、ということである。理由は、ベイズ更新において、最適変数候補の生成結果、目的関数の内容、信念分布の形状等の、その時々の状況次第で逆温度の適切な値が異なるからである。

　ここで、逆温度が適切ではない場合、重要度サンプリングにおける有効サンプルサイズが適切でなくなる可能性が高い。例えば、逆温度λが小さすぎる場合、尤度Ｌ（ｖ）がゼロとなるサンプルが多くなり、有効サンプルサイズが小さくなる。その結果、サンプル近似によるベイズ更新に乗る誤差が大きくなる。また、例えば、逆温度λが大きすぎる場合、尤度Ｌ（ｖ）が１となるサンプルが多くなり、サンプル間の差が生じないため、ベイズ更新が進まない。

　そこで、本願発明者は、非線形最適化問題を精度よく解くためには、有効サンプルサイズ数が目標値となる逆温度λを推定し、推定した逆温度を用いればよい、との知見を得た。以下、当該知見に基づく本発明の実施形態について説明する。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　＜最適化装置１００の構成＞
　本例示的実施形態に係る最適化装置１００の構成について、図１を参照して説明する。図１は、最適化装置１００の構成を示すブロック図である。

　図１に示すように、最適化装置１００は、最適変数候補生成部１０１と、目的関数評価部１０２と、逆温度最適化部１０３と、重み評価部１０４と、信念分布更新部１０５と、を含む。最適変数候補生成部１０１によって、請求の範囲に記載した最適変数候補生成手段が実現されてもよいが、これに限られない。目的関数評価部１０２によって、請求の範囲に記載した目的関数評価手段が実現されてもよいが、これに限られない。逆温度最適化部１０３によって、請求の範囲に記載した逆温度最適化手段が実現されてもよいが、これに限られない。重み評価部１０４によって、請求の範囲に記載した重み評価手段が実現されてもよいが、これに限られない。信念分布更新部１０５によって、請求の範囲に記載した信念分布更新手段が実現されてもよいが、これに限られない。

　最適変数候補生成部１０１は、信念分布に基づき、複数の最適変数候補を生成する。目的関数評価部１０２は、複数の最適変数候補の各々について、目的関数を評価する。逆温度最適化部１０３は、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する。重み評価部１０４は、逆温度に基づき、目的関数についての重みを計算する。信念分布更新部１０５は、最適変数候補、重み、および信念分布に基づき、信念分布を更新する。

　＜最適化方法Ｍ１００の流れ＞
　以上のように構成された最適化装置１００は、本例示的実施形態に係る最適化方法Ｍ１００を実行する。最適化方法Ｍ１００の流れについて、図２を参照して説明する。図２は、最適化方法Ｍ１００の流れを示すフロー図である。図２に示すように、最適化方法Ｍ１００は、ステップＳ１００１～Ｓ１００５を含む。

　ステップＳ１００１において、最適変数候補生成部１０１は、信念分布に基づき、複数の最適変数候補を生成する。ステップＳ１００２において、目的関数評価部１０２は、複数の最適変数候補の各々について、目的関数を評価する。ステップＳ１００３において、逆温度最適化部１０３は、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する。ステップＳ１００４において、重み評価部１０４は、逆温度に基づき、目的関数についての重みを計算する。ステップＳ１００５において、信念分布更新部１０５は、最適変数候補、重み、および信念分布に基づき、信念分布を更新する。

　＜プログラムによる実現例＞
　最適化装置１００をコンピュータによって構成する場合、当該コンピュータが参照するメモリには、以下のプログラムが記憶される。当該プログラムは、コンピュータを最適化装置１００として機能させるためのプログラムであって、コンピュータを、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成部１０１と、複数の最適変数候補の各々について、目的関数を評価する目的関数評価部１０２と、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化部１０３と、逆温度に基づき、目的関数についての重みを計算する重み評価部１０４と、最適変数候補、重み、および信念分布に基づき、信念分布を更新する信念分布更新部１０５と、として機能させる。

　コンピュータが当該プログラムをメモリから読み込んで実行することにより、上述した最適化方法Ｍ１００が実現される。

　＜本例示的実施形態の効果＞
　以上のように、本例示的実施形態によれば、信念分布に基づき、複数の最適変数候補を生成し、複数の最適変数候補の各々について、目的関数を評価し、入力された目標有効サンプルサイズと、目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出し、逆温度に基づき、目的関数についての重みを計算し、最適変数候補、重み、および信念分布に基づき、信念分布を更新する、との構成が採用されている。

　このため、非線形最適化問題において用いる逆温度をより適切な値に調整することができる、との効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜最適化システム１の構成＞
　本例示的実施形態に係る最適化システム１の構成について、図３を参照して説明する。図３は、最適化システム１の構成を示すブロック図である。図３に示すように、最適化システム１は、最適化装置１０と、入力装置１３と、出力装置１４とを含む。最適化装置１０は、制御部１１と、記憶部１２とを含む。

　制御部１１は、最適化装置１０の各部を制御する。また、制御部１１は、最適変数候補生成部１１１と、目的関数評価部１１２と、逆温度最適化部１１３と、重み評価部１１４と、信念分布更新部１１５と、を備える。また、制御部１１は、記憶部１２を制御し、記憶部１２内のデータの参照および記憶部１２へのデータの記録を行う。

　記憶部１２は、最適変数候補記憶部１２１と、目的関数値記憶部１２２と、目標有効サンプルサイズ記憶部１２３と、逆温度記憶部１２４と、重み記憶部１２５と、信念分布記憶部１２６と、を備える。

　入力装置１３は、ユーザによる入力操作を受け付ける。入力装置１３は、例えば、キーボード、マウス、またはタッチパッド等であってもよいが、これらに限られない。例えば、入力装置１３は、目標有効サンプルサイズと、初期信念分布とを示す情報を入力する操作を受け付ける。

　出力装置１４は、制御部１１の制御のもとに情報を出力する。出力装置１４は、例えば、液晶ディスプレイ、またはスピーカ等であってもよいが、これらに限られない。例えば、出力装置１４は、制御部１１が最終的に算出した信念分布を示す情報を出力する。

　最適変数候補生成部１１１は、信念分布記憶部１２６内の信念分布を元に、複数の最適変数候補を生成し、最適変数候補記憶部１２１に記録する。なお、最適変数候補生成部１１１は、入力装置１３から入力された初期信念分布、または、信念分布更新部１１５により更新された信念分布に基づき、複数の最適変数候補を生成する。例えば、初期信念分布は、後述するループ処理の初回において、複数の最適変数候補を生成するために参照される。また、更新された信念分布は、当該ループ処理の２回目以降において、複数の最適変数候補を生成するために参照される。

　目的関数評価部１１２は、最適変数候補記憶部１２１内の各最適変数候補について目的関数を評価し、目的関数値記憶部１２２に記録する。

　逆温度最適化部１１３は、目標有効サンプルサイズ記憶部１２３内の、入力装置１３から入力された目標有効サンプルサイズと、重みの有効サンプルサイズが同程度となるような逆温度を最適化手法で算出し、逆温度記憶部１２４に記録する。ここで、目標有効サンプルサイズと、重みの有効サンプルサイズが同程度であるとは、例えば、これらが等しいことであってもよい。また、同程度であるとは、例えば、これらの差が所定範囲内であることであってもよい。ただし、同程度であるとは、これらに限られない。

　重み評価部１１４は、目的関数値記憶部１２２内の各目的関数値についての重みを、逆温度記憶部１２４内の逆温度を元に評価し、重み記憶部１２５に記録する。

　信念分布更新部１１５は、最適変数候補記憶部１２１内の各最適変数候補と、重み記憶部１２５内の各重みと、信念分布記憶部１２６内の信念分布を元に、事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部１２６に記録する。

　＜最適化方法Ｍ１０の流れ＞
　以上のように構成された最適化システム１は、本例示的実施形態に係る最適化方法Ｍ１０を実行する。最適化方法Ｍ１０の流れについて、図４を参照して説明する。図４は、最適化方法Ｍ１０の流れを示すフロー図である。図４に示すように、最適化方法Ｍ１０は、ステップＳ１～Ｓ８を含む。

　ステップＳ１において、制御部１１は、入力装置１３を介して、目標有効サンプルサイズ、および初期信念分布の入力を受け付ける。また、制御部１１は、取得した目標有効サンプルサイズを、目標有効サンプルサイズ記憶部１２３に記録する。また、制御部１１は、取得した初期信念分布を、信念分布記憶部１２６に記録する。

　以降、制御部１１は、ステップＳ２～Ｓ８を繰り返す。ステップＳ２～Ｓ８の処理を、ループ処理とも記載する。

　ステップＳ２において、最適変数候補生成部１１１は、信念分布を元に、複数の最適変数候補を生成する。なお、初回のループ処理では、生成に用いる信念分布は、信念分布記憶部１２６内の初期信念分布である。また、２回目以降のループ処理では、生成に用いる信念分布は、前回のループ処理のステップＳ７で更新された信念分布である。なお、更新された信念分布は、信念分布記憶部１２６に記録されている。また、最適変数候補生成部１１１は、生成した複数の最適変数候補を、最適変数候補記憶部１２１に記録する。

　ステップＳ３において、目的関数評価部１１２は、最適変数候補記憶部１２１内の各最適変数候補について目的関数を評価し、評価結果である目的関数値を、目的関数値記憶部１２２に記録する。

　ステップＳ４において、逆温度最適化部１１３は、目標有効サンプルサイズ記憶部１２３内の目標有効サンプルサイズと、重みの有効サンプルサイズが等しくなるような逆温度を最適化手法で算出し、逆温度記憶部１２４に記録する。

　ステップＳ５において、重み評価部１１４は、目的関数値記憶部１２２内の各目的関数値についての重みを、逆温度記憶部１２４内の逆温度を元に評価し、重み記憶部１２５に記録する。

　ステップＳ６において、信念分布更新部１１５は、最適変数候補記憶部１２１内の各最適変数候補と、重み記憶部１２５内の各重みと、信念分布記憶部１２６内の信念分布を元に、事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部１２６に記録する。なお、初回のループ処理では、事後信念分布を近似計算する元になる信念分布は、信念分布記憶部１２６内の初期信念分布である。また、２回目以降のループ処理では、事後信念分布を近似計算する元になる信念分布は、前回のループ処理の当該ステップで更新した信念分布である。

　ステップＳ７において、制御部１１は、所定の終了条件が満たされたか否かを判断する。所定の終了条件は、ユーザによって指定された終了条件であってもよい。

　ステップＳ７で真と判断した場合、ステップＳ８において、制御部１１は、信念分布を出力装置１４に出力し、最適化方法Ｍ１０を終了する。

　ステップＳ７で偽と判断した場合、制御部１１は、更新された信念分布を元に、ステップＳ２～Ｓ８のループ処理を繰り返す。

　＜本例示的実施形態の効果＞
　本例示的実施形態によれば、逆温度最適化部１１３が、目標有効サンプルサイズと、重みの有効サンプルサイズが同程度となるよう逆温度を算出する、との構成が採用されている。

　これにより、有効サンプルサイズを固定できるため、事後信念分布の近似計算で生じるサンプリング誤差の大きさを調節することができ、安定した更新を行うことができる。また、上記サンプリング誤差が許容できる範囲において、目標有効サンプルサイズを可能な限り小さく取ることで、更新の安定性と効率性の両方をバランス良く担保できる。あるいは、より大きく目標有効サンプルサイズを取ることで、更新の安定性を重視することもできる。総じて、有効サンプルサイズを固定するように逆温度を自動調整することで、逆温度の調整困難性を改善することができる。

　また、本例示的実施形態によれば、最適変数候補生成部１１１は、入力装置１３から入力された初期信念分布、または、信念分布更新部１１５により更新された信念分布に基づき、複数の最適変数候補を生成する、との構成が採用されている。

　このため、本例示的実施形態によれば、例示的実施形態１と同様の効果に加えて、信念分布を更新する度に、更新に用いる重みを計算するための逆温度を適切な値に調整することができる、との効果を奏する。

　〔例示的実施形態３〕
　本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

　＜最適化システム２の構成＞
　本例示的実施形態に係る最適化システム２の構成について、図５を参照して説明する。図５は、最適化システム２の構成を示すブロック図である。図５に示すように、最適化システム２は、最適化装置２０と、入力装置１３と、制御対象２５と、状態観測装置２６とを含む。最適化装置２０は、制御部２１と、記憶部１２とを含む。記憶部１２については、例示的実施形態２で説明した通りである。制御部２１は、例示的実施形態２における制御部１１とほぼ同様に構成されるが、目的関数評価部１１２に替えて目的関数評価部２１２を含む点と、新たに制御入力変換部２１６および信念分布加工部２１７を含む点とが異なる。

　目的関数評価部２１２は、基本的に目的関数評価部１１２と同様に構成されるが、状態観測装置２６が観測する制御対象２５の状態に依存した目的関数を、複数の最適変数候補の各々について評価する。例えば、目的関数評価部２１２は、観測装置２４から送信される制御対象２５の状態の情報を用いて、複数の最適変数候補の各々について目的関数を評価してもよい。なお、当該制御対象２５について複数の状態が観測される場合、目的関数評価部２１２は、ユーザの使用目的に応じた状態を用いて目的関数を評価してもよい。ユーザの使用目的は、ユーザの入力により指定されてもよい。

　制御入力変換部２１６は、信念分布更新部１１５が信念分布記憶部１２６に記録した信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象２５に送信する。ここで、変換規則は、ユーザの使用目的に応じて異なり得る。例えば、所定の変換規則は、ユーザの入力によって指定された変換規則であってもよい。また、制御入力は、制御対象２５を制御するために入力される情報である。例えば、制御入力は、信念分布の最頻値を得る最適変数候補であってもよい。

　制御対象２５は、制御入力変換部２１６からの制御入力を受信し、その制御入力に従って動作する。制御対象２５は、任意の制御可能な装置またはシステムを指し、例えば、ロボット、自動車、ショベルカー、船、化学プラントシステム、電力プラントシステム、トレーディングシステム等であるが、これらに限られない。なお、制御対象２５は、受信した制御入力に応じて自律的に自装置を制御する機能を有していてもよい。また、制御対象２５は、オペレータの操作によって自装置を制御する機能を有していてもよい。この場合、オペレータは、制御対象２５が受信した制御入力に従って制御対象２５を制御してもよい。

　状態観測装置２６は、制御対象２５の状態を観測し、観測した状態を目的関数評価部２１２に送信する。

　信念分布加工部２１７は、信念分布更新部１１５が信念分布記憶部１２６に記録した信念分布を、次回の一連の処理、すなわち、最適変数候補生成部１１１と、目的関数評価部１１２と、逆温度最適化部１１３と、重み評価部１１４と、信念分布更新部１１５によるループ処理のために加工し、信念分布記憶部１２６に記録する。このような加工は、例えば、最適変数の定義を修正する必要があり、その修正された最適変数に対応する信念分布を用意しなければならない時に行われる。なお、信念分布加工部２１７は、ユーザの使用目的に応じて当該信念分布を加工してもよい。ユーザの使用目的は、ユーザの入力により指定されてもよい。

　＜最適化方法Ｍ２０の流れ＞
　以上のように構成された最適化システム２は、本例示的実施形態に係る最適化方法Ｍ２０を実行する。最適化方法Ｍ２０の流れについて、図６を参照して説明する。図６は、最適化方法Ｍ２０の流れを示すフロー図である。

　最適化方法Ｍ２０は、以下の点で、例示的実施形態２に係る最適化方法Ｍ１０と異なる。

　１点目は、ステップＳ１の実行後、ステップＳ２の実行前に、ステップＳ１００～Ｓ１０１を実行する点である。２点目は、ステップＳ７で真と判断した場合に、ステップＳ８を実行する代わりにステップＳ１０８～Ｓ１１０を実行する点である。以下では、最適化方法Ｍ１０と異なるこれらのステップについて説明し、同一のステップについては説明を繰り返さない。

　ステップＳ１００において、状態観測装置２６は、制御対象２５の状態を観測し、観測した状態を目的関数評価部２１２に送信する。

　ステップＳ１０１において、制御部２１は、制御終了条件を満たすか否かを判断する。制御終了条件は、ユーザの入力により指定されたものであってもよい。

　ステップＳ１０１で偽と判断した場合、最適化システム２は、ステップＳ２からのループ処理を実行する。ステップＳ１０１で真と判断した場合、最適化システム２は、最適化方法Ｍ２０を終了する。

　なお、ステップＳ１００で複数の状態が観測される場合、ユーザの使用目的に応じた状態が、ステップＳ３にて、目的関数評価部２１２による目的関数評価時に用いられる。

　ステップＳ１０８において、制御入力変換部２１６は、信念分布を制御入力に変換する。

　ステップＳ１０９において、制御入力変換部２１６は、変換した制御入力を、制御対象２５に送信する。

　ステップＳ１１０において、信念分布加工部２１７は、信念分布更新部１１５により更新された信念分布をユーザの使用目的に応じて加工し、信念分布記憶部１２６に記録する。例えば、ユーザの使用目的は、ユーザの入力により指定される。

　＜本例示的実施形態の効果＞
　本例示的実施形態によれば、例示的実施形態１、２と同様の構成に加えて、状態観測装置２６が観測する制御対象２５の状態に依存した目的関数を、複数の最適変数候補の各々について評価する、との構成が採用されている。また、本例示的実施形態によれば、更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象２５に送信する、との構成が採用されている。また、本例示的実施形態によれば、あるステップにおいて更新された信念分布を、次ステップにおける、最適変数候補生成部１１１、目的関数評価部２１２、逆温度最適化部１１３、重み評価部１１４、および信念分布更新部１１５によるループ処理のために加工する、との構成が採用されている。

　換言すると、本例示的実施形態によれば、制御入力変換部２１６が、信念分布更新部１１５が更新した信念分布を元に、ユーザ指定の変換規則に従って算出した制御入力を制御対象２５に送信し、制御対象２５がその制御入力に従って動作するようにしている。加えて、状態観測装置２６によって制御対象２５の状態を観測し、観測した状態を目的関数評価部２１２に送信し、信念分布加工部２１７によって、上記更新された信念分布を、次回の一連の最適化処理のためにユーザの使用目的に応じて加工するようにもしている。

　このため、本例示的実施形態によれば、最適化システム２のユーザは、逆温度の自動調整を有する最適制御、モデル予測制御、オンライン最適化等を実施することができる、との効果を奏する。

　特に、これらの用途においては、一般的に制御対象２５の状態変化に伴い、目的関数および目的変数の変化が生じるため、適切な逆温度を手動で設定することが一層難しくなる。これに対して、本例示的実施形態では、このような変化に対しても、常に重みの有効サンプルサイズが一定になるよう逆温度が自動調整されるので、ベイズ更新の効率性と安定性を一定に保つことができる。

　〔例示的実施形態３の適用例〕
　以下では、例示的実施形態３の適用例である最適化システム２Ａについて説明する。最適化システム２Ａは、上述した最適化システム２Ａにおける制御対象２５として、油圧式ショベルカーＭＶを適用した例である。例えば、最適化システム２Ａは、油圧式ショベルカーＭＶのバケットＢによる土慣らし動作の自動化に活用することができる。

　＜最適化システム２Ａの構成＞
　本適用例に係る最適化システム２Ａの構成について、図７を参照して説明する。図７は、最適化システム２Ａの構成を示すブロック図である。図７に示すように、最適化システム２Ａは、最適化システム２とほぼ同様に構成されるが、制御対象２５として油圧式ショベルカーＭＶを含む。

　また、本適用例では、最適化装置２０が、コンピュータにより構成される例について説明する。最適化装置２０を構成するコンピュータは、少なくともプロセッサ、メモリおよびネットワークインタフェースを備える。最適化装置２０は、読取装置、磁気記憶装置等を備える場合もある。読取装置は、ＵＳＢ（Universal Serial Bus）メモリ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等のコンピュータで読み取り可能な記録媒体を読み取るための装置である。

　制御部２１は、プロセッサによって構成される。制御部２１は、ネットワークインタフェースから受信したプログラムコードをメモリ上に展開し、あるいは、記録媒体又は磁気記憶装置などに記憶されたプログラムコードを読み出してメモリ上に展開する。そして、プロセッサは、展開されたプログラムコードをプロセッサが解釈実行することで、最適変数候補生成部１１１、目的関数評価部２１２、逆温度最適化部１１３、重み評価部１１４、信念分布更新部１１５、制御入力変換部２１６、および信念分布加工部２１７、としてコンピュータを機能させる。

　例えば、最適化装置２０は、いわゆるパーソナルコンピュータ（以下、ＰＣと記載）である。このＰＣは、クロック周波数が３．２０［ＧＨｚ（ギガヘルツ）］のＣＰＵ（central processing unit）、およびＮＶＩＤＩＡＣＵＤＡコア１０４９６個を備えるＧＰＵ（Graphical Processing Unit）を備えている。

　記憶部１２は、例えば、最適化装置２０に備えられたメモリ、磁気記憶装置によって構成される。記憶部１２は、最適変数候補記憶部１２１と、目的関数値記憶部１２２と、目標有効サンプルサイズ記憶部１２３と、逆温度記憶部１２４と、重み記憶部１２５と、信念分布記憶部１２６を備える。本適用例では、記憶部１２は、１６［ＧＢ（ギガバイト）］の記憶容量を備えるＧＰＵメモリである。

　入力装置１３は、最適化装置２０に接続されたキーボード、マウス、またはタッチパッド等である。

　油圧式ショベルカーＭＶは、遠隔操縦システムを備える。以下、油圧式ショベルカーＭＶを、単にショベルカーＭＶとも記載する。この遠隔操縦システムは、例えばＷｉＦｉ（登録商標）等の無線通信により最適化装置２０と接続している。遠隔操縦システムは、最適化装置２０からの制御入力を受信し、その制御入力に従ってショベルカーＭＶの操作レバーを遠隔操作する。

　本適用例における操作レバーの可動範囲を、図８を参照して説明する。図８は、操作レバーの可動範囲の一例を示す模式図である。図８では、ショベルカーＭＶのバケット、アーム、およびブームが回転動作可能な回転面における水平方向をＸ軸とし、垂直方向をＹ軸とするＸＹ座標系を定義している。図８に示すように、ショベルカーＭＶは、バケットＢおよび図示しない操作レバーを有する。操作レバーの可動範囲は、ショベルカーＭＶのバケット軸ａ１、アーム軸ａ２、ブーム軸ａ３周りの回転動作に対応する範囲に限定される。各軸の回転動作の方向および強弱は操作レバーの傾きで決まるので、制御入力により操作レバーの傾き加減を指定する。便宜のため、任意の自然数で表される離散時間ｔにおける制御入力ｕ_ｔを下記の式（１）のように定義する。

　各成分は、操作レバーの、バケット軸ａ１、アーム軸ａ２、ブーム軸ａ３回りの回転動作に対応する傾きを表し、－１．０から１．０までの数値で表される。なお、値の正負は、回転動作の方向（操作レバーを傾ける方向）を表す。また、値の絶対値は、傾き加減を表す。例えば、値がゼロである場合は、傾斜が無いことを表す。また、値が１である場合は、傾斜が最大であることを表す。また、制御周期は８０ミリ秒とする。

　状態観測装置２６は、ショベルカーＭＶの状態を観測し、観測した状態を最適化装置２０に送信する。本適用例では、状態観測装置２６は、ショベルカーＭＶに備えられた慣性計測装置（以下、ＩＭＵと記載）である。ＩＭＵは、離散時間ｔにおいて、ショベルカーＭＶの関節角度、すなわち、図８に示す３つの角度θｂｕｃｋｅｔ、θａｒｍ、θｂｏｏｍを観測する。θｂｕｃｋｅｔは、バケット軸ａ１回りの角度を示す。θａｒｍは、アーム軸ａ２回りの角度を示す。θｂｏｏｍは、ブーム軸ａ３回りの角度を示す。本適用例では、これらの３つの角度を、離散時間ｔにおけるショベルカーＭＶの状態ｘ_ｔとして定義し、下記の式（２）のように表す。

　また、観測周期は制御周期に同期しており、制御入力タイミングの直後が観測タイミングとなるようにする。以下、特に断りのない限り、角度は全て［ｄｅｇ．］の単位とする。

　＜最適化方法Ｍ２０Ａの流れ＞
　以上のように構成された最適化システム２Ａは、最適化方法Ｍ２０Ａを実行する。最適化方法Ｍ２０Ａは、最適化方法Ｍ２０を、ショベルカーＭＶを対象として実行した具体例である。最適化方法Ｍ２０Ａについて、図９を参照して説明する。図９は、最適化方法Ｍ２０Ａの流れを示すフロー図である。以下、各ステップの詳細について説明する。なお、最適化方法Ｍ２０と同様の説明については詳細を繰り返さず、異なる点を中心に説明する。

　ステップＳ１において、ユーザは、入力装置１３を用いて、目標有効サンプルサイズおよび初期信念分布を入力する。ここでは、目標有効サンプルサイズとしてNefftarget = 300が入力されたとする。

　ステップＳ１００において、状態観測装置２６はショベルカーＭＶの状態を観測する。

　ステップＳ１０１において判定される制御終了条件は、観測された状態ｘ_ｔが、参照軌道の最終目標座標に到達した場合に真であるとする。参照起動および目標座標の詳細については後述する。

　ここで、信念分布を定義するために、まず目的変数を定義する。本適用例では、モデル予測制御における予測ホライズンH = 20とし、目的変数を現在離散時間tからｔ＋H－1までのHステップ分の制御入力と定義し、下記の式（３）のように表記する。

　以後、制御入力に限らず他の変数についても、Hステップ先までの各時刻の変数を含むことを表すために「離散時刻：ステップ数」で表す。ここで、信念分布を下記の式（４）のような、多変量ガウス分布で定義する。

　ここで、vt:Hは最適変数候補である。dはutの次元数で、本適用例ではd = 3である。Σはd次元の共分散行列である。本適用例では、初期信念分布としてut:Hの成分を全て0とし、Σの非対角成分を全て0、対角成分を全て0.09に設定する。

　ステップＳ２において、最適変数候補生成部１１１は、信念分布記憶部１２６内の、初回は入力装置１３で与えられた初期信念分布、それ以降のループ処理では信念分布更新部１１５によって更新された信念分布を元に、最適変数候補を複数生成し、最適変数候補記憶部１２１に記録する。本適用例では、最適変数候補生成数K=64000として、モンテカルロサンプリング（MCサンプリング）を用いて最適変数候補を生成する。

　ステップＳ３において、目的関数評価部２１２は、最適変数候補記憶部１２１内の各最適変数候補について目的関数を評価し、目的関数値記憶部１２２に記録する。本適用例における目的関数は、現在の状態ｘ_ｔからvt:Hの制御入力を順次実行した時の状態の推移（軌道）を予想し、予想した軌道について評価する。まず、状態遷移関数は、下記の式（５）のようにモデル化される。

　f(xt, vt)は例えば、全結合ニューラルネットワークで、ノード数64を持つ全結合層を２層で構成され、tanh関数を活性化関数として使用するモデルである。この状態遷移モデルを再帰的に用いることで、xtとvt:Hから、xt+1:Hが算出される。モデルパラメータは、予めショベルカーＭＶの運転データを用いて訓練済みであるとする。このxt+1:Hとvt:Hについての総コスト関数を、下記の式（６）のように定義する。

　ここでcは即時コスト関数である。本適用例では軌道追従型の制御システムを構築するため、即時コスト関数を下記の式（７）のように定義する。

　ここでpx,s+1, py,s+1, pθ,s+1は、離散時刻s+1における、図８に示すバケットＢの先端点PのＸ,Ｙ座標[m]および方位角である。px,s+1, py,s+1, pθ,s+1は、ショベルカーの構造からθs+1を元に幾何学的に算出される。prefx,s+1, prefy,s+1, prefθ,s+1は、離散時刻s+1における目標座標である。

　本適用例における参照軌道について、図１０を参照して説明する。図１０は、参照軌道を説明するための模式図である。図１０に示すように、バケットＢの先端Pの地平面からの高さを維持しながら、常にバケットＢの刃を水平方向に保ちつつ水平移動するように構築される。例えば、参照軌道は、バケットＢの先端Pの地平面からの高さ0.89mを維持しながら、ショベルカーＭＶの旋回軸からＸ軸方向に0.63m、1.43mの間を水平移動するように構築される。なお、図１０の各矢印は参照軌道を構成する目標座標を表し、矢印先端がprefx, prefyを表し、矢印の方向がprefθを表す。なお、急発進、急停止を避けるため、加速・等速・減速の３フェーズを持つように目標座標の配置が調整される。また、図１０は、前方向に水平移動するタスクの例だが、後ろ方向タスク用の参照軌道についても、同様の考え方で構築される。ax, ay, aθは、各項のコストの重みを決める係数であり、本適用例ではそれぞれ10000, 10000, 10とする。上記のような総コスト関数と状態遷移関数の合成関数を、本適用例における目的関数Sと定義する。

　ステップＳ４において、逆温度最適化部１１３は、目標有効サンプルサイズ記憶部１２３内の目標有効サンプルサイズNefftargetと、重みの有効サンプルサイズが等しくなるような逆温度λを最適化手法で算出し、逆温度記憶部１２４に記録する。各最適変数候補についての重みは、尤度を周辺尤度で割った値なので、下記の式（８）のようになる。

　ここでS(vt:H(k))は、ステップＳ３において、k番目の最適変数候補について評価された目的関数値である。Sminは、全K個の目的関数値における最小の値であり、数値計算の精度を改善するために加えている。本適用例では、下記の式（９）の、Kishの近似有効サンプルサイズを有効サンプルサイズとして採用する。

　ここで記号上部の横棒は、K個の全重みについての算術平均を表す。本適用例では、逆温度最適化部１１３は、非線形最適化の一種であるブレント法を用いて、下記の式（１０）の目的関数を最小化することで、Neff（λ）=Nefftargetとなるようなλを算出し、逆温度記憶部１２４に記録する。

　ステップＳ５において、重み評価部１１４は、目的関数値記憶部１２２内の各目的関数値についての重み（式（８））を、逆温度記憶部１２４内の逆温度を元に評価し、重み記憶部１２５に記録する。

　ステップＳ６において、信念分布更新部１１５は、最適変数候補記憶部１２１内の各最適変数候補と、重み記憶部１２５内の各重みと、信念分布記憶部１２６内の信念分布を元に、モーメント一致法で事後信念分布を近似計算し、これを新たな信念分布として信念分布記憶部１２６に記録する。モーメント一致法を用いるため、近似事後信念分布も式（４）のようなガウス分布になり、その平均パラメータ（制御入力）のut:Hが下記の式（１１）のように更新される。

　上記更新後、ユーザ指定の終了条件を満たさない場合（ステップＳ７・偽の分岐）は、ステップＳ２からＳ６までの一連のループ処理が再度実施される。本適用例の終了条件は、ステップＳ１００からの経過時間がステップＳ７の条件確認の時点で６０ミリ秒以上である場合に真であるとする。つまり、時間の猶予がある限りは、更新が繰り返される。

　一方、ユーザ指定の終了条件を満たす場合（ステップＳ７・真の分岐）には、ステップＳ１０８が実行される。ステップＳ１０８において、制御入力変換部２１６は、ステップＳ６で更新された信念分布を制御入力に変換する。当該変換は下記の通り行われる。

　本適用例では信念分布がガウス分布なので、確率密度が最大となる最適変数候補がガウス分布の平均パラメータut:Hに一致し、すなわちut:Hが最も有望な最適変数候補である。本適用例ではモデル予測制御への応用を想定している。そこで、ステップＳ１０９において、制御入力変換部２１６は、最適変数候補の最初の時刻の要素、つまり離散時刻tの要素utのみを取り出し、これをショベルカーＭＶに送信する。

　ステップＳ１１０において、信念分布加工部２１７は、信念分布を加工し、信念分布記憶部１２６に記録する。そして、再びステップＳ１００からのループ処理が繰り返される。本適用例では、モデル予測制御への応用を想定している。そのため、タイムステップを一つずらした信念分布、すなわち離散時刻t+1からt+Hの制御入力についての信念分布への加工が行われる。まず離散時刻t+1からt+H-1の要素については、ut:Hの離散時刻t+1からt+H-1の要素をそのまま採用する。t+Hの要素は初期信念分布を設定した時と同様に、3次元の0ベクトルを採用する。このように構成したut+1:Hを次回の初期信念分布のパラメータとして採用する。なお、ループ処理によりステップＳ１００に移行する際はt←t+1とする。

　＜本適用例の効果＞
　本適用例の効果について、図１１、図１２のグラフ、および図１３、図１４の表を参照して説明する。図１１～図１４は、逆温度を固定した場合（非特許文献１および２の関連技術）と、逆温度を自動調整した場合（本適用例）とにおける制御システムとしての性能を比較するための図および表である。また、図１１のグラフおよび図１３の表は、バケットＢの先端Pを前方向に水平移動させるタスクについて評価したものである。また、図１２のグラフおよび図１４の表は、バケットＢの先端Pを後ろ方向に水平移動させるタスクについて評価したものである。

　本性能評価はショベルカーＭＶのシミュレーションによって行い、以下の各設定について300回の試行を元に、平均値と1σ信頼区間を算出した。なお、図１３、図１４の表において1σ信頼区間は丸括弧で表記している。設定は合計8種であり、λ=30, 100, 300, 1000で固定した場合と、本適用例のように逆温度を自動調整する際のNefftarget＝30, 100, 300, 1000にした場合について実験を行った。図１１、図１２のグラフおよび図１３、図１４の表において、上記設定をそれぞれlam30, lam100, lam300, lam1000, ess30, ess100, ess300、ess1000と表記することにする。

　なお、本シミュレーションでは、疑似的なパルス型の外乱を20タイムステップ毎に加算する。このパルス型の外乱は、外乱が発生する離散時刻tにおいて、(θbucket,t, θarm,t, θboom,t) の値に (+4.5, -4.5, +7.5)[deg.]の量だけ変化させる。この外乱は事前に予知できないものと仮定して、目的関数評価部２１２における軌道推定時において外乱を考慮できない設定とする。つまり、外乱が発生する際は必ず予想していた軌道から大きくずれるため、信念分布を迅速かつ正確に修正することが要求される。

　図１１、図１２のグラフおよび図１３、図１４の表におけるFailure Rate（失敗率）は、目標座標と現在の座標との差分(|px-prefx|, |py-prefy|, |pθ-prefθ|) について、いずれかが (0.1m, 0.1m, 10deg.)を超えた際に失敗とみなし、その時点でタスクを終了する。主に失敗は、外乱発生後に、信念分布を迅速かつ正確に修正できない場合に生じやすい。なお、ess300、ess1000については、全試行300回中に１回も失敗しなかったため、図１１、図１３において失敗率は0と表記することとする。Regret（後悔）は、最適な制御則に対する総コストの差分を表す。ただし、本タスク設定における最適な制御則を予め知ることは難しいため、本評価では全設定全試行の中で最も低かった総コストからの差分を表すことにする。なお、後悔は、失敗しなかったタスクについてのみ評価する。このため、失敗率の高い設定においてはサンプルサイズが小さくなるため、1σ信頼区間が大きくなっている。また、図１３、図１４の表において、網掛けの文字および斜線パターンの文字は、失敗率、後悔の各カテゴリーにおけるトップ２および３～４位を表す。

　図１１、図１２のグラフおよび図１３、図１４の表に示される結果によれば、失敗率、後悔の観点で、前方向・後ろ方向タスクの両方共に優れている設定は全体的にess系であり、特にess300又はess1000は両タスクの失敗率、後悔の観点で共にトップ２の性能であることが分かる。

　前方向タスクにおいては、lam系の設定における最小の失敗率が3%であるのに対し、ess系の設定は全て3%以下であり、特にess300、ess1000は0%である。後悔についても、lam系での最小の後悔（lam300、15,933）に対し、ess系での最小の後悔（ess1000、13,933）は約1.14倍改善している。

　後ろ方向タスクにおいては、lam系の設定における最小の失敗率1.7%であるのに対し、ess300、ess1000は1%, 0.7%である。後悔についても、lam系での最小の後悔（lam300、92,227）に対し、ess系での最小の後悔（ess300、35,655）は約2.59倍改善している。

　また、ess系の目標有効サンプルサイズが増加するに従い、失敗率が減少する傾向があることも分かる。この傾向は、本適用例の最適化システム２Ａにおいては、目標有効サンプルサイズが増加するにつれ、サンプリング誤差が減少するからである。また、上記サンプリング誤差が許容できる範囲において、目標有効サンプルサイズを可能な限り小さく取ることで、更新の安定性と効率性の両方をバランス良く担保でき、ess300のように失敗率を低く保ちながら後悔も小さくすることができた。あるいは、より大きく目標有効サンプルサイズを取ることで、更新の安定性を重視することもでき、ess1000のように失敗率をより低くすることもできた。総じて、本適用例の最適化システム２Ａは、モデル予測制御の応用として活用でき、かつ、有効サンプルサイズを一定に保つように逆温度を自動調整することで、逆温度の調整困難性を改善することができた。

　以上、これまで述べてきた各例示的実施形態および適用例は、本発明の好適な実施形態であり、各例示的実施形態および適用例のみに本発明の範囲を限定する物ではなく、本発明の要旨を逸脱しない範囲において諸々の変更を施した形態での実施が可能である。

　〔ソフトウェアによる実現例〕
　最適化装置１０、２０の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、最適化装置１０、２０は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１７に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを最適化装置１０、２０として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、最適化装置１０、２０の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
　前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
　前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
　前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
　を備える最適化装置。

　（付記２）
　前記最適変数候補生成手段は、入力された初期信念分布、または前記信念分布更新手段により更新された信念分布に基づき、前記複数の最適変数候補を生成する、
付記１に記載の最適化装置。

　（付記３）
　前記目的関数評価手段は、状態観測装置が観測する制御対象の状態に依存した前記目的関数を、前記複数の最適変数候補の各々について評価する
付記１または２に記載の最適化装置。

　（付記４）
　前記信念分布更新手段により更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象に送信する制御入力変換手段、
をさらに備えている付記１から３の何れか１つに記載の最適化装置。

　（付記５）
　あるステップにおいて前記信念分布更新手段により更新された信念分布を、次ステップにおける、前記最適変数候補生成手段、前記目的関数評価手段、前記逆温度最適化手段、前記重み評価手段、および前記信念分布更新手段による処理のために加工する信念分布加工手段、
をさらに備えている付記１から４の何れか１つに記載の最適化装置。

　（付記６）
　信念分布に基づき、複数の最適変数候補を生成することと、
　前記複数の最適変数候補の各々について、目的関数を評価することと、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、
　前記逆温度に基づき、前記目的関数についての重みを計算することと、
　前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、
　を含む最適化方法。

　（付記７）
　前記複数の最適変数候補を生成する工程の前に、
　目標有効サンプルサイズおよび初期信念分布の入力を受け付けること、
をさらに含む付記６に記載の最適化方法。

　（付記８）
　前記更新する工程の後に、
　所定の終了条件を満たす場合に、前記更新後の信念分布を出力することと、
　所定の終了条件を満たさない場合に、前記複数の最適変数候補を生成する工程からループ処理を実行することと、
をさらに含む付記６または７に記載の最適化方法。

　（付記９）
　コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、
　信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
　前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
　前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
　前記最適変数候補、前記重み、および前記信念分布に基づき、信念分布を更新する信念分布更新手段と、
として機能させるプログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成処理と、
　前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価処理と、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化処理と、
　前記逆温度に基づき、前記目的関数についての重みを計算する重み評価処理と、
　前記最適変数候補、前記重み、および前記信念分布に基づき、信念分布を更新する信念分布更新処理と、を実行する最適化装置。

　なお、この最適化装置は、更にメモリを備えていてもよく、このメモリには、前記最適変数候補生成処理と、前記目的関数評価処理と、前記逆温度最適化処理と、前記重み評価処理と、前記信念分布更新処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１、２、２Ａ、９　最適化システム
１０、２０、９０、１００　最適化装置
１１、２１、９１、９１１　制御部
１２、９２
１３、９３　入力装置
１４、９４　出力装置
２４　観測装置
１２５、９２５　重み記憶部
２５　制御対象
２６　状態観測装置
１０１、１１１、９１１　最適変数候補生成部
１０２、１１２、２１２、９１２　目的関数評価部
１０３、１１３　逆温度最適化部
１０４、１１４、９１４　重み評価部
１０５、１１５、９１５　信念分布更新部
１２１、９２１　最適変数候補記憶部
１２２、９２２　目的関数値記憶部
１２３　目標有効サンプルサイズ記憶部
１２４、９２４　逆温度記憶部
１２６、９２６　信念分布記憶部
２１６　制御入力変換部
２１７　信念分布加工部
Ｃ１　プロセッサ
Ｃ２　メモリ

Claims

　信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
　前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
　前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
　前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
　を備える最適化装置。
　前記最適変数候補生成手段は、入力された初期信念分布、または前記信念分布更新手段により更新された信念分布に基づき、前記複数の最適変数候補を生成する、
請求項１に記載の最適化装置。
　前記目的関数評価手段は、状態観測装置が観測する制御対象の状態に依存した前記目的関数を、前記複数の最適変数候補の各々について評価する
請求項１または２に記載の最適化装置。
　前記信念分布更新手段により更新された信念分布に基づき、所定の変換規則に従って制御入力を算出し、算出された制御入力を制御対象に送信する制御入力変換手段、
をさらに備えている請求項１または２に記載の最適化装置。
　あるステップにおいて前記信念分布更新手段により更新された信念分布を、次ステップにおける、前記最適変数候補生成手段、前記目的関数評価手段、前記逆温度最適化手段、前記重み評価手段、および前記信念分布更新手段による処理のために加工する信念分布加工手段、
をさらに備えている請求項１または２に記載の最適化装置。
　信念分布に基づき、複数の最適変数候補を生成することと、
　前記複数の最適変数候補の各々について、目的関数を評価することと、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出することと、
　前記逆温度に基づき、前記目的関数についての重みを計算することと、
　前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新することと、
　を含む最適化方法。
　前記複数の最適変数候補を生成する工程の前に、
　前記目標有効サンプルサイズおよび初期信念分布の入力を受け付けること、
をさらに含む請求項６に記載の最適化方法。
　前記更新する工程の後に、
　所定の終了条件を満たす場合に、前記更新後の信念分布を出力することと、
　所定の終了条件を満たさない場合に、前記複数の最適変数候補を生成する工程からループ処理を実行することと、
をさらに含む請求項６または７に記載の最適化方法。
　コンピュータを最適化装置として機能させるためのプログラムであって、前記コンピュータを、
　信念分布に基づき、複数の最適変数候補を生成する最適変数候補生成手段と、
　前記複数の最適変数候補の各々について、目的関数を評価する目的関数評価手段と、
　入力された目標有効サンプルサイズと、前記目的関数についての重みの有効サンプルサイズとが同程度となるような逆温度を、最適化手法を用いて算出する逆温度最適化手段と、
　前記逆温度に基づき、前記目的関数についての重みを計算する重み評価手段と、
　前記最適変数候補、前記重み、および前記信念分布に基づき、前記信念分布を更新する信念分布更新手段と、
として機能させるプログラム。