JPWO2021229625A5

JPWO2021229625A5 -

Info

Publication number: JPWO2021229625A5
Application number: JP2022522086A
Authority: JP
Filing date: 2020-05-11
Publication date: 2023-01-24
Anticipated expiration: 2040-05-11

Claims

対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力する第一出力手段と、
ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力する第二出力手段と、
前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力するデータ出力手段と、
前記意思決定履歴データを用いて前記目的関数を学習する学習手段とを備えた
ことを特徴とする学習装置。
第二出力手段は、出力された第二の対象に対する直接的な変更指示をユーザから受け付けて、受け付けた変更指示に基づく結果の対象を第三の対象として出力する
請求項１記載の学習装置。
第二出力手段は、線形式で表わされた目的関数に含まれる説明変数の重みに対する変更指示をユーザから受け付け、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項１記載の学習装置。
第二出力手段は、目的関数に説明変数を追加する変更指示をユーザから受け付けて、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項１記載の学習装置。
学習手段は、追加された説明変数を含む目的関数を学習する
請求項４記載の学習装置。
対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力し、
ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力し、
前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力し、
前記意思決定履歴データを用いて前記目的関数を学習する
ことを特徴とする学習方法。
出力された第二の対象に対する直接的な変更指示をユーザから受け付けて、受け付けた変更指示に基づく結果の対象を第三の対象として出力する
請求項６記載の学習方法。
線形式で表わされた目的関数に含まれる説明変数の重みに対する変更指示をユーザから受け付け、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項６記載の学習方法。
目的関数に説明変数を追加する変更指示をユーザから受け付けて、変更された目的関数を用いた最適化により、第二の対象を変更した結果として第三の対象を出力する
請求項６記載の学習方法。
コンピュータに、
対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された目的関数を用いた第一の対象に対する最適化結果である第二の対象を出力する第一出力処理、
ユーザから受け付けた前記第二の対象に関する変更指示に基づいて、当該第二の対象をさらに変更した結果の対象を示す第三の対象を出力する第二出力処理、
前記第二の対象から前記第三の対象への変更実績を意思決定履歴データとして出力するデータ出力処理、および、
前記意思決定履歴データを用いて前記目的関数を学習する学習処理
を実行させるための学習プログラム。