WO2021038759A1

WO2021038759A1 - モデル選択方法、モデル選択プログラムおよび情報処理装置

Info

Publication number: WO2021038759A1
Application number: PCT/JP2019/033733
Authority: WO
Inventors: 寛彰金月; 勉石田
Original assignee: 富士通株式会社
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-03-04

Abstract

エッジ（端末）は、環境状態に基づいて行動を予測する複数の学習モデルを取得し、前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する。

Description

モデル選択方法、モデル選択プログラムおよび情報処理装置

　本発明は、モデル選択方法、モデル選択プログラムおよび情報処理装置に関する。

　室温、湿度、および外気温などを含む環境状態の変化や、エアコンに対するユーザの操作ログなどを取得し、学習モデルに学習させることで、ユーザにとって快適な行動（例えば、空調制御）を行う技術が利用されている。近年では、クラウドサーバにおいて各ユーザの学習モデルを構築し、エアコンなどであるエッジ（端末）にそのユーザの学習モデルを配信することで学習を繰り返し、各ユーザに適した行動を行うシステムがある。

特開２０１８－２０６２８６号公報特開平１０－７４１８８号公報

　しかしながら、エアコンの初期稼働時の新規ユーザや転居者などの場合、対象ユーザの学習モデルが存在しないので、上記技術ではユーザにとって不快な行動が行われる場合がある。例えば、対象ユーザの学習モデルが存在しない場合、ユーザの各種の行動を予測するために試行錯誤型の学習アルゴリズムである強化学習を用いることが考えられる。しかしながら、強化学習において失敗行動を学習するためには、結果的に失敗となる行動を実行する必要があり、これがユーザにとっては不快な行動となってしまう。これは、例えば、ユーザにとって室温が高いと感じるときに、エアコンの設定温度をさらに上げてしまう行動である。このような行動を行った場合、ユーザはエアコンの設定温度を下げ、これにより強化学習プログラムは、その行動が失敗行動であったことを学習する。なお、このような課題は、ユーザによるエアコンの操作を予測する場合に限ったものではなく、ユーザの各種の行動を予測する場合に同様に生ずる課題である。

　一つの側面では、ユーザに対して不快な予測を抑制することができるモデル選択方法、モデル選択プログラムおよび情報処理装置を提供することを目的とする。

　第１の案では、学習方法は、コンピュータが、環境状態に基づいて行動を予測する複数の学習モデルを取得する。学習方法は、コンピュータが、前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する。

　一つの側面では、ユーザに対して不快な予測を抑制することができる。

図１は、実施例１にかかるシステムの全体構成例を示す図である。図２は、実施例１にかかるクラウドサーバの機能構成を示す機能ブロック図である。図３は、センサ値ＤＢに記憶される情報の例を示す図である。図４は、操作ログＤＢに記憶される情報の例を示す図である。図５は、学習データＤＢに記憶される情報の例を示す図である。図６は、ユーザ操作の判定例を示す図である。図７は、学習モデルのクラスタリングのためのモデル間距離の例を示す図である。図８は、学習モデルのクラスタリングにより決定される候補モデルの例を示す図である。図９は、実施例１にかかるエッジの機能構成を示す機能ブロック図である。図１０は、強化学習結果ＤＢに記憶される情報の例を示す図である。図１１は、学習モデル選択のための強化学習の例を示す図である。図１２は、クラウドサーバにおける決定処理の流れを示すフローチャートである。図１３は、クラウドサーバにおける配信処理の流れを示すフローチャートである。図１４は、エッジにおける強化学習処理の流れを示すフローチャートである。図１５は、エッジにおける行動予測処理の流れを示すフローチャートである。図１６は、強化学習による行動予測の例を示す図である。図１７は、強化学習によるモデル選択の例を示す図である。図１８は、学習モデルのイメージを説明する図である。図１９は、ハードウェア構成例を示す図である。

　以下に、本願の開示するモデル選択方法、モデル選択プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる

［全体構成例］
　図１は、実施例１にかかるシステムの全体構成例を示す図である。図１に示すように、このシステムは、クラウドサーバ１０と、各部屋のエッジに相当する通信装置とがネットワークＮを介して相互に通信可能に接続される空調制御システムである。なお、ネットワークＮには、有線や無線を問わず、インターネットなどの各種通信網を採用することができる。

　各部屋は、クラウドサーバ１０による空調制御の対象である。例えば、部屋１は、室内に設置されて空調制御を行うエアコン１ａを有する。部屋２は、室内に設置されて空調制御を行うエアコン２ａ、無線ネットワークやＵＰｎＰ（Universal　Plug　and　Play）などを用いてエアコン２ａへの空調制御指示を送信する情報端末２ｂを有する。また、部屋３は、室内に設置されて空調制御を行うエアコン３ａと、エアコン３ａへの空調制御指示を送信するリモコン３ｂを有する。

　クラウドサーバ１０から配信された学習モデルを、各室内におけるエッジが受信する。エッジは、配信された学習モデルを用いてエアコンに対するユーザ操作の予測を行い、予測結果に応じて空調制御を行う。エッジは、例えば、部屋１の場合はエアコン１ａであり、部屋２の場合は情報端末２ｂであり、部屋３の場合はリモコン３ｂである。

　また、図示しないが、各部屋には、外気温を測定するセンサ、室内の温度や湿度を測定するセンサなどが設置される。各センサが測定したセンサ値（観測値やログと記載する場合がある）は、各センサなどにより、クラウドサーバ１０やエッジに送信される。または、エッジ自身で各センサ値を測定することもできる。各エッジは、エアコンに対するユーザの操作ログなどを収集して、クラウドサーバ１０に送信する。なお、図１は、３部屋の例を示したが、あくまで例示であり、部屋数などを限定するものではない。

　クラウドサーバ１０は、ユーザにクラウドサービスを提供するサーバ装置である。クラウドサーバ１０は、各部屋からセンサ値や操作ログなどを取得し、これらを学習データに用いてユーザごとの学習モデルを構築する。例えば、クラウドサーバ１０は、室温や湿度、外気温などの環境状態を説明変数、エアコンの温度を上げる（Ｕｐ）／温度を下げる（Ｄｏｗｎ）／温度を維持する（Ｋｅｅｐ）などを示すユーザ操作を目的変数として学習モデルを構築する。そして、クラウドサーバ１０は、学習モデルを各エッジに配信することで学習を繰り返す。

　また、クラウドサーバ１０は、学習モデルの存在しない新規ユーザなどのために、環境状態に基づいて行動を予測する、既存ユーザの学習済みの学習モデル群を新規ユーザにかかるエッジに配信する。これにより、エッジでは、既存ユーザの学習モデル群から１つの学習モデルを強化学習によって選択し、選択された学習モデルを用いてユーザ操作を予測し、新規ユーザに適した空調制御を行うことができる。

　各部屋の各エッジは、クラウドサーバ１０から配信された複数の学習モデルから１つの学習モデルを強化学習によって選択し、選択された学習モデルを用いてエアコンに対するユーザ操作を予測し、予測結果に応じた空調制御を行う。このようして、エッジ側での空調制御を実現する。なお、強化学習によって選択される学習モデルは、他ユーザの学習モデルであるが学習済みである。そのため、強化学習による行動（ユーザ操作）予測と比較して、ユーザに対して不快な行動が予測され難い。

　なお、学習モデルの存在しないユーザの場合、エッジでは、既存ユーザのどの学習モデルを用いて空調制御を行うかが重要となってくる。そこで、実施例１にかかるエッジでは、強化学習により学習モデルの選択を行うことにより、学習モデルの存在しないユーザに対しても適切な空調制御を行う。

　また、よりユーザに適した学習モデルを選択するには、すべての既存ユーザの学習モデルに対して強化学習を行うことが望ましい。しかしながら、エッジのパフォーマンスやリソースを考慮すると、膨大な数の学習モデルをエッジに配信して処理することは現実的ではない。かといって、一部の学習モデルに限定してエッジに配信しても、同じような学習モデルが偏って配信されてしまうことも想定される。そこで、実施例１にかかるクラウドサーバでは、各学習モデルのモデル間距離を算出し、類似する学習モデルをクラスタリング（クラスタ化）することにより、各クラスタにおける候補モデルのみをエッジに配信する。

［クラウドサーバ１０の機能構成］
　次に、図１に示したクラウドサーバ１０の機能構成について説明する。図２は、実施例１にかかるクラウドサーバ１０の機能構成を示す機能ブロック図である。図２に示すように、クラウドサーバ１０は、通信部１１、記憶部１２、および制御部２０を有する。

　通信部１１は、他の装置との間の通信を制御する処理部であり、例えば、通信インタフェースである。通信部１１は、例えば、各部屋に設置されるエッジやセンサなどのデバイスからセンサ値や操作ログなどの各種データを受信し、学習済みの学習モデル群をエッジに配信する。

　記憶部１２は、各種データや、制御部２０が実行するプログラムを記憶する記憶装置の一例であり、例えば、メモリやハードディスクなどである。この記憶部１２は、センサ値ＤＢ１３、操作ログＤＢ１４、学習データＤＢ１５、および学習結果ＤＢ１６を記憶する。

　センサ値ＤＢ１３は、各部屋のセンサなどにより取得された室温、室内の湿度、外気温などに関するセンサ値を記憶するデータベースである。例えば、ここで記憶されるセンサ値は、クラウドサーバ１０が各センサから取得する観測値であり、温度の時間変化などセンサが測定できる他の観測値を含んでいてもよい。また、センサ値ＤＢ１３は、各部屋（空間）のセンサごとにセンサ値を記憶する。

　図３は、センサ値ＤＢに記憶される情報の例を示す図である。図３に示すように、センサ値ＤＢ１３は、「エアコンＩＤ、日時、室温、湿度、外気温」などを対応付けて記憶する。ここで記憶される「エアコンＩＤ」は、エアコンを識別する識別子であり、「日時」は、データが測定された日時である。「室温」および「湿度」は、それぞれ、各室内の各センサなどにより測定された室内の温度および湿度であり、「外気温」は、各室の各センサにより測定された室外の温度である。図３の例では、一時間ごとのセンサ値を示し、例えば、エアコン（a001）について「2019年11月1日の0：00では、室温が20度、室内の湿度が55％、外気温が10度であったこと」を示す。

　操作ログＤＢ１４は、各部屋のエアコンのユーザ操作に関するログ情報を記憶するデータベースである。ここで記憶されるログ情報は、クラウドサーバ１０が各エアコンや各エアコンのリモコンなどから取得する情報であり、設定温度などエアコンやリモコンなどが測定できる他の情報を含んでもよい。また、操作ログＤＢ１４は、ユーザごと、すなわち各空間のエアコンごとに操作ログを記憶する。

　図４は、操作ログＤＢに記憶される情報の例を示す図である。図４に示すように、操作ログＤＢ１４は、「エアコンＩＤ、日時、操作」を対応付けて記憶する。ここで記憶される「エアコンＩＤ」は、エアコンを識別する識別子であり、「日時」は、ユーザ操作が行われた日時である。「操作」は、各エアコンのユーザ操作のログである。

　図４の例では、例えば、エアコン（a001）について、「2019年11月1日の0：00に、ユーザ操作によって設定温度が上げられ（Ｕｐ）、2019年11月1日の1：00に、設定温度が下げられたこと（Ｄｏｗｎ）」を示す。

　学習データＤＢ１５は、学習モデルの学習に利用する学習データ、すなわち訓練データを記憶するデータベースである。図５は、学習データＤＢに記憶される情報の例を示す図である。図５に示すように、学習データＤＢ１５は、「エアコンＩＤ、時刻、ユーザ操作、特徴量１（５分前）、特徴量２（１０分前）、特徴量３（１５分前）」を対応付けて記憶する。

　ここで記憶される「エアコンＩＤ」は、エアコンを識別する識別子である。「時刻」は、基準となる時刻である。「ユーザ操作」は、ユーザによるエアコン操作の操作内容であり、例えば、エアコンの設定温度を上げる「Ｕｐ」・設定温度を下げる「Ｄｏｗｎ」・設定温度を維持する（何もしない）「Ｋｅｅｐ」などが設定される。「特徴量１（５分前）」、「特徴量２（１０分前）」、「特徴量３（１５分前）」は、それぞれ、基準となる時刻の５分前、１０分前、１５分前に取得されたセンサ値である。

　すなわち、「ユーザ操作」を目的変数、「特徴量１、特徴量２、特徴量３」を説明変数として学習モデルの学習に用いる。ここで、ユーザ操作の判定例について説明する。図６は、ユーザ操作の判定例を示す図である。図６に示すように、センサ値などが取得される時間ｔ１、時間ｔ２などのように、例えば、５分間隔で取得される。そして、学習データとして利用される時間窓が３（１５分間）である場合、例えば、５分前のデータ、１０分前のデータ、１５分前のデータが、５分後のユーザ操作（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）を予測する学習データとして利用される。各時間におけるユーザ操作の内容は、操作ログなどから取得できる情報であって、各時間内の実際のユーザ操作による運転行動が設定される。

　例えば、時間（時刻）ｔ１に対応する学習データを生成する場合、時間ｔ１の５分前の時間ｔ－１のセンサ値、時間ｔ１の１０分前の時刻ｔ－２のセンサ値、時間ｔ１の１５分前の時間ｔ－３のセンサ値が説明変数に設定され、時間ｔ１で実際に発生したユーザ操作である「設定温度を上げる」を示す「Ｕｐ」が目的変数に設定された、学習データが生成される。

　学習結果ＤＢ１６は、学習データによって構築または再学習された学習結果を記憶するデータベースである。例えば、学習結果ＤＢ１６は、ロジスティック回帰やニューラルネットワークなどを用いた学習モデルを構築するための各種パラメータなどを記憶する。

　なお、記憶部１２には、これらのＤＢ以外にも様々な情報を記憶することができる。例えば、図示しない外部の気象サーバなどから取得された気象情報を記憶する気象情報ＤＢを記憶することもできる。例えば、気象情報ＤＢは、クラウドサーバ１０が任意のタイミングで気象サーバから取得した、外気温や湿度の観測値、外気温や湿度の予報値、天候などを記憶する。

　制御部２０は、クラウドサーバ１０全体を司る処理部であり、例えば、プロセッサなどである。制御部２０は、取得部３０、学習処理部４０、決定部５０、および配信部６０を有する。なお、各処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

　取得部３０は、各部屋の各センサなどから各種センサ値を取得する処理部である。具体的には、取得部３０は、各センサからセンサ値を取得し、各エッジから操作ログを取得し、それぞれ、センサ値ＤＢ１３、操作ログＤＢ１４に格納する。また、取得部３０は、気象サーバなどから気象情報などを取得して記憶部１２に格納することもできる。すなわち、取得部３０は、学習処理部４０で用いる学習データの対象となるセンサ値や操作ログなどの情報をクラウドサーバ１０上に収集する。なお、取得部３０は、学習モデル配信後も、学習モデルの再学習のため、定期的に、各種データを収集する。

　学習処理部４０は、学習部４１および再学習部４２を有する。学習処理部４０は、取得部３０により取得されたセンサ値や操作ログなどの情報を用いて学習データを生成し、学習モデルを構築および更新（再学習）する処理部である。

　学習部４１は、学習データの生成および学習モデルを構築する処理部である。具体的には、学習部４１は、取得部３０により取得されたセンサ値や操作ログなどの情報を用いて学習データを生成して学習データＤＢ１５に格納する。そして、学習部４１は、生成した学習データを用いて、ロジスティック回帰やニューラルネットワークなどによって学習モデルの学習を行う。また、学習部４１は、学習が終了すると、学習結果として、学習済みの学習モデルを構築するための各種パラメータを学習結果ＤＢ１６に格納する。

　再学習部４２は、学習済みの学習モデルの再学習を実行する処理部である。再学習部４２は、例えば、いずれかのエッジから再学習の要求を受信すると、前回学習後に取得部３０により取得されたセンサ値や操作ログなどの情報を用いて学習データを再生成して学習データＤＢ１５に格納する。そして、再学習部４２は、再生成された学習データを用いて、学習モデルの再学習を行う。この際、前回学習に用いた学習データを併せて用いることもできる。再学習部４２は、再学習が終了すると、再学習結果として、再学習済みの学習モデルを構築するための各種パラメータを学習結果ＤＢ１６に格納する。

　決定部５０は、学習部４１や再学習部４２が学習または再学習を行った各学習モデルのモデル間距離を算出し、類似する学習モデルをクラスタリングして、各エッジに配信するための候補モデルを決定する。図７は、学習モデルのクラスタリングのためのモデル間距離の例を示す図である。

　モデル間距離は、例えば、ＫＬ（カルバック・ライブラー）距離である。ＫＬ距離は、式（１）に示す式を用いて算出することができる。

　式（１）は、モデルＰとモデルＱとの間のＫＬ距離Ｄ_ＫＬ（Ｐ||Ｑ）を算出する式であり、ＫＬ距離Ｄ_ＫＬが小さいほど、モデル間の距離が近い、すなわち、モデル同士が類似していることを意味する。式（１）におけるＰ（ｉ）およびＱ（ｉ）は、例えば、各学習モデルにおける予測結果の確率分布（例えば、Ｕｐ＝０．５、Ｄｏｗｎ＝０．７、Ｋｅｅｐ＝０．２）である。

　図７の例では、学習モデルＡ－Ｂ間の距離が０．２、学習モデルＢ－Ｃ間の距離が０．４、学習モデルＡ－Ｃ間の距離が０．３であるため、最も類似する学習モデルの組合せは学習モデルＡおよびＢであることを示す。

　図７の例は説明のために３つのモデルのみを示しているが、決定部５０は、すべての学習モデルの組合せに対してモデル間距離を算出する。そして、例えば、モデル間距離が任意の閾値以下であるモデル同士を類似する学習モデルとしてクラスタリング（クラスタ化）する。また、決定部５０は、各クラスタにおいて候補モデルを決定する。候補モデルは、例えば、各クラスタの中心点にある学習モデルであり、各クラスタ分決定される。

　図８は、学習モデルのクラスタリングにより決定される候補モデルの例を示す図である。図８の例では、類似するモデル同士が、３つのクラスタＸ、Ｙ、Ｚに分類され、各クラスタから学習モデルＢ、Ｆ、Ｈが候補モデルとして決定されたことを示す。図８の例も説明のため３つのクラスタのみを示しているが、これに限定されるものではない。例えば、候補モデルやクラスタの数が任意の閾値以下になるように、学習モデルをクラスタリングすることもできる。このように、図７および図８に示すような、モデル間距離を用いた学習モデルのクラスタリングにより、各エッジに配信される学習モデルの数を絞り込みつつ、同じような学習モデルが偏って配信されてしまわないようにすることができる。

　配信部６０は、決定部５０により決定された候補モデル群などを各エッジに配信する処理部である。例えば、配信部６０は、学習結果ＤＢ１６から、候補モデルを構築するための各種パラメータを読み出し、各エッジに送信する。各エッジでは、配信された各種パラメータを用いることで、候補モデルを構築することができる。また、配信部６０は、対象ユーザの学習モデルが存在する場合は、当該学習モデルを構築するための各種パラメータを学習結果ＤＢ１６から読み出し、対象ユーザにかかるエッジに送信する。

［エッジ１００の機能構成］
　次に、図１に示したエッジの機能構成について説明する。図９は、実施例１にかかるエッジの機能構成を示す機能ブロック図である。図９に示すように、エッジ１００は、通信部１１１、記憶部１１２、および制御部１２０を有する。

　通信部１１１は、クラウドサーバ１０同様、他の装置との間の通信を制御する処理部である。通信部１１は、例えば、クラウドサーバ１０から学習モデルを受信し、操作ログやセンサ値をクラウドサーバ１０に送信する。

　記憶部１１２は、クラウドサーバ１０同様、各種データや、制御部１２０が実行するプログラムを記憶する記憶装置の一例である。この記憶部１１２は、センサ値ＤＢ１１３、操作ログＤＢ１１４、および強化学習データＤＢ１１５を記憶する。

　センサ値ＤＢ１１３は、エッジ１００により取得された室温、室内の湿度、外気温などに関するセンサ値を記憶するデータベースである。すなわち、センサ値ＤＢ１１３は、エッジ１００が設置されたある部屋（空間）における各センサ値を記憶する。これは、例えば、図３におけるエアコン１台分（例えば、エアコンＩＤ＝a001）のデータである。

　操作ログＤＢ１１４は、あるエアコンに対するユーザ操作に関するログ情報を記憶するデータベースである。これは、例えば、図４におけるエアコン１台分（例えば、エアコンＩＤ＝a001）のデータである。

　強化学習結果ＤＢ１１５は、あるユーザに対する学習モデルの選択により学習された強化学習の結果を記憶するデータベースである。図１０は、強化学習結果ＤＢに記憶される情報の例を示す図である。図１０に示すように、強化学習結果ＤＢ１１５は、「学習モデル、時刻、予測行動、実行行動、ユーザ操作有無、報酬」を対応付けて記憶する。

　ここで記憶される「学習モデル」は、強化学習の対象となった、エッジ１００に配信された学習モデルを識別する識別子である。「時刻」は、基準となる時刻である。「予測行動」は、各学習モデルによって、基準となる時刻にユーザがとると予測された行動（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）である。「実行行動」は、強化学習によって選択された学習モデルにより予測され実行された行動（Ｕｐ／Ｄｏｗｎ／Ｋｅｅｐ）である。「ユーザ操作有無」は、基準となる時刻における、ユーザによるエアコンの操作の有無である。「報酬」は、強化学習のための報酬であり、実行行動に対して、ユーザ操作があったか否かで設定される内容が異なる。例えば、図１０の例では、ユーザ操作があった（すなわち、強化学習によって選択された学習モデルにより予測された行動が不正解であった）場合は、報酬を－１するものである。

　図１０の例では、例えば、時刻ｔ１による各学習モデルの予測行動は、学習モデルＢおよびＦが「Ｕｐ」、学習モデルＨが「Ｄｏｗｎ」であったことを示す。また、時刻ｔ１による実行行動は、強化学習によって選択された学習モデルＢにより予測された「Ｕｐ」であったことを示す。そして、時刻ｔ１後、一定時間内（例えば、３０分以内）にユーザ操作はなかったことを示す。すなわち、これは強化学習によって選択された学習モデルＢ、および学習モデルＢによる予測行動「Ｕｐ」は正解であったことを意味する。また、その結果、「Ｕｐ」以外を予測した学習モデルＨの報酬は－１されたことを示す。

　制御部１２０は、エッジ１００全体を司る処理部であり、クラウドサーバ１０同様、例えば、プロセッサなどである。制御部１２０は、取得部１３０、学習処理部１４０、および空調制御部１５０を有する。

　取得部１３０は、クラウドサーバ１０から学習モデルを取得し、室内の各センサなどから各種センサ値を取得する処理部である。具体的には、クラウドサーバ１０から受信された、学習モデルの構築に使用される各種パラメータを用いて学習モデルを構築し取得する。また、取得部１３０は、各センサからセンサ値を取得してセンサ値ＤＢ１１３に格納する。さらに、取得部１３０は、エアコンから操作ログを取得して操作ログＤＢ１１４に格納する。なお、図１の部屋１のようにエッジがエアコンである場合、取得部１３０は、ユーザ操作に基づいて操作ログを生成し、操作ログＤＢ１１４に格納する。すなわち、取得部１３０は、学習処理部１４０で用いる学習データの対象となるセンサ値や操作ログをエッジ１００上に収集する。

　学習処理部１４０は、選択部１４１、および強化学習部１４２を有する。学習処理部４０は、クラウドサーバ１０から配信された候補モデル群から１つの学習モデルを強化学習によって選択する処理部である。また、学習処理部１４０は、強化学習によって選択された学習モデルによる予測行動と、実際のユーザ操作とを用いて強化学習を行う。

　選択部１４１は、クラウドサーバ１０から配信された候補モデル群から、強化学習（例えば、多腕バンディット法）によって１つの学習モデルを選択する処理部である。

　強化学習部１４２は、選択部１４１によって選択された学習モデルによる予測行動（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）と、実際のユーザ操作とを用いて、各学習モデルの報酬を操作し強化学習を行う。ここで、本発明にかかる強化学習について説明する。図１１は、学習モデル選択のための強化学習の例を示す図である。図１１に示すように、候補モデル群の中から、強化学習（例えば、多腕バンディット法）によって１つの学習モデルが選択される。選択された学習モデルにより予測された行動を実行し、実行後一定期間内のユーザ操作の有無を判定する。また、選択されなかった学習モデルも行動を予測しておく。一定期間内にユーザ操作がなかった場合、選択された学習モデルによる予測行動が正解であったと判断し、正解の行動以外の行動を予測した学習モデルの報酬を－１する。なお、図１１の例は、あくまでも一実施例であり、各学習モデルに対する報酬の設定方法は別の方法であってもよい（例えば、正解の行動を予測した学習モデルに対しても報酬を付与してもよい）。一方、一定期間内にユーザ操作があった場合、選択された学習モデルによる予測行動は不正解であったと判断し、選択された学習モデルを含む、不正解の学習モデルの報酬を－１する。報酬操作の後、改めて候補モデル群から学習モデルが選択され、強化学習と選択とを繰り返すことにより、よりユーザに適した学習モデルが逐次選択されるようになる。また、強化学習により選択される学習モデルは、既存ユーザの学習済みの学習モデルである。そのため、このような学習済みの学習モデルを用いた行動予測の方が、強化学習による行動予測と比較して、ユーザにとって不快な行動が予測され難い。

　空調制御部１５０は、選択部１４１によって選択された学習モデルを用いて、エアコンに対するユーザ操作（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）を予測し、予測結果に応じた空調制御を行う処理部である。具体的には、選択部１４１によって選択された学習モデルに対して、取得部１３０によって取得されたセンサ値を入力して、ユーザ操作の予測結果を取得する。そして、空調制御部１５０は、予測結果に応じて、エアコンの設定温度を調節する。

［処理の流れ］
　次に、実施例１にかかるシステムの処理の流れを説明する。ここでは、クラウドサーバ１０の処理と、エッジ１００の処理をわけて説明する。まず、クラウドサーバ１０の処理を説明する。

　図１２は、クラウドサーバにおける決定処理の流れを示すフローチャートである。本処理は、クラウドサーバ１０において、エッジ１００に配信するための候補モデル群を決定する処理である。まず、図１２に示すように、クラウドサーバ１０の取得部３０は、各センサや各エッジから、センサ値（例えば、室温や湿度、外気温などの環境状態）、およびエアコンに対するユーザの操作ログを取得して、センサ値ＤＢ１３および操作ログＤＢ１４にそれぞれのデータを格納する（Ｓ１０１）。

　続いて、クラウドサーバ１０の学習部４１は、Ｓ１０１において取得されたデータを用いて、ユーザごとに学習データを生成し、ユーザごとの学習モデルを構築する（Ｓ１０２）。なお、ここでいう「ユーザごと」とは、例えば、「エアコンごと」のことであり、センサ値ＤＢ１３や操作ログＤＢ１４における「エアコンＩＤ」を用いるなどして、エアコンごとの学習モデルを構築することができる。

　次に、クラウドサーバ１０の決定部５０は、各学習モデルのモデル間距離によって、類似する学習モデルをクラスタリングして、各エッジに配信するための候補モデルを決定する（Ｓ１０３）。各学習モデルのクラスタリングは、モデル間距離が任意の閾値以下であるモデル同士を類似する学習モデルとしてクラスタリングしてもよいし、クラスタ内の学習モデル数が所定数以上になるようにモデル間距離を用いてクラスタリングしてもよい。また、候補モデルは、例えば、各クラスタの中心点にある学習モデルである。しかしながら、別の方法で、クラスタ内から候補モデル群を決定してもよい（例えば、中心点に最も近い学習モデル、または任意の１つの学習モデル）。Ｓ１０３実行後、本処理は終了する。

　次に、図１３は、クラウドサーバにおける配信処理の流れを示すフローチャートである。本処理は、クラウドサーバ１０からエッジ１００に学習モデルを配信する処理である。まず、図１３に示すように、クラウドサーバ１０の配信部６０は、エッジ１００から学習モデルの配信要求を受信する（Ｓ２０１）。エッジ１００にかかる対象ユーザの学習モデルが存在しない場合（Ｓ２０２：Ｎｏ）、配信部６０は、図１２における決定処理のＳ１０３で決定された候補モデル群をエッジ１００に配信する（Ｓ２０３）。具体的には、例えば、配信部６０が、候補モデルを構築するための各種パラメータを学習結果ＤＢ１６から読み出し、エッジ１００に送信する。その後、本処理は終了する。なお、対象ユーザの学習モデルが存在する場合でも、その学習データが十分でない場合は、Ｓ２０３を実行し、候補モデル群をエッジに配信してもよい。これは、候補モデル群に、対象ユーザの学習モデル、または、少なくともクラスタリングにより類似する学習モデルが含まれていることによる。

　一方、対象ユーザの学習モデルが存在する場合（Ｓ２０２：Ｙｅｓ）、対象ユーザの学習モデルをエッジ１００に配信する（Ｓ２０４）。これも、例えば、配信部６０が、対象ユーザの学習モデルを構築するための各種パラメータをエッジ１００に送信する。その後、本処理は終了する。

　次に、エッジ１００における処理を説明する。図１４は、エッジにおける強化学習処理の流れを示すフローチャートである。本処理は、対象ユーザの学習モデルが存在しない場合（図１３のＳ２０２：Ｎｏ）にＳ２０３において配信された候補モデル群を取得するところから開始され、ユーザにより適した学習モデルを選択するために強化学習を行う処理である。

　まず、図１４に示すように、エッジ１００の取得部１３０は、クラウドサーバ１０から配信された候補モデル群を取得する（Ｓ３０１）。具体的には、クラウドサーバ１０から配信された候補モデルの構築に使用される各種パラメータを用いて、候補モデル群を構築し取得する。

　次に、取得部１３０は、各センサからセンサ値（例えば、室温や湿度、外気温などの環境状態）を取得し、センサ値ＤＢ１１３に格納する（Ｓ３０２）。

　続いて、エッジ１００の選択部１４１は、Ｓ３０１において取得された候補モデル群から、Ｓ３０２において取得されたセンサ値に基づいて強化学習（例えば、多腕バンディット法）を行い、１つの学習モデルを選択する（Ｓ３０３）。

　次に、エッジ１００の空調制御部１５０は、Ｓ３０３において選択された学習モデルを用いて行動（ユーザによる設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐなどの操作）を予測し、予測された行動を実行する（Ｓ３０４）。例えば、空調制御部１５０は、選択された学習モデルに、取得部１３０により取得されたセンサ値を入力して、行動を予測する。そして、空調制御部１５０は、例えば、予測行動が「Ｕｐ」である場合はエアコンの設定温度を１度上げ、予測行動が「Ｄｏｗｎ」である場合はエアコンの設定温度を１度下げ、予測行動が「Ｋｅｅｐ」である場合はエアコンの設定温度を変更せずに維持するように制御する。なお、Ｓ３０７における強化学習のため、Ｓ３０３において選択されなかった学習モデルも行動を予測しておく。

　続いて、取得部１３０は、エアコンから操作ログを取得し、操作ログＤＢ１１４に格納する（Ｓ３０５）。なお、図１の部屋１のように、エッジ１００がエアコンである場合は、Ｓ３０５では、エッジ１００に蓄積された操作ログＤＢ１１４から操作ログを取得する。

　次に、エッジ１００の強化学習部１４２は、Ｓ３０５において取得された操作ログに基づいてユーザ操作の有無を判定する（Ｓ３０６）。具体的には、Ｓ３０４による予測行動の実行後、一定時間内（例えば、３０分以内）に、エアコンに対するユーザ操作（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）があったか否かを判定する。

　次に、強化学習部１４２は、ユーザ操作の有無により各学習モデルの強化学習を行う（Ｓ３０７）。強化学習は、選択された学習モデルによって予測された行動に対するユーザの反応を報酬として、当該報酬を最大化する方策を得るように行われる。具体的には、ユーザ操作がなかった場合、選択された学習モデルによる予測行動が正解であったと判断し、正解の行動以外の行動を予測した学習モデルの報酬を減らす（例えば、－１する）。これにより、不正解の学習モデルは、以降の選択時（Ｓ３０３）に選択され難くなる。また、ユーザ操作があった場合は、選択された学習モデルによる予測行動は不正解であったと判断し、選択された学習モデルを含む、不正解の学習モデルの報酬を減らす。Ｓ３０７のよる強化学習の後、図１４に示すように、学習モデルの選択と強化学習（Ｓ３０２－Ｓ３０７）を繰り返すことにより、よりユーザに適した学習モデルが逐次選択されるようになる。

　次に、図１５は、エッジにおける行動予測処理の流れを示すフローチャートである。本処理は、対象ユーザの学習モデルが存在する場合（図１３のＳ２０２：Ｙｅｓ）にＳ２０４において配信された対象ユーザの学習モデルを取得するところから開始され、取得された学習モデルにより行動を予測する処理である。

　図１５に示すように、エッジ１００の取得部１３０は、クラウドサーバ１０から配信された、対象ユーザの学習モデルを取得する（Ｓ４０１）。具体的には、クラウドサーバ１０から配信された学習モデルの構築に使用される各種パラメータを用いて、対象ユーザの学習モデルを構築し取得する。

　次に、エッジ１００の取得部１３０は、各センサからセンサ値（例えば、室温や湿度、外気温などの環境状態）を取得し、センサ値ＤＢ１１３に格納する（Ｓ４０２）。

　続いて、エッジ１００の空調制御部１５０は、Ｓ４０１において取得された対象ユーザの学習モデルを用いて、行動（ユーザによる設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐなどの操作）を予測し、予測された行動を実行する（Ｓ４０３）。具体的には、例えば、図６を用いて上述したように、５分後のユーザ操作（設定温度のＵｐ／Ｄｏｗｎ／Ｋｅｅｐ）を予測して実行する。Ｓ４０３による予測行動の実行後、例えば、５分間隔でＳ４０２－４０３を繰り返し、空調制御を行う。

［効果］
　上述したように、実施例１によれば、エッジ１００は、クラウドサーバ１０から配信された、環境状態に基づいてエアコンの設定温度に対するユーザ操作を予測する複数の学習モデルから、ユーザ操作の予測に用いる１つの学習モデルを強化学習によって選択する。ここで選択される学習モデルは他ユーザのものであるが学習済みの学習モデルである。したがって、強化学習によるユーザ操作の予測と比較して、不快なユーザ操作の予測が抑制可能になる。

　図１６は、強化学習による行動予測の例を示す図である。図１６に示すように、試行錯誤型の強化学習による行動予測の場合、失敗行動を学習するためには失敗行動を実行する必要がある。強化学習では、結果的に失敗となるような行動を含む、すべての取り得る行動からランダムに１つの行動が選択され、選択された行動が実行される。選択された行動の実行後、状態の更新（変化）により、実行した行動の評価および報酬の付与が行われる。強化学習では、このような行動の実行および評価を繰り返し、報酬の合計が最大化されるような行動を実行するよう最適化していく。したがって、結果的に失敗となる行動が実際に実行され、場合によってはその行動が複数回実行される可能性もある。

　一方、図１７は、強化学習によるモデル選択の例を示す図である。強化学習により選択される学習モデルは、既存ユーザの反応によって、失敗行動が予測され難いように既に学習されている。そのため、強化学習によってどの学習モデルが選択されたとしても、失敗行動が予測され難い。実施例１では、クラウドサーバ１０に蓄積された複数の学習済みの学習モデルをエッジ１００に配信する。そして、エッジ１００は、配信された複数の学習モデルから強化学習によって１つの学習モデルを選択し、選択された学習モデルを用いて行動を予測する。あくまでも、強化学習は学習モデルの選択に対して行われ、行動の予測は学習済みの学習モデルを用いて行われる。そのため、実施例１では、図１６に示すような、強化学習による行動予測とは異なり、ユーザに対して失敗行動が予測され難い。

　また、実施例１によれば、エッジ１００は、選択された学習モデルによって予測されたユーザ操作に対するユーザの反応を報酬として報酬を最大化する方策を得る強化学習を行う。したがって、ユーザにより適した学習モデルが選択可能になる。

　そして、実施例１によれば、エッジ１００による強化学習は、選択された学習モデルによって予測されたユーザ操作に対して予め定められた時間内にユーザの操作があった場合、選択された学習モデルは不正解の学習モデルであったと判断してその報酬を減らす。したがって、ユーザにさらに適した学習モデルが選択可能になる。

　さらに、実施例１によれば、クラウドサーバ１０から配信される複数の学習モデルは、予め定められた閾値以下の数になるように、類似する学習モデルをクラスタリングして決定される。したがって、同じような学習モデルの配信が抑制可能になる。

　さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［学習モデル］
　ここで、図１８を用いて、学習モデルについて説明する。図１８は、図１７の学習モデルＢ、学習モデルＦ、学習モデルＨのうち、いずれか１つの学習モデルのイメージを説明する図である。なお、学習モデルは、他のユーザにおける環境状態とユーザの操作を有する学習データのうち、他のユーザ毎に環境状態を説明変数とするとともにユーザ操作を目的変数として学習されたモデルである。例えば、学習モデルＢは、高齢の単身者が暮らす住宅の学習データを用いたものであり、学習モデルＦは、夫婦が暮らす住宅の学習データを用いたものであり、学習モデルＨは、夫婦と子供が暮らす住宅の学習データを用いたものであるとする。ここでは、説明をわかりやすくするために、室温と湿度の２次元の特徴空間で、ユーザ操作を「Ｋｅｅｐ」と「Ｄｏｗｎ」の２値に分類する例で説明する。なお、図１８における太線は、学習済みの学習モデルによる予測境界を示す。図１８に示すように、学習された学習モデルは、時刻ｔにおける室温と湿度に基づいて、時刻ｔから３０分以内に発生するユーザ操作が「Ｋｅｅｐ」か「Ｄｏｗｎ」かを予測する。このとき、学習のモデルは、ロジスティック回帰、ニューラルネットワークなどで学習することができる。

　ここで、ロジスティック回帰を用いたモデルの学習について説明する。学習部４１は、式（２）に示す線形回帰の式を、式（３）に示すシグモイド関数に入力し、式（３）で得られる値をロジスティック回帰として取得する。なお、式（２）におけるＸに説明変数が入力され、ｙが目的変数、ｗは重みであり、ｂは予め指定された定数である。

　次いで、ニューラルネットワークを用いたモデルの学習について説明する。学習部４１は、室温、湿度、および外気温などのセンサ値を入力層より入力してニューラルネットワークに順伝播させる。そして、学習部４１は、出力層から得られる分類結果とユーザ操作の正解（正例・負例）とを比較して誤差を求める。さらに、学習部４１は、誤差逆伝播法により、分類結果と正解との誤差を分類時と逆方向にニューラルネットワークに伝播させ、ニューラルネットワークの各階層のパラメータを変更して最適解に近づける。

［対象空間］
　上記実施例では、ユーザの自宅などの部屋を一例として説明したが、これに限定されるものではない。例えば、電車や車などの車内、マシンルーム、飛行機の機内など様々な空間を対象とすることができる。

［学習データ］
　上記実施例では、クラウドサーバ１０における学習の学習データとして、室温、湿度、および外気温を用いる例を説明したが、これらに限定されるものではない。例えば、室温と外気温を学習データとしてユーザ操作を予測する学習モデル、５分間などの所定時間内の室温の変化と外気温の変化を学習データとしてユーザ操作を予測する学習モデルなどを学習することもできる。また、再学習時は、再学習までに収集されたログ（操作ログ＋センサ値）を学習データとして利用することもできる。また、学習モデルを構築する装置と、再学習を行う装置とを別々の装置で実行することもできる。

［数値］
　上記実施例で説明したセンサ値の項目、数値、装置の台数、エッジ数などは、図示したものに限定されず、一般的なセンサなどで収集可能な情報を用いることができる。また、予測間隔も、３０分後や２時間後など任意に変更することができる。その場合、センサ値などの収集単位も任意の時間に変更する。また、学習データとして、センサ値と操作ログを使用する例を説明したが、これに限定されるものではなく、センサ値のみを使用することもできる。

［予測］
　上記実施例では、エアコンに対するユーザ操作を予測する学習モデルを構築する例を説明したが、これに限定されるものではなく、本発明によれば任意の事象を予測する学習モデルを構築することができる。例えば、本発明により他の装置等に対するユーザ操作を予測する学習モデルを構築することができる。また、例えば、本発明により室温を予測する学習モデルを構築することもできる。この場合、３０分後の室温などを目的変数とする。

［システム］
　上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、エッジ１００の選択部１４１と空調制御部１５０とを統合することもできる。

　さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
　上述したクラウドサーバ１０およびエッジ１００は同様のハードウェア構成を有するので、ここでは、コンピュータ２００として説明する。図１９は、ハードウェア構成例を示す図である。図１９に示すように、コンピュータ２００は、通信装置２００ａ、ＨＤＤ（Hard　Disk　Drive）２００ｂ、メモリ２００ｃ、およびプロセッサ２００ｄを有する。また、図１９に示した各部は、バスなどで相互に接続される。

　通信装置２００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ２００ｂは、図２および図９に示した機能を動作させるプログラムやＤＢを記憶する。

　プロセッサ２００ｄは、図２および図９に示した各処理部と同様の処理を実行するプログラムをＨＤＤ２００ｂなどから読み出してメモリ２００ｃに展開することで、図２などで説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、クラウドサーバ１０が有する各処理部と同様の機能を実行する。具体的には、例えば、プロセッサ２００ｄは、取得部３０および学習処理部４０などと同様の機能を有するプログラムをＨＤＤ２００ｂなどから読み出す。そして、プロセッサ２００ｄは、取得部３０および学習処理部４０などと同様の処理を実行するプロセスを実行する。

　このように、クラウドサーバ１０およびエッジ１００は、プログラムを読み出して実行することで各処理を実行する情報処理装置として動作する。また、クラウドサーバ１０およびエッジ１００は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、クラウドサーバ１０およびエッジ１００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

　１　　　部屋
　１ａ　　エアコン
　２　　　部屋
　２ａ　　エアコン
　２ｂ　　情報端末
　３　　　部屋
　３ｂ　　リモコン
　１０　　クラウドサーバ
　１１　　通信部
　１２　　記憶部
　１３　　センサ値ＤＢ
　１４　　操作ログＤＢ
　１５　　学習データＤＢ
　１６　　学習結果ＤＢ
　２０　　制御部
　３０　　取得部
　４０　　学習処理部
　４１　　学習部
　４２　　再学習部
　５０　　決定部
　６０　　配信部
　１００　エッジ
　１１１　通信部
　１１２　記憶部
　１１３　センサ値ＤＢ
　１１４　操作ログＤＢ
　１１５　強化学習結果ＤＢ
　１２０　制御部
　１３０　取得部
　１４０　学習処理部
　１４１　選択部
　１４２　強化学習部
　１５０　空調制御部

Claims

　コンピュータが、
　環境状態に基づいて行動を予測する複数の学習モデルを取得し、
　前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する
　処理を実行することを特徴とするモデル選択方法。
　前記強化学習は、前記選択された学習モデルによって予測された前記行動に対するユーザの反応を報酬として、前記報酬を最大化する方策を得るような学習であることを特徴とする請求項１に記載のモデル選択方法。
　前記ユーザの反応は、前記ユーザの操作の有無であり、
　予め定められた時間内に前記ユーザの操作があった場合、前記報酬を減らすことを特徴とする請求項２に記載のモデル選択方法。
　前記環境状態は、室温、湿度、および外気温の少なくとも１つであり、
　前記行動は、エアコンの設定温度に対する前記ユーザの操作であり、
　前記ユーザの反応は、前記ユーザの操作の有無であることを特徴とする請求項２に記載のモデル選択方法。
　前記複数の学習モデルは、予め定められた閾値以下の数になるように、類似する学習モデルをクラスタリングして決定されたものであることを特徴とする請求項１に記載のモデル選択方法。
　前記学習モデルは、他のユーザにおける環境状態とユーザの操作を有する学習データのうち、前記環境状態を説明変数とするとともに前記ユーザの操作を目的変数として学習されたモデルであることを特徴とする請求項１に記載のモデル選択方法。
　コンピュータに、
　環境状態に基づいて行動を予測する複数の学習モデルを取得し、
　前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する
　処理を実行させることを特徴とするモデル選択プログラム。
　前記強化学習は、前記選択された学習モデルによって予測された前記行動に対するユーザの反応を報酬として、前記報酬を最大化する方策を得るような学習であることを特徴とする請求項７に記載のモデル選択プログラム。
　前記ユーザの反応は、前記ユーザの操作の有無であり、
　予め定められた時間内に前記ユーザの操作があった場合、前記報酬を減らす
　ことを特徴とする請求項８に記載のモデル選択プログラム。
　前記環境状態は、室温、湿度、および外気温の少なくとも１つであり、
　前記行動は、エアコンの設定温度に対する前記ユーザの操作であり、
　前記ユーザの反応は、前記ユーザの操作の有無である
　ことを特徴とする請求項８に記載のモデル選択プログラム。
　前記複数の学習モデルは、予め定められた閾値以下の数になるように、類似する学習モデルをクラスタリングして決定されたものである
　ことを特徴とする請求項７に記載のモデル選択プログラム。
　環境状態に基づいて行動を予測する複数の学習モデルを取得する取得部と、
　前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する選択部と
　を有することを特徴とする情報処理装置。
　前記強化学習は、前記選択された学習モデルによって予測された前記行動に対するユーザの反応を報酬として、前記報酬を最大化する方策を得るような学習であることを特徴とする請求項１２に記載の情報処理装置。
　前記ユーザの反応は、前記ユーザの操作の有無であり、
　予め定められた時間内に前記ユーザの操作があった場合、前記報酬を減らす
　ことを特徴とする請求項１３に記載の情報処理装置。
　前記環境状態は、室温、湿度、および外気温の少なくとも１つであり、
　前記行動は、エアコンの設定温度に対する前記ユーザの操作であり、
　前記ユーザの反応は、前記ユーザの操作の有無である
　ことを特徴とする請求項１３に記載の情報処理装置。
　前記複数の学習モデルは、予め定められた閾値以下の数になるように、類似する学習モデルをクラスタリングして決定されたものである
　ことを特徴とする請求項１２に記載の情報処理装置。
　プロセッサと、
　前記プロセッサに動作可能に接続されたメモリと
　を備えた情報処理装置であって、前記プロセッサは、
　環境状態に基づいて行動を予測する複数の学習モデルを取得する取得部と、
　前記環境状態に基づいて、前記複数の学習モデルから前記行動の予測に用いる１つの学習モデルを強化学習によって選択する選択部と、
　前記選択された学習モデルを用いて行動を予測し、予測された行動を実行する空調制御部と、
　エアコンから取得された操作ログに基づいてユーザ操作の有無を判定し、前記ユーザ操作の有無により各学習モデルの強化学習を行う強化学習部と
　を有することを特徴とする情報処理装置。