WO2021214852A1

WO2021214852A1 - 情報処理装置および空調システム

Info

Publication number: WO2021214852A1
Application number: PCT/JP2020/017134
Authority: WO
Inventors: 昂樹七條
Original assignee: 三菱電機株式会社
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2021-10-28
Also published as: JP7305041B2; JPWO2021214852A1

Abstract

情報処理装置は、空調の対象空間の状態を示す第１データと、対象空間が安定しているか否かを示す第２データと、空調装置に設定される対象空間の温度の目標値である設定温度（Ｔｓｅｔ）を示す第３データを取得するデータ取得部（１１０）と、データ取得部（１１０）によって取得された、第１～第３データを含む学習用データに基づき、推定モデルを生成するモデル生成部（１２０）とを備える。モデル生成部（１２０）は、第２データが対象空間（３０）の安定を示す場合に第１段階の学習を行なう。モデル生成部（１２０）は、第１段階の学習の終了後において、第２データが対象空間の安定を示さない場合に、第１段階の学習で生成された推定モデルを引き継いで、第２段階の学習を行なう。

Description

情報処理装置および空調システム

　本開示は、情報処理装置および空調システムに関する。

　従来の空調装置では、限られた使用者の快適性を向上させるため、空調制御自体の評価をスマートフォンなどの外部端末から使用者自身が入力していた。特表２０１９－５２２１６３号公報は、室内空間を調整する空調システムの動作を制御させるコントローラを開示する。このコントローラは、強化学習アルゴリズムを用いることによって制御コマンドを送信するプロセッサと、プロセッサから制御コマンドを受信し、空調システムに制御信号を送信するデータ出力部とを備える。

特表２０１９－５２２１６３号公報

　特表２０１９－５２２１６３号公報に開示されるコントローラは、個人の体感による快適性の評価などに基づいて学習を行なう。

　しかし、オフィス等多数の使用者が存在する空調制御においては、快適性の指標が使用者によって異なるため、従来のコントローラでは、学習を行なっても学習済みの制御内容が意図しないものになってしまう可能性があった。

　また、オフィスなどでは外気の流入が多く、取得する温度の情報の正確性を保てない場合がある。従来のコントローラでは、温度センサからの情報を取得して空間情報を把握するが、温度を変化させる外乱を考慮できていないため、長時間学習しても外乱の影響により設定温度へ達しないことが想定される。学習において取得する情報が正確でない場合、学習が発散してしまう可能性が高く、従来のコントローラでは、使用者が意図するものではない制御を行なってしまうことが想定される。

　本開示の情報処理装置および空調システムは、上記のような問題を解決し、オフィス等複数の使用者が存在し、外乱の多い環境で使用する場合でも、適切な空調制御を獲得するものである。

　本開示は、空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置に関する。情報処理装置は、空調の対象空間の状態を示す第１データと、対象空間が安定しているか否かを示す第２データと、空調装置に設定される対象空間の温度の目標値である設定温度を示す第３データを取得する取得部と、取得部によって取得された、第１～第３データを含む学習用データに基づき、推定モデルを生成するモデル生成部とを備える。モデル生成部は、取得部によって取得された第２データが対象空間の安定を示す場合に第１段階の学習を行なう。モデル生成部は、第１段階の学習の終了後において、取得部によって取得された第２データが対象空間の安定を示さない場合に、第１段階の学習で生成された推定モデルを引き継いで、第２段階の学習を行なう。

　本開示の情報処理装置および空調システムは、外乱の多い環境で使用する場合でも、空調の対象空間を設定温度にするための適切な空調制御が実行される。

本実施の形態の空調システムの概略構成図を示す図である。空調システムの実使用を想定した環境の図である。第１段階学習における制御を説明するためのフローチャートである。リモコン１のＣＰＵおよびメモリで実現される機械学習装置の構成図である。学習装置の学習処理に関するフローチャートである。リモコン１のＣＰＵおよびメモリで実現される推論装置の構成図である。学習装置の推論処理に関するフローチャートである。学習の第２段階における制御を説明するためのフローチャート（前半部）である。学習の第２段階における制御を説明するためのフローチャート（後半部）である。温度センサの温度補正値の一例を示す図である。

　以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

　図１は、本実施の形態の空調システムの概略構成図を示す図である。図２は、空調システムの実使用を想定した環境の図である。

　図１に示す空調システム１０は、空調の対象空間３０を空調する空調装置２０と、リモコン１と、複数の温度センサ２Ａ，２Ｂと、温度センサ２Ａ，２Ｂにそれぞれペアリングされている複数の開閉センサ３Ａ，３Ｂとを備える。空調装置２０は、室内ユニット４Ａ，４Ｂと、室外ユニット５Ａ，５Ｂとを備える。

　室内ユニット４Ａと室外ユニット５Ａは、冷媒を循環させる冷凍サイクル装置を構成する。室内ユニット４Ｂと室外ユニット５Ｂは、冷媒を循環させる冷凍サイクル装置を構成する。なお、室内ユニット４Ａおよび４Ｂに対して共通の１台の室外ユニットが設けられる構成であっても良い。

　本実施の形態では、温度センサ２Ａ，２Ｂ、開閉センサ３Ａ，３Ｂ、室内ユニット４Ａ，４Ｂ、室外ユニット５Ａ，５Ｂに対して、無線または有線による通信が可能なリモコン１について説明する。このリモコン１の特徴の１つは、無線通信により取得したセンサ情報をもとに、室内ユニット４Ａ，４Ｂを制御することである。

　リモコン１は、温度センサ２Ａ，２Ｂにより任意の時間の温度情報を取得する。リモコン１は、取得した温度情報と、設定温度及び制御内容と、任意時間経過後の温度情報とをもとに学習し、空調の対象空間３０が設定温度になるための適切な制御内容を獲得する。

　リモコン１は、空調装置２０を制御する制御装置であり、ＣＰＵ１１と、メモリ１２と、温度センサ１３と、入力装置１４と、通信装置１５とを備える。リモコン１は、通信装置１５から室内ユニット４Ａおよび４Ｂにそれぞれ制御信号（Ａ１～Ａ３，Ｂ１～Ｂ３）を送信する。温度センサ１３は、室内の温度Ｔｒを検出する。リモコン１は、温度センサ２Ａ，２Ｂから得られる温度情報と、開閉センサ３Ａ，３Ｂから得られる外乱情報とに基づいて制御信号（Ａ１～Ａ３，Ｂ１～Ｂ３）を出力するモデルを生成するための学習を行なう情報処理装置でもある。

　リモコン１の入力装置１４は、ユーザが室内機のＯＮ／ＯＦＦを切り替える押しボタン、設定温度を入力するボタン等を含む。通信装置１５は、室内ユニット４Ａおよび４Ｂと通信を行なうためのものである。

　メモリ１２は、たとえば、ＲＯＭ（Read　Only　Memory）と、ＲＡＭ（Random　Access　Memory）と、フラッシュメモリとを含んで構成される。なお、フラッシュメモリには、オペレーティングシステム、アプリケーションプログラム、各種のデータが記憶される。

　ＣＰＵ１１は、空調装置２０の全体の動作を制御する。なお、図１に示したリモコン１は、ＣＰＵ１１がメモリ１２に記憶されたオペレーティングシステムおよびアプリケーションプログラムを実行することにより実現される。なお、アプリケーションプログラムの実行の際には、メモリ１２に記憶されている各種のデータが参照される。通信装置１５からの制御信号を受信する受信装置が、室内ユニット４Ａ，４Ｂの各々に設けられる。

　開閉センサ３Ａは、窓３２の開閉状態ＯＳＡを検知し、リモコン１は、通信装置１５を介して窓３２の開閉状態ＯＳＡを受信する。開閉センサ３Ｂは、ドア３１の開閉状態ＯＳＢを検知し、リモコン１は、通信装置１５を介してドア３１の開閉状態ＯＳＢを受信する。なお、換気扇が設けられている場合は、開閉センサの検出信号に代わり、換気扇のＯＮ／ＯＦＦ状態を示す信号がリモコン１に送信されていても良い。

　温度センサ２Ａは、窓３２付近に設置され、窓３２付近の室内の温度ＴＡを検知し、リモコン１に検知した温度ＴＡを送信する。温度センサ２Ｂは、ドア３１付近に設置され、ドア３１付近の室内の温度ＴＢを検知し、リモコン１に検知した温度ＴＢを送信する。

　リモコン１は、例えば空調の対象空間３０である部屋の壁に設置される。室内ユニット４Ａ，４Ｂおよび各センサとリモコン１の通信装置１５との間の信号の送受信は、たとえば、Bluetooth（登録商標）などの無線送信方式で行なわれる。

　本実施の形態の空調用のリモコン１は、温度センサ２Ａ，２Ｂおよび開閉センサ３Ａ，３Ｂなどから空調の対象空間３０の状態を示す情報を取得し、その情報をもとに学習を行なうことで、設置環境に適した制御内容を獲得する。空調用のリモコン１により、空調システム１０の快適性を向上させる。リモコン１は、学習によって得られた学習済みモデルによって、設定内容に対する空調システムの最適な制御を実現する。

　次に基本的な動作について説明する。
　一般的には、空調システム１０は、室内ユニット４Ａ，４Ｂ、室外ユニット５Ａ，５Ｂとリモコン１のみで動作する。冷房運転、暖房運転の各動作時には通常、空調の対象空間３０の目標温度である設定温度Ｔｓｅｔがリモコン１に設定されている。リモコンによる制御は、温度センサ１３で取得した室温Ｔｒに基づいて行なわれる。

　以下に、本実施の形態においてリモコン１で実行される制御方法について説明する。リモコン１は、使用する環境に適した制御を学習により獲得する。学習のための入力は、温度センサ２Ａ，２Ｂから得た温度ＴＡ，ＴＢと、開閉センサ３Ａ，３Ｂから得た開閉状態ＯＳＡ、ＯＳＢと、設定温度Ｔｓｅｔと、室内ユニット４Ａの吹き出し温度Ａ１、風量Ａ２、風向Ａ３と、室内ユニット４Ｂの吹き出し温度Ｂ１、風量Ｂ２、風向Ｂ３とが使用される。

　図１、図２に示すように、温度センサ２Ａと開閉センサ３Ａとはペアリングされており、温度センサ２Ｂと開閉センサ３Ｂとはペアリングされている。温度センサ２Ａ，２Ｂが取得する温度に対する、外気の流入のような外乱が、開閉センサ３Ａ，３Ｂによって感知される。

　なお、温度センサ２Ａ，２Ｂおよび開閉センサ３Ａ，３Ｂの配置の変更が可能なように、温度センサとこれに対応する開閉センサとのペアリングは、リモコン１の設定によって変更が可能である。

　リモコン１にも室温を検出する温度センサ１３が設置されている。温度センサ２Ａ，２Ｂからは検出した温度ＴＡ，ＴＢがリモコン１に送信される。開閉センサ３Ａ，３Ｂからは、開閉状態ＯＳＡ、ＯＳＢがリモコン１に送信される。リモコン１は、システムコントローラのようなものであってもよい。

　リモコン１には、冷房運転か暖房運転か自動運転かを指定するモードと、室温の目標温度である設定温度Ｔｓｅｔとを使用者が設定する。風向および風量を設定しても良いが、典型的な例では、風向および風量は、自動に設定され、学習によってリモコン１が室内ユニットごとに決定する。

　空調の対象空間３０には、室内ユニット４Ａと室内ユニット４Ｂとが設置されている。室内ユニット４Ａ，４Ｂにそれぞれ対応して室外ユニット５Ａ，５Ｂが屋外に設置されている。なお、複数の室内ユニットに１台の室外ユニットが設けられていても良い。また、室内ユニットが複数台の構成を例示したが、室内ユニットは１台であっても良い。

　リモコン１は、室内ユニット４Ａ，４Ｂに対して無線で個別の制御信号を送信する。室内ユニット４Ａに対する制御信号は、吹き出し温度Ａ１、風量Ａ２、風向Ａ３を示す情報を含み、室内ユニット４Ｂに対する制御信号は、吹き出し温度Ｂ１、風量Ｂ２、風向Ｂ３を示す情報を含む。

　＜学習フェーズ＞
　リモコン１は、各種センサの取得情報から、対象空間３０を設定温度Ｔｓｅｔにするための空調制御を学習する。リモコン１は、２段階に分けて空調制御の学習を行なう。第１段階では外乱を排除した学習、第２段階では外乱も考慮した学習を行なう。ここで言う外乱とは主にドア（窓）の開閉による外気の流入を想定している。

　たとえば、空気の出入りが激しい場合、または空調の対象空間３０の人の数がいつもよりもかなり多い場合、などの非定常状態では、外乱の影響が大きく、精度の高い学習ができない。このため、まずは空調の対象空間３０の状態が一定時間以上安定しているときに、室内の複数の箇所に配置された温度センサの情報を利用して設定温度に達するための空調制御の学習を行なう。この時の学習を、第１段階学習と呼ぶことにする。

　空調の対象空間３０の状態が一定時間以上安定しているかどうかの判断として、各種のセンサからの信号を使用する。図１、図２に示した開閉センサ３Ａ，３Ｂの情報から室外空気の出入りの有無を判断できる。さらに、図示しないが、換気扇のスイッチ信号、外気温度センサ、人感センサ、天気を判断する照度センサ、などから得られる情報を学習に使うことができる。

　第１段階学習を終えると、リモコン１は、外乱の影響も含めた学習を行なう。つまり、空調の対象空間３０の状態が一定時間以上安定しているときに限らずに学習を行ない、様々なケースにおいても、適用可能な設定温度に達するための空調制御の学習を行なう。この時の学習を、第２段階学習と呼ぶことにする。

　第２段階学習では、第１段階学習の結果も利用するとともに、第１段階学習では空調の対象空間３０の状態が一定時間以上安定しているかどうかの判断として使用していた開閉センサ３Ａ，３Ｂの情報を学習情報として利用する。さらに、第２段階学習においても、図示しないが、外気温度センサ、人感センサ、天気を判断する照度センサ、などのセンサ情報を使うことができる。

　このように複数段階に分けて学習を行なう方が、精度の高い空調制御の学習済みモデルを早期に得ることができる。

　なお、外乱の影響を一つずつ確認する学習を行なった後に、学習を行なったすべての外乱の影響下での学習を行なう、のようにさらに細かく段回に分けて行なってもよい。

　第１段階学習から第２段階学習への遷移は、運転日数または学習フロー実行回数によって実行される。たとえば、空調システム１０を設置してから３日間は第１段階の学習が実行される。そして、第１段階の学習で生成されたモデルは、そのまま第２段階の学習に引き継がれ、さらなる学習が行なわれる。

　逆に、第２段階学習から第１段階学習への遷移は、設定温度Ｔｓｅｔと温度センサ２Ａ，２Ｂで検知された温度ＴＡ，ＴＢとの乖離がしきい値以上になった場合または冷房運転と暖房運転との間でモードの切り替えが行なわれた場合に発生する。

　以下、第１段階学習および第２段階学習の詳細について説明する。図３は、第１段階学習における制御を説明するためのフローチャートである。

　空調システム１０を設置して、冷房運転または暖房運転が初回に運転された場合、もしくは、冷房運転から暖房運転に、または暖房運転から冷房運転にモードが切り替えられた場合、第１段階の学習が開始される。その後、予め定められた運転日数の間、または学習が一定回数実行される間は、第１段階の学習が実行される。

　ステップＳ１において、リモコン１は、温度センサ２Ａ，２Ｂ，１３から温度ＴＡ，ＴＢ，Ｔｒを取得するとともに、開閉センサ３Ａ，３Ｂからドアまたは窓の開閉状態ＯＳＡ，ＯＳＢを取得する。ステップＳ２において、リモコン１は、開閉センサ３Ａ，３Ｂから得た開閉状態ＯＳＡ，ＯＳＢに基づいてドア等がすべて開放状態か否かを判断する。

　開閉センサ３Ａ，３Ｂから得た情報がドアまたは窓が閉じていることを示す場合、その開閉センサとペアリングされている温度センサの情報を第１段階において学習に使用する。ドア開閉センサ情報がドアまたは窓が開いていることを示す場合、そのドア開閉センサとペアリングされている温度センサの情報は第１段階では学習に使用しない。

　したがって、ドア等がすべて開放状態であると判断された場合（Ｓ２でＹＥＳ）、リモコン１と接続されているすべての温度センサの情報が使用できない。その場合には、ステップＳ３においてｎ秒（ｎは自然数）の時間を待ってから、再度ステップＳ１において情報取得をする。

　ドア等のいずれかが閉じていると判断された場合（Ｓ２でＮＯ）、ステップＳ４に処理が進められる。ステップＳ４では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン１は、温度センサ２Ａ，２Ｂおよび温度センサ１３から、対象空間３０の温度ＴＡ，ＴＢ，Ｔｒを取得し、ユーザがリモコン１に設定した設定温度Ｔｓｅｔ、風量、風向などを取得する。

　続いて、ステップＳ５において、リモコン１は、室内ユニット４Ａ，４Ｂに制御信号を送信し、ｍ分間（ｍは自然数）の空調装置２０の運転を実行する。たとえば、初回は、リモコン１に設定された設定温度Ｔｓｅｔよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始される。

　そしてｍ分間の運転が行なわれた後、ステップＳ６において、リモコン１は、温度センサ２Ａ，２Ｂ，１３から温度を取得するとともに、開閉センサ３Ａ，３Ｂからドアまたは窓の開閉状態ＯＳＡ，ＯＳＢを取得する。ステップＳ７において、リモコン１は、開閉センサ３Ａ，３Ｂからドア等がすべて開放状態か否かを判断する。ドア等がすべて開放状態であると判断された場合（Ｓ７でＹＥＳ）、ステップＳ８においてｎ秒の時間を待ってから、再度ステップＳ６において情報取得をする。

　ドア等のいずれかが閉じていると判断された場合（Ｓ７でＮＯ）、ステップＳ９に処理が進められる。ステップＳ９では、開閉センサからの開閉状態がドア等が閉じていることを示す場合、リモコン１は、その開閉センサとペアリングされている温度センサの情報を抽出し、設定温度Ｔｓｅｔと抽出した温度情報とを比較し、乖離が少ないときはその制御内容（吹き出し温度、風量、風向等）を強化する（学習する）。学習には、例えばＱ学習が用いられ、評価関数が更新される。

　そして再びステップＳ５～Ｓ９の処理が繰返し実行されることによって、リモコン１は、室内ユニット４Ａ，４Ｂの各々に送信する制御内容を学習する。

　図４は、リモコン１のＣＰＵおよびメモリで実現される機械学習装置の構成図である。学習装置１００は、データ取得部１１０と、モデル生成部１２０とを備える。

　データ取得部１１０は、室内ユニット４Ａ，４Ｂに設定されている吹き出し温度Ａ１，Ｂ１、風量Ａ２，Ｂ２、風向Ａ３，Ｂ３と、開閉センサ３Ａ，３Ｂが検出した開閉状態ＯＳＡ，ＯＳＢと、開閉センサ３Ａ，３Ｂにペアリングされている温度センサ２Ａ，２Ｂからの温度ＴＡ，ＴＢと、リモコン１に設定されている設定温度Ｔｓｅｔとを学習用データとして取得する。

　室内ユニットに設定されている吹き出し温度、風量、風向は、強化学習における「行動」に相当する。また、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とは、強化学習における「状態」に相当する。

　モデル生成部１２０は、「行動」、「状態」を含む学習用データに基づいて、室内ユニット４Ａに設定する吹き出し温度Ａ１、風量Ａ２、風向Ａ３と、室内ユニット４Ｂに設定する吹き出し温度Ｂ１、風量Ｂ２、風向Ｂ３とを学習する。室内ユニットに設定する吹き出し温度、風量、風向は、強化学習における「制御出力」に相当する。

　すなわち、モデル生成部１２０は、リモコン１に設定された設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報（状態）から室内ユニットに設定する吹き出し温度、風量、風向（出力）を推論する学習済モデルを生成する。

　モデル生成部１２０が用いる学習アルゴリズムは教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習（Reinforcement　Learning）を適用した場合について説明する。強化学習では、ある環境内におけるエージェント（行動主体）が、現在の状態（環境のパラメータ）を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Ｑ学習（Q-learning）およびＴＤ学習（TD-learning）が知られている。例えば、Ｑ学習の場合、行動価値関数Ｑ（ｓ，ａ）の一般的な更新式は式（１）で表される。

　式（１）において、ｓ_ｔは時刻ｔにおける環境の状態を表し、ａ_ｔは時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変わる。ｒ_ｔ＋１はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは０＜γ≦１、αは０＜α≦１の範囲とする。

　室内ユニットに設定されている吹き出し温度、風量、風向が行動ａ_ｔとなり、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とが状態ｓ_ｔとなり、時刻ｔの状態ｓ_ｔにおける最良の行動ａ_ｔを学習する。

　式（１）で表される更新式は、時刻ｔ＋１における最もＱ値の高い行動ａの行動価値Ｑが、時刻ｔにおいて実行された行動ａの行動価値Ｑよりも大きければ、行動価値Ｑを大きくし、逆の場合は、行動価値Ｑを小さくする。換言すれば、時刻ｔにおける行動ａの行動価値Ｑを、時刻ｔ＋１における最良の行動価値に近づけるように、行動価値関数Ｑ（ｓ，ａ）を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。

　上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部１２０は、報酬計算部１２１と、関数更新部１２２と、を備えている。

　報酬計算部１２１は、「行動」、「状態」に基づいて報酬を計算する。報酬計算部１２１は、報酬基準（後述の報酬増大基準と報酬減少基準の総称）に基づいて、報酬ｒを計算する。例えば、報酬増大基準に該当する場合には報酬を増大させ（例えば「１」の報酬を与える。）、他方、報酬減少基準に該当する場合には報酬を低減する（例えば「－１」の報酬を与える。）。

　たとえば、抽出された温度センサで検出された温度が設定温度に近いほど、高い報酬を与えるように報酬基準が設定される。具体的には、温度センサが複数の場合には、たとえば、検出温度と設定温度との差の大きさの平均値、または差の二乗和の平均値などに基づいて報酬が決定されるようにする。

　関数更新部１２２は、報酬計算部１２１によって計算される報酬に従って、「制御出力」を決定するための関数を更新し、学習済モデル記憶部１０１に出力する。例えばＱ学習の場合、式（１）で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を「制御出力」を算出するための関数として用いる。

　以上のような学習を繰り返し実行する。学習済モデル記憶部１０１は、関数更新部１２２によって更新された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）、すなわち、学習済モデルを記憶する。

　次に、図５を用いて、学習装置が学習する処理について説明する。図５は学習装置の学習処理に関するフローチャートである。

　ステップＳ１１において、データ取得部１１０は、「行動」、「状態」を学習用データとして取得する。

　ステップＳ１２において、モデル生成部１２０は「行動」、「状態」に基づいて報酬を計算する。具体的には、報酬計算部１２１は、「行動」、「状態」を取得し、予め定められた報酬基準に基づいて報酬を増加させるか又は報酬を減じるかを判断する。

　報酬計算部１２１は、報酬を増大させると判断した場合に、ステップＳ１３において報酬を増大させる。一方、報酬計算部１２１は、報酬を減少させると判断した場合に、ステップＳ１４において報酬を減少させる。

　そして、ステップＳ１５において、関数更新部１２２は、報酬計算部１２１によって計算された報酬に基づいて、学習済モデル記憶部１０１が記憶する式（１）で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する。

　学習装置１００は、以上のステップＳ１１からＳ１５までの処理を繰り返し実行し、生成された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を学習済モデルとして記憶する。

　なお、本実施の形態に係る学習装置１００は、学習済モデルを学習装置の外部に設けられた学習済モデル記憶部１０１に記憶するものとしたが、学習済モデル記憶部１０１を学習装置の内部に備えていてもよい。
＜活用フェーズ＞
　図６は、リモコン１のＣＰＵおよびメモリで実現される推論装置の構成図である。推論装置２００は、データ取得部２０１と、推論部２０２とを備える。

　データ取得部２０１は、空調システム１０の「状態」を取得する。「状態」は、設定温度Ｔｓｅｔと、温度センサからの温度ＴＡ，ＴＢのうち開閉センサの開閉状態ＯＳＡ，ＯＳＢによって抽出された温度を含む。

　推論部２０２は、学習済モデル記憶部１０１に記憶されている学習済モデルを利用して「制御出力」を推論する。「制御出力」は、室内ユニット４Ａ，４Ｂにそれぞれ設定する吹き出し温度Ａ１，Ｂ１、風量Ａ２，Ｂ２、風向Ａ３，Ｂ３を含む。学習済モデルにデータ取得部２０１が取得した「状態」を入力することで、「状態」に適した「制御出力」を推論することができる。

　なお、本実施の形態では、空調システム１０のリモコン１のモデル生成部１２０で学習した学習済モデルを用いて「制御出力」を出力するものとして説明したが、他の空調システムのリモコンから学習済モデルを取得し、リモコン１が取得した学習済モデルに基づいて「制御出力」を出力するようにしてもよい。

　次に、図７を用いて、学習装置を使って「制御出力」を得るための処理を説明する。図７は学習装置の推論処理に関するフローチャートである。

　ステップＳ２１において、データ取得部２０１は「状態」を取得する。
　続いて、ステップＳ２２において、推論部２０２は学習済モデル記憶部１０１に記憶された学習済モデルに「状態」を入力し、「制御出力」を得る。推論部２０２は得られた「制御出力」を室内ユニット４Ａ，４Ｂに出力する。

　ステップＳ２３において、室内ユニット４Ａ，４Ｂは、「制御出力」を用いて、吹き出し温度、風向、風量を制御する。これにより、空調の対象空間３０を均一に設定温度に近づけることができる。

　なお、本実施の形態では、推論部２０２が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。なお、第１段階と第２段階で学習アルゴリズムを切り替えても良い。たとえば、第１段階は教師あり学習、第２段階は強化学習の学習アルゴリズムを採用しても良い。

　また、モデル生成部１２０に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習（Deep　Learning）を用いることもでき、他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンなどに従って機械学習を実行してもよい。

　なお、学習装置１００及び推論装置２００は、例えば、ネットワークを介してリモコン１に接続され、このリモコン１とは別個の装置であってもよい。また、学習装置１００及び推論装置２００は、何れかの室内ユニットまたは室外ユニットに内蔵されていてもよい。さらに、学習装置１００及び推論装置２００は、クラウドサーバ上に存在していてもよい。

　また、モデル生成部１２０は、１対の温度センサおよび開閉センサから取得される学習用データを用いて、または３対以上の温度センサおよび開閉センサから取得される学習用データを用いて「制御出力」を学習するようにしてもよい。また、学習用データを収集する温度センサおよび開閉センサを途中で対象に追加したり、対象から除去したりすることも可能である。また制御の対象となる室内ユニットを途中で対象に追加したり、対象から除去したりすることも可能である。

　次に、第２段階の学習について説明する。図８は、学習の第２段階における制御を説明するためのフローチャート（前半部）である。図９は、学習の第２段階における制御を説明するためのフローチャート（後半部）である。

　リモコンのスイッチＯＮ時には、Ｓ３１～Ｓ３４において、第１段階の学習と同様にセンサからの情報取得と初期状態の確定が行なわれる。

　ステップＳ３１において、リモコン１は、温度センサ２Ａ，２Ｂ，１３から温度ＴＡ，ＴＢ，Ｔｒを取得するとともに、開閉センサ３Ａ，３Ｂからドアまたは窓の開閉状態ＯＳＡ，ＯＳＢを取得する。ステップＳ３２において、リモコン１は、開閉センサ３Ａ，３Ｂから開放状態のドア等があるか否かを判断する。

　開放状態のドア等があった場合（Ｓ３２でＹＥＳ）、リモコン１は、ステップＳ３３において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。

　図１０は、温度センサの温度補正値の一例を示す図である。たとえば、温度センサ２Ａを窓、温度センサ２Ｂをドア付近に設置している場合、温度補正値の一例は、以下のような関係となる。

　冷房運転時には、窓付近に設置された温度センサ２Ａの温度補正値は、－４℃、ドア付近に設置された温度センサ２Ｂの温度補正値は、－１．５℃に設定される。

　たとえば、冷房運転中に窓が開いたとすると、開く前は、２５℃であった温度が一時的に外気温度２９℃を検出する場合がある。したがって、窓が閉じられて外乱が収まったあとは、検出温度が下がるだろうと予想されるので、温度補正値が－４℃に設定され、２９℃であった検出温度が２５℃に補正される。なお、ドアの場合には外気よりも廊下の空気の方が設定温度との差が小さいと考えられるので、温度補正値の絶対値も小さく設定されている。言い換えると、窓からは外気が直接侵入するので、外乱としては大きく、ドアは、外気よりも室温に近い空気が入るため、外乱としては少ないと考えることができる。

　同様な考えで、暖房運転時には、温度センサ２Ａの温度補正値は、＋４℃、温度センサ２Ｂの温度補正値は、＋１．５℃に設定される。

　ステップＳ３３では、リモコン１は、温度補正値を適用した温度センサを記憶しておく。以上の温度補正値に関しては制御開始時には一定の値とするが、空調制御を行なう環境に適応していくよう変化するものとする。

　具体的な補正値の変更は、後にステップＳ４２で説明するが、それぞれの温度センサ情報におけるドア開放検知時の温度と短時間経過後のドア閉鎖検知時の温度を比較して行なう。

　ステップＳ３３において温度補正が実行された場合、またはステップＳ３２において開放状態のドア等が無いと判断された場合には、ステップＳ３４に処理が進められる。

　ステップＳ３４では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン１は、温度センサ２Ａ，２Ｂおよび温度センサ１３から、空調の対象空間３０の温度ＴＡ，ＴＢ，Ｔｒを取得し、ユーザがリモコン１に設定した設定温度Ｔｓｅｔ、風量、風向などを取得する。

　続いて、ステップＳ３５において、リモコン１は、室内ユニット４Ａ，４Ｂに制御信号を送信し、ｍ分間（ｍは自然数）の空調システムの運転を実行する。図３のステップＳ４では、初回であったので、リモコンに設定された設定温度Ｔｓｅｔよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始されたが、ステップＳ３５では、第１段階の学習結果を反映した学習モデルによって吹き出し温度Ａ１，Ｂ１が推定され、推定された吹き出し温度を実現するように室内ユニット４Ａ，４Ｂが運転を行なう。

　そしてｍ分間の運転が行なわれた後、ステップＳ３６において、リモコン１は、温度センサ２Ａ，２Ｂ，１３から温度を取得するとともに、開閉センサ３Ａ，３Ｂからドアまたは窓の開閉状態ＯＳＡ，ＯＳＢを取得する。ステップＳ３７において、リモコン１は、開閉センサ３Ａ，３Ｂからドア等の各々が、前回情報取得時に開放状態だったか否かを判断する。

　ドア等の各々が、前回情報取得時に開放状態だった場合（Ｓ３７でＹＥＳ）、リモコン１は、ステップＳ３８において、開閉センサ３Ａ，３Ｂからドア等の各々が、現在開放状態であるか否かを判断する。

　現在ドア等が開放状態であると判断された場合（Ｓ３８でＹＥＳ）、リモコン１は、ステップＳ３９においてｎ秒の時間を待ってから、再度ステップＳ３６において情報取得をする。前回情報取得時および現在の両方において開放状態であるドア等がある場合は、空調の対象空間３０が換気中などであると考えられ、取得した情報は、学習および制御を行なうための情報としては使用しない方が良いからである。

　すなわち、前回情報取得時も今回情報取得時もドアまたは窓が開放状態であった場合には、換気中であるなど学習のための情報収集に不適切な状況であるため、取得した温度は学習には使用しない。

　一方、ドア等の各々が、前回情報取得時に開放状態でなかった場合（Ｓ３７でＮＯ）、リモコン１は、ステップＳ４０において、開閉センサ３Ａ，３Ｂからドア等の各々が、現在開放状態であるか否かを判断する。前回閉じていたドアの開放がある場合には（Ｓ４０でＹＥＳ）、開放されているドアに対応する温度センサには温度補正値が適用される。

　すなわち、現在ドア等が開放状態であると判断された場合（Ｓ４０でＹＥＳ）、リモコン１は、ステップＳ４１において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。この補正については、ステップＳ３３と同様な処理であり、説明は繰返さない。

　また、ステップＳ３８において、現在ドア等が開放状態でないと判断された場合（Ｓ３８でＮＯ）は、温度補正値を適用していた外乱ありの状態から、外乱なしの状態に遷移した場合に該当する。この場合、リモコン１は、ステップＳ４２において、前回情報取得時に開放状態であり、現在閉じているドア等に対応する温度センサの温度補正値を評価し、温度補正値を修正する。具体的には、補正が不要な現在の温度センサの検出値と、外乱のために温度補正値を適用した前回の温度センサの補正後の検出値とを比較する。言い換えると、前回情報取得時に開放されていたドア等が現在閉じている場合には、補正値が適切か否かが判断される。

　たとえば、前回補正後の検出温度が２５℃で、今回補正しない検出温度が２５℃であった場合には、温度補正値は適切と考えられるため修正されない。一方、前回補正後の検出温度が２５℃で、今回補正しない検出温度が２１℃であった場合には、温度補正値が修正される。より具体的には、温度補正値が－４℃であった場合、前回検出温度が２９℃で、これが２５℃に補正されたと考えられる。このとき、外乱が無くなると補正していない検出温度が２１℃となった。補正後の温度２５℃は、実際にはもっと低かったので、温度補正幅が不足していたと考えられる。そこで、ズレを小さくするために温度補正値は－４℃から－４．１℃に修正され補正量が増加される。このように、温度補正値を使用する外乱ありの状態から外乱なしの状態に遷移した場合に、ズレを小さくする方向に温度補正値をすこしずつ修正することによって、温度補正値も適切な値に落ち着いていく。なお、補正値の精度は、上記の例では０．１℃単位としているが、使用する温度センサによって、０．０５℃単位とするなど任意の設定を可能としても良い。

　ステップＳ４０で現在ドア等が開放状態でないと判断された場合は、外乱を排除した第１段階の学習と同様な学習がステップＳ４３で実行される。また、ステップＳ４１またはステップＳ４２で温度補正値が適用された場合も、ステップＳ４３に処理が進められる。ステップＳ４３では、開閉センサからの開閉状態から当該ドア等が閉じている場合、その開閉センサとペアリングされている温度センサの温度情報を抽出し、設定温度と抽出した温度情報を比較し、乖離が少ないときはその制御内容（吹き出し温度、風量、風向等）を強化する（学習する）。

　ステップＳ４３の学習処理の詳細は、ステップＳ９と同様であるので、ここでは説明は繰返さない。

　そして再びステップＳ３５～Ｓ４３の処理が繰返し実行されることによって、リモコン１は、室内ユニット４Ａ，４Ｂの各々に送信する制御内容を学習する。

　以上説明したように、リモコン１は、第２段階の学習では、ドア開閉センサからの情報が当該ドア等が開いていることを示す場合でも、そのドア開閉センサとペアリングされている温度センサの情報を学習に使用する。ただし、ドア等が開いていた場合に取得した温度は温度補正値を適用してから学習に使用する。

　なお、温度補正値、および学習される制御内容は、冷房運転、暖房運転のモードにより別々に記憶され、保存される。

　また、本実施の形態で説明した空調システムは、オフィス空間のように多くの人が存在する環境に適用することを想定しているが使用者が限られている住宅等への適用も可能である。

　（まとめ）
　本開示は、空調装置２０の制御パラメータを推定する推定モデルを学習する情報処理装置であるリモコン１に関する。情報処理装置は、図４に示すように、空調の対象空間の状態を示す第１データと、対象空間３０が安定しているか否かを示す第２データと、空調装置に設定される対象空間３０の温度の目標値である設定温度Ｔｓｅｔを示す第３データを取得するデータ取得部１１０と、データ取得部１１０によって取得された、第１～第３データを含む学習用データに基づき、推定モデルを生成するモデル生成部１２０とを備える。モデル生成部１２０は、データ取得部１１０によって取得された第２データが対象空間３０の安定を示す場合に第１段階の学習を行なう。モデル生成部１２０は、第１段階の学習の終了後において、データ取得部１１０によって取得された第２データが対象空間３０の安定を示さない場合に、第１段階の学習で生成された推定モデルを引き継いで、第２段階の学習を行なう。

　このように、第１段階の学習で外乱が無い状態の推定モデルを生成してから、第２段階の学習で外乱が生じても適用できる推定モデルに発展させるので、対象空間を設定温度に維持する最終的な推定モデルが早期に完成することが期待できる。

　好ましくは、図１、図２に示すように、第１データは、状態検出部２から出力される。状態検出部２は、少なくとも１つの温度センサ２Ａ，２Ｂを備える。モデル生成部１２０は、温度センサ２Ａ，２Ｂの出力と設定温度Ｔｓｅｔとの乖離度に基づいて報酬が決定される強化学習を行なう。

　好ましくは、図１、図２に示すように、第１データは、状態検出部２から出力される。図１、図２に示すように、状態検出部２は、複数の温度センサ２Ａ，２Ｂを含む。第２データは、外乱検出部３から出力される。外乱検出部３は、複数の温度センサ２Ａ，２Ｂにそれぞれ対応する複数の開閉センサ３Ａ，３Ｂを含む。複数の開閉センサ３Ａ，３Ｂの各々は、対象空間に設けられたドア３１または窓３２の開閉状態ＯＳＡ，ＯＳＢを検出する。

　このように、使用者による外部評価ではなく、設定温度と温度センサの情報及び開閉のセンサ情報を学習に必要な入力として用いて報酬を決定するため、使用者の作業（手間）を必要とせず、空調装置２０の適切な制御が実現できる。

　図１に示すように、より好ましくは、リモコン１は、記憶装置（メモリ１２）をさらに備える。複数の温度センサ２Ａ，２Ｂと複数の開閉センサ３Ａ，３Ｂの対応関係は、記憶装置（メモリ１２）に書き換え可能に記憶されている。

　このように、温度センサと開閉センサの対応関係を変更することができるため、設置または移設時などに温度センサと開閉センサの組み合わせの制限がない。

　好ましくは、図６に示すように、リモコン１は、学習済の推定モデルを用いて、データ取得部２０１によって取得された、第１～第３データ（データ取得部２０１で取得した状態検出部２の出力、外乱検出部３の出力および設定温度Ｔｓｅｔ）から制御パラメータを出力する推論部２０２をさらに備える。制御パラメータは、室内ユニット４Ａに対する吹き出し温度Ａ１、風量Ａ２、風向Ａ３の少なくとも１つと、室内ユニット４Ｂに対する吹き出し温度Ｂ１、風量Ｂ２、風向Ｂ３のうち少なくとも１つとを含む。

　好ましくは、第２段階の学習は、第３段階の学習と、第３段階の学習の終了後に実行される第４段階の学習とを含んでもよい。モデル生成部１２０は、第３段階の学習を行なう場合には、第２データが示す外乱の量が判定値以下の状況で学習を実行する。モデル生成部１２０は、第４段階の学習を行なう場合には、外乱の量が判定値より多い状況で学習を実行する。具体的には、モデル生成部１２０は、第２データに含まれるドア３１または窓３２の開閉状態ＯＳＡ，ＯＳＢのうちいずれか１つが開状態を示し、残りが閉状態を示す場合に、第３段階の学習を行なう。この場合の外乱の量は、開状態を示す開閉状態の数であり、判定値は１である。第３段階の学習によってモデルに変更が加えられた後に、モデル生成部１２０は、開閉状態ＯＳＡ，ＯＳＢの両方が開状態を示す場合に、第４段階の学習を行なう。開閉センサの数を３以上に増やした場合には、第２段階の学習をさらに多段階に分割しても良い。

　好ましくは、図１に示すように、空調装置２０は、少なくとも１つの室内ユニットを備え、制御パラメータは、室内ユニット４Ａ，４Ｂから送風される空気の吹き出し温度Ａ１，Ｂ１と、風量Ａ２，Ｂ２と、風向Ａ３，Ｂ３のうち少なくとも１つを含む。

　図１に示すように、空調装置２０は、複数の室内ユニット４Ａ，４Ｂを備える。制御パラメータは、複数の室内ユニット４Ａ，４Ｂの各々に設定される空気の吹き出し温度Ａ１，Ｂ１と、風量Ａ２，Ｂ２と、風向Ａ３，Ｂ３のうち少なくとも１つを含む。

　今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　１　リモコン、２　状態検出部、２Ａ，２Ｂ，１３　温度センサ、３　外乱検出部、３Ａ，３Ｂ　開閉センサ、４Ａ，４Ｂ　室内ユニット、５Ａ，５Ｂ　室外ユニット、７Ａ　制御信号、１０　空調システム、１２　メモリ、１４　入力装置、１５　通信装置、２０　空調装置、３０　対象空間、３１　ドア、３２　窓、１００　学習装置、１０１　学習済モデル記憶部、１１０，２０１　データ取得部、１２０　モデル生成部、１２１　報酬計算部、１２２　関数更新部、２００　推論装置、２０２　推論部。

Claims

　空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置であって、
　空調の対象空間の状態を示す第１データと、前記対象空間が安定しているか否かを示す第２データと、前記空調装置に設定される前記対象空間の温度の目標値である設定温度を示す第３データを取得する取得部と、
　前記取得部によって取得された、前記第１～第３データを含む学習用データに基づき、前記推定モデルを生成するモデル生成部とを備え、
　前記モデル生成部は、
　前記取得部によって取得された前記第２データが前記対象空間の安定を示す場合に第１段階の学習を行ない、
　前記第１段階の学習の終了後において、前記取得部によって取得された前記第２データが前記対象空間の安定を示さない場合に、前記第１段階の学習で生成された前記推定モデルを引き継いで、第２段階の学習を行なう、情報処理装置。
　前記第１データは、状態検出部から出力され、
　前記状態検出部は、少なくとも１つの温度センサを備え、
　前記モデル生成部は、前記温度センサの出力と前記設定温度との乖離度に基づいて報酬が決定される強化学習を行なう、請求項１に記載の情報処理装置。
　前記第１データは、状態検出部から出力され、
　前記状態検出部は、複数の温度センサを含み、
　前記第２データは、外乱検出部から出力され、
　前記外乱検出部は、前記複数の温度センサにそれぞれ対応する複数の開閉センサを含み、前記複数の開閉センサの各々は、前記対象空間に設けられたドアまたは窓の開閉状態を検出する、請求項１に記載の情報処理装置。
　記憶装置をさらに備え、
　前記複数の温度センサと前記複数の開閉センサの対応関係は、前記記憶装置に書き換え可能に記憶されている、請求項３に記載の情報処理装置。
　前記推定モデルを用いて、前記取得部によって取得された、前記第１～第３データから前記制御パラメータを出力する推論部をさらに備える、請求項１に記載の情報処理装置。
　前記第２段階の学習は、第３段階の学習と、前記第３段階の学習の終了後に実行される第４段階の学習とを含み、
　前記モデル生成部は、前記第３段階の学習を行なう場合には、前記第２データが示す外乱の量が判定値以下の状況で学習を実行し、
　前記モデル生成部は、前記第４段階の学習を行なう場合には、前記外乱の量が判定値より多い状況で学習を実行する、請求項１に記載の情報処理装置。
　前記空調装置は、少なくとも１つの室内ユニットを備え、
　前記制御パラメータは、前記室内ユニットから送風される空気の吹き出し温度と、風量と、風向のうち少なくとも１つを含む、請求項１～６のいずれか１項に記載の情報処理装置。
　前記空調装置は、複数の室内ユニットを備え、
　前記制御パラメータは、前記複数の室内ユニットの各々に設定される空気の吹き出し温度と、風量と、風向のうち少なくとも１つを含む、請求項１～６のいずれか１項に記載の情報処理装置。
　前記空調装置と、
　請求項１～８のいずれか１項に記載の情報処理装置とを備える、空調システム。