WO2022038674A1

WO2022038674A1 - デバイス制御装置、デバイス制御プログラム、環境分類装置、および、アクチュエータ制御装置

Info

Publication number: WO2022038674A1
Application number: PCT/JP2020/031125
Authority: WO
Inventors: 博史野口; 操片岡; 卓万磯田; 恭太服部
Original assignee: 日本電信電話株式会社
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-02-24
Also published as: JP7396502B2; JPWO2022038674A1; US20230298318A1

Abstract

デバイス制御装置（１）は、分類テーブル（１５）を参照し、今回のセンサデバイス（２２）から取得した今回のセンサ情報に分類ラベルを付与する分類部（１２）と、モデルテーブル（１４）を参照し、分類部（１２）が付与した分類ラベルに対応する学習モデルを強化モデル（１６）として選択し、強化モデル（１６）を用いてアクチュエータデバイス（２１）を制御するとともに、その制御にしたがってセンサデバイス（２２）から取得したセンサ情報をもとに、強化モデル（１６）を強化学習する制御部（１１）と、を有する。

Description

デバイス制御装置、デバイス制御プログラム、環境分類装置、および、アクチュエータ制御装置

　本発明は、デバイス制御装置、デバイス制御プログラム、環境分類装置、および、アクチュエータ制御装置に関する。

　今日、IoT（Internet of Things）の急速な普及拡大により、多種多様かつ膨大な数のデバイスがネットワークに接続されつつある。2025年には100億台を超えるデバイスがインターネットに接続されると言われている。今後、家庭や工場、街頭など様々な環境に多くのデバイスが設置され、それらを利用した多様なサービスの登場が予想される。

　デバイスを利用して実施されるサービスの例として、センサデバイスを利用して環境から情報を収集し、その情報をもとにアクチュエータデバイスを制御するサービスがある。センサデバイスは、カメラや温度センサなどの環境から情報を取得するデバイスである。アクチュエータデバイスは、スピーカ、ライト、ディスプレイなどの環境へ物理的な作用を及ぼすデバイスである。

　一般に、このような物理空間に配備された複数のデバイスから構成されるシステムは、設置条件や環境変化の影響を受けるため、連携動作させるための制御論理が複雑になる。例えば、環境内に設置された温度センサをもとにした暖房機の制御では、温度センサと暖房機の距離が離れている場合には、暖房機の出力結果が観測地点の温度に反映されるまでに時間を要する。

　そのため、反映されるまでに時間を考慮した暖房機の出力調整が必要である。また、人がいる場所のみを温めるといった高度な制御を行うには、近傍のセンサを用いて、人の位置をリアルタイムに感知、推定することも必要である。
　このように、複数デバイスを連携させるシステムの構築には、従来は多大な時間と専門知識を要する設計や検証が必要であり、サービスの安価かつ迅速な提供の障害となっている。

　非特許文献１には、複数のデバイスを連携したシステムの構築ツール例として、R-env:連舞というツールが記載されている。本ツールは、デバイス間のインタフェース差分の吸収機能や、連携シナリオの設計GUIツールを提供することで、デバイス連携サービスの開発者の負担を低減する。しかし、デバイスの連携動作に伴う個々のデバイスの詳細な制御論理については、依然として人手による設計や事前の調整が必要である。

　例えば、カメラ映像からロボットを目標物へ移動させるシステムを考える。カメラの撮影映像に基づいて、ロボットの位置座標と目標物への距離を求める制御論理を設計し、さらに、目標地点へ向かうためのロボットの移動方向と速度とを算出する制御論理を設計する必要がある。これらの制御論理は、カメラとロボットの位置関係や筐体サイズなどの、IoTデバイスが配置される環境を考慮する必要がある。
　この環境は、膨大な数の設置位置と種類の組み合わせにより様々に変化する。よって、様々な環境に応じたIoTデバイスの論理設計を全て人手で対応するには、多大な労力を要する。

　一方、非特許文献２には、機械学習の手法として、報酬を最大化するように学習モデルを改善する強化学習が記載されている。学習モデルは、例えば、過去の実績をもとにして、カメラ映像に応じた適切なロボット移動量を出力する制御論理が実装されたものである。
　これにより、環境に応じた適切な学習モデルを自動的に作成し、その学習モデルを用いてアクチュエータ制御することで、複雑な制御論理を人手で調整する手間を削減できる。

松元崇裕、松村成宗、細淵貴司他著、"「R-env:連舞TM」クラウド対応型インタラクション制御技術"、The 30th Annual Conference of the Japanese Society for Artificial Intelligence,2016,1I4-NFC-02b-1 Aurelien Geron著、「scikit-learnとTensorFlowによる実践機械学習」、オライリー・ジャパン、2018年04月発行

　非特許文献２などの一般的な機械学習は、学習モデルの作成環境と使用環境との差が大きいと効用が得られないため、再現性がない環境への適用は難しい。例えば、近傍の複数カメラの撮影映像を活用してロボットを目標物へ移動させるシステムを機械学習によって構成するには、カメラの設置位置が固定され、地形や障害物が変化しないことが望ましい。なぜならば、環境が変化する場合には、起こり得る全ての状況を網羅する学習を行う必要があり、そのためには多大な時間をかけて大量のデータを収集する必要がある。

　一方、将来のサービスは、日常を取り巻く様々な環境において、ネットワークにつながる多種多様な種類、位置関係のデバイスを組み合わせて実現されると予想される。よって、過去に作成した学習モデルを将来のサービスに流用するときに、過去の学習時の環境を完全に再現する将来の環境は少ない。

　また、システムを構成するデバイスの種類や位置関係の多様さに加えて、外気温や照度、遮蔽物の有無といったシステムの稼動環境の多様さも考慮する必要がある。よって、起こり得る状況の多様さは甚大であり、多様な環境１つ１つを網羅するように学習モデルを準備することは、コスト的に困難である。非特許文献１などの従来の開発ツールには、環境の多様さに配慮したものは存在しなかった。

　そこで、本発明は、多様な環境内でも適切なアクチュエータ制御を行うための学習モデルを効率的に構築することを主な課題とする。

　前記課題を解決するために、本発明のデバイス制御装置は、以下の特徴を有する。
　本発明は、システム稼働環境に配置された、センサデバイスとアクチュエータデバイスとに通信接続されるデバイス制御装置であって、
　過去に前記センサデバイスから取得した過去のセンサ情報から分類ラベルを対応付ける分類特定用データを参照し、今回の前記センサデバイスから取得した今回のセンサ情報に分類ラベルを付与する分類部と、
　前記分類ラベルと、当該分類ラベルごとにあらかじめ用意される学習モデルとを対応付けるモデル特定用データを参照し、前記分類部が付与した分類ラベルに対応する学習モデルを強化モデルとして選択し、
　前記強化モデルを用いて前記アクチュエータデバイスを制御するとともに、その制御にしたがって前記センサデバイスから取得したセンサ情報をもとに、前記強化モデルを強化学習する制御部と、を有することを特徴とする。

　本発明によれば、多様な環境内でも適切なアクチュエータ制御を行うための学習モデルを効率的に構築することができる。

本実施形態に係わるデバイス制御システムの構成図である。本実施形態に係わるデバイス制御装置のハードウェア構成図である。本実施形態に係わるモデルテーブルおよび分類テーブルの構成図である。本実施形態に係わる図３から既存モデルの強化学習後の状態を示すモデルテーブルおよび分類テーブルの構成図である。本実施形態に係わる図３から新規モデルの追加後の状態を示すモデルテーブルおよび分類テーブルの構成図である。本実施形態に係わる分類部が実行する分類処理を示すフローチャートである。本実施形態に係わる図６に続き、分類部が実行する再分類処理を示すフローチャートである。本実施形態に係わる制御部が実行する強化学習の実行処理を示すフローチャートである。本実施形態に係わる図８に続き、制御部が実行する強化学習後の処理を示すフローチャートである。本実施形態に係わる報酬の評価値の判定処理の詳細を示すグラフである。

　以下、本発明の一実施形態について、図面を参照して詳細に説明する。

　図１は、デバイス制御システム１００の構成図である。
　デバイス制御システム１００は、１つ以上のアクチュエータデバイス２１および１つ以上のセンサデバイス２２が配備されたシステム稼働環境２と、そのシステム稼働環境２の各デバイスを制御するためのデバイス制御装置１とが、ネットワークで接続されて構成される。
　システム稼働環境２の各デバイス（アクチュエータデバイス２１、センサデバイス２２）はネットワークを介して接続されており相互に情報交換できる。

　システム稼働環境２の環境下の各デバイスの種類、各デバイスの設置位置（レイアウト）、および、設置位置における環境条件のうちの少なくとも１つにより、同じ物理空間でもシステム稼働環境２が異なることもある。例えば、同じ部屋に同じデバイスを配置する場合でも、各デバイスの設置位置（レイアウト）を変化させたときはシステム稼働環境２も変化前とは異なるものとしてもよい。
　さらに、同じ部屋に同じデバイスを同じレイアウトで配置しても、環境条件を変化させたとき（例えば朝から夜に変化、夏から冬に変化など）はシステム稼働環境２も変化前とは異なるものとしてもよい。
　このように、システム稼働環境２を多様化させることで、それぞれの環境に特化した精度の高い学習モデルを構築しやすくなる。

　アクチュエータデバイス２１は、システム稼働環境２内（室内など）に設置され、システム稼働環境２内に作用するデバイスである。例えば、アクチュエータデバイス２１はスピーカ、ライト、ディスプレイ、空調機などの室内に固定の機器でもよいし、室内を移動するロボットでもよい。
　センサデバイス２２は、システム稼働環境２内に設置され、システム稼働環境２に関する各種のデータを計測するデバイスである。例えば、センサデバイス２２は室内を監視するカメラでもよいし、室内の気温を計測する温度センサでもよい。
　また、アクチュエータデバイス２１とセンサデバイス２２とは、同一の筐体に集約してもよい。

　なお、センサデバイス２２に関する「センサ情報」は、以下に例示する１つ以上の情報である。
　・センサデバイス２２自身を示す情報。例えば、デバイスが通知する型番等の機種を示す情報。
　・センサデバイス２２とシステム稼働環境２との関係で規定される情報。例えば、センサデバイス２２がカメラであるときには、システム稼働環境２内におけるカメラの設置位置情報や、カメラの画角情報。
　・センサデバイス２２から出力される計測データ。例えば、センサデバイス２２がカメラであれば、センサ情報は画像データである。センサデバイス２２が温度センサであれば、センサ情報は気温データである。

　デバイス制御装置１は、複数のシステム稼働環境２を区別するための識別子として「分類ラベル」を用いる。分類ラベルは、過去に登録済の「既存ラベル」と、今回に新規発行した「新規ラベル」とが存在する。
　デバイス制御装置１は、制御部１１と、分類部１２と、強化データ格納部１３と、モデルテーブル（モデル特定用データ）１４と、分類テーブル（分類特定用データ）１５と、強化モデル１６と、モデル集合１７とを有する。
　なお、デバイス制御装置１の構成要素は、図１で示したように１つの筐体に収容してもよいし、複数の筐体に分散して収容してもよい。例えば、デバイス制御装置１は、分類部１２と分類テーブル１５とを有する環境分類装置３、および、制御部１１と強化データ格納部１３とモデルテーブル１４と強化モデル１６とモデル集合１７とを有するアクチュエータ制御装置４に機能を分散してもよい。

　分類部１２は、センサデバイス２２からのセンサ情報を入力とし、分類テーブル１５（詳細は図３）を参照して、センサ情報に対応する分類ラベルを出力する。これにより、入力したセンサ情報のセンサデバイス２２が稼働するシステム稼働環境２を分類する。
　制御部１１は、分類部１２からの分類ラベルを受け、モデルテーブル１４（詳細は図３）を参照して、分類ラベルに対応する学習モデルをモデル集合１７として登録済の既存モデルから選択する。
　選択された学習モデルは、強化モデル１６として転移（データコピー）され、アクチュエータデバイス２１の制御に使用される。強化モデル１６は、センサ情報を入力とし、そのセンサ情報に適したアクチュエータデバイス２１の制御量を出力する。制御量とは、例えば、移動可能なアクチュエータデバイス２１の移動方向と移動距離との組み合わせ情報である。

　さらに、制御部１１は、アクチュエータデバイス２１の制御結果に応じて変化するセンサデバイス２２からのセンサ情報を強化データとして強化データ格納部１３に格納するとともに、強化データをもとに強化モデル１６を強化学習（改善）する。強化学習は、報酬と呼ばれる任意に定めた指標値を最大とする行動を、試行の反復によって作成した学習モデルを用いて導き出す機械学習の一手法であり、例えば、非特許文献２に記載されている。

　つまり、強化学習は、センサデバイス２２から得られるシステム稼働環境２の状況と、アクチュエータデバイス２１の制御値とを、統計的なデータ処理によって機械的に（自動的に）強化モデル１６として結びつける手法である。これにより、制御論理の設計を手作業で行うよりも、工数を削減できる。
　さらに、既存モデルを強化モデル１６に転移してから強化学習を開始することで、データが無い状態から新規に学習を行う場合と比較して、学習に必要なデータ量を削減し、少数の試行で適切な解を導ける。

　図２は、デバイス制御装置１のハードウェア構成図である。
　デバイス制御装置１は、ＣＰＵ９０１と、ＲＡＭ９０２と、ＲＯＭ９０３と、ＨＤＤ９０４と、通信Ｉ／Ｆ９０５と、入出力Ｉ／Ｆ９０６と、メディアＩ／Ｆ９０７とを有するコンピュータ９００として構成される。
　通信Ｉ／Ｆ９０５は、外部の通信装置９１５と接続される。入出力Ｉ／Ｆ９０６は、入出力装置９１６と接続される。メディアＩ／Ｆ９０７は、記録媒体９１７からデータを読み書きする。さらに、ＣＰＵ９０１は、ＲＡＭ９０２に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、各処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、ＣＤ－ＲＯＭ等の記録媒体９１７に記録して配布したりすることも可能である。

　以下、図３～図５を参照して、デバイス制御装置１の処理概要を説明する。
　図３は、モデルテーブル１４および分類テーブル１５の構成図である。
　分類テーブル１５は、分類部１２がセンサ情報から分類ラベルを求めるためのテーブルである。モデルテーブル１４は、制御部１１が分類ラベルから学習モデル（モデル集合１７の既存モデル）を求めるためのテーブルである。

　なお、モデルテーブル１４および分類テーブル１５は、それぞれ対応テーブルとして図示した。しかし対応テーブルは説明をわかりやすくするためのデータ形式であり、入力情報から対応する出力情報を求められる任意のデータ形式を採用してもよい。
　例えば、センサ情報が画像の場合には、分類テーブル１５の代わりにCNN（Convolutional Neural Network）などを利用した画像分類機能によって、画像の分類結果（分類ラベル）が得られる。

　さらに、分類部１２は、今回入力されたセンサ情報「K21」と、分類テーブル１５に登録済のセンサ情報「K1,K2,K3,…」とを照合し、各センサ情報との間でどのくらい類似しているかを示す指標である「類似度」を求める。類似度は、センサ情報が画像データの場合は、画像の色相の並びや画像内の特徴点の位置などのセンサ情報から得られる特徴量を互いに比較することで、定量的な値として計算できる。
　以下に例示する類似度は、最も非類似の「0」から同一の「100」までの点数とし、点数が高いほどセンサ情報どうしが類似するものとする。
　・センサ情報「K21」と、センサ情報「K1」との間の類似度＝90。
　・センサ情報「K21」と、センサ情報「K2」との間の類似度＝80。
　・センサ情報「K21」と、センサ情報「K3」との間の類似度＝20。

　分類部１２は、最大の類似度「90」を算出したセンサ情報「K1」を採用し、その「K1」に対応する分類ラベル「L1」を含む分類結果信号を制御部１１に通知する。制御部１１は、通知された分類ラベル「L1」をモデルテーブル１４に入力し、対応する学習モデル「M1」をモデル集合１７の既存モデルから得る。なお、モデルテーブル１４は、各分類ラベルと各学習モデルとを対応付ける。

　制御部１１は、学習モデル「M1」を強化モデル１６として転移し、強化学習を開始する。しかし、学習モデル「M1」の強化学習は報酬がさほど上昇せず、あまり強化モデル１６をセンサ情報「K21」のシステム稼働環境２に最適化できなかった。そこで、制御部１１は、学習モデル「M1」が誤りである旨の再分類要求信号を分類部１２に返信する。

　分類部１２は、再分類要求信号を受け、次点の類似度「80」を算出したセンサ情報「K2」を採用し、その対応する分類ラベル「L2」を制御部１１に通知する。
　制御部１１は、通知された分類ラベル「L2」をモデルテーブル１４に入力し、対応する学習モデル「M2」をモデル集合１７の既存モデルから得る。制御部１１は、学習モデル「M2」を強化モデル１６として、強化学習を開始する。今回は学習モデル「M2」の強化学習は報酬が大きく上昇したために成功する。そこで、制御部１１は、学習モデル「M2」が正解である旨の分類確定信号を分類部１２に返信する。

　図４は、図３から既存モデルの強化学習後の状態を示すモデルテーブル１４および分類テーブル１５の構成図である。
　分類部１２は、分類確定信号を受け、今回の強化学習前のセンサ情報「K21」に加え、強化学習中に使用され強化データ格納部１３に格納しておいたセンサ情報「K22」を、分類ラベル「L2」と対応付けるように分類テーブル１５を更新する。そのため、分類確定信号にはセンサ情報「K22」が含まれる。

　制御部１１は、モデル集合１７から読み取った強化学習前の学習モデル「M2」を、強化モデル１６として強化学習した後の学習モデル「M21」に更新する。つまり、モデル集合１７の学習モデル「M2」は、学習モデル「M21」に置き換わる。
　さらに、制御部１１は、置き換わった学習モデル「M21」を、モデルテーブル１４にも反映させる。これにより、次回からも強化学習した後の学習モデル「M21」を活用できるため、強化学習の時間を短縮できる。

　図５は、図３から新規モデルの追加後の状態を示すモデルテーブル１４および分類テーブル１５の構成図である。図４では、既存ラベルに対応する既存モデルを更新する例を説明したが、図５では、新規ラベルと新規モデルとを生成する例を説明する。
　分類部１２は、今回入力されたセンサ情報「K4」と、分類テーブル１５に登録済のセンサ情報「K1,K2,K3,…」とを照合して以下の類似度を求める。
　・センサ情報「K4」と、センサ情報「K1」との間の類似度＝40。
　・センサ情報「K3」と、センサ情報「K2」との間の類似度＝20。
　・センサ情報「K2」と、センサ情報「K3」との間の類似度＝10。

　この場合、今回入力されたセンサ情報「K4」は、分類テーブル１５のどのエントリとも非類似（例えば類似度の閾値「50」未満）である。そこで、分類部１２は、今回入力されたセンサ情報「K4」用に、新規ラベル「L4」を作成して、分類テーブル１５に登録するとともに、分類結果信号に含めて制御部１１に通知する。
　制御部１１は、通知された新規ラベル「L4」がモデルテーブル１４には登録されていないので、新規ラベル「L4」に対応する新規モデル「M4」を白紙（未学習）の状態から作成して、強化モデル１６とする。そして、強化学習した後の強化モデル１６（学習モデル「M4」）は、既存モデルとしてモデル集合１７に登録される。
　以上、図３～図５を参照して、デバイス制御装置１の処理概要を説明した。以下、図６からは、デバイス制御装置１の処理の詳細を説明する。

　図６は、分類部１２が実行する分類処理を示すフローチャートである。
　分類部１２は、過去に蓄積したセンサ情報に対してシステム稼働環境２ごとに分類ラベルを付加することで、分類テーブル１５を構築する（Ｓ１０１）。分類部１２は、システム構成要求として新たなセンサデバイス２２（またはその管理者）から今回のセンサ情報を受け取り、その今回のセンサ情報を分類テーブル１５を用いて分類する（Ｓ１０２）。

　分類部１２は、Ｓ１０２の分類結果として、今回のセンサ情報に類似する（類似度が50以上の）既存ラベルが分類テーブル１５に存在するか否かを判定する（Ｓ１０３）。Ｓ１０３でYesならＳ１０４に進み、NoならＳ１０５に進む。
　Ｓ１０４では、分類部１２は、最も類似度の高い既存ラベルを、分類結果信号として制御部１１に通知する。
　Ｓ１０５では、分類部１２は、新規ラベルを作成し、分類結果信号として制御部１１に通知する。

　図７は、図６に続き、分類部１２が実行する再分類処理を示すフローチャートである。
　分類部１２は、前回の分類結果信号で送信した分類ラベルが誤りであることを示す再分類要求信号を、制御部１１から受信する（Ｓ１１１）。分類部１２は、分類結果信号で未使用の（つまりまだ分類結果として通知していない）既存ラベルが存在するか否かを判定する（Ｓ１１２）。Ｓ１１２でYesならＳ１１３に進み、NoならＳ１１４に進む。

　Ｓ１１２,Yesの場合、分類部１２は、前回分類した既存ラベルの次に類似度が高い既存ラベルを、分類結果信号として制御部１１に通知する（Ｓ１１３）。
　Ｓ１１２,Noとなるのは、分類誤りの判定を繰り返した結果、存在する全てのラベルに対応する学習モデルを適用したにもかかわらず、依然学習モデルの構築ができないと判定された場合である。そのときには、分類部１２は、今回のシステム稼働環境２を示す新規ラベルを作成し、分類結果信号として制御部１１に通知する（Ｓ１１４）。

　そして、Ｓ１１３またはＳ１１４の分類結果信号に対して制御部１１から分類確定信号が通知されたときには、分類部１２は、分類確定信号に含まれるセンサ情報（強化データ）に確定した分類ラベルを付与した結果を分類テーブル１５に保存する（Ｓ１２１）。つまり、分類確定信号が通知された分類ラベルには、分類に使用したセンサ情報に加え、分類後に制御部１１が収集して使用した全てのセンサ情報が対応付けられる。これにより、新たにシステム構成要求を受けた場合に、過去のシステム構成要求と同様の分類誤りを防止できる。

　図８は、制御部１１が実行する強化学習の実行処理を示すフローチャートである。
　制御部１１は、分類部１２から分類結果信号を受信すると（Ｓ２０１）、分類結果信号の分類ラベルを入力としてモデルテーブル１４から対応する既存モデルを検索する（Ｓ２０２）。
　制御部１１は、既存モデルが存在するか否かを判定する（Ｓ２０３）。Ｓ２０３でYesならＳ２１１に進み、NoならＳ２２１に進む。

　Ｓ２０３,Yesの場合、制御部１１は、Ｓ２０２で検索されたモデル集合１７の既存モデルを、強化モデル１６として複製し（Ｓ２１１）、その強化モデル１６に対してセンサ情報を入力としたアクチュエータ制御を行う。そして、制御部１１は、複製した強化モデル１６をもとに継続して強化学習を実行する（Ｓ２１２）。

　Ｓ２０３,Noの場合、制御部１１は、新規ラベルに対応するエントリ（対応する新規モデル）をモデルテーブル１４に追加する（Ｓ２２１）。新規モデルとは、どのシステム稼働環境２にも依存しない白紙のモデル（未学習のモデル）である。制御部１１は、事前情報が無い状態の新規モデルを強化モデル１６として強化学習を実行する（Ｓ２２２）。

　図９は、図８に続き、制御部１１が実行する強化学習後の処理を示すフローチャートである。
　制御部１１は、センサデバイス２２からのセンサ情報を強化モデル１６に入力して、アクチュエータデバイス２１への制御命令を出力する強化学習（図８のＳ２１２またはＳ２２２）を、規定試行回数まで実行する（Ｓ２３１）。制御部１１は、強化学習を行うたびに、強化モデル１６の報酬を高めるように強化モデル１６を随時更新する。なお、強化学習の実行中には、制御部１１は、収集した全てのセンサ情報を強化データ格納部１３に保存しておく。

　制御部１１は、報酬の評価値が所定閾値よりも高いか否かを判定する（Ｓ２３２）。Ｓ２３２でYesならＳ２３３に進み、NoならＳ２４１に進む。なお、新規ラベルに対応する新規モデルから新規の強化学習を行う場合には（図８のＳ２２２）、既存ラベルに対応する既存モデルを転移して強化学習を行う場合と異なり、Ｓ２３２の判定を省略してＳ２３３に処理を進める。
　また、Ｓ２３２の判定を行う契機は複数設定してもよい。例えば、判定を行う試行回数および所定閾値の組み合わせを複数用意し、学習を継続中に段階的に判定してもよい。

　Ｓ２３２,Noの場合は、システム稼働環境２でアクチュエータデバイス２１が提供するサービスの目的を達成する学習モデルを構築できない場合である。
　この場合、制御部１１は、今回の強化モデル１６（分類ラベル）の選択が誤っていたとみなして破棄し、その分類ラベルを付加した再分類要求信号を分類部１２に通知する（Ｓ２４１）。
　なお、Ｓ２４１で分類誤りと判定し、使用する学習モデルを変更する際にも、それまでに強化データ格納部１３に収集したセンサ情報は、次に適用する学習モデルへ継承する。

　Ｓ２３２,Yesの場合、制御部１１は、正しい分類が行えたのでサービスの目的を達成するまで、今回の強化モデル１６での強化学習を反復する（Ｓ２３３）。制御部１１は、例えば、Ｓ２３２の判定と同様に、一定回数の試行における強化学習の報酬の評価値をもとに、サービスの目的を達成したか否かを判定する。

　最終的にサービスの目的を達成すると、制御部１１は、強化学習を終了する。そして、制御部１１は、強化学習で更新された強化モデル１６をモデル集合１７内の複製元の学習モデルから置き換えることで、モデル集合１７に反映する（Ｓ２３４）。
　制御部１１は、強化学習に利用した分類ラベルと、強化学習に利用した強化データ格納部１３の強化データ（センサ情報）を含む分類確定信号を分類部１２に送信する（Ｓ２３５）。分類確定信号で送信する強化データには、Ｓ２４１で継承された分類誤り時の強化データを含めてもよい。

　図１０は、報酬の評価値の判定処理（図９のＳ２３２）の詳細を示すグラフである。
　グラフの横軸は、強化学習の試行回数iであり、左端を試行前（i=0）とし右端をＳ２３１の規定試行回数（i=N）とする。グラフの縦軸は、試行i回目における報酬R[i]であり、今回の試行結果を曲線７１で示す。

　制御部１１は、以下の方法１または方法２に例示されるように、獲得した報酬R[i]の統計量を用いて、報酬の評価値が高いか（Ｓ２３２,Yes）否か（Ｓ２３２,No）を判定する。報酬とは、強化学習における行動の評価を指す指標であり、強化学習を実施するうえで不可欠な要素である。
　（方法１）：報酬R[i]のi=0からi=Nまでの平均値R[E]が所定閾値よりも高いときに、報酬の評価値が高い（Ｓ２３２,Yes）とする。平均値R[E]＝（R[0]+R[1]+…R[N]）／（N+1）である。これにより、採用した学習モデルの有効性を報酬の絶対量により評価できる。
　（方法２）：報酬R[i]のi=0からi=Nまでの報酬の微分係数（直線７２の傾き７３）が所定閾値よりも高いときに、報酬の評価値が高い（Ｓ２３２,Yes）とする。これにより、採用した学習モデルの有効性を報酬の上昇度合いにより評価できる。

［効果］
　本発明は、システム稼働環境２に配置された、センサデバイス２２とアクチュエータデバイス２１とに通信接続されるデバイス制御装置１であって、
　過去にセンサデバイス２２から取得した過去のセンサ情報から分類ラベルを対応付ける分類テーブル１５を参照し、今回のセンサデバイス２２から取得した今回のセンサ情報に分類ラベルを付与する分類部１２と、
　分類ラベルと、当該分類ラベルごとにあらかじめ用意される学習モデルを対応付けるモデルテーブル１４を参照し、分類部１２が付与した分類ラベルに対応する学習モデルを強化モデル１６として選択し、
　強化モデル１６を用いてアクチュエータデバイス２１を制御するとともに、その制御にしたがってセンサデバイス２２から取得したセンサ情報をもとに、強化モデル１６を強化学習する制御部１１と、を有することを特徴とする。
　また、本発明は、デバイス制御装置１を構成するための環境分類装置３およびアクチュエータ制御装置４である。

　これにより、センサ情報から適切な学習モデルを判定し、それぞれ類似の環境に関するセンサ情報を用いて学習モデルを強化学習できる。よって、機械学習の学習空間を環境ごとに分割し、環境ごとに特化した学習モデルを生成することで、各環境に応じた適切なアクチュエータ制御を少量の学習データから導ける。
　また、デバイスの設置位置や環境の差異の機微を人手で把握することなく、自動的に適切な数の分類ラベルを生成できる。さらに、網羅的な学習データを事前に用意せずに済み、特殊なハードウェアが不要であり、ソフトウェアの機能だけで実装が可能である。

　本発明は、分類部１２が、今回のセンサ情報と所定値以上の類似度を有する過去のセンサ情報が分類テーブル１５に登録されていない場合、新規に発行する分類ラベルである新規ラベルを今回のセンサ情報に付与して分類テーブル１５を更新し、
　制御部１１が、未学習状態の学習モデルを強化モデル１６として選択し、その強化モデル１６と新規ラベルとを対応付けてモデルテーブル１４を更新することを特徴とする。

　これにより、不適切な既存モデルが誤って今回のシステム稼働環境に採用されることを予防できる。なお、これまでに扱われていない新規環境に対して、大きく異なる環境で構築した既存モデルを適用することは、不適切な制御を誘発し学習の達成を妨げてしまう。

　本発明は、制御部１１が、強化モデル１６を強化学習した結果の報酬の評価値が所定閾値未満の場合には、今回使用した強化モデル１６に対応する分類ラベルを誤りと判定して分類部１２に再分類要求信号を送信し、
　分類部１２が、再分類要求信号を受けて、まだ今回のセンサ情報に付与されていない分類ラベルを分類テーブル１５から読み出し、その読み出した分類ラベルを今回のセンサ情報に付与することを特徴とする。

　これにより、転移する学習モデルの選択が誤っていたときでも、正しい学習モデルを選択し直すことができる。

　本発明は、制御部１１が、強化モデル１６を強化学習した結果の報酬の上昇度合いが所定閾値以上の場合には、強化モデル１６の強化学習に使用したセンサ情報を強化データとして分類部１２に通知するとともに、今回の強化モデル１６を次回の同じ分類ラベルに対応する学習モデルとして保存し、
　分類部１２が、通知された強化データのセンサ情報を今回の分類ラベルに対応付けるように分類テーブル１５を更新することを特徴とする。

　これにより、新たにシステム構成要求を受けた場合に、過去のシステム構成要求と同様の分類誤りを防止できる。

　１　　　デバイス制御装置
　２　　　システム稼働環境
　３　　　環境分類装置
　４　　　アクチュエータ制御装置
　１１　　制御部（アクチュエータ制御装置）
　１２　　分類部（環境分類装置）
　１３　　強化データ格納部
　１４　　モデルテーブル（モデル特定用データ）
　１５　　分類テーブル（分類特定用データ）
　１６　　強化モデル
　１７　　モデル集合（学習モデル）
　２１　　アクチュエータデバイス
　２２　　センサデバイス
　１００　デバイス制御システム

Claims

　システム稼働環境に配置された、センサデバイスとアクチュエータデバイスとに通信接続されるデバイス制御装置であって、
　過去に前記センサデバイスから取得した過去のセンサ情報から分類ラベルを対応付ける分類特定用データを参照し、今回の前記センサデバイスから取得した今回のセンサ情報に分類ラベルを付与する分類部と、
　前記分類ラベルと、当該分類ラベルごとにあらかじめ用意される学習モデルとを対応付けるモデル特定用データを参照し、前記分類部が付与した分類ラベルに対応する学習モデルを強化モデルとして選択し、
　前記強化モデルを用いて前記アクチュエータデバイスを制御するとともに、その制御にしたがって前記センサデバイスから取得したセンサ情報をもとに、前記強化モデルを強化学習する制御部と、を有することを特徴とする
　デバイス制御装置。
　前記分類部は、前記今回のセンサ情報と所定値以上の類似度を有する過去のセンサ情報が前記分類特定用データに登録されていない場合、新規に発行する分類ラベルである新規ラベルを前記今回のセンサ情報に付与して前記分類特定用データを更新し、
　前記制御部は、未学習状態の学習モデルを前記強化モデルとして選択し、その強化モデルと前記新規ラベルとを対応付けて前記モデル特定用データを更新することを特徴とする
　請求項１に記載のデバイス制御装置。
　前記制御部は、前記強化モデルを強化学習した結果の報酬の評価値が所定閾値未満の場合には、今回使用した前記強化モデルに対応する分類ラベルを誤りと判定して前記分類部に再分類要求信号を送信し、
　前記分類部は、前記再分類要求信号を受けて、それ以前に前記今回のセンサ情報に付与されていない分類ラベルを前記分類特定用データから読み出し、その読み出した分類ラベルを前記今回のセンサ情報に付与することを特徴とする
　請求項１に記載のデバイス制御装置。
　前記制御部は、前記強化モデルを強化学習した結果の報酬の上昇度合いが所定閾値以上の場合には、前記強化モデルの強化学習に使用したセンサ情報を強化データとして前記分類部に通知するとともに、今回の前記強化モデルを次回の同じ分類ラベルに対応する学習モデルとして保存し、
　前記分類部は、通知された強化データのセンサ情報を今回の分類ラベルに対応付けるように前記分類特定用データを更新することを特徴とする
　請求項１に記載のデバイス制御装置。
　コンピュータを、請求項１ないし請求項４のいずれか１項に記載のデバイス制御装置として機能させるためのデバイス制御プログラム。
　システム稼働環境に配置された、センサデバイスとアクチュエータデバイスとに通信接続される環境分類装置であって、
　過去に前記センサデバイスから取得した過去のセンサ情報から分類ラベルを対応付ける分類特定用データを参照し、今回の前記センサデバイスから取得した今回のセンサ情報に分類ラベルを付与することで、分類ラベルごとにあらかじめ用意される学習モデルから、前記アクチュエータデバイスの制御に用いる学習モデルを特定可能とする分類部を有することを特徴とする
　環境分類装置。
　システム稼働環境に配置された、センサデバイスとアクチュエータデバイスとに通信接続されるアクチュエータ制御装置であって、
　今回の前記センサデバイスから取得した今回のセンサ情報から特定された学習モデルである強化モデルを用いて前記アクチュエータデバイスを制御するとともに、その制御にしたがって前記センサデバイスから取得したセンサ情報をもとに、前記強化モデルを強化学習する制御部と、を有することを特徴とする
　アクチュエータ制御装置。