WO2022176266A1

WO2022176266A1 - 制御システムに含まれるネットワークの通信帯域を最適化する方法、装置、プログラム、および制御システム

Info

Publication number: WO2022176266A1
Application number: PCT/JP2021/037729
Authority: WO
Inventors: 浩幸山元
Original assignee: 三菱電機株式会社
Priority date: 2021-02-16
Filing date: 2021-10-12
Publication date: 2022-08-25
Also published as: JPWO2022176266A1; JP7387053B2

Abstract

ネットワークを介した制御のリアルタイム性を向上させる。少なくとも１つの制御対象に対する制御系データを予め定められた間隔で通信する制御システムにおいて行われる、制御システムに含まれる複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する方法は、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定するステップ（Ｓ２）と、推定された通信パラメータが設定された制御システムが運転された場合の通信帯域が目標条件を充足するか否かを判定するステップ（Ｓ３，Ｓ４）とを含む。

Description

制御システムに含まれるネットワークの通信帯域を最適化する方法、装置、プログラム、および制御システム

　本開示は、制御システムに含まれるネットワークの通信帯域を最適化する方法、装置、プログラム、および制御システムに関する。

　従来、制御システムに含まれるネットワークの通信帯域を最適化する方法が知られている。たとえば、特表２００４－５３３１８４号公報（特許文献１）には、ネットワークを介したデータ伝送のための方法であって、データ伝送の予め定められた要件を満たすようデータ伝送速度を高めるために、データ・パケット・サイズがネットワーク状況に適応される方法が開示されている。当該方法においては、ファジー・ロジック・アナライザまたはニューラル・ネットワーク・アナライザによって、最適なパケットサイズおよび最適なパケット間隔が決定される。

　制御対象（たとえば産業機器または車載機器）に対するリアルタイム処理が必要とされる制御システムにおいて、当該制御システムを統合的に制御するマスタ装置は、イーサネット（登録商標）等のネットワークを介して、当該制御対象を直接に制御する制御装置と接続されることが多い。マスタ装置は、当該ネットワークを介して、制御装置および制御対象に対する制御に必要な情報を含む制御系データを定時に（たとえばサンプリングタイム毎に）制御装置に送信する。マスタ装置は、制御対象から取得されたデータを解析して、当該制御対象を制御する。リアルタイム処理が必要とされる制御システムにおいて、制御系データは、定時に送信される性質（定時性）を有する。本開示においては、定時性を有するデータの通信を定時性通信とも呼ぶ。

特表２００４－５３３１８４号公報

　制御系データの通信が行われるネットワークにおいては、制御系データよりも定時性が低い、制御装置の状態を監視するための情報系データの通信も行われる。その結果、当該ネットワークの通信帯域が情報系データに起因して変動する。また、制御装置の通信機能に起因する遅延、あるいはマスタ装置と制御装置との通信を中継する中継装置で発生する輻輳等によっても、当該ネットワークの通信帯域が変動する。さらに、当該ネットワークに含まれる装置の接続形態によっても制御系データの通信に使用される伝送路の通信帯域は変動する。

　制御系データの通信が行われるネットワークの通信帯域は、様々な要因によって動的に変動し得る。そのため、リアルタイム性を維持しながら制御システムを正常に稼働させるためには、当該ネットワークの通信帯域を動的に変動させる様々な要因を考慮して、制御システムのパラメータを適切に設定する必要がある。

　しかし、特許文献１に開示されている方法においては、制御系データの通信フレームが他のデータの通信フレームから識別されていないため、制御系データの通信が行われるネットワークの通信帯域を動的に変動させる要因を、定時性通信に関わるパラメータの設定に反映させることが困難である。また、特許文献１においてパケットサイズおよびパケット間隔の最適化のために測定されるパラメータは、接続の待ち時間および揺らぎのみである。そのため、特許文献１に開示されている方法によると、ネットワークの通信帯域を動的に変動させる、接続の待ち時間および揺らぎ以外の要因をパラメータ設定に反映させることが困難になり得る。その結果、制御系データの定時性通信を実現することが困難になり得る。

　本開示は、上記のような課題を解決するためになされたものであり、その目的は、ネットワークを介した制御のリアルタイム性を向上させることである。

　本開示の一局面に係る方法は、少なくとも１つの制御対象に対する制御系データを予め定められた間隔で通信する制御システムにおいて行われる、制御システムに含まれる複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する方法である。複数の装置は、少なくとも１つのマスタ装置と、少なくとも１つの制御装置と、少なくとも１つの中継装置とを含む。少なくとも１つのマスタ装置は、制御系データを送信する。少なくとも１つの制御装置には、少なくとも１つの制御対象が接続される。少なくとも１つの中継装置は、少なくとも１つのマスタ装置と少なくとも１つの制御装置とを中継する。ネットワークの通信帯域に関する通信パラメータを最適化する方法は、通信パラメータに初期値が設定された制御システムが運転された場合のネットワークの通信状況に関する第１パラメータとネットワークの通信品質に関する第２パラメータとを測定するステップと、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定するステップと、推定された通信パラメータが設定された制御システムが運転された場合の通信帯域が目標条件を充足するか否かを判定するステップとを含む。

　本開示の他の局面に係る装置は、制御システムに含まれる複数の通信装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する。制御システムにおいては、少なくとも１つの制御対象に対する制御系データが予め定められた間隔で通信される。複数の通信装置は、少なくとも１つのマスタ装置と、少なくとも１つの制御装置と、少なくとも１つの中継装置とを含む。少なくとも１つのマスタ装置は、制御系データを送信する。少なくとも１つの制御装置には、少なくとも１つの制御対象が接続される。少なくとも１つの中継装置は、少なくとも１つのマスタ装置と少なくとも１つの制御装置とを中継する。装置は、測定部と、推定部と、判定部とを備える。測定部は、通信パラメータに初期値が設定された制御システムが運転された場合のネットワークの通信状況に関する第１パラメータとネットワークの通信品質に関する第２パラメータとを測定する。推定部は、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定する。判定部は、推定された通信パラメータが設定された制御システムが運転された場合の通信帯域が目標条件を充足するか否かを判定する。

　本開示の他の局面に係るプログラムは、処理回路によって実行されることにより、制御システムに含まれる複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する。制御システムにおいては、少なくとも１つの制御対象に対する制御系データが予め定められた間隔で通信される。複数の装置は、少なくとも１つのマスタ装置と、少なくとも１つの制御装置と、少なくとも１つの中継装置とを含む。少なくとも１つのマスタ装置は、制御系データを送信する。少なくとも１つの制御装置には、少なくとも１つの制御対象が接続される。少なくとも１つの中継装置は、少なくとも１つのマスタ装置と少なくとも１つの制御装置とを中継する。処理回路によって実行されることによりプログラムは、通信パラメータに初期値が設定された制御システムが運転された場合のネットワークの通信状況に関する第１パラメータとネットワークの通信品質に関する第２パラメータとを測定する。処理回路によって実行されることによりプログラムは、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定する。処理回路によって実行されることによりプログラムは、推定された通信パラメータが設定された制御システムが運転された場合の通信帯域が目標条件を充足するか否かを判定する。

　本開示の他の局面に係る制御システムは、少なくとも１つの制御対象に対する制御系データを予め定められた間隔で通信する。制御システムは、複数の装置を備える。複数の装置は、少なくとも１つのマスタ装置と、少なくとも１つの制御装置と、少なくとも１つの中継装置とを含む。少なくとも１つのマスタ装置は、制御系データを送信する。少なくとも１つの制御装置には、少なくとも１つの制御対象が接続される。少なくとも１つの中継装置は、少なくとも１つのマスタ装置と少なくとも１つの制御装置とを中継する。複数の装置に含まれる装置のいずれかである特定装置は、複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する装置である。特定装置は、測定部と、推定部と、判定部とを備える。測定部は、通信パラメータに初期値が設定された制御システムが運転された場合のネットワークの通信状況に関する第１パラメータとネットワークの通信品質に関する第２パラメータとを測定する。推定部は、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定する。判定部は、推定された通信パラメータが設定された制御システムが運転された場合の通信帯域が目標条件を充足するか否かを判定する。

　本開示に係る方法、装置、プログラム、および制御システムによれば、第１パラメータおよび第２パラメータを含む入力パラメータから通信パラメータを推定することにより、ネットワークを介した制御のリアルタイム性を向上させることができる。

実施の形態１に係る制御システムの構成を示すブロック図である。図１のマスタ装置のハードウェア構成を示すブロック図である。マスタ装置と制御装置との間で行われる定時性通信に用いられる通信フレームの一例を示す図である。制御システムにおいて行われる、パラメータ設定処理の流れを示すフローチャートである。強化学習のフレームワークを説明するための図である。マスタ装置に含まれる機械学習器の入力パラメータおよび出力パラメータ（推定パラメータ）を説明するための図である。マスタ装置の機能構成を示すブロック図である。図４のフローチャートを強化学習の例に合わせて具体化したフローチャートである。実施の形態２に係る制御システムの構成を示すブロック図である。図９のマスタ装置と制御装置との間における時刻同期の手順の一例を示すシーケンス図である。時刻同期されたネットワークにおいて、定時性通信が制御周期で繰り返し行われる様子を示す図である。図１１の制御用タイムスロットを拡大した図である。実施の形態２，３の各々に係る制御システムにおいて行われる定時制通信の制御周期に含まれる各タイムスロットの通信フレーム構成の一例を示す図である。

　以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は原則として繰り返さない。

　実施の形態１．
　図１は、実施の形態１に係る制御システム１００の構成を示すブロック図である。制御システム１００は、マスタ装置１（特定装置）と、複数の制御装置２１～２Ｎ（Ｎは２以上の自然数）と、中継装置３とを備える。マスタ装置１は、通信部４１を含む。複数の制御装置２１～２Ｎは、通信部４２１～４２Ｎをそれぞれ含む。中継装置３は、通信部４３を含む。通信部４１，４２１～４２Ｎ，４３の各々は、イーサネットの通信プロトコルに対応するネットワーク機能を有する。なお、図１においては、制御システム１００に含まれるマスタ装置１の数および中継装置３の数がいずれも１である場合が示されているが、マスタ装置１の数および中継装置３の数の各々は２以上であってもよい。

　マスタ装置１は、中継装置３を介して、複数の制御装置２１～２Ｎに接続されている。通信部４１は、伝送路５を介して通信部４３に接続されている。通信部４２１～４２Ｎの各々は、伝送路５を介して、通信部４３に接続されている。マスタ装置１、複数の制御装置２１～２Ｎ、および中継装置３は、中継装置３をハブ（または、ルート）とするスター型（または、ツリー型）のネットワークを形成している。

　制御装置２１は、制御点６１１～６１８を含む。制御点６１１～６１８の各々は、センサ７と通信を行うためのインターフェースである。制御装置２２は、制御点６２１～６２９を含む。制御点６２１は、センサ７（制御対象）と通信を行うためのインターフェースである。制御点６２２～６２９の各々は、アクチュエータ８（制御対象）と通信を行うためのインターフェースである。制御装置２Ｎは、制御点６Ｎ１～６ＮＭ（Ｍは自然数）を含む。制御点６Ｎ１～６ＮＭの各々は、アクチュエータ８と通信を行うためのインターフェースである。

　マスタ装置１は、制御装置２１を制御することにより、制御点６１１～６１８の各々に接続されたセンサ７を制御する。マスタ装置１は、制御装置２２を制御することにより、制御点６２１に接続されたセンサ７、および制御点６２２～６２９の各々に接続されたアクチュエータ８を制御する。マスタ装置１は、制御装置２Ｎを制御することにより、制御点６Ｎ１～６ＮＭの各々に接続されたアクチュエータ８を制御する。

　マスタ装置１は、制御装置２１を介して制御点６１１～６１８の各々に接続されたセンサ７によって測定された測定データを取得する。マスタ装置１は、当該測定データを解析して、アクチュエータ８を操作する指令（操作指令）を決定する。マスタ装置１は、制御点６２１～６２９の各々に接続されたアクチュエータ８への操作指令を制御装置２２に送信する。マスタ装置１は、制御点６Ｎ１～６ＮＭの各々に接続されたアクチュエータ８への操作指令を制御装置２Ｎに送信する。制御装置２２は、マスタ装置１からの操作指令に従って、制御点６２１～６２９の各々に接続されたアクチュエータ８を操作する。制御装置２Ｎは、マスタ装置１からの操作指令に従って、制御点６Ｎ１～６ＮＭの各々に接続されたアクチュエータ８を操作する。

　リアルタイム処理を実現するために、制御システム１００は、予め定められた間隔（たとえば制御周期またはサンプリングタイム）内でセンサ７の測定データを取得して、当該測定データに応じてアクチュエータ８の操作を完了する必要がある。マスタ装置１は、制御装置２１～２Ｎと定期的な通信周期（定時性通信周期）で通信し、制御装置２１～２Ｎを制御する。制御装置２１は、制御点６１１～６１８の各々に接続されたセンサ７と定期的な通信周期（データ取得周期）で通信し、センサ７の測定データを取得する。制御装置２２は、制御点６２１に接続されたセンサ７とデータ取得周期で通信し、センサ７の測定データを取得する。制御装置２２は、制御点６２２～６２９の各々に接続されたアクチュエータ８と定期的な通信周期（操作周期）で通信し、アクチュエータ８を操作する。制御装置２Ｎは、制御点６Ｎ１～６ＮＭの各々に接続されたアクチュエータ８と操作周期で通信し、アクチュエータ８を操作する。

　図２は、図１のマスタ装置１のハードウェア構成を示すブロック図である。マスタ装置１、制御装置２１～２Ｎ、および中継装置３は、典型的には同様のハードウェア構成を有するネットワーク機器である。ここでは、マスタ装置１、制御装置２１～２Ｎ、および中継装置３を代表して、マスタ装置１のハードウェア構成について説明する。

　図２に示されるように、マスタ装置１は、通信部４１と、処理回路４１２と、記憶装置４１３と、入出力部４４とを含む。通信部４１、処理回路４１２、記憶装置４１３、および入出力部４４は、バス４５によって結合されている。

　通信部４１には、有線または無線で構成される伝送路５が接続されている。マスタ装置１は、通信部４１、伝送路５、および中継装置３を介して、制御装置２１～２Ｎと通信する。

　処理回路４１２は、たとえばＣＰＵ（Central　Processing　Unit）を含む。処理回路４１２は、ＧＰＵ（Graphics　Processing　Unit）を含んでいてもよい。処理回路４１２は、記憶装置４１３に記憶されたプログラムを読み出して実行することにより、マスタ装置１の各部の動作を制御する。当該プログラムには、たとえばＯＳ（Operating　System）プログラム、システム制御プログラム、および機械学習プログラムが含まれる。処理回路４１２は、当該プログラムを実行することによって、後述するマスタ装置１の機能を実現する。なお、マスタ装置１は、複数の処理回路４１２を有していてもよい。

　記憶装置４１３は、たとえばＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read-Only　Memory）、あるいはフラッシュメモリ等によって実装される。記憶装置４１３は、たとえば、処理回路４１２によって実行されるプログラム、あるいは処理回路４１２によって用いられるデータなどを記憶する。

　入出力部４４は、ユーザからの操作を受けるとともに、処理結果をユーザに出力する。入出力部４４は、たとえば、マウス、キーボード、タッチパネル、ディスプレイ、およびスピーカを含む。

　図３は、マスタ装置１と制御装置２１～２Ｎとの間で行われる定時性通信に用いられる通信フレームＣＦ１の一例を示す図である。通信フレームＣＦ１は、制御系データの通信フレームである。通信フレームＣＦ１は、ヘッダー１０と、複数の制御装置データ１１と、ＦＣＳ（Frame　Check　Sequence）１３とを含む。複数の制御装置データ１１は、制御装置２１～２Ｎに関する情報をそれぞれ含み、ヘッダー１０とＦＣＳ１３との間に配置されている。制御装置データ１１は、複数の制御点データ１２を含む。複数の制御点データ１２は、対応する制御装置に含まれる複数の制御点に関する情報をそれぞれ含む。なお、制御系データの通信フレームは、図３に示される通信フレームＣＦ１の構成に限定されない。制御系データの通信フレームは、複数のフレームに分かれていてもよい。

　マスタ装置１に接続する制御装置２１～２Ｎの数Ｎ、および制御装置２１～２Ｎに含まれる制御点の数（制御対象の数）によって、通信フレームＣＦ１のデータサイズは変わる。そのため、通信フレームＣＦ１のデータサイズによって制御系データの通信に要する時間が変化する。

　伝送路５を介して制御系データが送信されるとともに受信されるため、伝送路５の通信帯域によって制御系データの通信に要する時間が変化する。伝送路５においては、制御系データの通信以外に制御装置２１～２Ｎの状態を監視するための、定時性が制御系データより低い情報系データの通信も制御系データと同じ回線を用いて行われる。そのため、情報系データの通信量によって伝送路５の通信帯域が変動する。また、通信部４１内で発生する処理遅延、あるいは中継装置３で発生する輻輳等によっても、伝送路５の通信帯域が変動する。さらに、マスタ装置１と制御装置２１～２Ｎとの接続態様、あるいは、制御装置２１～２Ｎとセンサおよびアクチュエータとの接続態様によっても伝送路５の通信帯域は変動する。

　制御系データの通信帯域を変動させる要因には、上述のように動的な要因が多い。そのため、制御システム１００の予め定められた構成に応じて、リアルタイム処理を実現するための最適な通信帯域を求めることは困難である場合が多い。動的に通信帯域を変動させる要因が制御系データの定時性通信に関する通信パラメータの設定に反映されない場合、制御システム１００のリアルタイム性を実現することが困難になり得る。

　そこで、制御システム１００においては、動的に通信帯域を変動させる要因を、機械学習を介して定時性通信に関する通信パラメータの設定に反映させる。図４は、制御システム１００において行われる、パラメータ設定処理の流れを示すフローチャートである。以下では、ステップを単にＳと記載する。

　図４に示されるように、Ｓ１において、制御システム１００のならし運転（試運転）が行われ、制御システム１００において形成されているネットワークの通信状況に関するパラメータ（第１パラメータ）および当該ネットワークの通信品質に関するパラメータ（第２パラメータ）が測定される。ならし運転において、制御システム１００の通信パラメータは、予め定められた初期値に設定されている。通信パラメータは、ネットワークの通信状況に関するパラメータ、ネットワークの構成に関するパラメータ（第３パラメータ）、制御装置２１～２Ｎの構成に関するパラメータ（第４パラメータ）、制御装置２１～２Ｎの制御点６１１～６ＮＭの各々と制御対象との通信状況に関するパラメータ（第５パラメータ）、および制御装置２１～２Ｎの制御点６１１～６ＮＭの各々と制御対象との通信品質に関するパラメータ（第６パラメータ）の少なくとも１つを含む。Ｓ１においては、制御対象との通信状況に関するパラメータおよび制御対象との通信品質に関するパラメータが測定されてもよい。

　ネットワークの構成に関するパラメータは、マスタ装置１の個数、制御装置２１～２Ｎの個数、中継装置３の個数、ネットワークに含まれる装置の総数、ネットワークにおける複数の装置の接続形態、および当該複数の装置の各々がネットワークを介して通信する装置の数の少なくとも１つを含む。制御装置２１～２Ｎの構成に関するパラメータは、センサ７およびアクチュエータ８のそれぞれに対応する複数の制御対象の種別、当該複数の制御対象の種別の各々の数、制御装置２１～２Ｎの数、制御装置２１～２Ｎとセンサ７およびアクチュエータ８との接続形態、ならびに制御装置２１～２Ｎの各々が通信する制御対象の数、制御装置２１～２Ｎに含まれる制御点の数、各制御点にそれぞれ接続された制御対象の数、ネットワークにおいてマスタ装置１から中継装置３を介して制御装置２１～２Ｎに至る伝送路の数、制御点と制御対象との接続形態、および制御点から制御対象に至る伝送路の数の少なくとも１つを含む。

　ネットワークの通信状況に関するパラメータは、たとえば、通信フレームに含まれるデータの種別、制御システム１００に含まれるネットワークの通信速度、当該ネットワークにおいて通信される単位時間当たりの通信量、連続して送信される２つの通信フレームの時間間隔、および複数の通信フレームが通信される順番の少なくとも１つを含む。ネットワークの通信品質に関するパラメータは、当該ネットワークにおける通信フレームの損失量、および通信フレームが送信されてから受信されるまでの時間間隔である通信遅延の少なくとも１つを含む。

　制御対象との通信状況に関するパラメータは、制御点の各々における通信速度、制御点の各々において通信される単位時間当たりの通信量、当該制御点において連続して通信される２つの通信フレームの時間間隔、当該制御点において通信される複数の通信フレームの順番の少なくとも１つを含む。制御対象との通信品質に関するパラメータは、制御点における通信フレームの損失量、および通信フレームが送信されてから受信されるまでの時間間隔である通信遅延の少なくとも１つを含む。

　Ｓ２において、機械学習によって学習済みモデルに最適化される推定モデルによって、制御システム１００の定時性通信に最適な通信パラメータが推定される。なお、機械学習には、教師あり学習、教師なし学習、あるいは強化学習を挙げることができる。Ｓ１においては、制御対象との通信状況に関するパラメータおよび制御対象との通信品質に関するパラメータが推定されてもよい。

　Ｓ３において、Ｓ２で推定されたパラメータを用いるならし運転が再び行われ、制御システム１００に含まれるネットワークの通信状況および通信品質が測定される。Ｓ３においては、制御対象との通信状況に関するパラメータおよび制御対象との通信品質に関するパラメータが測定されてもよい。

　Ｓ４において、Ｓ３で測定された通信品質が予め定められた目標条件を満たすか否かが判定される。当該目標条件は、マスタ装置１による制御対象の測定データの取得および制御対象の操作を完了するまでに要する時間が制御周期以内という条件である。当該目標条件は、たとえば、推定されたパラメータが設定された制御システム１００が運転された場合の通信帯域の下で、制御周期以内に、マスタ装置１が少なくとも１つの制御対象からデータを取得し、当該データの解析結果に応じた制御系データを少なくとも１つの制御対象に送信することが完了するという条件を含む。

　当該目標条件が満たされていない場合（Ｓ４においてＮＯ）、再びＳ２が行われる。当該条件が満たされた場合（Ｓ４においてＹＥＳ）、Ｓ５において最適なパラメータがユーザに通知される。ユーザは、当該パラメータを用いて制御システム１００の実際の運用を開始することができる。

　図４に示される処理において、異なるパラメータ設定の下でのならし運転が繰り返し試行される。ならし運転の繰り返しにより、制御システム１００に求められるリアルタイム性を実現するために最適なパラメータが探索される。

　なお、図４のＳ１～Ｓ３は、制御システム１００の運転開始時に実行されるか、予め定められた周期で定期的に実行されるか、またはネットワークの通信状況に関するパラメータ、ネットワークの構成に関するパラメータおよび制御装置２１～２Ｎの構成に関するパラメータの少なくとも一方が変更された場合に実行される。

　以下では、図４のＳ２の機械学習が強化学習である場合について説明する。強化学習を用いることにより、教師あり学習と比較して、予め教師データを用意する必要がない。

　図５は、強化学習のフレームワークを説明するための図である。図５に示されるように、強化学習のフレームワークは、エージェントＡｇｔ、環境Ｅｎｖ、およびエージェントＡｇｔと環境Ｅｎｖとの間の相互作用から構成される。エージェントＡｇｔは、行動ａ_ｔを決定する主体である。制御システム１００においては、マスタ装置１に含まれる機械学習器がエージェントＡｇｔに対応する。環境Ｅｎｖは、エージェントＡｇｔが相互作用を行なう対象である。マスタ装置１によって直接的に統合制御されて状態が変化する制御システム１００が環境Ｅｎｖに対応する。

　具体的には、エージェントＡｇｔは、時刻ｔにおける環境の状態ｓ_ｔを観測する。エージェントＡｇｔは、状態ｓ_ｔの観測結果と過去の学習に基づいて行動ａ_ｔを選択して行動ａ_ｔを実行する。行動ａ_ｔが実行されることで環境の状態ｓ_ｔが次の状態ｓ_ｔ＋１へと変化する。状態の変化に応じて、エージェントＡｇｔに報酬ｒ_ｔ＋１が与えされる。エージェントＡｇｔが状態ｓ_ｔ、行動ａ_ｔ、報酬ｒ_ｔ＋１、および過去に学習した結果を用いて学習を進め、最適な方策が得られるように行動選択を収束させていく。

　強化学習においては、環境Ｅｎｖ内におけるエージェントＡｇｔが、現在の状態を観測し、取るべき行動を決定する。エージェントＡｇｔは行動を選択することで環境Ｅｎｖから報酬を得て、一連の行動を通じて報酬が最も多く得られるような方策を学習する。強化学習の代表的な手法として、たとえば、Ｑ学習、ＴＤ（Temporal　Difference）学習が知られている。Ｑ学習の場合、行動価値関数Ｑ（ｓ，ａ）（行動価値テーブル）の一般的な更新式は以下の式（１）で表される。

　式（１）において、ｓ_ｔは、時刻ｔにおける状態を表す。ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔからｓ_ｔ＋１に変わる。ｒ_ｔ＋１は状態の変化によって環境から与えられる報酬を表す。γは、割引率を表す。αは、学習係数を表す。なお、割引率γの範囲は、０＜γ≦１である。学習率αの範囲は、０＜α≦１である。

　式（１）で表される更新式は、時刻ｔ＋１における最良の行動ａ_ｔ＋１の行動価値が時刻ｔにおいて実行された行動ａ_ｔの行動価値よりも大きければ、行動ａ_ｔの行動価値を増加させる。時刻ｔ＋１における最良の行動ａ_ｔ＋１の行動価値が、時刻ｔにおいて実行された行動ａ_ｔの行動価値よりも小さい場合、行動ａ_ｔの行動価値を減少させる。すなわち、時刻ｔにおける行動ａ_ｔの行動価値を、時刻ｔ＋１における最良の行動ａ_ｔ＋１の行動価値に近づけるように、行動価値関数Ｑ（ｓ，ａ）が式（１）によって更新される。その結果、或る時刻の状態における最良の行動価値が、当該時刻以前の状態における行動価値に順次伝播していく。

　図６は、マスタ装置１に含まれる機械学習器としての推定部２０の入力パラメータｓおよび出力パラメータａ（推定パラメータ）を説明するための図である。入力パラメータｓは、強化学習の状態に対応する状態変数である。出力パラメータａは、強化学習の行動に対応する行動値である。図６に示されるように、入力パラメータｓには、通信フレームに関する情報（通信状況）ｓ＿ｆｒｍ、通信品質ｓ＿ｑｌｔ、ネットワーク構成ｓ＿ｎｔｗ、および制御装置構成ｓ＿ｃｎｔが含まれる。出力パラメータａには、通信フレームに関する情報ａ＿ｆｒｍ、ネットワーク構成ａ＿ｎｔｗ、および制御装置構成ａ＿ｃｎｔが含まれる。

　通信フレーム情報ｓ＿ｆｒｍ，ａ＿ｆｒｍには、通信フレームの種別（たとえば制御系データであるか、または情報系データであるかを示すフラグ）、通信帯域（たとえばネットワークの通信速度、または当該ネットワークにおいて通信される単位時間当たりの通信量（パケットデータサイズ））、および通信手順（たとえば、連続して送信される２つの通信フレームの時間間隔、または複数の通信フレームが通信される順番）が含まれる。

　通信品質ｓ＿ｑｌｔには、通信フレームの損失量、および通信フレームの遅延時間（通信フレームが送信されてから受信されるまでの時間間隔）が含まれる。制御系データの損失および遅延は、制御システム１００の誤動作を生じさせる。情報系データの損失および遅延は、音声または画像の品質の低下、あるいは音声または画像の乱れを生じさせる。

　ネットワーク構成ｓ＿ｎｔｗ，ａ＿ｎｔｗには、マスタ装置１に関する情報、複数の制御装置２１～２Ｎの各々に関する情報、中継装置３に関する情報、マスタ装置１の個数、複数の制御装置２１～２Ｎの個数、中継装置３の個数、制御システム１００に含まれる総装置数、制御システム１００における複数の装置の接続形態（たとえばピアツーピア、ツリー、あるいはデイジーチェーン等）、および接続形態に応じた、各装置が通信する装置数が含まれる。

　制御装置構成ｓ＿ｃｎｔ，ａ＿ｃｎｔには、複数の制御装置２１～２Ｎの各々について、当該制御装置によって制御される、センサ７に関する情報、アクチュエータ８に関する情報、センサ７の個数、アクチュエータ８の個数、センサ７およびアクチュエータ８の総数、センサ７およびアクチュエータ８と対応する制御装置との接続形態（たとえば、ピアツーピア、ツリー、あるいはデイジーチェーン等）、ならびに当該接続形態に応じた、センサ７およびアクチュエータ８の各々が通信する装置数が含まれる。

　図７は、マスタ装置１の機能構成を示すブロック図である。マスタ装置１は、通信部４１に加えて、推定部２０と、ユーザ通知部６０と、測定部７０と、判定部７１と、パラメータ設定部８０とをさらに含む。推定部２０は、学習部３０と、状態観測部３１と、行動選択部４０とを含む。

　測定部７０は、通信部４１と中継装置３との間で行われる通信の品質を測定する。状態観測部３１は、測定部７０から取得される、通信フレーム情報ｓ＿ｆｒｍと、通信品質ｓ＿ｑｌｔと、ネットワーク構成ｓ＿ｎｔｗと、制御装置構成ｓ＿ｃｎｔとを状態変数として観測する。

　判定部７１は、推定部２０によって推定された通信パラメータが設定された制御システム１００が運転された場合の通信帯域が目標条件を充足するか否かを判定する。判定部７１は、判定結果をユーザ通知部６０に出力する。

　推定部２０は、通信フレーム情報ｓ＿ｆｒｍと、通信品質ｓ＿ｑｌｔと、ネットワーク構成ｓ＿ｎｔｗと、制御装置構成ｓ＿ｃｎｔとを用いて作成される機械学習用のデータセットに従って、制御システム１００を最適化するための通信状況と、通信品質と、ネットワーク構成と、制御装置構成とを学習する。推定部２０は、報酬基準設定部３２と、報酬計算部３３と、関数更新部３４と、学習結果記憶部３５とを含む。

　学習結果記憶部３５は、機械学習によって最適化される推定モデルＭ１を記憶する。強化学習においては、学習結果記憶部３５は、推定モデルＭ１を行動価値関数Ｑ（Ｑテーブル）として記憶する。行動価値関数Ｑ（ｓ，ａ）は、推定部２０の学習結果である。なお、強化学習開始時の初期状態においては、行動価値テーブルの報酬は０である。

　行動選択部４０は、学習結果記憶部３５に記憶された行動価値関数Ｑ（ｓ，ａ）を用いて、次の行動を選択する。典型的には、行動選択部４０は、初期状態においては、ランダムに分類情報および各グループの同期周期を選択する。行動選択部４０は、学習途中段階においては、たとえば、ε－ｇｒｅｅｄｙ法を用いて、次の行動を選択する。ε－ｇｒｅｅｄｙ法とは、一定の確率εで、或る環境において取り得る行動のうち一つをランダムに選び、（１－ε）の確率で或る環境において最大のＱ値を有する行動を選択する手法である。なお、その他の公知の行動選択方式が採用されてもよい。行動選択部４０により選択された次の行動が、推定部２０の出力（推定）パラメータとなる。

　報酬基準設定部３２は、推定モデルＭ１の学習に用いられる報酬をどのような基準で増加または減少させるのかを規定する報酬基準値を設定する。報酬計算部３３は、報酬基準設定部３２により設定された報酬基準値と、状態観測部３１により観測された状態変数とを用いて報酬を計算する。

　関数更新部３４は、報酬計算部３３によって計算された報酬に従って、推定部２０の出力パラメータを決定するための関数を更新する。関数更新部３４は、学習結果記憶部３５に記憶された行動価値テーブル（推定モデルＭ１）を更新することにより当該関数を更新する。行動価値テーブルは、任意の行動と、当該行動の行動価値とを関連付けてテーブルの形式で記憶されたデータセットである。たとえば、Ｑ学習の場合、式（１）で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が、出力パラメータを求めるための関数として用いられる。関数更新部３４は、行動価値テーブルの更新が行われなくなり行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が収束した場合、推定部２０による学習は終了したと判定する。この場合、行動選択部４０は、収束した行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）に基づいて報酬が最も多く得られる次の行動を選択する。

　以下では、報酬基準設定部３２によって設定される報酬基準値の例について説明する。報酬基準値は、どのような観点から行動を評価するかで異なる。どの観点において制御システム１００を最適化するか、あるいは様々な観点のバランスをとって制御システムを最適化するかは、報酬基準設定部３２において予め選択することができる。

　表１は、通信フレーム情報に含まれる各パラメータ（状態変数）に対して、制御システム１００の性能を向上させるか否かという観点で報酬基準値が決定される例を示す表である。表１においては、状態変数として、制御系データの比率と情報系データの比率、通信速度、通信量、通信フレーム間隔、および通信フレームの通信順番が示されている。制御系データの比率は、単位時間当たりの通信フレームの総数に対する、制御系データを含む通信フレームの数の比率である。情報系データの比率は、単位時間当たりの通信フレームの総数に対する、情報系データを含む通信フレームの数の比率である。

　報酬基準設定部３２は、制御系データの比率が情報系データの比率に対して大きくなると制御システム１００の性能が向上すると仮定し、制御系データの比率が情報系データの比率に対して大きくなる場合の報酬基準値を、現在の値よりも大きい値に設定する。一方、報酬基準設定部３２は、制御系データの比率が情報系データに対して小さくなると制御システムの性能が劣化すると仮定し、制御系データの比率が情報系データの比率に対して小さくなる場合の報酬基準値を現在の値よりも小さい値に設定する。同様に、報酬基準設定部３２は、通信速度が速くなる場合、通信量が多くなる場合、通信フレーム間隔が短くなる場合、および制御系データが情報系データよりも優先的に送信されるようになる場合の報酬基準値を現在の値よりも大きい値に設定する。また、報酬基準設定部３２は、通信速度が遅くなる場合、通信量が少なくなる場合、通信フレーム間隔が短くなる場合、および情報系データが制御系データよりも優先的に送信されるようになる場合の報酬基準値を現在の値よりも小さい値に設定する。

　表２は、通信フレーム情報に含まれる各パラメータに対して、制御システム１００の通信品質が向上するか否かという観点で報酬基準値が決定される例を示す表である。表２においては、表１に示される通信速度、通信量、および通信フレーム間隔が状態変数として示されている。

　報酬基準設定部３２は、通信速度が速くなると通信品質が劣化すると仮定し、通信速度が速くなる場合の報酬基準値を現在の値よりも小さい値に設定する。一方、報酬基準設定部３２は、通信速度が遅くなると通信品質が向上すると仮定し、通信速度が遅くなる場合の報酬基準値を現在の値よりも大きい値に設定する。同様に、報酬基準設定部３２は、通信量が多くなる場合、および通信フレーム間隔が短くなる場合の報酬基準値を現在の値よりも小さい値に設定する。また、報酬基準設定部３２は、通信量が少なくなる場合、および通信フレーム間隔が長くなる場合の報酬基準値を現在の値よりも大きい値に設定する。

　表３は、通信品質に関する各パラメータに対して、報酬基準値が決定される例を示す表である。表３においては、通信フレームの欠損率、通信フレームの遅延時間、および遅延通信フレーム比率が状態変数として示されている。通信フレームの遅延時間は、通信目標時間に対する遅延時間である。遅延通信フレームの比率は、単位時間当たりの通信フレームの総数に対する、通信目標時間に対して遅延した通信フレームの数の比率である。

　通信フレームの欠損率が減少すると通信品質が向上するため、報酬基準設定部３２は、当該欠損率が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、通信フレームの欠損率が増加すると通信品質が低下するため、報酬基準設定部３２は、当該欠損率が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。また、報酬基準設定部３２は、通信フレームの遅延時間が短縮すると中継装置３等での輻輳が減少して通信帯域が上昇すると仮定し、当該遅延時間が短縮する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、報酬基準設定部３２は、遅延時間が延長すると輻輳が増加して通信帯域が低下すると仮定し、当該遅延時間が延長する場合の報酬基準値を現在の値よりも小さい値に設定する。さらに、報酬基準設定部３２は、遅延通信フレームの比率が減少すると通信目標時間内に到達する通信フレームが増加すると仮定し、当該比率が減少する場合の報酬基準値を現在の値よりも大きく設定する。一方、報酬基準設定部３２は、遅延通信フレームの比率が増加すると通信目標時間内に到達する通信フレームが少なくなると仮定し、当該比率が増加する場合の報酬基準値を現在の値よりも小さく設定する。

　表４は、制御システム１００においてネットワークを形成するマスタ装置１および制御装置２１～２Ｎに関する各パラメータに対して、制御システム１００の性能を向上させるか否かという観点で報酬基準値が決定される例を示す表である。

　報酬基準設定部３２は、マスタ装置１の数または制御装置２１～２Ｎの数が増加すると制御システムの規模が大きくなって制御システム１００全体の性能が向上すると仮定し、マスタ装置１の数および制御装置２１～２Ｎの数が増加する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、報酬基準設定部３２は、マスタ装置１の数または制御装置２１～２Ｎの数が減少すると制御システム１００の規模が小さくなって制御システム１００全体の性能が低下すると仮定し、マスタ装置１の数または制御装置２１～２Ｎの数が減少する場合の報酬基準値を現在の値よりも小さい値に設定する。

　なお、マスタ装置１の数および制御装置２１～２Ｎの数の各々の変化（増加または減少）については、一旦、マスタ装置１および制御装置２１～２Ｎを停止して、ならし運転を再開させる手順において、マスタ装置１の数および制御装置２１～２Ｎの数の各々を状態変数とする機械学習を進めることができる。また、プラグアンドプレイ（ＰｎＰ：Plug　and　Play）のように通信中にマスタ装置１の数および制御装置２１～２Ｎの数を変化させることが可能な場合、ならし運転を停止させることなく、マスタ装置１の数および制御装置２１～２Ｎの数の各々の変化を検知して、マスタ装置１の数および制御装置２１～２Ｎの数の各々の情報も推定部２０に入力することにより、マスタ装置１の数および制御装置２１～２Ｎの数を状態変数として機械学習を進めることができる。以下で説明する表５に関しても同様である。

　表５は、制御システム１００においてネットワークを形成するマスタ装置１および制御装置２１～２Ｎに関する各パラメータに対して、制御システム１００のコストを減少させるか否かという観点で報酬基準値が決定される例を示す表である。

　報酬基準設定部３２は、マスタ装置１の数または制御装置２１～２Ｎの数が増加すると制御システム１００の規模が大きくなって制御システム１００のコスト（たとえば全装置の購入費用および全装置の維持費用等）が増加すると仮定し、マスタ装置１の数または制御装置２１～２Ｎの数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、マスタ装置１の数または制御装置２１～２Ｎの数が減少すると制御システム１００の規模が小さくなって制御システム１００のコストが減少すると仮定し、マスタ装置１の数または制御装置２１～２Ｎの数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　表６は、制御装置２１～２Ｎによって直接制御されるセンサ７およびアクチュエータ８に関する各パラメータに対して、制御システム１００の性能が向上するか否かという観点で報酬基準値が決定される例を示す表である。

　報酬基準設定部３２は、センサ７の数またはアクチュエータ８の数が増加すると制御システム１００の規模が大きくなって制御システム１００の性能が向上すると仮定し、センサ７の数またはアクチュエータ８の数が増加する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、報酬基準設定部３２は、センサ７の数またはアクチュエータ８の数が減少すると制御システム１００の規模が小さくなって制御システム１００の性能が低下すると仮定し、センサ７の数またはアクチュエータ８の数が減少する場合の報酬基準値を現在の値よりも小さい値に設定する。

　なお、センサ７の数およびアクチュエータ８の各々の数の変化（増加または減少）については、一旦、センサ７およびアクチュエータ８を停止して、ならし運転を再開させる手順において、センサ７の数またはアクチュエータ８の数の各々を状態変数とする機械学習を進めることができる。また、プラグアンドプレイ（ＰｎＰ：Plug　and　Play）のように通信中にセンサ７の数およびアクチュエータ８の数を変化させることが可能な場合、ならし運転を停止させることなく、センサ７の数およびアクチュエータ８の数の各々の変化を検知して、センサ７の数およびアクチュエータ８の数の各々の情報も推定部２０に入力することにより、センサ７の数およびアクチュエータ８の数の各々を状態変数として機械学習を進めることができる。以下で説明する表７に関しても同様である。

　表７は、制御装置２１～２Ｎによって直接制御される制御対象に関する各パラメータに対して、制御システム１００のコストを減少させるか否かという観点で報酬基準値が決定される例を示す表である。制御システム１００においては、制御対象は、センサ７およびアクチュエータ８を含む。

　報酬基準設定部３２は、センサ７の数またはアクチュエータ８の数が増加すると制御システム１００の規模が大きくなって制御システム１００のコストが増加すると仮定し、センサ７の数またはアクチュエータ８の数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、報酬基準設定部３２は、センサ７の数またはアクチュエータ８の数が減少すると制御システム１００の規模が小さくなって制御システム１００のコストが減少すると仮定し、センサ７の数またはアクチュエータ８の数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　表８は、マスタ装置１および複数の制御装置２１～２Ｎの接続形態、および制御装置２１～２Ｎおよび制御装置２１～２Ｎによって直接接続される制御対象の接続形態に関する各パラメータに対して、制御システム１００の性能が向上するか否かの観点で報酬基準値が決定される例を示す表である。制御システム１００において形成されるネットワークにおいては、様々な接続形態が想定され得る。

　ピアツーピアで接続された装置間の通信においては、当該装置以外の他の装置との通信の輻輳が発生しない。そこで、報酬基準設定部３２は、ピアツーピアで接続された装置数が増加すると通信帯域を増加させることができると仮定し、ピアツーピアで接続された装置数が増加する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、ピアツーピアで接続された装置数が減少すると通信帯域を減少させる必要があると仮定し、ピアツーピアで接続された装置数が減少する場合の報酬基準値を現在の値よりも小さい値に設定する。

　ツリーで接続された装置間の通信においては、ツリーのノードまたはルートに対応する中継装置３に通信が集中し易いため、中継装置３において輻輳が発生し易い。そこで、報酬基準設定部３２は、ツリーで接続された装置数が増加すると１経路当たりの通信帯域を減少させる必要があると仮定し、ツリーで接続された装置数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、ツリーで接続された装置数が減少すると１経路当たりの通信帯域を増加させることができると仮定し、ツリーで接続された装置数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　デイジーチェーンで接続された装置の数が増加するほど、当該装置間に接続された中継装置３の数が増加し得るため、中継装置３において輻輳が発生し易い。そこで、報酬基準設定部３２は、デイジーチェーンで接続された装置数が増加すると１経路当たりの通信帯域を減少させる必要があると仮定し、デイジーチェーンで接続された装置数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、デイジーチェーンで接続された装置数が減少すると１経路当たりの通信帯域を増加させることができると仮定し、デイジーチェーンで接続された装置数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　中継装置３において発生する輻輳による遅延はデイジーチェーンよりもツリーの方が短いことが、たとえば中継装置３の仕様、シミュレーション、または実機実験から予想されている場合、ツリーで接続された装置数がデイジーチェーンで接続された装置数よりも大きければ通信帯域を増加させることができる。そこで、報酬基準設定部３２は、ツリーで接続された装置数がデイジーチェーンで接続された装置数より大きくなる場合の報酬基準値を現在の値よりも大きい値に設定する。

　なお、ピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々の変化（増加または減少）については、一旦、マスタ装置１、制御装置２１～２Ｎ、および制御対象を停止して、ならし運転を再開させる手順において、ピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々を状態変数とする機械学習を進めることができる。また、プラグアンドプレイ（ＰｎＰ：Plug　and　Play）のように通信中にピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々を変化させることが可能な場合、ならし運転を停止させることなく、ピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々の変化を検知して、ピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々の情報も推定部２０に入力することにより、ピアツーピアで接続された装置数、ツリーで接続された装置数、およびデイジーチェーンで接続された装置数の各々を状態変数として機械学習を進めることができる。以下で説明する表９に関しても同様である。

　表９は、マスタ装置１および複数の制御装置２１～２Ｎの接続形態、ならびに制御装置２１～２Ｎおよび制御装置２１～２Ｎによって直接接続される制御対象の接続形態に関する各パラメータに対して、制御システム１００のコストが減少するか否かの観点で報酬基準値が決定される例を示す表である。

　装置間のピアツーピアでの接続において、当該装置間の接続に必要なケーブル数は、ツリーまたはデイジーチェーン等の他の接続形態におけるケーブル数よりも多くなることが多い。そのため、ピアツーピアで接続された装置数が多いほど、制御システム１００のコスト（たとえば全ケーブルの購入費用、および全ケーブルの敷設費用等）が増加する。そこで、報酬基準設定部３２は、ピアツーピアで接続された装置数が増加すると必要なケーブル数が増加して制御システム１００のコストが増加すると仮定して、ピアツーピアで接続された装置数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、報酬基準設定部３２は、ピアツーピアで接続された装置数が減少すると必要なケーブル数が減少して制御システム１００のコストが減少すると仮定して、ピアツーピアで接続された装置数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。なお、実際には、ピアツーピア以外の接続形態においてはケーブル以外に中継装置３等も必要となる。そのため、他の接続形態でのケーブル以外に要するコストを加味して報酬基準値が決定されてもよい。

　ツリーで接続された装置数が増加すると、比較的多くのポートを有する中継装置３が必要になる場合がある。ポート数が多い程、中継装置３の購入コストは増加する場合が多い。そこで、報酬基準設定部３２は、ツリーで接続された装置数が増加すると中継装置３のコストが増加して制御システム１００のコストが増加すると仮定して、ツリーで接続された装置数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、報酬基準設定部３２は、ツリーで接続された装置数が減少すると中継装置３のコストが減少して制御システム１００のコストが減少すると仮定して、ツリーで接続された装置数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　デイジーチェーンで接続された装置数が増加すると、全装置の購入コストが増加する。そこで、報酬基準設定部３２は、デイジーチェーンで接続された装置数が増加すると制御システム１００のコストが増加すると仮定して、デイジーチェーンで接続された装置数が増加する場合の報酬基準値を現在の値よりも小さい値に設定する。一方、報酬基準設定部３２は、デイジーチェーンで接続された装置数が減少すると制御システム１００のコストが減少すると仮定して、デイジーチェーンで接続された装置数が減少する場合の報酬基準値を現在の値よりも大きい値に設定する。

　なお、報酬基準値の設定例は、表１～表９に示される設定例に限定されない。たとえば、制御システム１００の性能、通信品質、およびコストに関する観点であれば、どのような観点であっても報酬基準値を決定することができる。また、性能とコストという観点以外にも信頼性という観点で報酬基準値が設定されてもよい。

　たとえば、図２の通信フレームにＣＲＣ（Cyclic　Redundancy　Check）が付与される通信フレームの範囲と通信フレームのサイズとの間には、当該範囲を広くすれば、通信の信頼性は向上するが、通信フレームのデータサイズは増加するというトレードオフの関係が存在する。伝送路の品質によっては、ＣＲＣを付与せずとも通信の信頼性を確保することができる場合があるため、伝送路の品質に応じてＣＲＣを付与する範囲を変更する必要がある。

　また、伝送路を多重化することによって、信頼性を向上させ得る。しかし、伝送路を多重化するほど、伝送路を形成するケーブルの数、および通信部の回路のコスト等が増加する。

　さらに、通信フレームの再送制御の有無の選択、あるいは、再送回数の増加によっても通信の信頼性を向上させ得る。しかし、再送回数を増やすほど、通信帯域が大きくなるため制御系データが少なくなるというトレードオフが存在する。

　上記のように各観点の間でも報酬基準を変更することによって、様々なトレードオフの関係が存在する。これらの観点およびパラメータの膨大の組合せを、機械学習によって最適な通信パラメータの推定に反映させることができる。

　なお、他の報酬基準の設定方法として、制御システム１００に要求される目標を満たさない行動は、機械学習において優先度が低い（あるいは最低）と学習されるように報酬が小さく（あるいは０に）設定されてもよい。制御システム１００の目標には、たとえば、制御システム１００の規模として、制御システム１００に含まれるマスタ装置１の数、制御装置２１～２Ｎの数、センサ７の数、およびアクチュエータ８の数等が含まれる。また、要求されるネットワーク通信周期、センサ取得周期、およびアクチュエータ操作周期等も目標に含まれる。これら以外の制御システム１００に関するパラメータも目標に加えられても良い。これらの要求される目標は、必ず達成する必要がある目標と、必ずしも達成する必要のない目標とに分けられてもよい。

　図８は、図４のフローチャートを強化学習の例に合わせて具体化したフローチャートである。図８に示されるように、Ｓ１は、Ｓ１１、Ｓ１２、およびＳ１３を含む。Ｓ１１において、マスタ装置１は、制御システム１００の通信部４１，４２１～４２Ｎ，４３に関する通信パラメータに初期値を設定する。Ｓ１２において、マスタ装置１は、初期値が設定された通信パラメータの下でのならし運転を初期試行として実行する。Ｓ１３において、測定部７０は、初期パラメータの下で実行されたならし運転の通信状況および通信品質の測定を行う。Ｓ１３において測定される項目は、以下で説明するＳ２１，Ｓ２２において行われる強化学習の入力となる状態変数の一部である。

　Ｓ２は、Ｓ２１、Ｓ２２、およびＳ２３を含む。Ｓ２１において、報酬計算部３３は、行動選択部４０によって選択された行動に対する報酬を計算する。Ｓ２２において、関数更新部３４は、式（１）に示される更新式を用いて行動価値関数を更新する。Ｓ２３において、ユーザ通知部６０は、行動選択部４０によって選択された行動である推定された通信パラメータ（出力パラメータ）をユーザに通知する。ユーザは、必要に応じて、パラメータ設定部８０を用いて制御システム１００に関する通信パラメータを変更してもよいし、ケーブルの繋ぎ変え等を行って、制御システム１００に含まれる装置（たとえばマスタ装置１、あるいは制御装置２等）の接続形態を変更してもよい。

　Ｓ３は、Ｓ３１、Ｓ３２、およびＳ３３を含む。Ｓ３１において、マスタ装置１は、測定部７０の結果を参照して、自動的に通信部に関する通信パラメータ（たとえば通信フレームに関するパラメータ）を変更する。Ｓ３２において、マスタ装置１は、推定された通信パラメータの下でのならし運転を実行する。Ｓ３３において、測定部７０は、当該ならし運転の通信状況および通信品質の測定を行う。

　Ｓ４において、判定部７１は、推定パラメータによって目標条件が充足されるか否かを判定する。当該目標条件が充足されていない場合（Ｓ４においてＮＯ）、マスタ装置１は、処理をＳ２１に戻す。当該目標条件が充足された場合（Ｓ４においてＹＥＳ）、ユーザ通知部６０は、Ｓ５において、最適な通信パラメータをユーザに通知して処理を終了する。Ｓ５の後に、制御システム１００の本格稼働が開始される。

　なお、Ｓ２は、制御システム１００の性能、通信品質、コスト、および信頼性に関する報酬基準値によって強化学習を行って制御システム１００に要求される目標を満たす最適な通信パラメータを推定する処理、または、通信パラメータの一部を固定化もしくは通信パラメータが変動する範囲を制限して強化学習をする処理を含んでもよい。制御システム１００の性能に関する報酬基準値は、たとえば、同期周期、タイムスロット幅、通信速度、通信量、および通信フレーム間隔の少なくとも１つを含んでもよい。制御システムの通信品質に関する報酬基準値は、たとえば、通信フレームの欠損率、通信フレームの遅延時間、および遅延通信フレームの比率の少なくとも１つを含んでもよい。制御システム１００のコストに関する報酬基準値は、マスタ装置１の数、中継装置３の数、制御装置２１～２Ｎの数、制御装置２１～２Ｎに含まれる制御点の数、制御対象の数、制御システム１００に含まれる複数の伝送路を形成する少なくとも１つのケーブルの長さ、当該少なくとも１つのケーブルの本数、および当該少なくとも１つのケーブルの敷設費用の少なくとも１つを含んでもよい。制御システム１００の信頼性に関する報酬基準値は、たとえば、通信フレームへのＣＲＣの付与の有無、通信フレームの再送制御の有無、および再送回数の少なくとも１つを含んでもよい。

　なお、測定部７０、判定部７１、推定部２０、およびユーザ通知部６０は、マスタ装置１に実装されている必要はなく、中継装置３、制御装置２１～２Ｎ、センサ７、あるいはアクチュエータ８に実装されていてもよい。測定部７０、判定部７１、推定部２０、およびユーザ通知部６０は、制御システムに含まれる全装置に実装されてもよいし、あるいは或いは、一部の装置に実装されても良い。これらが実装される範囲に応じて、通信フレーム（または通信状況）の測定情報、あるいは通信品質の測定情報の量に差が生じる。その結果、測定精度が低下し、通信パラメータの推定の精度に影響が生じる。なお、入力パラメータの一部を固定したり、パラメータが変動する範囲を制限して機械学習が行われたりしてもよい。

　また、制御システム１００には、実際に存在する装置が含まれる場合が想定されている。しかし、実施の形態１に係る制御システムは、仮想空間上に仮想システムとして再現（シミュレート）されてもよい。実施の形態に係る制御システムが仮想システムである場合、Ｓ５の後に、最適な通信パラメータに従って、ユーザが手動で、制御装置数および接続形態などの構成を変更する必要はない。

　以上、実施の形態１に係るネットワークの通信帯域に関する通信パラメータを最適化する方法、装置、プログラム、および制御システムによれば、ネットワークを介した制御のリアルタイム性を向上させることができる。

　実施の形態２．
　実施の形態２においては、制御システムが時刻同期プロトコル（たとえばＩＥＥＥ１５８８）によって、ネットワークに接続された装置が高精度に時刻同期される場合について説明する。実施の形態２に係る制御システムにおいては、ならし運転が繰り返されて目標条件を充足する通信帯域を有する制御システムが探索される。制御系データの通信帯域の測定が行われて、制御装置の数、制御点の数、ネットワークに含まれる装置の接続形態、通信手順、通信帯域、および制御用タイムスロットの各々の最適解が、機械学習によって最適化された推定モデルによって求められる。その結果、目標条件を充足する最適パラメータを、ユーザに通知することができる。

　図９は、実施の形態２に係る制御システム２００の構成を示すブロック図である。制御システム２００は、マスタ装置１と、制御装置２と、中継装置３とを備える。マスタ装置１および中継装置３は、図１のマスタ装置１および中継装置３にそれぞれ対応する。制御装置２は、図１の制御装置２１～２Ｎの各々と同様の構成を有する。制御システム２００は、図１の制御システム１００における制御装置の数が１とされた構成である。これら以外は同様であるため、説明を繰り返さない。

　次に、時刻同期プロトコルについて簡単に説明する。図１０は、図９のマスタ装置１と制御装置２との間における時刻同期の手順の一例を示すシーケンス図である。具体的には、図１０に示される手順は、ＩＥＥＥ１５８８に従う時刻同期手順である。図１０に示される各処理は、主に、マスタ装置１および制御装置２の各々に含まれるＣＰＵによって実行される。以下ではシーケンスを単にＳＱと記載する。

　マスタ装置１は、ＳＱ２において、Ｓｙｎｃメッセージを制御装置２に送信するとともに、Ｓｙｎｃメッセージの送信時刻ｔ１をマスタ装置１の記憶装置に記憶する。制御装置２は、ＳＱ２において、Ｓｙｎｃメッセージを受信するとともに、Ｓｙｎｃメッセージの受信時刻ｔ２を制御装置２の記憶装置に記憶する。

　マスタ装置１は、ＳＱ４において、Ｓｙｎｃメッセージの送信時刻ｔ１をマスタ装置１の記憶装置から読み出して、送信時刻ｔ１を格納したＦｏｌｌｏｗ＿Ｕｐメッセージを制御装置２に送信する。制御装置２は、ＳＱ４において、受信したＦｏｌｌｏｗ＿Ｕｐメッセージに格納された送信時刻ｔ１を制御装置２の記憶装置に記憶する。なお、マスタ装置１は、送信時刻ｔ１が格納されたＳｙｎｃメッセージを制御装置２に送信してもよい。

　制御装置２は、ＳＱ６において、マスタ装置１にＤｅｌａｙ＿Ｒｅｑメッセージを送信するとともに、Ｄｅｌａｙ＿Ｒｅｑメッセージの送信時刻ｔ３を制御装置２の記憶装置に記憶する。マスタ装置１は、ＳＱ６においてＤｅｌａｙ＿Ｒｅｑメッセージを受信するとともに、Ｄｅｌａｙ＿Ｒｅｑメッセージの受信時刻ｔ４をマスタ装置１の記憶装置に記憶する。

　マスタ装置１は、ＳＱ８において、Ｄｅｌａｙ＿Ｒｅｑメッセージの受信時刻ｔ４が格納されたＤｅｌａｙ＿Ｒｅｓｐメッセージを制御装置２に送信する。制御装置２は、ＳＱ８において、Ｄｅｌａｙ＿Ｒｅｓｐメッセージを受信して、Ｄｅｌａｙ＿Ｒｅｓｐメッセージに格納された受信時刻ｔ４を制御装置２の記憶装置に記憶する。

　図１０に示されるシーケンスにより、制御装置２の記憶装置には、Ｓｙｎｃメッセージの送信時刻ｔ１、Ｄｅｌａｙ＿Ｒｅｑメッセージの送信時刻ｔ３、Ｓｙｎｃメッセージの受信時刻ｔ２、およびＤｅｌａｙ＿Ｒｅｑメッセージの受信時刻ｔ４が記憶されている。制御装置２は、送信時刻ｔ１と受信時刻ｔ２との時刻差ｔｄ１（＝ｔ２－ｔ１）を計算することにより、マスタ装置１から制御装置２への伝送路５について、マスタ装置１および制御装置２の各々における時刻のずれと伝送路遅延との和を取得する。また、制御装置２は、送信時刻ｔ３と受信時刻ｔ４との時刻差ｔｄ２（＝ｔ４－ｔ３）を計算することにより、制御装置２からマスタ装置１への伝送路５について、マスタ装置１および制御装置２の各々における時刻のずれと伝送路遅延との和を取得する。

　また、時刻差ｔｄ２とｔｄ１との和は、伝送路遅延の２倍の時間に相当する。時刻差ｔｄ２とｔｄ１との差は、マスタ装置１の時刻（マスタ時刻）と制御装置２の時刻（制御装置時刻）とのずれの２倍の時間に相当する。ここで、ＩＥＥＥ１５８８プロトコルの伝送路５の遅延計算では、マスタ装置１と制御装置２との間の伝送遅延は、往路と復路とで等価であると仮定する。したがって、単一方向の伝送路の遅延時間ｔｄは、以下の式（２）のように表わされる。

　ｔｄ＝（ｔｄ２＋ｔｄ１）／２　　　　　…（２）
　また、マスタ時刻と制御装置時刻との時刻差ｔｄｉｆｆは、以下の式（３）のように表わされる。

　ｔｄｉｆｆ＝（ｔｄ２－ｔｄ１）／２　　　　　　…（３）
　制御装置２は、時刻差ｔｄｉｆｆを時刻同期の補正量として、制御装置２の時刻を補正することにより、マスタ装置１との時刻同期を実施する。

　マスタ装置１と制御装置２との間の時刻同期においては、ＰＴＰ（Precision　Time　Protocol）メッセージの往復の遅延が等しいか、あるいは往復の遅延に時間差がある場合でも、当該時間差が既知であることが前提とされる。しかし、各装置の通信部に含まれるクロック発振器のジッタ、中継装置３から各装置内のクロックへの載せ替え、あるいは各装置を使用する周辺環境の温度変化等の要因により、遅延時間ｔｄおよび時刻差ｔｄｉｆｆは、測定を行なう度にバラツキが生じ得る。そのため、マスタ装置時刻と制御装置時刻とのずれを防ぎ、マスタ装置１と制御装置２との時刻同期の精度を確保するためには、定期的にマスタ装置１と制御装置２との間で図１０に示される時刻同期に係る処理を実行する必要がある。

　図１１は、時刻同期されたネットワークにおいて、定時性通信が制御周期Ｐｒｄで繰り返し行われる様子を示す図である。ＩＥＥＥ１５８８によって時刻同期された制御システム２００において、各装置は精度よく時刻同期されている。定時性通信の制御周期Ｐｒｄは、用途毎に複数のタイムスロットに分割されている。各装置は、時刻同期されているので、各タイムスロットの開始および終了にも正確に同期している。

　図１１に示されるように、制御周期Ｐｒｄは、制御用タイムスロットＳｌｔ１、画像送信用タイムスロットＳｌｔ２、および診断用タイムスロットＳｌｔ３に分割されている。タイムスロットＳｌｔ１～Ｓｌｔ３の中で、最も定時性の要求が高いタイムスロットは、制御用タイムスロットＳｌｔ１である。画像送信用タイムスロットＳｌｔ２においては、カメラ等で取得した画像データが送信される。診断用タイムスロットＳｌｔ３においては、制御システム２００に含まれる各装置を診断するためのデータが通信される。

　図１２は、図１１の制御用タイムスロットＳｌｔ１を拡大した図である。図１２に示されるように、制御用タイムスロットＳｌｔ１においては、たとえば、制御系データが通信フレームＣＦ２１とＣＦ２２とに分割されて、通信フレームＣＦ２１とＣＦ２２とが送信間隔Ｔｉｎｔ１を空けて、マスタ装置１から、中継装置３を経由して、制御装置２に送信される。中継装置３を経由して通信フレームＣＦ２１，ＣＦ２２が送信される間に、輻輳あるいは遅延が発生し、制御装置２には、制御系データが遅延して受信される。定時性通信の各制御周期に、同一サイズの制御系データを同じ送信間隔で送信したとしても、中継装置３などで発生する輻輳等によって、マスタ装置１から制御系データが送信された時刻から当該制御系データが制御装置２に受信されるまでの時間間隔である通信時間Ｔｃｏｍは、一定とならずに揺らぐ。

　曲線ＦＬ１は、横軸を時間とするとともに縦軸を頻度とする座標平面における、マスタ装置１が制御系データを中継装置３に送信するのに要する時間間隔の揺らぎ量（最頻値の時間間隔との差）の分布を模式的に表す。曲線ＦＬ２は、曲線ＦＬ１と同様の座標平面において、中継装置３が制御系データを制御装置２に送信するのに要する時間間隔の揺らぎ量の分布を模式的に表す。曲線ＦＬ３は、曲線ＦＬ１と同様の座標平面において、制御装置２が中継装置３から制御系データを受信するのに要する時間間隔の揺らぎ量の分布を模式的に表す。通常の通信負荷においては、図１２に示されるように、分布ＦＬ１～ＦＬ３の各々は、中央付近に最頻値が現れ、最頻値を通過する直線に対して線対称な山なり形状になる傾向がある。しかし、制御装置の通信負荷が常時高い場合、中継装置３と制御装置２との通信に遅延が発生し易いため、通常の通信負荷における最頻値よりも時間間隔が長くなる領域に分布ＦＬ３における頻度が偏る傾向がある。また、制御装置の通信負荷が不安定である場合、分布ＦＬ３の形状が山なり形状とならずに平坦となる傾向がある。

　このように、制御装置の通信負荷は状況によって大きく変化し得るため、通信時間Ｔｃｏｍの揺らぎ量の予測は困難な場合が多い。当該揺らぎ量の予測が外れ、制御用タイムスロットＳｌｔ１が適切に設定されない場合、制御系データが次の画像送信用タイムスロットＳｌｔ２に溢れ得る。画像送信用タイムスロットＳｌｔ２において制御系データが制御装置２において受信される場合、制御装置２が正しく稼働することができない状況が発生し得る。

　そこで、実施の形態２においては、制御用タイムスロットＳｌｔ１に必要な通信帯域を正確に測定するために、ＩＥＥＥ１５８８等の時刻同期プロトコルのＰＴＰメッセージ（たとえば、Ｓｙｎｃ，Ｆｏｌｌｏｗ＿Ｕｐ，Ｄｅｌａｙ＿Ｒｅｑ，Ｄｅｌａｙ＿Ｒｅｓｐ等）を制御系データのＣＦ２２の後に送信間隔Ｔｉｎｔ２を空けて送信する。ＩＥＥＥ１５８８等の時刻同期プロトコルのＰＴＰメッセージ（同期メッセージ）は、時刻同期のためだけではなく、制御用タイムスロットの通信帯域の測定にも利用される。なお、ＰＴＰメッセージは、定時性通信の制御周期毎に送信する必要はなく、装置間で時刻同期の精度を確保可能な周期で送信されてもよい。また、ＰＴＰメッセージは、制御用タイムスロット以外のタイムスロットの通信帯域の測定に利用されてもよい。また、送信間隔Ｔｉｎｔ２は、送信間隔Ｔｉｎｔ１と同じであってもよい。

　制御用タイムスロットＳｌｔ１の開始時刻ｔｓ１から、制御装置２によって制御系データが受信されるまでの受信時刻ｔｒ１までの通信時間Ｔｃｏｍは、以下の式（４）のように表される。

　Ｔｃｏｍ＝ｔｒ１－ｔｓ１　　（４）
　通信時間Ｔｃｏｍの揺らぎ量の最大値をマージンＴｍｒｇとすると、制御用タイムスロットＳｌｔ１は、以下の式（５）のように表される。

　Ｓｌｔ１＝Ｔｃｏｍ＋Ｔｍｒｇ　　　　　（５）
　制御装置の性能の個体差および通信状況に起因する揺らぎ量の分布によらず、制御用タイムスロットＳｌｔ１を跨いで制御系データの通信が行われる確率がほぼ０となるような最適なマージンＴｍｒｇを求める必要がある。

　実施の形態２においては、マージンＴｍｒｇを正確に求めるために、制御システム２００のならし運転によって、制御システム２００を構成するネットワークの通信フレーム（または通信状況）、および通信品質の測定を行う。通信フレーム（または通信状況）の測定項目には、実施の形態１の測定項目に、通信時間Ｔｃｏｍが加えられる。

　実施の形態２においては、制御装置２が実施の形態１のマスタ装置１と同様の構成（図７参照）を有する。制御装置２は、実施の形態１のマスタ装置１と同じように、機械学習によって最適化された学習済みの推定モデルを用いて、制御システム２００に含まれるネットワークの通信帯域に関する通信パラメータを推定する。推定される通信パラメータには、制御システム２００に含まれるネットワークに含まれる装置数、センサ７およびアクチュエータ８の数、ネットワークに接続される装置の接続形態、通信フレームの種別、通信帯域、通信フレームの通信手順、およびマージンＴｍｒｇが含まれる。制御システム２００においては、制御装置２によって選択される行動に対する報酬値が最大となる、最適な通信パラメータの組合せが探索される。推定された通信パラメータが使用されて、再びならし運転が行われ、通信状況および通信品質の測定が行われる。

　実施の形態２においては、制御装置２に含まれる報酬基準設定部３２で設定される報酬基準値に、以下の表１０に示される報酬基準値が加えられる。表１０は、マージンＴｍｒｇに対して、制御システム２００の通信品質が向上するか否かという観点で報酬基準値が決定される例を示す表である。

　報酬基準設定部３２は、マージンＴｍｒｇが延長すると制御用タイムスロットＳｌｔ１内での制御系データの通信が完了する可能性が高まると仮定し、マージンＴｍｒｇが延長する場合の報酬基準値を現在の値よりも大きい値に設定する。一方、報酬基準設定部３２は、マージンＴｍｒｇが短縮すると制御用タイムスロットＳｌｔ１内での制御系データの通信が完了する可能性が低下すると仮定し、マージンＴｍｒｇが短縮する場合の報酬基準値を現在の値よりも小さい値に設定する。

　表１０に示される報酬基準値により、制御システム２００の構成に応じて、制御用タイムスロットに適切な通信帯域を設定することができる。なお、実施の形態１に係る制御システムと同様に、実施の形態２に係る制御システムも仮想空間に形成された仮想システムであってもよい。

　以上、実施の形態２に係る方法、装置、プログラム、および制御システムによれば、ネットワークを介した制御のリアルタイム性を向上させることができる。

　実施の形態３．
　実施の形態２においては、制御周期Ｐｒｄに含まれるタイムスロットには、定時性通信の要求の度合い（優先度）に違いがあり、制御用タイムスロットＳｌｔ１に対する優先度が最も高いことを説明した。定時性通信を維持するためには、制御用タイムスロットＳｌｔ１の時間間隔（タイムスロット幅）を維持する必要がある。一方で、画像送信用タイムスロットＳｌｔ２および診断用タイムスロットＳｌｔ３のような、制御用タイムスロット以外のタイムスロット（通常タイムスロット）の優先度は制御用タイムスロットＳｌｔ１の優先度よりも低いため、当該タイムスロットのタイムスロット幅を変更することが可能である。すなわち、優先度が相対的に低いタイムスロットは、定時性の要求がほとんどないため、通信フレームを分割することによって次の制御周期において当該タイムスロットを送信することができる。その結果、制御システムの制御周期Ｐｒｄを変更することができる。実施の形態３においては、優先度が相対的に低いタイムスロットの通信フレームを分割し、制御システムの制御周期Ｐｒｄを変更する構成について説明する。

　図１３は、実施の形態２，３の各々に係る制御システムにおいて行われる定時制通信の制御周期に含まれる各タイムスロットの通信フレーム構成の一例を示す図である。図１３においては、制御装置２に受信される通信フレームが示されている。図１３に示されるように、実施の形態２における制御周期Ｐｒｄは、制御用タイムスロットＳｌｔ１、画像送信用タイムスロットＳｌｔ２、および診断用タイムスロットＳｌｔ３に分割されている。制御用タイムスロットＳｌｔ１の通信フレーム構成は、図１２に示される制御用タイムスロットＳｌｔ１の通信フレーム構成と同様であるため、説明を繰り返さない。画像送信用タイムスロットＳｌｔ２，診断用タイムスロットＳｌｔ３は、通信フレームＣＦ３１，ＣＦ４１をそれぞれ含む。

　実施の形態３に関しては、連続する２つの制御周期Ｐｒｄ１（＜Ｐｒｄ）が示されている。制御周期Ｐｒｄ１は、制御用タイムスロットＳｌｔ３１、画像送信用タイムスロットＳｌｔ３２、および診断用タイムスロットＳｌｔ３３に分割されている。先行する制御周期Ｐｒｄ１における制御用タイムスロットＳｌｔ３１の通信フレーム構成は、制御用タイムスロットＳｌｔ１の通信フレーム構成と同様である。後続する制御周期Ｐｒｄ１における制御用タイムスロットＳｌｔ３１は、通信フレームＣＦ２３，ＣＦ２４を含む。制御用タイムスロットＳｌｔ３１の時間間隔は、制御用タイムスロットＳｌｔ１の時間間隔と同じである。

　先行する制御周期Ｐｒｄ１における画像送信用タイムスロットＳｌｔ３２および後続する制御周期Ｐｒｄ１における画像送信用タイムスロットＳｌｔ３２は、画像送信用タイムスロットＳｌｔ２に含まれる通信フレームＣＦ３１が２分割された通信フレームＣＦ３１Ａ，ＣＦ３１Ｂをそれぞれ含む。画像送信用タイムスロットＳｌｔ３２の時間間隔は、画像送信用タイムスロットＳｌｔ２の時間間隔よりも短い。

　先行する制御周期Ｐｒｄ１における診断用タイムスロットＳｌｔ３３および後続する制御周期Ｐｒｄ１における診断用タイムスロットＳｌｔ３３は、診断用タイムスロットＳｌｔ３に含まれる通信フレームＣＦ４１が２分割された通信フレームＣＦ４１Ａ，ＣＦ４１Ｂをそれぞれ含む。診断用タイムスロットＳｌｔ３３の時間間隔は、診断用タイムスロットＳｌｔ３の時間間隔よりも短い。

　実施の形態３においては、実施の形態２の画像送信用タイムスロットＳｌｔ２，診断用タイムスロットＳｌｔ３の各々に含まれる通信フレームが２分割されて、連続する２つの制御周期Ｐｒｄ１において分割された２つの通信フレームがそれぞれ通信される。このように定時性通信の優先度が低いタイムスロットに含まれる通信フレームを分割することにより、実施の形態３の制御周期Ｐｒｄ１を実施の形態２の制御周期Ｐｒｄよりも短くすることができる。なお、図１３においては、通信フレームを２分割する場合について説明したが、通信フレームの分割数は２に限定されない。分割数を増やすほど、制御周期を短縮することができる。

　図１３においては、制御装置が１個の場合について説明したが、ネットワークに複数の制御装置が接続される場合には、制御装置の数と通信フレームの分割数との組合せは膨大となる。また、前述したように、ネットワークには通信帯域を変動させる様々な要因がある。そこで、実施の形態３においては、機械学習によって制御周期の最適解を探索する。実施の形態３においては、ネットワークの通信状況に関するパラメータに、通信フレームの分割数が含まれる。図４，図８に示されるフローチャートに従って、機械学習によって構築された推定モデルによって、優先度の低いタイムスロットの制御装置毎の通信フレームの分割数の通信パラメータが推定される。そして、推定された通信パラメータの下で、ならし運転が行われ、通信状況および通信品質の測定が行われる。制御システムの制御周期Ｐｒｄの目標条件（たとえば、最小の制御周期）が達成されたか否かが判定される。当該目標条件が達成された場合には、ならし運転に使用された通信パラメータがユーザに通知される。当該目標条件が達成されない場合には、再度、機械学習とならし運転が繰り返される。

　具体的には、図７のマスタ装置１は、通信部４１で、優先度の低いタイムスロットにおいて通信パラメータの組合せを変えて、通信フレームを送信する。通信フレームを送信した後、時刻同期プロトコルのＰＴＰメッセージを送信しタイムスロット幅を求める。測定部７０では通信状況および通信品質を測定する。なお、優先度の低いタイムスロットにおいて、必ずしもＰＴＰメッセージを送信し、優先度の低いタイムスロット幅を求める必要はなく、通信状況および通信品質のみが測定されてもよい。推定部２０においては、制御周期が最小となるときに大きな報酬値が与えられ、制御周期が大きくなる程、小さい報酬値が与えられる。通信パラメータが推定モデルに記録され、最良の通信パラメータが選択される。通信部４１では、推定された通信パラメータを使用して、再び、ならし運転が行われ、通信状況および通信品質の測定が行われる。これらの処理を繰り返し行うことによって、最適な通信パラメータの組合せを探索し、制御システムの最適な制御周期を求めることができる。

　以上、実施の形態３に係る方法、装置、プログラム、および制御システムによれば、優先度の低いタイムスロットの通信フレームを分割し、ネットワークを介した制御のリアルタイム性を向上させることができる。

　今回開示された各実施の形態は、矛盾しない範囲で適宜組み合わせて実施することも予定されている。今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　１　マスタ装置、２，２１，２２，２Ｎ　制御装置、３　中継装置、５　伝送路、７　センサ、８　アクチュエータ、１０　ヘッダー、１１　制御装置データ、２０　推定部、３０　学習部、３１　状態観測部、３２　報酬基準設定部、３３　報酬計算部、３４　関数更新部、３５　学習結果記憶部、４０　行動選択部、４１，４２１～４２Ｎ，４３　通信部、４１２　処理回路、４１３　記憶装置、４４　入出力部、４５　バス、６０　ユーザ通知部、７０　測定部、７１　判定部、８０　パラメータ設定部、１００，２００　制御システム、ＣＦ１，ＣＦ２１～ＣＦ２４，ＣＦ３１，ＣＦ３１Ａ，ＣＦ３１Ｂ，ＣＦ４１，ＣＦ４１Ａ，ＣＦ４１Ｂ　通信フレーム、Ｍ１　推定モデル。

Claims

　少なくとも１つの制御対象に対する制御系データを予め定められた間隔で通信する制御システムにおいて行われる、前記制御システムに含まれる複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する方法であって、
　前記複数の装置は、
　前記制御系データを送信する少なくとも１つのマスタ装置と、
　前記少なくとも１つの制御対象が接続される少なくとも１つの制御装置と、
　前記少なくとも１つのマスタ装置と前記少なくとも１つの制御装置とを中継する少なくとも１つの中継装置とを含み、
　前記方法は、
　前記通信パラメータに初期値が設定された前記制御システムが運転された場合の前記ネットワークの通信状況に関する第１パラメータと前記ネットワークの通信品質に関する第２パラメータとを測定するステップと、
　前記第１パラメータおよび前記第２パラメータを含む入力パラメータから前記通信パラメータを推定するステップと、
　推定された前記通信パラメータが設定された前記制御システムが運転された場合の前記通信帯域が目標条件を充足するか否かを判定するステップとを含む、方法。
　前記目標条件が充足されるまで、前記推定するステップが反復される、請求項１に記載の方法。
　前記目標条件は、前記通信帯域の下で、前記予め定められた間隔以内に、前記少なくとも１つのマスタ装置が前記少なくとも１つの制御対象から測定データを取得し、前記測定データの解析結果に応じた前記制御系データを前記少なくとも１つの制御対象に送信することが完了するという条件である、請求項１または２に記載の方法。
　前記ネットワークにおいては、データを含む通信フレームが通信され、
　前記第１パラメータは、前記通信フレームに含まれるデータの種別、前記ネットワークの通信速度、前記ネットワークにおいて通信される単位時間当たりの通信量、連続して送信される２つの通信フレームの時間間隔、および複数の通信フレームが通信される順番の少なくとも１つを含み、
　前記第２パラメータは、前記ネットワークにおける通信フレームの損失量、および前記通信フレームが送信されてから受信されるまでの時間間隔である通信遅延の少なくとも１つを含み、
　前記通信パラメータは、前記第１パラメータ、前記ネットワークの構成に関する第３パラメータ、前記少なくとも１つの制御装置の構成に関する第４パラメータ、第５パラメータ、および第６パラメータの少なくとも１つを含み、
　前記測定するステップは、前記第５パラメータおよび前記第６パラメータをさらに測定し、
　前記推定するステップは、前記第５パラメータおよび前記第６パラメータをさらに推定し、
　前記第３パラメータは、前記少なくとも１つのマスタ装置の個数、前記少なくとも１つの制御装置の個数、前記少なくとも１つの中継装置の個数、前記ネットワークに含まれる装置の総数、前記ネットワークにおける前記複数の装置の接続形態、および前記複数の装置の各々が前記ネットワークを介して通信する装置の数の少なくとも１つを含み、
　前記第４パラメータは、前記少なくとも１つの制御対象のそれぞれに対応する少なくとも１つの種別、前記少なくとも１つの種別の各々の数、前記少なくとも１つの制御装置の数、前記少なくとも１つの制御装置と前記少なくとも１つの制御対象との接続形態、前記少なくとも１つの制御装置の各々が通信する制御対象の数、前記少なくとも１つの制御装置に含まれる少なくとも１つの制御点の数、前記少なくとも１つの制御点にそれぞれ接続された前記少なくとも１つの制御対象の数、前記ネットワークにおいて前記少なくとも１つのマスタ装置から前記少なくとも１つの中継装置を介して前記少なくとも１つの制御装置に至る伝送路の数、前記少なくとも１つの接続点と前記少なくとも１つの制御対象との接続形態、および前記少なくとも１つの制御点から前記少なくとも１つの制御対象にそれぞれ至る伝送路の数の少なくとも１つを含み、
　前記第５パラメータは、前記少なくとも１つの制御点の各々における通信速度、前記少なくとも１つの制御点の各々において通信される単位時間当たりの通信量、当該制御点において連続して通信される２つの通信フレームの時間間隔、当該制御点において通信される複数の通信フレームの順番の少なくとも１つを含み、
　前記第６パラメータは、前記少なくとも１つの制御点における通信フレームの損失量、および前記通信フレームが送信されてから受信されるまでの時間間隔である通信遅延の少なくとも１つを含む、請求項１～３のいずれか１項に記載の方法。
　前記測定するステップおよび前記推定するステップは、前記制御システムの運転開始時に実行されるか、予め定められた周期で定期的に実行されるか、または前記第３パラメータおよび前記第４パラメータが変更された場合に実行される、請求項４に記載の方法。
　前記推定するステップは、強化学習によって最適化される推定モデルを用いて前記入力パラメータから前記通信パラメータを推定し、
　前記測定するステップにおいて、前記第１パラメータ、前記第２パラメータ、前記第３パラメータ、前記第４パラメータ、前記第５パラメータ、および前記第６パラメータの各々は状態変数として測定され、
　前記推定するステップにおいて、前記通信パラメータは行動として推定される、請求項５に記載の方法。
　前記推定するステップは、前記制御システムの性能、通信品質、コスト、および信頼性に関する報酬基準値によって前記強化学習を行って前記制御システムに要求される目標を満たす最適な通信パラメータを推定する処理、または、前記通信パラメータの一部を固定化もしくは前記通信パラメータが変動する範囲を制限して前記強化学習をする処理を含む、請求項６に記載の方法。
　前記制御システムの性能に関する前記報酬基準値は、同期周期、タイムスロット幅、通信速度、通信量、および通信フレーム間隔の少なくとも１つを含む、請求項７に記載の方法。
　前記制御システムの通信品質に関する前記報酬基準値は、通信フレームの欠損率、通信フレームの遅延時間、および遅延通信フレームの比率の少なくとも１つを含む、請求項７に記載の方法。
　前記制御システムのコストに関する前記報酬基準値は、前記少なくとも１つのマスタ装置の数、前記少なくとも１つの中継装置の数、前記少なくとも１つの制御装置の数、前記少なくとも１つの制御点の数、前記制御対象の数、前記制御システムに含まれる少なくとも１つの伝送路を形成する少なくとも１つのケーブルの長さ、前記少なくとも１つのケーブルの本数、および前記少なくとも１つのケーブルの敷設費用の少なくとも１つを含む、請求項７に記載の方法。
　前記制御システムの信頼性に関する前記報酬基準値は、通信フレームへのＣＲＣ（Cyclic　Redundancy　Check）の付与の有無、通信フレームの再送制御の有無、および再送回数の少なくとも１つを含む、請求項７に記載の方法。
　前記複数の装置は、時刻同期プロトコルによって互いに同期され、
　前記予め定められた間隔には、前記制御系データの通信が行われる制御用タイムスロットが含まれ、
　前記制御用タイムスロットにおける通信帯域の測定に、前記時刻同期プロトコルの同期メッセージが用いられ、
　前記第１パラメータは、前記少なくとも１つのマスタ装置から前記制御系データが送信された時刻から前記制御系データが前記少なくとも１つの制御装置に受信されるまでの時間間隔である通信時間を含み、
　前記通信パラメータは、前記通信時間の揺らぎ量の最大値を含む、請求項１～１１のいずれか１項に記載の方法。
　前記複数の装置は、時刻同期プロトコルによって互いに同期され、
　前記予め定められた間隔には、前記制御系データの通信が行われる制御用タイムスロットと、前記制御用タイムスロットより定時性通信の要求の低い情報を送信する通常タイムスロットが含まれ、
　前記制御用タイムスロットにおける通信帯域の測定に、前記時刻同期プロトコルの同期メッセージが用いられ、
　前記第１パラメータは、前記通常タイムスロットの通信フレームの分割数を含む、請求項１～１１のいずれか１項に記載の方法。
　前記通常タイムスロットにおける通信帯域の測定にも、前記同期メッセージが用いられる、請求項１３に記載の方法。
　前記制御システムは、仮想システムとして１つのコンピュータにおいてモデル化されている、請求項１～１４のいずれか１項に記載の方法。
　制御システムに含まれる複数の通信装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する装置であって、
　前記制御システムにおいては、少なくとも１つの制御対象に対する制御系データが予め定められた間隔で通信され、
　前記複数の通信装置は、
　前記制御系データを送信する少なくとも１つのマスタ装置と、
　前記少なくとも１つの制御対象が接続される少なくとも１つの制御装置と、
　前記少なくとも１つのマスタ装置と前記少なくとも１つの制御装置とを中継する少なくとも１つの中継装置とを含み、
　前記装置は、
　前記通信パラメータに初期値が設定された前記制御システムが運転された場合の前記ネットワークの通信状況に関する第１パラメータと前記ネットワークの通信品質に関する第２パラメータとを測定する測定部と、
　前記第１パラメータおよび前記第２パラメータを含む入力パラメータから前記通信パラメータを推定する推定部と、
　推定された前記通信パラメータが設定された前記制御システムが運転された場合の前記通信帯域が目標条件を充足するか否かを判定する判定部とを備える、装置。
　処理回路によって実行されることにより、制御システムに含まれる複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化するプログラムであって、
　前記制御システムにおいては、少なくとも１つの制御対象に対する制御系データが予め定められた間隔で通信され、
　前記複数の装置は、
　前記制御系データを送信する少なくとも１つのマスタ装置と、
　前記少なくとも１つの制御対象が接続される少なくとも１つの制御装置と、
　前記少なくとも１つのマスタ装置と前記少なくとも１つの制御装置とを中継する少なくとも１つの中継装置とを含み、
　前記処理回路によって実行されることにより前記プログラムは、
　前記通信パラメータに初期値が設定された前記制御システムが運転された場合の前記ネットワークの通信状況に関する第１パラメータと前記ネットワークの通信品質に関する第２パラメータとを測定し、
　前記第１パラメータおよび前記第２パラメータを含む入力パラメータから前記通信パラメータを推定し、
　推定された前記通信パラメータが設定された前記制御システムが運転された場合の前記通信帯域が目標条件を充足するか否かを判定する、プログラム。
　少なくとも１つの制御対象に対する制御系データを予め定められた間隔で通信する制御システムであって、
　前記制御システムは、複数の装置を備え、
　前記複数の装置は、
　前記制御系データを送信する少なくとも１つのマスタ装置と、
　前記少なくとも１つの制御対象が接続される少なくとも１つの制御装置と、
　前記少なくとも１つのマスタ装置と前記少なくとも１つの制御装置とを中継する少なくとも１つの中継装置とを含み、
　前記複数の装置に含まれる装置のいずれかである特定装置は、前記複数の装置によって形成されるネットワークの通信帯域に関する通信パラメータを最適化する装置であって、
　前記通信パラメータに初期値が設定された前記制御システムが運転された場合の前記ネットワークの通信状況に関する第１パラメータと前記ネットワークの通信品質に関する第２パラメータとを測定する測定部と、
　前記第１パラメータおよび前記第２パラメータを含む入力パラメータから前記通信パラメータを推定する推定部と、
　推定された前記通信パラメータが設定された前記制御システムが運転された場合の前記通信帯域が目標条件を充足するか否かを判定部とを備える、制御システム。