WO2021064769A1

WO2021064769A1 - システム、方法及び制御装置

Info

Publication number: WO2021064769A1
Application number: PCT/JP2019/038457
Authority: WO
Inventors: 亜南沢辺; 孝法岩井; 航生小林
Original assignee: 日本電気株式会社
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-08
Also published as: US11863399B2; JPWO2021064769A1; US20220303190A1; JP7231049B2

Abstract

【課題】通信ネットワークにおける通信の制御を安定させることを可能にすること。【解決手段】本開示の一態様に係るシステムは、ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、上記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、を含む。

Description

システム、方法及び制御装置

　本開示は、システム、方法及び制御装置に関する。

　通信環境が変化するネットワークにおいて、通信環境に適した制御パラメータを自動で設定することは、非常に重要である。当該制御パラメータを自動で設定するための手法として、機械学習（machine　learning）が期待されている。当該機械学習の一種として、強化学習（reinforcement　learning）が知られている。

　例えば、特許文献１には、無線通信ネットワークの制御パラメータを自動で設定するために強化学習を使用する技術が記載されている。

特開２０１３－１０６２０２号公報

　しかし、通信ネットワークの制御パラメータを自動で設定するために強化学習を使用する場合に、学習の収束に長い時間がかかり得る。そのため、学習が収束しない長い時間にわたり、通信ネットワークにおける通信の制御が不安定になる可能性がある。

　本開示の目的は、通信ネットワークにおける通信の制御を安定させることを可能にするシステム、方法及び制御装置を提供することにある。

　本開示の一態様に係るシステムは、ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、上記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、を含む。

　本開示の一態様に係る方法は、ネットワーク運用における人間の作業に関する作業関連情報を取得することと、上記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練することと、を含む。

　本開示の一態様に係る制御装置は、ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、上記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、を備える。

　本開示によれば、通信ネットワークにおける通信の制御を安定させることが可能になる。なお、本開示により、当該効果の代わりに、又は当該効果とともに、他の効果が奏されてもよい。

強化学習の概略を説明するための図である。Ｑテーブルの一例を説明するための図である。第１の実施形態に係るシステムの概略的な構成の一例を示す図である。第１の実施形態に係る制御装置の概略的な機能構成の例を示すブロック図である。第１の実施形態に係る制御装置の概略的なハードウェア構成の例を示すブロック図である。第１の実施形態に係るネットワーク制御パラメータの変更の作業ログの一例を示す図である。第１の実施形態に係るネットワーク状態の確率密度分布の一例を示す図である。第１の実施形態に係る訓練処理の概略的な流れの例を説明するためのフローチャートである。第１の実施形態に係る制御装置の動作の一例を説明するための図である。第１の実施形態の第６の変形例に係る制御装置の動作の第１の例を説明するための図である。第１の実施形態の第６の変形例に係る制御装置の動作の第２の例を説明するための図である。第１の実施形態の第６の変形例に係る制御装置の動作の第３の例を説明するための図である。第２の実施形態に係るシステムの概略的な構成の一例を示す図である。第２の実施形態に係る制御装置の概略的な機能構成の例を示すブロック図である。第２の実施形態に係る制御装置の概略的なハードウェア構成の例を示すブロック図である。第２の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。第３の実施形態に係るシステムの概略的な構成の一例を示す。第３の実施形態に係る訓練処理の概略的な流れの例を説明するためのフローチャートである。

　以下、添付の図面を参照して本開示の実施形態を詳細に説明する。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複説明が省略され得る。

　説明は、以下の順序で行われる。
　１．関連技術
　２．第１の実施形態
　　２．１．システムの構成
　　２．２．制御装置の構成
　　２．３．動作（機械学習ベースのコントローラの訓練）
　　２．４．変形例
　３．第２の実施形態
　　３．１．システムの構成
　　３．２．制御装置の構成
　　３．３．第１の動作（機械学習ベースのコントローラの訓練）
　　３．４．第２の動作（コントローラの選択）
　　３．５．変形例
　４．第３の実施形態

　＜＜１．関連技術＞＞
　図１及び図２を参照して、本開示の実施形態に関連する技術として、機械学習の一種である教師あり学習（supervised　learning）と、機械学習の一種である強化学習とを説明する。

　（１）教師あり学習
　教師あり学習では、入力データと当該入力データに対応する出力データ（即ち、正解データ）とを含む訓練データを使用して、入力データに応じてどのようなデータを出力すべきかが学習される。換言すると、教師あり学習では、当該訓練データを使用して、入力データに対する出力データのパターンが学習される。

　教師あり学習には、例えば、ニューラルネットワーク、サポートベクターマシン又は決定木等のアルゴリズムが使用される。

　（２）強化学習
　図１は、強化学習の概略を説明するための図である。図１を参照すると、強化学習では、エージェント（agent）８１は、環境（environment）８３の状態（state）を観測し、観測した状態から行動（action）を選択する。エージェント８１は、当該環境の下での当該行動の選択により、環境８３から報酬（reward）を得る。このような一連の動作の繰り返しにより、エージェント８１は、環境８３の状態に応じてどのような行動が最も大きい報酬をもたらすかを学習することができる。即ち、エージェント８１は、報酬を最大化するために、環境に応じて選択すべき行動を学習することができる。

　強化学習の一例として、Ｑ学習がある。Ｑ学習では、例えば、環境８３の各状態について各行動がどの程度の価値があるかを示すＱテーブルが用いられる。エージェント８１は、Ｑテーブルを用いて、環境８３の状態に応じて行動を選択する。さらに、エージェント８１は、当該行動の選択に応じて得られる報酬に基づいて、Ｑテーブルを更新する。

　図２は、Ｑテーブルの一例を説明するための図である。図２を参照すると、環境８３の状態として、状態Ａ（State　A）及び状態Ｂ（State　B）があり、エージェント８１の行動として、行動Ａ（Action　A）及び行動Ｂ（Action　B）がある。Ｑテーブルは、各状態において各行動をとった場合の価値を示す。例えば、状態Ａにおいて行動Ａをとることの価値はｑ_ＡＡであり、状態Ａにおいて行動Ｂをとることの価値はｑ_ＡＢである。状態Ｂにおいて行動Ａをとることの価値はｑ_ＢＡであり、状態Ｂにおいて行動Ｂをとることの価値はｑ_ＢＢである。例えば、エージェント８１は、各状態において、価値が最も高い行動をとる。一例として、ｑ_ＡＡがｑ_ＡＢよりも高い場合に、エージェント８１は、状態Ａにおいて行動Ａをとる。なお、Ｑテーブル内の価値（ｑ_ＡＡ、ｑ_ＡＢ、ｑ_ＢＡ及びｑ_ＢＢ）は、行動の選択に応じて得られる報酬に基づいて更新される。

　強化学習では、上述したように各状態において価値が最も高い行動をとることは、「利用（exploitation）」と呼ばれる。「利用」のみにより学習が行われると、各状態においてとられる行動は限定されるので、学習結果は、最適解ではなく局所最適解となり得る。そのため、強化学習では、「利用」と「探索（exploration）」とにより学習が行われる。「探索」は、各状態においてランダムに選択された行動をとることを意味する。例えば、Epsilon-Greedy法では、確率εで「探索」が選択され、確率１－εで「利用」が選択される。「探索」により、例えば、ある状態において、価値が不明である行動が選択され、その結果、当該ある状態における当該行動の価値を知ることができる。このような「探索」により、学習結果として最適解を得られる可能性が高くなる。

　＜＜２．第１の実施形態＞＞
　図３～図１２を参照して、本開示の第１の実施形態を説明する。

　＜２．１．システムの構成＞
　図３は、第１の実施形態に係るシステム１の概略的な構成の一例を示す。図３を参照すると、システム１は、通信ネットワーク１０及び制御装置１００を含む。

　（１）通信ネットワーク１０
　通信ネットワーク１０は、データを転送する。例えば、通信ネットワーク１０は、ネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）と回線とを含み、当該ネットワーク機器の各々が、回線を介してデータを転送する。

　通信ネットワーク１０は、有線ネットワークであってもよく、又は、無線ネットワークであってもよい。あるいは、通信ネットワーク１０は、有線ネットワーク及び無線ネットワークの両方を含んでもよい。無線ネットワークは、例えば、ＬＴＥ（Long Term Evolution）又は５Ｇ（5th　Generation）等の通信回線規格を用いた移動体通信ネットワークであってもよいし、無線ＬＡＮ（Local　Area　Network）又はローカル５Ｇのような特定のエリアで用いるネットワークであってよい。有線ネットワークは、例えば、ＬＡＮ、ＷＡＮ（Wide　Area　Network）又はインターネット等であってもよい。

　（２）制御装置１００
　制御装置１００は、通信ネットワーク１０のための制御を行う。

　例えば、制御装置１００は、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ（machine　learning　based　controller）を含む。

　例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。

　なお、第１の実施形態に係る制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器に限定されない。この点については、第１の実施形態の第６の変形例として後に詳細に説明する。

　＜２．２．制御装置の構成＞
　（１）機能構成
　図４は、第１の実施形態に係る制御装置１００の概略的な機能構成の例を示すブロック図である。図４を参照すると、制御装置１００は、取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び通信処理手段１５０を備える。

　取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び通信処理手段１５０の各々の動作は、後に説明する。

　（２）ハードウェア構成
　図５は、第１の実施形態に係る制御装置１００の概略的なハードウェア構成の例を示すブロック図である。図５を参照すると、制御装置１００は、プロセッサ２１０、メインメモリ２２０、ストレージ２３０、通信インタフェース２４０及び入出力インタフェース２５０を備える。プロセッサ２１０、メインメモリ２２０、ストレージ２３０、通信インタフェース２４０及び入出力インタフェース２５０は、バス２６０を介して互いに接続されている。

　プロセッサ２１０は、メインメモリ２２０から読み出されるプログラムを実行する。一例として、プロセッサ２１０は、ＣＰＵ（Central　Processing　Unit）である。

　メインメモリ２２０は、プログラム及び各種データを記憶する。一例として、メインメモリ２２０は、ＲＡＭ（Random　Access　Memory）である。

　ストレージ２３０は、プログラム及び各種データを記憶する。一例として、ストレージ２３０は、ＳＳＤ（Solid　State　Drive）及び／又はＨＤＤ（Hard　Disk　Drive）を含む。

　通信インタフェース２４０は、他の装置との通信のためのインタフェースである。一例として、通信インタフェース２４０は、ネットワークアダプタ又はネットワークインタフェースカードである。

　入出力インタフェース２５０は、キーボード等の入力装置、及びディスプレイ等の出力装置との接続のためのインタフェースである。

　取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び通信処理手段１５０の各々は、プロセッサ２１０及びメインメモリ２２０により実装されてもよく、又は、プロセッサ２１０、メインメモリ２２０及び通信インタフェース２４０により実装されてもよい。

　当然ながら、制御装置１００のハードウェア構成はこの例に限定されない。制御装置１００は、他のハードウェア構成により実装されてもよい。

　あるいは、制御装置１００は、仮想化されていてもよい。即ち、制御装置１００は、仮想マシンとして実装されてもよい。この場合に、制御装置１００（仮想マシン）は、プロセッサ及びメモリ等を含む物理マシン（ハードウェア）及びハイパーバイザ上で仮想マシンとして動作してもよい。当然ながら、制御装置１００（仮想マシン）は、複数の物理マシンに分散され、動作してもよい。

　制御装置１００は、プログラム（命令）を記憶するメモリ（メインメモリ２２０）と、当該プログラム（命令）を実行可能な１つ以上のプロセッサ（プロセッサ２１０）とを含んでもよい。当該１つ以上のプロセッサは、上記プログラムを実行して、取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び／又は通信処理手段１５０の動作を行ってもよい。上記プログラムは、取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び／又は通信処理手段１５０の動作をプロセッサに実行させるためのプログラムであってもよい。

　＜２．３．動作（機械学習ベースのコントローラの訓練）＞
　制御装置１００（取得手段１１０）は、ネットワーク運用における人間の作業に関する作業関連情報を取得する。制御装置１００（訓練手段１２０）は、上記作業関連情報に基づいて、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ１３０を訓練する。

　（１）作業関連情報
　上述したように、上記作業関連情報は、ネットワーク運用における人間の作業に関する情報である。

　－ネットワーク運用における人間の作業
　上記ネットワーク運用は、例えば、通信ネットワーク１０のネットワーク運用である。即ち、上記人間の作業は、通信ネットワーク１０のネットワーク運用における人間の作業である。

　上記人間の作業は、例えば、ネットワーク制御パラメータの変更である。即ち、上記人間の作業は、ネットワーク運用におけるネットワーク制御パラメータの変更である。

　なお、第１の実施形態に係るネットワーク運用及び人間の作業はこの例に限定されない。この点については第１の実施形態の第１の変形例として後に詳細に説明する。

　－作業関連情報に含まれる情報（作業情報及びネットワーク状態情報）
　上記作業関連情報は、例えば、上記人間の作業を示す作業情報、及び、上記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む。後述するように、例えば、当該ネットワーク状態情報は、機械学習の入力データとして使用され、当該作業情報は、当該入力データに対応する機械学習の出力データとして使用される。

　例えば、上記作業関連情報は、上記作業情報及び上記ネットワーク状態情報の複数のセットを含む。より具体的には、例えば、上記作業関連情報は、上記作業情報及び上記ネットワーク状態情報のＮ個のセットを含み、Ｎは、機械学習のために十分に大きい数である。

　上述したように、上記人間の作業は、例えば、ネットワーク制御パラメータの変更である。この場合に、上記作業情報は、上記ネットワーク制御パラメータの変更として、例えば、上記ネットワーク制御パラメータの増加若しくは減少を示す。さらに具体的には、上記作業情報は、上記ネットワーク制御パラメータが増加したか減少したかを示してもよく、又は、上記ネットワーク制御パラメータの増加若しくは減少の量を示してもよい。

　一例として、上記ネットワーク状態（ＮＷ状態）と上記ネットワーク制御パラメータ（ＮＷ制御パラメータ）との組合せは、以下のようなものである。
［ＮＷ状態］スループット及び／又はパケット到着間隔
［ＮＷ制御パラメータ］優先度及び／又は帯域

　例えば、上記ネットワーク制御パラメータは、フローごとのパラメータであり、上記ネットワーク状態も、フローごとのネットワーク状態である。各フローは、例えば、送信アドレス、受信アドレス及びポート番号により識別される。

　当然ながら、第１の実施形態に係る上記ネットワーク状態及び上記ネットワーク制御パラメータは、この例に限定されない。この点については第１の実施形態の第２の変形例として後に詳細に説明する。

　上述したように、例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。この場合に、例えば、上記ネットワーク状態は、制御装置１００において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）であり、例えば、上記ネットワーク制御パラメータは、制御装置１００において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）である。

　なお、上述したように、第１の実施形態に係る制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器に限定されない。この点については、第１の実施形態の第６の変形例として後に詳細に説明する。

　上記ネットワーク状態は、通信ネットワーク（例えば、通信ネットワーク１０）の状態であるが、上記ネットワーク状態は、当該通信ネットワークにおける通信の状態とも言える。

　－作業関連情報の生成
　上記作業関連情報は、例えば、上記人間の作業のログに基づいて生成される。上述したように、上記人間の作業は、例えば、ネットワーク制御パラメータの変更であり、この場合に、上記作業関連情報は、ネットワーク制御パラメータの変更のログに基づいて生成される。

　例えば、上記作業関連情報に含まれる上記作業情報は、上記ログから直接的に生成され、上記作業関連情報に含まれる上記ネットワーク状態情報は、上記ログに対応するパケットキャプチャ情報から生成される。

　図６は、第１の実施形態に係るネットワーク制御パラメータの変更の作業ログの一例を示す。図６を参照すると、当該作業ログは、ネットワーク制御パラメータであるパラメータ２１及びパラメータ２３のセット（例えば、優先度及び帯域のセット）が変更された時刻と変更値とを含む。この例では、パラメータ２１及びパラメータ２３のセットは、時刻２５及び時刻２７において変更されている。例えば時刻２７では、パラメータ２３がａからｂに変更されている。例えばこのような作業ログから、ネットワーク制御パラメータの変更を知ることができる。よって、ネットワーク制御パラメータの変更を示す作業情報が、このような作業ログから直接的に生成され得る。さらに、ネットワーク制御パラメータが変更された時刻（例えば、パラメータ２３が変更された時刻２７）の直前の所定期間のパケットキャプチャ情報から、当該ネットワーク制御パラメータ（例えば、パラメータ２３）の変更に対応するネットワーク状態（例えば、スループット及び／又はパケット到着間隔）を知ることができる。例えば、当該パケットキャプチャ情報から、上記所定期間におけるネットワーク状態の統計値（例えば、平均値、最頻値、中央値、最大値、最小値、分散及び／又は標準偏差等）を算出することができる。よって、ネットワーク制御パラメータの変更に対応するネットワーク状態（例えば、上記統計値）を示すネットワーク状態情報が、作業ログから特定されるパケットキャプチャ情報から生成され得る。なお、例えば図７に示されるような、上記所定期間におけるネットワーク状態の確率密度分布が、上記統計値の算出のために生成され、使用されてもよい。

　（２）作業関連情報の取得
　上述したように、制御装置１００（取得手段１１０）は、上記作業関連情報を取得する。

　例えば、上記作業関連情報は、制御装置１００以外の装置において（人手により又は自動で）生成され、制御装置１００に提供される。そして、制御装置１００（取得手段１１０）は、上記作業関連情報を取得する。

　なお、第１の実施形態において、上記作業関連情報の取得の手法は、この例に限定されない。この点については、第１の実施形態の第４の変形例として後に詳細に説明する。

　（３）訓練
　上述したように、制御装置１００（訓練手段１２０）は、上記作業関連情報に基づいて、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ１３０を訓練する。

　例えば、制御装置１００（訓練手段１２０）は、上記作業関連情報に含まれる上記ネットワーク状態情報を入力データとして使用し、上記作業関連情報に含まれる上記作業情報を、上記入力データに対応する出力データとして使用して、機械学習ベースのコントローラ１３０を訓練する。具体的には、例えば、制御装置１００（訓練手段１２０）は、機械学習ベースのコントローラ１３０に、入力データとして上記ネットワーク状態情報を、上記入力データに対応する出力データとして上記作業情報を提供することにより、機械学習ベースのコントローラ１３０を訓練する。

　例えば、機械学習ベースのコントローラ１３０は、教師あり学習ベースのコントローラ（supervised　learning　based　controller）であり、制御装置１００（訓練手段１２０）は、上記作業関連情報を教師あり学習の訓練データとして使用して、機械学習ベースのコントローラ１３０を訓練する。具体的には、例えば、上記訓練データは、入力データと、当該入力データに対応する正解データ（出力データ）とを含む。制御装置１００（訓練手段１２０）は、上記入力データとして上記ネットワーク状態情報を機械学習ベースのコントローラ１３０に提供し、上記正解データ（上記出力データ）として上記作業情報を機械学習ベースのコントローラ１３０に提供する。上記訓練データは、教師データと呼ばれてもよい。

　このような訓練により、機械学習ベースのコントローラ１３０は、ネットワーク運用における人間の作業（ネットワーク制御パラメータの変更）に基づいて、ネットワーク状態に応じてネットワーク制御パラメータをどのように変更すべきかを学習することができる。その結果、機械学習ベースのコントローラ１３０は、人間の作業と同様に、通信ネットワーク１０における通信を制御することが可能になる。そのため、例えば、通信ネットワーク１０における通信の制御に機械学習ベースのコントローラ１３０を使用することによって、通信ネットワーク１０における通信の制御を安定させることが可能になる。

　なお、第１の実施形態に係る機械学習ベースのコントローラ１３０は、教師あり学習ベースのコントローラに限定されない。この点については、第１の実施形態の第５の変形例として後に詳細に説明する。

　（４）処理の流れ
　図８は、第１の実施形態に係る訓練処理の概略的な流れの例を説明するためのフローチャートである。

　制御装置１００（取得手段１１０）は、ネットワーク運用における人間の作業に関する作業関連情報を取得する（Ｓ３１０）。

　制御装置１００（訓練手段１２０）は、上記作業関連情報に基づいて、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ１３０を訓練する（Ｓ３２０）。

　（５）訓練後の動作
　機械学習ベースのコントローラ１３０は、上記作業関連情報に基づく訓練の後に、通信ネットワーク１０における通信の制御に使用される。

　具体的には、例えば、機械学習ベースのコントローラ１３０は、通信ネットワーク１０におけるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力する。

　上述したように、例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。この場合に、上記ネットワーク状態は、制御装置１００において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）であり、例えば、上記ネットワーク制御パラメータは、制御装置１００において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）である。即ち、機械学習ベースのコントローラ１３０は、制御装置１００において観測されるネットワーク状態から、制御装置１００において設定されるネットワーク制御パラメータの変更を選択し、出力する。制御装置１００（設定手段１４０）は、選択された当該ネットワーク制御パラメータの当該変更に従って、変更されたネットワーク制御パラメータを制御装置１００において設定する。その結果、制御装置１００（通信処理手段１５０）は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送する。このように、機械学習ベースのコントローラ１３０は、例えばネットワーク制御パラメータの変更を選択することにより、通信ネットワーク１０における通信を制御する。

　＜２．４．変形例＞
　第１の実施形態の第１～第７の変形例を説明する。なお、第１の実施形態の第１～第７の変形例のうちの２つ以上の変形例が組み合せられてもよい。

　（１）第１の変形例
　上述したように、機械学習ベースのコントローラ１３０は、ネットワーク運用における人間の作業に関する作業関連情報に基づいて訓練される。また、上述したように、上記ネットワーク運用は、例えば、通信ネットワーク１０のネットワーク運用である。しかし、第１の実施形態は、この例に限定されない。

　第１の実施形態の第１の変形例では、上記ネットワーク運用は、通信ネットワーク１０とは異なる他の通信ネットワークのネットワーク運用であってもよい。即ち、機械学習ベースのコントローラ１３０は、上記他の通信ネットワークにおける人間の作業に関する作業関連情報に基づいて訓練されてもよい。上記他の通信ネットワークは、通信ネットワーク１０に類似するネットワークであってもよい。

　これにより、例えば、通信ネットワーク１０の運用の実績がなくても、通信ネットワーク１０における通信の制御に使用可能な機械学習ベースのコントローラを得ることが可能になる。

　（２）第２の変形例
　上述したように、上記作業関連情報は、例えば、上記人間の作業を示す作業情報、及び、上記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む。上述したように、上記人間の作業は、例えば、ネットワーク制御パラメータの変更であり、上記作業情報は、上記ネットワーク制御パラメータの変更として、例えば、上記ネットワーク制御パラメータの増加若しくは減少を示す。さらに、上述したように、一例として、上記ネットワーク状態は、スループット及び／又はパケット到着間隔であり、上記ネットワーク制御パラメータは、優先度及び／又は帯域である。また、上述したように、例えば、上記ネットワーク制御パラメータは、フローごとのパラメータであり、上記ネットワーク状態も、フローごとのネットワーク状態である。しかし、当然ながら、第１の実施形態は、この例に限定されない。

　第１の実施形態の第２の変形例では、まず、上記ネットワーク制御パラメータは、フローごとのパラメータでなくてもよく、上記ネットワーク状態も、フローごとのネットワーク状態でなくてもよい。上記ネットワーク制御パラメータは、複数のフローを含み得る通信全体についてのパラメータであってもよく、上記ネットワーク状態も、当該通信全体についてのネットワーク状態であってもよい。

　また、上記ネットワーク状態は、スループット及び／又はパケット到着間隔でなくてもよく、上記ネットワーク制御パラメータは、優先度及び／又は帯域でなくてもよい。上記ネットワーク状態（ＮＷ状態）と上記ネットワーク制御パラメータ（ＮＷ制御パラメータ）との組合せは、以下のようなものであってもよい。
［例１（ＴＣＰ（Transmission　Control　Protocol）フローの制御の例）］
　［ＮＷ状態］アクティブフロー数、可用帯域、及び／又は、
　　　　　　　ＩＰ（Internet　Protocol）の過去のバッファサイズ
　［ＮＷ制御パラメータ］送信バッファサイズ
［例２（動画トラフィックの流量の制御の例）］
　［ＮＷ状態］動画のＱｏＥ（Quality　of　Experience）
　　　　　　　（例えば、動画のビットレート及び／又は動画の解像度)
　［ＮＷ制御パラメータ］スループットの上限
［例３（ロボット制御の例）］
　［ＮＷ状態］パケット到着間隔及び／又はパケットサイズの統計値
　　　　　　　（例えば、最大値、最小値、平均値又は標準偏差など)
　［ＮＷ制御パラメータ］パケット送信間隔

　さらに、上記作業情報は、上記ネットワーク制御パラメータの変更として、上記ネットワーク制御パラメータの増加若しくは減少を示さず、上記ネットワーク制御パラメータの変更された値そのものを示してもよい。例えば、図６を再び参照すると、時刻２７についてのパラメータの変更として、パラメータ２３の増加又は減少（例えば、ｂ－ａ）を示さず、パラメータ２１とパラメータ２３のセットの変更された値（ａ、ｂ）を示してもよい。

　（３）第３の変形例
　上述したように、上記作業関連情報は、例えば、上記人間の作業のログに基づいて生成される。しかし、第１の実施形態は、この例に限定されない。

　第１の実施形態の第３の変形例では、上記作業関連情報は、上記人間の作業のための作業基準に基づいて生成されてもよい。上述したように、上記人間の作業は、例えば、ネットワーク制御パラメータの変更であり、この場合に、上記作業関連情報は、ネットワーク制御パラメータの変更のための作業基準に基づいて生成されてもよい。上記作業基準は、ネットワーク運用における人間の作業のためのルールであってもよく、ネットワーク運用における人間の作業のためのノウハウ又は参考情報であってもよい。

　例えば、上記作業基準は、ネットワーク状態と、当該ネットワーク状態に対応するネットワーク制御パラメータの変更（即ち、人間の作業）とを含んでもよく、上記作業基準に基づいて、ネットワーク状態とネットワーク制御パラメータの変更（即ち、人間の作業）とのセットのサンプルが、上記作業関連情報（上記ネットワーク状態情報及び上記作業情報）として生成されてもよい。

　このように、作業ログがなくても訓練データ（即ち、上記作業関連情報）が生成され得る。

　（４）第４の変形例
　上述したように、例えば、上記作業関連情報は、制御装置１００以外の装置において（人手により又は自動で）生成され、制御装置１００に提供される。しかし、第１の実施形態は、この例に限定されない。

　第１の実施形態の第４の変形例では、上記作業関連情報は、制御装置１００により生成されてもよい。この場合に、制御装置１００は、生成手段をさらに備えてもよく、制御装置１００（生成手段）は、上記作業関連情報を生成してもよい。

　（５）第５の変形例
　上述したように、例えば、機械学習ベースのコントローラ１３０は、教師あり学習ベースのコントローラである。しかし、第１の実施形態は、この例に限定されない。

　第１の実施形態の第５の変形例では、機械学習ベースのコントローラ１３０は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラ（reinforcement　learning　based　controller）であってもよい。この場合に、制御装置１００（訓練手段１２０）は、上記作業関連情報を、強化学習における入力される状態及び出力される行動とみなして、機械学習ベースのコントローラ１３０を訓練してもよい。具体的には、例えば、制御装置１００（訓練手段１２０）は、上記入力される状態として上記ネットワーク状態情報を使用し、上記出力する行動として上記作業情報を使用して、機械学習ベースのコントローラ１３０（強化学習ベースのコントローラ）を訓練してもよい。即ち、制御装置１００（訓練手段１２０）は、上記入力される状態として上記ネットワーク状態情報を機械学習ベースのコントローラ１３０に提供してもよく、上記出力される行動として上記作業情報を機械学習ベースのコントローラ１３０に提供してもよい。

　上記作業関連情報は、上記ネットワーク状態情報及び上記作業情報に加えて、上記人間の作業に対応する報酬を示す報酬情報をさらに含んでもよい。上記作業関連情報は、上記作業情報、上記ネットワーク状態情報及び上記報酬情報の複数のセットを含んでもよい。制御装置１００（訓練手段１２０）は、上記作業関連情報を、強化学習における入力される状態、出力される行動及び得られる報酬とみなして、上記機械学習ベースのコントローラ１３０（強化学習ベースのコントローラ）を訓練してもよい。具体的には、例えば、制御装置１００（訓練手段１２０）は、上記得られる報酬として上記報酬情報を使用して、機械学習ベースのコントローラ１３０を訓練してもよい。即ち、制御装置１００（訓練手段１２０）は、上記得られる報酬として上記報酬情報を機械学習ベースのコントローラ１３０に提供してもよい。

　上記報酬情報により示される上記報酬は、上記報酬に対応する人間の作業（ネットワーク制御パラメータの変更）によらず、一定であってもよい。即ち、人間の作業は、一定の報酬に値するとみなされてもよい。あるいは、上記報酬情報により示される上記報酬は、上記報酬に対応する人間の作業（ネットワーク制御パラメータの変更）の後の所定期間のパケットキャプチャ情報から、強化学習の報酬の基準に従って算出されてもよい。

　このように人間の作業に関する作業関連情報を使用して強化学習ベースのコントローラ（即ち、機械学習ベースのコントローラ１３０）を訓練することにより、強化学習を事前に進めておくことができる。そのため、強化学習ベースのコントローラ（即ち、機械学習ベースのコントローラ１３０）を通信ネットワーク１０における通信の制御に使用し始めた後、長い時間がかかることなく、強化学習ベースのコントローラ（即ち、機械学習ベースのコントローラ１３０）における学習が収束し得る。そのため、通信ネットワーク１０における通信の制御が安定し得る。

　（６）第６の変形例
　上述したように、例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である（図９を参照）。また、上述したように、例えば、制御装置１００（設定手段１４０）は、機械学習ベースのコントローラ１３０がネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータを制御装置１００において設定する（図９を参照）。しかし、第１の実施形態に係る制御装置１００はこの例に限定されない。

　－第１の例
　第１の実施形態の第６の変形例では、第１の例として、図１０に示されるように、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器そのものではなく、通信ネットワーク１０内でデータを転送するネットワーク機器３０を制御する装置（例えば、ネットワークコントローラ）であってもよい。

　機械学習ベースのコントローラ１３０は、ネットワーク機器３０において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク機器３０において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力してもよい。

　図１０に示されるように、制御装置１００（設定手段１４０）は、機械学習ベースのコントローラ１３０がネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータをネットワーク機器３０に設定させてもよい。一例として、制御装置１００（設定手段１４０）は、ネットワーク制御パラメータの変更を示すパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワーク機器３０へ送信し、ネットワーク機器３０は、当該パラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワーク機器３０は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第２の例
　第２の例として、図１１に示されるように、ネットワークコントローラ５０が、通信ネットワーク１０内でデータを転送するネットワーク機器４０を制御し、制御装置１００は、ネットワークコントローラ５０を制御又は支援（assist）する装置であってもよい。

　制御装置１００は、通信ネットワーク１０のネットワーク状態を自ら観測せず、ネットワーク機器４０が、当該ネットワーク状態を観測してもよい。制御装置１００は、当該ネットワーク状態を示す情報をネットワーク機器４０又はネットワークコントローラ５０から取得してもよい。機械学習ベースのコントローラ１３０は、ネットワーク機器４０において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク機器４０において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力してもよい。

　図１１に示されるように、制御装置１００（設定手段１４０）は、機械学習ベースのコントローラ１３０がネットワーク制御パラメータの変更を選択した場合に、ネットワーク制御パラメータの変更を示す第１のパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド、又は、ネットワーク制御パラメータの変更を教える支援情報）をネットワークコントローラ５０へ送信してもよい。さらに、ネットワークコントローラ５０は、当該第１のパラメータ情報に基づいて、ネットワーク制御パラメータの変更を示す第２のパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワーク機器４０へ送信し、ネットワーク機器４０は、当該第２のパラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワーク機器４０は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第３の例
　第３の例として、図１２に示されるように、ネットワークコントローラ７０が、通信ネットワーク１０内でデータを転送するネットワーク機器６０を制御し、制御装置１００は、ネットワークコントローラ７０を制御する装置であってもよい。

　制御装置１００は、通信ネットワーク１０のネットワーク状態を自ら観測せず、ネットワーク機器６０が、当該ネットワーク状態を観測してもよい。制御装置１００は、当該ネットワーク状態を示す情報をネットワーク機器６０又はネットワークコントローラ７０から取得してもよい。機械学習ベースのコントローラ１３０は、ネットワーク機器６０において観測されるネットワーク状態から、ネットワークコントローラ７０において設定されるネットワーク制御パラメータの変更を選択し、出力してもよい。

　図１２に示されるように、制御装置１００（設定手段１４０）は、機械学習ベースのコントローラ１３０がネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータをネットワークコントローラ７０に設定させてもよい。一例として、制御装置１００（設定手段１４０）は、ネットワーク制御パラメータの変更を示すパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワークコントローラ７０へ送信し、ネットワークコントローラ７０は、当該パラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワークコントローラ７０は、当該変更されたネットワーク制御パラメータに従って、ネットワーク機器６０を制御してもよく、ネットワーク機器６０は、ネットワークコントローラ７０による制御に従って、データ（例えば、パケット）を転送してもよい。

　（７）第７の変形例
　上述したように、例えば、制御装置１００は、取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び通信処理手段１５０を備える。しかし、第１の実施形態に係る制御装置１００はこの例に限定されない。

　第１の実施形態の第７の変形例では、例えば、機械学習ベースのコントローラ１３０は、制御装置１００に含まれず、他の装置に含まれてもよい。この場合に、制御装置１００（訓練手段１２０）は、当該他の装置に含まれる機械学習ベースのコントローラ１３０に上記作業関連情報を提供することにより、機械学習ベースのコントローラ１３０を訓練してもよい。設定手段１４０も、制御装置１００に含まれず、上記他の装置に含まれてもよい。なお、機械学習ベースのコントローラ１３０が制御装置１００に含まれない場合には、第６の変形例における説明において、「制御装置１００」は、「機械学習ベースのコントローラ１３０を含む装置」に置き換えられてもよい。

　第１の実施形態の第７の変形例では、例えば、設定手段１４０は、機械学習ベースのコントローラ１３０に含まれていてもよい。即ち、機械学習ベースのコントローラ１３０は、上述した設定手段１４０の動作を行ってもよい。

　第１の実施形態の第７の変形例では、例えば、データ（例えば、パケット）を転送する通信処理手段１５０は、制御装置１００に含まれず、他の装置に含まれてもよい。例えば、第６の変形例のような場合に、通信処理手段１５０が、制御装置１００に含まれず、ネットワーク機器に含まれてもよい。

　第４の変形例において説明したように、制御装置１００は、生成手段をさらに備えてもよい。

　＜＜３．第２の実施形態＞＞
　図１３～図１６を参照して、本開示の第２の実施形態を説明する。

　＜３．１．システムの構成＞
　図１３は、第２の実施形態に係るシステム２の概略的な構成の一例を示す。図１３を参照すると、システム２は、通信ネットワーク１０及び制御装置４００を含む。

　（１）通信ネットワーク１０
　通信ネットワーク１０についての説明は、第１の実施形態における通信ネットワーク１０の説明と同じである。よって、ここでは重複する説明を省略する。
　（２）制御装置４００
　制御装置４００は、通信ネットワーク１０のための制御を行う。

　例えば、制御装置４００は、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラと強化学習ベースのコントローラとを含む。例えば、当該機械学習ベースのコントローラは、教師あり学習ベースのコントローラである。

　とりわけ第２の実施形態では、例えば、制御装置４００は、通信ネットワーク１０における通信を制御するための強化学習ベースのコントローラをさらに含む。

　例えば、制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。

　なお、第２の実施形態に係る制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器に限定されない。この点については、第２の実施形態の第７の変形例として後に詳細に説明する。

　＜３．２．制御装置の構成＞
　（１）機能構成
　図１４は、第２の実施形態に係る制御装置４００の概略的な機能構成の例を示すブロック図である。図１４を参照すると、制御装置４００は、第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び選択手段４８０を備える。

　第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び選択手段４８０の各々の動作は、後に説明する。

　（２）ハードウェア構成
　図１５は、第２の実施形態に係る制御装置４００の概略的なハードウェア構成の例を示すブロック図である。図１５を参照すると、制御装置４００は、プロセッサ５１０、メインメモリ５２０、ストレージ５３０、通信インタフェース５４０及び入出力インタフェース５５０を備える。プロセッサ５１０、メインメモリ５２０、ストレージ５３０、通信インタフェース５４０及び入出力インタフェース５５０は、バス５６０を介して互いに接続されている。

　プロセッサ５１０は、メインメモリ５２０から読み出されるプログラムを実行する。一例として、プロセッサ５１０は、ＣＰＵである。

　メインメモリ５２０は、プログラム及び各種データを記憶する。一例として、メインメモリ５２０は、ＲＡＭである。

　ストレージ５３０は、プログラム及び各種データを記憶する。一例として、ストレージ５３０は、ＳＳＤ及び／又はＨＤＤを含む。

　通信インタフェース５４０は、他の装置との通信のためのインタフェースである。一例として、通信インタフェース５４０は、ネットワークアダプタ又はネットワークインタフェースカードである。

　入出力インタフェース５５０は、キーボード等の入力装置、及びディスプレイ等の出力装置との接続のためのインタフェースである。

　第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び選択手段４８０の各々は、プロセッサ５１０及びメインメモリ５２０により実装されてもよく、又は、プロセッサ５１０、メインメモリ５２０及び通信インタフェース５４０により実装されてもよい。

　当然ながら、制御装置４００のハードウェア構成はこの例に限定されない。制御装置４００は、他のハードウェア構成により実装されてもよい。

　あるいは、制御装置４００は、仮想化されていてもよい。即ち、制御装置４００は、仮想マシンとして実装されてもよい。この場合に、制御装置４００（仮想マシン）は、プロセッサ及びメモリ等を含む物理マシン（ハードウェア）及びハイパーバイザ上で仮想マシンとして動作してもよい。当然ながら、制御装置４００（仮想マシン）は、複数の物理マシンに分散され、動作してもよい。

　制御装置４００は、プログラム（命令）を記憶するメモリ（メインメモリ５２０）と、当該プログラム（命令）を実行可能な１つ以上のプロセッサ（プロセッサ５１０）とを含んでもよい。当該１つ以上のプロセッサは、上記プログラムを実行して、第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び／又は選択手段４８０の動作を行ってもよい。上記プログラムは、第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び／又は選択手段４８０の動作をプロセッサに実行させるためのプログラムであってもよい。

　＜３．３．第１の動作（機械学習ベースのコントローラの訓練）＞
　制御装置４００（第１取得手段４１０）は、ネットワーク運用における人間の作業に関する作業関連情報を取得する。制御装置４００（訓練手段４２０）は、上記作業関連情報に基づいて、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ４３０を訓練する。

　即ち、第１の実施形態における機械学習ベースのコントローラ１３０の訓練と同様に、第２の実施形態では、機械学習ベースのコントローラ４３０が上記作業関連情報に基づいて訓練される。

　第２の実施形態に係る「（１）作業関連情報」、「（２）作業関連情報の取得」、「（３）訓練」、「（４）処理の流れ」及び「（５）訓練後の動作」の説明は、符号の相違を除き、第１の実施形態に係るこれらの説明と同じである。よって、ここでは重複する説明を省略する。なお、符号の相違について、第１の実施形態に係る制御装置１００、取得手段１１０、訓練手段１２０、機械学習ベースのコントローラ１３０、設定手段１４０及び通信処理手段１５０は、それぞれ、第２の実施形態に制御装置４００、第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、設定手段４４２及び通信処理手段４４４に対応している。

　なお、以下の第２の動作（コントローラの選択）において、機械学習ベースのコントローラ４３０は、上記作業関連情報に基づいて訓練された機械学習ベースのコントローラである。

　また、第１の実施形態の第５の変形例における機械学習ベースのコントローラ１３０とは異なり、第２の実施形態に係る機械学習ベースのコントローラ４３０は、強化学習ベースのコントローラではない。第２の実施形態に係る機械学習ベースのコントローラ４３０は、例えば、第１の実施形態のメインの例における機械学習ベースのコントローラ１３０と同様に、教師あり学習ベースのコントローラである。

　＜３．４．第２の動作（コントローラの選択）＞
　例えば、制御装置４００（選択手段４８０）は、通信ネットワーク１０の状態に関する情報に基づいて、通信ネットワーク１０における通信を制御するための強化学習ベースのコントローラ４４０と、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ４３０とのうちの、一方を選択する。即ち、制御装置４００（選択手段４８０）は、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の中から、通信ネットワーク１０における通信の制御に使用する１つのコントローラを選択する。

　図１６は、第２の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。以下、図１６を参照して、コントローラの選択のための動作を説明する。

　（１）観測（Ｓ６１０）
　例えば、制御装置４００（観測手段４５０）は、通信ネットワーク１０を観測する（Ｓ６１０）。

　より具体的には、例えば、制御装置４００（観測手段４５０）は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を観測する。例えば、制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器であり、観測される上記スループットは、制御装置４００におけるスループットであり、観測される上記パケットロス率は、制御装置４００におけるパケットロス率である。

　例えば、制御装置４００（観測手段４５０）は、通信ネットワーク１０についての観測情報を生成する。当該観測情報は、通信ネットワーク１０の観察の結果を示す。より具体的には、例えば、上記観測情報は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を示す。

　（２）判定（Ｓ６２０）
　例えば、制御装置４００（判定手段４６０）は、通信ネットワーク１０の状態を判定する（Ｓ６２０）。

　－通信ネットワーク１０の状態
　例えば、判定される上記状態は、通信ネットワーク１０の輻輳状態である。即ち、制御装置４００（判定手段４６０）は、通信ネットワーク１０の輻輳状態を判定する。

　より具体的には、例えば、制御装置４００（判定手段４６０）は、通信ネットワーク１０が一定のレベル（certain　level）を超えて輻輳しているかを判定する。

　なお、ここで判定される上記状態（通信ネットワーク１０の状態）は、あくまでコントローラの選択のために判定される状態であり、強化学習の入力である「状態」を意味しない、ということに留意すべきである。

　－判定手法
　例えば、制御装置４００（判定手段４６０）は、通信ネットワーク１０についての上記観測情報に基づいて、通信ネットワーク１０の上記状態を判定する。

　上述したように、例えば、上記観測情報は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を示す。この場合に、制御装置４００（判定手段４６０）は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率に基づいて、通信ネットワーク１０の状態（例えば、通信ネットワーク１０が一定のレベルを超えて輻輳しているか）を判定する。

　一例として、制御装置４００（判定手段４６０）は、通信ネットワーク１０におけるスループットが所定の閾値よりも小さい、又は、通信ネットワーク１０におけるパケットロス率が所定の閾値よりも大きい場合に、通信ネットワーク１０が一定のレベルを超えて輻輳していると判定する。そうではない場合に（otherwise）、制御装置４００（判定手段４６０）は、通信ネットワーク１０が一定のレベルを超えて輻輳していないと判定する。

　あるいは、制御装置４００（判定手段４６０）は、通信ネットワーク１０におけるスループットが所定の閾値よりも小さく、且つ、通信ネットワーク１０におけるパケットロス率が所定の閾値よりも大きい場合に、通信ネットワーク１０が一定のレベルを超えて輻輳していると判定してもよい。そうではない場合に、制御装置４００（判定手段４６０）は、通信ネットワーク１０が一定のレベルを超えて輻輳していないと判定してもよい。

　当然ながら、制御装置４００（判定手段４６０）は、上述したように上記スループット及び上記パケットロス率の両方に基づくのではなく、上記スループット及び上記パケットロス率の一方のみに基づいて、通信ネットワーク１０が一定のレベルを超えて輻輳しているかを判定してもよい。

　－通信ネットワーク１０の状態に関する情報（状態情報）
　例えば、制御装置４００（判定手段４６０）は、通信ネットワーク１０の上記状態（即ち、判定された状態）に関する情報（以下、「状態情報」と呼ぶ）を生成する。なお、ここでの「状態情報」は、第１の実施形態において説明した「ネットワーク状態情報」（即ち、上記人間の作業に対応するネットワーク状態を示す情報であって、上記作業関連情報に含まれる情報）とは別の情報である、ということに留意すべきである。

　例えば、上記状態情報は、通信ネットワーク１０の上記状態（即ち、判定された状態）を示す。より具体的には、例えば、上記状態情報は、通信ネットワーク１０が一定のレベルを超えて輻輳しているかを示す。

　なお、上記状態情報はこの例に限定されない。この点については、第２の実施形態の第５の変形例として後に詳細に説明する。

　（３）選択（Ｓ６３０）
　制御装置４００（第２取得手段４７０）は、上記状態情報を取得する。制御装置４００（選択手段４８０）は、上記状態情報に基づいて、機械学習ベースのコントローラ４３０と強化学習ベースのコントローラ４４０とのうちの一方を選択する（Ｓ６３０）。即ち、制御装置４００（選択手段４８０）は、上記状態情報に基づいて、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の中から、通信ネットワーク１０における通信の制御に使用する１つのコントローラを選択する。このような選択により、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０は、通信ネットワーク１０における通信の制御のために選択的に使用される。

　例えば、制御装置４００（選択手段４８０）は、通信ネットワーク１０が一定のレベルを超えて輻輳している場合に、機械学習ベースのコントローラ４３０を選択し、通信ネットワーク１０が一定のレベルを超えて輻輳していない場合に、強化学習ベースのコントローラ４４０を選択する。即ち、通信ネットワーク１０が一定のレベルを超えて輻輳している場合には、ネットワーク運用における人間の作業に関する作業関連情報に基づいて訓練された機械学習ベースのコントローラ４３０が使用され、そうではない場合に、強化学習ベースのコントローラ４４０が使用される。

　なお、選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）は、通信ネットワーク１０における通信の制御に使用される。具体的には、例えば、選択されたコントローラは、通信ネットワーク１０におけるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力する。上述したように、例えば、制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）であり、制御装置４００（設定手段４４２）は、選択された上記ネットワーク制御パラメータの当該変更に従って、変更されたネットワーク制御パラメータを制御装置４００において設定する。その結果、制御装置４００（通信処理手段４４４）は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送する。このように、選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）は、例えばネットワーク制御パラメータの変更を選択することにより、通信ネットワーク１０における通信を制御する。

　以上、第２の実施形態に係るコントローラの選択を説明した。通信ネットワーク１０が極度に輻輳している場合には、ネットワーク状態が不安定になり、もし強化学習ベースのコントローラ４４０を使用すると、強化学習において、誤学習が発生し、学習が収束しなくなり得る。その結果、強化学習ベースのコントローラ４４０の使用により、通信ネットワーク１０の通信の制御が不安定になり得る。しかし、上述したようなコントローラの選択によれば、通信ネットワーク１０が極度に輻輳している場合には、機械学習ベースのコントローラ４３０を使用することができ、人間の作業と同様に、通信ネットワーク１０における通信の制御が行われ得る。そのため、通信ネットワーク１０の通信の制御が安定し得る。

　また、上述したようなコントローラの選択によれば、通信ネットワーク１０が極度に輻輳していない場合には、強化学習ベースのコントローラ４４０を使用することができ、通信ネットワーク１０における通信の最適な制御が行われ得る。そのため、通信ネットワーク１０の通信の制御が安定し得る。

　＜３．５．変形例＞
　第２の実施形態の第１～第４の変形例の説明は、符号の相違を除き、第１の実施形態の第１～第４の変形例の説明と同じである。よって、ここでは重複する説明を省略する。なお、符号の相違について、第１の実施形態の第１～第４の変形例に係る制御装置１００及び機械学習ベースのコントローラ１３０は、それぞれ、第２の実施形態の第１～第４の変形例に係る制御装置４００及び機械学習ベースのコントローラ４３０に対応している。

　以下では、第２の実施形態の第５～第８の変形例を説明する。

　なお、第２の実施形態の第１～第８の変形例のうちの２つ以上の変形例が組み合せられてもよい。

　（１）第５の変形例
　上述したように、コントローラの選択のために、通信ネットワーク１０の状態に関する情報（即ち、状態情報）が用いられ、例えば、当該状態情報は、通信ネットワーク１０の状態（例えば、通信ネットワーク１０が一定のレベルを超えて輻輳しているか）を示す。しかし、第２の実施形態に係る状態情報はこの例に限定されない。

　第２の実施形態の第５の変形例では、上記状態情報は、通信ネットワーク１０の状態（例えば、通信ネットワーク１０が一定のレベルを超えて輻輳しているか）そのものを示さなくてもよい。例えば、上記状態情報は、通信ネットワーク１０の状態そのものを示さないが、通信ネットワーク１０の状態に対応する情報であってもよい。

　一例として、上記状態情報は、通信ネットワーク１０が一定のレベルを超えて輻輳しているかを示さないが、通信ネットワーク１０が一定のレベルを超えて輻輳しているかに対応するフラグであってもよい。

　（２）第６の変形例
　上述したように、機械学習ベースのコントローラ４３０は、上記作業関連情報に基づいて訓練される。

　第２の実施形態の第６の変形例では、機械学習ベースのコントローラ４３０に加えて、強化学習ベースのコントローラ４４０も、上記作業関連情報に基づいて訓練されてもよい。例えば、強化学習ベースのコントローラ４４０は、第１の実施形態の第５の変形例において説明された訓練と同様に、上記作業関連情報に基づいて訓練されてもよい。

　このように人間の作業に関する作業関連情報を使用して強化学習ベースのコントローラ４４０を訓練することにより、強化学習を事前に進めておくことができる。そのため、強化学習ベースのコントローラ４４０を通信ネットワーク１０における通信の制御に使用し始めた後、長い時間がかかることなく、強化学習ベースのコントローラ４４０における学習が収束し得る。そのため、通信ネットワーク１０における通信の制御がより安定し得る。

　（３）第７の変形例
　図９～図１２を再び参照して第７の変形例を説明するが、第７の変形例の説明においては、これらの図面において「制御装置１００」は「制御装置４００」に読み替えられるものとする。

　上述したように、例えば、制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である（図９を参照）。また、上述したように、例えば、制御装置４００（設定手段４４２）は、選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）がネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータを制御装置４００において設定する（図９を参照）。しかし、第２の実施形態に係る制御装置４００はこの例に限定されない。

　－第１の例
　第２の実施形態の第７の変形例では、第１の例として、図１０に示されるように、制御装置４００は、通信ネットワーク１０内でデータを転送するネットワーク機器そのものではなく、通信ネットワーク１０内でデータを転送するネットワーク機器３０を制御する装置（例えば、ネットワークコントローラ）であってもよい。

　制御装置４００（観測手段４５０）は、通信ネットワーク１０を自ら観測せず、ネットワーク機器３０が、通信ネットワーク１０を観測してもよい。制御装置４００（観測手段４５０）は、通信ネットワーク１０についての観測情報をネットワーク機器３０から取得してもよい。

　選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）は、ネットワーク機器３０において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク機器３０において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力してもよい。

　図１０に示されるように、制御装置４００（設定手段４４２）は、選択されたコントローラがネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータをネットワーク機器３０に設定させてもよい。一例として、制御装置４００（設定手段４４２）は、ネットワーク制御パラメータの変更を示すパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワーク機器３０へ送信し、ネットワーク機器３０は、当該パラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワーク機器３０は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第２の例
　第２の例として、図１１に示されるように、ネットワークコントローラ５０が、通信ネットワーク１０内でデータを転送するネットワーク機器４０を制御し、制御装置４００は、ネットワークコントローラ５０を制御又は支援する装置であってもよい。

　制御装置４００は、通信ネットワーク１０のネットワーク状態を自ら観測せず、ネットワーク機器４０が、当該ネットワーク状態を観測してもよい。制御装置４００は、当該ネットワーク状態を示す情報をネットワーク機器４０又はネットワークコントローラ５０から取得してもよい。選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）は、ネットワーク機器４０において観測されるネットワーク状態（例えば、スループット及び／又はパケット到着間隔）から、ネットワーク機器４０において設定されるネットワーク制御パラメータ（例えば、優先度及び／又は帯域）の変更を選択し、出力してもよい。

　図１１に示されるように、制御装置４００（設定手段４４２）は、選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）がネットワーク制御パラメータの変更を選択した場合に、ネットワーク制御パラメータの変更を示す第１のパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド、又は、ネットワーク制御パラメータの変更を教える支援情報）をネットワークコントローラ５０へ送信してもよい。さらに、ネットワークコントローラ５０は、当該第１のパラメータ情報に基づいて、ネットワーク制御パラメータの変更を示す第２のパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワーク機器４０へ送信し、ネットワーク機器４０は、当該第２のパラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワーク機器４０は、当該変更されたネットワーク制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第３の例
　第３の例として、図１２に示されるように、ネットワークコントローラ７０が、通信ネットワーク１０内でデータを転送するネットワーク機器６０を制御し、制御装置４００は、ネットワークコントローラ７０を制御する装置であってもよい。

　制御装置４００は、通信ネットワーク１０のネットワーク状態を自ら観測せず、ネットワーク機器６０が、当該ネットワーク状態を観測してもよい。制御装置４００は、当該ネットワーク状態を示す情報をネットワーク機器６０又はネットワークコントローラ７０から取得してもよい。選択されたコントローラ（機械学習ベースのコントローラ４３０又は強化学習ベースのコントローラ４４０）は、ネットワーク機器６０において観測されるネットワーク状態から、ネットワークコントローラ７０において設定されるネットワーク制御パラメータの変更を選択し、出力してもよい。

　図１２に示されるように、制御装置４００（設定手段４４２）は、選択されたコントローラがネットワーク制御パラメータの変更を選択した場合に、変更されたネットワーク制御パラメータをネットワークコントローラ７０に設定させてもよい。一例として、制御装置４００（設定手段４４２）は、ネットワーク制御パラメータの変更を示すパラメータ情報（例えば、ネットワーク制御パラメータの変更を指示するコマンド）をネットワークコントローラ７０へ送信し、ネットワークコントローラ７０は、当該パラメータ情報に基づいて、変更されたネットワーク制御パラメータを設定してもよい。その結果、ネットワークコントローラ７０は、当該変更されたネットワーク制御パラメータに従って、ネットワーク機器６０を制御してもよく、ネットワーク機器６０は、ネットワークコントローラ７０による制御に従って、データ（例えば、パケット）を転送してもよい。

　（４）第８の変形例
　上述したように、例えば、制御装置４００は、第１取得手段４１０、訓練手段４２０、機械学習ベースのコントローラ４３０、強化学習ベースのコントローラ４４０、設定手段４４２、通信処理手段４４４、観測手段４５０、判定手段４６０、第２取得手段４７０及び選択手段４８０を備える。しかし、第２の実施形態に係る制御装置４００はこの例に限定されない。

　第２の実施形態の第８の変形例では、例えば、第１取得手段４１０及び訓練手段４２０は、制御装置４００に含まれず、他の装置に含まれてもよい。即ち、機械学習ベースのコントローラ４３０の訓練は、当該他の装置により行われてもよい。

　第２の実施形態の第８の変形例では、例えば、観測手段４５０は、制御装置４００に含まれず、他の装置に含まれてもよい。この場合に、制御装置４００は、通信ネットワーク１０についての観測情報を当該他の装置から受信してもよい。さらに、例えば、判定手段４６０も、制御装置４００に含まれず、上記他の装置に含まれてもよい。この場合に、制御装置４００は、通信ネットワーク１０の状態に関する情報（即ち、状態情報）を上記他の装置から受信してもよい。

　第２の実施形態の第８の変形例では、例えば、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の少なくとも一方が、制御装置４００に含まれず、他の装置に含まれてもよい。この場合に、制御装置４００は、コントローラの選択の結果を当該他の装置に通知してもよい。設定手段４４２も、制御装置４００に含まれず、上記他の装置に含まれてもよい。なお、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の少なくとも一方が制御装置４００に含まれない場合には、第６の変形例における説明において、「制御装置４００」は、「機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の少なくとも一方を含む装置」に置き換えられてもよい。

　第３の実施形態の第８の変形例では、例えば、設定手段４４２は、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の各々に含まれていてもよい。即ち、機械学習ベースのコントローラ４３０及び強化学習ベースのコントローラ４４０の各々は、上述した設定手段４４２の動作を行ってもよい。

　第２の実施形態の第８の変形例では、例えば、データ（例えば、パケット）を転送する通信処理手段４４４は、制御装置４００に含まれず、他の装置に含まれてもよい。例えば、第７の変形例のような場合に、通信処理手段４４４が、制御装置４００に含まれず、ネットワーク機器に含まれてもよい。

　＜＜４．第３の実施形態＞＞
　続いて、図１７及び図１８を参照して、本開示の第３の実施形態を説明する。上述した第１の実施形態は、具体的な実施形態であるが、第３の実施形態は、より一般化された実施形態である。

　図１７は、第３の実施形態に係るシステム３の概略的な構成の一例を示す。図１７を参照すると、システム３は、取得手段７００及び訓練手段８００を含む。

　図１８は、第３の実施形態に係る訓練処理の概略的な流れの例を説明するためのフローチャートである。

　取得手段７００は、ネットワーク運用における人間の作業に関する作業関連情報を取得する（Ｓ９１０）。

　訓練手段８００は、上記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する（Ｓ９２０）。

　上記作業関連情報、上記作業関連情報の取得、及び訓練についての説明は、例えば、符号の相違を除き、第１の実施形態におけるこれらについての説明と同じである。よって、ここでは重複する説明を省略する。なお、当然ながら、第３の実施形態は、第１の実施形態の例に限定されない。

　以上のように、機械学習ベースのコントローラが訓練される。これにより、例えば、通信ネットワークにおける通信の制御を安定させることが可能になる。

　以上、本開示の実施形態を説明したが、本開示はこれらの実施形態に限定されるものではない。これらの実施形態は例示にすぎないということ、及び、本開示のスコープ及び精神から逸脱することなく様々な変形が可能であるということは、当業者に理解されるであろう。

　例えば、本明細書に記載されている処理におけるステップは、必ずしもフローチャートに記載された順序に沿って時系列に実行されなくてよい。例えば、処理におけるステップは、フローチャートとして記載した順序と異なる順序で実行されても、並列的に実行されてもよい。また、処理におけるステップの一部が削除されてもよく、さらなるステップが処理に追加されてもよい。

　また、本明細書において説明したシステム又は制御装置の構成要素の処理を含む方法が提供されてもよく、上記構成要素の処理をプロセッサに実行させるためのプログラムが提供されてもよい。また、当該プログラムを記録したコンピュータに読み取り可能な非一時的記録媒体（Non-transitory　computer　readable　recording　medium）が提供されてもよい。当然ながら、このような方法、プログラム、及びコンピュータに読み取り可能な非一時的記録媒体も本開示に含まれる。

　上記実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）
　ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、
を含むシステム。

（付記２）
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、付記１に記載のシステム。

（付記３）
　前記訓練手段は、前記ネットワーク状態情報を入力データとして使用し、前記作業情報を、前記入力データに対応する出力データとして使用して、前記機械学習ベースのコントローラを訓練する、付記２に記載のシステム。

（付記４）
　前記人間の作業は、ネットワーク制御パラメータの変更であり、
　前記作業情報は、前記ネットワーク制御パラメータの増加若しくは減少、又は、前記ネットワーク制御パラメータの変更された値を示す、
付記２又は３に記載のシステム。

（付記５）
　前記人間の作業は、ネットワーク制御パラメータの変更である、付記１～４のいずれか１項に記載のシステム。

（付記６）
　前記作業関連情報は、前記人間の作業のログ又は前記人間の作業のための作業基準に基づいて生成される情報である、付記１～５のいずれか１項に記載のシステム。

（付記７）
　前記ネットワーク運用は、前記通信ネットワークのネットワーク運用である、付記１～６のいずれか１項に記載のシステム。

（付記８）
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択する選択手段、
をさらに含む、付記１～７のいずれか１項に記載のシステム。

（付記９）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記８に記載のシステム。

（付記１０）
　前記選択手段は、前記通信ネットワークが一定のレベルを超えて輻輳している場合に、前記機械学習ベースのコントローラを選択し、前記通信ネットワークが一定のレベルを輻輳していない場合に、前記強化学習ベースのコントローラを選択する、付記９に記載のシステム。

（付記１１）
　前記通信ネットワークの前記状態を判定する判定手段、
をさらに含む、付記８～１０のいずれか１項に記載のシステム。

（付記１２）
　前記判定手段は、前記通信ネットワークについての観測情報に基づいて、前記通信ネットワークの前記状態を判定する、付記１１に記載のシステム。

（付記１３）
　前記判定手段は、前記通信ネットワークが一定のレベルを超えて輻輳しているかを判定する、付記１１又は１２に記載のシステム。

（付記１４）
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を教師あり学習の訓練データとして使用して、前記機械学習ベースのコントローラを訓練する、
付記１～１３のいずれか１項に記載のシステム。

（付記１５）
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を、強化学習における入力される状態及び出力される行動とみなして、前記機械学習ベースのコントローラを訓練する、
付記１～７のいずれか１項に記載のシステム。

（付記１６）
　ネットワーク運用における人間の作業に関する作業関連情報を取得することと、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練することと、
を含む方法。

（付記１７）
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、付記１６に記載の方法。

（付記１８）
　前記機械学習ベースのコントローラは、前記ネットワーク状態情報を入力データとして使用し、前記作業情報を、前記入力データに対応する出力データとして使用して、訓練される、付記１７に記載の方法。

（付記１９）
　前記人間の作業は、ネットワーク制御パラメータの変更であり、
　前記作業情報は、前記ネットワーク制御パラメータの増加若しくは減少、又は、前記ネットワーク制御パラメータの変更された値を示す、
付記１７又は１８に記載の方法。

（付記２０）
　前記人間の作業は、ネットワーク制御パラメータの変更である、付記１６～１９のいずれか１項に記載の方法。

（付記２１）
　前記作業関連情報は、前記人間の作業のログ又は前記人間の作業のための作業基準に基づいて生成される情報である、付記１６～２０のいずれか１項に記載の方法。

（付記２２）
　前記ネットワーク運用は、前記通信ネットワークのネットワーク運用である、付記１６～２１のいずれか１項に記載の方法。

（付記２３）
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択すること、
をさらに含む、付記１６～２２のいずれか１項に記載の方法。

（付記２４）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記２３に記載の方法。

（付記２５）
　前記通信ネットワークが一定のレベルを超えて輻輳している場合に、前記機械学習ベースのコントローラが選択され、前記通信ネットワークが一定のレベルを輻輳していない場合に、前記強化学習ベースのコントローラが選択される、付記２４に記載の方法。

（付記２６）
　前記通信ネットワークの前記状態を判定すること、
をさらに含む、付記２３～２５のいずれか１項に記載の方法。

（付記２７）
　前記通信ネットワークの前記状態は、前記通信ネットワークについての観測情報に基づいて判定される、付記２６に記載の方法。

（付記２８）
　前記通信ネットワークの前記状態は、前記通信ネットワークが一定のレベルを超えて輻輳しているかである、付記２６又は２７に記載の方法。

（付記２９）
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記機械学習ベースのコントローラは、前記作業関連情報を教師あり学習の訓練データとして使用して訓練される、
付記１６～２８のいずれか１項に記載の方法。

（付記３０）
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記機械学習ベースのコントローラは、前記作業関連情報を強化学習における入力される状態及び出力される行動とみなして訓練される、
付記１６～２２のいずれか１項に記載の方法。

（付記３１）
　ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、
を備える制御装置。

（付記３２）
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、付記３１に記載の制御装置。

（付記３３）
　前記訓練手段は、前記ネットワーク状態情報を入力データとして使用し、前記作業情報を、前記入力データに対応する出力データとして使用して、前記機械学習ベースのコントローラを訓練する、付記３２に記載の制御装置。

（付記３４）
　前記人間の作業は、ネットワーク制御パラメータの変更であり、
　前記作業情報は、前記ネットワーク制御パラメータの増加若しくは減少、又は、前記ネットワーク制御パラメータの変更された値を示す、
付記３２又は３３に記載の制御装置。

（付記３５）
　前記人間の作業は、ネットワーク制御パラメータの変更である、付記３１～３４のいずれか１項に記載の制御装置。

（付記３６）
　前記作業関連情報は、前記人間の作業のログ又は前記人間の作業のための作業基準に基づいて生成される情報である、付記３１～３５のいずれか１項に記載の制御装置。

（付記３７）
　前記ネットワーク運用は、前記通信ネットワークのネットワーク運用である、付記３１～３６のいずれか１項に記載の制御装置。

（付記３８）
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択する選択手段、
をさらに備える、付記３１～３７のいずれか１項に記載の制御装置。

（付記３９）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記３８に記載の制御装置。

（付記４０）
　前記選択手段は、前記通信ネットワークが一定のレベルを超えて輻輳している場合に、前記機械学習ベースのコントローラを選択し、前記通信ネットワークが一定のレベルを輻輳していない場合に、前記強化学習ベースのコントローラを選択する、付記３９に記載の制御装置。

（付記４１）
　前記通信ネットワークの前記状態を判定する判定手段、
をさらに備える、付記３８～４０のいずれか１項に記載の制御装置。

（付記４２）
　前記判定手段は、前記通信ネットワークについての観測情報に基づいて、前記通信ネットワークの前記状態を判定する、付記４１に記載の制御装置。

（付記４３）
　前記判定手段は、前記通信ネットワークが一定のレベルを超えて輻輳しているかを判定する、付記４１又は４２に記載の制御装置。

（付記４４）
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を教師あり学習の訓練データとして使用して、前記機械学習ベースのコントローラを訓練する、
付記３１～４３のいずれか１項に記載の制御装置。

（付記４５）
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を、強化学習における入力される状態及び出力される行動とみなして、前記機械学習ベースのコントローラを訓練する、
付記３１～３７のいずれか１項に記載の制御装置。

（付記４６）
　ネットワーク運用における人間の作業に関する作業関連情報を取得することと、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練することと、
をプロセッサに実行させるプログラム。

（付記４７）
　ネットワーク運用における人間の作業に関する作業関連情報を取得することと、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練することと、
をプロセッサに実行させるプログラムを記録したコンピュータに読み取り可能な非一時的記録媒体。

　１、２、３　　　　　　　システム
　１０　　　　　　　　　　通信ネットワーク
　１００、４００　　　　　制御装置
　１１０、７００　　　　　取得手段
　４１０　　　　　　　　　第１取得手段
　１２０、４２０、９００　訓練手段
　１３０、４３０　　　　　機械学習ベースのコントローラ
　４４０　　　　　　　　　強化学習ベースのコントローラ
　４６０　　　　　　　　　判定手段
　４８０　　　　　　　　　選択手段

Claims

　ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、
を含むシステム。
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、請求項１に記載のシステム。
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択する選択手段、
をさらに含む、請求項１又は２に記載のシステム。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項３に記載のシステム。
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を教師あり学習の訓練データとして使用して、前記機械学習ベースのコントローラを訓練する、
請求項１～４のいずれか１項に記載のシステム。
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を、強化学習における入力される状態及び出力される行動とみなして、前記機械学習ベースのコントローラを訓練する、
請求項１又は２に記載のシステム。
　ネットワーク運用における人間の作業に関する作業関連情報を取得することと、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練することと、
を含む方法。
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、請求項７に記載の方法。
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択すること、
をさらに含む、請求項７又は８に記載の方法。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項９に記載の方法。
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記機械学習ベースのコントローラは、前記作業関連情報を教師あり学習の訓練データとして使用して訓練される、
請求項７～１０のいずれか１項に記載の方法。
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記機械学習ベースのコントローラは、前記作業関連情報を強化学習における入力される状態及び出力される行動とみなして訓練される、
請求項７又は８に記載の方法。
　ネットワーク運用における人間の作業に関する作業関連情報を取得する取得手段と、
　前記作業関連情報に基づいて、通信ネットワークにおける通信を制御するための機械学習ベースのコントローラを訓練する訓練手段と、
を備える制御装置。
　前記作業関連情報は、前記人間の作業を示す作業情報、及び、前記人間の作業に対応するネットワーク状態を示すネットワーク状態情報を含む、請求項１３に記載の制御装置。
　通信ネットワークの状態に関する情報に基づいて、前記通信ネットワークにおける通信を制御するための強化学習ベースのコントローラ及び前記機械学習ベースのコントローラのうちの一方を選択する選択手段、
をさらに備える、請求項１３又は１４に記載の制御装置。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項１５に記載の制御装置。
　前記機械学習ベースのコントローラは、教師あり学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を教師あり学習の訓練データとして使用して、前記機械学習ベースのコントローラを訓練する、
請求項１３～１６のいずれか１項に記載の制御装置。
　前記機械学習ベースのコントローラは、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記訓練手段は、前記作業関連情報を、強化学習における入力される状態及び出力される行動とみなして、前記機械学習ベースのコントローラを訓練する、
請求項１３又は１４に記載の制御装置。