WO2021064770A1

WO2021064770A1 - システム、方法及び制御装置

Info

Publication number: WO2021064770A1
Application number: PCT/JP2019/038458
Authority: WO
Inventors: 亜南沢辺; 孝法岩井; 航生小林
Original assignee: 日本電気株式会社
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-08
Also published as: US20220329494A1; JP7188609B2; JPWO2021064770A1

Abstract

【課題】通信ネットワークにおいて通信環境に適した通信制御を行うことをより容易にすること。【解決手段】本開示の一態様に係るシステムは、通信ネットワークの状態に関する状態情報を取得する取得手段と、上記状態情報に基づいて、上記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、を含む。

Description

システム、方法及び制御装置

　本開示は、システム、方法及び制御装置に関する。

　通信環境が変化するネットワークにおいて、通信環境に適した制御パラメータを自動で設定することは、非常に重要である。当該制御パラメータを自動で設定するための手法として、機械学習（machine　learning）が期待されている。当該機械学習の一種として、強化学習（reinforcement　learning）が知られている。

　例えば、特許文献１には、無線通信ネットワークの制御パラメータを自動で設定するために強化学習を使用する技術が記載されている。

特開２０１３－０２６９８０号公報

　例えば、シンプルな手法として、単一の機械学習ベースのコントローラ（machine　learning　based　controller）を用いて、機械学習を行い、通信環境に適した制御パラメータを自動で設定することが考えられる。

　しかし、適切な制御パラメータは通信環境によって異なるので、通信環境が変化するネットワーク（例えば、無線ネットワーク）において単一の機械学習ベースのコントローラを使用すると、最適な制御パラメータの発見、及び、制御パラメータの収束に、多大な時間がかかり得る。また、たとえ制御パラメータが収束したとしても、収束後の制御パラメータの精度は低くなり得る。

　本開示の目的は、通信ネットワークにおいて通信環境に適した通信制御を行うことをより容易にするシステム、方法及び制御装置を提供することにある。

　本開示の一態様に係るシステムは、通信ネットワークの状態に関する状態情報を取得する取得手段と、上記状態情報に基づいて、上記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、を含む。

　本開示の一態様に係る方法は、通信ネットワークの状態に関する状態情報を取得することと、上記状態情報に基づいて、上記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択することと、を含む。

　本開示の一態様に係る制御装置は、通信ネットワークの状態に関する状態情報を取得する取得手段と、上記状態情報に基づいて、上記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、を備える。

　本発明によれば、通信ネットワークにおいて通信環境に適した通信制御を行うことがより容易になる。なお、本発明により、当該効果の代わりに、又は当該効果とともに、他の効果が奏されてもよい。

強化学習の概略を説明するための図である。Ｑテーブルの一例を説明するための図である。第１の実施形態に係るシステムの概略的な構成の一例を示す図である。第１の実施形態に係る制御装置の概略的な機能構成の例を示すブロック図である。第１の実施形態に係る制御装置の概略的なハードウェア構成の例を示すブロック図である。第１の実施形態に係る各機械学習ベースのコントローラの学習条件の例を説明するための図である。第１の実施形態に係るニューラルネットワークの構成の例を説明するための図である。第１の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。第１の実施形態に係る通信ネットワークの状態の判定の手法の例を説明するための図である。第１の実施形態に係る制御装置の動作の一例を説明するための図である。第１の実施形態の第４の変形例に係る制御装置の動作の第１の例を説明するための図である。第１の実施形態の第４の変形例に係る制御装置の動作の第２の例を説明するための図である。第１の実施形態の第４の変形例に係る制御装置の動作の第３の例を説明するための図である。第２の実施形態に係るシステムの概略的な構成の一例を示す図である。第２の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。

　以下、添付の図面を参照して本発明の実施形態を詳細に説明する。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複説明が省略され得る。

　説明は、以下の順序で行われる。
　１．関連技術
　２．第１の実施形態
　　２．１．システムの構成
　　２．２．制御装置の構成
　　２．３．機械学習ベースのコントローラの特徴
　　２．４．機械学習ベースのコントローラの選択
　　２．５．変形例
　３．第２の実施形態

　＜＜１．関連技術＞＞
　図１及び図２を参照して、本開示の実施形態に関連する技術として、機械学習の一種である強化学習を説明する。

　図１は、強化学習の概略を説明するための図である。図１を参照すると、強化学習では、エージェント（agent）８１は、環境（environment）８３の状態（state）を観測し、観測した状態から行動（action）を選択する。エージェント８１は、当該環境の下での当該行動の選択により、環境８３から報酬（reward）を得る。このような一連の動作の繰り返しにより、エージェント８１は、環境８３の状態に応じてどのような行動が最も大きい報酬をもたらすかを学習することができる。即ち、エージェント８１は、報酬を最大化するために、環境に応じて選択すべき行動を学習することができる。

　強化学習の一例として、Ｑ学習がある。Ｑ学習では、例えば、環境８３の各状態について各行動がどの程度の価値があるかを示すＱテーブルが用いられる。エージェント８１は、Ｑテーブルを用いて、環境８３の状態に応じて行動を選択する。さらに、エージェント８１は、当該行動の選択に応じて得られる報酬に基づいて、Ｑテーブルを更新する。

　図２は、Ｑテーブルの一例を説明するための図である。図２を参照すると、環境８３の状態として、状態Ａ（State　A）及び状態Ｂ（State　B）があり、エージェント８１の行動として、行動Ａ（Action　A）及び行動Ｂ（Action　B）がある。Ｑテーブルは、各状態において各行動をとった場合の価値を示す。例えば、状態Ａにおいて行動Ａをとることの価値はｑ_ＡＡであり、状態Ａにおいて行動Ｂをとることの価値はｑ_ＡＢである。状態Ｂにおいて行動Ａをとることの価値はｑ_ＢＡであり、状態Ｂにおいて行動Ｂをとることの価値はｑ_ＢＢである。例えば、エージェント８１は、各状態において、価値が最も高い行動をとる。一例として、ｑ_ＡＡがｑ_ＡＢよりも高い場合に、エージェント８１は、状態Ａにおいて行動Ａをとる。なお、Ｑテーブル内の価値（ｑ_ＡＡ、ｑ_ＡＢ、ｑ_ＢＡ及びｑ_ＢＢ）は、行動の選択に応じて得られる報酬に基づいて更新される。

　強化学習では、上述したように各状態において価値が最も高い行動をとることは、「利用（exploitation）」と呼ばれる。「利用」のみにより学習が行われると、各状態においてとられる行動は限定されるので、学習結果は、最適解ではなく局所最適解となり得る。そのため、強化学習では、「利用」と「探索（exploration）」とにより学習が行われる。「探索」は、各状態においてランダムに選択された行動をとることを意味する。例えば、Epsilon-Greedy法では、確率εで「探索」が選択され、確率１－εで「利用」が選択される。「探索」により、例えば、ある状態において、価値が不明である行動が選択され、その結果、当該ある状態における当該行動の価値を知ることができる。このような「探索」により、学習結果として最適解を得られる可能性が高くなる。

　＜＜２．第１の実施形態＞＞
　図３～図９を参照して、本開示の第１の実施形態を説明する。

　＜２．１．システムの構成＞
　図３は、第１の実施形態に係るシステム１の概略的な構成の一例を示す。図３を参照すると、システム１は、通信ネットワーク１０及び制御装置１００を含む。

　（１）通信ネットワーク１０
　通信ネットワーク１０は、データを転送する。例えば、通信ネットワーク１０は、ネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）と回線とを含み、当該ネットワーク機器の各々が、回線を介してデータを転送する。

　通信ネットワーク１０は、有線ネットワークであってもよく、又は、無線ネットワークであってもよい。あるいは、通信ネットワーク１０は、有線ネットワーク及び無線ネットワークの両方を含んでもよい。無線ネットワークは、例えば、ＬＴＥ（Long　Term　Evolution）又は５Ｇ（5th　Generation）等の通信回線規格を用いた移動体通信ネットワークであってもよいし、無線ＬＡＮ（Local　Area　Network）又はローカル５Ｇのような特定のエリアで用いるネットワークであってよい。有線ネットワークは、例えば、ＬＡＮ、ＷＡＮ（Wide　Area　Network）又はインターネット等であってもよい。

　（２）制御装置１００
　制御装置１００は、通信ネットワーク１０のための制御を行う。

　例えば、制御装置１００は、通信ネットワーク１０における通信を制御するための複数の機械学習ベースのコントローラを含む。当該複数の機械学習ベースのコントローラは、後に詳細に説明する。

　例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。

　なお、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器に限定されない。この点については、第１の実施形態の第４の変形例として後に詳細に説明する。

　＜２．２．制御装置の構成＞
　（１）機能構成
　図４は、第１の実施形態に係る制御装置１００の概略的な機能構成の例を示すブロック図である。図４を参照すると、制御装置１００は、観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、複数の機械学習ベースのコントローラ１６０（機械学習ベースのコントローラ１６０Ａ、１６０Ｂ及び１６０Ｃ等）（例えば、Ｎ個の機械学習ベースのコントローラ１６０）、パラメータ設定手段１７０及び通信処理手段１８０を備える。

　観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、機械学習ベースのコントローラ１６０、パラメータ設定手段１７０及び通信処理手段１８０の各々の動作は、後に説明する。

　なお、機械学習ベースのコントローラ１６０は、区別が必要である場合には、例えば図４に示されるように「機械学習ベースのコントローラ１６０Ａ」、「機械学習ベースのコントローラ１６０Ｂ」又は「機械学習ベースのコントローラ１６０Ｃ」等と表現され得る。一方、機械学習ベースのコントローラ１６０は、区別が不要である場合には、単に「機械学習ベースのコントローラ１６０」と表現される。

　（２）ハードウェア構成
　図５は、第１の実施形態に係る制御装置１００の概略的なハードウェア構成の例を示すブロック図である。図５を参照すると、制御装置１００は、プロセッサ２１０、メインメモリ２２０、ストレージ２３０、通信インタフェース２４０及び入出力インタフェース２５０を備える。プロセッサ２１０、メインメモリ２２０、ストレージ２３０、通信インタフェース２４０及び入出力インタフェース２５０は、バス２６０を介して互いに接続されている。

　プロセッサ２１０は、メインメモリ２２０から読み出されるプログラムを実行する。一例として、プロセッサ２１０は、ＣＰＵ（Central　Processing　Unit）である。

　メインメモリ２２０は、プログラム及び各種データを記憶する。一例として、メインメモリ２２０は、ＲＡＭ（Random　Access　Memory）である。

　ストレージ２３０は、プログラム及び各種データを記憶する。一例として、ストレージ２３０は、ＳＳＤ（Solid　State　Drive）及び／又はＨＤＤ（Hard　Disk　Drive）を含む。

　通信インタフェース２４０は、他の装置との通信のためのインタフェースである。一例として、通信インタフェース２４０は、ネットワークアダプタ又はネットワークインタフェースカードである。

　入出力インタフェース２５０は、キーボード等の入力装置、及びディスプレイ等の出力装置との接続のためのインタフェースである。

　観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、機械学習ベースのコントローラ１６０、パラメータ設定手段１７０及び通信処理手段１８０の各々は、プロセッサ２１０及びメインメモリ２２０により実装されてもよく、又は、プロセッサ２１０、メインメモリ２２０及び通信インタフェース２４０により実装されてもよい。

　当然ながら、制御装置１００のハードウェア構成はこの例に限定されない。制御装置１００は、他のハードウェア構成により実装されてもよい。

　あるいは、制御装置１００は、仮想化されていてもよい。即ち、制御装置１００は、仮想マシンとして実装されてもよい。この場合に、制御装置１００（仮想マシン）は、プロセッサ及びメモリ等を含む物理マシン（ハードウェア）及びハイパーバイザ上で仮想マシンとして動作してもよい。当然ながら、制御装置１００（仮想マシン）は、複数の物理マシンに分散され、動作してもよい。

　制御装置１００は、プログラム（命令）を記憶するメモリ（メインメモリ２２０）と、当該プログラム（命令）を実行可能な１つ以上のプロセッサ（プロセッサ２１０）とを含んでもよい。当該１つ以上のプロセッサは、上記プログラムを実行して、観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、機械学習ベースのコントローラ１６０、パラメータ設定手段１７０及び／又は通信処理手段１８０の動作を行ってもよい。上記プログラムは、観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、機械学習ベースのコントローラ１６０、パラメータ設定手段１７０及び／又は通信処理手段１８０の動作をプロセッサに実行させるためのプログラムであってもよい。

　＜２．３．機械学習ベースのコントローラの特徴＞
　上記複数の機械学習ベースのコントローラ１６０（例えば、Ｎ個の機械学習ベースのコントローラ１６０）の各々は、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラである。

　（１）機械学習ベースのコントローラ１６０の動作
　例えば、上記複数の機械学習ベースのコントローラ１６０の各々は、強化学習ベースのコントローラである。この場合に、上記複数の機械学習ベースのコントローラ１６０の各々は、強化学習のエージェントとして動作し、例えば、入力される状態に基づいて行動を出力する。

　例えば、通信ネットワーク１０が、強化学習の「環境」であり、通信ネットワーク１０の状態が、強化学習の「状態」（即ち、強化学習の入力）である。例えば、通信ネットワーク１０の制御パラメータの変更（例えば、通信ネットワーク１０の制御パラメータの増加若しくは減少、又は、通信ネットワーク１０の制御パラメータの特定の値への変更）が、強化学習の「行動」（即ち、強化学習の出力）である。即ち、機械学習ベースのコントローラ１６０は、観測された通信ネットワーク１０の状態から、通信ネットワーク１０の制御パラメータの変更を選択する。また、機械学習ベースのコントローラ１６０は、通信ネットワーク１０の制御パラメータの変更（強化学習の「行動」）の選択により、報酬を得る。なお、通信ネットワーク１０の状態は、通信ネットワーク１０における通信の状態とも言える。

　上述したように、例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である。この場合に、例えば、機械学習ベースのコントローラ１６０は、制御装置１００において観測される通信ネットワーク１０の状態から、制御装置１００の制御パラメータの変更を選択し、出力する。制御装置１００（パラメータ設定手段１７０）は、選択された当該制御パラメータの当該変更に従って、変更された制御パラメータを制御装置１００において設定する。その結果、制御装置１００（通信処理手段１８０）は、当該変更された制御パラメータに従って、データ（例えば、パケット）を転送する。このように、機械学習ベースのコントローラ１６０は、例えば制御パラメータの変更を選択することにより、通信ネットワーク１０における通信を制御する。

　上述したような機械学習ベースのコントローラ１６０の動作によれば、例えば、制御パラメータを自動で設定することが可能になる。

　（２）強化学習の「状態」と「行動」の例
　上述したように、例えば、通信ネットワーク１０の状態が、強化学習の「状態」（即ち、強化学習の入力）であり、通信ネットワーク１０の制御パラメータの変更が、強化学習の「行動」（即ち、強化学習の出力）である。ここでは、強化学習の「状態」及び「行動」のさらに具体的な例を説明する。

　－第１の例
　第１の例として、機械学習ベースのコントローラ１６０は、通信ネットワーク１０におけるＴＣＰ（Transmission　Control　Protocol）フローの制御のために使用される。この場合に、強化学習の「状態」及び「行動」は、例えば以下のようなものである。
　［状態］アクティブフロー数、可用帯域、及び／又は、
　　　　　ＩＰ（Internet　Protocol）の過去のバッファサイズ
　［行動］送信バッファサイズの増加又は減少

　－第２の例
　第２の例として、機械学習ベースのコントローラ１６０は、通信ネットワーク１０における動画トラフィックの流量の制御のために使用される。この場合に、強化学習の「状態」及び「行動」は、例えば以下のようなものである。
　［状態］動画のＱｏＥ（Quality　of　Experience）
　　　　　（例えば、動画のビットレート、及び／又は、動画の解像度)
　［行動］スループットの上限の増加又は減少

　－第３の例
　第３の例として、機械学習ベースのコントローラ１６０は、ロボット制御のために使用される。この場合に、強化学習の「状態」及び「行動」は、例えば以下のようなものである。
　［状態］パケット到着間隔及び／又はパケットサイズの統計値
　　　　　（例えば、最大値、最小値、平均値又は標準偏差など)
　［行動］パケット送信間隔の増加又は減少

　－その他
　当然ながら、第１の実施形態に係る強化学習の「状態」及び「行動」は、上述した例に限定されない。

　強化学習の「状態」は、上述したように例えば通信ネットワーク１０の状態であるが、より具体的には、通信ネットワーク１０のいずれかのプロトコルレイヤ（ＴＣＰ、ＵＤＰ（User　Datagram　Protocol）、ＩＰ又はＭＡＣ（Medium　Access　Control））での状態であってもよい。

　強化学習の「行動」は、例えば通信ネットワーク１０の制御パラメータの変更であるが、より具体的には、通信ネットワーク１０のいずれかのプロトコルレイヤ（ＴＣＰ、ＵＤＰ、ＩＰ又はＭＡＣ）の制御パラメータの変更であってもよい。

　なお、例えば、上記複数の機械学習ベースのコントローラ１６０は、同一形式の状態を強化学習の入力として有し、同一形式の行動を強化学習の出力として有する。ただし、第１の実施形態はこの例に限定されない。この点については第１の実施形態の第１の変形例として後に詳細に説明する。

　（３）機械学習ベースのコントローラ１６０間の相違点
　例えば、上記複数の機械学習ベースのコントローラ１６０の各々は、上記複数の機械学習ベースのコントローラ１６０に含まれる１つ以上の他の機械学習ベースのコントローラ１６０とは異なる学習条件を有する。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、学習条件に相違がある。

　より具体的には、例えば、上記複数の機械学習ベースのコントローラ１６０の各々は、上記複数の機械学習ベースのコントローラ１６０に含まれる他の全ての機械学習ベースのコントローラ１６０と異なる学習条件を有する。換言すると、上記複数の機械学習ベースのコントローラ１６０の各々は、固有の（unique）学習条件を有する。例えば、上記複数の機械学習ベースのコントローラ１６０の各々は、通信ネットワーク１０の対象状態（例えば、対象の輻輳状態）に適した固有の（unique）学習条件を有する。換言すると、上記複数の機械学習ベースのコントローラ１６０に含まれる機械学習ベースのコントローラ１６０は、当該機械学習ベースのコントローラ１６０に対応する通信ネットワーク１０の状態に応じた学習条件を有する。

　このように学習条件が異なる機械学習ベースのコントローラ１６０により、例えば、通信ネットワーク１０の様々な状態に適した学習及び制御を行うことが可能になる。

　（４）学習条件
　例えば、上記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む。

　図６は、第１の実施形態に係る各機械学習ベースのコントローラ１６０の学習条件の例を説明するための図である。図６を参照すると、Ｎ個の機械学習ベースのコントローラ１６０の各々の学習条件が示されている。当該学習条件は、探索確率下限、パラメータ変更量及びニューラルネット構成を含む。

　上記探索確率下限は、強化学習における探索の確率の下限である。上述したように、強化学習では、「利用」と「探索」とにより学習が行われ、例えば、Epsilon-Greedy法では、確率εで「探索」が選択され、確率１－εで「利用」が選択される。このような場合には、上記探索確率下限は、確率εの下限である。一例として、図６のレベル１の機械学習ベースのコントローラ１６０については、探索確率下限が０．２なので、確率εは０．２以上となる。

　上記パラメータ変更量は、強化学習におけるパラメータの変更量である。上述したように、例えば、強化学習の行動は、通信ネットワーク１０の制御パラメータの変更であり、上記パラメータ変更量は、強化学習の行動として当該制御パラメータを変更する量である。例えば、上記パラメータ変更量が大きければ、制御パラメータを最適値に大幅に近づけることができ、上記パラメータ変更量が小さければ、制御パラメータを最適値にきめ細かく近づけることができる。

　上記ニューラルネット構成は、強化学習におけるニューラルネットワークの構成である。図７は、第１の実施形態に係るニューラルネットワークの構成の例を説明するための図である。図７を参照すると、ニューラルネットワークは、複数の層を含む。例えば、ニューラルネットワークにおける層の数を多くすることにより、入力（即ち、状態）と出力（即ち、行動）との複雑な関係をより適切に表すことができる。例えば、ニューラルネットワークにおける層の数を少なくする（層を浅くする）ことにより、より少ない計算を通じて、入力（即ち、状態）と出力（即ち、行動）との関係を表すことができる。

　（５）機械学習ベースのコントローラ１６０の数
　例えば、制御装置１００（コントローラ設定手段１５０）は、通信ネットワーク１０における通信を制御するための機械学習ベースのコントローラ１６０の数（例えばＮ）を決定する。

　－決定の手法
　例えば、制御装置１００（コントローラ設定手段１５０）は、通信ネットワーク１０の観測の結果（例えば、通信ネットワーク１０における輻輳レベルのレンジ）に基づいて、機械学習ベースのコントローラ１６０の数（例えばＮ）を決定する。

　あるいは、制御装置１００（コントローラ設定手段１５０）は、通信ネットワーク１０において制御装置１００を使用するために人間により設定された情報（例えば、機械学習ベースのコントローラ１６０の数を示す情報）に基づいて、機械学習ベースのコントローラ１６０の数（例えばＮ）を決定してもよい。

　なお、機械学習ベースのコントローラ１６０の数の決定の手法は、これらの例に限定されない。

　－決定のタイミング
　例えば、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の使用の開始前に、機械学習ベースのコントローラ１６０の数（例えばＮ）を予め決定する。

　さらに、又は、あるいは、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の使用の開始後に、機械学習ベースのコントローラ１６０の数（例えばＮ）を決定してもよい。一例として、通信ネットワーク１０の構成が変更された場合等に、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の数（例えばＮ）を決定してもよい。別の例として、機械学習ベースのコントローラ１６０における学習が適切に収束しない場合に、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の数（例えばＮ）を決定してもよい。

　－決定後の処理
　例えば、多数の機械学習ベースのコントローラ１６０が予め用意されている。この場合に、例えば、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の数（Ｎ）の決定後に、上記多数の機械学習ベースのコントローラ１６０のうちのＮ個の機械学習ベースのコントローラ１６０を起動（activate）する。

　あるいは、制御装置１００（コントローラ設定手段１５０）は、機械学習ベースのコントローラ１６０の数（Ｎ）の決定後に、Ｎ個の機械学習ベースのコントローラ１６０を生成してもよい。

　例えば上述したように、機械学習ベースのコントローラ１６０の数が決定される。これにより、例えば、通信ネットワーク１０に適した数の機械学習ベースのコントローラ１６０を選択的に使用することが可能になる。その結果、例えば、通信ネットワーク１０の通信がより適切に制御され得る。

　（６）実装
　一例として、上記複数の機械学習ベースのコントローラ１６０（例えば、Ｎ個の機械学習ベースのコントローラ１６０）は、それぞれ別々のソフトウェアとして実装される。

　別の例として、上記複数の機械学習ベースのコントローラ１６０は、それぞれ共通のソフトウェアと別々のライブラリとにより実装されてもよい。

　さらに別の例として、上記複数の機械学習ベースのコントローラ１６０は、それぞれ別々のハードウェアとして実装されてもよい。

　＜２．４．機械学習ベースのコントローラの選択＞
　制御装置１００（選択手段１４０）は、通信ネットワーク１０における通信を制御するための複数の機械学習ベースのコントローラ１６０のうちの１つを選択する。即ち、制御装置１００（選択手段１４０）は、上記複数の機械学習ベースのコントローラ１６０の中から、通信ネットワーク１０における通信の制御に使用する１つの機械学習ベースのコントローラ１６０を選択する。

　図８は、第１の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。以下、図８を参照して、機械学習ベースのコントローラ１６０の選択のための動作を説明する。

　（１）観測（Ｓ３１０）
　例えば、制御装置１００（観測手段１１０）は、通信ネットワーク１０を観測する（Ｓ３１０）。

　より具体的には、例えば、制御装置１００（観測手段１１０）は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を観測する。例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器であり、観測される上記スループットは、制御装置１００におけるスループットであり、観測される上記パケットロス率は、制御装置１００におけるパケットロス率である。

　例えば、制御装置１００（観測手段１１０）は、通信ネットワーク１０についての観測情報を生成する。当該観測情報は、通信ネットワーク１０の観察の結果を示す。より具体的には、例えば、上記観測情報は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を示す。

　（２）判定（Ｓ３２０）
　例えば、制御装置１００（判定手段１２０）は、通信ネットワーク１０の状態を判定する（Ｓ３２０）。

　－通信ネットワーク１０の状態
　例えば、判定される上記状態は、通信ネットワーク１０の輻輳状態である。即ち、制御装置１００（判定手段１２０）は、通信ネットワーク１０の輻輳状態を判定する。

　より具体的には、例えば、判定される上記輻輳状態は、通信ネットワーク１０の輻輳レベルである。即ち、制御装置１００（判定手段１２０）は、通信ネットワーク１０の輻輳レベルを判定する。一例として、輻輳レベルとして、１からＮのレベルが予め定義され、制御装置１００（判定手段１２０）は、通信ネットワーク１０の輻輳レベルが１からＮのどのレベルであるかを判定する。

　なお、ここで判定される上記状態（通信ネットワーク１０の状態）は、あくまで機械学習ベースのコントローラ１６０の選択のために判定される状態であり、機械学習ベースのコントローラ１６０の強化学習の入力である「状態」を意味しない、ということに留意すべきである。

　－判定手法
　例えば、制御装置１００（判定手段１２０）は、上記観測情報に基づいて、通信ネットワーク１０の状態を判定する。

　上述したように、例えば、上記観測情報は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率を示す。この場合に、制御装置１００（判定手段１２０）は、通信ネットワーク１０におけるスループット、及び／又は、通信ネットワーク１０におけるパケットロス率に基づいて、通信ネットワーク１０の状態（例えば、輻輳レベル）を判定する。

　図９は、第１の実施形態に係る通信ネットワーク１０の状態の判定の手法の例を説明するための図である。スループットに基づいて輻輳レベルが判定される場合には、スループットが１００Ｍｂｐｓよりも大きければ、輻輳レベルはレベル１であると判定され、スループットが５０Ｍｂｐｓよりも大きく１００Ｍｂｐｓ以下であれば、輻輳レベルはレベル２であると判定される。一方、パケットロス率に基づいて輻輳レベルが判定される場合には、パケットロス率が０．００１よりも小さければ、輻輳レベルはレベル１であると判定され、パケットロス率が０．００１以上であり０．０１よりも小さければ、輻輳レベルはレベル２であると判定される。

　図９の例において、スループット及びパケットロス率の両方に基づいて輻輳レベルが判定されてもよい。この場合に、一例として、スループットのみに基づいて判定されるレベルと、パケットロス率のみに基づいて判定されるレベルとのうち、より高いレベルが、輻輳レベルとして判定されてもよい。

　図９の例では、より高いレベルが、より激しい輻輳を意味している。

　なお、通信ネットワーク１０の状態を判定する手法はこの例に限定されない。判定手法の他の例は、第１の実施形態の第２の変形例として後に詳細に説明する。

　－状態情報
　例えば、制御装置１００（判定手段１２０）は、通信ネットワーク１０の上記状態（即ち、判定された状態）に関する状態情報を生成する。

　例えば、上記状態情報は、通信ネットワーク１０の上記状態（即ち、判定された状態）を示す。より具体的には、例えば、上記状態情報は、通信ネットワーク１０の上記輻輳レベル（即ち、判定された輻輳レベル）を示す。

　なお、上記状態情報はこの例に限定されない。この点については、第１の実施形態の第３の変形例として後に詳細に説明する。

　（３）選択（Ｓ３３０）
　制御装置１００（取得手段１３０）は、上記状態情報を取得する。制御装置１００（選択手段１４０）は、上記状態情報に基づいて、上記複数の機械学習ベースのコントローラ１６０のうちの１つを選択する（Ｓ３３０）。即ち、制御装置１００（選択手段１４０）は、上記状態情報に基づいて、上記複数の機械学習ベースのコントローラ１６０の中から、通信ネットワーク１０における通信の制御に使用する１つの機械学習ベースのコントローラ１６０を選択する。換言すると、制御装置１００（選択手段１４０）は、上記状態情報に基づいて、通信ネットワーク１０における通信の制御に使用する機械学習ベースのコントローラ１６０を切り替える。このような選択により、上記複数の機械学習ベースのコントローラは、通信ネットワーク１０における通信の制御のために選択的に使用される。

　例えば、上記複数の機械学習ベースのコントローラ１６０は、それぞれ、通信ネットワーク１０の異なる状態（例えば、異なる輻輳レベル）に対応する。この場合に、制御装置１００（選択手段１４０）は、上記状態情報により示される通信ネットワーク１０の上記状態（上記輻輳レベル）に対応する機械学習ベースのコントローラ１６０を選択する。

　具体的には、例えば、図６に示されるように、上記複数の機械学習ベースのコントローラ１６０は、１からＮの輻輳レベルにそれぞれ対応するＮ個の機械学習ベースのコントローラ１６０である。この場合に、制御装置１００（選択手段１４０）は、上記状態情報により示される上記輻輳レベルに対応する機械学習ベースのコントローラ１６０を選択する。図６に示されるように、より高い輻輳レベルに対応する機械学習ベースのコントローラ１６０は、より高い探索確率下限を有し、より多くの層を伴うニューラルネットワーク構成を有する。

　以上のように、通信ネットワークの状態（例えば輻輳レベル）ごとに、機械学習ベースのコントローラ１６０が用意され、選択的に使用される。そのため、各機械学習ベースのコントローラ１６０は、ターゲットとする状態（例えば輻輳レベル）でのみ使用され、ターゲットとする状態（例えば輻輳レベル）に専用の学習及び制御を行うことができる。よって、通信ネットワークの状態（例えば輻輳レベル）が変化する場合でも、各機械学習ベースのコントローラ１６０では、多大な時間を要することなく、最適な制御パラメータが発見され、制御パラメータが収束し得る。また、収束後の制御パラメータの精度は高くなり得る。このように、通信ネットワーク１０において通信ネットワークの状態（即ち、通信環境）に適した制御を行うことがより容易になる。

　なお、選択された機械学習ベースのコントローラ１６０は、通信ネットワーク１０における通信の制御に使用される。具体的には、例えば、選択された機械学習ベースのコントローラ１６０は、上述したように、例えば、入力される通信ネットワーク１０の状態に基づいて制御パラメータの変更を選択し、変更された制御パラメータを制御装置１００において設定する。

　＜２．５．変形例＞
　第１の実施形態の第１～第５の変形例を説明する。なお、第１～第５の変形例のうちの２つ以上の変形例が組み合せられてもよい。

　（１）第１の変形例
　上述したように、例えば、上記複数の機械学習ベースのコントローラ１６０は、同一形式の状態を強化学習の入力として有し、同一形式の行動を強化学習の出力として有する。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、強化学習の状態及び行動の形式に相違はない。しかし、第１の実施形態はこの例に限定されない。

　－入力される状態の相違
　第１の実施形態の第１の変形例では、上記複数の機械学習ベースのコントローラ１６０の各々は、上記複数の機械学習ベースのコントローラ１６０に含まれる１つ以上の他の機械学習ベースのコントローラ１６０とは異なる形式の状態を強化学習の入力として有してもよい。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、強化学習の状態の形式に相違があってもよい。

　一例として、上記異なる形式の状態は、異なる量の状態であってもよい。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、強化学習の状態の量に相違があってもよい。具体的には、例えば、機械学習ベースのコントローラ１６０Ａは、直近の１回の観測により得られた状態（即ち、１つの状態）を強化学習の入力として有してもよく、機械学習ベースのコントローラ１６０Ｂは、直近の２回の観測により得られた状態（即ち、同一の種類の２つの状態）を強化学習の入力として有してもよい。

　－出力される行動の相違
　第１の実施形態の第１の変形例では、上記複数の機械学習ベースのコントローラ１６０の各々は、上記複数の機械学習ベースのコントローラ１６０に含まれる１つ以上の他の機械学習ベースのコントローラ１６０とは異なる形式の行動を強化学習の出力として有してもよい。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、強化学習の行動の形式に相違があってもよい。

　一例として、上記異なる形式の行動は、通信ネットワーク１０の異なる制御パラメータの変更であってもよい。即ち、上記複数の機械学習ベースのコントローラ１６０の中で、行動として変更する制御パラメータに相違があってもよい。具体的には、例えば、機械学習ベースのコントローラ１６０Ａは、送信バッファサイズの変更を強化学習の行動として有してもよく、機械学習ベースのコントローラ１６０Ｂは、送信バッファサイズ及びスループットの変更を強化学習の行動として有してもよい。

　－機械学習ベースのコントローラ１６０間の相違点
　第１の実施形態の第１の変形例では、上記複数の機械学習ベースのコントローラ１６０の各々は、学習条件、強化学習の状態の形式、及び、強化学習の行動の形式のいずれかの点で、他の全ての機械学習ベースのコントローラ１６０の各々と異なっていてもよい。即ち、上記複数の機械学習ベースのコントローラ１６０の各々は、学習条件、強化学習の状態の形式、及び、強化学習の行動の形式の組合せの観点から、上記複数の機械学習ベースのコントローラ１６０の中で固有（unique）であってもよい。

　（２）第２の変形例
　上述したように、機械学習ベースのコントローラ１６０の選択のために、制御装置１００（判定手段１２０）は、例えば、通信ネットワーク１０についての観測情報に基づいて、通信ネットワーク１０の状態を判定する。しかし、第１の実施形態に係る判定はこの例に限定されない。

　第１の実施形態の第２の変形例では、制御装置１００（判定手段１２０）は、時間帯ごとの通信ネットワーク１０の状態を示す情報（以下、「時間帯状態情報」と呼ぶ）に基づいて、通信ネットワーク１０の状態を判定してもよい。

　一例として、上記時間帯状態情報は、１２時から１３時の時間帯（通信ネットワーク１０が混在する時間帯）の輻輳レベルとして、レベルＮ（最も激しい輻輳を意味するレベル）を示す。ここでは明示しないが、当然ながら、上記時間帯状態情報は、他の時間帯の輻輳レベルも示す。

　例えば、上記時間帯状態情報は、予め定められ、制御装置１００に記憶される。上記時間帯状態情報は、手動で予め定められてもよく、統計情報に基づいて自動で予め定められてもよい。

　このような判定により、通信ネットワーク１０の観測なしで、通信ネットワーク１０の状態を判定することが可能になる。

　（３）第３の変形例
　上述したように、機械学習ベースのコントローラ１６０の選択のために、通信ネットワーク１０の状態に関する状態情報が用いられ、例えば、当該状態情報は、通信ネットワーク１０の状態を示す。しかし、第１の実施形態に係る状態情報はこの例に限定されない。

　第１の実施形態の第３の変形例では、上記状態情報は、通信ネットワーク１０の状態そのものを示さなくてもよい。例えば、上記状態情報は、通信ネットワーク１０の状態そのものを示さないが、通信ネットワーク１０の状態に対応する情報であってもよい。

　一例として、上記状態情報は、通信ネットワーク１０の輻輳レベルそのものを示さないが、通信ネットワーク１０の輻輳レベルに対応するインデックスであってもよい。

　（４）第４の変形例
　上述したように、例えば、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器（例えば、プロキシサーバ、ゲートウェイ、ルータ及び／又はスイッチ等）である（図１０を参照）。また、上述したように、例えば、制御装置１００（パラメータ設定手段１７０）は、機械学習ベースのコントローラ１６０が制御パラメータの変更を選択した場合に、変更された制御パラメータを制御装置１００において設定する（図１０を参照）。しかし、第１の実施形態に係る制御装置１００はこの例に限定されない。

　－第１の例
　第１の実施形態の第４の変形例では、第１の例として、図１１に示されるように、制御装置１００は、通信ネットワーク１０内でデータを転送するネットワーク機器そのものではなく、通信ネットワーク１０内でデータを転送するネットワーク機器３０を制御する装置（例えば、ネットワークコントローラ）であってもよい。

　制御装置１００（観測手段１１０）は、通信ネットワーク１０を自ら観測せず、ネットワーク機器３０が、通信ネットワーク１０を観測してもよい。制御装置１００（観測手段１１０）は、通信ネットワーク１０についての観測情報をネットワーク機器３０から取得してもよい。

　図１１に示されるように、制御装置１００（パラメータ設定手段１７０）は、機械学習ベースのコントローラ１６０が制御パラメータの変更を選択した場合に、変更された制御パラメータをネットワーク機器３０に設定させてもよい。一例として、制御装置１００（パラメータ設定手段１７０）は、制御パラメータの変更を示すパラメータ情報（例えば、制御パラメータの変更を指示するコマンド）をネットワーク機器３０へ送信し、ネットワーク機器３０は、当該パラメータ情報に基づいて、変更された制御パラメータを設定してもよい。その結果、ネットワーク機器３０は、当該変更された制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第２の例
　第２の例として、図１２に示されるように、ネットワークコントローラ５０が、通信ネットワーク１０内でデータを転送するネットワーク機器４０を制御し、制御装置１００は、ネットワークコントローラ５０を制御又は支援（assist）する装置であってもよい。

　制御装置１００（観測手段１１０）は、通信ネットワーク１０を自ら観測せず、ネットワーク機器４０が、通信ネットワーク１０を観測してもよい。制御装置１００（観測手段１１０）は、通信ネットワーク１０についての観測情報をネットワーク機器４０又はネットワークコントローラ５０から取得してもよい。

　図１２に示されるように、制御装置１００（パラメータ設定手段１７０）は、機械学習ベースのコントローラ１６０が制御パラメータの変更を選択した場合に、制御パラメータの変更を示す第１のパラメータ情報（例えば、制御パラメータの変更を指示するコマンド、又は、制御パラメータの変更を教える支援情報）をネットワークコントローラ５０へ送信してもよい。さらに、ネットワークコントローラ５０は、当該第１のパラメータ情報に基づいて、制御パラメータの変更を示す第２のパラメータ情報（例えば、制御パラメータの変更を指示するコマンド）をネットワーク機器４０へ送信し、ネットワーク機器４０は、当該第２のパラメータ情報に基づいて、変更された制御パラメータを設定してもよい。その結果、ネットワーク機器４０は、当該変更された制御パラメータに従って、データ（例えば、パケット）を転送してもよい。

　－第３の例
　第３の例として、図１３に示されるように、ネットワークコントローラ７０が、通信ネットワーク１０内でデータを転送するネットワーク機器６０を制御し、制御装置１００は、ネットワークコントローラ７０を制御する装置であってもよい。

　制御装置１００（観測手段１１０）は、通信ネットワーク１０を自ら観測せず、ネットワーク機器６０が、通信ネットワーク１０を観測してもよい。制御装置１００（観測手段１１０）は、通信ネットワーク１０についての観測情報をネットワーク機器６０又はネットワークコントローラ７０から取得してもよい。

　図１３に示されるように、制御装置１００（パラメータ設定手段１７０）は、機械学習ベースのコントローラ１６０が制御パラメータの変更を選択した場合に、変更された制御パラメータをネットワークコントローラ７０に設定させてもよい。一例として、制御装置１００（パラメータ設定手段１７０）は、制御パラメータの変更を示すパラメータ情報（例えば、制御パラメータの変更を指示するコマンド）をネットワークコントローラ７０へ送信し、ネットワークコントローラ７０は、当該パラメータ情報に基づいて、変更された制御パラメータを設定してもよい。その結果、ネットワークコントローラ７０は、当該変更された制御パラメータに従って、ネットワーク機器６０を制御してもよく、ネットワーク機器６０は、ネットワークコントローラ７０による制御に従って、データ（例えば、パケット）を転送してもよい。

　（５）第５の変形例
　上述したように、例えば、制御装置１００は、観測手段１１０、判定手段１２０、取得手段１３０、選択手段１４０、コントローラ設定手段１５０、複数の機械学習ベースのコントローラ１６０、パラメータ設定手段１７０及び通信処理手段１８０を備える。しかし、第１の実施形態に係る制御装置１００はこの例に限定されない。

　第１の実施形態の第５の変形例では、例えば、観測手段１１０は、制御装置１００に含まれず、他の装置に含まれてもよい。この場合に、制御装置１００は、通信ネットワーク１０についての観測情報を当該他の装置から受信してもよい。さらに、例えば、判定手段１２０も、制御装置１００に含まれず、上記他の装置に含まれてもよい。この場合に、制御装置１００は、通信ネットワーク１０の状態に関する状態情報を上記他の装置から受信してもよい。例えば、第４の変形例のような場合に、観測手段１１０（及び判定手段１２０）が、制御装置１００に含まれず、他の装置（例えば、ネットワーク機器又はネットワークコントローラ）に含まれてもよい。

　第１の実施形態の第５の変形例では、例えば、コントローラ設定手段１５０は、制御装置１００に含まれず、他の装置に含まれてもよい。この場合に、機械学習ベースのコントローラ１６０の数（例えばＮ）は、当該他の装置により決定されてもよい。

　第１の実施形態の第５の変形例では、例えば、上記複数の機械学習ベースのコントローラ１６０は、制御装置１００に含まれず、他の装置に含まれてもよい。この場合に、制御装置１００は、選択した機械学習ベースのコントローラ１６０を当該他の装置に通知してもよい。パラメータ設定手段１７０も、制御装置１００に含まれず、上記他の装置に含まれてもよい。なお、機械学習ベースのコントローラ１６０が制御装置１００に含まれない場合には、第４の変形例における説明において、「制御装置１００」は、「機械学習ベースのコントローラ１６０を含む装置」に置き換えられてもよい。

　第１の実施形態の第５の変形例では、例えば、パラメータ設定手段１７０は、複数の機械学習ベースのコントローラ１６０の各々に含まれていてもよい。即ち、複数の機械学習ベースのコントローラ１６０の各々は、上述したパラメータ設定手段１７０の動作を行ってもよい。

　第１の実施形態の第５の変形例では、例えば、データ（例えば、パケット）を転送する通信処理手段１８０は、制御装置１００に含まれず、他の装置に含まれてもよい。例えば、第４の変形例のような場合に、通信処理手段１８０が、制御装置１００に含まれず、ネットワーク機器に含まれてもよい。

　＜＜３．第２の実施形態＞＞
　続いて、図１４及び図１５を参照して、本開示の第２の実施形態を説明する。上述した第１の実施形態は、具体的な実施形態であるが、第２の実施形態は、より一般化された実施形態である。

　図１４は、第２の実施形態に係るシステム２の概略的な構成の一例を示す。図１４を参照すると、システム２は、取得手段４００及び選択手段５００を含む。

　図１５は、第２の実施形態に係るコントローラ選択処理の概略的な流れの例を説明するためのフローチャートである。

　取得手段４００は、通信ネットワークの状態に関する状態情報を取得する（Ｓ６１０）。

　選択手段５００は、上記状態情報に基づいて、上記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する（Ｓ６２０）。

　上記通信ネットワーク、上記通信ネットワークの上記状態、上記状態情報、及び、上記複数の機械学習ベースのコントローラについての説明は、例えば、第１の実施形態におけるこれらについての説明と同じである。また、機械学習ベースのコントローラの選択についての説明も、例えば、第１の実施形態における説明と同じである。よって、ここでは重複する説明を省略する。なお、当然ながら、第２の実施形態は、第１の実施形態の例に限定されない。

　以上のように、機械学習ベースのコントローラが選択される。これにより、通信ネットワークにおいて通信環境に適した通信制御を行うことがより容易になる。

　以上、本開示の実施形態を説明したが、本開示はこれらの実施形態に限定されるものではない。これらの実施形態は例示にすぎないということ、及び、本開示のスコープ及び精神から逸脱することなく様々な変形が可能であるということは、当業者に理解されるであろう。

　例えば、本明細書に記載されている処理におけるステップは、必ずしもフローチャートに記載された順序に沿って時系列に実行されなくてよい。例えば、処理におけるステップは、フローチャートとして記載した順序と異なる順序で実行されても、並列的に実行されてもよい。また、処理におけるステップの一部が削除されてもよく、さらなるステップが処理に追加されてもよい。

　また、本明細書において説明したシステム又は制御装置の構成要素の処理を含む方法が提供されてもよく、上記構成要素の処理をプロセッサに実行させるためのプログラムが提供されてもよい。また、当該プログラムを記録したコンピュータに読み取り可能な非一時的記録媒体（Non-transitory　computer　readable　recording　medium）が提供されてもよい。当然ながら、このような方法、プログラム、及びコンピュータに読み取り可能な非一時的記録媒体も本開示に含まれる。

　上記実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）
　通信ネットワークの状態に関する状態情報を取得する取得手段と、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、
を含むシステム。

（付記２）
　前記状態情報は、前記通信ネットワークの前記状態を示す、付記１に記載のシステム。

（付記３）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記１又は２に記載のシステム。

（付記４）
　前記通信ネットワークの前記輻輳状態は、前記通信ネットワークの輻輳レベルである、付記３に記載のシステム。

（付記５）
　前記通信ネットワークの前記状態を判定する判定手段をさらに含む、付記１～４のいずれか１項に記載のシステム。

（付記６）
　前記判定手段は、前記通信ネットワークについての観測情報に基づいて、前記通信ネットワークの前記状態を判定する、付記５に記載のシステム。

（付記７）
　前記観測情報は、前記通信ネットワークにおけるスループット、又は、前記通信ネットワークにおけるパケットロス率を示す、付記６に記載のシステム。

（付記８）
　前記判定手段は、時間帯ごとの前記通信ネットワークの状態を示す情報に基づいて、前記通信ネットワークの前記状態を判定する、付記５に記載のシステム。

（付記９）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、付記１～８のいずれか１項に記載のシステム。

（付記１０）
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる学習条件を有する、付記１～９のいずれか１項に記載のシステム。

（付記１１）
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
付記９又は１０に記載のシステム。

（付記１２）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の状態を強化学習の入力として有する、
付記１～１１のいずれか１項に記載のシステム。

（付記１３）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の行動を強化学習の出力として有する、
付記１～１２のいずれか１項に記載のシステム。

（付記１４）
　前記１つ以上の他の機械学習ベースのコントローラは、前記複数の機械学習ベースのコントローラに含まれる他の全ての機械学習ベースのコントローラである、付記１０～１３のいずれか１項に記載のシステム。

（付記１５）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定するコントローラ設定手段をさらに含む、付記１～１４のいずれか１項に記載のシステム。

（付記１６）
　通信ネットワークの状態に関する状態情報を取得することと、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択することと、
を含む方法。

（付記１７）
　前記状態情報は、前記通信ネットワークの前記状態を示す、付記１６に記載の方法。

（付記１８）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記１６又は１７に記載の方法。

（付記１９）
　前記通信ネットワークの前記輻輳状態は、前記通信ネットワークの輻輳レベルである、付記１８に記載の方法。

（付記２０）
　前記通信ネットワークの前記状態を判定することをさらに含む、付記１６～１９のいずれか１項に記載の方法。

（付記２１）
　前記通信ネットワークについての観測情報に基づいて前記通信ネットワークの前記状態を判定することをさらに含む、付記１６～２０のいずれか１項に記載の方法。

（付記２２）
　前記観測情報は、前記通信ネットワークにおけるスループット、又は、前記通信ネットワークにおけるパケットロス率を示す、付記２１に記載の方法。

（付記２３）
　時間帯ごとの前記通信ネットワークの状態を示す情報に基づいて前記通信ネットワークの前記状態を判定することをさらに含む、付記１６～２０のいずれか１項に記載の方法。

（付記２４）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、付記１６～２３のいずれか１項に記載の方法。

（付記２５）
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる学習条件を有する、付記１６～２４のいずれか１項に記載の方法。

（付記２６）
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
付記２４又は２５に記載の方法。

（付記２７）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の状態を強化学習の入力として有する、
付記１６～２６のいずれか１項に記載の方法。

（付記２８）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の行動を強化学習の出力として有する、
付記１６～２７のいずれか１項に記載の方法。

（付記２９）
　前記１つ以上の他の機械学習ベースのコントローラは、前記複数の機械学習ベースのコントローラに含まれる他の全ての機械学習ベースのコントローラである、付記２５～２８のいずれか１項に記載の方法。

（付記３０）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定することをさらに含む、付記１６～２９のいずれか１項に記載の方法。

（付記３１）
　通信ネットワークの状態に関する状態情報を取得する取得手段と、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、
を備える制御装置。

（付記３２）
　前記状態情報は、前記通信ネットワークの前記状態を示す、付記３１に記載の制御装置。

（付記３３）
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、付記３１又は３２に記載の制御装置。

（付記３４）
　前記通信ネットワークの前記輻輳状態は、前記通信ネットワークの輻輳レベルである、付記３３に記載の制御装置。

（付記３５）
　前記通信ネットワークの前記状態を判定する判定手段をさらに備える、付記３１～３４のいずれか１項に記載の制御装置。

（付記３６）
　前記判定手段は、前記通信ネットワークについての観測情報に基づいて、前記通信ネットワークの前記状態を判定する、付記３５に記載の制御装置。

（付記３７）
　前記観測情報は、前記通信ネットワークにおけるスループット、又は、前記通信ネットワークにおけるパケットロス率を示す、付記３６に記載の制御装置。

（付記３８）
　前記判定手段は、時間帯ごとの前記通信ネットワークの状態を示す情報に基づいて、前記通信ネットワークの前記状態を判定する、付記３５に記載の制御装置。

（付記３９）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、付記３１～３８のいずれか１項に記載の制御装置。

（付記４０）
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる学習条件を有する、付記３１～３９のいずれか１項に記載の制御装置。

（付記４１）
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
付記３９又は４０に記載の制御装置。

（付記４２）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の状態を強化学習の入力として有する、
付記３１～４１のいずれか１項に記載の制御装置。

（付記４３）
　前記複数の機械学習ベースのコントローラの各々は、入力される状態に基づいて行動を出力する強化学習ベースのコントローラであり、
　前記複数の機械学習ベースのコントローラの各々は、前記複数の機械学習ベースのコントローラに含まれる１つ以上の他の機械学習ベースのコントローラとは異なる形式の行動を強化学習の出力として有する、
付記３１～４２のいずれか１項に記載の制御装置。

（付記４４）
　前記１つ以上の他の機械学習ベースのコントローラは、前記複数の機械学習ベースのコントローラに含まれる他の全ての機械学習ベースのコントローラである、付記４０～４３のいずれか１項に記載の制御装置。

（付記４５）
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定するコントローラ設定手段をさらに備える、付記３１～４４のいずれか１項に記載の制御装置。

（付記４６）
　通信ネットワークの状態に関する状態情報を取得することと、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択することと、
をプロセッサに実行させるプログラム。

（付記４７）
　通信ネットワークの状態に関する状態情報を取得することと、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択することと、
をプロセッサに実行させるプログラムを記録したコンピュータに読み取り可能な非一時的記録媒体。

　１、２　　　　　システム
　１０　　　　　　通信ネットワーク
　１００　　　　　制御装置
　１２０　　　　　判定手段
　１３０、４００　取得手段
　１４０、５００　選択手段
　１５０　　　　　コントローラ設定手段１５０
　１６０　　　　　機械学習ベースのコントローラ

Claims

　通信ネットワークの状態に関する状態情報を取得する取得手段と、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、
を含むシステム。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項１に記載のシステム。
　前記通信ネットワークの前記状態を判定する判定手段をさらに含む、請求項１又は２に記載のシステム。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、請求項１～３のいずれか１項に記載のシステム。
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
請求項４に記載のシステム。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定するコントローラ設定手段をさらに含む、請求項１～５のいずれか１項に記載のシステム。
　通信ネットワークの状態に関する状態情報を取得することと、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択することと、
を含む方法。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項７に記載の方法。
　前記通信ネットワークの前記状態を判定することをさらに含む、請求項７又は８に記載の方法。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、請求項７～９のいずれか１項に記載の方法。
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
請求項１０に記載の方法。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定することをさらに含む、請求項７～１１のいずれか１項に記載の方法。
　通信ネットワークの状態に関する状態情報を取得する取得手段と、
　前記状態情報に基づいて、前記通信ネットワークにおける通信を制御するための複数の機械学習ベースのコントローラのうちの１つを選択する選択手段と、
を備える制御装置。
　前記通信ネットワークの前記状態は、前記通信ネットワークの輻輳状態である、請求項１３に記載の制御装置。
　前記通信ネットワークの前記状態を判定する判定手段をさらに備える、請求項１３又は１４に記載の制御装置。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラは、当該機械学習ベースのコントローラに対応する前記通信ネットワークの状態に応じた学習条件を有する、請求項１３～１５のいずれか１項に記載の制御装置。
　前記複数の機械学習ベースのコントローラの各々は、強化学習ベースのコントローラであり、
　前記学習条件は、強化学習における探索の確率の下限、強化学習におけるパラメータの変更量、及び、強化学習におけるニューラルネットワークの構成のうちの、少なくとも１つを含む、
請求項１６に記載の制御装置。
　前記複数の機械学習ベースのコントローラに含まれる機械学習ベースのコントローラの数を決定するコントローラ設定手段をさらに備える、請求項１３～１７のいずれか１項に記載の制御装置。