JPWO2020110250A1

JPWO2020110250A1 - 無線通信装置、無線通信システムおよび無線通信プログラム

Info

Publication number: JPWO2020110250A1
Application number: JP2019540022A
Authority: JP
Inventors: 卓矢小林; 健太郎澤; 陽介横山; 山内　尚久; 尚久山内
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2021-02-15
Anticipated expiration: 2038-11-29
Also published as: CN113039834A; CN113039834B; WO2020110250A1; JP6632778B1

Abstract

行動価値取得部（３１０）は、経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する。通信経路制御部（３２０）は、取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新する。そして、通信経路制御部は、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する。無線通信部（３３０）は、選択された通信経路を介して無線通信を行う。

Description

本発明は、無線通信制御に関するものである。

ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）への関心の高まりとともに、工場、ビルおよびインフラストラクチャーなどの監視を目的として、マルチホップ機能を利用した無線マルチホップネットワークの適用が進んでいる。

無線マルチホップネットワークでは、送信元ノードから送信されたフレームが、中継ノードで受信され、中継ノードから宛先ノードに送信される。そのため、無線マルチホップネットワークは、広域エリアに多数の端末を収容するシステムに適している。
また、無線マルチホップネットワークでは、フェージングまたはシャドウイングの影響で１つの通信経路が通信不能に陥ったとしても、他の通信経路を選択して通信を行うことが可能である。そのため、耐障害性があることが無線マルチホップネットワークの特長とされている。
しかし、到達率または応答時間などのユーザの要求を満たすように、各ノードの周辺の電波環境に応じて最適な中継経路を選択するためには、複雑な経路制御手法が必要となる。

従来技術として、送信元ノードから自ノードまでの通信経路の品質を考慮した経路選択手法が提案されている。
特許文献１には、２つの閾値を用いて受信信号強度を３段階で評価し、その評価に応じたリンクコストを算出し、リンクコストが最も小さい経路を選択する、という方式が提案されている。この方式により、受信信号強度が最も良好な通信経路が最適な中継経路として選択される。

特開２０１１−３００４９号公報

ＩＥＴＦＲＦＣ６５５０， "ＩＰｖ６ＲｏｕｔｉｎｇＰｒｏｔｏｃｏｌｆｏｒＬｏｗ−ＰｏｗｅｒａｎｄＬｏｓｓｙＮｅｔｗｏｒｋｓ"

特許文献１の方式では、閾値を用いて経路の品質が考慮される。
しかし、システムインテグレータが現場の設置環境に合わせたチューニングによって閾値を決定する必要があるため、閾値の決定には人手がかかってしまう。

また、ノードを設置した場所および時間によってノードの周囲環境が全く異なる。そのため、全てのノードに対して同一の閾値を用いることができない。全てのノードに対して同一の閾値が用いられると、受信信号強度の変動幅が大きい（あるいは小さい）ノードでは、ユーザの要求に対して中継回数が過剰になってしまう（または中継回数が不足してしまう）。その結果、伝送遅延および無線誤りが発生してしまう可能性がある。

本発明は、経路選択用の閾値を自動で適切に調整できるようにすることを目的とする。

本発明の無線通信装置は、
経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御部と、
選択された通信経路を介して無線通信を行う無線通信部と、を備える。

本発明によれば、経路選択用の閾値を自動で適切に調整することが可能となる。

実施の形態１における無線通信システム１００の構成図。実施の形態１における無線通信装置２００の構成図。実施の形態１における無線通信装置３００の構成図。実施の形態１における無線通信方法（経路選択）のフローチャート。実施の形態１における親機処理（Ｓ１２０）のフローチャート。実施の形態１における子機処理（Ｓ１３０）のフローチャート。実施の形態１における行動価値テーブル３９１の示す図。実施の形態１における閾値調整処理（Ｓ１３４）のフローチャート。実施の形態１における無線通信システム１００の動作例を示すシーケンス図。実施の形態１における親機処理（Ｓ１２０）のフローチャートの別例。実施の形態１における子機処理（Ｓ１３０）のフローチャートの別例。実施の形態１における無線通信方法（経路選択）のフローチャートの別例。実施の形態１における子機処理（Ｓ１２０Ｂ）のフローチャート。実施の形態２における無線通信方法（間隔調整）のフローチャート。実施の形態２における子機処理（Ｓ２３０）のフローチャート。実施の形態２における行動価値テーブル３９２を示す図。実施の形態２における間隔調整処理（Ｓ２３４）のフローチャート。実施の形態２における子機処理（Ｓ２３０）のフローチャートの別例。実施の形態２における無線通信方法（間隔調整）のフローチャートの別例。実施の形態２における子機処理（Ｓ２２０Ｂ）のフローチャート。実施の形態３における無線通信方法（中継機選択）のフローチャート。実施の形態３における子機処理（Ｓ３３０）のフローチャート。実施の形態３における行動価値テーブル３９３を示す図。実施の形態３における中継機選択処理（Ｓ３３４）のフローチャート。実施の形態３における子機処理（Ｓ３３０）のフローチャートの別例。実施の形態３における無線通信方法（中継機選択）のフローチャート。の別例。実施の形態３における子機処理（Ｓ３２０Ｂ）のフローチャート。実施の形態４における無線通信装置３００の構成図。実施の形態４における無線通信方法（レート調整）のフローチャート。実施の形態４における子機処理（Ｓ４３０）のフローチャート。実施の形態４における行動価値テーブル３９４を示す図。実施の形態４におけるレート調整処理（Ｓ４３４）のフローチャート。実施の形態４における子機処理（Ｓ４３０）のフローチャートの別例。実施の形態４における無線通信方法（レート調整）のフローチャートの別例。実施の形態４における子機処理（Ｓ４２０Ｂ）のフローチャート。実施の形態５における無線通信装置３００の構成図。実施の形態５における無線通信方法（学習結果確認）のフローチャート。実施の形態における無線通信装置２００のハードウェア構成図。実施の形態における無線通信装置３００のハードウェア構成図。

実施の形態および図面において、同じ要素または対応する要素には同じ符号を付している。説明した要素と同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。

実施の形態１．
通信経路用の閾値を調整するために強化学習を適用する形態について、図１から図１３に基づいて説明する。

＊＊＊構成の説明＊＊＊
図１に基づいて、無線通信システム１００の構成を説明する。
無線通信システム１００は、複数の無線通信装置を備える。
「親機」として動作する無線通信装置を「無線通信装置２００」と称する。
「子機」または「中継機」として動作するそれぞれの無線通信装置を「無線通信装置３００」と称する。
図１において、無線通信装置３００Ａが子機として動作し、無線通信装置（３００Ｂ〜３００Ｇ）のそれぞれが中継機として動作する。

複数の無線通信装置３００は、マルチホップネットワークを構成する。
親機（２００）は、マルチホップネットワークを管理する。
子機（３００Ａ）は、１つ以上の中継機（３００Ｂ〜３００Ｇ）を介して、親機（２００）と通信する。

図２に基づいて、無線通信装置２００の構成を説明する。
無線通信装置２００は、プロセッサ２０１とメモリ２０２と有線インタフェース２０３と無線インタフェース２０４と無線アンテナ２０５といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。

プロセッサ２０１は、演算処理を行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）であり、他のハードウェアを制御する。例えば、プロセッサ２０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、またはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。
メモリ２０２は記憶装置である。例えば、メモリ２０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリまたはこれらの組み合わせである。
有線インタフェース２０３は、有線通信を行うためのインタフェースである。有線インタフェース２０３には有線ケーブルが接続される。例えば、有線インタフェース２０３は、通信チップまたはＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）である。
無線インタフェース２０４は、無線通信を行うためのインタフェースである。無線インタフェース２０４には無線アンテナ２０５が接続される。例えば、無線インタフェース２０４は、通信チップまたはＮＩＣである。
無線アンテナ２０５は、無線通信のためのアンテナである。
無線通信装置２００は、無線インタフェース２０４と無線アンテナ２０５とを用いて、無線通信を行う。

無線通信装置２００は、無線通信部２１０と情報提供部２２０といった要素を備える。これらの要素はソフトウェアで実現される。

メモリ２０２には、無線通信部２１０と情報提供部２２０としてコンピュータを機能させるための無線通信プログラムが記憶されている。さらに、メモリ２０２には、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）が記憶されている。
プロセッサ２０１は、ＯＳを実行しながら、無線通信プログラムを実行する。
無線通信プログラムを実行して得られるデータは、メモリ２０２、プロセッサ２０１内のレジスタ、または、プロセッサ２０１内のキャッシュメモリに記憶される。
メモリ２０２は記憶部２９０として機能する。

無線通信装置２００は、プロセッサ２０１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ２０１の役割を分担する。

無線通信プログラムは、光ディスクまたはフラッシュメモリ等の不揮発性の記録媒体にコンピュータ読み取り可能に記録（格納）することができる。

図３に基づいて、無線通信装置３００の構成を説明する。
無線通信装置３００は、プロセッサ３０１とメモリ３０２と有線インタフェース３０３と無線インタフェース３０４と無線アンテナ３０５といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。

プロセッサ３０１は、演算処理を行うＩＣであり、他のハードウェアを制御する。例えば、プロセッサ３０１はＣＰＵ、ＤＳＰまたはＧＰＵである。
メモリ３０２は記憶装置である。例えば、メモリ３０２は、ＲＡＭ、ＲＯＭ、ＨＤＤ、フラッシュメモリまたはこれらの組み合わせである。
有線インタフェース３０３は、有線通信を行うためのインタフェースである。有線インタフェース３０３には有線ケーブルが接続される。例えば、有線インタフェース３０３は、通信チップまたはＮＩＣである。
無線インタフェース３０４は、無線通信を行うためのインタフェースである。無線インタフェース３０４には無線アンテナ２０５が接続される。例えば、無線インタフェース３０４は、通信チップまたはＮＩＣである。
無線アンテナ３０５は、無線通信のためのアンテナである。
無線通信装置３００は、無線インタフェース３０４と無線アンテナ３０５とを用いて、無線通信を行う。

無線通信装置３００は、行動価値取得部３１０と通信経路制御部３２０と無線通信部３３０といった要素を備える。これらの要素はソフトウェアで実現される。

メモリ３０２には、行動価値取得部３１０と通信経路制御部３２０と無線通信部３３０としてコンピュータを機能させるための無線通信プログラムが記憶されている。さらに、メモリ３０２にはＯＳが記憶されている。
プロセッサ３０１は、ＯＳを実行しながら、無線通信プログラムを実行する。
無線通信プログラムを実行して得られるデータは、メモリ３０２、プロセッサ３０１内のレジスタ、または、プロセッサ３０１内のキャッシュメモリに記憶される。
メモリ３０２は記憶部３９０として機能する。

無線通信装置３００は、プロセッサ３０１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ３０１の役割を分担する。

＊＊＊動作の説明＊＊＊
無線通信システム１００の動作は無線通信方法に相当する。また、無線通信方法の手順は無線通信プログラムの手順に相当する。

無線通信システム１００には、経路制御のために強化学習が適用される。
強化学習は、環境に行動が与える相互作用に対して適切な行動を学習することによって、将来的に得られる報酬を最大にするための方法である。強化学習は機械学習の一種である。
行動する主体を「エージェント（ａｇｅｎｔ）」と呼ぶ。無線通信システム１００では、各無線通信装置がエージェントとなる。
はたらきかけられる対象を「環境（ｅｎｖｉｒｏｎｍｅｎｔ）」と呼ぶ。
エージェントが現在の状態（ｓｔａｔｅ）において環境に行うはたらきかけを「行動（ａｃｔｉｏｎ）」と呼ぶ。
現在の状態における行動の結果の良さを比較する指標を「報酬（ｒｅｗａｒｄ）」と呼ぶ。
エージェントは、報酬に基づいて、周囲環境に適した行動を学習する。

強化学習の代表的な手法として、Ｑ学習（Ｑ−Ｌｅａｒｎｉｎｇ）およびＴＤ学習（ＴＤ−Ｌｅａｒｎｉｎｇ）が知られている。
実施の形態１では、Ｑ学習を具体例にして強化学習の説明を行う。但し、強化学習として、Ｑ学習以外の手法を採用してもよい。

図４に基づいて、無線通信方法（経路選択）を説明する。
無線通信方法（経路選択）は、経路選択のために強化学習を適用して、無線通信を行う方法である。

経路選択用の閾値を「評価閾値」と呼ぶ。評価閾値は、経路選択アルゴリズムで使用される。
経路選択のための強化学習における状態は、評価閾値である。
経路選択のための強化学習における行動は、評価閾値の調整（上げ下げ）である。

ステップＳ１１０において、親機と子機との間で無線通信が行われる。
具体的には、子機の無線通信部３３０は、前回の経路選択処理（Ｓ１３０）で選択された通信経路を介して、親機との無線通信を行う。無線通信では無線フレームが通信される。親機は子機の通信相手である。

ステップＳ１２０において、親機は、経路選択用の行動価値情報を子機に提供する。
経路選択用の行動価値情報は、経路選択のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。

図５に基づいて、親機処理（Ｓ１２０）の手順を説明する。
ステップＳ１２１において、情報提供部２２０は、提供タイミングを検出する。
提供タイミングは、経路選択用の行動価値情報を提供するタイミングである。

具体的には、情報提供部２２０は、前回の提供タイミングからの一定周期の経過を検出する。一定周期は適宜に決定される。無線通信システム１００が工場内の電力状況監視システムに適用する場合、例えば、３分が一定周期に決定される。

ステップＳ１２２において、情報提供部２２０は、親機と子機との間の無線通信の通信品質値を算出する。
通信品質値は、無線通信の通信品質を表す値である。

具体的には、情報提供部２２０は、ＰＥＲと伝送遅延時間とを算出する。ＰＥＲは、ＰａｃｋｅｔＥｒｒｏｒＲａｔｅの略称である。
ＰＥＲと伝送遅延時間とのそれぞれは従来方法で算出される。

ステップＳ１２３において、情報提供部２２０は、算出された通信品質値に基づいて、経路選択のための強化学習における報酬を算出する。

例えば、情報提供部２２０は、式（１）を計算することによって、報酬を算出する。
「ｒ」は、報酬である。
「Ａ」は、ＰＥＲである。
「Ｂ」は、伝送遅延時間である。
「β」は、パラメータ値である。パラメータ値βは、ユーザによって予め決められる。具体的には、パラメータ値βは０以上１以下の範囲から選択される。例えば、伝送遅延時間が短い通信経路を選択するため伝送遅延時間のみを考慮した場合、ユーザは、パラメータ値βとして「０」を選択する。
「δ」は、パラメータ値である。パラメータ値δは、ユーザによって予め決められる。具体的には、パラメータ値δは０以上１以下の範囲から選択される。例えば、伝送遅延時間が短い通信経路を選択するため伝送遅延時間のみを考慮した場合、ユーザは、パラメータ値δとして「１」を選択する。

ステップＳ１２４において、情報提供部２２０は、算出された報酬を子機へ送信する。送信される報酬が行動価値情報である。
具体的には、情報提供部２２０は、報酬が設定された通信フレームを子機へ送信する。送信された通信フレームは、１つ以上の中継機を介して子機へ到達する。

図４に戻り、ステップＳ１３０を説明する。
ステップＳ１３０において、子機は、経路選択用の行動価値情報に基づいて、通信経路を選択する。
ステップＳ１３０の後、選択された通信経路を介して、親機と子機との間で無線通信が行われる。

具体的には、子機は次のように動作する。
行動価値取得部３１０は、経路選択用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部３２０は、取得された行動価値に基づいて、経路選択用の行動価値テーブルを更新する。経路選択用の行動価値テーブルは、評価閾値と調整方法との組毎の行動価値を示す。そして、通信経路制御部３２０は、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する。
無線通信部３３０は、選択された通信経路を介して、親機との無線通信を行う。

図６に基づいて、子機処理（Ｓ１３０）の手順を説明する。
ステップＳ１３１において、行動価値取得部３１０は、経路選択のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。
具体的には、行動価値取得部３１０は、報酬が設定された通信フレームを受信する。

ステップＳ１３２において、行動価値取得部３１０は、受信された報酬に基づいて、経路選択のための強化学習における行動価値を算出する。
具体的には、行動価値取得部３１０は、Ｑ学習におけるＱ値を算出する。算出されるＱ値が行動価値である。

例えば、行動価値取得部３１０は、式（２）を計算することによって、Ｑ値を算出する。
「Ｓ_ｔ」は、時刻ｔにおける環境の状態を表す。
「ａ_ｔ」は、時刻ｔにおける行動を表す。
「Ｑ（Ｓｔ，ａｔ）」は、状態Ｓ_ｔにおける行動ａ_ｔの価値である。
「Ｓ_ｔ＋１」は、行動ａ_ｔ後の環境の状態を表す。行動ａ_ｔにより、状態は、「Ｓ_ｔ」から「Ｓ_ｔ＋１」に遷移する。
「ｒ_ｔ＋１」は、状態Ｓ_ｔ＋１への遷移による報酬を表す。
「γ」は、割引率と呼ばれるパラメータ値である。割引率γは、ユーザによって予め決められる。具体的には、割引率γは０＜γ≦１の範囲から選択される。
「ｍａｘＱ（Ｓ_ｔ＋１，ａ）」は、状態Ｓ_ｔ＋１における行動ａによって得られる最大価値である。行動ａは、状態Ｓ_ｔ＋１において価値が最大になる行動である。ｍａｘＱ（Ｓ_ｔ＋１，ａ）は、行動価値テーブルから選択される。
「α」は、学習係数である。学習係数αは、ユーザによって予め決められる。具体的には、学習係数αは０＜α≦１の範囲から選択される。

式（２）を計算することにより、状態Ｓ_ｔにおける行動ａ_ｔによって得られた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動ａ_ｔの行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）が更新される。
状態Ｓ_ｔにおける行動ａ_ｔの行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）よりも「報酬ｒ_ｔ＋１」＋「行動ａ」による次の状態における最良の行動「ｍａｘａ」の評価値Ｑ（Ｓｔ＋１，ｍａｘａｔ＋１）の方が大きければ、Ｑ（Ｓ_ｔ，ａ_ｔ）が大きくなる。反対に小さければＱ（Ｓ_ｔ，ａ_ｔ）も小さくなる。つまり、ある状態におけるある行動の価値を結果として即時帰ってくる報酬を、その行動による次の状態における最良の行動の価値に近づけるようにしている。

図７に基づいて、行動価値テーブル３９１を説明する。
行動価値テーブル３９１は、経路選択のための強化学習において使用される行動価値テーブルである。
行動価値テーブル３９１は、評価閾値と調整方法との組毎の行動価値Ｑを示す。
具体的な評価閾値は、通信経路別の受信信号強度と比較される値である。受信信号強度は、フレームが受信された際の信号強度である。つまり、具体的な評価閾値は信号強度である。「ｄＢｍ」は信号強度の単位である。
具体的な調整方法は、評価閾値を上げる、評価閾値を下げる、または、評価閾値を変えないである。つまり、調整方法は３次元の行動である。
Ｑ（Ｓ_＿ｎ，↑）は、状態Ｓ_＿ｎにおいて評価閾値を上げた場合の行動価値である。
Ｑ（Ｓ_＿ｎ，↓）は、状態Ｓ_＿ｎにおいて評価閾値を下げた場合の行動価値である。
Ｑ（Ｓ_＿ｎ，→）は、状態Ｓ_＿ｎにおいて評価閾値を変えない場合の行動価値である。

上記式（２）におけるｍａｘＱ（Ｓ_ｔ＋１，ａ）は、行動価値テーブル３９１から選択される。
具体的には、通信経路制御部３２０は、行動価値テーブル３９１から、Ｑ（Ｓ_ｔ＋１，↑）とＱ（Ｓ_ｔ＋１，↓）とＱ（Ｓ_ｔ＋１，→）との３つの行動価値Ｑを抽出する。そして、通信経路制御部３２０は、抽出された３つの行動価値Ｑから、最大の行動価値Ｑを選択する。選択される行動価値ＱがｍａｘＱ（Ｓ_ｔ＋１，ａ）である。

図６に戻り、ステップＳ１３３から説明を続ける。
ステップＳ１３３において、通信経路制御部３２０は、算出された行動価値に基づいて、行動価値テーブル３９１を更新する。

具体的には、通信経路制御部３２０は、算出された行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）に基づいて、行動価値テーブル３９１を次のように更新する。
まず、通信経路制御部３２０は、行動価値テーブル３９１から、行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）を選択する。
そして、通信経路制御部３２０は、選択された行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）を、算出された行動価値Ｑ（Ｓ_ｔ，ａ_ｔ）で上書きする。

ステップＳ１３４において、通信経路制御部３２０は、評価閾値を調整する。

図８に基づいて、閾値調整処理（Ｓ１３４）の手順を説明する。
ステップＳ１３４１において、通信経路制御部３２０は、行動価値テーブル３９１に基づく閾値調整を行うか否かをランダムに選択する。
例えば、Ｅｐｓｉｌｏｎ−Ｇｒｅｅｄｙ法のように、「１−ε」でＱ値が最大となる行動（調整方法）を選ぶ、という手法を適用しても良い。「ε」は、パラメータ値である。値εは、ユーザによって予め決められる。具体的には、値εは、０＜ε≦１の範囲から選択される。値εが「０」である場合、必ず、行動価値テーブル３９１に基づいてＱ値が最大となる調整方法が選択される。値εが「１」である場合、必ず、ランダムに調整方法が決定される。
ステップＳ１３４１により、新しい行動による結果が得られるため、強化学習が局所解に陥ることを防ぐことができる。

行動価値テーブル３９１に基づく閾値調整を行うことが選択された場合、処理はステップＳ１３４２に進む。
行動価値テーブル３９１に基づく閾値調整を行わないことが選択された場合、処理はステップＳ１３４３に進む。

ステップＳ１３４２において、通信経路制御部３２０は、行動価値テーブル３９１に基づいて、調整方法を選択する。

具体的には、通信経路制御部３２０は、調整方法を次のように選択する。
まず、通信経路制御部３２０は、行動価値テーブル３９１から、調整方法毎に前回の評価閾値と調整方法との組の行動価値を選択する。これにより、複数の調整方法に対応する複数の行動価値が選択される。
次に、通信経路制御部３２０は、選択された複数の行動価値から、最大の行動価値を選択する。
そして、通信経路制御部３２０は、選択された最大の行動価値に対応する調整方法を選択する。

ステップＳ１３４３において、通信経路制御部３２０は、ランダムに調整方法を選択する。

ステップＳ１３４４において、通信経路制御部３２０は、選択された調整方法に従って、評価閾値を調整する。

図６に戻り、ステップＳ１３５を説明する。
ステップＳ１３５において、通信経路制御部３２０は、調整後の評価閾値を用いて、通信経路を選択する。
具体的には、通信経路制御部３２０は、調整後の評価閾値を用いて従来の経路選択アルゴリズムを実行することによって、通信経路を選択する。
例えば、通信経路制御部３２０は、ＩＥＴＦで標準化されているＲＰＬ等の経路選択アルゴリズム（非特許文献１を参照）によって、通信経路を選択する。ＩＥＴＦは、ＩｎｔｅｒｎｅｔＥｎｇｉｎｅｅｒｉｎｇＴａｓｋＦｏｒｃｅの略称である。ＲＰＬは、ＩＰｖ６ＲｏｕｔｉｎｇＰｒｏｔｏｃｏｌｆｏｒＬｏｗＰｏｗｅｒａｎｄＬｏｓｓｙＮｅｔｗｏｒｋの略称である。
実施の形態１における評価閾値の数は、経路選択アルゴリズムで使用される閾値の数と等しい。

図９に基づいて、無線通信システム１００の動作の具体例を説明する。
ステップＳ１９１１において、子機の通信経路制御部３２０は、無線通信装置３００Ｂを中継する通信経路を選択する。
ステップＳ１９１２において、子機の無線通信部３３０は、無線通信装置３００ＢにＡＰＬデータを送信する。無線通信装置３００Ｂは、ＡＰＬデータを受信し、受信したＡＰＬデータを親機に送信する。そして、親機の無線通信部２１０は、ＡＰＬデータを受信する。ＡＰＬはアプリケーションの略称である。
ステップＳ１９２１において、親機の周期タイマが満了する。
ステップＳ１９２２において、親機の情報提供部２２０は、ＰＥＲと伝送遅延時間とを算出する。
ステップＳ１９２３において、親機の情報提供部２２０は、経路選択のための強化学習における報酬を算出する。
ステップＳ１９２４において、親機の情報提供部２２０は、算出された報酬を子機へ送信する。
ステップＳ１９３１において、子機の行動価値取得部３１０は報酬を受信する。そして、子機の通信経路制御部３２０は、行動価値テーブル３９１に設定されているＱ値を更新する。
ステップＳ１９３２において、子機の通信経路制御部３２０は、行動価値テーブル３９１を参照し、次の評価閾値を決定する。
ステップＳ１９３３において、子機の通信経路制御部３２０は、決定された評価閾値を用いて、通信経路を選択する。これにより、無線通信装置３００Ｄを中継する通信経路が選択された。
ステップＳ１９３４において、子機の無線通信部３３０は、無線通信装置３００ＤにＡＰＬデータを送信する。無線通信装置３００Ｄは、ＡＰＬデータを受信し、受信したＡＰＬデータを親機に送信する。そして、親機の無線通信部２１０は、ＡＰＬデータを受信する。
以後、ステップＳ１９２１からステップＳ１９３４と同様の処理が繰り返される。

＊＊＊実施の形態１の実施例＊＊＊
行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
図１０に基づいて、親機処理（Ｓ１２０）を説明する。
ステップＳ１２１およびステップＳ１２２は、図５に基づいて説明した通りである。
ステップＳ１２３Ａにおいて、情報提供部２２０は、通信品質値を子機へ送信する。送信される通信品質値が行動価値情報である。ステップＳ１２３Ａは図５のステップＳ１２４に相当する。
図１１に基づいて、子機処理（Ｓ１３０）を説明する。
ステップＳ１３１Ａにおいて、行動価値取得部３１０は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップＳ１３１Ａは図６のステップＳ１３１に相当する。
ステップＳ１３２Ａにおいて、行動価値取得部３１０は、受信された通信品質値に基づいて、経路選択のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ１３３ＡからステップＳ１３６Ａは、ステップＳ１３２からステップＳ１３５と同じである（図６参照）。

子機が通信品質値を算出してもよい。この場合、親機の情報提供部２２０は不要である。子機が通信品質値を算出する場合について、以下に説明する。
図１２に基づいて、無線通信方法（経路選択）を説明する。
ステップ１１０は、図４に基づいて説明した通りである。
ステップＳ１２０Ｂにおいて、子機は通信経路を選択する。ステップＳ１２０Ｂは、ステップＳ１３０に相当する（図４参照）。
図１３に基づいて、子機処理（Ｓ１２０Ｂ）の手順を説明する。
ステップＳ１２１Ｂにおいて、行動価値取得部３１０は、取得タイミングを検出する。取得タイミングは、ステップＳ１２１における提供タイミングに相当する（図５参照）。
ステップＳ１２２Ｂにおいて、行動価値取得部３１０は、通信品質値を算出する。算出方法は、ステップＳ１２２における方法と同じである（図５参照）。
ステップＳ１２３Ｂにおいて、行動価値取得部３１０は、算出された通信品質値に基づいて、経路選択のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ１２４ＢからステップＳ１２７Ｂは、ステップＳ１３２からステップＳ１３５と同じである（図６参照）。

＊＊＊実施の形態１の効果＊＊＊
実施の形態１では、閾値の決定方法に学習が用いられ、無線機が自動で閾値を決定する。これにより、人手で行われていたパラメータチューニングが不要となるため、システムインテグレータに対する人件費を削減することが可能となる。また、実施の形態１では、無線機毎に設置環境に適した閾値が決定される。これにより、過剰に中継を行う無線機が削減され、伝送遅延が小さくなる。もしくは、中継回数が不足している無線機が削減され、ＰＥＲが低くなる。

＊＊＊実施の形態１の補足＊＊＊
強化学習について補足する。
基本的には、行動が引き起こす結果を全く知らない状態から学習をスタートする。しかし、学習時間を考慮して学習をスタートしてもよい。例えば、現実的に有り得る値のみを探索させるなどによって、良いスタート地点から学習をスタートさせることもできる。もしくは、探索を行っていない行動に対しては、関数近似によって補間することもできる。また、評価閾値の変更幅は、−１ｄＢｍに固定してもよいし、可変にしてもよい。

実施の形態２．
制御フレームの送信間隔を調整するために強化学習を適用する形態について、主に実施の形態１と異なる点を図１４から図２０に基づいて説明する。

＊＊＊構成の説明＊＊＊
無線通信システム１００の構成は、実施の形態１における構成と同じである（図１から図３を参照）。

＊＊＊動作の説明＊＊＊
図１４に基づいて、無線通信方法（間隔調整）を説明する。
無線通信方法（間隔調整）は、制御フレームの送信間隔を調整するために強化学習を適用して、無線通信を行う方法である。
制御フレームは、通信経路を更新するために通信されるフレームである。
制御フレームの送信間隔は、制御フレームが送信される時間間隔である。

ＲＰＬでは、無線通信装置間で制御フレームを定期的に通信することによって、通信経路の更新が行われる。制御フレームには、経路評価値を示すランクが設定される。ランクは、ホップ数および受信信号強度などの情報に基づいて算出される。受信信号強度は、フレームが受信された際の信号強度である。

ステップＳ２１０において、親機と子機との間で無線通信が行われる。
例えば、親機と子機との間で制御フレームが定期的に通信される。そして、通信された制御フレームに基づいて、親機と子機との間の通信経路が更新される。更新方法は、ＲＰＬなどの従来技術における方法である。

ステップＳ２２０において、親機は、間隔調整用の行動価値情報を子機に提供する。
間隔調整用の行動価値情報は、間隔調整のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
親機処理（Ｓ２２０）の手順は、親機処理（Ｓ１２０）の手順と同じである。

ステップＳ２３０において、子機は、間隔調整用の行動価値情報に基づいて、制御フレームの送信間隔を調整する。
ステップＳ２３０の後、調整後の送信間隔で制御フレームが送信される。

具体的には、子機は次のように動作する。
行動価値取得部３１０は、間隔調整用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部３２０は、取得された行動価値に基づいて、間隔調整用の行動価値テーブルを更新する。間隔調整用の行動価値テーブルは、送信間隔と調整方法との組毎の行動価値を示す。そして、通信経路制御部３２０は、更新後の行動価値テーブルに基づいて制御フレームの送信間隔を調整する。
無線通信部３３０は、調整後の送信間隔で制御フレームを送信する。

図１５に基づいて、子機処理（Ｓ２３０）の手順を説明する。
ステップＳ２３１において、行動価値取得部３１０は、間隔調整のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。

ステップＳ２３２において、行動価値取得部３１０は、受信された報酬に基づいて、間隔調整のための強化学習における行動価値を算出する。
算出方法は、ステップＳ１３２における方法と同じである（図６参照）。但し、強化学習における状態は制御フレームの送信間隔であり、強化学習における行動は送信間隔の調整である。また、行動価値テーブル３９１の代わりに行動価値テーブル３９２が用いられる。

ステップＳ２３３において、通信経路制御部３２０は、算出された行動価値に基づいて、行動価値テーブル３９２を更新する。
更新方法は、ステップＳ１３３における方法と同じである（図６参照）。

図１６に基づいて、行動価値テーブル３９２を説明する。
行動価値テーブル３９２は、間隔調整のための強化学習において使用される行動価値テーブルである。
行動価値テーブル３９２は、送信間隔と調整方法との組毎の行動価値Ｑを示す。
送信間隔の「ｓｅｃ」は「秒」を意味する。送信間隔は、６０ｓｅｃ、１２０ｓｅｃおよび１８０ｓｅｃ以外の時間であってもよい。
具体的な調整方法は、送信間隔を延ばす、送信間隔を縮める、または、送信間隔を変えないである。
Ｑ（Ｓ_ｎ，↑）は、状態Ｓ_ｎにおいて送信間隔を延ばした場合の行動価値である。
Ｑ（Ｓ_ｎ，↓）は、状態Ｓ_ｎにおいて送信間隔を縮めた場合の行動価値である。
Ｑ（Ｓ_ｎ，→）は、状態Ｓ_ｎにおいて送信間隔を変えない場合の行動価値である。
状態Ｓ_ｎは、制御フレームの送信間隔がｎ秒であるという状態である。

図１５に戻り、ステップＳ２３４を説明する。
ステップＳ２３４において、通信経路制御部３２０は、制御フレームの送信間隔を調整する。

図１７に基づいて、間隔調整処理（Ｓ２３４）の手順を説明する。
ステップＳ２３４１において、通信経路制御部３２０は、行動価値テーブル３９２に基づく間隔調整を行うか否かをランダムに選択する。
選択方法は、ステップＳ１３４１における方法と同じである（図８参照）。

行動価値テーブル３９２に基づく間隔調整を行うことが選択された場合、処理はステップＳ２３４２に進む。
行動価値テーブル３９２に基づく間隔調整を行わないことが選択された場合、処理はステップＳ２３４３に進む。

ステップＳ２３４２において、通信経路制御部３２０は、行動価値テーブル３９２に基づいて、調整方法を選択する。
選択方法は、ステップＳ１３４２における方法と同じである（図８参照）。但し、評価閾値が制御フレームの送信間隔に置き換わり、評価閾値の調整が送信間隔の調整に置き換わる。

ステップＳ２３４３において、通信経路制御部３２０は、ランダムに調整方法を選択する。

ステップＳ２３４４において、通信経路制御部３２０は、選択された調整方法に従って、制御フレームの送信間隔を調整する。

＊＊＊実施の形態２の実施例＊＊＊
実施の形態１の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理（Ｓ２２０）は、図１０の親機処理（Ｓ１２０）と同じである。
図１８に基づいて、子機処理（Ｓ２３０）を説明する。
ステップＳ２３１Ａにおいて、行動価値取得部３１０は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップＳ２３１Ａは図１５のステップＳ２３１に相当する。
ステップＳ２３２Ａにおいて、行動価値取得部３１０は、受信された通信品質値に基づいて、間隔調整のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ２３３ＡからステップＳ２３５Ａは、ステップＳ２３２からステップＳ２３４と同じである（図１５参照）。

実施の形態１の実施例と同じく、子機が通信品質値を算出してもよい。この場合、親機の情報提供部２２０は不要である。子機が通信品質値を算出する場合について、以下に説明する。
図１９に基づいて、無線通信方法（間隔調整）を説明する。
ステップ２１０は、図１４に基づいて説明した通りである。
ステップＳ２２０Ｂにおいて、子機は、制御フレームの送信間隔を調整する。ステップＳ２２０Ｂは、ステップＳ２３０に相当する（図１４参照）。
図２０に基づいて、子機処理（Ｓ２２０Ｂ）の手順を説明する。
ステップＳ２２１Ｂにおいて、行動価値取得部３１０は、取得タイミングを検出する。取得タイミングは、ステップＳ１２１における提供タイミングに相当する（図５参照）。
ステップＳ２２２Ｂにおいて、行動価値取得部３１０は、通信品質値を算出する。算出方法は、ステップＳ１２２における方法と同じである（図５参照）。
ステップＳ２２３Ｂにおいて、行動価値取得部３１０は、算出された通信品質値に基づいて、間隔調整のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ２２４ＢからステップＳ２２６Ｂは、ステップＳ２３２からステップＳ２３４と同じである（図１５参照）。

＊＊＊実施の形態２の効果＊＊＊
実施の形態２により、制御フレームの送信間隔を子機の周囲環境に適した値に変更することができる。そして、通信帯域の利用効率が最適化される。具体的には、過剰に送信される制御フレームが帯域を占有することによって本来送りたいアプリケーションデータが送れない無線機、を削減することが可能となる。その結果、伝送遅延が小さくなる。もしくは、制御フレームの送信間隔が長すぎて周囲環境の変化に追従できない無線機、を削減することが可能となる。その結果、無線誤りを軽減することができる。

実施の形態３．
通信経路における先頭の中継機を選択するために強化学習を適用する形態について、主に実施の形態１および実施の形態２と異なる点を図２１から図２７に基づいて説明する。

＊＊＊動作の説明＊＊＊
図２１に基づいて、無線通信方法（中継機選択）を説明する。
無線通信方法（中継機選択）は、中継機選択のために強化学習を適用して、無線通信を行う方法である。

ステップＳ３１０において、親機と子機との間で無線通信が行われる。
具体的には、子機の無線通信部３３０は、前回の中継機選択処理（Ｓ３３０）で選択された中継機を介して、親機との無線通信を行う。

ステップＳ３２０において、親機は、中継機選択用の行動価値情報を子機に提供する。
中継機選択用の行動価値情報は、中継機選択のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
親機処理（Ｓ３２０）の手順は、親機処理（Ｓ１２０）の手順と同じである。

ステップＳ３３０において、子機は、中継機選択用の行動価値情報に基づいて、中継機を選択する。
ステップＳ３３０の後、子機は、選択された中継機を介して、親機との無線通信を行う。

具体的には、子機は次のように動作する。
行動価値取得部３１０は、中継機選択用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部３２０は、取得された行動価値に基づいて、中継機選択用の行動価値テーブルを更新する。中継機選択用の行動価値テーブルは、前回の中継機と次回の中継機の候補との組毎の行動価値を示す。そして、通信経路制御部３２０は、更新後の行動価値テーブルに基づいて、次回の中継機を選択する。
無線通信部３３０は、選択された中継機を介して、親機との無線通信を行う。

図２２に基づいて、子機処理（Ｓ３３０）の手順を説明する。
ステップＳ３３１において、行動価値取得部３１０は、中継機選択のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。

ステップＳ３３２において、行動価値取得部３１０は、受信された報酬に基づいて、中継機選択のための強化学習における行動価値を算出する。
算出方法は、ステップＳ１３２における方法と同じである（図６参照）。但し、強化学習における状態は前回の中継機であり、強化学習における行動は中継機の選択である。また、行動価値テーブル３９１の代わりに行動価値テーブル３９３が用いられる。

ステップＳ３３３において、通信経路制御部３２０は、算出された行動価値に基づいて、行動価値テーブル３９３を更新する。
更新方法は、ステップＳ１３３における方法と同じである（図６参照）。

図２３に基づいて、行動価値テーブル３９３を説明する。
行動価値テーブル３９３は、中継機選択のための強化学習において使用される行動価値テーブルである。
行動価値テーブル３９３は、前回の中継機と次回以降の中継機の候補との組毎の行動価値Ｑを示す。
Ｑ（Ｓ_Ｘ，ａ_Ｙ）は、状態Ｓ_Ｘにおいて行動ａ_Ｙが行われた場合の行動価値である。
状態Ｓ_ｘは、前回の中継機が無線通信装置３００Ｘであるという状態である。
行動ａ_Ｙは、無線通信装置３００Ｙを中継機として選択することである。

図２２に戻り、ステップＳ３３４を説明する。
ステップＳ３３４において、通信経路制御部３２０は、次回以降の中継機を選択する。

図２４に基づいて、中継機選択処理（Ｓ３３４）の手順を説明する。
ステップＳ３３４１において、通信経路制御部３２０は、行動価値テーブル３９３に基づく中継機選択を行うか否かをランダムに選択する。
選択方法は、ステップＳ１３４１における方法と同じである（図８参照）。

行動価値テーブル３９３に基づく中継機選択を行うことが選択された場合、処理はステップＳ３３４２に進む。
行動価値テーブル３９３に基づく中継機選択を行わないことが選択された場合、処理はステップＳ３３４３に進む。

ステップＳ３３４２において、通信経路制御部３２０は、行動価値テーブル３９３に基づいて、次回以降の中継機を選択する。
選択方法は、ステップＳ１３４２における方法と同じである（図８参照）。但し、評価閾値が前回の中継機に置き換わり、評価閾値の調整が中継機の選択に置き換わる。

ステップＳ３３４３において、通信経路制御部３２０は、ランダムに次回以降の中継機を選択する。

＊＊＊実施の形態３の実施例＊＊＊
実施の形態１の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理（Ｓ３２０）は、図１０の親機処理（Ｓ１２０）と同じである。
図２５に基づいて、子機処理（Ｓ３３０）を説明する。
ステップＳ３３１Ａにおいて、行動価値取得部３１０は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップＳ３３１Ａは図２２のステップＳ３３１に相当する。
ステップＳ３３２Ａにおいて、行動価値取得部３１０は、受信された通信品質値に基づいて、中継機選択のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ３３３ＡおよびステップＳ３３４Ａは、ステップＳ３３２およびステップＳ３３３と同じである（図２２参照）。

実施の形態１の実施例と同じく、子機が通信品質値を算出してもよい。この場合、親機の情報提供部２２０は不要である。子機が通信品質値を算出する場合について、以下に説明する。
図２６に基づいて、無線通信方法（間隔調整）を説明する。
ステップ３１０は、図２１に基づいて説明した通りである。
ステップＳ３２０Ｂにおいて、子機は、中継機を選択する。ステップＳ３２０Ｂは、ステップＳ３３０に相当する（図２１参照）。
図２７に基づいて、子機処理（Ｓ３２０Ｂ）の手順を説明する。
ステップＳ３２１Ｂにおいて、行動価値取得部３１０は、取得タイミングを検出する。取得タイミングは、ステップＳ１２１における提供タイミングに相当する（図５参照）。
ステップＳ３２２Ｂにおいて、行動価値取得部３１０は、通信品質値を算出する。算出方法は、ステップＳ３２２における方法と同じである（図５参照）。
ステップＳ３２３Ｂにおいて、行動価値取得部３１０は、算出された通信品質値に基づいて、中継機選択のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ３２４ＢからステップＳ３２６Ｂは、ステップＳ３３２からステップＳ３３４と同じである（図２２参照）。

＊＊＊実施の形態３の効果＊＊＊
実施の形態３では、閾値を用いずに、既存パラメータ以外の要因も考慮して、環境に適した接続先（中継機）の判定を行うことが可能となる。また、複雑な経路制御アルゴリズムの実装が不要となるため、プログラムのメモリが削減され、無線通信装置を小型化および低コスト化することが可能となる。

実施の形態４．
伝送レートを調整するために強化学習を適用する形態について、主に実施の形態１から実施の形態３と異なる点を図２８から図３５に基づいて説明する。

＊＊＊構成の説明＊＊＊
無線通信システム１００の構成は、実施の形態１における構成と同じである（図１参照）。
無線通信装置２００の構成は、実施の形態１における構成と同じである（図２参照）。

図２８に基づいて、無線通信装置３００の構成を説明する。
無線通信装置３００は、さらに、伝送レート制御部３４０という要素を備える。伝送レート制御部３４０は、ソフトウェアによって実現される。
無線通信プログラムは、さらに、伝送レート制御部３４０としてコンピュータを機能させる。

＊＊＊動作の説明＊＊＊
図２９に基づいて、無線通信方法（レート調整）を説明する。
無線通信方法（レート調整）は、伝送レートを調整するために強化学習を適用して、無線通信を行う方法である。

ステップＳ４１０において、親機と子機との間で無線通信が行われる。
具体的には、子機の無線通信部３３０は、前回のレート調整処理（Ｓ４３０）で調整された伝送レートで、親機との無線通信を行う。

ステップＳ４２０において、親機は、レート調整用の行動価値情報を子機に提供する。
レート調整用の行動価値情報は、レート調整のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
ステップＳ４２０の手順は、ステップＳ１２０、ステップＳ２２０またはステップＳ３２０の手順と同じである。

ステップＳ４３０において、子機は、レート調整用の行動価値情報に基づいて、伝送レートを調整する。
ステップＳ４３０の後、子機は、調整後の伝送レートで、親機との無線通信を行う。

具体的には、子機は次のように動作する。
行動価値取得部３１０は、レート調整用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部３２０は、取得された行動価値に基づいて、レート調整用の行動価値テーブルを更新する。レート制御用の行動価値テーブルは、伝送レートと調整方法との組毎の行動価値を示す。そして、通信経路制御部３２０は、更新後の行動価値テーブルに基づいて、伝送レートを調整する。
無線通信部３３０は、調整後の伝送レートで、親機との無線通信を行う。

図３０に基づいて、子機処理（Ｓ４３０）の手順を説明する。
ステップＳ４３１において、行動価値取得部３１０は、レート調整のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。

ステップＳ４３２において、行動価値取得部３１０は、受信された報酬に基づいて、レート調整のための強化学習における行動価値を算出する。
算出方法は、ステップＳ１３２における方法と同じである（図６参照）。但し、強化学習における状態は伝送レートであり、強化学習における行動は伝送レートの調整である。また、行動価値テーブル３９１の代わりに行動価値テーブル３９４が用いられる。

ステップＳ４３３において、通信経路制御部３２０は、算出された行動価値に基づいて、行動価値テーブル３９４を更新する。
更新方法は、ステップＳ１３３における方法と同じである（図６参照）。

図３１に基づいて、行動価値テーブル３９４を説明する。
行動価値テーブル３９４は、レート調整のための強化学習において使用される行動価値テーブルである。
行動価値テーブル３９４は、伝送レートと調整方法との組毎の行動価値Ｑを示す。
具体的な調整方法は、伝送レートを上げる、伝送レートを下げる、または、伝送レートを変えないである。
Ｑ（Ｓ_ｎ，↑）は、状態Ｓ_ｎにおいて伝送レートを上げた場合の行動価値である。
Ｑ（Ｓ_ｎ，↓）は、状態Ｓ_ｎにおいて伝送レートを下げた場合の行動価値である。
Ｑ（Ｓ_ｎ，→）は、状態Ｓ_ｎにおいて伝送レートを変えない場合の行動価値である。
状態Ｓ_ｎは、伝送レートがｎＭｂｐｓであるという状態である。

図３０に戻り、ステップＳ４３４を説明する。
ステップＳ４３４において、通信経路制御部３２０は、伝送レートを選択する。

図３２に基づいて、レート調整処理（Ｓ４３４）の手順を説明する。
ステップＳ４３４１において、通信経路制御部３２０は、行動価値テーブル３９４に基づくレート調整を行うか否かをランダムに選択する。
選択方法は、ステップＳ１３４１における方法と同じである（図８参照）。

行動価値テーブル３９４に基づくレート調整を行うことが選択された場合、処理はステップＳ４３４２に進む。
行動価値テーブル３９４に基づく間隔調整を行わないことが選択された場合、処理はステップＳ４３４３に進む。

ステップＳ４３４２において、通信経路制御部３２０は、行動価値テーブル３９４に基づいて、調整方法を選択する。
選択方法は、ステップＳ１３４２における方法と同じである（図８参照）。但し、評価閾値が伝送レートに置き換わり、評価閾値の調整が伝送レートの調整に置き換わる。

ステップＳ４３４３において、通信経路制御部３２０は、ランダムに調整方法を選択する。

ステップＳ４３４４において、通信経路制御部３２０は、選択された調整方法に従って、伝送レートを調整する。

＊＊＊実施の形態４の実施例＊＊＊
実施の形態１の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理（Ｓ４２０）は、図１０の親機処理（Ｓ１２０）と同じである。
図３３に基づいて、子機処理（Ｓ４３０）を説明する。
ステップＳ４３１Ａにおいて、行動価値取得部３１０は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップＳ４３１Ａは図３０のステップＳ４３１に相当する。
ステップＳ４３２Ａにおいて、行動価値取得部３１０は、受信された通信品質値に基づいて、レート調整のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ４３３ＡからステップＳ４３５Ａは、ステップＳ４３２からステップＳ４３４と同じである（図３０参照）。

実施の形態１の実施例と同じく、子機が通信品質値を算出してもよい。この場合、親機の情報提供部２２０は不要である。子機が通信品質値を算出する場合について、以下に説明する。
図３４に基づいて、無線通信方法（レート調整）を説明する。
ステップ４１０は、図２９に基づいて説明した通りである。
ステップＳ４２０Ｂにおいて、子機は、伝送レートを調整する。ステップＳ４２０Ｂは、ステップＳ４３０に相当する（図２９参照）。
図３５に基づいて、子機処理（Ｓ４２０Ｂ）の手順を説明する。
ステップＳ４２１Ｂにおいて、行動価値取得部３１０は、取得タイミングを検出する。取得タイミングは、ステップＳ１２１における提供タイミングに相当する（図５参照）。
ステップＳ４２２Ｂにおいて、行動価値取得部３１０は、通信品質値を算出する。算出方法は、ステップＳ１２２における方法と同じである（図５参照）。
ステップＳ４２３Ｂにおいて、行動価値取得部３１０は、算出された通信品質値に基づいて、レート調整のための強化学習における報酬を算出する。算出方法は、ステップＳ１２３における方法と同じである（図５参照）。
ステップＳ４２４ＢからステップＳ４２６Ｂは、ステップＳ４３２からステップＳ４３４と同じである（図３０参照）。

＊＊＊実施の形態４の効果＊＊＊
通信品質に応じて適用的に変調方式と符号化方式とを変更する適用変調符号化技術（ＡＭＣ：ＡｄａｐｔｉｖｅＭｏｄｕｌａｔｉｏｎａｎｄＣｏｒｄｉｎｇ）が広く用いられている。
例えば、ＩＥＥＥ８０２．１１ａ無線ＬＡＮの伝送レートは、変調方式と符号化率とによって決定される。また、伝送レートとして、５４、４８、３６、２４、１８、１２、９、６Ｍｂｐｓの８つの伝送レートが定義されている。伝送レートが高いと雑音レベルが高くなってしまうため、誤りが発生してしまう可能性がある。また、伝送レートが低い場合はアプリケーションデータを送る帯域が狭いため、遅延が発生してしまう可能性がある。このように伝送レートに調整にはトレードオフがある。伝送レートは無線機が受信した信号の受信信号強度によって適用的に決定される。しかし、無線機の設置環境毎に受信信号強度の変動幅は異なる。そのため、一部の無線機では、誤りが発生してしまう可能性がある。
実施の形態４は、伝送レートの決定に強化学習を適用して、無線機の設置環境毎に適した伝送レートを自動で決定することを目的とする。

無線機の設置環境に応じて通信帯域の利用効率を最適化することができる。具体的には、通信品質が悪いが伝送レートが高い無線機が削減され、無線誤りが小さくなる。もしくは、通信品質が良好な時に伝送レートが低い無線機が削減され、伝送遅延が小さくなる。

実施の形態５．
強化学習の結果を確認する形態について、主に実施の形態１から実施の形態４と異なる点を図３６および図３７に基づいて説明する。

図３６に基づいて、無線通信装置３００の構成を説明する。
無線通信装置３００は、さらに、学習結果確認部３５０という要素を備える。学習結果確認部３５０は、ソフトウェアによって実現される。
無線通信プログラムは、さらに、学習結果確認部３５０としてコンピュータを機能させる。

＊＊＊動作の説明＊＊＊
図３７に基づいて、無線通信方法（学習結果確認）を説明する。
無線通信方法（学習結果確認）は、実施の形態１から実施の形態４における各種の強化学習の結果を確認する方法である。

ステップＳ５０１において、学習結果確認部３５０は、無線通信システム１００の通信品質値を取得する。
無線通信システム１００の通信品質値は、無線通信システム１００の全体の通信品質を表す値である。

学習結果確認部３５０は、無線通信システム１００の通信品質値を次のように取得する。
子機において、学習結果確認部３５０は、要求フレームを親機へ送信する。要求フレームは、無線通信システム１００の通信品質値を要求するためのフレームである。
親機において、無線通信部２１０は要求フレームを受信する。そして、情報提供部２２０は、無線通信システム１００の通信品質値を算出し、応答フレームを子機へ送信する。応答フレームは、無線通信システム１００の通信品質値が設定されたフレームである。具体的には、通信品質値はＰＥＲである。ＰＥＲは従来方法で算出される。
子機において、学習結果確認部３５０は、応答フレームを受信し、受信された応答フレームから無線通信システム１００の通信品質値を取得する。
但し、学習結果確認部３５０は、無線通信システム１００の通信品質値を別の方法で取得してもよい。例えば、学習結果確認部３５０は、無線通信システム１００の通信品質値を算出してもよい。

ステップＳ５０２において、学習結果確認部３５０は、取得された通信品質値に基づいて、無線通信システム１００の通信品質に対する強化学習の影響を判定する。
例えば、無線通信システム１００の全体のＰＥＲが２０［％］よりも大きい場合、学習結果確認部３５０は、強化学習が無線通信システム１００の通信品質に負の影響を与えていると判定する。
強化学習が無線通信システム１００の通信品質に負の影響を与えていると判定された場合、処理はステップＳ５０３に進む。
強化学習が無線通信システム１００の通信品質に負の影響を与えていないと判定された場合、処理は終了する。

ステップＳ５０３において、学習結果確認部３５０は、使用されている行動価値テーブル（３９１〜３９４）を初期化する。
つまり、学習結果確認部３５０は、行動価値テーブルに設定されている各値をデフォルトに戻す。デフォルトとは、パラメータの初期値のことである。パラメータの初期値は記憶部３９０に予め設定されている。無線通信装置３００は、電源が入ると、パラメータの初期値を読み込んで、初期動作を開始する。

複数の行動価値テーブル（３９１〜３９４）が使用されている場合、学習結果確認部３５０は、一部の行動価値テーブルを初期化してもよいし、全ての行動価値テーブルを初期化してもよい。
ステップＳ５０３の後、子機は、強化学習を停止してもよいし、強化学習を継続してもよい。つまり、行動価値テーブルの更新が停止されてもよいし、行動価値テーブルの更新が継続されてもよい。

＊＊＊実施の形態５の効果＊＊＊
実施の形態５により、学習がシステムにマイナスの影響を与えている場合に、システムを元の状態に戻すことができる。

＊＊＊実施の形態の補足＊＊＊
図３８に基づいて、無線通信装置２００のハードウェア構成を説明する。
無線通信装置２００は処理回路２０９を備える。
処理回路２０９は、無線通信部２１０と情報提供部２２０とを実現するハードウェアである。
処理回路２０９は、専用のハードウェアであってもよいし、メモリ２０２に格納されるプログラムを実行するプロセッサ２０１であってもよい。

処理回路２０９が専用のハードウェアである場合、処理回路２０９は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡまたはこれらの組み合わせである。
ＡＳＩＣはＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略称であり、ＦＰＧＡはＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略称である。
無線通信装置２００は、処理回路２０９を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路２０９の役割を分担する。

無線通信装置２００において、一部の機能が専用のハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。

このように、処理回路２０９はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせで実現することができる。

＊＊＊実施の形態の補足＊＊＊
図３９に基づいて、無線通信装置３００のハードウェア構成を説明する。
無線通信装置３００は処理回路３０９を備える。
処理回路３０９は、行動価値取得部３１０と通信経路制御部３２０と無線通信部３３０と伝送レート制御部３４０と学習結果確認部３５０とを実現するハードウェアである。
処理回路３０９は、専用のハードウェアであってもよいし、メモリ３０２に格納されるプログラムを実行するプロセッサ３０１であってもよい。

処理回路３０９が専用のハードウェアである場合、処理回路３０９は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡまたはこれらの組み合わせである。
無線通信装置３００は、処理回路３０９を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路３０９の役割を分担する。

無線通信装置３００において、一部の機能が専用のハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。

各実施の形態において、それぞれの無線通信装置（２００、３００）が子機、中継機および親機として動作してもよい。
つまり、無線通信装置２００が無線通信装置３００の各要素（３１０〜３５０）を備えてもよいし、無線通信装置３００が無線通信装置２００の各要素（２１０、２２０）を備えてもよい。

無線通信装置２００と無線通信装置３００とのそれぞれの要素（２１０、２２０、３１０〜３５０）について、「部」は「処理」または「工程」と読み替えてもよい。

各実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。実施の形態は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。

１００無線通信システム、２００無線通信装置、２０１プロセッサ、２０２メモリ、２０３有線インタフェース、２０４無線インタフェース、２０５無線アンテナ、２０９処理回路、２１０無線通信部、２２０情報提供部、２９０記憶部、３００無線通信装置、３０１プロセッサ、３０２メモリ、３０３有線インタフェース、３０４無線インタフェース、３０５無線アンテナ、３０９処理回路、３１０行動価値取得部、３２０通信経路制御部、３３０無線通信部、３４０伝送レート制御部、３５０学習結果確認部、３９０記憶部、３９１，３９２，３９３，３９４行動価値テーブル。

Claims

経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御部と、
選択された通信経路を介して無線通信を行う無線通信部と、
を備える無線通信装置。
通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項１に記載の無線通信装置。
前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項１に記載の無線通信装置。
前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく閾値調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく閾値調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って前記評価閾値を調整し、
前記更新後の行動価値テーブルに基づく閾値調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って前記評価閾値を調整する
請求項１から請求項３のいずれか１項に記載の無線通信装置。
前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項１から請求項４のいずれか１項に記載の無線通信装置。
前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項１から請求項５のいずれか１項に記載の無線通信装置。
請求項１から請求項６のいずれか１項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御処理と、
選択された通信経路を介して無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。
通信経路を更新するために通信される制御フレームの送信間隔の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、送信間隔と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて送信間隔を調整する通信経路制御部と、
調整後の送信間隔で制御フレームを送信する無線通信部と、
を備える無線通信装置。
通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項９に記載の無線通信装置。
前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項９に記載の無線通信装置。
前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく間隔調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく間隔調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って前記送信間隔を調整し、
前記更新後の行動価値テーブルに基づく間隔調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って前記送信間隔を調整する
請求項９から請求項１１のいずれか１項に記載の無線通信装置。
前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項９から請求項１２のいずれか１項に記載の無線通信装置。
前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項９から請求項１３のいずれか１項に記載の無線通信装置。
請求項９から請求項１４のいずれか１項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
制御フレームの送信間隔の調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、送信間隔と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて送信間隔を調整する通信経路制御処理と、
調整後の送信間隔で制御フレームを送信する無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。
通信経路における先頭の中継機の変更を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、前回の中継機と次回以降の中継機の候補との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて次回以降の中継機を選択する通信経路制御部と、
選択された中継機を介して無線通信を行う無線通信部と、
を備える無線通信装置。
通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項１７に記載の無線通信装置。
前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項１７に記載の無線通信装置。
前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく中継機選択を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく中継機選択を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて中継機を選択し、
前記更新後の行動価値テーブルに基づく中継機選択を行わないことが選択された場合、中継機をランダムに選択する
請求項１７から請求項１９のいずれか１項に記載の無線通信装置。
前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項１７から請求項２０のいずれか１項に記載の無線通信装置。
前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項１７から請求項２１のいずれか１項に記載の無線通信装置。
請求項１７から請求項２２のいずれか１項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
通信経路における先頭の中継機の変更を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、前回の中継機と次回以降の中継機の候補との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて次回以降の中継機を選択する通信経路制御処理と、
選択された中継機を介して無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。
伝送レートの調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整する伝送レート制御部と、
調整後の伝送レートで無線通信を行う無線通信部と、
を備える無線通信装置。
通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項２５に記載の無線通信装置。
前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項２５に記載の無線通信装置。
前記伝送レート制御部は、
前記更新後の行動価値テーブルに基づくレート調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づくレート調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って伝送レートを調整し、
前記更新後の行動価値テーブルに基づくレート調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って伝送レートを調整する
請求項２５から請求項２７のいずれか１項に記載の無線通信装置。
前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項２５から請求項２８のいずれか１項に記載の無線通信装置。
請求項２５から請求項２９のいずれか１項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
伝送レートの調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整する伝送レート制御処理と、
調整後の伝送レートで無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。