JPWO2020110250A1 - 無線通信装置、無線通信システムおよび無線通信プログラム - Google Patents
無線通信装置、無線通信システムおよび無線通信プログラム Download PDFInfo
- Publication number
- JPWO2020110250A1 JPWO2020110250A1 JP2019540022A JP2019540022A JPWO2020110250A1 JP WO2020110250 A1 JPWO2020110250 A1 JP WO2020110250A1 JP 2019540022 A JP2019540022 A JP 2019540022A JP 2019540022 A JP2019540022 A JP 2019540022A JP WO2020110250 A1 JPWO2020110250 A1 JP WO2020110250A1
- Authority
- JP
- Japan
- Prior art keywords
- wireless communication
- action value
- action
- value table
- communication device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 446
- 230000009471 action Effects 0.000 claims abstract description 335
- 238000000034 method Methods 0.000 claims abstract description 173
- 230000013016 learning Effects 0.000 claims abstract description 123
- 230000002787 reinforcement Effects 0.000 claims abstract description 81
- 238000011156 evaluation Methods 0.000 claims abstract description 52
- 230000005540 biological transmission Effects 0.000 claims description 116
- 238000012545 processing Methods 0.000 claims description 73
- 230000008569 process Effects 0.000 claims description 28
- 230000006399 behavior Effects 0.000 claims description 23
- 238000012790 confirmation Methods 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000010187 selection method Methods 0.000 description 7
- 238000009434 installation Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
- H04W28/18—Negotiating wireless communication parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/12—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
また、無線マルチホップネットワークでは、フェージングまたはシャドウイングの影響で1つの通信経路が通信不能に陥ったとしても、他の通信経路を選択して通信を行うことが可能である。そのため、耐障害性があることが無線マルチホップネットワークの特長とされている。
しかし、到達率または応答時間などのユーザの要求を満たすように、各ノードの周辺の電波環境に応じて最適な中継経路を選択するためには、複雑な経路制御手法が必要となる。
特許文献1には、2つの閾値を用いて受信信号強度を3段階で評価し、その評価に応じたリンクコストを算出し、リンクコストが最も小さい経路を選択する、という方式が提案されている。この方式により、受信信号強度が最も良好な通信経路が最適な中継経路として選択される。
しかし、システムインテグレータが現場の設置環境に合わせたチューニングによって閾値を決定する必要があるため、閾値の決定には人手がかかってしまう。
経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御部と、
選択された通信経路を介して無線通信を行う無線通信部と、を備える。
通信経路用の閾値を調整するために強化学習を適用する形態について、図1から図13に基づいて説明する。
図1に基づいて、無線通信システム100の構成を説明する。
無線通信システム100は、複数の無線通信装置を備える。
「親機」として動作する無線通信装置を「無線通信装置200」と称する。
「子機」または「中継機」として動作するそれぞれの無線通信装置を「無線通信装置300」と称する。
図1において、無線通信装置300Aが子機として動作し、無線通信装置(300B〜300G)のそれぞれが中継機として動作する。
親機(200)は、マルチホップネットワークを管理する。
子機(300A)は、1つ以上の中継機(300B〜300G)を介して、親機(200)と通信する。
無線通信装置200は、プロセッサ201とメモリ202と有線インタフェース203と無線インタフェース204と無線アンテナ205といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。
メモリ202は記憶装置である。例えば、メモリ202は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリまたはこれらの組み合わせである。
有線インタフェース203は、有線通信を行うためのインタフェースである。有線インタフェース203には有線ケーブルが接続される。例えば、有線インタフェース203は、通信チップまたはNIC(Network Interface Card)である。
無線インタフェース204は、無線通信を行うためのインタフェースである。無線インタフェース204には無線アンテナ205が接続される。例えば、無線インタフェース204は、通信チップまたはNICである。
無線アンテナ205は、無線通信のためのアンテナである。
無線通信装置200は、無線インタフェース204と無線アンテナ205とを用いて、無線通信を行う。
プロセッサ201は、OSを実行しながら、無線通信プログラムを実行する。
無線通信プログラムを実行して得られるデータは、メモリ202、プロセッサ201内のレジスタ、または、プロセッサ201内のキャッシュメモリに記憶される。
メモリ202は記憶部290として機能する。
無線通信装置300は、プロセッサ301とメモリ302と有線インタフェース303と無線インタフェース304と無線アンテナ305といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。
メモリ302は記憶装置である。例えば、メモリ302は、RAM、ROM、HDD、フラッシュメモリまたはこれらの組み合わせである。
有線インタフェース303は、有線通信を行うためのインタフェースである。有線インタフェース303には有線ケーブルが接続される。例えば、有線インタフェース303は、通信チップまたはNICである。
無線インタフェース304は、無線通信を行うためのインタフェースである。無線インタフェース304には無線アンテナ205が接続される。例えば、無線インタフェース304は、通信チップまたはNICである。
無線アンテナ305は、無線通信のためのアンテナである。
無線通信装置300は、無線インタフェース304と無線アンテナ305とを用いて、無線通信を行う。
プロセッサ301は、OSを実行しながら、無線通信プログラムを実行する。
無線通信プログラムを実行して得られるデータは、メモリ302、プロセッサ301内のレジスタ、または、プロセッサ301内のキャッシュメモリに記憶される。
メモリ302は記憶部390として機能する。
無線通信システム100の動作は無線通信方法に相当する。また、無線通信方法の手順は無線通信プログラムの手順に相当する。
強化学習は、環境に行動が与える相互作用に対して適切な行動を学習することによって、将来的に得られる報酬を最大にするための方法である。強化学習は機械学習の一種である。
行動する主体を「エージェント(agent)」と呼ぶ。無線通信システム100では、各無線通信装置がエージェントとなる。
はたらきかけられる対象を「環境(environment)」と呼ぶ。
エージェントが現在の状態(state)において環境に行うはたらきかけを「行動(action)」と呼ぶ。
現在の状態における行動の結果の良さを比較する指標を「報酬(reward)」と呼ぶ。
エージェントは、報酬に基づいて、周囲環境に適した行動を学習する。
実施の形態1では、Q学習を具体例にして強化学習の説明を行う。但し、強化学習として、Q学習以外の手法を採用してもよい。
無線通信方法(経路選択)は、経路選択のために強化学習を適用して、無線通信を行う方法である。
経路選択のための強化学習における状態は、評価閾値である。
経路選択のための強化学習における行動は、評価閾値の調整(上げ下げ)である。
具体的には、子機の無線通信部330は、前回の経路選択処理(S130)で選択された通信経路を介して、親機との無線通信を行う。無線通信では無線フレームが通信される。親機は子機の通信相手である。
経路選択用の行動価値情報は、経路選択のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
ステップS121において、情報提供部220は、提供タイミングを検出する。
提供タイミングは、経路選択用の行動価値情報を提供するタイミングである。
通信品質値は、無線通信の通信品質を表す値である。
PERと伝送遅延時間とのそれぞれは従来方法で算出される。
「r」は、報酬である。
「A」は、PERである。
「B」は、伝送遅延時間である。
「β」は、パラメータ値である。パラメータ値βは、ユーザによって予め決められる。具体的には、パラメータ値βは0以上1以下の範囲から選択される。例えば、伝送遅延時間が短い通信経路を選択するため伝送遅延時間のみを考慮した場合、ユーザは、パラメータ値βとして「0」を選択する。
「δ」は、パラメータ値である。パラメータ値δは、ユーザによって予め決められる。具体的には、パラメータ値δは0以上1以下の範囲から選択される。例えば、伝送遅延時間が短い通信経路を選択するため伝送遅延時間のみを考慮した場合、ユーザは、パラメータ値δとして「1」を選択する。
具体的には、情報提供部220は、報酬が設定された通信フレームを子機へ送信する。送信された通信フレームは、1つ以上の中継機を介して子機へ到達する。
ステップS130において、子機は、経路選択用の行動価値情報に基づいて、通信経路を選択する。
ステップS130の後、選択された通信経路を介して、親機と子機との間で無線通信が行われる。
行動価値取得部310は、経路選択用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部320は、取得された行動価値に基づいて、経路選択用の行動価値テーブルを更新する。経路選択用の行動価値テーブルは、評価閾値と調整方法との組毎の行動価値を示す。そして、通信経路制御部320は、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する。
無線通信部330は、選択された通信経路を介して、親機との無線通信を行う。
ステップS131において、行動価値取得部310は、経路選択のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。
具体的には、行動価値取得部310は、報酬が設定された通信フレームを受信する。
具体的には、行動価値取得部310は、Q学習におけるQ値を算出する。算出されるQ値が行動価値である。
「St」は、時刻tにおける環境の状態を表す。
「at」は、時刻tにおける行動を表す。
「Q(St,at)」は、状態Stにおける行動atの価値である。
「St+1」は、行動at後の環境の状態を表す。行動atにより、状態は、「St」から「St+1」に遷移する。
「rt+1」は、状態St+1への遷移による報酬を表す。
「γ」は、割引率と呼ばれるパラメータ値である。割引率γは、ユーザによって予め決められる。具体的には、割引率γは0<γ≦1の範囲から選択される。
「maxQ(St+1,a)」は、状態St+1における行動aによって得られる最大価値である。行動aは、状態St+1において価値が最大になる行動である。maxQ(St+1,a)は、行動価値テーブルから選択される。
「α」は、学習係数である。学習係数αは、ユーザによって予め決められる。具体的には、学習係数αは0<α≦1の範囲から選択される。
状態Stにおける行動atの行動価値Q(St,at)よりも「報酬rt+1」+「行動a」による次の状態における最良の行動「max a」の評価値Q(St+1,max at+1)の方が大きければ、Q(St,at)が大きくなる。反対に小さければQ(St,at)も小さくなる。つまり、ある状態におけるある行動の価値を結果として即時帰ってくる報酬を、その行動による次の状態における最良の行動の価値に近づけるようにしている。
行動価値テーブル391は、経路選択のための強化学習において使用される行動価値テーブルである。
行動価値テーブル391は、評価閾値と調整方法との組毎の行動価値Qを示す。
具体的な評価閾値は、通信経路別の受信信号強度と比較される値である。受信信号強度は、フレームが受信された際の信号強度である。つまり、具体的な評価閾値は信号強度である。「dBm」は信号強度の単位である。
具体的な調整方法は、評価閾値を上げる、評価閾値を下げる、または、評価閾値を変えないである。つまり、調整方法は3次元の行動である。
Q(S_n,↑)は、状態S_nにおいて評価閾値を上げた場合の行動価値である。
Q(S_n,↓)は、状態S_nにおいて評価閾値を下げた場合の行動価値である。
Q(S_n,→)は、状態S_nにおいて評価閾値を変えない場合の行動価値である。
具体的には、通信経路制御部320は、行動価値テーブル391から、Q(St+1,↑)とQ(St+1,↓)とQ(St+1,→)との3つの行動価値Qを抽出する。そして、通信経路制御部320は、抽出された3つの行動価値Qから、最大の行動価値Qを選択する。選択される行動価値QがmaxQ(St+1,a)である。
ステップS133において、通信経路制御部320は、算出された行動価値に基づいて、行動価値テーブル391を更新する。
まず、通信経路制御部320は、行動価値テーブル391から、行動価値Q(St,at)を選択する。
そして、通信経路制御部320は、選択された行動価値Q(St,at)を、算出された行動価値Q(St,at)で上書きする。
ステップS1341において、通信経路制御部320は、行動価値テーブル391に基づく閾値調整を行うか否かをランダムに選択する。
例えば、Epsilon−Greedy法のように、「1−ε」でQ値が最大となる行動(調整方法)を選ぶ、という手法を適用しても良い。「ε」は、パラメータ値である。値εは、ユーザによって予め決められる。具体的には、値εは、0<ε≦1の範囲から選択される。値εが「0」である場合、必ず、行動価値テーブル391に基づいてQ値が最大となる調整方法が選択される。値εが「1」である場合、必ず、ランダムに調整方法が決定される。
ステップS1341により、新しい行動による結果が得られるため、強化学習が局所解に陥ることを防ぐことができる。
行動価値テーブル391に基づく閾値調整を行わないことが選択された場合、処理はステップS1343に進む。
まず、通信経路制御部320は、行動価値テーブル391から、調整方法毎に前回の評価閾値と調整方法との組の行動価値を選択する。これにより、複数の調整方法に対応する複数の行動価値が選択される。
次に、通信経路制御部320は、選択された複数の行動価値から、最大の行動価値を選択する。
そして、通信経路制御部320は、選択された最大の行動価値に対応する調整方法を選択する。
ステップS135において、通信経路制御部320は、調整後の評価閾値を用いて、通信経路を選択する。
具体的には、通信経路制御部320は、調整後の評価閾値を用いて従来の経路選択アルゴリズムを実行することによって、通信経路を選択する。
例えば、通信経路制御部320は、IETFで標準化されているRPL等の経路選択アルゴリズム(非特許文献1を参照)によって、通信経路を選択する。IETFは、Internet Engineering Task Forceの略称である。RPLは、IPv6 Routing Protocol for Low Power and Lossy Networkの略称である。
実施の形態1における評価閾値の数は、経路選択アルゴリズムで使用される閾値の数と等しい。
ステップS1911において、子機の通信経路制御部320は、無線通信装置300Bを中継する通信経路を選択する。
ステップS1912において、子機の無線通信部330は、無線通信装置300BにAPLデータを送信する。無線通信装置300Bは、APLデータを受信し、受信したAPLデータを親機に送信する。そして、親機の無線通信部210は、APLデータを受信する。APLはアプリケーションの略称である。
ステップS1921において、親機の周期タイマが満了する。
ステップS1922において、親機の情報提供部220は、PERと伝送遅延時間とを算出する。
ステップS1923において、親機の情報提供部220は、経路選択のための強化学習における報酬を算出する。
ステップS1924において、親機の情報提供部220は、算出された報酬を子機へ送信する。
ステップS1931において、子機の行動価値取得部310は報酬を受信する。そして、子機の通信経路制御部320は、行動価値テーブル391に設定されているQ値を更新する。
ステップS1932において、子機の通信経路制御部320は、行動価値テーブル391を参照し、次の評価閾値を決定する。
ステップS1933において、子機の通信経路制御部320は、決定された評価閾値を用いて、通信経路を選択する。これにより、無線通信装置300Dを中継する通信経路が選択された。
ステップS1934において、子機の無線通信部330は、無線通信装置300DにAPLデータを送信する。無線通信装置300Dは、APLデータを受信し、受信したAPLデータを親機に送信する。そして、親機の無線通信部210は、APLデータを受信する。
以後、ステップS1921からステップS1934と同様の処理が繰り返される。
行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
図10に基づいて、親機処理(S120)を説明する。
ステップS121およびステップS122は、図5に基づいて説明した通りである。
ステップS123Aにおいて、情報提供部220は、通信品質値を子機へ送信する。送信される通信品質値が行動価値情報である。ステップS123Aは図5のステップS124に相当する。
図11に基づいて、子機処理(S130)を説明する。
ステップS131Aにおいて、行動価値取得部310は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップS131Aは図6のステップS131に相当する。
ステップS132Aにおいて、行動価値取得部310は、受信された通信品質値に基づいて、経路選択のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS133AからステップS136Aは、ステップS132からステップS135と同じである(図6参照)。
図12に基づいて、無線通信方法(経路選択)を説明する。
ステップ110は、図4に基づいて説明した通りである。
ステップS120Bにおいて、子機は通信経路を選択する。ステップS120Bは、ステップS130に相当する(図4参照)。
図13に基づいて、子機処理(S120B)の手順を説明する。
ステップS121Bにおいて、行動価値取得部310は、取得タイミングを検出する。取得タイミングは、ステップS121における提供タイミングに相当する(図5参照)。
ステップS122Bにおいて、行動価値取得部310は、通信品質値を算出する。算出方法は、ステップS122における方法と同じである(図5参照)。
ステップS123Bにおいて、行動価値取得部310は、算出された通信品質値に基づいて、経路選択のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS124BからステップS127Bは、ステップS132からステップS135と同じである(図6参照)。
実施の形態1では、閾値の決定方法に学習が用いられ、無線機が自動で閾値を決定する。これにより、人手で行われていたパラメータチューニングが不要となるため、システムインテグレータに対する人件費を削減することが可能となる。また、実施の形態1では、無線機毎に設置環境に適した閾値が決定される。これにより、過剰に中継を行う無線機が削減され、伝送遅延が小さくなる。もしくは、中継回数が不足している無線機が削減され、PERが低くなる。
強化学習について補足する。
基本的には、行動が引き起こす結果を全く知らない状態から学習をスタートする。しかし、学習時間を考慮して学習をスタートしてもよい。例えば、現実的に有り得る値のみを探索させるなどによって、良いスタート地点から学習をスタートさせることもできる。もしくは、探索を行っていない行動に対しては、関数近似によって補間することもできる。また、評価閾値の変更幅は、−1dBmに固定してもよいし、可変にしてもよい。
制御フレームの送信間隔を調整するために強化学習を適用する形態について、主に実施の形態1と異なる点を図14から図20に基づいて説明する。
無線通信システム100の構成は、実施の形態1における構成と同じである(図1から図3を参照)。
図14に基づいて、無線通信方法(間隔調整)を説明する。
無線通信方法(間隔調整)は、制御フレームの送信間隔を調整するために強化学習を適用して、無線通信を行う方法である。
制御フレームは、通信経路を更新するために通信されるフレームである。
制御フレームの送信間隔は、制御フレームが送信される時間間隔である。
例えば、親機と子機との間で制御フレームが定期的に通信される。そして、通信された制御フレームに基づいて、親機と子機との間の通信経路が更新される。更新方法は、RPLなどの従来技術における方法である。
間隔調整用の行動価値情報は、間隔調整のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
親機処理(S220)の手順は、親機処理(S120)の手順と同じである。
ステップS230の後、調整後の送信間隔で制御フレームが送信される。
行動価値取得部310は、間隔調整用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部320は、取得された行動価値に基づいて、間隔調整用の行動価値テーブルを更新する。間隔調整用の行動価値テーブルは、送信間隔と調整方法との組毎の行動価値を示す。そして、通信経路制御部320は、更新後の行動価値テーブルに基づいて制御フレームの送信間隔を調整する。
無線通信部330は、調整後の送信間隔で制御フレームを送信する。
ステップS231において、行動価値取得部310は、間隔調整のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。
算出方法は、ステップS132における方法と同じである(図6参照)。但し、強化学習における状態は制御フレームの送信間隔であり、強化学習における行動は送信間隔の調整である。また、行動価値テーブル391の代わりに行動価値テーブル392が用いられる。
更新方法は、ステップS133における方法と同じである(図6参照)。
行動価値テーブル392は、間隔調整のための強化学習において使用される行動価値テーブルである。
行動価値テーブル392は、送信間隔と調整方法との組毎の行動価値Qを示す。
送信間隔の「sec」は「秒」を意味する。送信間隔は、60sec、120secおよび180sec以外の時間であってもよい。
具体的な調整方法は、送信間隔を延ばす、送信間隔を縮める、または、送信間隔を変えないである。
Q(Sn,↑)は、状態Snにおいて送信間隔を延ばした場合の行動価値である。
Q(Sn,↓)は、状態Snにおいて送信間隔を縮めた場合の行動価値である。
Q(Sn,→)は、状態Snにおいて送信間隔を変えない場合の行動価値である。
状態Snは、制御フレームの送信間隔がn秒であるという状態である。
ステップS234において、通信経路制御部320は、制御フレームの送信間隔を調整する。
ステップS2341において、通信経路制御部320は、行動価値テーブル392に基づく間隔調整を行うか否かをランダムに選択する。
選択方法は、ステップS1341における方法と同じである(図8参照)。
行動価値テーブル392に基づく間隔調整を行わないことが選択された場合、処理はステップS2343に進む。
選択方法は、ステップS1342における方法と同じである(図8参照)。但し、評価閾値が制御フレームの送信間隔に置き換わり、評価閾値の調整が送信間隔の調整に置き換わる。
実施の形態1の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理(S220)は、図10の親機処理(S120)と同じである。
図18に基づいて、子機処理(S230)を説明する。
ステップS231Aにおいて、行動価値取得部310は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップS231Aは図15のステップS231に相当する。
ステップS232Aにおいて、行動価値取得部310は、受信された通信品質値に基づいて、間隔調整のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS233AからステップS235Aは、ステップS232からステップS234と同じである(図15参照)。
図19に基づいて、無線通信方法(間隔調整)を説明する。
ステップ210は、図14に基づいて説明した通りである。
ステップS220Bにおいて、子機は、制御フレームの送信間隔を調整する。ステップS220Bは、ステップS230に相当する(図14参照)。
図20に基づいて、子機処理(S220B)の手順を説明する。
ステップS221Bにおいて、行動価値取得部310は、取得タイミングを検出する。取得タイミングは、ステップS121における提供タイミングに相当する(図5参照)。
ステップS222Bにおいて、行動価値取得部310は、通信品質値を算出する。算出方法は、ステップS122における方法と同じである(図5参照)。
ステップS223Bにおいて、行動価値取得部310は、算出された通信品質値に基づいて、間隔調整のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS224BからステップS226Bは、ステップS232からステップS234と同じである(図15参照)。
実施の形態2により、制御フレームの送信間隔を子機の周囲環境に適した値に変更することができる。そして、通信帯域の利用効率が最適化される。具体的には、過剰に送信される制御フレームが帯域を占有することによって本来送りたいアプリケーションデータが送れない無線機、を削減することが可能となる。その結果、伝送遅延が小さくなる。もしくは、制御フレームの送信間隔が長すぎて周囲環境の変化に追従できない無線機、を削減することが可能となる。その結果、無線誤りを軽減することができる。
通信経路における先頭の中継機を選択するために強化学習を適用する形態について、主に実施の形態1および実施の形態2と異なる点を図21から図27に基づいて説明する。
無線通信システム100の構成は、実施の形態1における構成と同じである(図1から図3を参照)。
図21に基づいて、無線通信方法(中継機選択)を説明する。
無線通信方法(中継機選択)は、中継機選択のために強化学習を適用して、無線通信を行う方法である。
具体的には、子機の無線通信部330は、前回の中継機選択処理(S330)で選択された中継機を介して、親機との無線通信を行う。
中継機選択用の行動価値情報は、中継機選択のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
親機処理(S320)の手順は、親機処理(S120)の手順と同じである。
ステップS330の後、子機は、選択された中継機を介して、親機との無線通信を行う。
行動価値取得部310は、中継機選択用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部320は、取得された行動価値に基づいて、中継機選択用の行動価値テーブルを更新する。中継機選択用の行動価値テーブルは、前回の中継機と次回の中継機の候補との組毎の行動価値を示す。そして、通信経路制御部320は、更新後の行動価値テーブルに基づいて、次回の中継機を選択する。
無線通信部330は、選択された中継機を介して、親機との無線通信を行う。
ステップS331において、行動価値取得部310は、中継機選択のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。
算出方法は、ステップS132における方法と同じである(図6参照)。但し、強化学習における状態は前回の中継機であり、強化学習における行動は中継機の選択である。また、行動価値テーブル391の代わりに行動価値テーブル393が用いられる。
更新方法は、ステップS133における方法と同じである(図6参照)。
行動価値テーブル393は、中継機選択のための強化学習において使用される行動価値テーブルである。
行動価値テーブル393は、前回の中継機と次回以降の中継機の候補との組毎の行動価値Qを示す。
Q(SX,aY)は、状態SXにおいて行動aYが行われた場合の行動価値である。
状態Sxは、前回の中継機が無線通信装置300Xであるという状態である。
行動aYは、無線通信装置300Yを中継機として選択することである。
ステップS334において、通信経路制御部320は、次回以降の中継機を選択する。
ステップS3341において、通信経路制御部320は、行動価値テーブル393に基づく中継機選択を行うか否かをランダムに選択する。
選択方法は、ステップS1341における方法と同じである(図8参照)。
行動価値テーブル393に基づく中継機選択を行わないことが選択された場合、処理はステップS3343に進む。
選択方法は、ステップS1342における方法と同じである(図8参照)。但し、評価閾値が前回の中継機に置き換わり、評価閾値の調整が中継機の選択に置き換わる。
実施の形態1の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理(S320)は、図10の親機処理(S120)と同じである。
図25に基づいて、子機処理(S330)を説明する。
ステップS331Aにおいて、行動価値取得部310は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップS331Aは図22のステップS331に相当する。
ステップS332Aにおいて、行動価値取得部310は、受信された通信品質値に基づいて、中継機選択のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS333AおよびステップS334Aは、ステップS332およびステップS333と同じである(図22参照)。
図26に基づいて、無線通信方法(間隔調整)を説明する。
ステップ310は、図21に基づいて説明した通りである。
ステップS320Bにおいて、子機は、中継機を選択する。ステップS320Bは、ステップS330に相当する(図21参照)。
図27に基づいて、子機処理(S320B)の手順を説明する。
ステップS321Bにおいて、行動価値取得部310は、取得タイミングを検出する。取得タイミングは、ステップS121における提供タイミングに相当する(図5参照)。
ステップS322Bにおいて、行動価値取得部310は、通信品質値を算出する。算出方法は、ステップS322における方法と同じである(図5参照)。
ステップS323Bにおいて、行動価値取得部310は、算出された通信品質値に基づいて、中継機選択のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS324BからステップS326Bは、ステップS332からステップS334と同じである(図22参照)。
実施の形態3では、閾値を用いずに、既存パラメータ以外の要因も考慮して、環境に適した接続先(中継機)の判定を行うことが可能となる。また、複雑な経路制御アルゴリズムの実装が不要となるため、プログラムのメモリが削減され、無線通信装置を小型化および低コスト化することが可能となる。
伝送レートを調整するために強化学習を適用する形態について、主に実施の形態1から実施の形態3と異なる点を図28から図35に基づいて説明する。
無線通信システム100の構成は、実施の形態1における構成と同じである(図1参照)。
無線通信装置200の構成は、実施の形態1における構成と同じである(図2参照)。
無線通信装置300は、さらに、伝送レート制御部340という要素を備える。伝送レート制御部340は、ソフトウェアによって実現される。
無線通信プログラムは、さらに、伝送レート制御部340としてコンピュータを機能させる。
図29に基づいて、無線通信方法(レート調整)を説明する。
無線通信方法(レート調整)は、伝送レートを調整するために強化学習を適用して、無線通信を行う方法である。
具体的には、子機の無線通信部330は、前回のレート調整処理(S430)で調整された伝送レートで、親機との無線通信を行う。
レート調整用の行動価値情報は、レート調整のための強化学習における行動価値を特定する情報である。具体的には、行動価値情報は、強化学習における報酬である。
ステップS420の手順は、ステップS120、ステップS220またはステップS320の手順と同じである。
ステップS430の後、子機は、調整後の伝送レートで、親機との無線通信を行う。
行動価値取得部310は、レート調整用の行動価値情報を受信し、受信した行動価値情報に基づいて行動価値を取得する。
通信経路制御部320は、取得された行動価値に基づいて、レート調整用の行動価値テーブルを更新する。レート制御用の行動価値テーブルは、伝送レートと調整方法との組毎の行動価値を示す。そして、通信経路制御部320は、更新後の行動価値テーブルに基づいて、伝送レートを調整する。
無線通信部330は、調整後の伝送レートで、親機との無線通信を行う。
ステップS431において、行動価値取得部310は、レート調整のための強化学習における報酬を受信する。受信される報酬が行動価値情報である。
算出方法は、ステップS132における方法と同じである(図6参照)。但し、強化学習における状態は伝送レートであり、強化学習における行動は伝送レートの調整である。また、行動価値テーブル391の代わりに行動価値テーブル394が用いられる。
更新方法は、ステップS133における方法と同じである(図6参照)。
行動価値テーブル394は、レート調整のための強化学習において使用される行動価値テーブルである。
行動価値テーブル394は、伝送レートと調整方法との組毎の行動価値Qを示す。
具体的な調整方法は、伝送レートを上げる、伝送レートを下げる、または、伝送レートを変えないである。
Q(Sn,↑)は、状態Snにおいて伝送レートを上げた場合の行動価値である。
Q(Sn,↓)は、状態Snにおいて伝送レートを下げた場合の行動価値である。
Q(Sn,→)は、状態Snにおいて伝送レートを変えない場合の行動価値である。
状態Snは、伝送レートがnMbpsであるという状態である。
ステップS434において、通信経路制御部320は、伝送レートを選択する。
ステップS4341において、通信経路制御部320は、行動価値テーブル394に基づくレート調整を行うか否かをランダムに選択する。
選択方法は、ステップS1341における方法と同じである(図8参照)。
行動価値テーブル394に基づく間隔調整を行わないことが選択された場合、処理はステップS4343に進む。
選択方法は、ステップS1342における方法と同じである(図8参照)。但し、評価閾値が伝送レートに置き換わり、評価閾値の調整が伝送レートの調整に置き換わる。
実施の形態1の実施例と同じく、行動価値情報が通信品質値であってもよい。行動価値情報が通信品質値である場合について、以下に説明する。
親機処理(S420)は、図10の親機処理(S120)と同じである。
図33に基づいて、子機処理(S430)を説明する。
ステップS431Aにおいて、行動価値取得部310は、親機から通信品質値を受信する。受信される通信品質値が行動価値情報である。ステップS431Aは図30のステップS431に相当する。
ステップS432Aにおいて、行動価値取得部310は、受信された通信品質値に基づいて、レート調整のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS433AからステップS435Aは、ステップS432からステップS434と同じである(図30参照)。
図34に基づいて、無線通信方法(レート調整)を説明する。
ステップ410は、図29に基づいて説明した通りである。
ステップS420Bにおいて、子機は、伝送レートを調整する。ステップS420Bは、ステップS430に相当する(図29参照)。
図35に基づいて、子機処理(S420B)の手順を説明する。
ステップS421Bにおいて、行動価値取得部310は、取得タイミングを検出する。取得タイミングは、ステップS121における提供タイミングに相当する(図5参照)。
ステップS422Bにおいて、行動価値取得部310は、通信品質値を算出する。算出方法は、ステップS122における方法と同じである(図5参照)。
ステップS423Bにおいて、行動価値取得部310は、算出された通信品質値に基づいて、レート調整のための強化学習における報酬を算出する。算出方法は、ステップS123における方法と同じである(図5参照)。
ステップS424BからステップS426Bは、ステップS432からステップS434と同じである(図30参照)。
通信品質に応じて適用的に変調方式と符号化方式とを変更する適用変調符号化技術(AMC: Adaptive Modulation and Cording)が広く用いられている。
例えば、IEEE802.11a無線LANの伝送レートは、変調方式と符号化率とによって決定される。また、伝送レートとして、54、48、36、24、18、12、9、6Mbpsの8つの伝送レートが定義されている。伝送レートが高いと雑音レベルが高くなってしまうため、誤りが発生してしまう可能性がある。また、伝送レートが低い場合はアプリケーションデータを送る帯域が狭いため、遅延が発生してしまう可能性がある。このように伝送レートに調整にはトレードオフがある。伝送レートは無線機が受信した信号の受信信号強度によって適用的に決定される。しかし、無線機の設置環境毎に受信信号強度の変動幅は異なる。そのため、一部の無線機では、誤りが発生してしまう可能性がある。
実施の形態4は、伝送レートの決定に強化学習を適用して、無線機の設置環境毎に適した伝送レートを自動で決定することを目的とする。
強化学習の結果を確認する形態について、主に実施の形態1から実施の形態4と異なる点を図36および図37に基づいて説明する。
無線通信システム100の構成は、実施の形態1における構成と同じである(図1参照)。
無線通信装置200の構成は、実施の形態1における構成と同じである(図2参照)。
無線通信装置300は、さらに、学習結果確認部350という要素を備える。学習結果確認部350は、ソフトウェアによって実現される。
無線通信プログラムは、さらに、学習結果確認部350としてコンピュータを機能させる。
図37に基づいて、無線通信方法(学習結果確認)を説明する。
無線通信方法(学習結果確認)は、実施の形態1から実施の形態4における各種の強化学習の結果を確認する方法である。
無線通信システム100の通信品質値は、無線通信システム100の全体の通信品質を表す値である。
子機において、学習結果確認部350は、要求フレームを親機へ送信する。要求フレームは、無線通信システム100の通信品質値を要求するためのフレームである。
親機において、無線通信部210は要求フレームを受信する。そして、情報提供部220は、無線通信システム100の通信品質値を算出し、応答フレームを子機へ送信する。応答フレームは、無線通信システム100の通信品質値が設定されたフレームである。具体的には、通信品質値はPERである。PERは従来方法で算出される。
子機において、学習結果確認部350は、応答フレームを受信し、受信された応答フレームから無線通信システム100の通信品質値を取得する。
但し、学習結果確認部350は、無線通信システム100の通信品質値を別の方法で取得してもよい。例えば、学習結果確認部350は、無線通信システム100の通信品質値を算出してもよい。
例えば、無線通信システム100の全体のPERが20[%]よりも大きい場合、学習結果確認部350は、強化学習が無線通信システム100の通信品質に負の影響を与えていると判定する。
強化学習が無線通信システム100の通信品質に負の影響を与えていると判定された場合、処理はステップS503に進む。
強化学習が無線通信システム100の通信品質に負の影響を与えていないと判定された場合、処理は終了する。
つまり、学習結果確認部350は、行動価値テーブルに設定されている各値をデフォルトに戻す。デフォルトとは、パラメータの初期値のことである。パラメータの初期値は記憶部390に予め設定されている。無線通信装置300は、電源が入ると、パラメータの初期値を読み込んで、初期動作を開始する。
ステップS503の後、子機は、強化学習を停止してもよいし、強化学習を継続してもよい。つまり、行動価値テーブルの更新が停止されてもよいし、行動価値テーブルの更新が継続されてもよい。
実施の形態5により、学習がシステムにマイナスの影響を与えている場合に、システムを元の状態に戻すことができる。
図38に基づいて、無線通信装置200のハードウェア構成を説明する。
無線通信装置200は処理回路209を備える。
処理回路209は、無線通信部210と情報提供部220とを実現するハードウェアである。
処理回路209は、専用のハードウェアであってもよいし、メモリ202に格納されるプログラムを実行するプロセッサ201であってもよい。
ASICはApplication Specific Integrated Circuitの略称であり、FPGAはField Programmable Gate Arrayの略称である。
無線通信装置200は、処理回路209を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路209の役割を分担する。
図39に基づいて、無線通信装置300のハードウェア構成を説明する。
無線通信装置300は処理回路309を備える。
処理回路309は、行動価値取得部310と通信経路制御部320と無線通信部330と伝送レート制御部340と学習結果確認部350とを実現するハードウェアである。
処理回路309は、専用のハードウェアであってもよいし、メモリ302に格納されるプログラムを実行するプロセッサ301であってもよい。
無線通信装置300は、処理回路309を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路309の役割を分担する。
つまり、無線通信装置200が無線通信装置300の各要素(310〜350)を備えてもよいし、無線通信装置300が無線通信装置200の各要素(210、220)を備えてもよい。
Claims (31)
- 経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御部と、
選択された通信経路を介して無線通信を行う無線通信部と、
を備える無線通信装置。 - 通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項1に記載の無線通信装置。 - 前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項1に記載の無線通信装置。 - 前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく閾値調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく閾値調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って前記評価閾値を調整し、
前記更新後の行動価値テーブルに基づく閾値調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って前記評価閾値を調整する
請求項1から請求項3のいずれか1項に記載の無線通信装置。 - 前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項1から請求項4のいずれか1項に記載の無線通信装置。 - 前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項1から請求項5のいずれか1項に記載の無線通信装置。 - 請求項1から請求項6のいずれか1項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
- 経路選択用の閾値である評価閾値の調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、評価閾値と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて評価閾値を調整し、調整後の評価閾値を用いて通信経路を選択する通信経路制御処理と、
選択された通信経路を介して無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。 - 通信経路を更新するために通信される制御フレームの送信間隔の調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、送信間隔と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて送信間隔を調整する通信経路制御部と、
調整後の送信間隔で制御フレームを送信する無線通信部と、
を備える無線通信装置。 - 通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項9に記載の無線通信装置。 - 前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項9に記載の無線通信装置。 - 前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく間隔調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく間隔調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って前記送信間隔を調整し、
前記更新後の行動価値テーブルに基づく間隔調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って前記送信間隔を調整する
請求項9から請求項11のいずれか1項に記載の無線通信装置。 - 前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項9から請求項12のいずれか1項に記載の無線通信装置。 - 前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項9から請求項13のいずれか1項に記載の無線通信装置。 - 請求項9から請求項14のいずれか1項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
- 制御フレームの送信間隔の調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、送信間隔と調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて送信間隔を調整する通信経路制御処理と、
調整後の送信間隔で制御フレームを送信する無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。 - 通信経路における先頭の中継機の変更を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、前回の中継機と次回以降の中継機の候補との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて次回以降の中継機を選択する通信経路制御部と、
選択された中継機を介して無線通信を行う無線通信部と、
を備える無線通信装置。 - 通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項17に記載の無線通信装置。 - 前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項17に記載の無線通信装置。 - 前記通信経路制御部は、
前記更新後の行動価値テーブルに基づく中継機選択を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づく中継機選択を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて中継機を選択し、
前記更新後の行動価値テーブルに基づく中継機選択を行わないことが選択された場合、中継機をランダムに選択する
請求項17から請求項19のいずれか1項に記載の無線通信装置。 - 前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項17から請求項20のいずれか1項に記載の無線通信装置。 - 前記無線通信装置は、伝送レート制御部を備え、
前記伝送レート制御部は、取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整し、
前記無線通信部は、調整後の伝送レートで無線通信を行う
請求項17から請求項21のいずれか1項に記載の無線通信装置。 - 請求項17から請求項22のいずれか1項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
- 通信経路における先頭の中継機の変更を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、前回の中継機と次回以降の中継機の候補との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて次回以降の中継機を選択する通信経路制御処理と、
選択された中継機を介して無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。 - 伝送レートの調整を行動とする強化学習における行動価値を取得する行動価値取得部と、
取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整する伝送レート制御部と、
調整後の伝送レートで無線通信を行う無線通信部と、
を備える無線通信装置。 - 通信相手が、前記無線通信装置との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、算出された報酬を送信し、
前記行動価値取得部は、送信された報酬を受信し、受信された報酬に基づいて前記行動価値を算出する
請求項25に記載の無線通信装置。 - 前記行動価値取得部は、通信相手との無線通信の通信品質に基づいて前記強化学習における報酬を算出し、受信された報酬に基づいて前記行動価値を算出する
請求項25に記載の無線通信装置。 - 前記伝送レート制御部は、
前記更新後の行動価値テーブルに基づくレート調整を行うか否かをランダムに選択し、
前記更新後の行動価値テーブルに基づくレート調整を行うことが選択された場合、前記更新後の行動価値テーブルに基づいて調整方法を選択し、選択された調整方法に従って伝送レートを調整し、
前記更新後の行動価値テーブルに基づくレート調整を行わないことが選択された場合、調整方法をランダムに選択し、選択された調整方法に従って伝送レートを調整する
請求項25から請求項27のいずれか1項に記載の無線通信装置。 - 前記無線通信装置を有する無線通信システムにおける通信品質に基づいて前記強化学習が前記無線通信システムに与えている影響を判定し、前記強化学習が前記無線通信システムに負の影響を与えていると判定された場合に前記行動価値テーブルを初期化する学習結果確認部を備える
請求項25から請求項28のいずれか1項に記載の無線通信装置。 - 請求項25から請求項29のいずれか1項に記載の無線通信装置を含む複数の無線通信装置を有する無線通信システム。
- 伝送レートの調整を行動とする強化学習における行動価値を取得する行動価値取得処理と、
取得された行動価値に基づいて、伝送レートと調整方法との組毎の行動価値を示す行動価値テーブルを更新し、更新後の行動価値テーブルに基づいて伝送レートを調整する伝送レート制御処理と、
調整後の伝送レートで無線通信を行う無線通信処理と、
をコンピュータに実行させるための無線通信プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/043921 WO2020110250A1 (ja) | 2018-11-29 | 2018-11-29 | 無線通信装置、無線通信システムおよび無線通信プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6632778B1 JP6632778B1 (ja) | 2020-01-22 |
JPWO2020110250A1 true JPWO2020110250A1 (ja) | 2021-02-15 |
Family
ID=69166765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019540022A Active JP6632778B1 (ja) | 2018-11-29 | 2018-11-29 | 無線通信装置、無線通信システムおよび無線通信プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6632778B1 (ja) |
CN (1) | CN113039834B (ja) |
WO (1) | WO2020110250A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7311457B2 (ja) * | 2020-03-31 | 2023-07-19 | 株式会社光電製作所 | 制御装置、通信システム、制御方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316091B2 (en) * | 2008-12-01 | 2012-11-20 | At&T Mobility Ii Llc | Content management for wireless digital media frames |
JP5455820B2 (ja) * | 2010-07-02 | 2014-03-26 | 三菱電機株式会社 | 経路選択方法、通信装置および通信システム |
JP5693299B2 (ja) * | 2011-03-03 | 2015-04-01 | キヤノン株式会社 | 通信装置およびその制御方法、並びにプログラム |
CN102438234B (zh) * | 2011-08-22 | 2014-07-30 | 北京邮电大学 | 移动协作网络中多目标安全中继选择方法 |
JP5733166B2 (ja) * | 2011-11-14 | 2015-06-10 | 富士通株式会社 | パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 |
US9226219B2 (en) * | 2011-12-21 | 2015-12-29 | Silver Spring Networks | System and method for route learning and auto-configuration |
KR102233371B1 (ko) * | 2014-06-24 | 2021-03-29 | 삼성전자주식회사 | 멀티캐스트 네트워크에서의 릴레이 방법 및 장치 |
KR101811725B1 (ko) * | 2016-04-12 | 2017-12-22 | 아주대학교산학협력단 | 이동통신 노드를 이용한 자율 네트워크 시스템 및 이의 운영 방법 |
CN106297235B (zh) * | 2016-08-12 | 2019-06-04 | 中国南方电网有限责任公司电网技术研究中心 | 用于低压电力用户集中抄表的路由建立方法和抄表方法 |
JP6272565B1 (ja) * | 2016-09-05 | 2018-01-31 | 三菱電機株式会社 | 無線通信端末、無線通信システム及び経路選択プログラム |
US10367623B2 (en) * | 2016-10-31 | 2019-07-30 | Cisco Technology, Inc. | Data traffic management in virtual access point (VAP) enabled networks |
JP6692740B2 (ja) * | 2016-12-20 | 2020-05-13 | ヤフー株式会社 | 選択装置、選択方法及び選択プログラム |
CN106953801B (zh) * | 2017-01-24 | 2020-05-05 | 上海交通大学 | 基于层级结构学习自动机的随机最短路径实现方法 |
JP6453919B2 (ja) * | 2017-01-26 | 2019-01-16 | ファナック株式会社 | 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム |
-
2018
- 2018-11-29 JP JP2019540022A patent/JP6632778B1/ja active Active
- 2018-11-29 CN CN201880099516.2A patent/CN113039834B/zh active Active
- 2018-11-29 WO PCT/JP2018/043921 patent/WO2020110250A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN113039834A (zh) | 2021-06-25 |
CN113039834B (zh) | 2024-03-01 |
WO2020110250A1 (ja) | 2020-06-04 |
JP6632778B1 (ja) | 2020-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5948497B2 (ja) | コンテンツ中心かつロードバランシング認識型の動的なデータアグリゲーション | |
JP4741659B2 (ja) | 伝送装置、伝送方法、システムlsi、及びプログラム | |
EP3588912A1 (en) | Device and method for sharing context information | |
DE60332217D1 (de) | System und verfahren zur bereitstellung einer adaptiven regelung der sendeleistung und datenrate in ad-hoc-netzwerken | |
US11589299B2 (en) | Method of implementing self-organizing network for plurality of access network devices and electronic device for performing the same | |
JP2013090332A (ja) | データ収集デバイスが無線メッシュ通信ネットワークのノードからデータを収集するのに必要とされる時間期間を短縮するための方法及びデバイス、その方法に係るコンピュータープログラム、並びにその方法に係るコンピュータープログラムを格納する情報記憶手段 | |
CN113992691B (zh) | 一种边缘计算资源的分配方法、装置、设备及存储介质 | |
CN112532345B (zh) | 一种基于用户数据类型需求的链路自适应方法及装置 | |
US11510097B2 (en) | Environment control device and method for inferring an optimal wireless data transfer rate using a neural network | |
CN114090108B (zh) | 算力任务执行方法、装置、电子设备及存储介质 | |
JP6632778B1 (ja) | 無線通信装置、無線通信システムおよび無線通信プログラム | |
JP2019008645A (ja) | サーバ装置、サーバ装置がIoTデバイスと通信する方法、コンピュータプログラム、通信システムおよびIoTデバイス | |
CN113923743A (zh) | 电力地下管廊的路由选择方法、装置、终端及存储介质 | |
JP6390167B2 (ja) | 通信スループット予測装置、通信スループット予測方法、及び、プログラム | |
JP2022551993A (ja) | ネットワークに未加入のノードへの輻輳通知による動的加入時刻の実現 | |
CN113315773B (zh) | 一种码率调整方法、装置、电子设备及存储介质 | |
TWI727519B (zh) | 終端裝置、通信系統及通信方法 | |
JP2024524005A (ja) | メッセージエネルギ予測を使用する無線デバイス用のバッテリ寿命延長 | |
JP4170251B2 (ja) | 通信制御装置、並びに、そのプログラムおよび記録媒体 | |
JP7478300B1 (ja) | 通信制御装置および通信制御方法 | |
Sun et al. | Confidence interval based model predictive control of transmit power with reliability constraint | |
JP2022523213A (ja) | メッシュネットワーク通信のためのモード選択 | |
CN112532346A (zh) | 一种基于用户时间需求的链路自适应方法及装置 | |
JP7302441B2 (ja) | 無線フレーム解析システム、無線フレーム解析方法、及びプログラム | |
WO2016079948A1 (ja) | 設定装置、設定方法、設定プログラムが記録された記録媒体、通信システム、クライアント装置、及び、サーバ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190723 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190723 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190723 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6632778 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |