WO2023170783A1

WO2023170783A1 - 信号解析装置、信号解析方法、制御回路および記憶媒体

Info

Publication number: WO2023170783A1
Application number: PCT/JP2022/009985
Authority: WO
Inventors: 学高木; 康義能田
Original assignee: 三菱電機株式会社
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2023-09-14
Also published as: JPWO2023170783A1

Abstract

信号解析装置（１０）は、入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークで構成され、信号が入力されると入力された信号に対して実行する行動をニューラルネットワークにより決定する行動決定部（２）と、行動決定部で決定された行動を実行するとともに、実行した行動に対する報酬を算出する環境計算部（３）と、行動決定部による行動の決定と、環境計算部による行動の実行および報酬の計算とを繰り返し実行させる制御を行い、入力された信号の搬送波周波数およびシンボルタイミングの推定および補正を実行させる信号解析制御部（１）と、を備える。

Description

信号解析装置、信号解析方法、制御回路および記憶媒体

　本開示は、信号解析装置、信号解析方法、制御回路および記憶媒体に関する。

　スペクトル監視などの分野において変調方式識別や通信パラメータ推定は重要な技術である。特に通信パラメータの一つである搬送波周波数の推定はこれまで様々な手法が提案されてきた。例えば、非特許文献１には、ＭＲＥ（Modified　Renyi　Entropy）という指標を計算することでＱＰＳＫ（Quadrature　Phase　Shift　Keying）方式の信号の搬送波周波数およびシンボルタイミングを正確に推定する方法が記載されている。

Xiao　Liu，Jean-Francois　Bousquet，"Symbol　Timing　and　Carrier　Frequency　Recovery　Based　on　Entropy　Minimization"，IEEE　Access，vol.6，pp.53319-53329，2018.

　上記従来の技術によれば、変調方式によってＭＲＥが収束する値が異なるため、変調方式毎にしきい値を準備しておくことで複数の変調方式の搬送波周波数およびシンボルタイミングを推定できる。しかし、上記従来の技術はＳＮＲ（Signal　to　Noise　Ratio：信号対雑音比）の高い、つまりノイズの少ない受信信号を前提として考えられた手法であるため、ＳＮＲが低い場合には搬送波周波数やシンボルタイミングの推定精度が著しく低下するという課題があった。

　本開示は、上記に鑑みてなされたものであって、変調方式の違いやＳＮＲの違いによらずに入力信号の搬送波周波数およびシンボルタイミングを高精度に推定することが可能な信号解析装置を得ることを目的とする。

　上述した課題を解決し、目的を達成するために、本開示にかかる信号解析装置は、入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークで構成され、信号が入力されると入力された信号に対して実行する行動をニューラルネットワークにより決定する行動決定部と、行動決定部で決定された行動を実行するとともに、実行した行動に対する報酬を算出する環境計算部と、を備える。また、信号解析装置は、行動決定部による行動の決定と、環境計算部による行動の実行および報酬の計算とを繰り返し実行させる制御を行い、入力された信号の搬送波周波数およびシンボルタイミングの推定および補正を実行させる信号解析制御部、を備える。

　本開示にかかる信号解析装置は、変調方式の違いやＳＮＲの違いによらずに入力信号の搬送波周波数およびシンボルタイミングを高精度に推定することができる、という効果を奏する。

実施の形態１にかかる信号解析装置の機能構成例を示す図実施の形態１にかかる信号解析装置を実現するハードウェアの第１の構成例を示す図実施の形態１にかかる信号解析装置を実現するハードウェアの第２の構成例を示す図実施の形態１にかかる信号解析装置の学習ステップ時に動作する処理部を示す図実施の形態１にかかる信号解析装置の学習動作ブロックによる学習ステップの動作の一例を示すフローチャート実施の形態１にかかる信号解析装置の学習用データ保存部に保存される学習用データの一例を示す図実施の形態１にかかる信号解析装置の行動決定部が決定する行動の一例を示す図実施の形態１にかかる環境計算部が周波数を補正した後の学習用データのコンステレーションの一例を示す図実施の形態１にかかる環境計算部が周波数を補正した学習用データのアイパターンの一例を示す図実施の形態１にかかる信号解析装置の環境計算部がコンステレーションに関する報酬を計算する方法を示す図実施の形態１にかかる信号解析装置の環境計算部がアイパターンに関する報酬を計算する方法を示す図実施の形態１にかかる信号解析装置の環境計算部が補正後のＩＱデータのコンステレーションに関する報酬を計算する方法を示す図実施の形態１にかかる信号解析装置の環境計算部が補正後のＩＱデータのアイパターンに関する報酬を計算する方法を示す図実施の形態１にかかる信号解析装置の運用ステップ時に動作する処理部を示す図実施の形態１にかかる信号解析装置の運用動作ブロックによる運用ステップの動作の一例を示すフローチャート実施の形態２にかかる信号解析装置の機能構成例を示す図実施の形態２にかかる信号解析装置による学習ステップの動作の一例を示すフローチャート

　以下に、本開示の実施の形態にかかる信号解析装置、信号解析方法、制御回路および記憶媒体を図面に基づいて詳細に説明する。

実施の形態１．
　図１は、実施の形態１にかかる信号解析装置１０の機能構成例を示す図である。信号解析装置１０には解析対象の信号として、同相信号および直交信号からなるＩＱデータが入力される。信号解析装置１０は、入力信号の搬送波周波数とシンボルタイミングとを推定する。なお、これ以降の説明では、「搬送波周波数」を単に「周波数」と称する場合がある。同様に、「シンボルタイミング」を単に「タイミング」と称する場合がある。

　図１に示すように、信号解析装置１０は、信号解析制御部１と、行動決定部２と、環境計算部３と、学習用データ保存部４と、学習制御部５とを備える。行動決定部２は、ニューラルネットワーク、詳細には畳み込みニューラルネットワーク（ＣＮＮ：Convolutional　Neural　Network）で構成される。なお、これ以降の説明では、畳み込みニューラルネットワークをＣＮＮと記載する場合がある。

　信号解析制御部１は、外部からの入力信号であるＩＱデータ、または、環境計算部３で周波数およびタイミングが補正されたＩＱデータを行動決定部２に出力する。また、信号解析制御部１は、入力信号の解析処理が終了した場合には解析結果を外部に出力する。

　行動決定部２は、信号解析制御部１から入力されたＩＱデータをＣＮＮへ入力し、その出力を環境計算部３に出力する。行動決定部２のＣＮＮは環境計算部３が実行する行動を決定する。すなわち、ＣＮＮは、入力されたＩＱデータの現在の推定結果をどう補正するかといった補正方法、例えば、周波数推定値を±α[Hz]する行動を決定する。

　環境計算部３は、行動決定部２から入力される行動に基づきＩＱデータの周波数およびタイミングを補正し、補正したＩＱデータから環境であるコンステレーションおよびアイパターンを計算するとともに行動に対する報酬を計算し、その結果を信号解析制御部１に出力する。

　学習用データ保存部４は、学習対象である様々なＩＱデータ、具体的には、信号諸元、ＳＮＲ、周波数オフセットおよびタイミングオフセットといった、信号の特徴を表すパラメータの中の１つ以上が異なる複数のＩＱデータを予め保存している。学習用データ保存部４は、学習制御部５が後述する処理を行うタイミングで、保存しているＩＱデータを出力する。なお、信号諸元とは、信号に関する情報であり、ＡＭ（Amplitude　Modulation：振幅変調）およびＦＭ（Frequency　Modulation：周波数変調）といった電波の伝送方式、ＦＳＫ（Frequency　Shift　Keying：周波数偏移変調）、ＱＰＳＫ（Quadrature　Phase　Shift　Keying：四位相偏移変調）などの変調方式、ＤＳＳＳ（Direct　Sequence　Spread　Spectrum：直接拡散方式）、ＯＦＤＭ（Orthogonal　Frequency　Division　Multiplexing：直交波周波数分割多重）などの二次変調の方式までを含む。

　学習制御部５は、学習用データ保存部４から入力される学習用データであるＩＱデータを用いた学習の制御を行う。具体的には、学習制御部５は、学習用データと、環境計算部３から入力される補正後のＩＱデータと、環境計算部３から入力される、環境であるコンステレーションおよびアイパターンと、行動決定部２で決定した行動に対する報酬値とに基づいて実施する学習の制御を行う。なお、学習用データ保存部４および学習制御部５は後述する学習ステップで動作する。

　なお、本実施の形態は、受信信号であるＩＱデータを信号解析装置１０に入力するものとして説明を行うが、受信信号をその他の形式とし、信号解析装置１０の内部で受信信号をＩＱデータに変換する構成としてもよい。

　次に、信号解析装置１０を実現するハードウェアについて説明する。信号解析装置１０は、図２または図３に示す構成のハードウェアで実現することが可能である。

　図２は、実施の形態１にかかる信号解析装置１０を実現するハードウェアの第１の構成例を示す図である。また、図３は、実施の形態１にかかる信号解析装置１０を実現するハードウェアの第２の構成例を示す図である。図２は、信号解析装置１０の要部、具体的には、信号解析制御部１、行動決定部２、環境計算部３、学習用データ保存部４および学習制御部５を専用のハードウェアである処理回路１０２で実現する場合のハードウェア構成を示す。処理回路１０２は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ(Field　Programmable　Gate　Array)、またはこれらを組み合わせた回路である。なお、図２に示す例では、信号解析制御部１、行動決定部２、環境計算部３、学習用データ保存部４および学習制御部５を単一の処理回路１０２で実現するものとしたがこれに限定されない。ハードウェアが複数の処理回路１０２を備え、信号解析制御部１、行動決定部２、環境計算部３、学習用データ保存部４および学習制御部５をそれぞれ異なる処理回路で実現してもよい。

　入力部１０１は、信号解析装置１０への入力信号であるＩＱデータを外部から受信する回路である。また、出力部１０３は、信号解析装置１０による信号解析結果と、信号解析結果に基づいて補正を行うことにより得られる補正後のＩＱデータとを外部に出力する回路である。

　図３は、図２に示す処理回路１０２をメモリ１０４およびプロセッサ１０５で実現する場合のハードウェア構成、すなわち、信号解析装置１０の要部をメモリ１０４およびプロセッサ１０５で実現する場合のハードウェア構成を示す。メモリ１０４は、例えば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリー、ＥＰＲＯＭ（Erasable　Programmable　Read　Only　Memory）、ＥＥＰＲＯＭ（登録商標）（Electrically　Erasable　Programmable　Read　Only　Memory）等の、不揮発性または揮発性のメモリである。プロセッサ１０５は、ＣＰＵ（Central　Processing　Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital　Signal　Processor）ともいう）である。

　信号解析装置１０の要部をメモリ１０４およびプロセッサ１０５で実現する場合、信号解析制御部１、行動決定部２、環境計算部３および学習制御部５として動作するための処理が記述されたプログラムをプロセッサ１０５が実行することにより、これらの各部が実現される。信号解析制御部１、行動決定部２、環境計算部３および学習制御部５として動作するための処理が記述されたプログラムはメモリ１０４に予め格納されている。プロセッサ１０５は、メモリ１０４に格納されているプログラムを読み出して実行することにより、信号解析制御部１、行動決定部２、環境計算部３および学習制御部５として動作する。また、学習用データ保存部４はメモリ１０４により実現される。

　なお、信号解析制御部１、行動決定部２、環境計算部３および学習制御部５の一部をメモリ１０４およびプロセッサ１０５で実現し、残りを図２に示す処理回路１０２と同様の専用のハードウェアで実現してもよい。

　また、上記のプログラムは、メモリ１０４に予め格納されているものとしたがこれに限定されない。上記のプログラムは、ＣＤ（Compact　Disc）－ＲＯＭ、ＤＶＤ（Digital　Versatile　Disc）－ＲＯＭなどの記憶媒体に書き込まれた状態でユーザに供給され、ユーザがメモリ１０４にインストールする形態であってもよい。

　次に、信号解析装置１０の動作について説明する。本実施の形態にかかる信号解析装置１０は機械学習の一つである強化学習をベースとした構成になっており、動作として学習ステップおよび運用ステップの２つのステップに分けられる。これら２つのステップのそれぞれの動作を以下で説明する。

＜学習ステップ＞
　図４は、実施の形態１にかかる信号解析装置１０の学習ステップ時に動作する処理部を示す図である。学習ステップにおいては、学習動作ブロック１１を構成する各部、すなわち、行動決定部２、環境計算部３、学習用データ保存部４および学習制御部５が動作する。

　学習ステップでは、学習用データ保存部４に保存された学習用データを入力として、行動決定部２の処理と環境計算部３の処理とを繰り返し、その処理の内容および結果から学習制御部５によって行動決定部２のＣＮＮのパラメータが更新される。これは機械学習の強化学習をベースとした構成であり、行動決定部２は強化学習におけるエージェント、環境計算部３は環境の役割を担っている。信号解析装置１０が学習ステップにおいて、様々な変調方式やＳＮＲ、周波数オフセットおよびタイミングオフセットの信号に対する周波数およびタイミングの推定処理（行動）を学習しておくことで、後述する運用ステップにおいて、どのような変調方式やＳＮＲの信号に対しても、高精度に搬送波周波数およびシンボルタイミングを推定可能になる、という効果が得られる。

　図５は、実施の形態１にかかる信号解析装置１０の学習動作ブロック１１による学習ステップの動作の一例を示すフローチャートである。なお、学習用データ保存部４は、学習で必要な数の学習用データを保存済みであるものとする。

　学習ステップでは、まず、学習制御部５が、学習用データ保存部４から学習用データを取得する（ステップＳ１）。ここでは、一例として、学習用データ保存部４に保存されている学習用データが図６に示すような変調方式、ＳＮＲ、周波数オフセットおよびタイミングオフセットをもつ複数のＩＱデータであるものとして説明を続ける。図６は、実施の形態１にかかる信号解析装置１０の学習用データ保存部４に保存される学習用データの一例を示す図である。

　図６に示すように、学習用データＤ１と学習用データＤ２は、変調方式、周波数オフセットおよびタイミングオフセットは同じであるがＳＮＲが異なる。また、学習用データＤ１と学習用データＤ３は、変調方式およびＳＮＲは同じであるが周波数オフセットおよびタイミングオフセットが異なる。学習用データＤ１と学習用データＤ４は、変調方式、ＳＮＲ、周波数オフセットおよびタイミングオフセットのいずれも異なるデータである。この様に、変調方式、ＳＮＲ、周波数オフセットおよびタイミングオフセットが同じまたは異なる数多くのＩＱデータが学習用データとして学習用データ保存部４に保存されているものとする。なお、学習用データに含まれる信号の特徴を表すパラメータとして、変調方式、ＳＮＲ、周波数オフセットおよびタイミングオフセットを例示したがこれらに限定されない。

　次に、学習制御部５が、取得した学習用データの中の１つを選択して行動決定部２に受け渡し、行動決定部２が、受け取った学習用データをＣＮＮに入力して行動を算出する（ステップＳ２）。行動決定部２は、算出した行動を環境計算部３に出力する。ＣＮＮによる行動の算出では、例えば、図７に示すような行動テーブルをあらかじめ設定しておき、それらの行動をソフトマックス関数などで選択するようにしてもよい。図７は、実施の形態１にかかる信号解析装置１０の行動決定部２が決定する行動の一例を示す図である。行動ａ１～ａ４では、周波数オフセット推定値を５Ｈｚまたは１０Ｈｚ増減させる。行動ａ５～ａ８では、タイミングオフセット推定値を５チップまたは１０チップ増減させる。行動決定部２を構成するＣＮＮは、学習用データの入力があると、図７に示す行動ａ１～ａ８のいずれかを選択して出力する。ＣＮＮの構成は一般的なものであり、従来同様のものなので説明を省略する。ここでは、一例として、学習用データＤ１がＣＮＮに入力され、その結果、行動ａ１が選択されたものとして説明を続ける。

　次に、環境計算部３が、行動決定部２で決定された行動を実施して学習用データの周波数およびタイミングを補正する（ステップＳ３）。補正は周波数およびタイミングの両方に対して行ってもよいし一方に対して行ってもよい。この例では、周波数オフセット推定値を＋５Ｈｚする。

　次に、環境計算部３が、補正した学習用データから環境および報酬を算出する（ステップＳ４）。詳細には、環境計算部３は、環境であるコンステレーションおよびアイパターンを算出し、さらに、コンステレーションおよびアイパターンから報酬を算出する。なお、報酬とは強化学習において、直前の行動がどれだけ適切であったかを評価する値である。ステップＳ４では、ステップＳ３で行った補正についての報酬を計算する。図８は、実施の形態１にかかる環境計算部３が周波数を補正した後の学習用データのコンステレーションの一例を示す図、図９は、実施の形態１にかかる環境計算部３が周波数を補正した学習用データのアイパターンの一例を示す図である。この時点では、まだ周波数およびタイミング共に推定が完了していないため、図８および図９に示すような、オフセットが残留したコンステレーションおよびアイパターンとなる。

　補正した後の学習用データのコンステレーションおよびアイパターンに基づいて報酬を計算する方法について説明する。図１０は、実施の形態１にかかる信号解析装置１０の環境計算部３がコンステレーションに関する報酬を計算する方法を示す図、図１１は、実施の形態１にかかる信号解析装置１０の環境計算部３がアイパターンに関する報酬を計算する方法を示す図である。

　環境計算部３は、コンステレーションに関する報酬を計算する際には、コンステレーションの各信号点の偏角Θをヒストグラム化したものを用い、アイパターンに関する報酬を計算する際にはアイの中心をヒストグラム化したものを用い、式（１）に示す計算を行う。式（１）に示す計算は、コンステレーションおよびアイパターンのそれぞれについて行う。

　reward_consteをコンステレーションについての式（１）の計算結果、reward_eyeをアイパターンについての式（１）の計算結果とする。環境計算部３は、次に、コンステレーションおよびアイパターンそれぞれについての式（１）の計算結果を用いて式（２）に示す計算を行い、計算結果を報酬（reward）とする。式（２）において、αは正規化項であり０～１の範囲の値をとる。

　ＱＰＳＫ変調方式の場合、周波数およびタイミングが精度よく推定できている場合は図１２に示すようにコンステレーションは４点に収束し、図１３に示すようにアイパターンは２値に収束するため、ヒストグラムの度数の平均（avg(hist)）と最大（max(hist)）との比が大きくなり、報酬（reward）も大きくなる。なお、図１２は、実施の形態１にかかる信号解析装置１０の環境計算部３が補正後のＩＱデータのコンステレーションに関する報酬を計算する方法を示す図、図１３は、実施の形態１にかかる信号解析装置１０の環境計算部３が補正後のＩＱデータのアイパターンに関する報酬を計算する方法を示す図である。

　これに対して、周波数およびタイミングが推定できていない場合はヒストグラムの度数の平均と最大との比は１に近づく。このため行動による周波数およびタイミングの補正の前後で報酬を計算しておくことで行動が適切であったかどうかを評価することができる。学習制御部５は、この行動および報酬に基づいて、すなわち、行動と報酬との関係から、行動決定部２のＣＮＮのパラメータを更新する（ステップＳ５）。ＣＮＮの学習方法は一般的な手法であり、従来同様のものであるため、ＣＮＮのパラメータの更新処理について説明を省略する。

　次に、学習制御部５が、補正が完了したかを確認し（ステップＳ６）、完了していない場合（ステップＳ６：Ｎｏ）、ステップＳ２に戻り、上述したステップＳ２～Ｓ５の一連の処理を繰り返す。すなわち、信号解析装置１０は、学習用データＤ１の補正が完了するまで、ステップＳ２～Ｓ５の処理を繰り返し、行動決定部２を構成するＣＮＮのパラメータの更新を進める。信号解析装置１０は、例えば、環境計算部３で算出する報酬が定められた閾値以上となるまで処理を繰り返す。この結果、１回の学習すなわち１つの学習用データについての学習が完了する。

　補正が完了した場合（ステップＳ６：Ｙｅｓ）、学習制御部５が、ステップＳ１で取得した全ての学習用データについて学習が完了したかを確認する（ステップＳ７）。ここでは、図６に示す学習用データＤ１～Ｄ４をステップＳ１で取得したものとして説明を続ける。学習制御部５は、学習用データＤ１～Ｄ４について学習が完了した場合（ステップＳ７：Ｙｅｓ）、学習ステップを終了する。学習用データＤ１～Ｄ４の中に学習が完了していないものがある場合（ステップＳ７：Ｎｏ）、ステップＳ２に戻り、学習制御部５は、学習が完了していない学習用データの中の１つを選択して行動決定部２に受け渡す。以下、上述したステップＳ２～Ｓ６を繰り返す。

　なお、上述したステップＳ４では、行動を実施して得られた信号のコンステレーションおよびアイパターンに基づいて行動に対する報酬を計算する例を示したが、コンステレーションのみに基づいて報酬を算出してもよいし、アイパターンのみに基づいて報酬を計算してもよい。すなわち、環境計算部３は、式（１）を用いて算出したreward_consteを行動に対する報酬として学習制御部５に出力する構成であってもよいし、式（１）を用いて算出したreward_eyeを行動に対する報酬として学習制御部５に出力する構成であってもよい。

＜運用ステップ＞
　図１４は、実施の形態１にかかる信号解析装置１０の運用ステップ時に動作する処理部を示す図である。運用ステップにおいては、運用動作ブロック１２を構成する各部、すなわち、信号解析制御部１、行動決定部２および環境計算部３が動作する。

　運用ステップでは、外部からのＩＱデータを入力として、上述した学習ステップで最適化したＣＮＮで構成される行動決定部２と、環境および報酬を計算する環境計算部３とが後述の処理を繰り返すことで、ＩＱデータの周波数およびタイミングの補正を行う。信号解析制御部１は、例えば、所定の処理回数に達するなどして終了条件を満たすまで処理を繰り返すように行動決定部２および環境計算部３を制御する。そして、信号解析制御部１は、行動決定部２および環境計算部３が処理を繰り返し実行して得られた処理結果、具体的には、周波数およびタイミングの推定結果、または、補正後のＩＱデータ、または、これらすべてを出力する。学習ステップで様々な変調方式やＳＮＲ、周波数オフセットおよびタイミングオフセットの信号を学習しておくことで、この運用ステップでも、いかなる条件の信号が入力された場合でも高精度に周波数およびタイミングの推定を行い、その推定結果や補正したＩＱデータを出力することができる。

　図１５は、実施の形態１にかかる信号解析装置１０の運用動作ブロック１２による運用ステップの動作の一例を示すフローチャートである。なお、上述した学習ステップが実施され、行動決定部２を構成するＣＮＮのパラメータ調整が完了しているものとする。

　運用ステップでは、まず、信号解析制御部１が、外部から入力されるＩＱデータを取得する（ステップＳ１１）。次に、信号解析制御部１が、取得したＩＱデータを行動決定部２に受け渡し、行動決定部２が、受け取ったＩＱデータをＣＮＮに入力して行動を算出する（ステップＳ１２）。このステップＳ１２は、取り扱うデータがＩＱデータである点を除いて、上述したステップＳ２と同様の処理である。すなわち、行動決定部２は、信号解析制御部１から入力されたＩＱデータを対象として、上述したステップＳ２の処理を行い、入力信号であるＩＱデータに対して実行する行動を決定する。そのため、ステップＳ１２の説明は省略する。

　次に、環境計算部３が、行動決定部２で決定された行動を実施してＩＱデータの周波数およびタイミングを補正し（ステップＳ１３）、さらに、補正したＩＱデータから環境および報酬を算出する（ステップＳ１４）。これらのステップＳ１３およびＳ１４は、取り扱うデータがＩＱデータである点を除いて、上述したステップＳ３およびＳ４と同様の処理である。そのため、ステップＳ１３およびＳ１４の説明は省略する。環境計算部３は、補正したＩＱデータおよび算出した報酬を信号解析制御部１に出力する。

　次に、信号解析制御部１が、補正が完了したかを確認し（ステップＳ１５）、完了していない場合（ステップＳ１５：Ｎｏ）、ステップＳ１２に戻り、ステップＳ１２～Ｓ１４の一連の処理を繰り返す。すなわち、信号解析装置１０は、入力されたＩＱデータの補正が完了するまで、ステップＳ１２～Ｓ１５の処理を繰り返す。このとき、信号解析制御部１は、環境計算部３から出力された補正後のＩＱデータを行動決定部２に出力する。行動決定部２は、補正後のＩＱデータに対してステップＳ１２を実行する。信号解析装置１０は、例えば、環境計算部３で算出する報酬が定められた閾値以上となるまで処理を繰り返す。すなわち、信号解析制御部１は、環境計算部３から入力された報酬が閾値以上の場合に補正が完了したと判断する。

　補正が完了した場合（ステップＳ１５：Ｙｅｓ）、運用ステップが終了となる。運用ステップが終了すると、信号解析制御部１は処理結果を外部に出力する。信号解析制御部１が出力する処理結果は、入力されたＩＱデータの解析結果すなわち搬送波周波数およびシンボルタイミングの推定結果であってもよいし、入力されたＩＱデータの搬送波周波数およびシンボルタイミングを推定結果に基づいて補正して得られた補正後のＩＱデータであってもよいし、入力されたＩＱデータの解析結果および補正後のＩＱデータの両方を出力してもよい。

　以上のように、本実施の形態において、信号解析装置１０は、あらかじめ様々な変調方式やＳＮＲ、周波数オフセットおよびタイミングオフセットのＩＱデータを用いた学習を行い、行動決定部２を構成するＣＮＮのパラメータを調整する。これにより、運用時には、いかなる条件の信号が入力された場合でも、高精度に搬送波周波数およびシンボルタイミングの推定を行い、その推定結果を出力したり、推定結果に基づいて搬送波周波数およびシンボルタイミングを補正した信号を出力したりすることが可能となる。

実施の形態２．
　実施の形態１にかかる信号解析装置１０は、学習用データ保存部４に保存しておいた様々な変調方式やＳＮＲ、周波数オフセットおよびタイミングオフセットのＩＱデータを用いて行動決定部２のＣＮＮを学習しておくことで、運用ステップ時にいかなる条件のＩＱデータが入力された場合でも高精度に搬送波周波数およびシンボルタイミングの推定を可能とした。しかし、必ずしも学習用データを用意できる訳ではないので、実施の形態２では学習用データがあらかじめ用意できない場合でも入力されたＩＱデータから学習用データを自身で生成し学習を行う信号解析装置について説明する。

　図１６は、実施の形態２にかかる信号解析装置１０ａの機能構成例を示す図である。実施の形態２にかかる信号解析装置１０ａは、実施の形態１にかかる信号解析装置１０の学習用データ保存部４を学習用データ生成部６に置き換えた構成である。学習用データ生成部６以外の構成要素については実施の形態１と共通であるため、説明を省略する。

　信号解析装置１０ａでは、外部からのＩＱデータが信号解析制御部１および学習用データ生成部６に入力される。学習用データ生成部６は、入力されたＩＱデータに任意のレベルのＡＷＧＮ（Additive　White　Gaussian　Noise：加算性白色ガウス雑音）を加えることで、ＳＮＲの異なる学習用データを生成する。

　次に、本実施の形態にかかる信号解析装置１０ａの動作について説明する。信号解析装置１０ａの動作は実施の形態１にかかる信号解析装置１０の動作と同様に、学習ステップと運用ステップとに分けられるが、運用ステップは共通であり学習ステップのみが異なる。そのため、学習ステップについて説明し、運用ステップについては説明を省略する。

＜学習ステップ＞
　学習ステップでは、信号解析装置１０ａの行動決定部２、環境計算部３、学習制御部５および学習用データ生成部６が動作する。

　図１７は、実施の形態２にかかる信号解析装置１０ａによる学習ステップの動作の一例を示すフローチャートである。図１７のフローチャートは、実施の形態１にかかる信号解析装置１０の学習ステップの動作を示す図５のフローチャートのステップＳ１をステップＳ２１およびＳ２２に置き換えたものである。

　信号解析装置１０ａによる学習ステップでは、まず、学習用データ生成部６が、外部から入力されるＩＱデータを取得し（ステップＳ２１）、取得したＩＱデータから学習用データを生成する（ステップＳ２２）。具体的には、学習用データ生成部６は、取得したＩＱデータに任意のレベルのＡＷＧＮを加算する処理を行い、学習用データを生成する。なお、任意のレベルのＡＷＧＮを加算する処理は一般的な手法であり、従来同様のものであるため説明は省略する。本実施の形態は、機械学習の強化学習をベースとした構成となっているため、学習用データにラベルをつける必要はない。そのため、学習用データの加工が可能である。ステップＳ２２に続いて実行されるステップＳ２～Ｓ７は実施の形態１と共通であるため、説明を省略する。

　以上のように、実施の形態２にかかる信号解析装置１０ａは、外部から入力されるＩＱデータに基づいて学習用データを生成し、行動決定部２のＣＮＮの学習を行う。信号解析装置１０ａは、学習用データが用意できない場合でも、様々なＳＮＲのＩＱデータを用いて行動決定部２のＣＮＮを学習することができ、実施の形態１にかかる信号解析装置１０と同様に、運用時には、いかなる条件の信号が入力された場合でも、高精度に搬送波周波数およびシンボルタイミングの推定を行い、その推定結果を出力したり、推定結果に基づいて搬送波周波数およびシンボルタイミングを補正した信号を出力したりすることができる。

　各実施の形態で説明した本開示にかかる信号解析装置１０および１０ａは、様々な変調方式やＳＮＲ、搬送波周波数オフセットおよびシンボルタイミングオフセットを持つ信号の搬送波周波数およびシンボルタイミングを推定するのに有用であり、特にスペクトル監視などに適している。また、信号の搬送波周波数推定およびシンボルタイミング推定は無線通信の根幹となる技術のため適用先はスペクトル監視にとどまらない。

　以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。

　１　信号解析制御部、２　行動決定部、３　環境計算部、４　学習用データ保存部、５　学習制御部、６　学習用データ生成部、１０，１０ａ　信号解析装置、１１　学習動作ブロック、１２　運用動作ブロック。

Claims

　入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークで構成され、信号が入力されると入力された前記信号に対して実行する行動を前記ニューラルネットワークにより決定する行動決定部と、
　前記行動決定部で決定された行動を実行するとともに、実行した行動に対する報酬を算出する環境計算部と、
　前記行動決定部による行動の決定と、前記環境計算部による行動の実行および報酬の計算とを繰り返し実行させる制御を行い、入力された前記信号の搬送波周波数およびシンボルタイミングの推定および補正を実行させる信号解析制御部と、
　を備えることを特徴とする信号解析装置。
　前記ニューラルネットワークを学習させるための学習用データとして、信号の特徴を表す複数のパラメータの中の１つ以上が異なる複数の信号を保存する学習用データ保存部と、
　前記学習用データ保存部に保存された各信号を順番に選択し、選択した信号に対する行動を前記行動決定部に決定させるとともに、前記行動決定部により決定された行動に対する報酬を前記環境計算部に算出させ、前記行動決定部により決定された行動および前記環境計算部により算出された報酬に基づいて前記ニューラルネットワークのパラメータを更新する学習制御部と、
　を備えることを特徴とする請求項１に記載の信号解析装置。
　信号の特徴を表す複数の前記パラメータを信号諸元、雑音レベル、搬送波周波数およびシンボルタイミングとする、
　ことを特徴とする請求項２に記載の信号解析装置。
　外部から入力された信号を構成する同相信号および直交信号に雑音を付加して前記ニューラルネットワークを学習させるための学習用データを生成する学習用データ生成部と、
　前記学習用データ生成部で生成された各信号を順番に選択し、選択した信号に対する行動を前記行動決定部に決定させるとともに、前記行動決定部により決定された行動に対する報酬を前記環境計算部に算出させ、前記行動決定部により決定された行動および前記環境計算部により算出された報酬に基づいて前記ニューラルネットワークのパラメータを更新する学習制御部と、
　を備えることを特徴とする請求項１に記載の信号解析装置。
　前記環境計算部は、前記行動決定部で決定された行動を実行して得られた信号のコンステレーションに含まれる各信号点ヒストグラム化し、ヒストグラムのピークと平均とに基づいて前記報酬を算出する、
　ことを特徴とする請求項１から４のいずれか一つに記載の信号解析装置。
　前記環境計算部は、前記行動決定部で決定された行動を実行して得られた信号のアイパターンの中心をヒストグラム化し、ヒストグラムのピークと平均とに基づいて前記報酬を算出する、
　ことを特徴とする請求項１から５のいずれか一つに記載の信号解析装置。
　信号解析装置が実行する信号解析方法であって、
　入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークを用いて、入力された信号に対して実行する行動を決定する第１のステップと、
　前記第１のステップで決定した行動を実行するとともに、実行した行動に対する報酬を算出する第２のステップと、
　を含み、
　前記第１のステップおよび前記第２のステップを繰り返し実行し、入力された前記信号の搬送波周波数およびシンボルタイミングの推定および補正を行う、
　ことを特徴とする信号解析方法。
　信号解析装置を制御する制御回路であって、
　入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークを用いて、入力された信号に対して実行する行動を決定する第１のステップと、
　前記第１のステップで決定した行動を実行するとともに、実行した行動に対する報酬を算出する第２のステップと、
　を含み、
　前記第１のステップおよび前記第２のステップを繰り返し実行し、入力された前記信号の搬送波周波数およびシンボルタイミングの推定および補正を行う処理、
　を前記信号解析装置に実行させることを特徴とする制御回路。
　信号解析装置を制御するプログラムを記憶する記憶媒体であって、
　前記プログラムは、
　入力信号の搬送波周波数およびシンボルタイミングの推定値を補正するための行動を学習してパラメータが調整済みのニューラルネットワークを用いて、入力された信号に対して実行する行動を決定する第１のステップと、
　前記第１のステップで決定した行動を実行するとともに、実行した行動に対する報酬を算出する第２のステップと、
　を含み、
　前記第１のステップおよび前記第２のステップを繰り返し実行し、入力された前記信号の搬送波周波数およびシンボルタイミングの推定および補正を行う処理、
　を前記信号解析装置に実行させることを特徴とする記憶媒体。