WO2025041282A1

WO2025041282A1 - 学習装置、雑音除去装置、および訓練データ生成装置

Info

Publication number: WO2025041282A1
Application number: PCT/JP2023/030226
Authority: WO
Inventors: 憲治石川; 大起竹内; 登原田; 健弘守谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2025-02-27
Anticipated expiration: 2026-02-23

Abstract

従来技術よりも高精度に音場動画像の雑音除去を行い、性質が未知のデータや、非線形雑音を含むデータに対しても良好な雑音除去を行うことができる雑音除去装置等を提供する。雑音除去装置は、DNNからなり、音場画像を入力とし、音場画像に含まれるノイズを除去した音場画像を出力する。

Description

学習装置、雑音除去装置、および訓練データ生成装置

　本発明は、音場イメージング技術に関する。

　音場イメージングは、空間中の音を測定し、動画像として可視化する技術であり、マイクロホンアレイや光計測装置等を用いて行われる。音場動画像は、動画像の各ピクセルの値が測定空間中の音の振幅に対応する値となった離散データであり、音の時空間的な挙動や音響現象を観測および測定するのに用いられる。

　音場動画像に関する信号処理タスクのひとつに雑音除去がある。非特許文献１では、音場動画像に対して時空間周波数フィルタリングを用いて雑音除去を行う。測定対象である音の物理的な性質に合わせて設計したフィルタを用いることで、雑音を除去し、音信号を強調することが可能である。

N. Chitanont, K. Yatabe, K. Ishikawa, and Y. Oikawa, "Spatio-temporal filter bank for visualizing audible sound field by schlieren method", Appl. Acoust. 115, 109-120 (2017).

　しかしながら、従来技術には、雑音除去性能に一定の限界があり、事前に音信号の性質を知っている必要があり、非線形雑音の除去には適さないなどの課題がある。

　本発明は、従来技術よりも高精度に音場動画像の雑音除去を行い、性質が未知のデータや、非線形雑音を含むデータに対しても良好な雑音除去を行うことができる雑音除去装置、雑音除去装置で用いるモデルの学習装置、学習装置で用いる訓練データを生成する訓練データ生成装置を提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、雑音除去装置は、DNNからなり、音場画像を入力とし、その音場画像に含まれるノイズを除去した音場画像を出力する。

　上記の課題を解決するために、本発明の他の態様によれば、学習装置は、DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力する雑音除去モデルを用いて、訓練データに含まれる学習用入力データに対する音場画像からノイズを除去し、ノイズ除去後の学習用入力データを得る雑音除去部と、訓練データに含まれる正解データとノイズ除去後の学習用入力データとの誤差が小さくなるように、雑音除去モデルのパラメータを更新する更新部と、を含む。

　上記の課題を解決するために、本発明の他の態様によれば、訓練データ生成装置は、正解データを生成する際に用いるパラメータを生成するパラメータ生成部と、パラメータを用いて音響シミュレーションにより、正解データを生成し、音場動画像を取得する計測システムに合わせて、任意のノイズを付加した正解データを学習用入力データとし、正解データと学習用入力データとの組からなる訓練データを得る訓練データ生成部とを含み、訓練データは、DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力する雑音除去モデルを学習する際に用いられる。

　本発明によれば、音場動画像の雑音除去を従来技術よりも高精度にすることができ、性質が未知のデータや、非線形雑音を含むデータに対しても良好な雑音除去を行うことができるという効果を奏する。

第一実施形態に係る雑音除去システムの機能ブロック図。第一実施形態に係る雑音除去システムの処理フローの例を示す図。訓練データ生成装置の機能ブロック図。訓練データ生成装置の処理フローの例を示す図。訓練データを生成する際のシミュレーションの模式図。学習装置の機能ブロック図。学習装置の処理フローの例を示す図。雑音除去装置の機能ブロック図。雑音除去装置の処理フローの例を示す図。雑音除去結果の例を示す図。本手法を適用するコンピュータの構成例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態では、DNN(Deep Neural Network)を用いて、高精度な雑音除去を実現する。DNNを用いることで、性質が未知のデータや、非線形雑音を含むデータに対しても良好な雑音除去を行うことができる。

　本実施形態では、音場動画像をフーリエ変換によって複素振幅として表現し、DNNで扱いやすくするために複素振幅で表現される音場画像（以下、複素振幅音場画像ともいう）を実部と虚部からなる2チャンネル画像とみなす。これによって、任意の画像ノイズ除去用DNNを音場雑音除去の目的に用いることができる。

　DNNを学習するためには、大量の訓練データを必要とするが、音場動画像に関して、実験で雑音を含まないデータと雑音を含むデータの対を大量に収集することは極めて困難である。そこで、本実施形態では、音響シミュレーションを用いて訓練データを生成する。

＜第一実施形態＞
　図１は第一実施形態に係る雑音除去システムの構成例を示す。図２は雑音除去システムの処理フローを示す。

　雑音除去システムは、訓練データ生成装置１００、学習装置２００および雑音除去装置３００を含む。

　訓練データ生成装置１００は、正解データと学習用入力データとの組からなる訓練データを生成し（Ｓ１００）、出力する。なお、正解データは音響シミュレーションを用いて生成したノイズを含まないデータであり、学習用入力データはノイズを含むデータである。

　学習装置２００は、訓練データを入力とし、雑音除去モデルを学習し（Ｓ２００）、学習済みの雑音除去モデルを出力する。雑音除去モデルは、DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力するモデルである。

　雑音除去装置３００は、雑音除去処理の前に、学習済みの雑音除去モデルを受け取る。雑音除去装置３００は、処理対象の音場動画像を入力とし、音場動画像に含まれる雑音を除去し（Ｓ３００）、雑音除去後の音場動画像を出力する。音場動画像は、時系列の音場画像からなり、雑音除去装置３００は、処理対象の音場動画像を構成する音場画像を入力とし、音場動画像を構成する音場画像に含まれる雑音を除去し、雑音除去後の音場動画像を構成する音場画像を出力するとも言える。

　訓練データ生成装置１００、学習装置２００および雑音除去装置３００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。訓練データ生成装置１００、学習装置２００および雑音除去装置３００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。訓練データ生成装置１００、学習装置２００および雑音除去装置３００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。訓練データ生成装置１００、学習装置２００および雑音除去装置３００の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。訓練データ生成装置１００、学習装置２００および雑音除去装置３００が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも訓練データ生成装置１００、学習装置２００および雑音除去装置３００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、訓練データ生成装置１００、学習装置２００および雑音除去装置３００の外部に備える構成としてもよい。

　以下、各装置について説明する。

＜訓練データ生成装置１００＞
　図３は訓練データ生成装置１００の機能ブロック図を、図４はその処理フローの例を示す。

　訓練データ生成装置１００は、パラメータ生成部１１０、正解データ生成部１２０、ノイズ生成部１３０およびノイズ付加部１４０を含む。

＜パラメータ生成部１１０および正解データ生成部１２０＞
　正解データの生成には，音場データを数値的に計算することのできる任意の理論式・数値シミュレーション方法を用いることができる。データ作成に際して、生成手法の任意のパラメータを所望の確率分布から決定することで多様性な学習データを生成する。一例として次のような方法がある。

　パラメータをランダム化した2次元音場シミュレーションを使用する。図５はシミュレーションの模式図である。内側の長方形が測定領域で、その外側が音源領域となり、点音源がランダムに配置されている。単純なものから複雑なものまで多様な空間特性を持つ音場を生成するために、点音源の数は1～5個とし、各音源の位置と相対振幅をランダムに割り当てる。正解データは、これらの点音源から発生する音波の重ね合わせであり、次の式で計算される。

ここで、r=(x,y)は位置、kは音響波数の大きさ、Aは音場全体の大きさを決める定数、Nは音源の数、a_iとr_i=(x_i, y_i)はそれぞれi番目の音源の相対振幅と位置、H⁽²⁾ ₀は0次第2種ハンケル関数である。総和記号の内部はi番目の音源の相対振幅と2次元ヘルムホルツ方程式のグリーン関数の積を表している。パラメータを所望の確率分布から生成し、上式に基づいて各点の音圧を計算することで、正解データを生成する。

　パラメータ生成部１１０は、正解データを生成する際に用いるパラメータを生成し（Ｓ１１０）、出力する。パラメータとしては、各音源の相対振幅a_iと位置r_i等が考えられる。例えば、音源領域の中から所望の確率分布に従ってランダムに各音源の位置を割り当て、想定される相対振幅の範囲の中から所望の確率分布に従ってランダムに各音源に相対振幅を割り当てる。なお、測定領域、音源領域および点音源の個数は予め与えられているものとする。

　正解データ生成部１２０は、パラメータ生成部１１０で生成されたパラメータを入力とし、パラメータを用いて音響シミュレーションにより、正解データを生成し（Ｓ１２０）、出力する。例えば、音源の個数Nを１～５に変えながら、各音源の相対振幅a_iと位置r_iを入力とし、式(1)により、測定領域の各点における音圧を求め、正解データを生成する。

＜ノイズ生成部１３０およびノイズ付加部１４０＞
　音場動画像を取得する計測システムに合わせて、任意のノイズが与えることができる。例えば、加法性ガウスホワイトノイズである。所望の振幅を有するホワイトノイズ生成し、正解データに加算することで、ノイズありデータを生成する。

　ノイズ生成部１３０は、音場動画像を取得する計測システムに合わせて、任意のノイズを生成し（Ｓ１３０）、出力する。例えば、加法性ガウスホワイトノイズが生成される。

　ノイズ付加部１４０は、正解データと生成されたノイズを入力とし、正解データに生成されたノイズを付加し（Ｓ１４０）、ノイズを付加した正解データを学習用入力データとし、正解データと学習用入力データとの組からなる訓練データを出力する。例えば、ホワイトノイズを加算することで、ノイズを付加する。
　正解データ生成部１２０、ノイズ生成部１３０およびノイズ付加部１４０を合わせて訓練データ生成部１５０ともいい、訓練データ生成部１５０における処理を訓練データ生成処理Ｓ１５０ともいう。

　また、スペックル干渉計と呼ばれる光学システムを用いる音場イメージング結果の雑音除去を考える場合、スペックルノイズを付加することもできる。スペックルノイズデータの生成方法は、例えば参考文献１の方法などを用いることができる。ただしノイズを含むデータの生成方法は任意であり、これらに限定するものではない。
（参考文献１）Q. Fang, H. Xia, Q. Song, M. Zhang, R. Guo, S. Montresor, and P. Picart, "Speckle denoising based on deep learning via a conditional generative adversarial network in digital holographic interferometry", Opt. Express 30, 20666-20683 (2022).
　例えば、スペックルノイズデータの生成方法する場合、訓練データ生成部１５０は、パラメータ生成部１１０で生成されたパラメータを入力とし、パラメータを用いて音響シミュレーションにより、正解データを生成し、正解データを生成するアルゴリズムの途中でスペックルノイズを付加した正解データを生成する（Ｓ１５０）。

　このような構成とすることで、膨大な手間や時間のかかる実験なしに、音響シミュレーションによって大量の訓練データを生成することができる。

＜学習装置２００＞
　図６は学習装置２００の機能ブロック図を、図７はその処理フローの例を示す。

　学習装置２００は、画像変換部２１０、雑音除去部２２０および更新部２３０を含む。

＜画像変換部２１０＞
　画像変換部２１０は、訓練データを入力とする。訓練データに含まれる学習用入力データと正解データは、それぞれ複素振幅音場画像である。複素振幅音場画像の要素は、対応する空間位置とフーリエ周波数における複素振幅を表す。画像変換部２１０は、各複素振幅音場画像を実部と虚部からなる2チャンネル画像に変換する（Ｓ２１０）。例えば、複素振幅音場画像がK個の要素からなり、[a₁,…,a_K]と表現され、k番目の要素がa_k＝b_k+c_kjのとき、画像変換部２１０は、複素振幅音場画像[a₁,…,a_K]を、実部からなる画像(以下、実部画像ともいう)[b₁,…,b_K]と、虚部からなる画像(以下、虚部画像ともいう)[c₁,…,c_K]とに変換する。さらに、画像変換部２１０は、2チャンネル画像（実部画像[b₁,…,b_K]と虚部画像[c₁,…,c_K]）を正規化し、出力する。なお、ここで行われる正規化は、データを雑音除去モデルで扱いやすいものに整える処理であり、データに正規化係数を乗じる処理である。

＜雑音除去部２２０＞
　雑音除去部２２０は、訓練データに含まれる学習用入力データを入力とし、雑音除去モデルを用いて、学習用入力データからノイズを除去し（Ｓ２２０）、ノイズ除去後の学習用入力データを得、出力する。

　本実施形態では、雑音除去部２２０は、訓練データに含まれる学習用入力データ（複素振幅音場画像）を変換した2チャンネル画像（実部画像[b_T,1,…,b_T,K]と虚部画像[c_T,1,…,c_T,K]）を入力とし、雑音除去モデルを用いて、2チャンネル画像（実部画像[b_T,1,…,b_T,K]と虚部画像[c_T,1,…,c_T,K]）からノイズを除去し、ノイズ除去後の2チャンネル画像（実部画像[b'_T,1,…,b'_T,K]と虚部画像[c'_T,1,…,c'_T,K]）を得る。なお、雑音除去モデルは、前述の通り、DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力するモデルである。本実施形態では、雑音除去モデルは、実部画像と虚部画像を正規化したものを入力とし、実部画像と虚部画像に含まれるノイズを除去し、ノイズ除去後の実部画像と虚部画像を出力するモデルである。

　本実施形態では、2チャンネルの入力画像のノイズ除去にDNNを用いるため、画像のノイズ除去を行うネットワークであれば利用可能である。例えば、Unet構造のネットワークが使える。また、画像ノイズ除去に優れた性能を持ち、比較的小さなメモリと学習時間で動作可能なNAFNet (Nonlinear activation free network) (参考文献２参照)を使うこともできる。
（参考文献２）L. Chen, X. Chu, X. Zhang, and J. Sun, "Simple baselines for image restoration", in Proceedings of the European 350 Conference on Computer Vision (ECCV), (Springer Nature Switzerland, Cham, 2022), pp. 17-33

＜更新部２３０＞
　更新部２３０は、訓練データに含まれる正解データとノイズ除去後の学習用入力データとを入力とし、訓練データに含まれる正解データと、ノイズ除去後の学習用入力データとの誤差が小さくなるように、雑音除去モデルのパラメータを更新する（Ｓ２３０）。

　本実施形態では、訓練データに含まれる正解データ（複素振幅音場画像）を2チャンネル画像に変換し、正規化したものと、ノイズ除去後の2チャンネル画像（実部画像[b'_T,1,…,b'_T,K]と虚部画像[c'_T,1,…,c'_T,K]）との誤差が小さくなるように、雑音除去モデルのパラメータを更新する。例えば、ロスにはRMSE(Root Mean Square Error)を用い、最適化アルゴリズムには最急降下法、Adam等を用いることができる。

　更新部２３０は、所定の条件を満たさない場合（Ｓ２３０－１のNO）、更新後のパラメータを雑音除去部２２０に出力し、Ｓ２１０～Ｓ２３０を繰り返す。

　所定の条件を満たす場合（Ｓ２３０－１のYES）、更新部２３０は、その時点の雑音除去モデルを学習済みの雑音除去モデルとして出力する。

　所定の条件としては、パラメータの更新が収束したか否かを判断するための条件を設定すればよく、例えば、学習を一定回数（例えば数回）繰り返したか?更新前後のパラメータの差分が所定の閾値以下か?損失が所定の閾値以下か?などの条件を利用できる。

　このような学習方法を採用することで、任意の画像ノイズ除去用DNNを音場雑音除去の目的に用いることができる。

＜雑音除去装置３００＞
　図８は雑音除去装置３００の機能ブロック図を、図９はその処理フローの例を示す。

　雑音除去装置３００は、フーリエ変換部３１０、画像変換部３２０、雑音除去部３３０、画像逆変換部３４０および逆フーリエ変換部３５０を含む。

　雑音除去装置３００は、学習済みの雑音除去モデルを雑音除去処理時に雑音除去部３３０で用いる。

＜フーリエ変換部３１０＞
　フーリエ変換部３１０は、処理対象の音場動画像を入力とし、音場動画像の全画素に対して時間領域フーリエ変換を行い（Ｓ３１０）、周波数毎の複素振幅音場画像を得、出力する。フーリエ変換としては、高速フーリエ変換等を用いることができる。

＜画像変換部３２０＞
　画像変換部３２０は、周波数毎の複素振幅音場画像を入力とし、複素振幅音場画像を実部と虚部からなる2チャンネル画像に変換し（Ｓ３２０）、2チャンネル画像を正規化し、出力する。例えば、画像変換部３２０は、画像変換部２１０と同様の処理を行う。

＜雑音除去部３３０＞
　雑音除去部３３０は、処理対象の音場動画像に対する音場画像を入力とし、雑音除去モデルを用いて、処理対象の音場動画像からノイズを除去し（Ｓ３３０）、ノイズ除去後の処理対象の音場動画像に対する音場画像を得、出力する。

　本実施形態では、雑音除去部３３０は、処理対象の音場動画像に対する複素振幅音場画像を変換した2チャンネル画像（実部画像[b_E,1,…,b_E,K]と虚部画像[c_E,1,…,c_E,K]）を入力とし、雑音除去モデルを用いて、2チャンネル画像からノイズを除去し、ノイズ除去後の2チャンネル画像（実部画像[b'_E,1,…,b'_E,K]と虚部画像[c'_E,1,…,c'_E,K]）を得る。

＜画像逆変換部３４０＞
　画像逆変換部３４０は、ノイズ除去後の2チャンネル画像（実部画像[b'_E,1,…,b'_E,K]と虚部画像[c'_E,1,…,c'_E,K]）を入力とし、音場の大きさを維持するために、ノイズ除去後の2チャンネル画像（実部画像[b'_E,1,…,b'_E,K]と虚部画像[c'_E,1,…,c'_E,K]）に、前述の画像変換部２１０で乗じた正規化係数の逆数を乗じる。次に、画像逆変換部３４０は、ノイズ除去後の2チャンネル画像（実部画像[b'_E,1,…,b'_E,K]と虚部画像[c'_E,1,…,c'_E,K]）を複素振幅音場画像[a'_E,1,…,a'_E,K]に変換し（Ｓ３４０）、出力する。例えば、複素振幅音場画像がK個の要素からなり、[a₁,…,a_K]と表現され、k番目の要素がa_k＝b_k+c_kjのとき、画像逆変換部３４０は、実部からなる画像(以下、実部画像ともいう)[b₁,…,b_K]と、虚部からなる画像(以下、虚部画像ともいう)[c₁,…,c_K]とを、複素振幅音場画像[a₁,…,a_K]に変換する。

＜逆フーリエ変換部３５０＞
　逆フーリエ変換部３５０は、複素振幅音場画像[a'_E,1,…,a'_E,K]を入力とし、時間方向に逆フーリエ変換し（Ｓ３５０）、雑音除去された音場動画像を得、出力する。逆フーリエ変換としては、前述のフーリエ変換部３１０で行ったフーリエ変換に対応する変換方法を用いればよい。

＜効果＞
　以上の構成により、音場動画像の雑音除去を従来技術よりも高精度にすることができ、性質が未知のデータや、非線形雑音を含むデータに対しても良好な雑音除去を行うことができる。

＜雑音除去結果＞
　次に本実施形態に基づく実装例および雑音除去結果例を示す。

　画像チャンネル数を除き、参考文献１と同じネットワークであるNAFNetを使用した。ネットワークは幅32のブロックからなり、画像チャンネル数は2（実部画像、虚部画像）、画像サイズは128 x 128とした。ロスにはRMSE（root mean square error）を、最適化アルゴリズムにはAdamを用い、学習率は0.001に設定した。学習データは、音源数ごとに 400 個ずつ、合計 2,000 個作成した。トレーニングバッチサイズは32、エポックは50であった。雑音は加法性白色ガウス雑音とした。

　図１０は、雑音除去結果例を示す。本実施形態に係る雑音除去によって、雑音ありデータに含まれる雑音が著しく除去されていることが確認できる。

＜変形例１＞
　第一実施形態と異なる部分を中心に説明する。
　第一実施形態では、雑音除去装置３００は、処理対象の音場動画像を入力とし、音場動画像に含まれる雑音を除去し（Ｓ３００）、雑音除去後の音場動画像を出力する。しかしながら、処理対象は、音場動画像ではなく、一枚の音場画像であってもよい。この場合、雑音除去装置３００は、処理対象の音場画像を入力とし、音場画像に含まれる雑音を除去し（Ｓ３００）、雑音除去後の音場画像を出力する。処理対象の音場画像は、1枚の実数値の音場画像(例えば、グレースケール画像)であり、雑音除去装置３００は、フーリエ変換部３１０、画像変換部３２０、画像逆変換部３４０および逆フーリエ変換部３５０を含まなくともよく、少なくとも雑音除去部３３０を含めばよい。なお、必要に応じて正規化処理（データを雑音除去モデルで扱いやすいものに整える処理）を行う。
　学習装置２００の雑音除去部２２０は、訓練データに含まれる学習用入力データを入力とし、雑音除去モデルを用いて、学習用入力データからノイズを除去し（Ｓ２２０）、ノイズ除去後の学習用入力データを得、出力する。
　本変形例では、雑音除去部２２０は、訓練データに含まれる学習用入力データ（複素振幅音場画像）を変換した2チャンネル画像（実部画像[b_T,1,…,b_T,K]と虚部画像[c_T,1,…,c_T,K]）に含まれる実部画像[b_T,1,…,b_T,K]を少なくとも入力とし、雑音除去モデルを用いて、実部画像[b_T,1,…,b_T,K]からノイズを除去し、ノイズ除去後の実部画像[b'_T,1,…,b'_T,K]を得る。なお、雑音除去モデルは、前述の通り、DNNからなり、音場画像（実部画像）を入力とし、音場画像（実部画像）に含まれるノイズを除去した音場画像（実部画像）を出力するモデルである。ただし、本変形例では、雑音除去モデルは、実部画像を正規化したものを入力とし、実部画像に含まれるノイズを除去し、ノイズ除去後の実部画像を出力するモデルである。
　本変形例では、1チャンネルの入力画像（実部画像）のノイズ除去にDNNを用いるため、第一実施形態と同様に画像のノイズ除去を行うネットワークであれば利用可能である。

＜更新部２３０＞
　更新部２３０は、訓練データに含まれる正解データとノイズ除去後の学習用入力データとを入力とし、訓練データに含まれる正解データの実部と、ノイズ除去後の学習用入力データ（実部画像）との誤差が小さくなるように、雑音除去モデルのパラメータを更新する（Ｓ２３０）。

＜変形例２＞
　第一実施形態と異なる部分を中心に説明する。
　本変形例では、雑音除去モデルは、複素振幅音場画像に対応する振幅と位相を入力とし、ノイズ除去後の複素振幅音場画像に対応する振幅と位相を出力するモデルである。

＜画像変換部２１０＞
　学習装置２００の画像変換部２１０は、訓練データを入力とする。訓練データに含まれる学習用入力データと正解データは、それぞれ複素振幅音場画像である。複素振幅音場画像の要素は、対応する空間位置とフーリエ周波数における複素振幅を表す。画像変換部２１０は、各複素振幅音場画像を振幅と位相に変換する（Ｓ２１０）。画像変換部２１０は、必要に応じて正規化処理（データを雑音除去モデルで扱いやすいものに整える処理）を行う。

＜雑音除去部２２０＞
　学習装置２００の雑音除去部２２０は、訓練データに含まれる学習用入力データを入力とし、雑音除去モデルを用いて、学習用入力データからノイズを除去し（Ｓ２２０）、ノイズ除去後の学習用入力データを得、出力する。

　本変形例では、雑音除去部２２０は、訓練データに含まれる学習用入力データ（複素振幅音場画像）を変換した振幅と位相を入力とし、雑音除去モデルを用いて、複素振幅音場画像からノイズを除去し、ノイズ除去後の複素振幅音場画像に対応する振幅と位相を得る。

　本変形例では、第一実施形態と同様のネットワークを利用することができる。例えば、第一実施形態と同様にUnet構造のネットワークが使える。また、NAFNetを使うこともできる。

＜更新部２３０＞
　学習装置２００の更新部２３０は、訓練データに含まれる正解データとノイズ除去後の学習用入力データとを入力とし、訓練データに含まれる正解データと、ノイズ除去後の学習用入力データとの誤差が小さくなるように、雑音除去モデルのパラメータを更新する（Ｓ２３０）。

　本変形例では、訓練データに含まれる正解データ（複素振幅音場画像）に対応する振幅と位相と、ノイズ除去後の複素振幅音場画像に対応する振幅と位相との誤差が小さくなるように、雑音除去モデルのパラメータを更新する。例えば、第一実施形態と同様の方法によりパラメータを更新することができる。

＜画像変換部３２０＞
　雑音除去装置３００の画像変換部３２０は、周波数毎の複素振幅音場画像を入力とし、複素振幅音場画像を振幅と位相に変換し（Ｓ３２０）、出力する。例えば、画像変換部３２０は、画像変換部２１０と同様の処理を行う。

＜雑音除去部３３０＞
　雑音除去装置３００の雑音除去部３３０は、処理対象の音場動画像に対する音場画像を入力とし、雑音除去モデルを用いて、処理対象の音場動画像からノイズを除去し（Ｓ３３０）、ノイズ除去後の処理対象の音場動画像に対する音場画像を得、出力する。

　本変形例では、雑音除去部３３０は、処理対象の音場動画像に対する複素振幅音場画像を変換した振幅と位相を入力とし、雑音除去モデルを用いて、複素振幅音場画像からノイズを除去し、ノイズ除去後の複素振幅音場画像に対応する振幅と位相を得る。

＜画像逆変換部３４０＞
　画像逆変換部３４０は、ノイズ除去後の複素振幅音場画像に対応する振幅と位相を入力とし、ノイズ除去後の複素振幅音場画像に対応する振幅と位相を複素振幅音場画像に変換し（Ｓ３４０）、出力する。画像変換部２１０において正規化処理を行った場合には、元に戻す処理を行う。
＜変形例３＞
　第一実施形態と異なる部分を中心に説明する。
　本変形例では、雑音除去モデルは、複素数を入力とするDNN（複素ニューラルネットワーク）であり、複素振幅音場画像を入力とし、ノイズ除去後の複素振幅音場画像を出力するモデルである。

　学習装置２００は、雑音除去部２２０および更新部２３０を含む。

＜雑音除去部２２０＞
　雑音除去部２２０は、訓練データに含まれる学習用入力データを入力とし、雑音除去モデルを用いて、学習用入力データからノイズを除去し（Ｓ２２０）、ノイズ除去後の学習用入力データを得、出力する。なお、必要に応じて学習用入力データに対して正規化処理（データを雑音除去モデルで扱いやすいものに整える処理）を行う。

　本変形例では、雑音除去部２２０は、訓練データに含まれる学習用入力データ（複素振幅音場画像）を入力とし、雑音除去モデルを用いて、複素振幅音場画像からノイズを除去し、ノイズ除去後の複素振幅音場画像を得る。

　本変形例では、複素振幅音場画像のノイズ除去にDNNを用いるため、画像のノイズ除去を行う複素ニューラルネットワークであれば利用可能である。

　本変形例では、訓練データに含まれる正解データ（複素振幅音場画像）と、ノイズ除去後の複素振幅音場画像との誤差が小さくなるように、雑音除去モデルのパラメータを更新する。

＜雑音除去装置３００＞
　雑音除去装置３００は、フーリエ変換部３１０、雑音除去部３３０および逆フーリエ変換部３５０を含む。

＜雑音除去部３３０＞
　雑音除去部３３０は、処理対象の音場動画像に対する音場画像を入力とし、雑音除去モデルを用いて、処理対象の音場動画像からノイズを除去し（Ｓ３３０）、ノイズ除去後の処理対象の音場動画像に対する音場画像を得、出力する。なお、雑音除去部２２０と同様に必要に応じて学習用入力データに対して正規化処理（データを雑音除去モデルで扱いやすいものに整える処理）を行い、雑音除去モデルの出力に対して元に戻す処理を行う。

　本変形例では、雑音除去部３３０は、処理対象の音場動画像に対する複素振幅音場画像を入力とし、雑音除去モデルを用いて、複素振幅音場画像からノイズを除去し、ノイズ除去後の複素振幅音場画像を得る。

　何れの実施形態および変形例においても、前記雑音除去モデルは、音場画像に対する複素振幅音場画像に基づく情報を入力とし、音場画像に含まれるノイズを除去した音場動画像に対する複素振幅音場画像に基づく情報を出力するモデルと言える。第一実施形態では実部画像と虚部画像が複素振幅音場画像に基づく情報に、変形例１では実部画像が複素振幅音場画像に基づく情報に、変形例２では位相と振幅が複素振幅音場画像に基づく情報に、変形例３では複素振幅音場画像自体が複素振幅音場画像に基づく情報に、相当する。

　また、第一実施形態の画像変換部２１０を雑音除去部２２０の前処理を考え、画像変換部２１０を雑音除去部２２０の一部と考えてもよい。また、第一実施形態の画像変換部３２０と画像逆変換部３４０をそれぞれ雑音除去部３３０の前処理と後処理と考え、画像変換部３２０と画像逆変換部３４０を雑音除去部３３０の一部と考えてもよい。変形例２においても同様である。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　上述の各種の処理は、図１１に示すコンピュータ２０００の記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０、表示部２０５０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　DNNからなり、音場画像を入力とし、その音場画像に含まれるノイズを除去した音場画像を出力する、
　雑音除去装置。
　請求項１の雑音除去装置であって、
　処理対象の音場動画像の全画素に対して時間領域フーリエ変換を行い、周波数毎の複素振幅音場画像を得るフーリエ変換部と、
　DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、その音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力する雑音除去モデルを用いて、ノイズ除去後の処理対象の音場動画像に対する複素振幅音場画像を得る雑音除去部と、
　前記ノイズ除去後の処理対象の音場動画像に対する複素振幅音場画像を時間方向に逆フーリエ変換し、雑音除去された音場動画像を得る逆フーリエ変換部と、を含む、
　雑音除去装置。
　DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、その音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力する雑音除去モデルを用いて、訓練データに含まれる学習用入力データに対する音場画像からノイズを除去し、ノイズ除去後の学習用入力データを得る雑音除去部と、
　前記訓練データに含まれる正解データと前記ノイズ除去後の学習用入力データとの誤差が小さくなるように、前記雑音除去モデルのパラメータを更新する更新部と、を含む、
　学習装置。
　正解データを生成する際に用いるパラメータを生成するパラメータ生成部と、
　前記パラメータを用いて音響シミュレーションにより、正解データを生成し、音場動画像を取得する計測システムに合わせて、任意のノイズを付加した正解データを学習用入力データとし、正解データと学習用入力データとの組からなる訓練データを得る訓練データ生成部とを含み、
　前記訓練データは、DNNからなり、音場画像に対する複素振幅音場画像に基づく情報を入力とし、その音場画像に含まれるノイズを除去した音場画像に対する複素振幅音場画像に基づく情報を出力する雑音除去モデルを学習する際に用いられる、
　訓練データ生成装置。