WO2019216414A1

WO2019216414A1 - 音響プログラム、音響装置、および音響システム

Info

Publication number: WO2019216414A1
Application number: PCT/JP2019/018746
Authority: WO
Inventors: 小池　英樹; 誉今
Original assignee: 国立大学法人東京工業大学
Priority date: 2018-05-11
Filing date: 2019-05-10
Publication date: 2019-11-14
Also published as: EP3799035A4; US11317233B2; JP7352291B2; EP3799035A1; JPWO2019216414A1; US20210058731A1

Abstract

２Ｄの画像データから簡易に音場モデルが再現される。さらに、パラメータが不明な未知の画像データの音響フィルタを容易に得られる。音響システムの制御部を構成する音響装置１００は、主にコンピュータで構成される演算部１０１に、撮像装置２と、集音装置３と、記憶装置４とを接続して構成されている。演算部１０１は、未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させるエンコーダとして機能する。また、音響装置１００とは、別体で構成可能なデコーダは、演算部１０１にさらに再生装置が接続される。そして、再生装置からは、未知の画像に対応する空間音響フィルタ特性から得られる残響音が付加されて、２Ｄの画像に対応する音響が出力される。

Description

音響プログラム、音響装置、および音響システム

　本発明は、音響プログラム、音響装置、および音響システムに関する。

　従来、音響技術の分野において、実際にその場にいるような自然な聞こえ方（以下、臨場感とも記す）となるように、フィルタ処理を施して録音場に特有の残響音（以下、残響とも記す）等の音響特性を立体的に再現する音響システムが研究されている（たとえば、特許文献１～４等参照）。

特開２００６－６０６１０号公報特開２００８－１７８０００号公報特開２０１７－５０８４３号公報特開２０１７－１７５５０３号公報

　近年、３Ｄ空間モデルを用いて音の反射を計算することで音響特性を記録し、音場を再生する際のフィルタ特性として利用しようとする試みがある。
　しかしながら、このようなものでは、３Ｄ空間モデルを用いて音の反射を計算する必要がある。
　特に、室内空間では、部屋の構造により各所で異なる反射特性が残響音として大きく影響する。このため、音線法等によって音場を可聴化 (auralization)しようとすると、２Ｄの画像から３Ｄモデルを詳細に復元（３Ｄ　Reconstruction）する処理等が必要となる。したがって音場モデルの計算の情報量が増大して、膨大な演算を行わなければならなかった。
　一方、熟練した建築音響の技術者、録音技師などの長年音響に携わる者は、部屋の構造を見て、音響特性を把握できるケースがある。

　そこで、本発明は、２Ｄの画像データから簡易に立体的な音場モデルを再現する音響プログラム、音響装置、および音響システムを提供する。さらに本発明は、パラメータが不明な未知の画像データの音響フィルタを容易に得られる音響プログラム、音響装置、および音響システムを提供することを課題としている。

　本発明に係る音響プログラムは、未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習させることを特徴としている。

　本発明によれば、２Ｄの画像データから簡易に音場モデルが再現される。さらに本発明は、パラメータが不明な未知の画像データの音響フィルタを容易に得られる。

本実施形態の音響システムであって、デコーダおよびエンコーダとなる音響装置の構成を説明するブロック図である。学習の際、複数の音場の映像データに音響データを関連させる様子を示した模式図である。学習の際、複数の音場の映像データに音響データを関連させる様子を示した模式図である。音響システムのエンコーダとなる音響装置のプログラムを用いた情報処理の一例を示すフローチャートである。音響システムのデコーダとなる音響装置の構成を説明するブロック図である。本実施形態の音響システムでディープラーニングを用いて空間音響フィルタ特性を演算する様子を説明する模式図である。音響システムのデコーダとなる音響装置のプログラムを用いた情報処理の一例を示すフローチャートである。本実施形態の音響システムで、クラウドサーバにより構築される音場および映像データをＡＲヘッドマウントディスプレイによって現実空間と重畳させる様子を説明する模式図である。本実施形態の音響システムを補聴器に応用する場合を説明するブロック図である。本実施形態の音響システムを補聴器に応用した場合の情報処理の一例を示すフローチャートである。本実施形態の音響システムを吹替に応用する場合のブロック図である。本実施形態の音響システムを吹替に応用した場合の情報処理の一例を示すフローチャート図である。本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。本実施形態の音響システムを残響処理に応用した場合の情報処理の一例を示すフローチャート図である。本実施形態の音響システムをノイズキャンセリングに応用する場合のブロック図である。本実施形態の音響システムをノイズキャンセリングに応用して乗物等の移動物体の発する騒音を打消す場合を説明するブロック図である。本実施形態の音響システムをノイズキャンセリングに応用した場合の情報処理の一例を示すフローチャート図である。

　本発明の実施形態について、図面を参照して詳細に示す。説明において、同一の要素には同一の番号を付し、重複する説明は省略する。

　<エンコーダ>
　図１に示す音響装置１００は、主にコンピュータで構成される演算部１０１に、撮像装置２と、集音装置３と、記憶装置４とを接続して構成されている。
　このうち、演算部１０１は、パラメータ（特徴量）が不明な未知の画像（以下、未知の画像とも記す）の音場を立体的に再現するための空間音響フィルタ係数（以下、単に係数ともいう）を関連させるエンコーダとして機能する。
　すなわち、演算部１０１は、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求める。そして、演算部１０１は、複数のサンプル画像に表された構造物のそれぞれの音場モデルを学習する。学習は、数十～数千のサンプル画像と、これらのそれぞれのサンプル画像に対応する空間音響フィルタ係数を用いて行われる。

　音響装置１００は、エンコーダとして機能する場合、ディープラーニングによる学習を行う（後記）。音響装置１００は、例えば空間音響フィルタ特性４００ｅ（後記）から特徴量を推定するためにニューラルネットワーク３００（後記）を学習する。

　また、音響装置１００は、音響フィルタ生成のデコード処理や音響処理を行うデコーダとして機能する。

　撮像装置２は、カメラ等の情報機器により主に構成されている。撮像装置２は、建築物の内部空間、たとえばコンサートホールや講堂等の２Ｄ（二次元平面画像、以下単に２Ｄと記す）のサンプル画像を収集する。サンプル画像は、静止画に限らず、動画を用いてもよい。すなわち、撮像装置２は、音場となる建物等の構造物を撮像して、画像データとして演算部１０１に出力する。また、撮像装置２は、予め撮像されたサンプル画像を画像データとして演算部１０１に出力するようにしてもよい。

　集音装置３は、マイク等によって主に構成されている。サンプル画像の音響データを収集する際には、集音装置３は、コンサートホール等の客席で、聴衆と同じ位置となるように配置され、構造物で発生した音を集音する。
　そして、集音装置３には、既存のＦＩＲ（有限インパルス応答）、ＦＦＴ（高速フーリエ変換）、またはＩＩＲ（無限インパルス応答）の何れかの方式若しくは他の方式で発生した音による構造物からの反響音を集音する。
　ここで、撮像装置２から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行ってもよい。

　すなわち、同じコンサートホールの画像であっても、一部の壁や床が拡大された画像では、正しくパラメータ推定することが困難である。
　例えば、床が拡大された画像であった場合、これがコンサートホールの画像なのか、狭い部屋の床であるか判別が困難であり、学習画像にコンサートホールの床の拡大図があった場合、たとえ入力が狭い部屋の床であったとしても、誤ってコンサートホールのようなパラメータが推定されてしまう可能性がある。

　そこで、画角・構造判別の一例として、例えば床認識、壁認識、天井認識などを行う。そして、三次元空間で撮影された室内壁の六面のうち、少なくとも三面の面を認識した場合とするか、あるいは、画像から深度推定を行い、一定値以上の深度の差分が見られた場合のみ、パラメータ推定するものとしてもよい。
　あるいは、熟練の音響技術者がパラメータ推定について可能か否かを判別した大量の画像を用いてニューラルネットワークを学習させた判別器を用いて、画角・構造判別を行ってもよい。
　なお、サンプル画像と関連付けることにより、予め集音された音響データを集音装置３に入力して収集するようにしてもよい。

　記憶装置４は、メモリ若しくはハードディスクドライブによって構成されている。記憶装置４は、生成された音響フィルタの空間音響フィルタ係数からなる音場モデルを保持して読み書き可能としている。

　なお、撮像装置２および集音装置３は、音響装置１００を構成する一例であって、必須の構成要素ではない。

　演算部１０１は、音響プログラムを実行する。音響プログラムは、予め演算部１０１に組込まれていてもよいし、読み込まれるように構成されていてもよい。また、たとえば、後述するクラウド上のクラウドサーバ１０４（図７参照）に、演算部１０１を設けて音響プログラムの一部または全部をクラウドサーバ１０４で実行するようにしてもよい。音響プログラムは、音響推定プログラムおよび音響合成プログラムを示す（以下、音響推定プログラムまたは音響合成プログラムのうち少なくとも何れか一方を含むものを、音響プログラムと記す。）。

　本実施形態の音響プログラムは、音場を立体的に再現するために、既定の室内空間データであるサンプル画像に対応する空間音響フィルタ係数に関連する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習する。

　また、音響プログラムは、記憶装置４に保持されているサンプル画像を用いて音場モデルを構築する。
　すなわち、音響プログラムは、予め学習されたサンプル画像の音場モデルから、実際に撮像装置２で撮像されて、パラメータが不明な未知の画像について、構築された音場モデルに基づいて空間音響フィルタ係数を推定する。
　そして、音響プログラムは、集音装置３から入力された音響データに、サンプル画像の構造物で演奏等されている状態に近似した音場モデルの残響データを掛け合わせて付加する。

　図２Ａ－Ｂは、学習の際、音場の映像データと対応する音響データとを複数、関連させる様子を示した模式図である。この図２のグラフでは、縦軸に音量（ｄＢ）、横軸に周波数（Ｈｚ）および時間（Ｓｅｃ）がそれぞれ設定されている。
　本実施形態の音響装置１００では、各サンプル画像に表される構造物の反響音がオクターブバンドとして２００ｈｚごとに１０個の音域に区分されてサンプリングされる。
　２００ｈｚごとにサンプリングされた空間音響フィルタ特性（初期値から６０ｄＢ低下するまでの傾き）４００ａ～４００ｄは、サンプル画像ａ～ｄの構造物に対応して少しずつ相違していることがわかる。
　そして、これらの相違点は、後述するディープラーニングによる学習と推定の際に、構造物によって特性が異なることに着目して、関連付けられる。たとえば、サンプル画像の特徴点として、材質が高い周波数は吸収し易い点や、残響に空間の奥行き寸法や、出入口や窓等の開口部の有無等が影響するといった点等が挙げられる。

　＜音場モデルの構築＞
　次に、音響装置１００のエンコーダ処理／デコーダ処理について、図２Ｂおよび図３に示すデコーダ処理のフローチャートに沿って説明する。
　この音響装置１００では、音場モデルの構築の処理が下記のように実行される。
　図３に示すステップＳ１では、撮像装置２にて、サンプル画像が撮影される。
　これと同時に、実際の構造物の反響音が集音装置３によって集音されて測定される。測定方法は、インパルスを時間的に引き延ばしてエネルギを大きくした時間引き延ばしパルス、すなわち、ＴＳＰ（Ｔime　Ｓtretched　Ｐulse）を用いる。

　ステップＳ２では、撮像装置２から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行う。
　ステップＳ３では、サンプル画像に対して、空間音響フィルタ係数（パラメータ）が演算部２０１にて推定される。空間音響フィルタ係数の生成は、既存のＦＩＲ（有限インパルス応答）、ＦＦＴ（高速フーリエ変換）、またはＩＩＲ（無限インパルス応答）の何れかの方式で行われる（図１参照）。

　ステップＳ４では、ＣＧ画像が実際の室内空間の未知の画像に重畳される。ここでは、実際の室内空間の未知の画像に、サンプル画像に対応して作成されたＣＧ画像であるコンサートホール等の舞台側のＣＧ画像が重畳される。
　ステップＳ５では、空間音響フィルタ処理が演算部２０１にて実行されて、音響フィルタが生成される。生成された音響フィルタは、対応するサンプル画像のデータとともに記憶装置４に蓄積されて、後述するディープラーニングによる学習に用いられる。

　そして、ステップＳ６では、図示しないスピーカ等の音響出力機器へ演算部１０１から音響出力が実施されて、生成された音場モデルによる音響を聴覚で確認してもよい。音響装置１００は、音響の出力により処理を終了する。

　このように構成された実施形態の音響装置１００では、演算部１０１で音響プログラムが実行される。音響プログラムは、音場を立体的に再現するための空間音響フィルタ係数を未知の画像に関連させる。
　本実施形態では、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータが求められて、サンプル画像に表された構造物の音場モデルが学習されている。
　このため、建築物の内部空間、たとえばコンサートホールや講堂等の内部の情報が、２Ｄの未知のサンプル画像のみであっても、簡易に対応する音場モデルを構築して再現できる。

　本実施形態の音響システムの音響装置１００では、撮像装置２から演算部１０１に入力されるサンプル画像に対応させて、音場モデルを構築するものを示して説明してきた。
　しかしながら、特にこれに限らず、たとえば、予め他の場所で撮像されたサンプル画像のデータを音響装置１００に入力してもよい。この場合、データ入力されたサンプル画像に対応して、空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを演算部１０１で構築する。
　また、実際の構造物の反響音を測定しない場合は、記憶装置４に蓄積された他の構造物に対応させた音響フィルタを、後述するディープラーニングで学習させて、実際の構造物の反響音に近似する空間音響フィルタ係数からなる音場モデルを演算することができる。

　<デコーダ>
　図４は、音響システムの音響装置２００の構成を説明するブロック図である。本実施形態では、図１に示す音響装置１００と図４に示す音響装置２００とを個別に構成している。しかしながら、特にこれに限らず、たとえば一つの演算部１０１または２０１によって、この音響システムの音響装置を構成して、一つの音響プログラムで音場モデルの学習による構築と、音場モデルを用いた音響の再生とを実行するようにしてもよい。

　本実施形態では、音響装置１００と重複する部分は、同一符号を付して説明を省略し、音響装置１００と相違する部分を中心に説明する。
　図４に示すように、音響装置２００の音響フィルタ処理には、記憶装置６に記憶された音源データや再生音データが入力される。音響装置２００は、演算部２０１に再生装置５が接続されている。
　そして、音響装置２００は、音響プログラムを実行することによりデコーダとして機能する。デコーダは、予め学習されたサンプル画像の音場モデルを用いて、パラメータが不
明な未知の画像に関する空間音響フィルタ係数を推定する。
　再生装置５は、音響出力装置として機能する。音響出力装置は、主に構築された音場モデルに基づいて、入力した音響を入力された画像に対応させて、残響特性を掛合わせて付加された音響を出力する機能を有する。他の構成は、音響装置１００と同一乃至均等であるので説明を省略する。

　<ディープラーニング>
　図５は、演算部２０１で実行される多数段に畳み込まれたディープラーニングの手法を用いた空間音響フィルタ係数の推定の様子を示す模式図である。
　具体的には、音場モデルを構築するために図５に示すディープラーニング（図５中左から２番目）を用いる場合、４つの入力で４つの出力（パラメータ）が出力される状況では、乗算の重みをフィードバックにより変えている。
　すなわち、学習の際、正解データとの差分（損失関数）が大きい場合、逆伝搬により後ろの重み係数のパラメータを更新する。この繰り返しにより、たとえば、奥行きが残響に与える影響が大きい場合、重み係数を増大させる。
　また、天井の相違が少ないとする場合は、重み係数が０となると使われない枝が生じ、フィードバックによる精度を向上させる。
　一方、後述する音響フィルタを推定する出力の場合では、４つの入力でそのまま、４つの出力（パラメータ）がベクトルの演算として出力される。

　本実施形態の演算部２０１は、ニューラルネットワーク３００（図５中左から２番目）を用いて、未知の画像ｅ（図中左端）の空間音響フィルタ特性（図５中左から３番目）を、蓄積された画像と関連する空間音響フィルタ係数を演算する。
　ニューラルネットワーク３００は、ディープラーニングを行うため、判断とフィードバックとが繰り返されるように多数段に畳み込まれている。ニューラルネットワーク３００では、図５中左側からの入力により右側に向けて出力される判断と、後段に戻るフードバックとが複数回、本実施形態では、四段繰り返されて、空間音響フィルタ特性がパラメータとして演算される。

　ディープラーニングでは、未知の画像として完全に一致するサンプル画像が予め学習されている場合には、このサンプル画像と同じ空間音響フィルタ係数を関連する空間音響フィルタ係数として推定する。
　また、ディープラーニングでは、未知の画像ｅが予め学習されているサンプル画像にない場合には、このサンプル画像と近似する空間音響フィルタ係数を関連する空間音響フィルタ係数として推定することができる。

　さらに、ディープラーニングでは、未知の画像ｅが予め学習されているサンプル画像にない場合、学習されたサンプル画像の空間音響フィルタ係数にはない空間音響フィルタ係数であっても、未知の画像ｅに関連する空間音響フィルタ係数として、推定することができる。
　このように、学習されたサンプル画像の空間音響フィルタ係数以外の異なる空間音響フィルタ係数が出力として得られることも、ディープラーニングの特徴の一つである。
　そして、本実施形態の音響システムでは、未知の画像ｅとともに入力された音響は、この推定された空間音響フィルタ特性４００ｅから得られる残響特性５００ｅ（図中右端）を掛け合わせて付加することにより、未知の画像ｅに対応する音響、ここでは、最も顕著に表れる残響特性を主として掛け合わされた音響が出力される。

　<音響フィルタの推定>
　次に、音響装置２００のデコーダ処理について、図６に示すフローチャートに沿って説明する。図６は、クラウドを用いた場合のデコーダの応用フローチャートである。
　音響装置２００で処理を開始する。まず、ステップＳ１０では、撮像装置２にて、未知の画像が撮影される。

　ステップＳ１１では、未知の画像の画像データがサーバに送信される。本実施形態では、サーバとして、図１の演算部１０１および記憶装置４を用いている。しかしながら、特にこれに限らず、図７に示すクラウドサーバ１０４であってもよい。

　ステップＳ１２では、未知の画像に対応する空間音響フィルタ係数が推定される。空間音響フィルタ係数の生成は、既存のＦＩＲ、ＦＦＴ、またはＩＩＲの何れか若しくは他の方式で行われる（図４参照）。
　ステップＳ１３では、ＣＧ画像が実際の室内空間の画像に重畳される。ここでは、実際の室内空間の画像に、サンプル画像に対応して作成されたＣＧ画像であるコンサートホール等の舞台側のＣＧ画像が重畳される。このため、ユーザは、実際の室内空間である自宅の部屋に居ながら、コンサートホール等の舞台側の映像および音響を観賞できる。
　また、後述する図７のＣＧ画のように、ＡＲ（Augmented Reality：拡張現実）ヘッドマウントディスプレイ１０５を用いて実際の室内空間の画像に重畳させてもよい。

　ステップＳ１４では、空間音響フィルタ処理が実行されて、音響フィルタが生成される。生成された音響フィルタは、記憶装置４または、クラウド上のクラウドサーバ１０４に蓄積される。クラウドサーバ１０４では、音響プログラムが構築され、クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することができる。
　このため、画像データおよび音響データの数量を増大させて、学習および推定の精度を向上させることができる。

　ステップＳ１５では、演算部２０１がスピーカ等により構成される再生装置５に音響を出力する。音響の出力によりデコーダ処理は、終了する。
　このように構成された実施形態の音響装置２００では、パラメータが不明な未知の画像であっても、画像データに対応する音響フィルタを容易に得られる。
　しかも、音響フィルタは、演算部２０１のディープラーニングにより、未知の画像ｅが予め学習されているサンプル画像にない場合、学習されたサンプル画像のうち、もっとも未知の画像ｅに近いサンプル画像の空間音響フィルタ係数よりもさらに、未知の画像ｅの空間音響フィルタ係数として、ふさわしい空間音響フィルタ係数を、推定することができる。
　このため、単なる学習したサンプル画像の数量を増大させることにより得られる一致度よりも高い一致度で未知の画像ｅの空間音響フィルタ係数を推定することができる。

　<クラウドコンピューティングおよびＡＲへの応用>
　図７は、クラウドサーバ１０４により構築される音場に基づいて映像データを、音響出力装置の一つとしてのＡＲヘッドマウントディスプレイ１０５によって、現実空間に重畳させる様子を示している。

　たとえば、コンサートホールの映像データを現実空間に重畳させることにより、演奏者がコンサートホール内で演奏しているかのような視聴覚効果が得られる。
　さらに、ＡＲヘッドマウントディスプレイ１０５に撮像装置１０６を設ければ、ユーザＰが見ている現実の空間とバイザーに投影される画像とを重畳させることが出来、画像で登場した演奏者の位置に対応した立体的な音響をヘッドホンから出力することもできる。

　また、クラウドコンピューティング（cloud computing：インターネットなどを経由し
て、コンピュータ資源をサービスの形で提供する利用形態）のクラウドサーバ１０４に音響システムの一部または全部を委ねることができる。
　この場合、インターネットを介してクラウドサーバ１０４に接続された複数の撮像装置２を含む多数の情報端末から、画像データおよび音響データを収集できる。
　このため、構造物のサンプル画像に対応する音響データの数量を増大させることが可能となり、残響音等の学習および推定の時間を短縮して、未知の画像に対応させる空間音響フィルタ係数の精度を向上させることができる。
　他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。

　上述してきたように、本実施形態の音響プログラム、音響装置、および音響システムでは、サンプル画像と残響音のパラメータとを組み合せて、ディープラーニングを行うニューラルネットワーク３００で学習させる。これにより、熟練した技術者のように２Ｄの画像から音場の特性を推定することができる。

　また、２Ｄの画像データから簡易に音場モデルが再現される。このため、３Ｄモデルを用いる場合に比べて、コンピュータまたはクラウドサーバ１０４の処理負荷を減少させることができる。

　<補聴器への応用>
　図８は、本実施形態の音響システムを補聴器に応用する場合のブロック図である。
　従来、補聴器は、音質を含む音の調整を人手で行っていたため、手間がかかるといった問題があった。
　また、集音器の場合は、スマートフォンのアプリケーションなどを用いて使用者が音を調整できる。
　しかしながら、外耳や外耳道（主に耳介とも記す）による回折や反射の影響で、強調しても無駄な周波数があり、使用者が個人で調整することは困難であった。
　さらに、自然な音色再現には、相対的な周波数のバランスが重要である。たとえば一部の周波数のみを強調してしまうと不自然になってしまう、といった問題もあった。

　図８に示すように、スマートフォン６００などに設けられた音響プログラムを用いて、外耳の映像から音響フィルタパラメータ推定を行う。
　たとえば、耳介の画像から、干渉する周波数（ノッチ周波数、つまり、想定される鼓膜位置で節となる周波数）、振幅（ゲイン）、および周波数の幅（バンド幅）を1つ以上推定する。
　または、耳介の画像から、共鳴する周波数（ピーク周波数、つまり、想定される鼓膜位置で腹となる周波数）、振幅（ゲイン）、及び周波数の幅（バンド幅）を１つ以上推定する。
　生成された係数ＦＩＲ、ＦＦＴ、またはＩＩＲは、補聴器本体７００に送られる。そして、補聴器本体７００は、集音装置であるマイク８００で拾われた音を、音響フィルタ処理する。
　音量が調整された音響フィルタ処理後の音は、イヤホン等の再生処理部９００により、聞き易い音となり再生される。

　図９は、本実施形態の音響システムを補聴器に応用した場合のフローチャートである。
　まず、ステップS２０で処理が開始されると、ステップS２０では、スマートフォン６００などのカメラで耳介が撮影されて、耳介の画像が取得される。
　ステップS２１では、画像から耳の反射や回折の影響を推定する。すなわち、耳形状に影響する干渉周波数を阻止する。あるいは、自然な音色の再現の為の耳形状に影響する相対的な周波数フィルタが得られるフィルタ係数を推定して生成する。
　そして、強調することにより効率的に聞き易さが変化する周波数帯域を透過し、聞き易さが変化しにくい非効率的な周波数帯を阻止するフィルタ係数を生成する。
　ステップS２２では、スマートフォン６００から補聴器本体７００に生成されたフィルタ係数を送信する。
　音響フィルタ処理では、干渉または共鳴する周波数、振幅および周波数の幅の少なくとも何れかを用いて、所望の周波数帯域の音量を増減することができる。
　ステップS２３では、全体の音量が調整される。
　そして、ステップS２４では、マイク８００で拾われた音にフィルタをかけて出力して、処理を終了する。

　このように、スマートフォン６００側で聞き易くなる音域の調整が行える。したがって、補聴器は、調整が簡便になる。また、非効率的な周波数帯には、無駄な音エネルギを用いない。このため、ダイナミックレンジを大きくして、所望の音量を得ることができる。　さらに、一部の周波数のみを強調してしまうことが無くなり、自然な音色再現性を保ったまま、音量調整が可能となる。
　他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。

　〈吹替えへの応用〉
　図１０は、本実施形態の音響システムを吹替えに応用する場合を説明するブロック図である。　一般に、映画、ドラマなどの映像コンテンツの言語の吹替えを行う場合、台詞を除いたコンテンツを輸入し、輸入国で吹替えている。
　吹替えの際、吹替えられる言語のエフェクト処理は、現地のサウンドエンジニアによって行われる。
　エフェクト処理の一つとして残響を付加する作業がある。この残響付加作業は、サウンドエンジニアの技量に左右される。また、作業工程も煩雑で膨大なものとなるといった問題があった。

　図１０に示す音響装置１１００は、演算部１１０１に、吹替え音声を入力する記録装置１１０３と，ＤＶＤ，Ｂｌｕ－ｒａｙ（登録商標）等の記憶媒体をフォーマットとして読書きを行うオーサリング装置１１０４とが接続されている。
　また、演算部１１０１には、音響プログラムとして残響パラメータ推定を行うフィルタ係数生成部１１０２が設けられている。

　図１１は、本実施形態の音響システムを吹替えに応用した場合のフローチャートである。
　まず、処理を開始すると、ステップS３０は、映画の場面である記録装置からの画像が演算部１１０１に入力される。場面は、静止画であっても動画であってもよい。
　ステップＳ３１では、フィルタ係数生成部１１０２が映画の場面に合致するフィルタ係数の一つである空間音響フィルタ係数を生成する。
　ステップＳ３２では、演算部１１０１がサウンドミキシングツールに生成された残響係数を送信する。
　ステップＳ３３では、記録装置１１０３を用いて吹替え音声の録音が行われる。
　ステップＳ３４では、吹替え音声に空間音響フィルタ係数をかけてミキシングおよび音量調整された後、オーサリング装置１１０４を用いてオーサリングされたデータが記憶媒体に書込まれて、再生可能な形式となり処理が終了する。

　このように、本実施形態の吹替えでは、映画、ドラマのなどのコンテンツの場面に合わせて、吹替えた音声に周囲の環境にあった自然な残響を付加することができる。
　このため、サウンドエンジニアの作業工程が減少し、労力を削減できる。

　〈残響除去への応用〉
　図１２は、本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
　図１２に示す音響システム１２００は、マイク８００で集音された音声を音声認識処理部１２１０で認識して、受け答えまたは、家電製品のスイッチ操作を行う音声認識機器である。
　音声認識機器の音声認識率を向上させるため、残響処理は重要な課題の一つである。たとえば、複数のマイクで話者の方向を推定して、マイクの指向性を調整することで話者がいない方向の反射音や残響音を除去する方法がある。
　しかしながら、この方法では、マイクの数量を多数用意しなければならず、効率的ではなかった。

　また、マイク入力から残響特性を推定する方法も知られている。
　この方法では、無音時や小音量の際には、残響を推定することが困難であり、マイクから大きな入力がなければ残響を推定することができない。

　図１２に示す本実施形態の音響システム１２００は、演算部１２０１に撮像装置２からの画像データが入力するように構成されている。

　次に、この音響システム１２００の演算処理に沿って作用効果を説明する。
　図１３に示すフローチャートは、音響システムを残響処理に応用した場合の情報処理を示すものである。
　まず、処理を開始すると、ステップＳ４０で、撮像装置２（図１２参照）を用いて部屋の画像を撮影する。
　ステップＳ４１では、演算部１２０１に送られた画像データから、部屋の残響パラメータを推定し、残響除去フィルタ係数を生成する。
　ステップＳ４２では、マイク８００から話者の音声が入力される。
　ステップＳ４３では、マイク８００で拾われた音声を演算部１２０１が残響除去フィルタをかけることによりフィルタ処理する。
　ステップＳ４４では、音声認識処理部１２１０が音声認識を行い、受け答えまたは、家電製品のスイッチ操作等を行い、処理を終了する。

　本実施形態の音響システム１２００は、画像から残響特性を推定する。これにより、音声の残響を除去できる。したがって、音声認識機器の音声認識の精度を向上させることができる。

　〈ノイズキャンセリングへの応用〉
　図１４～図１６は、本実施形態の音響システムをノイズキャンセリングに応用するものを示している。
　従来から、騒音をあるポイント（制御点）で逆位相となる信号を出力し、騒音を打消すアクティブノイズキャンセリングという信号処理方法が知られている。
　このようなものでは、参照マイクで騒音を集音し、騒音が制御点に到達するまでにスピーカからの出力を逆位相となるように制御する。
　しかしながら、この方法では、高い周波数ほど波長が短く、逆位相で打消すのが困難である。このため、電車内や飛行機内など利用される状況を想定して、打消すために必要とされる周波数帯域に制限して逆位相フィルタを実現している。

　また、ヘッドホンやイヤホンには無い空間的にノイズを打消す場合には、次のような問題もある。
　たとえば、空間的にノイズを打消すためには、騒音源の位置、周波数特性（帯域）、騒音源の振動パターンによる伝搬特性を加味する必要がある。ここで、伝搬特性としては、点音源の球面波、線音源や面音源などの平面波等により異なることが知られている。
　つまり、一種類の騒音削減は可能でも、様々な騒音に対応しようとすると、騒音の入力から、このようなパターンを推定する必要がある。このため、即時性が重要とされるアクティブノイズキャンセリングでは、大きな遅延を起こし、所望の消音性能を発揮できない虞があった。
　また、騒音源がない場合は、ノイズを打消すキャンセル信号を出力すべきではない。しかしながら、騒音源を音で認識させるには、実際に音が参照信号を伝播してマイク入力する必要があり、大きな遅延の原因となっていた。

　図１４は、音響システムをノイズキャンセリングに応用した場合を説明するブロック図である。
　このようなものでは、演算部１３１０に、複数個のマイク８００と、複数個のスピーカ１３２０とが接続されている。
　また、演算部１３１０は、ノイズ源を判定するノイズ判定部１３１０ｎと、ノイズ周波数特性のパラメータを推定/分類する周波数特性推定部１３１０ａと、ノイズの伝搬パターンを推定/分類する伝搬パターン特性推定部１３１０ｂとを備える。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンとを用いて、フィルタ係数を複数、生成する。生成された複数のフィルタ係数は、複数のスピーカ１３２０からノイズキャンセル信号として出力される。

　図１５は、移動物体のノイズキャンセリングに応用するものを示している。図１５では、図１４の処理に加えて更に、ノイズ位置情報部１３１０ｃを用いてノイズを発生させている移動物体の位置情報を考慮したフィルタ係数を生成する。
　このため、騒音源の位置、周波数特性（帯域）、騒音源の振動パターンによる伝搬特性が加味されて、生成された複数のフィルタ係数となる。伝搬特性は、点音源の球面波、線音源や面音源などの平面波のうち、少なくとも何れか一つである。そして、フィルタ係数に基づいて、複数のスピーカ１３２０からノイズキャンセル信号が出力される。
　他の構成は、図１４と同様である。

　図１６は、ノイズキャンセリングの情報処理の一例を示すフローチャート図である。
　まず、処理を開始すると、ステップＳ５０では、複数の撮像装置２でノイズ源が撮影される。
　ステップＳ５１で、演算部１３１０（１４１０）」は、消すべきノイズ源か否かを判定する。ステップＳ５１で、消すべきノイズ源であると判定された場合（ステップＳ５１でｙｅｓ）は、次のステップＳ５２に進み、消すべきノイズ源ではないと判定された場合（ステップＳ５１でｎｏ）は、ステップＳ５０に戻り、複数の撮像装置２で撮影を続ける。

　ステップＳ５３では、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数を複数、生成する。この際、画像データは、動画であってもよい。そして、動画のフレームと、背景画像または前フレームとの差分を用いて、前記空間音響フィルタ係数を推定する。
　ステップＳ５４では、複数のノイズ参照用のマイク８００の入力にノイズキャンセリングをかけて、複数のスピーカ１３２０から出力し、処理を終了する。

　このように、本実施形態では、画像からノイズキャンセリングの対象となる状況および現象を認識して、判定する。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数が複数、生成される。
　このため、さらに、ノイズキャンセリングの精度を向上させることができる。

　すなわち、画像は、光を媒体とするため、高速で捉えられ、マイク８００で音を捉える音速より早く、フィルタ係数の生成を開始することができる。
　このため、演算量を増大させて、リアルタイム性をより向上させることができる。
　また、騒音源がない場合は、ノイズキャンセリングを行う信号がスピーカ１３２０から出力されない。したがって無駄な演算処理がない。さらに、意図せぬ信号がスピーカ１３２０から出力されないため、キャンセリング波が周囲に悪影響を及ぼすリスクを減少させることができる。　他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。

　以上、本実施形態に係る音響プログラム、音響装置、および音響システムおよび画像生成プログラムについて詳述してきたが、本発明はこれらの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更可能であることは言うまでもない。

　たとえば、本実施形態の演算部１０１は、システムを構成するコンピュータに設けられているが特にこれに限らない。たとえば、演算部１０１を図７に示すようなクラウドサーバ１０４に設けてもよい。
　また、コンピュータの演算部１０１と独立させてクラウドサーバ１０４にニューラルネットワーク３００を設けてもよい。さらに、ディープラーニングを行うニューラルネットワーク３００についても、特に実施形態のような多数段に畳み込まれるものに限らない。
　たとえば、サンプル画像と残響音のパラメータとを組み合せて、音場モデルの学習と推定が行えるものであれば、どのような人工知能やプログラムを用いてもよい。

　そして、本実施形態では、エンコーダとしての音響装置１００と、デコーダとしての音響装置２００とを個別に設けているが特にこれに限らず、音響装置１００および音響装置２００を一体に設けて、共通の一つの演算部がエンコーダとデコーダとして機能するようにしてもよい。
　さらに、音響装置１００，２００の演算部１０１，２０１に接続される撮像装置２、集音装置３、記憶装置４、および再生装置５についても、特に実施形態に限らず、特に画像データや音響データを接続により入力可能なデバイス等、どのような情報の入出力が行える装置が接続されていてもよい。

　さらに、構造物の反響音を測定する測定方法についても、ＴＳＰ（Ｔime Ｓtretched
Ｐulse）に限らない。たとえば、他のインパルスを用いた測定方法や、Ｍ系列、ホワイトノイズ、ピンクノイズを用いる測定方法等、どのような音の反響音を測定する測定方法であってもよい。

　また、本実施形態の音響装置１００では、各サンプル画像に表される構造物の反響音が２００ｈｚごとにサンプリングされている。しかしながら特にこれに限らず、１オクターブ毎、１／３オクターブ毎等、どのような単位でサンプリングしてもよい。

　２　　　　　　　撮像装置
　３　　　　　　　集音装置
　４　　　　　　　記憶装置
　５　　　　　　　再生装置（音響出力装置）
　１００，２００　音響装置
　１０１，２０１　演算部
　１０４　　　　　クラウドサーバ
　３００　　　　　ニューラルネットワーク

Claims

　未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、
　予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、前記サンプル画像に表された構造物の音場モデルを学習することを特徴とする音響プログラム。
　一つないし複数の画像に対応する空間音響フィルタ係数に関する一つないし複数のパラメータを学習するプログラム。
　音場を立体的に再現するための音響プログラムであって、予め一つないし複数の画像から空間音響フィルタ係数に関する一つないし複数のパラメータを推定するように学習された情報を用いて、未知の画像に対する空間音響フィルタ係数に関するパラメータを推定するプログラム。
　未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、
　予め学習されたサンプル画像の音場モデルを用いて、パラメータが不明な未知の画像に関する前記空間音響フィルタ係数を推定することを特徴とする音響プログラム。
　音場を立体的に再現するための空間音響フィルタ係数を画像に関連させて、構築された音場モデルに基づいて、パラメータが不明な画像の音場を再生する音響プログラムであって、
　予め一つのサンプル画像に、対応する空間音響フィルタ係数に関する複数のパラメータを求めることで、前記サンプル画像に表された構造物の音場モデルを学習させ、
　前記音場モデルを用いて、パラメータが不明な未知の画像について、前記空間音響フィルタ係数を推定することを特徴とする音響プログラム。
　多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行うことを特徴とする請求項１～５のうち何れか一項記載の音響プログラム。
　音場となる構造物を撮像して画像データを形成する、または、撮像された画像データを収集する撮像装置と、
　前記構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、
　前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データをパラメータとする空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備えることを特徴とする請求項１または請求項２に記載の音響プログラムを用いる音響装置。
　音場となる構造物を撮像して画像データを形成する、または、撮像された画像データを収集する撮像装置と、
　演算装置とを備え、
　前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定することを特徴とする請求項３または請求項４に記載の音響プログラムを用いる音響装置。
　音場となる構造物を撮像し、または、撮像された画像データを収集する撮像装置と、
　前記構造物で発生した音を集音しまたは集音された音響データを収集する集音装置と、
　前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データをパラメータとする空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
　前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定することを特徴とする音響プログラムを用いる音響装置。
　前記未知の画像は、耳介または外耳道のうち少なくとも何れかの画像であり、前記演算装置は、前記画像から、空間音響フィルタ係数を推定することを特徴とする請求項８～９のうち何れか一項に記載の音響装置。
　前記演算装置は、前記画像データおよび音響データまたは前記画像データが入力すると、該画像データに関連する前記空間音響フィルタ係数を推定して、該空間音響フィルタ係数から得られる残響特性を付加した音響を出力することを特徴とする請求項７～９のうち何れか一項に記載の音響装置。
　前記音響データは、映像コンテンツの吹替え音声であることを特徴とする請求項１１に記載の音響装置。
　前記残響特性が付加された音響を出力する音響出力装置をさらに備えることを特徴とする請求項１１に記載の音響装置を有する音響システム。
　前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする請求項１１に記載の音響装置。
　音響プログラムをクラウド上に構築して、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項１～５のうち何れか一項に記載の音響プログラムを備える音響システム。
　多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行う音響プログラムを、クラウド上に構築し、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項１～５のうち何れか一項に記載の音響プログラムを備える音響システム。