WO2017141317A1

WO2017141317A1 - 音響信号強調装置

Info

Publication number: WO2017141317A1
Application number: PCT/JP2016/054297
Authority: WO
Inventors: 訓古田
Original assignee: 三菱電機株式会社
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2017-08-24
Also published as: US20180374497A1; JP6279181B2; CN108604452B; DE112016006218B4; US10741195B2; CN108604452A; JPWO2017141317A1; DE112016006218T5

Abstract

第１の信号重み付け部（２）は、目的信号と雑音が混入した入力信号から目的信号または雑音の特徴を重み付けした信号を出力する。ニューラルネットワーク演算部（４）は、結合係数を用いて目的信号の強調信号を出力する。逆フィルタ部（６）は、強調信号から目的信号または雑音の特徴の重み付けを解除した信号を出力する。第２の信号重み付け部（９）は、教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する。誤差評価部（１１）は、第２の信号重み付け部（９）で重み付けされた信号とニューラルネットワーク演算部（４）の出力信号との学習誤差が設定値以下の値となるよう結合係数を出力する。

Description

音響信号強調装置

　この発明は、入力信号に重畳した目的信号以外の不要な信号を抑圧することで、目的信号を強調する音響信号強調装置に関する。

　近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話、自動車内でのハンズフリー音声通話、及び音声認識によるハンズフリー操作が広く普及している。また、人の発する悲鳴や怒号、あるいは機械の発する異常音や振動を捉えて検知する自動監視システムも開発されてきている。
　これらの機能を実現する装置は屋外や工場などの騒音環境下、あるいはスピーカ等で発生される音響信号がマイクロホンに多く回り込む高エコー環境で用いられることが多いため、マイクロホンや振動センサなどに代表される音響トランスデューサに対し、目的信号と共に背景騒音や音響エコー信号など不要な信号も入力されてしまい、通話音声の劣化及び音声認識率、異常音検出率の低下などを招く。そのため、快適な音声通話及び高精度の音声認識や異常音検出を実現するには、入力信号に混入した目的信号外の不要な信号（以下、この不要な信号を「雑音」と称する）を抑圧し、目的信号のみを強調する音響信号強調装置が必要である。

　従来、上記の目的信号のみを強調する方法として、ニューラルネットワークを用いた方法があった（例えば、特許文献１参照）。この従来法は、ニューラルネットワークにより入力信号のＳＮ比を改善することで目的信号を強調している。

特開平５－２３２９８６号公報

　ニューラルネットワークは、それぞれが複数の結合素子を含む複数の処理層を有する。各層間の結合素子との間には、結合素子間の結合強度を示す重み係数（結合係数と称する）が設定されるが、用途に応じて事前にニューラルネットワークの結合係数を予め初期設定しておく必要があり、この初期設定をニューラルネットワークの学習と呼ぶ。一般的なニューラルネットワークの学習は、ニューラルネットワーク演算結果と教師信号データとの差を学習誤差と定義し、バックプロパゲーション法などにより、この学習誤差の２乗和を最小化するように結合係数を繰り返し変化させる。

　一般にニューラルネットワークにおいては、大量の学習データを用いて学習を行うことによって各結合素子間の結合係数の最適化が進み、その結果として信号強調精度が向上する。しかしながら、目的信号や雑音の発生の頻度が少ない信号、例えば、悲鳴や怒号などの通常発声しないような音声や地震などの自然災害に伴う音、銃声などの突発的に発生する妨害音、機械の故障の前兆となる異常音・振動や機械異常時に出力する警告音については、多くの学習データを収集することは莫大な時間・費用を要したり、警告音を発生させるために製造ライン等を停止させなければならないなど多くの制約があったりして、少量の学習データしか収集できないのが現実である。このため、上記特許文献１に記載されたような従来の方法ではこのような不十分な学習データではニューラルネットワークの学習がうまくいかず、強調精度が低下するという課題があった。

　この発明は、かかる問題を解決するためになされたもので、学習データが少ない状況においても高品質な音響信号の強調信号を得ることのできる音響信号強調装置を提供することを目的とする。

　この発明に係る音響信号強調装置は、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、第１の信号重み付け部で重み付けされた信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、第２の信号重み付け部で重み付けされた信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたものである。

　この発明に係る音響信号強調装置は、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部とを用いて目的信号または雑音の特徴を重み付けするようにしたものである。これにより、学習データが少ない状況においても高品質な音響信号の強調信号を得ることができる。

この発明の実施の形態１の音響信号強調装置の構成図である。図２Ａは目的信号のスペクトルの説明図、図２Ｂは目的信号に雑音が混入した場合のスペクトルの説明図、図２Ｃは従来の方法による強調信号のスペクトルの説明図、図２Ｄは実施の形態１による強調信号のスペクトルの説明図である。この発明の実施の形態１の音響信号強調装置の音響信号強調処理の手順の一例を示すフローチャートである。この発明の実施の形態１の音響信号強調装置のニューラルネットワーク学習の手順の一例を示すフローチャートである。この発明の実施の形態１の音響信号強調装置のハードウェア構成を示すブロック図である。この発明の実施の形態１の音響信号強調装置のコンピュータを用いて実現する場合のハードウェア構成を示すブロック図である。この発明の実施の形態２の音響信号強調装置の構成図である。この発明の実施の形態３の音響信号強調装置の構成図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、本発明に係る実施の形態１の音響信号強調装置の概略構成を示すブロック図である。図１に示す音響信号強調装置は、信号入力部１と、第１の信号重み付け部２と、第１のフーリエ変換部３と、ニューラルネットワーク演算部４と、逆フーリエ変換部５と、逆フィルタ部６と、信号出力部７と、教師信号出力部８と、第２の信号重み付け部９と、第２のフーリエ変換部１０と、誤差評価部１１とを備える。

　この音響信号強調装置の入力としては、マイクロホン（図示せず）や振動センサ（図示せず）などの音響トランスデューサを通じて取り込まれた音声・音楽・信号音や雑音などの音響信号である。これら音響信号は、Ａ／Ｄ（アナログ・デジタル）変換された後、所定のサンプリング周波数（例えば、８ｋＨｚ）でサンプリングされると共にフレーム単位（例えば、１０ｍｓ）に分割された信号に変換されて入力されることになる。ここでは、音声を目的信号である音響信号として例示し動作説明する。

　以下、図１に基づいて、実施の形態１の音響信号強調装置の構成及びその動作原理を説明する。
　信号入力部１は、上述のような音響信号を所定のフレーム間隔で取り込み、時間領域の信号である入力信号ｘ_ｎ（ｔ）として第１の信号重み付け部２へ出力する。ここで、ｎは入力信号をフレーム分割したときのフレーム番号、ｔはサンプリングにおける離散時間番号を表す。

　第１の信号重み付け部２は、入力信号ｘ_ｎ（ｔ）中に含まれる目的信号または雑音の特徴を良く表現する部分について重み付け処理を行う処理部である。本実施の形態における信号重み付け処理には、例えば、音声スペクトルの重要なピーク成分（スペクトル振幅が大きい成分）、いわゆるフォルマントを強調するために用いられるフォルマント強調を適用することができる。
　フォルマント強調の方法としては、例えば、ハニング窓掛けした音声信号から自己相関係数を求め、帯域伸長処理を施したのち、レビンソン―ダービン（Levinson-Durbin）法により１２次の線形予測係数を求め、この線形予測係数からフォルマント強調係数を求める。そして、得られたフォルマント強調係数を用いたＡＲＭＡ（Auto Regressive Moving Average；自己回帰移動平均）型の合成フィルタを通過させることにより行うことができる。フォルマント強調の方法としては上記の方法に限らず、他の公知の手法を用いることができる。
　また、上記重み付けに用いた重み係数ｗ_ｎ（ｊ）を、後述する逆フィルタ部６へ出力する。ここでｊは重み係数の次数であり、フォルマント強調用フィルタのフィルタ次数に相当する。

　また、信号重み付けの方法として、上述のフォルマント強調だけでなく、例えば聴覚マスキングを用いた手法も可能である。聴覚マスキングとは、ある周波数のスペクトル振幅が大きい場合にその周辺周波数のスペクトル振幅が小さい成分を認知できなくなるという、人間の聴覚上の特性のことであり、このマスキングされる（振幅が小さい）スペクトル成分を抑圧することで相対的に強調処理が可能である。

　また、第１の信号重み付け部２の音声信号の特徴の重み付け処理の別方法として、例えば、音声の基本周期構造を示すピッチを強調するピッチ強調を行うことが可能である。あるいは、警告音や異常音といった雑音の持つ特定の周波数成分のみを強調するフィルタ処理を行うことも可能である。例えば、警告音の周波数が２ｋＨｚの正弦波の場合、２ｋＨｚを中心周波数として上下２００Ｈｚのみの周波数成分の振幅を１２ｄＢ増加させる帯域強調フィルタ処理を実施すればよい。

　第１のフーリエ変換部３は、第１の信号重み付け部２で重み付けされた信号をスペクトルに変換する処理部である。すなわち、第１の信号重み付け部２で重み付けされた入力信号ｘ_ｗ＿ｎ（ｔ）を例えばハニング窓掛けを行った後、下式（１）のように例えば２５６点の高速フーリエ変換を行って、時間領域の信号ｘ_{w_n}（ｔ）からスペクトル成分Ｘ_ｗ＿ｎ（ｋ）に変換する。

　ここで、ｋはパワースペクトルの周波数帯域の周波数成分を指定する番号（以下、スペクトル番号と称する）、ＦＦＴ［・］は高速フーリエ変換処理を表す。

　続いて、第１のフーリエ変換部３は下式（２）を用いて、入力信号のスペクトル成分Ｘ_ｗ＿ｎ（ｋ）からパワースペクトルＹ_ｎ（ｋ）と位相スペクトルＰ_ｎ（ｋ）を計算する。得られたパワースペクトルＹ_ｎ（ｋ）は、ニューラルネットワーク演算部４に出力される。また、位相スペクトルＰ_ｎ（ｋ）は、逆フーリエ変換部５に出力される。

　ここで、Ｒｅ｛Ｘ_ｎ（ｋ）｝及びＩｍ｛Ｘ_ｎ（ｋ）｝は、それぞれフーリエ変換後の入力信号スペクトルの実数部及び虚数部を表す。また、Ｍ＝１２８である。

　ニューラルネットワーク演算部４は、第１のフーリエ変換部３で変換されたスペクトルを強調して目的信号の強調を行った強調信号を出力する処理部である。すなわち、上述のパワースペクトルＹ_ｎ（ｋ）に対応するＭ点の入力点（ノード）を持ち、１２８点のパワースペクトルＹ_ｎ（ｋ）がニューラルネットワークに入力される。パワースペクトルＹ_ｎ（ｋ）は、事前に学習した結合係数によるネットワーク処理により目的信号が強調され、強調されたパワースペクトルＳ_ｎ（ｋ）が出力される。

　逆フーリエ変換部５は、強調されたスペクトルを時間領域の強調信号に変換する処理部である。すなわち、ニューラルネットワーク演算部４が出力する強調されたパワースペクトルＳ_ｎ（ｋ）と、第１のフーリエ変換部３が出力する位相スペクトルＰ_ｎ（ｋ）とを用いて逆フーリエ変換し、ＲＡＭなどの一次記憶用の内部メモリに蓄えている本処理の前フレームの結果と重ね合わせ処理した後、重み付き強調信号ｓ_ｗ＿ｎ（ｔ）を逆フィルタ部６へ出力する。

　逆フィルタ部６は、第１の信号重み付け部２が出力する重み係数ｗ_ｎ（ｊ）を用い、重み付き強調信号ｓ_ｗ＿ｎ（ｔ）に対し、第１の信号重み付け部２と逆の操作、すなわち重み付けを解消するフィルタ処理を行い、強調信号ｓ_ｎ（ｔ）を出力するよう構成されている。
　信号出力部７は、上記の方法により強調された強調信号ｓ_ｎ（ｔ）を外部へ出力する。

　なお、本実施の形態のニューラルネットワーク演算部４に入力する信号として、高速フーリエ変換により得られたパワースペクトルを用いているが、これに限定されることは無く、例えば、ケプストラム等の音響特徴パラメータを用いたり、フーリエ変換の代わりにコサイン変換やウェーブレット変換などの公知の変換処理を用いたりしても同様な効果を得ることが可能である。ウェーブレット変換の場合はパワースペクトルに代わってウェーブレットを用いることができる。

　教師信号出力部８は、ニューラルネットワーク演算部４内の結合係数を学習するための大量の信号データを保持し、上記学習時に教師信号ｄ_ｎ（ｔ）を出力する。また、教師信号ｄ_ｎ（ｔ）に対応した入力信号も第１の信号重み付け部２へ出力する。本実施の形態では目的信号が音声であり、教師信号は雑音が含まれない所定の音声信号、入力信号は同じ教師信号に対し雑音が混入した信号である。

　第２の信号重み付け部９は、第１の信号重み付け部２にて実施したのと同様の重み付け処理を教師信号ｄ_ｎ（ｔ）に対して行い、重み付けされた教師信号ｄ_ｗ＿ｎ（ｔ）を出力する。

　第２のフーリエ変換部１０は、第１のフーリエ変換部３にて実施したのと同様の高速フーリエ変換処理を行い、教師信号のパワースペクトルＤ_ｎ（ｋ）を出力する。

　誤差評価部１１は、ニューラルネットワーク演算部４が出力する、強調されたパワースペクトルＳ_ｎ（ｋ）と、第２のフーリエ変換部１０が出力する教師信号のパワースペクトルＤ_ｎ（ｋ）とを用い、下式（３）に定義する学習誤差Ｅを計算し、得られた結合係数をニューラルネットワーク演算部４に出力する。

　この学習誤差Ｅを評価関数として、例えば、バックプロパゲーション法により結合係数の変更量が計算される。この学習誤差Ｅが十分小さくなるまで、ニューラルネットワーク内部の各結合係数の更新が行われる。

　なお、上述の教師信号出力部８、第２の信号重み付け部９、第２のフーリエ変換部１０、及び誤差評価部１１については、通常はニューラルネットワーク演算部４のネットワーク学習時のみ、すなわち、結合係数を初期最適化する時にのみ動作させるが、例えば、入力信号の様態に応じて教師データを入れ替えて逐次あるいは常時動作させることで、ニューラルネットワークの結合係数を逐次最適化するようにしてもよい。

　教師信号出力部８、第２の信号重み付け部９、第２のフーリエ変換部１０、及び誤差評価部１１を逐次あるいは常時動作させることで、入力信号の様態の変化、例えば、入力信号に混入する雑音の種類やその大きさが変化した場合にも、入力信号の変化に素早く追従可能な強調処理が可能となり、更に高品質な音響信号強調装置を提供することが可能となる。

　図２Ａ～図２Ｄは、本実施の形態１に係る音響信号強調装置の出力信号の説明図である。図２Ａは目的信号である音声信号のスペクトルであり、図２Ｂは目的信号に街頭騒音（Street noise）が混入した場合の入力信号のスペクトルである。図２Ｃは従来方法により強調処理を行った場合の出力信号のスペクトルである。図２Ｄは本実施の形態１に係る音響信号強調装置により強調処理を行った場合の出力信号のスペクトルである。すなわち、図２Ｃ及び図２Ｄは、強調されたパワースペクトルＳ_ｎ（ｋ）のランニングスペクトルを示している。

　各図において、縦軸は周波数（上になるほど周波数が高くなる）、横軸は時間である。また、各図中の色が白い箇所はスペクトルのパワーが大きく、黒くなるにつれてスペクトルのパワーが小さくなることを表している。これらの図より、図２Ｃの従来方法では音声信号の高周波数のスペクトルが減衰してしまっているのに対し、図２Ｄの本実施の形態による方法は減衰せずに強調されていることが分かり、本発明の効果が確認できる。

　次に、図３のフローチャートを用いて音響信号強調装置における各部の動作を説明する。
　信号入力部１は、音響信号を所定のフレーム間隔で取りこみ（ステップＳＴ１Ａ）、時間領域の信号である入力信号ｘ_ｎ（ｔ）として第１の信号重み付け部２へ出力する。サンプル番号ｔが所定の値Ｔより小さい場合（ステップＳＴ１ＢのＹＥＳ）、ステップＳＴ１Ａの処理をＴ＝８０になるまで繰り返す。

　第１の信号重み付け部２は、入力信号ｘ_ｎ（ｔ）中に含まれる目的信号の特徴を良く表現する部分についてフォルマント強調による重み付け処理を行う。
　フォルマント強調は以下の処理を順次行う。まず、入力信号ｘ_ｎ（ｔ）のハニング窓掛けを行う（ステップＳＴ２Ａ）。ハニング窓掛けされた入力信号の自己相関係数を求め（ステップＳＴ２Ｂ）、帯域伸長（Band Expansion）処理を行う（ステップＳＴ２Ｃ）。次に、レビンソン―ダービン（Levinson-Durbin）法により１２次の線形予測係数を求め（ステップＳＴ２Ｄ）、この線形予測係数からフォルマント強調係数を求める（ステップＳＴ２Ｅ）。得られたフォルマント強調係数を用いたＡＲＭＡ型の合成フィルタを用いてフィルタ処理を行う（ステップＳＴ２Ｆ）。

　第１のフーリエ変換部３は、第１の信号重み付け部２で重み付けされた入力信号ｘ_ｗ＿ｎ（ｔ）を例えばハニング窓掛けを行い（ステップＳＴ３Ａ）、式（１）を用いて例えば２５６点の高速フーリエ変換を行い、時間領域の信号ｘ_ｗ＿ｎ（ｔ）からスペクトル成分の信号ｘ_ｗ＿ｎ（ｋ）に変換する（ステップＳＴ３Ｂ）。スペクトル番号ｋが所定の値Ｎより小さい場合（ステップＳＴ３ＣのＹＥＳ）、所定の値ＮになるまでステップＳＴ３Ｂの処理を繰り返す。

　続いて、式（２）を用いて、入力信号のスペクトル成分Ｘ_ｗ＿ｎ（ｋ）からパワースペクトルＹ_ｎ（ｋ）と位相スペクトルＰ_ｎ（ｋ）を計算する（ステップＳＴ３Ｄ）。得られたパワースペクトルＹ_ｎ（ｋ）は、後述するニューラルネットワーク演算部４に出力される。また、位相スペクトルＰ_ｎ（ｋ）は、後述する逆フーリエ変換部５に出力される。上記のパワースペクトルと位相スペクトルを求める処理は、スペクトル番号ｋが所定の値Ｍより小さい場合（ステップＳＴ３ＥのＹＥＳ）、Ｍ＝１２８までステップＳＴ３Ｄの処理を繰り返す。

　ニューラルネットワーク演算部４は、上述のパワースペクトルＹ_ｎ（ｋ）に対応するM点の入力点（ノード）を持ち、１２８点のパワースペクトルＹ_ｎ（ｋ）がニューラルネットワークに入力される（ステップＳＴ４Ａ）。パワースペクトルＹ_ｎ（ｋ）は、事前に学習した結合係数によるネットワーク処理により目的信号が強調され（ステップＳＴ４Ｂ）、強調されたパワースペクトルＳ_ｎ（ｋ）が出力される。

　逆フーリエ変換部５は、ニューラルネットワーク演算部４が出力する強調されたパワースペクトルＳ_ｎ（ｋ）と、第１のフーリエ変換部３が出力する位相スペクトルＰ_ｎ（ｋ）とを用いて逆フーリエ変換し（ステップＳＴ５Ａ）、ＲＡＭなどの一次記憶用の内部メモリに蓄えている前フレームの結果と重ね合わせ処理（ステップＳＴ５Ｂ）を行い、重み付き強調信号ｓ_ｗ＿ｎ（ｔ）を逆フィルタ部６へ出力する。

　逆フィルタ部６は、第１の信号重み付け部２が出力する重み係数ｗ_ｎ（ｊ）を用い、重み付き強調信号ｓ_ｗ＿ｎ（ｔ）に対し、第１の信号重み付け部２と逆の操作、すなわち重み付けを解消するフィルタ処理を行い（ステップＳＴ６）、強調信号ｓ_ｎ（ｔ）を出力する。

　信号出力部７は、強調信号ｓ_ｎ（ｔ）を外部へ出力する（ステップＳＴ７Ａ）。ステップＳＴ７Ａの後、音響信号強調処理が続行される場合（ステップＳＴ７ＢのＹＥＳ）、処理手順はステップＳＴ１Ａに戻る。一方、音響信号強調処理が続行されない場合（ステップＳＴ７ＢのＮＯ）、音響信号強調処理は終了する。

　次に、図４を参照しつつ、上記の音響信号強調処理中のニューラルネットワーク学習の動作例について説明する。図４は、実施の形態１におけるニューラルネットワーク学習の手順の一例を概略的に示すフローチャートである。

　教師信号出力部８は、ニューラルネットワーク演算部４内の結合係数を学習するための大量の信号データを保持し、上記学習時に教師信号ｄ_ｎ（ｔ）を出力すると共に第１の信号重み付け部２に入力信号を出力する（ステップＳＴ８）。本実施の形態では目的信号が音声であり、教師信号は雑音が含まれない音声信号、入力信号は雑音が含まれる音声信号となる。

　第２の信号重み付け部９は、第１の信号重み付け部２にて実施したのと同様の重み付け処理を教師信号ｄ_ｎ（ｔ）に対して行い（ステップＳＴ９）、重み付けされた教師信号ｄ_ｗ＿ｎ（ｔ）を出力する。

　第２のフーリエ変換部１０は、第１のフーリエ変換部３にて実施したのと同様の高速フーリエ変換処理を行い（ステップＳＴ１０）、教師信号のパワースペクトルＤ_ｎ（ｋ）を出力する。

　誤差評価部１１は、ニューラルネットワーク演算部４が出力する、強調されたパワースペクトルＳ_ｎ（ｋ）と、第２のフーリエ変換部１０が出力する教師信号のパワースペクトルＤ_ｎ（ｋ）とを用い、式（３）に定義する学習誤差Ｅを計算する（ステップＳＴ１１Ａ）。この学習誤差Ｅを評価関数として、例えば、バックプロパゲーション法により結合係数の変更量が計算され（ステップＳＴ１１Ｂ）、この結合係数の変更量がニューラルネットワーク演算部４に出力される（ステップＳＴ１１Ｃ）。そして、学習誤差Ｅが所定の閾値Ｅｔｈ以下になるまで学習誤差評価を行う。すなわち、学習誤差Ｅが閾値Ｅｔｈより大きい場合（ステップＳＴ１１ＤのＹＥＳ）の場合、学習誤差評価（ステップＳＴ１１Ａ）と結合係数の再計算（ステップＳＴ１１Ｂ）を行い、再計算結果をニューラルネットワーク演算部４に出力する（ステップＳＴ１１Ｃ）。このような処理を、学習誤差Ｅが所定の閾値Ｅｔｈ以下（ステップＳＴ１１ＣのＮＯ）となるまで繰り返し行う。

　なお、上記説明では、ニューラルネットワーク学習の手順はステップＳＴ８～ＳＴ１１として、ステップＳＴ１～ステップＳＴ７の音響信号強調処理の手順の後のステップ番号としたが、一般的にはステップＳＴ１～ＳＴ７の実行前にステップＳＴ８～ＳＴ１１が実行される。また、後述するように、ステップＳＴ１～ＳＴ７とステップＳＴ８～ＳＴ１１を同時並列に実行するようにしてもよい。

　上記の音響信号強調装置のハードウェア構成は、たとえば、ワークステーション、メインフレーム、あるいはパーソナルコンピュータや機器組み込み用途のマイクロコンピュータなどの、ＣＰＵ（Central Processing Unit）内蔵のコンピュータで実現可能である。あるいは、上記の音響信号強調装置のハードウェア構成は、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）またはＦＰＧＡ（Field-Programmable Gate Array）などのＬＳＩ（Large Scale Integrated circuit）により実現されてもよい。

　図５は、ＤＳＰ、ＡＳＩＣまたはＦＰＧＡなどのＬＳＩを用いて構成される音響信号強調装置１００のハードウェア構成例を示すブロック図である。図５の例では、音響信号強調装置１００は、信号入出力部１０２、信号処理回路１０３、記録媒体１０４及びバスなどの信号路１０５により構成されている。信号入出力部１０２は、音響トランスデューサ１０１及び外部装置１０６との接続機能を実現するインタフェース回路である。音響トランスデューサ１０１としては、例えば、マイクロホンや振動センサなどの音響振動を捉えて電気信号へ変換する装置を使用することができる。

　図１に示した第１の信号重み付け部２、第１のフーリエ変換部３、ニューラルネットワーク演算部４、逆フーリエ変換部５、逆フィルタ部６、教師信号出力部８、第２の信号重み付け部９、第２のフーリエ変換部１０、及び誤差評価部１１の各機能は、信号処理回路１０３及び記録媒体１０４で実現することができる。また、図１の信号入力部１及び信号出力部７は信号入出力部１０２に対応している。

　記録媒体１０４は、信号処理回路１０３の各種設定データや信号データなどの各種データを蓄積するために使用される。記録媒体１０４としては、例えば、ＳＤＲＡＭ（Ｓｙｎｃｈｒｏｎｏｕｓ　ＤＲＡＭ）などの揮発性メモリ、ＨＤＤ（ハードディスクドライブ）またはＳＳＤ（ソリッドステートドライブ）などの不揮発性メモリを使用することが可能であり、これにニューラルネットワークの各結合係数の初期状態や各種設定データ、教師信号データを記憶しておくことができる。

　信号処理回路１０３で強調処理が行われた音響信号は信号入出力部１０２を経て外部装置１０６に送出されるが、この外部装置１０６としては、例えば音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置、異常音検出装置等の各種音声音響処理装置が相当する。また、強調処理が行われた音響信号を増幅装置にて増幅し、スピーカなどで直接音響波形として出力することも外部装置１０６の機能として実現可能である。なお、本実施の形態の音響信号強調装置は、上述の他の装置と共にＤＳＰ等によって実現することも可能である。

　一方、図６は、コンピュータ等の演算装置を用いて構成される音響信号強調装置１００のハードウェア構成例を示すブロック図である。図６の例では、音響信号強調装置１００は、信号入出力部２０１、ＣＰＵ２０２を内蔵するプロセッサ２００、メモリ２０３、記録媒体２０４及びバスなどの信号路２０５により構成されている。信号入出力部２０１は、音響トランスデューサ１０１及び外部装置１０６との接続機能を実現するインタフェース回路である。
　メモリ２０３は、本実施の形態の音響信号強調処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリ等として使用するＲＯＭ及びＲＡＭ等の記憶手段である。

　第１の信号重み付け部２、第１のフーリエ変換部３、ニューラルネットワーク演算部４、逆フーリエ変換部５、逆フィルタ部６、教師信号出力部８、第２の信号重み付け部９、第２のフーリエ変換部１０、及び誤差評価部１１の各機能は、プロセッサ２００及び記録媒体２０４で実現することができる。また、図１の信号入力部１及び信号出力部７は信号入出力部２０１に対応している。

　記録媒体２０４は、プロセッサ２００の各種設定データや信号データなどの各種データを蓄積するために使用される。記録媒体２０４としては、たとえば、ＳＤＲＡＭなどの揮発性メモリ、ＨＤＤまたはＳＳＤを使用することが可能である。ＯＳ（オペレーティングシステム）を含むプログラムや、各種設定データ、音響信号データ等の各種データを蓄積することができる。なお、この記録媒体２０４に、メモリ２０３内のデータを蓄積しておくこともできる。

　プロセッサ２００は、メモリ２０３中のＲＡＭを作業用メモリとして使用し、メモリ２０３中のＲＯＭから読み出されたコンピュータ・プログラムに従って動作することにより、第１の信号重み付け部２、第１のフーリエ変換部３、ニューラルネットワーク演算部４、逆フーリエ変換部５、逆フィルタ部６、教師信号出力部８、第２の信号重み付け部９、第２のフーリエ変換部１０、及び誤差評価部１１と同様の信号処理を実行することができる。

　強調処理が行われた音響信号は信号入出力部１０２を経て外部装置１０６に送出されるが、この外部装置としては、例えば音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置、異常音検出装置等の各種音声音響処理装置が相当する。また、強調処理が行われた音響信号を増幅装置にて増幅し、スピーカなどで直接音響波形として出力することも外部装置１０６の機能として実現可能である。なお、本実施の形態の音響信号強調装置は、上述の他の装置と共にソフトウエアプログラムとして実行することで実現することも可能である。

　本実施の形態の音響信号強調装置を実行するプログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していても良いし、ＣＤ－ＲＯＭなどの記憶媒体にて配布される形式でも良い。また、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等の無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。更に、本実施の形態の音響信号強調装置１００に接続される音響トランスデューサ１０１や外部装置１０６に関しても、無線及び有線ネットワークを通じて各種データを送受信しても構わない。

　実施の形態１の音響信号強調装置では、以上のように構成されているため、音響信号中の目的信号である音声の重要な特徴部分を強調してニューラルネットワークの学習を行うこととなり、教師データとなる目的信号が少ない状況でも効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。また、目的信号外の雑音（妨害音）に対しても目的信号の場合と同様の効果（この場合は雑音をより減少させる方向に働く）が得られ、発生頻度が少ない雑音が混入した入力信号データを十分に準備できない状況においても、効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。

　また、この実施の形態１によれば、入力信号の様態に応じて教師データを入れ替えて逐次あるいは常時動作させるので、ニューラルネットワークの結合係数を逐次最適化することが可能であり、入力信号の様態の変化、例えば、入力信号に混入する雑音の種類やその大きさが変化した場合にも、入力信号の変化に素早く追従可能な音響信号強調装置を提供することができる。

　以上説明したように、実施の形態１の音響信号強調装置によれば、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、第１の信号重み付け部で重み付けされた信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、第２の信号重み付け部で重み付けされた信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたので、学習データが少ない状況においても高品質な音響信号の強調信号を得ることができる。

　また、実施の形態１の音響信号強調装置によれば、目的信号と雑音が混入した入力信号から、目的信号または雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、第１の信号重み付け部で重み付けされた信号をスペクトルに変換する第１のフーリエ変換部と、スペクトルに対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、ニューラルネットワーク演算部から出力された強調信号を時間領域の強調信号に変換する逆フーリエ変換部と、逆フーリエ変換部から出力された強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、第２の信号重み付け部で重み付けされた信号をスペクトルに変換する第２のフーリエ変換部と、第２のフーリエ変換部の出力信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を結合係数として出力する誤差評価部とを備えたので、教師信号となる目的信号が少ない状況でも効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。また、目的信号外の雑音（妨害音）に対しても目的信号の場合と同様の効果（この場合は雑音をより減少させる方向に働く）が得られ、発生頻度が少ない雑音が混入した入力信号データを十分に準備できない状況においても、効率的に学習することが可能となり、高品質な音響信号強調装置を提供することができる。

実施の形態２．
　実施の形態１では、入力信号の重み付け処理を時間波形領域で実施する場合を説明したが、入力信号の重み付け処理を周波数領域で行うことも可能であり、これを実施の形態２として説明する。

　図７は、実施の形態２における音響信号強調装置の内部構成を示すものである。図７において、図１に示す実施の形態１の音響信号強調装置と異なる構成としては、第１の信号重み付け部１２、逆フィルタ部１３、第２の信号重み付け部１４である。その他の構成については実施の形態１と同様であるため、対応する部分に同一符号を付してその説明を省略する。

　第１の信号重み付け部１２は、第１のフーリエ変換部３が出力するパワースペクトルＹ_ｎ（ｋ）を入力し、例えば、実施の形態１における第１の信号重み付け部２と同様な処理を周波数領域で実施し、重み付けされたパワースペクトルＹ_ｗ＿ｎ（ｋ）を出力する処理部である。併せて、第１の信号重み付け部１２は周波数重み係数Ｗ_ｎ（ｋ）を出力する。このとき、周波数重み係数Ｗ_ｎ（ｋ）は周波数毎、すなわち、パワースペクトル毎に設定されることになる。

　逆フィルタ部１３では、第１の信号重み付け部１２が出力する周波数重み係数Ｗ_ｎ（ｋ）と、ニューラルネットワーク演算部４が出力する強調されたパワースペクトルＳ_ｎ（ｋ）とを入力し、実施の形態１における逆フィルタ部６の処理を周波数領域で実施し、強調されたパワースペクトルＳ_ｎ（ｋ）の逆フィルタ出力を得る。

　第２の信号重み付け部１４は、第２のフーリエ変換部１０が出力する教師信号のパワースペクトルＤ_ｎ（ｋ）を入力し、例えば、実施の形態１における第２の信号重み付け部９と同様な処理を周波数領域で実施し、重み付けされた教師信号のパワースペクトルＤ_ｗ＿ｎ（ｋ）を出力する。

　このように構成された実施の形態２の音響信号強調装置では、信号入力部１は時間領域の信号である入力信号ｘ_ｎ（ｔ）を第１のフーリエ変換部３に出力する。第１のフーリエ変換部３では、入力信号ｘ_ｎ（ｔ）に対して実施の形態１と同様の処理を行い、パワースペクトルＹ_ｎ（ｋ）と位相スペクトルＰ_ｎ（ｋ）を計算し、パワースペクトルＹ_ｎ（ｋ）は第１の信号重み付け部１２に、位相スペクトルＰ_ｎ（ｋ）は逆フーリエ変換部５に出力する。第１の信号重み付け部１２は、第１のフーリエ変換部３が出力するパワースペクトルＹ_ｎ（ｋ）を入力し、実施の形態１における第１の信号重み付け部２と同様な処理を周波数領域で実施し、重み付けされたパワースペクトルＹ_ｗ＿ｎ（ｋ）と周波数重み係数Ｗ_ｎ（ｋ）を出力する。ニューラルネットワーク演算部４は、重み付けされたパワースペクトルＹ_ｗ＿ｎ（ｋ）から目的信号を強調し、強調したパワースペクトルＳ_ｎ（ｋ）を出力する。逆フィルタ部１３は、第１の信号重み付け部１２が出力する周波数重み係数ｗ_ｎ（ｋ）を用い、強調したパワースペクトルＳ_ｎ（ｋ）に対し、第１の信号重み付け部２と逆の操作、すなわち重み付けを解消するフィルタ処理を行い、逆フーリエ変換部５に出力する。逆フーリエ変換部５では、第１のフーリエ変換部３が出力する位相スペクトルＰ_ｎ（ｋ）を用いて逆フーリエ変換を行い、ＲＡＭなどの一次記憶用の内部メモリに蓄えている前フレームの結果と重ね合わせ処理を行って、強調信号ｓ_ｎ（ｔ）を信号出力部７へ出力する。

　また、実施の形態２におけるニューラルネットワーク学習の動作については、教師信号出力部８からの教師信号ｄ_ｎ（ｔ）に対して第２のフーリエ変換部１０でフーリエ変換を行った後、第２の信号重み付け部１４による重み付けが行われる点が実施の形態１とは異なる。すなわち、第２のフーリエ変換部１０は、教師信号ｄ_ｎ（ｔ）に対して第１のフーリエ変換部３にて実施したのと同様の高速フーリエ変換処理を行い、教師信号のパワースペクトルＤ_ｎ（ｋ）を出力する。次に第２の信号重み付け部１４は、教師信号のパワースペクトルＤ_ｎ（ｋ）に対して、第１の信号重み付け部１２にて実施したのと同様の重み付け処理を行い、重み付けされた教師信号のパワースペクトルＤ_ｗ＿ｎ（ｋ）を出力する。
　誤差評価部１１は、ニューラルネットワーク演算部４が出力する、強調されたパワースペクトルＳ_ｎ（ｋ）と、第２の信号重み付け部１４が出力する重み付けされた教師信号のパワースペクトルＤ_ｗ＿ｎ（ｋ）とを用い、実施の形態１と同様に、学習誤差Ｅが所定の閾値Ｅｔｈ以下となるまで学習誤差Ｅの計算と結合係数の再計算を行う。

　以上説明したように、実施の形態２の音響信号強調装置によれば、目的信号と雑音が混入した入力信号をスペクトルに変換する第１のフーリエ変換部と、スペクトルに対して目的信号または雑音の特徴を周波数領域で重み付けした信号を出力する第１の信号重み付け部と、第１の信号重み付け部の出力信号に対し、結合係数を用いて目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、強調信号から目的信号または雑音の特徴の重み付けを解除する逆フィルタ部と、逆フィルタ部の出力信号を時間領域の強調信号に変換する逆フーリエ変換部と、ニューラルネットワークの学習を行うための教師信号をスペクトルに変換する第２のフーリエ変換部と、第２のフーリエ変換部の出力信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、第２の信号重み付け部の出力信号と、ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を出力する誤差評価部とを備えたので、実施の形態１の効果に加えて、入力信号の重み付け処理を周波数領域で行うことで、各周波数で重みを細かく設定できたり、複数の重み付け処理が一度に周波数領域で実施できたりするので、より緻密な重み付けが可能となり、更に高品質な音響信号強調装置を提供することが可能となる。

実施の形態３．
　上述の実施の形態１及び実施の形態２では、周波数領域の信号であるパワースペクトルをニューラルネットワーク演算部４の入出力としていたが、時間波形信号を入力することも可能であり、これを実施の形態３として説明する。

　図８は本実施の形態における音響信号強調装置の内部構成を示すものである。図８において、図１と異なる構成としては誤差評価部１５である。その他の構成については図１と同様であるため、対応する部分に同一符号を付してその説明を省略する。

　ニューラルネットワーク演算部４は、第１の信号重み付け部２が出力する重み付けされた入力信号ｘ_ｗ＿ｎ（ｔ）を入力し、実施の形態１のニューラルネットワーク演算部４と同様に、目的信号が強調された強調信号ｓ_ｎ（ｔ）を出力する。

　誤差評価部１５は、ニューラルネットワーク演算部４が出力する強調信号ｓ_ｎ（ｔ）と、第２の信号重み付け部９が出力するｄ_ｗ＿ｎ（ｔ）とを用い、下式（４）に定義する学習誤差Ｅｔを計算し、得られた結合係数をニューラルネットワーク演算部４に出力する。

　ここで、Ｔは時間フレーム内のサンプル個数であり、Ｔ＝８０である。
　これ以外の動作については実施の形態１と同様であるため、ここでの説明は省略する。

　以上説明したように、実施の形態３の音響信号強調装置によれば、入力信号及び教師信号を時間波形信号としたので、時間波形信号を直接ニューラルネットワークに入力することで、フーリエ変換と逆フーリエ変換処理とが不要となり、処理量及びメモリ量を削減できる効果がある。

　なお、上記実施の形態１～３では、４層構造のニューラルネットワークを用いているが、これに限られることはなく、５層以上の更に深い構造のニューラルネットワークを用いることも可能であることはいうまでもない。また、出力信号の一部を入力に戻すＲＮＮ（Recurrent Neural Network；リカレントニューラルネットワーク）や、ＲＮＮの結合素子の構造に改良を加えたＬＳＴＭ（Long Short-Term Memory）－ＲＮＮなどの公知のニューラルネットワークの派生改良型を用いてもよい。

　また、上記実施の形態１、２において、第１のフーリエ変換部３が出力するパワースペクトルの各周波数成分をニューラルネットワーク演算部４へ入力していたが、このパワースペクトルを複数まとめて入力、すなわち、スペクトルの帯域成分を入力とすることも可能である。この帯域の構成方法としては例えば臨界帯域幅でまとめることができる。これはいわゆるバーク尺度で帯域分割したバークスペクトル（Bark Spectrum）である。バークスペクトルを入力とすることで、人間の聴覚特性を模擬することが可能となる上、ニューラルネットワークのノード数を削減することができるので、ニューラルネットワーク演算に要する処理量・メモリ量を削減することができる。また、バークスペクトル以外の適用例としてメル尺度を用いても同様な効果が得られる。

　さらに、上記実施の形態のそれぞれにおいて、雑音の一例として街頭騒音、目的信号の一例として音声を挙げて説明したが、これに限定されることは無く、例えば、自動車または列車の走行騒音や航空機騒音、エレベータなどの昇降機動作騒音、工場内の機械騒音や展示会場等における多くの人声が混じった混声騒音、一般家庭内の生活騒音、ハンズフリー通話時の受話音の発する音響エコーなどにも適用可能であり、これらの雑音及び目的信号についても、各実施の形態にて述べた効果を同様に奏する。

　また、入力信号の周波数帯域幅を４ｋＨｚとしているがこれに限ることは無く、例えば、更に広帯域の音声信号や、人に聴こえない２０ｋＨｚ以上の超音波や５０Ｈｚ以下の低周波信号についても適用可能である。

　上記以外にも、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　以上のように、この発明に係る音響信号強調装置は、高品質な信号強調（あるいは、雑音抑圧や音響エコー低減）が可能なため、音声通信、音声蓄積、音声認識システムのいずれかが導入された、カーナビゲーション、携帯電話やインターフォン等の音声通信システム、ハンズフリー通話システム、ＴＶ会議システム及び監視システム等の音質改善と、音声認識システムの認識率向上と、自動監視システムの異常音検出率の向上のために供するのに適している。

　１　信号入力部、２、１２　第１の信号重み付け部、３　第１のフーリエ変換部、４　ニューラルネットワーク演算部、５　逆フーリエ変換部、６　逆フィルタ部、７　信号出力部、８　教師信号出力部、９、１４　第２の信号重み付け部、１０　第２のフーリエ変換部、１１、１５　誤差評価部、１３　逆フィルタ部。

Claims

　目的信号と雑音が混入した入力信号に対して、前記目的信号または前記雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、
　前記第１の信号重み付け部で重み付けされた信号に対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
　前記強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
　ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、
　前記第２の信号重み付け部で重み付けされた信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
　目的信号と雑音が混入した入力信号から、前記目的信号または前記雑音の特徴を重み付けした信号を出力する第１の信号重み付け部と、
　前記第１の信号重み付け部で重み付けされた信号をスペクトルに変換する第１のフーリエ変換部と、
　前記スペクトルに対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
　前記ニューラルネットワーク演算部から出力された強調信号を時間領域の強調信号に変換する逆フーリエ変換部と、
　前記逆フーリエ変換部から出力された強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
　ニューラルネットワークの学習を行うための教師信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、
　前記第２の信号重み付け部で重み付けされた信号をスペクトルに変換する第２のフーリエ変換部と、
　前記第２のフーリエ変換部の出力信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
　目的信号と雑音が混入した入力信号をスペクトルに変換する第１のフーリエ変換部と、
　前記スペクトルに対して前記目的信号または前記雑音の特徴を周波数領域で重み付けした信号を出力する第１の信号重み付け部と、
　前記第１の信号重み付け部の出力信号に対し、結合係数を用いて前記目的信号の強調を行った強調信号を出力するニューラルネットワーク演算部と、
　前記強調信号から前記目的信号または前記雑音の特徴の重み付けを解除する逆フィルタ部と、
　前記逆フィルタ部の出力信号を時間領域の強調信号に変換する逆フーリエ変換部と、
　ニューラルネットワークの学習を行うための教師信号をスペクトルに変換する第２のフーリエ変換部と、
　前記第２のフーリエ変換部の出力信号に対して目的信号または雑音の特徴を重み付けした信号を出力する第２の信号重み付け部と、
　前記第２の信号重み付け部の出力信号と、前記ニューラルネットワーク演算部の出力信号との学習誤差が設定値以下の値となる結合係数を前記結合係数として出力する誤差評価部とを備えたことを特徴とする音響信号強調装置。
　前記入力信号及び前記教師信号は時間波形信号であることを特徴とする請求項１記載の音響信号強調装置。