WO2022190245A1

WO2022190245A1 - 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム

Info

Publication number: WO2022190245A1
Application number: PCT/JP2021/009490
Authority: WO
Inventors: 利行花澤
Original assignee: 三菱電機株式会社
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-09-15
Also published as: JPWO2022190245A1; EP4297028A4; JP7345702B2; EP4297028A1; US20230386493A1; CN116964664A

Abstract

騒音抑圧装置（１）は、入力データ（Ｓｉ（ｔ））に対して騒音抑圧処理を行って騒音抑圧後データ（Ｓｓ（ｔ））を生成する騒音抑圧部（１１）と、時系列上の予め定められた区間（Ｅ）における入力データ（Ｓｉ（ｔ））と予め定められた区間（Ｅ）における騒音抑圧後データ（Ｓｓ（ｔ））とに基づいて加重係数（α）を決定する加重係数算出部（１２）と、加重係数（α）に基づく値を重みとして用いて、入力データ（Ｓｉ（ｔ））と騒音抑圧後データ（Ｓｓ（ｔ））とを重み付け加算することで出力データ（Ｓｏ（ｔ））を生成する加重和部（１３）とを備えている。

Description

騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム

　本開示は、騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムに関する。

　声（以下「音声」とも言う。）に雑音（以下「騒音」とも言う。）が混入した音の信号から、騒音成分を低減する方法としてＷｅｉｎｅｒ法が知られている。この方法によれば、ＳＮ（ｓｉｇｎａｌ－ｎｏｉｓｅ）比は改善されるが、音声成分が劣化する。そこで、ＳＮ比に応じた騒音低減処理を行うことにより、ＳＮ比を改善しつつ音声成分の劣化を抑制する方法が提案されている（例えば、非特許文献１参照）。

佐々木潤子、他１名著、「マスキング効果を用いた低歪み雑音低減方式における効果的な原音付加率の検討」、日本音響学会研究発表会講演論文集、ｐｐ．５０３－５０４、１９９８年９月

　しかしながら、騒音下では、認識対象である音声が騒音に埋もれてＳＮ比の測定精度が低下する。このため、騒音成分の抑制と音声成分の劣化の抑制が適切に行われないという課題がある。

　本開示は、上記のような課題を解決するためになされたものであり、騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことを可能にする騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムを提供することを目的とする。

　本開示の騒音抑圧装置は、入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定する加重係数算出部と、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、を備えたことを特徴とする。

　本開示の他の騒音抑圧装置は、入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定する加重係数算出部と、前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、を備えたことを特徴とする。

　本開示によれば、入力データにおける騒音成分の抑制と入力データにおける音声成分の劣化の抑制とを適切に行うことができる。

実施の形態１から３に係る騒音抑圧装置のハードウェア構成の例を示す図である。実施の形態１に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る騒音抑圧装置の動作を示すフローチャートである。実施の形態２に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。実施の形態２に係る騒音抑圧装置で使用される加重係数表の例を示す図である。実施の形態２に係る騒音抑圧装置の動作を示すフローチャートである。実施の形態３に係る騒音抑圧装置の構成を概略的に示す機能ブロック図である。実施の形態３に係る騒音抑圧装置の動作を示すフローチャートである。実施の形態３に係る騒音抑圧装置における加算係数の算出方法を示すフローチャートである。

　以下に、実施の形態に係る騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。

実施の形態１．
　図１は、実施の形態１に係る騒音抑圧装置１のハードウェア構成の例を示す。騒音抑圧装置１は、実施の形態１に係る騒音抑圧方法を実行することができる装置である。騒音抑圧装置１は、例えば、実施の形態１に係る騒音抑圧プログラムを実行するコンピュータである。図１に示されるように、騒音抑圧装置１は、情報を処理する情報処理部としてプロセッサ１０１と、揮発性記憶装置としてのメモリ１０２と、情報を格納する記憶部としての不揮発性記憶装置１０３と、外部機器との間でデータの送受信を行うために使用される入出力インタフェース１０４とを備えている。不揮発性記憶装置１０３は、騒音抑圧装置１とネットワークを介して通信可能な他の装置の一部であってもよい。騒音抑圧プログラムは、ネットワークを経由して行われるダウンロード又は情報を記憶する光ディスクなどのような記録媒体からの読み込みによって取得可能である。なお、図１のハードウェア構成は、後述の実施の形態２及び３に係る騒音抑圧装置２及び３にも適用可能である。

　プロセッサ１０１は、騒音抑圧装置１の全体の動作を制御する。プロセッサ１０１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。騒音抑圧装置１は、処理回路によって実現されてもよい。また、騒音抑圧装置１は、ソフトウェア、ファームウェア、又はそれらの組み合わせによって実現されてもよい。

　メモリ１０２は、騒音抑圧装置１の主記憶装置である。メモリ１０２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、騒音抑圧装置１の補助記憶装置である。不揮発性記憶装置１０３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。入出力インタフェース１０４は、入力データＳｉ（ｔ）の入力及び出力データＳｏ（ｔ）の出力を行う。入力データＳｉ（ｔ）は、例えば、マイクから入力されデジタル変換されたデータである。入出力インタフェース１０４は、ユーザ操作部（例えば、音声入力の開始ボタン、キーボード、マウス、タッチパネル、など）によるユーザ操作に基づく操作信号の受信、他の装置との間の通信などに使用される。ｔは、時系列上の位置を示すインデックスである。ｔの値が大きいほど、時間軸上の遅い時刻を示す。

　図２は、実施の形態１に係る騒音抑圧装置１の構成を概略的に示す機能ブロック図である。図２に示されるように、騒音抑圧装置１は、騒音抑圧部１１と、加重係数算出部１２と、加重和部１３とを備えている。

　騒音抑圧装置１の入力データＳｉ（ｔ）は、認識対象の音声成分に騒音成分が重畳した信号をＡ／Ｄ（アナログ／デジタル）変換して得られたＰＣＭ（ｐｕｌｓｅ　ｃｏｄｅ　ｍｏｄｕｌａｔｉｏｎ）データである。ここで、ｔ＝１，２，…，Ｔである。ｔは、時系列上の位置を示すインデックスとしての整数であり、Ｔは、入力データＳｉ（ｔ）の時間長を示す整数である。

　また、出力データＳｏ（ｔ）は、入力データＳｉ（ｔ）における騒音成分が抑圧されているデータである。出力データＳｏ（ｔ）は、例えば、公知の音声認識装置に送信される。ここで、ｔ及びＴの意味は、既に説明した通りである。

　騒音抑圧部１１は、入力データＳｉ（ｔ）を受け取り、入力データＳｉ（ｔ）における騒音成分を抑圧することで得られたＰＣＭデータ、すなわち、騒音抑圧処理が施された後のデータである騒音抑圧後データＳｓ（ｔ）を出力する。ここで、ｔ及びＴの意味は、既に説明した通りである。騒音抑圧後データＳｓ（ｔ）には、騒音成分の抑圧量が不十分である、又は、認識対象である声の成分である音声成分が歪む若しくは音声成分が消失する、などの現象が発生することがある。

　騒音抑圧部１１は、任意の騒音抑圧方式を用いることが可能である。実施の形態１では、騒音抑圧部１１は、ニューラルネットワーク（ＮＮ）を用いて騒音抑圧処理を行う。騒音抑圧部１１は、騒音抑圧処理を実施する前にニューラルネットワークを学習する。学習は、例えば、声に騒音を重畳している音のＰＣＭデータを入力データとし、声に騒音を重畳していないＰＣＭデータを教師データとして、誤差逆伝搬法を用いて実施することができる。

　加重係数算出部１２は、時系列上の予め定められた区間における入力データＳｉ（ｔ）と予め定められた区間における騒音抑圧後データＳｓ（ｔ）とに基づいて加重係数αを決定（すなわち、算出）する。

　加重和部１３は、加重係数αに基づく値を重みとして用いて、入力データＳｉ（ｔ）と騒音抑圧後データＳｓ（ｔ）とを重み付け加算することで出力データＳｏ（ｔ）を生成する。

　図３は、騒音抑圧装置１の動作を示すフローチャートである。図３のステップＳＴ１１において、騒音抑圧装置１による入力データＳｉ（ｔ）の受信が開始され、騒音抑圧装置１に入力データＳｉ（ｔ）が入力されると、騒音抑圧部１１は、入力データＳｉ（ｔ）に対して騒音抑圧処理を行い、騒音抑圧後データＳｓ（ｔ）を生成する。

　次に、図３のステップＳＴ１２において、加重係数算出部１２は、騒音抑圧前のデータである入力データＳｉ（ｔ）と騒音抑圧後データＳｓ（ｔ）とを受け取り、入力データＳｉ（ｔ）及び騒音抑圧後データＳｓ（ｔ）の先頭から予め定められた区間（例えば、０．５秒間などの短時間の区間）における、入力データＳｉ（ｔ）のパワーＰ１及び騒音抑圧後データＳｓ（ｔ）のパワーＰ２を算出する。予め定められた区間におけるデータ中には、認識対象の音声成分が含まれておらず、騒音成分のみが含まれていると考えられる。この理由は、騒音抑圧装置１を起動した直後（例えば、音声入力開始操作を行った直後）に発話を開始することは、ほとんどないからである。言い換えれば、認識対象の音声を発する話者（すなわち、ユーザ）は、装置における音声入力開始操作を行い、空気を吸い込んだ後に肺から息を吐きながら声を出すので、少なくとも空気を吸い込む時間は声を発していないからである。このため、通常、音声入力開始時における予め定められた区間は、話者の声を含まない騒音のみの区間、つまり、騒音区間である。以下の説明では、騒音区間には、符号Ｅが付される。

　なお、騒音区間Ｅは、入力データの先頭から０．５秒の区間に限定されず、１秒の区間、０．７５秒の区間などの他の長さの区間であってもよい。ただし、騒音区間Ｅが長すぎる場合には、音声成分が混入する可能性が高まるが、加重係数αの信頼度が向上する。また、騒音区間Ｅが短すぎる場合には、音声成分が混入する可能性は低いが、加重係数αの信頼度が低下する。したがって、騒音区間Ｅは、使用環境、ユーザの要望、などに応じて適切に設定されることが望ましい。

　次に、加重係数算出部１２は、騒音区間Ｅにおける入力データＳｉ（ｔ）のパワーＰ１と騒音区間Ｅにおける騒音抑圧後データＳｓ（ｔ）のパワーＰ２とを用いて、両者の比のデシベル値である騒音抑圧量Ｒを算出する。つまり、加重係数算出部１２は、騒音区間Ｅにおける入力データＳｉ（ｔ）のパワーＰ１と騒音区間Ｅにおける騒音抑圧後データＳｓ（ｔ）のパワーとの比に基づいて騒音抑圧量Ｒを算出し、騒音抑圧量Ｒに基づいて加重係数αの値を決定する。騒音抑圧量Ｒの算出式は、例えば、以下の式（１）である。

　式（１）で算出される騒音抑圧量Ｒは、騒音区間Ｅにおける入力データＳｉ（ｔ）と騒音区間Ｅにおける騒音抑圧後データＳｓ（ｔ）との間の騒音抑圧部１１による騒音抑圧の程度を示す。騒音抑圧量Ｒが大きいほど、騒音抑圧部１１による騒音抑圧の程度が大きい。

　図３のステップＳＴ１３，ＳＴ１４，ＳＴ１５において、加重係数算出部１２は、算出された騒音抑圧量Ｒに基づいて、加重係数αの値を決定する。つまり、加重係数算出部１２は、算出された騒音抑圧量Ｒを予め定められた閾値ＴＨ＿Ｒと比較し、この比較の結果に基づいて加重係数αの値を決定する。

　具体的には、加重係数算出部１２は、騒音抑圧量Ｒが閾値ＴＨ＿Ｒ未満である場合（ステップＳＴ１３においてＹＥＳの場合）、ステップＳＴ１４において、予め定められた値α_１を加重係数αとして出力する。一方、加重係数算出部１２は、騒音抑圧量Ｒが閾値ＴＨ＿Ｒ以上である場合（ステップＳＴ１３においてＮＯの場合）、ステップＳＴ１５において、予め定められた値α_２を加重係数αとして出力する。α_１及びα_２は、α_１＞α_２を満たす０以上１以下の定数である。なお、値α_１及びα_２は、閾値ＴＨ＿Ｒとともに、予め設定され不揮発性記憶装置１０３に記憶されている。例えば、ＴＨ＿Ｒ＝３、α_１＝０．５、α_２＝０．２である。

　このように加重係数αを算出する加重係数算出部１２は、騒音抑圧量Ｒが小さいため騒音抑圧の効果が小さく、逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データＳｉ（ｔ）に対する加重係数αを大きくして、騒音抑圧による悪影響を低減させる。一方、加重係数算出部１２は、騒音抑圧量Ｒが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データＳｉ（ｔ）に対する加重係数αを小さくして、相対的に騒音抑圧後データＳｓ（ｔ）の加重を大きくすることにより、騒音抑圧の効果を低減し過ぎることなく、音声の歪み又は消失による悪影響を減らすことができる。

　次に、図３のステップＳＴ１６において、加重和部１３は、入力データＳｉ（ｔ）、騒音抑圧後データＳｓ（ｔ）、及び加重係数αに基づいて、以下の式（２）を用いて、出力データＳｏ（ｔ）を算出し、出力する。

　以上に説明したように、実施の形態１に係る騒音抑圧装置１又は騒音抑圧方法によれば、騒音抑圧量Ｒが小さい騒音環境においては、入力データＳｉ（ｔ）に乗算する加重係数αを大きくし、騒音抑圧効果を示す係数（１－α）を小さくする。一方、騒音抑圧量Ｒが大きい騒音環境において、入力データＳｉ（ｔ）に乗算する加重係数αを小さくし、騒音抑圧効果を示す係数（１－α）を大きくする。このような処理により、騒音抑圧効果を低減し過ぎることなく、認識対象である音声の歪み又は消失による悪影響の少ない音声データを出力データＳｏ（ｔ）として出力することができる。つまり、実施の形態１においては、入力データＳｉ（ｔ）における騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことができる。

　また、実施の形態１に係る騒音抑圧装置１又は騒音抑圧方法によれば、騒音抑圧装置１の音声入力開始時からの短時間である騒音区間Ｅにおける入力データＳｉ（ｔ）と騒音区間Ｅにおける騒音抑圧後データＳｓ（ｔ）とを用いて、加重係数αの値を決定する。このため、入力データのＳＮ比を用いて加重係数αを決定する技術のように、騒音環境下では測定が困難な音声パワーを使用する必要がない。このため、加重係数αの算出精度を改善でき、入力データＳｉ（ｔ）における騒音成分の抑制と音声成分の劣化の抑制とを適切に行うことができる。また、入力データＳｉ（ｔ）に対する遅延なく加重係数αを決定できる。

実施の形態２．
　図４は、実施の形態２に係る騒音抑圧装置２の構成を概略的に示すブロック図である。図４において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付されている。図４に示されるように、騒音抑圧装置２は、騒音抑圧部１１と、加重係数算出部１２ａと、加重和部１３と、加重係数表１４と、騒音種類判定モデル１５とを備えている。また、騒音抑圧装置２のハードウェア構成は、図１に示されるものと同様である。加重係数表１４及び騒音種類判定モデル１５は、例えば、予め学習により求められ、不揮発性記憶装置１０３に記憶される。

　加重係数表１４は、複数種類の騒音にそれぞれ付与された騒音識別番号と対応付けて、予め定められた加重係数候補を保持する。騒音種類判定モデル１５は、入力データに含まれる騒音成分が加重係数表１４における複数種類の騒音のいずれであるかを、入力データのスペクトル特徴量に基づいて判定するために使用される。加重係数算出部１２ａは、　前記騒音種類判定モデル（１５）を用いて、前記複数種類の騒音のうちで、入力データにおける前記予め定められた区間（Ｅ）のデータに最も類似している騒音を算出し、加重係数表１４から、算出された騒音の騒音識別番号に対応付けられた加重係数候補を加重係数αとして出力する。

　図５は、加重係数表１４の例を示す図である。加重係数表１４には、予め騒音識別番号を付与した複数種類の騒音に対して、騒音ごとに騒音識別番号と対応付けて予め定められた最適な加重係数αの候補（すなわち、加重係数候補）が保持されている。加重係数表１４は、複数種類の騒音データと、評価用の音声データとを用いて、事前に作成される。

　具体的には、評価用音声データに対して、複数種類の騒音データの内の１つの騒音を重畳した騒音重畳音声データを作成し、それを騒音抑圧部１１に入力し、出力されたデータが騒音抑圧後データである。この処理を複数種類の騒音データの各々について行い、複数の騒音抑圧後データを得る。

　次に、加重係数を複数種類設定して、各加重係数で騒音重畳音声データと騒音抑圧後データとを加重平均して認識率評価用データを作成する。

　次に、複数の加重係数ごとに、認識率評価用データに対して音声認識実験を実施し、認識率が最も高くなった加重係数を、騒音データの騒音識別番号とともに加重係数表１４に保持する。なお、音声認識実験は、音声を認識する音声認識エンジンにより実施される。音声認識エンジンは、人の音声を認識し、テキストに変換する。音声認識実験は、騒音抑圧装置２と組み合わせて使用する音声認識エンジンを用いて行われることが望ましいが、公知の音声認識エンジンを用いることが可能である。

　騒音種類判定モデル１５は、入力データＳｉ（ｔ）に含まれる騒音成分が、予め騒音識別番号を付与した複数種類の騒音のいずれに最も類似しているかを判定するために使用されるモデルである。騒音種類判定モデル１５は、予め騒音識別番号を付与した複数種類の騒音データを用いて事前に作成される。

　具体的には、予め騒音識別番号を付与した複数種類の騒音データのスペクトル特徴量を算出し、算出したスペクトル特徴量を用いて騒音種類判定モデル１５を作成する。騒音種類判定モデル１５は、ニューラルネットワーク又はＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）等、公知のパターン認識モデルで構築可能である。実施の形態２では、騒音種類判定モデル１５として、ニューラルネットワークが用いられる。ニューラルネットワークの出力ユニットの数は、予め騒音識別番号を付与した複数種類の騒音の種類の数である。各出力ユニットは、騒音識別番号に対応づけられている。また、実施の形態２では、スペクトル特徴量として、メルフィルタバンク特徴量が用いられる。

　騒音抑圧を実施する前に、騒音種類判定モデル１５であるニューラルネットワークを学習する必要がある。学習は、メルフィルタバンク特徴量を入力データとして、入力データの騒音識別番号に対応する出力ユニットの出力値を１、他の出力ユニットの出力値を０としたものを教師データとして誤差逆伝搬法を用いて実施することができる。この学習によって、騒音種類判定モデル１５は、騒音のメルフィルタバンク特徴量を入力すると、対応する騒音識別番号の出力ユニットの出力値が、他の出力ユニットの出力値よりも高くなるように学習される。よって、騒音の種類を判定する場合は、入力されたメルフィルタバンク特徴量に対して、最も高い値を出力した出力ユニットに対応付けた騒音識別番号を前記判定の結果とする。

　図６は、騒音抑圧装置２の動作を示すフローチャートである。入力データＳｉ（ｔ）が騒音抑圧装置２に入力されると、図６のステップＳＴ２１において騒音抑圧部１１は、入力データＳｉ（ｔ）に対して騒音抑圧処理を行い、騒音抑圧後データＳｓ（ｔ）を出力する。実施の形態２において、ｔ＝１，２，…，Ｔである。ｔ及びＴは、実施の形態１のものと同じである。

　次に、図６のステップＳＴ２２において、加重係数算出部１２ａは、入力データＳｉ（ｔ）を受信すると、入力データＳｉ（ｔ）の先頭から予め定められた区間である騒音区間Ｅ（例えば、０．５秒間の短時間の区間）に対して、入力データＳｉ（ｔ）のスペクトル特徴量であるメルフィルタバンク特徴量を算出し、騒音種類判定モデル１５を用いて騒音識別番号を得る。すなわち、加重係数算出部１２ａは、メルフィルタバンク特徴量を騒音種類判定モデル１５に入力し、騒音種類判定モデル１５の出力ユニット中で最高の値を出力した出力ユニットに対応付けた騒音識別番号を得る。そして、加重係数表１４を参照して騒音識別番号に対応した加重係数候補を加重係数αとして出力する。

　次に、図６のステップＳＴ２３において、加重和部１３は、入力データＳｉ（ｔ）、騒音抑圧部１１の出力である騒音抑圧後データＳｓ（ｔ）、及び加重係数αを受け取り、上記した式（２）により、出力データＳｏ（ｔ）を計算して、出力する。加重和部１３の動作は、実施の形態１のものと同じである。

　以上に説明したように、実施の形態２に係る騒音抑圧装置２又は騒音抑圧方法によれば、加重係数算出部１２ａが騒音種類判定モデル１５を用いて入力データＳｉ（ｔ）に含まれる騒音の種類を判定し、この判定の結果に基づいて加重係数表１４から当該騒音環境での適切な加重係数候補を加重係数αとして決定（すなわち、取得）する。このため、騒音抑圧性能を向上させることができるという効果がある。

　なお、上記以外に関し、実施の形態２は、実施の形態１と同じである。

実施の形態３．
　図７は、実施の形態３に係る騒音抑圧装置３の構成を概略的に示す機能ブロック図である。図７において、図２に示される構成要素と同一又は対応する構成要素には、図２に示される符号と同じ符号が付されている。図７に示されるように、騒音抑圧装置３は、騒音抑圧部１１と、加重係数算出部１２ｂと、加重和部１３ｂと、音声騒音判定モデル１６とを備えている。また、騒音抑圧装置３のハードウェア構成は、図１に示されるものと同様である。音声騒音判定モデル１６は、例えば、不揮発性記憶装置１０３に記憶される。

　音声騒音判定モデル１６は、入力データＳｉ（ｔ）に含まれるデータ中に音声が含まれるか否かを判定するモデルである。音声騒音判定モデル１６は、音声データと複数種類の騒音データとを用いて事前に作成される。

　具体的には、複数種類の騒音データ、音声データ、音声データに複数種類の騒音を重畳したデータ、及び複数種類の騒音データに対してスペクトル特徴量を算出し、算出したスペクトル特徴量を用いて音声騒音判定モデル１６を作成する。音声騒音判定モデル１６は、ニューラルネットワーク又はＧＭＭ等の、任意のパターン認識モデルで構築可能である。実施の形態３では、音声騒音判定モデル１６の作成に、ニューラルネットワークを用いる。例えば、ニューラルネットワークの出力ユニット数は、２個とし、音声と騒音に対応づけられる。また、スペクトル特徴量としては、例えば、メルフィルタバンク特徴量が用いられる。騒音抑圧を実施する前に、音声騒音判定モデル１６であるニューラルネットワークを学習する必要がある。学習は、メルフィルタバンク特徴量を入力データとして、入力データが音声を含むデータ、すなわち、音声データもしくは複数種類騒音を重畳した音声データであれば音声に対応する出力ユニットの出力値を１、騒音に対応する出力ユニットの出力値を０、入力データが騒音データであれば、音声に対応する出力ユニットの出力値を０、騒音に対応する出力ユニットの出力値を１としたものを教師データとして誤差逆伝搬法を用いて実施することができる。この学習によって、音声騒音判定モデル１６は、音声データあるいは騒音が重畳した音声データのメルフィルタバンク特徴量を入力すると、音声に対応する出力ユニットの出力値が高くなり、騒音データのルフィルタバンク特徴量を入力すると、騒音に対応する出力ユニットの出力値が高くなるように学習される。よって、加重係数算出部１２ｂは、入力データが音声を含むか否かを判定する場合は、入力されたメルフィルタバンク特徴量に対して最も高い値を出力した出力ユニットが、音声に対応付けたものであれば音声を含むデータであると判定することができ、騒音に対応付けたものであれば騒音であると判定することができる。

　図８は、騒音抑圧装置３の動作を示すフローチャートである。入力データＳｉ（ｔ），が騒音抑圧装置３に入力されると、図８のステップＳＴ３１において騒音抑圧部１１は、入力データＳｉ（ｔ）に対して騒音抑圧処理を行い、騒音抑圧後データＳｓ（ｔ）を出力する。実施の形態３において、ｔ＝１，２，…，Ｔである。ｔ及びＴは、実施の形態１のものと同じである。

　次に、図８のステップＳＴ３２において、加重係数算出部１２ｂは、入力データＳｉ（ｔ）及び騒音抑圧後データＳｓ（ｔ）を受け取り、入力データＳｉ（ｔ）の区間ｔ＝１，２，…，Ｔのそれぞれを予め定められた短時間の時間長ｄごとの短区間Ｄ_ｊ（ｊ＝１，２，…，Ｊ）に区切る。すなわち、入力データＳｉ（ｔ）の区間ｔ＝１，２，…，Ｔを、短区間Ｄ_１，Ｄ_２，Ｄ_３，…，Ｄ_Ｊに区切る。つまり、１つの短区間Ｄ_ｊは、時間長ｄに対応する個数のデータを含み、Ｊ個の短区間Ｄ_１～Ｄ_Ｊの全体は、Ｔ個のデータを含む。１つの短区間Ｄ_ｊが、ｄに対応する個数のデータを含むことを、
Ｄ_ｊ＝｛ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ｝
と表記すると、Ｄ_１～Ｄ_Ｊは、以下のように表記される。

Ｄ_１＝｛ｔ＝１，２，…，ｄ｝
Ｄ_２＝｛ｔ＝ｄ＋１，ｄ＋２，…，２ｄ｝
Ｄ_３＝｛ｔ＝２ｄ＋１，２ｄ＋２，…，３ｄ｝
…
Ｄ_ｊ＝｛ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ｝
…
Ｄ_Ｊ＝｛ｔ＝（Ｊ－１）＊ｄ＋１，（Ｊ－１）＊ｄ＋２，…，Ｔ｝

　ここで、Ｊは、以下の式（３）で得られる整数である。式（３）において、記号［　］は、記号内の数値の小数点以下を切り捨てて、記号内の数値を整数化する演算子である。

　そして、ステップＳＴ３３において、短区間Ｄ_ｊごとに、加重係数α_ｊを算出し、短時間の時間長ｄの値とともに出力する。なお、加重係数α_ｊの具体的な算出方法は後述する。

　次に、ステップＳＴ３４において、加重和部１３ｂは、入力データＳｉ（ｔ）、騒音抑圧後データＳｓ（ｔ）、加重係数α_ｊ及び短区間の時間長ｄを入力として、以下の式（４）により出力データＳｏ（ｔ）を求めて、出力する。

　なお、式（４）において、ｊは、以下の式（５）で算出される。式（５）において、記号［　］は、記号内の数値の小数点以下を切り捨てて、記号内の数値を整数化する演算子である。

　図９は、加重係数α_ｊの算出方法を示すフローチャートである。まず、ステップＳＴ４０において、加重係数算出部１２ｂは、短区間Ｄ_ｊの番号ｊをｊ＝１にセットする。

　次に、ステップＳＴ４１において、加重係数算出部１２ｂは、
短区間Ｄ_ｊ＝｛ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ｝
における入力データ
Ｓｉ（ｔ）、（ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ）
、及び騒音抑圧後データ
Ｓｓ（ｔ）、（ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ）
を受け取り、短区間Ｄ_ｊにおける入力データＳｉ（ｔ）のパワーＰｉ_ｊと、短区間Ｄ_ｊにおける騒音抑圧後データＳｓ（ｔ）のパワーＰｓ_ｊを算出し、両者の比のデシベル値である騒音抑圧量Ｒ_ｊを、以下の式（６）により算出する。

　次に、ステップＳＴ４２において、加重係数算出部１２ｂは、
短区間Ｄ_ｊ＝｛ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ｝
における入力データ
Ｓｉ（ｔ）、（ｔ＝（ｊ－１）＊ｄ＋１，（ｊ－１）＊ｄ＋２，…，ｊ＊ｄ）
に対してスペクトル特徴量であるメルフィルタバンク特徴量を算出する。加重係数算出部１２ｂは、音声騒音判定モデル１６を用いて、メルフィルタバンク特徴量が音声データのものであるか又は騒音が重畳した騒音データのものであるかを判定する。すなわち、加重係数算出部１２ｂは、メルフィルタバンク特徴量を音声騒音判定モデル１６に入力し、音声騒音判定モデル１６の出力ユニット中で最も高い値を出力した出力ユニットが音声に対応付けられたユニットであれば音声を含むと判定し、そうでなければ騒音と判定する。

　次に、ステップＳＴ４３において、加重係数算出部１２ｂは、短区間Ｄ_ｊの判定結果が音声を含むか否かによって処理を分岐する。判定結果が音声を含むであれば、ステップＳＴ４４において、加重係数算出部１２ｂは、騒音抑圧量Ｒ_ｊが予め定められた閾値ＴＨ＿Ｒｓ以上か否かを判定し、閾値ＴＨ＿Ｒｓ（「第１の閾値」とも言う。）以上である場合に、ステップＳＴ４５において予め定められた値Ａ１（「第１の値」とも言う。）を加重係数α_ｊとする。一方、加重係数算出部１２ｂは、騒音抑圧量Ｒ_ｊの値が閾値ＴＨ＿Ｒｓ未満である場合に、ステップＳＴ４６において予め定められた値Ａ２（「第２の値」とも言う。）を加重係数α_ｊとして出力する。ここで、値Ａ１及び値Ａ２は、Ａ１＞Ａ２を満たす０以上１以下の定数である。なお、値Ａ１及び値Ａ２は、閾値ＴＨ＿Ｒｓとともに事前に設定される。例えば、ＴＨ＿Ｒｓ＝１０、Ａ１＝０．５，Ａ２＝０．２である。

　このように加重係数α_ｊを算出することにより、短区間Ｄ_ｊにおけるデータが音声を含むと判定した区間に対して、騒音抑圧量Ｒ_ｊが大きい場合は、騒音抑圧後データＳｓ（ｔ）は、音声が消失している可能性があるため、入力データＳｉ（ｔ）に対する加重係数α_ｊの値を大きくして騒音抑圧による音声の消失等の悪影響を低減させることができる。一方、騒音抑圧量Ｒ_ｊが小さい場合は、音声の消失による悪影響は小さいと考えられるため、入力データＳｉ（ｔ）に対する加重係数αを小さくして、相対的に騒音抑圧後データＳｓ（ｔ）の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。

　次に、ステップＳＴ４３における短区間Ｄ_ｊの判定結果が騒音であった場合の動作を説明する。この場合は、加重係数算出部１２ｂは、ステップＳＴ４７において騒音抑圧量Ｒ_ｊが予め定められた閾値ＴＨ＿Ｒｎ（「第１の閾値」とも言う。）未満であるか否かを判定し、騒音抑圧量Ｒ_ｊが予め定められた閾値ＴＨ＿Ｒｎ未満である場合は、ステップＳＴ４８において予め定められた値Ａ３（「第３の値」とも言う。）を加重係数α_ｊとする。一方、加重係数算出部１２ｂは、閾値ＴＨ＿Ｒｎ以上の場合は、ステップＳＴ４９において予め定められた値Ａ４（「第４の値」とも言う。）を加重係数α_ｊとする。ここで、値Ａ３及び値Ａ４は、Ａ３≧Ａ４を満たす０以上１以下の定数である。なお、前述のとおり値Ａ３及び値Ａ４は、閾値ＴＨ＿Ｒｎとともに事前に設定される。例えば、ＴＨ＿Ｒｎ＝３、Ａ３＝０．５，Ａ４＝０．２である。

　このように、加重係数αを算出することにより、騒音であると判定したデータに対し、騒音抑圧量Ｒ_ｊが小さいため騒音抑圧の効果が小さく逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データＳｉ（ｔ）に対する加重係数αを大きくして騒音抑圧による悪影響を低減させることができる。一方、騒音抑圧量Ｒ_ｊが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データＳｉ（ｔ）に対する加重係数αを小さくして、相対的に騒音抑圧後データＳｓ（ｔ）の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。

　次に、加重係数算出部１２ｂは、ステップＳＴ５０によって全ての短区間Ｄ_ｊ、（ｊ＝１，２，…，Ｊ）に対して加重係数α_ｊを算出したか否か調べ、全ての短区間に対して算出済であれば、処理を終了する。一方、未算出の短区間Ｄ_ｊが存在する場合は、ステップＳＴ５１においてｊの値に１を加え、ステップＳＴ４１に戻る。以上が、加重係数α_ｊ、（ｊ＝１，２，…，Ｊ）の算出方法の例である。

　以上に説明したように、実施の形態３に係る騒音抑圧装置３又は騒音抑圧方法によれば、音声騒音判定モデル１６によって音声を含むと判定されたデータに対しては、騒音抑圧量Ｒ_ｊが大きい場合は、騒音抑圧後データＳｓ（ｔ）は、音声が消失している可能性があるため、入力データＳｉ（ｔ）に対する加重係数α_ｊの値を大きくして騒音抑圧による音声の消失等の悪影響を低減させることができる。

　一方、騒音抑圧量Ｒ_ｊが小さい場合は、音声の消失による悪影響は小さいと考えられるため、入力データＳｉ（ｔ）に対する加重係数αを小さくして、相対的に騒音抑圧後データＳｓ（ｔ）の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。

　一方、音声騒音判定モデル１６によって騒音と判定されたデータに対しては、騒音抑圧量Ｒ_ｊが小さいため騒音抑圧の効果が小さく逆に音声の歪み又は消失による悪影響が大きくなる可能性があると考えられる騒音環境においては、入力データＳｉ（ｔ）に対する加重係数αを大きくして騒音抑圧による悪影響を低減させることができる。

　一方、騒音抑圧量Ｒ_ｊが大きい場合は、騒音抑圧の効果が大きいと考えられるため、入力データＳｉ（ｔ）に対する加重係数αを小さくして、相対的に騒音抑圧後データＳｓ（ｔ）の加重を大きくすることにより、騒音抑圧の効果を大きく低減することなく音声の歪み又は消失による悪影響を抑えることができる。

　なお、上記以外に関し、実施の形態３は、実施の形態１と同じである。

変形例．
　上記騒音抑圧装置１～３のいずれかの後段に、音声データをテキストデータに変換する公知の音声認識エンジンを接続することにより音声認識装置を構成することができ、音声認識装置における音声認識精度を向上させることができる。例えば、ユーザが屋外又は工場で音声認識装置を使用して機器の点検の結果の入力を音声で行う場合、機器の動作音などの騒音があっても、高い音声認識精度で音声認識を行うことができる。

　１～３　騒音抑圧装置、　１１　騒音抑圧部、　１２、１２ａ、１２ｂ　加重係数算出部、　１３、１３ｂ　加重和部、　１４　加重係数表、　１５　騒音種類判定モデル、　１６　音声騒音判定モデル、　１０１　プロセッサ、　１０２　メモリ、　１０３　不揮発性記憶装置、　１０４　入出力インタフェース、　Ｓｉ（ｔ）　入力データ、　Ｓｓ（ｔ）　騒音抑圧後データ、　Ｓｏ（ｔ）　出力データ、　Ｄ_ｊ　短区間、　α、α_ｊ　加重係数、　Ｒ、Ｒ_ｊ　騒音抑圧量。

Claims

　入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、
　時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定する加重係数算出部と、
　前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、
　を備えたことを特徴とする騒音抑圧装置。
　前記加重係数算出部は、前記入力データの入力が開始された時点から予め定められた時間が経過するまでの間を、前記予め定められた区間として用いる
　ことを特徴とする請求項１に記載の騒音抑圧装置。
　前記加重係数算出部は、前記予め定められた区間における前記入力データのパワーと前記予め定められた区間における前記騒音抑圧後データのパワーとの比に基づいて加重係数を算出する
　ことを特徴とする請求項１又は２に記載の騒音抑圧装置。
　複数種類の騒音にそれぞれ付与された騒音識別番号と対応付けて、予め定められた前記加重係数の候補を保持する加重係数表と、
　前記入力データに含まれる騒音成分が前記加重係数表における前記複数種類の騒音のいずれであるかを、前記入力データのスペクトル特徴量に基づいて判定するために使用される騒音種類判定モデルと、
　を更に備え、
　前記加重係数算出部は、
　前記騒音種類判定モデルを用いて、前記複数種類の騒音のうちで、前記入力データにおける前記予め定められた区間のデータに最も類似している騒音を算出し、
　前記加重係数表から前記算出された騒音の騒音識別番号に対応付けられた前記加重係数の候補を前記加重係数として出力する
　ことを特徴とする請求項１から３のいずれか１項に記載の騒音抑圧装置。
　入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成する騒音抑圧部と、
　前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定する加重係数算出部と、
　前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成する加重和部と、
　を備えたことを特徴とする騒音抑圧装置。
　入力データのスペクトル特徴量に基づいて当該入力データが音声か騒音かを判定するための音声騒音判定モデルを更に備え、
　前記加重係数算出部は、
　前記入力データの全区間のデータを予め定められた時間ごとの短区間に区切り、
　前記短区間ごとに、前記入力データと前記騒音抑圧後データとのパワー比である騒音抑圧量を算出するとともに前記音声騒音判定モデルを用いて前記入力データが音声又は騒音のいずれであるかを判定し、
　前記入力データが音声であると判定した場合に、前記騒音抑圧量が予め定められた第１の閾値以上であれば前記加重係数を予め定められた第１の値とし、前記騒音抑圧量が前記第１の閾値未満であれば前記加重係数を前記第１の値よりも小さい予め定められた第２の値とし、
　前記入力データが騒音であると判定した場合に、前記騒音抑圧量が予め定められた第２の閾値未満であれば前記加重係数を予め定められた第３の値とし、前記騒音抑圧量が前記第２の閾値以上であれば前記加重係数を前記第３の値以上である予め定められた第４の値として、
　前記短区間ごとに前記加重係数を前記加重和部に出力する
　ことを特徴とする請求項５に記載の騒音抑圧装置。
　コンピュータによって実行される騒音抑圧方法であって、
　入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成するステップと、
　時系列上の予め定められた区間における前記入力データと前記予め定められた区間における前記騒音抑圧後データとに基づいて加重係数を決定するステップと、
　前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成するステップと、
　を有することを特徴とする騒音抑圧方法。
　コンピュータに、請求項７に記載の騒音抑圧方法を実行させることを特徴とする騒音抑圧プログラム。
　コンピュータによって実行される騒音抑圧方法であって、
　入力データに対して騒音抑圧処理を行って騒音抑圧後データを生成するステップと、
　前記入力データの全区間のデータを時系列上の予め定められた複数の短区間に区分し、前記複数の短区間おける前記入力データと前記複数の短区間における前記騒音抑圧後データとに基づいて、前記複数の短区間の各々における加重係数を決定するステップと、
　前記複数の短区間の各々において、前記加重係数に基づく値を重みとして用いて、前記入力データと前記騒音抑圧後データとを重み付け加算することで出力データを生成するステップと、
　を有することを特徴とする騒音抑圧方法。
　コンピュータに、請求項９に記載の騒音抑圧方法を実行させることを特徴とする騒音抑圧プログラム。