WO2012114946A1

WO2012114946A1 - 音声処理装置、音声処理方法、及びプログラム

Info

Publication number: WO2012114946A1
Application number: PCT/JP2012/053418
Authority: WO
Inventors: 洋平櫻庭; 信之木原
Original assignee: ソニー株式会社
Priority date: 2011-02-22
Filing date: 2012-02-14
Publication date: 2012-08-30
Also published as: EP2680609A1; US20130322649A1; JP2012175453A; CN103380628A

Abstract

【課題】反射音や非ハウリング音が発生しても良好にハウリングを抑圧することが可能な、新規かつ改良された音声処理装置、音声処理方法、及びプログラムを提供する。【解決手段】音声処理装置は、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部とを備え、前記ゲイン調整部は、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する。

Description

音声処理装置、音声処理方法、及びプログラム

　本開示は、音声処理装置、音声処理方法、及びプログラムに関する。

　マイクロフォンからスピーカへの音響増幅系などの各種音声信号伝送系において、いわゆるハウリングが発生することが知られている。そして、このハウリングを抑圧することが重要な課題となっている。

　ハウリングを抑圧する方策として、例えば特許文献１、２に開示された手法がある。特許文献１には、所定時間以上継続したエンベロープ増加傾向が検出された場合に、ハウリングの発生を検知する技術が開示されている。特許文献２には、ハウリングを徐々に抑圧する技術が開示されている。

特開平８－２２３６８４号公報特開平３－２３７８９９号公報

　しかし、上述した方策を採用しても、実際の環境では、さまざまな遅延を伴って到達する反射音や、マイクに入力される雑音や音声などの非ハウリング音の影響で、ハウリングを適切に検知できない。このため、良好にハウリングが抑圧されないという問題がある。

　そこで、本開示は、上記問題に鑑みてなされたものであり、本開示の目的とするところは、反射音や非ハウリング音が発生しても良好にハウリングを抑圧することが可能な、新規かつ改良された音声処理装置、音声処理方法、及びプログラムを提供することにある。

　上記課題を解決するために、本開示のある観点によれば、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、前記ゲイン調整部は、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理装置が提供される。

　また、前記調整量は、前記ゲインを抑圧する時間が長い第１抑圧量と、前記ゲインを抑圧する時間が短い第２抑圧量を含むこととしても良い。

　また、前記ゲイン調整部は、前記帯域毎に、前記第１抑圧量と前記第２抑圧量を組み合わせた組合せ抑圧量を設定することとしても良い。

　また、前記ゲイン調整部は、取得した前記自己相関値の最大値が所定の閾値よりも大きい場合には、前記第１抑圧量を増加させた前記組合せ抑圧量を設定し、取得した前記自己相関値の最大値が前記閾値よりも小さい場合には、前記第２抑圧量を増加させた前記組合せ抑圧量を設定することとしても良い。

　また、前記パワーの自己相関値は、前記パワーで正規化した自己相関の絶対値であることとしても良い。

　また、前記ゲイン調整部によってゲイン調整された音声信号を時間領域に変換する時間領域変換部と、前記時間領域に変換された音声信号をスピーカに出力する出力部と、を更に備えることとしても良い。

　また、前記自己相関値に応じた前記ゲインの調整量に対応するフィルタ係数を、最小位相化する係数変換部と、最小位相化された前記フィルタ係数を、前記マイクロフォンから入力された時間領域の音声信号に畳み込む畳み込み部と、を更に備えることとしても良い。

　また、上記課題を解決するために、本開示の別の観点によれば、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、前記ゲイン調整部は、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理装置が提供される。

　また、上記課題を解決するために、本開示の別の観点によれば、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換することと、前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すことと、を含み、前記ゲイン調整を施すことにおいて、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理方法が提供される。

　また、上記課題を解決するために、本開示の別の観点によれば、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換することと、前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すことと、を含み、前記ゲイン調整を施すことにおいて、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理方法が提供される。

　また、上記課題を解決するために、本開示の別の観点によれば、コンピュータを、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、前記ゲイン調整部は、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理装置として機能させるための、プログラムが提供される。

　また、上記課題を解決するために、本開示の別の観点によれば、コンピュータを、マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、前記ゲイン調整部は、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理装置として機能させるための、プログラムが提供される。

　以上説明したように本開示によれば、反射音や非ハウリング音が発生しても、良好にハウリングを抑圧することができる。

第１の実施形態に係る音声処理装置の機能ブロック図である。ブロック処理を説明するための模式図である。１つの帯域におけるパワー差分Δｐ（ω）を示す図である。パワーで正規化した自己相関の絶対値を示す図である。ハウリング抑圧処理を説明するフローチャートである。第２の実施形態に係る音声処理装置の機能ブロック図である。直線位相ＦＩＲフィルタ係数を説明するための図である。ＦＩＲフィルタ係数の最小位相化を説明するための図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．第１の実施形態
　　１－１．音声処理装置の構成
　　１－２．ハウリングの抑圧
　　１－３．信号処理部の構成
　　１－４．ハウリング抑圧処理
　２．第２の実施形態
　３．まとめ

　＜１．第１の実施形態＞
　（１－１．音声処理装置の構成）
　第１の実施形態に係る音声処理装置の構成について、図１を参照しながら説明する。図１は、第１の実施形態に係る音声処理装置の機能ブロック図である。

　第１の実施形態に係る音声処理装置１０は、図１に示すように、マイクロフォン２０と、Ａ／Ｄ変換器３０と、信号処理部４０と、Ｄ／Ａ変換器５０と、スピーカ６０とを有する。

　マイクロフォン２０は、音声を収音し、収音した音声を音声信号に変換する。マイク２０は、音声信号をＡ／Ｄ変換器３０に出力する。なお、マイクロフォン２０から出力された音声信号は、不図示のアンプで増幅され、Ａ／Ｄ変換器３０に入力される。

　Ａ／Ｄ変換器３０は、マイクロフォン２０から入力された音声信号をデジタル変換する。Ａ／Ｄ変換器３０は、デジタル変換された音声信号を信号処理部４０に出力する。なお、Ａ／Ｄ変換器３０に入力される音声信号は、マイクロフォン２０以外の外部装置から入力から入力された信号であっても良い。

　信号処理部４０は、Ａ／Ｄ変換器３０から入力された音声信号に対して、ゲイン調整等の各種の信号処理を施す。信号処理部４０は、信号処理を施した音声信号をＤ／Ａ変換器５０に出力する。本実施形態に係る信号処理部４０は、詳細は後述するが、ハウリングを抑圧するためのゲイン調整を行う。なお、信号処理部４０の詳細構成については、後述する。

　Ｄ／Ａ変換器５０は、信号処理部４０から入力された音声信号をアナログ変換する。Ｄ／Ａ変換器５０は、アナログ変換した音声信号をスピーカ６０に出力する。スピーカ６０は、Ｄ／Ａ変換器５０から入力された音声信号を放音する。

　なお、音声処理装置１０は、各種のデータを記憶するメモリ（不図示）を備える。メモリは、例えば、マイクから入力された音声信号のデータを記憶し、また信号処理部４０による処理後のデータを記憶する。また、メモリは、音声処理装置１０を動作させるプログラムを記憶しており、不図示のＣＰＵがプログラムを実行することで、音声処理装置１０による処理（例えば、後述するハウリング抑圧処理）が実現される。

　（１－２．ハウリングの抑圧）
　上述した音声処理装置においては、マイクロフォン２０からスピーカ６０へ音声信号が伝送されるのに伴いハウリングが発生し得る。このハウリングを抑圧することが重大な問題となっている。

　ところで、ハウリングを抑圧する上で、ハウリングらしさを判断する指標と、ハウリング抑圧ゲインを元に戻すまでの時間が、性能を大きく左右することが分かっている。

　まず、ハウリングらしさを判断する指標（換言すれば、ハウリングの検知指標）について説明する。ハウリングらしさを判断する指標として、フーリエ変換された音声信号のパワー差分（Δパワー）のカウンター処理により、Δパワー値が連続して閾値以上となった状態を継続するとハウリングと判断する手法が知られている。しかし、実際の環境では、さまざまな遅延を伴って到達する反射音や、マイクに入力される雑音や音声などの非ハウリング音の影響で、良好にハウリングが抑圧されないという問題がある。

　次に、ハウリング抑圧ゲインを元に戻すまでの時間について説明する。ハウリング抑圧ゲインを元に戻すまでの時間を遅くすると、ハウリングがしばらく再現しないメリットがある一方で、その間の非ハウリング音が音質劣化する恐れがある。また、ハウリング抑圧ゲインを元に戻すまでの時間を早くすると、非ハウリング音の音質低下は目立たない一方で、ハウリングが直ぐに再現し、又はハウリングが消えきらない恐れがある。このため、音質劣化の防止とハウリング再現の防止とを両立させることが求められている。

　これに対して、本実施形態に係る音声処理装置１０においては、詳細は後述するが、ハウリングらしさを判断する指標として、フーリエ変換された音声信号のパワー差分の自己相関を用い、自己相関値に応じてハウリング抑圧を制御する。これにより、反射音や非ハウリング音が発生しても良好にハウリングを抑圧できる。また、ハウリング抑圧量として、抑圧時間が異なる複数の抑圧量を組み合わせることで、音質劣化の防止とハウリング再現の防止との両立させることができる。

　（１－３．信号処理部の構成）
　信号処理部４０の構成について、図１を参照しながら説明する。信号処理部４０は、図１に示すように、周波数領域変換部の一例であるフーリエ変換部４２と、ゲイン調整部４４と、時間領域変換部の一例であるフーリエ逆変換部４６を有する。

　（フーリエ変換部）
　フーリエ変換部４２は、Ａ/Ｄ変換器３０から入力された音声信号（入力音声）を、単位時間であるフレーム毎に周波数領域の信号にフーリエ変換（ＦＦＴ）する。また、フーリエ変換部４２は、周波数領域にフーリエ変換した音声信号を、複数の帯域に分割し、各帯域の音声信号をゲイン調整部４４に出力する。なお、音声信号の複数の帯域への分割は、公知のフィルタバンクによって行われても良い。

　ここで、図２を用いて、フーリエ変換処理におけるブロック処理について説明する。図２は、ブロック処理を説明するための模式図である。ここでは、マイクロフォン２０から入力された入力音声のデータが、例えば５１２サンプルであり、例えばサンプルＳ（１）、Ｓ（２）、Ｓ（３）、・・・Ｓ（ｎ）とする。ブロック処理では、２つのサンプルを使ってフーリエ変換される。例えば、サンプルＳ（１）とサンプルＳ（２）が共にフーリエ変換されて、周波数スペクトルＦ（１）が取得され、サンプルＳ（２）とサンプルＳ（３）が共にフーリエ変換されて、周波数スペクトルＦ（２）が取得される。このため、ブロック処理の処理フレームは、１０２４サンプルとなる。

　（ゲイン調整部）
　ゲイン調整部４４は、フーリエ変換部４２から入力された音声信号に対して、帯域毎にゲイン調整を施す。また、ゲイン調整部４４は、周波数スペクトルを用いてフレーム間のパワー差分を求め、ハウリングを検知するための自己相関値を取得する。以下において、どのように自己相関値を求めるかについて説明する。

　まず、ゲイン調整部４４は、取得された周波数スペクトルＦ（１）、Ｆ（２）・・・Ｆ（ｎ）から、フレーム間のパワー差分を取得する。例えば、ゲイン調整部４４は、図３Ａに示すようなパワー差分であるΔｐ（ω）を取得する。図３Ａは、１つの帯域におけるパワー差分Δｐ（ω）を示す図である。なお、図３Ａでは、説明の都合上、ハウリング時のΔｐ（ω）が実線で、非ハウリング時のΔｐ（ω）が点線で、それぞれ示されている。図３Ａから分かるように、ハウリング時のΔＰ（ω）が、非ハウリング時のΔｐ（ω）よりも大きい値を示している。

　ゲイン調整部４４は、取得したΔｐ（ω）に基づいて、Δｐ（ω）の自己相関を取得する。ここで、自己相関について説明する。自己相関とは、信号がそれ自身を時間シフトした信号とどれだけ良く整合するかを測る尺度である。自己相関は、下記の数式１のように、時間シフトの大きさの関数として表される。すなわち、数式１の自己相関ｒ_ｍ（ω）は、Δｐ（ω）と、Δｐ（ω）をｍ点シフトした点の積の総和である。

　なお、数式１のΔｐ（ω、ｔ）は、周波数ω、時刻ｔのΔパワー値を示す。

　自己相関は、信号に含まれる繰り返しパターンを探すのに有用であり、例えば、ノイズに埋もれた周期的信号の存在を判定するのに用いられる。また、自己相関は、周期性があると大きい値をとり、周期性が無いと小さい値をとる。そして、ハウリング時には、Δパワーが周期性を持っているため自己相関が高く、非ハウリング時には、Δパワーが周期性を持たないため自己相関は小さい。

　ゲイン調整部４４は、取得した自己相関ｒ_ｍ（ω）を用いて、下記の数式２のように、パワーで正規化した自己相関の絶対値（自己相関値と呼ぶ）を取得する。パワーで正規化することにより、ハウリング時と非ハウリングの自己相関をより判別しやすくなる。

　図３ＡのΔｐ（ω）から取得された自己相関値が、図３Ｂに示されている。図３Ｂは、パワーで正規化した自己相関の絶対値を示す図である。図３Ｂには、実線でハウリング時の自己相関値が示され、点線で非ハウリング時の自己相関値が示されている。図３Ｂから分かるように、ハウリング時の自己相関値は、周期性を有しており、非ハウリング時の自己相関値よりも大きい。このような自己相関の性質を利用すれば、ハウリングと非ハウリングを適切に判別できる。

　このように、自己相関によってハウリングを検知すると、例えばΔパワーが閾値を超えた時のカウンター処理によってハウリングを検知する場合に比べて、以下に説明する利点がある。すなわち、特に複雑な反射がある環境において、ハウリングが短時間で増幅減衰を繰り返しながら段階的に大きくなる場合（ハウリングが単調増加せず、一時的に小さくなることもありながら大きくなる場合）に、Δパワー値が一時的に小さくなりカウンターがリセットされ、ハウリングが抑圧されない問題が発生する。これに対して、本実施形態のように、Δパワーの周期性のみに着目するため、Δパワーが一時的に小さくなってもハウリングを抑圧できる。

　また、ゲイン調整部４４は、取得した自己相関値に応じてゲインの調整量を帯域毎に設定する。具体的には、ゲイン調整部４４は、帯域毎に、複数の抑圧量を組み合わせた組合せ抑圧量にてゲインを調整する。本実施形態では、組合せ抑圧量が、長時間抑圧量と短時間抑圧量を組み合わせたものとして説明する。長時間抑圧量は、抑圧時間が長い第１抑圧量に該当し、短時間抑圧量は、抑圧時間が短い第２抑圧量に該当する。なお、組合せ抑圧量は、３つ以上の抑圧量を組み合わせても良い。例えば、３つの抑圧量を用いる場合には、第３抑圧量の抑圧時間は、短時間抑圧量の抑圧時間より長く、かつ長時間抑圧量の抑圧時間よりも短く設定される。

　ゲイン調整部４４は、取得した自己相関値の最大値（図３Ｂのｘ（ω））と所定の閾値を比較して、組合せ抑圧量（最終抑圧量）を設定する。所定の閾値は、ハウリングと非ハウリングの境界を示す値であり、ゲイン調整部４４は、自己相関値の最大値ｘ（ω）が閾値よりも大きい場合には、ハウリングが発生したと判断する。一方で、ゲイン調整部４４は、自己相関値の最大値ｘ（ω）が閾値よりも小さい場合には、ハウリングが発生していないと判断する。そして、ゲイン調整部４４は、取得した自己相関値の最大値が所定の閾値よりも大きい場合には、長時間抑圧量を増加させた組合せ抑圧量を設定する。一方で、ゲイン調整部４４は、取得した自己相関値の最大値が閾値よりも小さい場合には、短時間抑圧量を増加させた組合せ抑圧量を設定する。

　ゲイン調整部４４は、ハウリング抑圧が続く場合には周波数特性が劣化した状態が続くため、長時間抑圧量と短時間抑圧量を元に戻す処理も行う。なお、長時間抑圧量はゆっくり戻され、短時間抑圧量は直ぐに戻される。このように抑圧の戻る時間が異なる複数の抑圧量を用いることで、音質劣化の防止とハウリング再現の防止との両立させることができる。ゲイン調整された各帯域の音声信号のデータ（図２に示すデータＤ（１）、Ｄ（２）等）は、フーリエ逆変換部４６に出力される。

　（フーリエ逆変換部）
　フーリエ逆変換部４６は、フーリエ変換部４６から入力された各帯域の音声信号を合成して、逆フーリエ変換処理を施して時間領域に変換する。本実施形態のフーリエ逆変換部４６は、抑圧量が開放された音声信号を時間領域に変換する。フーリエ逆変換部４６は、時間領域に変換した音声信号をＤ／Ａ変換器５０に出力する。これにより、抑圧量が開放された音声信号が、スピーカ６０に出力される。

　上述した構成の信号処理部４０によれば、ゲイン調整部４４が、自己相関値を取得し、取得した自己相関値に応じて最終抑圧量を設定している。このため、反射音や非ハウリング音が発生しても良好にハウリングを抑圧できる。また、最終抑圧量として抑圧時間が異なる２つの抑圧量（長時間抑圧量と短時間抑圧量）を組み合わせることで、音質劣化の防止とハウリング再現の防止との両立させることができる。

　（１－４．ハウリング抑圧処理）
　本実施形態に係るハウリング抑圧処理について、図４を参照しながら説明する。図４は、ハウリング抑圧処理を説明するフローチャートである。本処理は、音声処理装置１０のＣＰＵが、メモリに記憶されたプログラムを実行することにより、実現される。

　図４のフローチャートは、信号処理部４０のフーリエ変換部４２が、マイクロフォン２０から入力された音声信号を周波数領域に変換し、変換した音声信号をゲイン調整部４４に出力したところから開始される。

　まず、ゲイン調整部４４は、フレーム間のパワー差分Δｐ（ω）に基づいて、図３Ｂに示すようにハウリングらしさを示す自己相関値の最大値ｘ（ω）を取得する（ステップＳ２）。

　次に、ゲイン調整部４４は、帯域毎に、取得した自己相関値の最大値ｘ（ω）に応じて、短時間抑圧量Ｇ１（ω）と長時間抑圧量Ｇ２（ω）を設定する。そして、ゲイン調整部４４は、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）を組み合わせた最終抑圧量Ｇ（ω）を設定する。なお、各抑圧量の単位は、デシベル（ｄＢ）である。なお、本処理は、繰り返し実行される処理であり、短時間抑圧量Ｇ１（ω）と長時間抑圧量Ｇ２（ω）は前回の値を使用する。すなわち、短時間抑圧量Ｇ１（ω）と長時間抑圧量Ｇ２（ω）は、積算される値である。

　次に、ゲイン調整部４４は、自己相関値の最大値ｘ（ω）が所定の閾値以上であるか否かを判定する（ステップＳ４）。自己相関値ｘ（ω）が所定の閾値以上である場合には（ステップＳ４：Ｙｅｓ）、ゲイン調整部４４は、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）のうちの長時間抑圧量Ｇ２（ω）を増やす（ステップＳ６）。

　例えば、ゲイン調整部４４は、下記の数式３のように、ｘ（ω）の値に応じて長時間抑圧量Ｇ２（ω）を増やす。

　ここで、Ｔ２（ｘ（ω））は、例えば一定値や、ハウリングらしさに比例した値である。ただし、これに限定されない。

　また、ゲイン調整部４４は、下記の数式４にように、掛け算で長時間抑圧量Ｇ２（ω）を増やしても良い。

　なお、自己相関値の最大値ｘ（ω）が所定の閾値以上である場合には、ゲイン調整部４４は、短時間抑圧量Ｇ１（ω）の大きさを維持する。

　一方で、ステップＳ４において、自己相関値の最大値ｘ（ω）が所定の閾値以下である場合には（ステップＳ４：Ｎｏ）、ゲイン調整部４４は、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）のうちの短時間抑圧量Ｇ１（ω）を増やす（ステップＳ８）。

　例えば、ゲイン調整部４４は、下記の数式５のように、ｘ（ω）の値に応じて短時間抑圧量Ｇ１（ω）を増やす。

　ここで、Ｔ１（ｘ（ω））は、例えば一定値や、ハウリングらしさに比例した値である。ただし、これに限定されない。

　また、ゲイン調整部４４は、下記の数式６にように、掛け算で短時間抑圧量Ｇ１（ω）を増やしても良い。

　なお、自己相関値の最大値ｘ（ω）が所定の閾値以下である場合には、ゲイン調整部４４は、長時間抑圧量Ｇ２（ω）の大きさを維持する。

　次に、ゲイン調整部４４は、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）を組み合わせて、最終抑圧量Ｇ（ω）を求める（ステップＳ１０）。例えば、ゲイン調整部４４は、下記の数式７のように最終抑圧量Ｇ（ω）を求める。

　なお、ゲイン調整部４４は、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）を組み合わせて最終抑圧量Ｇ（ω）を求めることとしたが、これに限定されない。例えば、ゲイン調整部４４は、ハウリングの抑圧を重視する場合には、２つの抑圧量Ｇ１（ω）、Ｇ２（ω）のうちの抑圧ゲインの大きい方を最終抑圧量Ｇ（ω）としても良い。また、ゲイン調整部４４は、非ハウリング音の音質を重視する場合には、抑圧ゲインの小さい方を最終抑圧量Ｇ（ω）としても良い。

　ところで、ハウリング抑圧が続く場合には周波数特性が劣化した状態が続くため、ゲイン調整部４４は、抑圧量を元に戻す処理を行う（ステップＳ１２）。例えば、ゲイン調整部４４は、下記の数式８、９のように、抑圧ゲインを制御する。なお、抑圧量が元に戻された短時間抑圧量Ｇ１（ω）と長時間抑圧量Ｇ２（ω）が、前述したステップＳ６とＳ８で用いられる。

　ここで、Ｒ１はＲ２よりも大きい値であるものとする。すると、短時間抑圧量Ｇ１（ω）は短時間で回復し、長時間抑圧量Ｇ２（ω）はゆっくり回復する。すなわち、ハウリングらしさが小さい場合（自己相関値が小さい場合）のゲインはすぐに回復し、ハウリングらしさが大きい場合（自己相関値が大きい場合）のゲインはゆっくり回復することになる。

　かかる点について、更に詳細に説明する。ハウリングが目立つ前から抑圧するためには、自己相関値ｘ（ω）が小さいときから抑圧を開始する必要がある。しかし、自己相関値ｘ（ω）が小さいときから抑圧すると、音声などの非ハウリング音を誤って抑圧する恐れがある。これに対して、本実施形態の場合には、短時間抑圧量Ｇ１（ω）は直ぐに元に戻るため、誤抑圧に起因する非ハウリング音の音質劣化を抑制できる。

　また、実際にハウリングであった場合には、自己相関値ｘ（ω）は短時間抑圧している間に大きな値になるため、長時間抑圧量Ｇ２（ω）にて抑圧されることになる。このとき、本実施形態の場合には、短時間抑圧量Ｇ１（ω）により抑圧されているため、ハウリングはあまり目立たず、また長時間抑圧量Ｇ２（ω）を用いて長い時間抑圧され続けるため、ハウリングがすぐに再現することを防ぐことができる。

　ところで、短時間抑圧量Ｇ１（ω）のみでハウリングを抑圧すると、非ハウリング音の音質劣化が目立たない一方で、ハウリングが直ぐに再現したり、ハウリングが消えきらない問題がある。逆に、長時間抑圧量Ｇ２（ω）のみでハウリングを抑圧すると、ハウリングがしばらく再現しない一方で、非ハウリング音の音質劣化の問題が起きる。これに対して、上述した本実施形態の場合には、抑圧時間が異なる複数の抑圧量Ｇ１（ω）、Ｇ２（ω）で抑圧することによって、非ハウリング音が発生しても良好にハウリングを抑圧でき、また音質劣化の防止とハウリング再現の防止との両立させることができる。

　図４のフローチャートに戻って、処理の説明を続ける。ゲイン調整部４４は、下記の数式１０のように、求めた最終抑圧量Ｇ（ω）を入力Ｓ（ω）に乗算することで、処理後の出力Ｙ（ω）を取得する（ステップＳ１４）。

　そして、ハウリング抑圧処理が施された音声信号は、スピーカ６０に出力される。

　なお、上記では、ステップＳ１２の処理の後にステップＳ１４の処理が行われることとしたが、これに限定されない。例えば、ステップＳ１２の処理と、ステップＳ１４の処理を並行して行っても良く、また、ステップＳ１４の処理の後にステップＳ１２の処理を行っても良い。

　＜２．第２の実施形態＞
　第２の実施形態に係る音声処理装置について、図５を参照しながら説明する。図５は、第２の実施形態に係る音声処理装置の機能ブロック図である。

　上述した第１の実施形態では、ハウリングの抑圧ゲインＧ（ω）を周波数領域で乗算していた。これに対して、第２の実施形態では、詳細は後述するが最小位相のＦＩＲ係数を用いて時間領域でハウリングを抑圧する。これにより、フーリエ変換のブロック処理（図２参照）の影響で生じ得る出力音声の遅延を解消できることに特徴がある。

　図５の第２の実施形態に係る音声処理装置１００は、第１の実施形態に係る音声処理装置１０に対して信号処理部４０の構成が異なり、他の構成は同様である。そこで、以下においては、音声処理装置１００の信号処理部１４０の構成について主に説明し、他の構成の説明は省略する。

　信号処理部１４０は、Ａ／Ｄ変換器３０から入力された音声信号（入力音声）に対して、ゲイン調整等の各種の信号処理を施し、信号処理を施した音声信号をＤ／Ａ変換器５０に出力する。信号処理部１４０は、フーリエ変換部１４２と、ゲイン調整部１４４と、ＦＩＲ係数計算部１４６と、係数変換部１４８と、畳込み部１５０を有する。

　フーリエ変換部１４２は、第１実施形態と同様に、周波数領域に変換した音声信号を、複数の帯域に分割して、各帯域の音声信号をゲイン調整部１４４に出力する。

　ゲイン調整部１４４は、第１実施形態と同様に、自己相関値を取得し、取得した自己相関値に応じて最終抑圧量Ｇ（ω）を設定している。このため、第２の実施形態においても、反射音や非ハウリング音が発生しても良好にハウリングを抑圧できる。また、ゲイン調整部１４４は、複数の抑圧量を組み合わせて抑圧することで、音質劣化の防止とハウリング再現の防止との両立させることができる。

　ＦＩＲ係数計算部１４６は、ゲイン調整部１４４から入力された最終抑圧量Ｇ（ω）を実現する直線位相ＦＩＲフィルタ係数を計算する。例えば、ＦＩＲ係数計算部１４６は、図６に示すように公知の窓関数法やＲｅｍｅｚ法等により、直線位相ＦＩＲフィルタ係数を計算する。ＦＩＲ係数計算部１４６は、計算した直線位相ＦＩＲフィルタ係数を係数変換部１４８に出力する。もちろん、窓関数法やＲｅｍｅｚ法以外の手法で、直線位相ＦＩＲフィルタ係数を計算しても良い。なお、図６は、直線位相ＦＩＲフィルタ係数を説明するための図である。

　係数変換部１４８は、ＦＩＲ係数計算部１４６から入力された直線位相ＦＩＲフィルタ係数を、最小位相ＦＩＲフィルタ係数に変換する。例えば、係数変換部１４８は、図７に示すように公知のＲｅｍｅｚ法等により、ＦＩＲフィルタ係数の最小位相化を施す。係数変換部１４８は、最小位相ＦＩＲフィルタ係数を、畳込み部１５０に出力する。なお、図７は、ＦＩＲフィルタ係数の最小位相化を説明するための図である。

　畳込み部１５０は、係数変換部１４８から出力された最小位相ＦＩＲフィルタ係数を、マイクロフォン２０からの入力音声（時間領域の入力音声）に畳み込む。畳込み部１５０は、最小位相ＦＩＲフィルタ係数を畳み込んだ入力音声を、Ｄ／Ａ変換器５０を介してスピーカ６０に出力する。

　このように、第２の実施形態によれば、最小位相化されたＦＩＲフィルタ係数を入力音声に畳み込むことにより、最小位相のＦＩＲ係数を用いて時間領域でハウリングを抑圧できる。この結果、入力音声に遅延の無いハウリング抑圧が可能となる。

　＜３．まとめ＞
　上述した音声処理装置１０、１００においては、ゲイン調整部４４は、帯域毎に、フレーム間の音声信号のパワーの自己相関値ｘ（ω）を取得し、取得した自己相関値ｘ（ω）に応じてゲインの調整量を設定する。かかる構成によれば、周期性を有するハウリングをパワー差分の自己相関を用いれば、反射音や非ハウリング音が発生しても、ハウリングを適切に検知できる。この結果、良好にハウリングを抑圧できる。

　また、ゲイン調整部４４は、帯域毎に、抑圧時間が長い長時間抑圧量Ｇ２（ω）と抑圧時間が短い短時間抑圧量Ｇ１（ω）を組み合わせた組合せ抑圧量Ｇ（ω）にてゲインを調整する。かかる構成によれば、長時間抑圧量Ｇ２（ω）と短時間抑圧量Ｇ１（ω）の各々が抑圧量を戻す時間が異なるので、１つの抑圧量のみで抑圧する場合の問題が解消される。すなわち、ハウリング抑圧時に問題となる、音質劣化の防止とハウリング再現の防止とを両立させることができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、上記の実施形態では、音声処理装置が、マイクロフォンとスピーカの両方を含むこととしたが、これに限定されない。例えば、音声処理装置は、マイクロフォンとスピーカを備えず、マイクロフォンとスピーカは音声処理装置と接続された外部機器に設けられていることとしても良い。

　また、上記の実施形態で説明した一連の処理は、専用のハードウエアにより実行させてもよいが、ソフトウエア（アプリケーション）により実行させてもよい。一連の処理をソフトウエアにより行う場合、汎用又は専用のコンピュータにプログラムを実行させることにより、上記の一連の処理を実現することができる。

　また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。

　１０　　音声処理装置
　２０　　マイクロフォン
　３０　　Ａ／Ｄ変換器
　４０　　信号処理部
　４２　　フーリエ変換部
　４４　　ゲイン調整部
　４６　　フーリエ逆変換部
　５０　　Ｄ／Ａ変換器
　６０　　スピーカ
　１００　　音声処理装置
　１４０　　信号処理部
　１４２　　フーリエ変換部
　１４４　　ゲイン調整部
　１４６　　ＦＩＲ係数計算部
　１４８　　係数変換部
　１５０　　畳込み部

Claims

　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、
　前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、
　前記ゲイン調整部は、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理装置。
　前記調整量は、前記ゲインを抑圧する時間が長い第１抑圧量と、前記ゲインを抑圧する時間が短い第２抑圧量を含む、請求項１に記載の音声処理装置。
　前記ゲイン調整部は、前記帯域毎に、前記第１抑圧量と前記第２抑圧量を組み合わせた組合せ抑圧量を設定する、請求項２に記載の音声処理装置。
　前記ゲイン調整部は、
　取得した前記自己相関値の最大値が所定の閾値よりも大きい場合には、前記第１抑圧量を増加させた前記組合せ抑圧量を設定し、
　取得した前記自己相関値の最大値が前記閾値よりも小さい場合には、前記第２抑圧量を増加させた前記組合せ抑圧量を設定する、請求項３に記載の音声処理装置。
　前記パワーの自己相関値は、前記パワーで正規化した自己相関の絶対値である、請求項１に記載の音声処理装置。
　前記ゲイン調整部によってゲイン調整された音声信号を時間領域に変換する時間領域変換部と、
　前記時間領域に変換された音声信号をスピーカに出力する出力部と、
　を更に備える、請求項１に記載の音声処理装置。
　前記自己相関値に応じた前記ゲインの調整量に対応するフィルタ係数を、最小位相化する係数変換部と、
　最小位相化された前記フィルタ係数を、前記マイクロフォンから入力された時間領域の音声信号に畳み込む畳み込み部と、
　を更に備える、請求項１に記載の音声処理装置。
　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、
　前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、
　前記ゲイン調整部は、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理装置。
　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換することと、
　前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すことと、を含み、
　前記ゲイン調整を施すことにおいて、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理方法。
　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換することと、
　前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すことと、を含み、
　前記ゲイン調整を施すことにおいて、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理方法。
　コンピュータを、
　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、
　前記周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、
　前記ゲイン調整部は、前記帯域毎に、前記フレーム間の前記音声信号のパワーの自己相関値を取得し、取得した前記自己相関値に応じて前記ゲインの調整量を設定する、音声処理装置として機能させるための、プログラム。
　コンピュータを、
　マイクロフォンから入力された音声信号をフレーム毎に周波数領域に変換する周波数領域変換部と、
　前記周波数領域に変換された前記音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、を備え、
　前記ゲイン調整部は、前記帯域毎に、抑圧時間が長い第１抑圧量と抑圧時間が短い第２抑圧量を組み合わせた組合せ抑圧量にて前記ゲインを調整する、音声処理装置として機能させるための、プログラム。