WO2009119460A1

WO2009119460A1 - オーディオ信号処理装置及びオーディオ信号処理方法

Info

Publication number: WO2009119460A1
Application number: PCT/JP2009/055513
Authority: WO
Inventors: 孝朗山邊; 正也小西
Original assignee: 日本ビクター株式会社
Priority date: 2008-03-24
Filing date: 2009-03-19
Publication date: 2009-10-01
Also published as: EP2172930B1; US20100128882A1; EP2172930A1; EP2172930A4; ATE546812T1; JP5012995B2; US8355908B2; JPWO2009119460A1

Abstract

　入力オーディオ信号を時間領域の信号から周波数領域の信号に変換した周波数信号において、レベル調整値設定部５により、ノイズ成分レベルのスペクトルのレベルを低下させるためのレベル調整値を設定し、レベル調整値スムージング部６により、レベル調整値設定部５で設定したレベル調整値を時間方向に平滑化するスムージング処理を行い、スペクトル調整部８により、スムージング後のレベル調整値を周波数信号に乗算してレベル調整を行う。

Description

オーディオ信号処理装置及びオーディオ信号処理方法

　本発明は、オーディオ信号に含まれるノイズ成分を低減するオーディオ信号処理装置及びオーディオ信号処理方法に関する。

　従来、オーディオ信号に含まれるノイズ成分を低減し、音声を聞き取り易くするためのさまざまな技術が提案されている。例えば、入力されるオーディオ信号をリアルタイムで解析し、周波数領域の信号を調整することによってノイズ成分を低減する方法として、スペクトル差し引き法が知られている。

　スペクトル差し引き法は、ノイズ成分を含むオーディオ信号から、フーリエ変換によって分割したスペクトル信号を基に推定したノイズスペクトルを差し引くことで、逆フーリエ変換後のオーディオ信号を聞き易くするものである。

　スペクトル差し引き法では、ノイズ成分は定常的であるとの仮定に従い、オーディオ信号の有無を判定して雑音モデルを特定している。また、信号成分の強弱や信号の種類（母音、子音、摩擦音など）により、差し引くノイズスペクトルを調整することも可能である。

　スペクトル差し引き法において、ノイズスペクトルを推定するためには、最小平均二乗誤差法などが用いられる。一般的に、最小平均二乗誤差法は、特定観測区間における異なる信号の二乗誤差平均値を最小にする繰り返し計算が実行され、かなり大きな演算量を必要とする。

　また、スペクトル差し引き法では、定常的ノイズ成分の抽出が必要であり、応用分野としては、ほぼ一定の周囲雑音が存在する携帯電話でのマイクロホンによる受音信号やテレビ電話会議システムなどへの利用に適している。

　この方式を応用し、さらに演算量の低減を目的とし、かつ信号成分の大きな変化が存在したときに発生する副作用的なノイズ成分（スペクトル成分のレベル調整や、推定誤差量の差し引きによって生じる誤差量に基づく量子化ノイズ）を抑制する技術が特許文献１に開示されている。

　特許文献１では、ノイズ成分の低減量を信号特性に応じて変換区間ごとに制御し、演算量削減のために予め設定されたテーブルを参照することで、速やかに上記低減量を導く手法が開示されている。

　また、特許文献２には、過渡的信号に対応し、量子化ノイズの発生をできるだけ抑えるために、変換区間ごとに制御されたノイズ成分調整量を時間方向にスムージングする方法、および分析区間ごとに重み付けを施す手法が開示されている。

　また、従来、オーディオ信号において、聴覚の衰えた高齢者等でも音声がはっきり聞き取れるように、所定の周波数帯域を強調するボイスエンハンスの技術が知られており、オーディオ再生装置、補聴器等に利用されている。

　例えば、特許文献３には、ボイスエンハンスをかける際に高域成分が強調されすぎたり、そもそも入力音圧が高い場合に音量が大きくなりすぎたりする現象を回避するため、入力される音声信号を分析し、その結果に基づき適度なゲイン調整量を与えることで音声の明瞭度を向上する技術が開示されている。

　また、特許文献４には、特許文献３と同様に、ボイスエンハンスをかける際に特定の周波数帯域のみ強調されすぎてしまい、原音のバランスが崩れてかえって聞き難くなってしまう現象を回避するため、オーディオ信号再生装置における設定音量値と入力される信号の信号レベルとを比較し、入力音圧に応じたゲイン量を与えることで、小音量時にはボーカルやセリフが明瞭に聞こえるように強調するとともに、中音量以上では原音のバランスを保ちつつ適正に強調する技術が開示されている。
特開平８－２２１０９３号公報特表２００４－５０２９７７号公報特開２００２－３５９８９９号公報特開２００５－８６４６２号公報

　しかしながら、上述の特許文献１，２に開示された技術は、主な応用先として携帯電話の利用形態が前提として最適化されている。このため、他の用途、特に広帯域なオーディオ信号を再生しつつノイズ成分が信号源に加算されることが多い放送受信機、例えばラジオ受信機、テレビ受信機等における音声のノイズ成分を低減する方法としては不十分であった。

　特に、テレビ受信機では、放送系の受信感度に起因するノイズ成分に加え、コンテンツそのものに含まれる背景ノイズ、さらにはテレビ受信機に接続した家庭用ＶＴＲにおける電源系、記録メディアのテープ走行系またはディスク回転系に起因するノイズ成分など、様々な発生源が組み合わさり、ノイズ成分の特定が難しい。したがって、特許文献１，２のような、定常的ノイズ成分の存在を想定した方法では、十分なノイズ低減効果は期待できない。

　また、帯域の狭い音声とは異なる広帯域オーディオ信号では、特に人為的なスペクトルのレベル値変更に伴う量子化ノイズの存在に注意しなければならず、音声向けのノイズ成分低減方法のモデルをそのまま採用することは、聴感的に好ましくない。

　さらに、最小平均二乗誤差法やｄＢ値算出時には、log、pow、平方根等の演算を頻繁に行うため、演算量が多くなる。このため、ノイズ低減装置の回路規模が増大し、また、ＩＣに高価格のチップを採用しなければならず、コスト面からもさらなる改良が求められている。

　また、上述の特許文献３，４に示されたような時間軸上のフィルタを用いたボイスエンハンサにおいては、強調された周波数帯域のノイズを低減する必要がある場合には、エンハンス回路の前段または後段にノイズ低減回路を設ける必要があり、回路規模の増大を招いていた。また、セリフやボーカル等の強調したい周波数帯域がノイズ低減回路によって結果的にレベルを下げられ、ボイスエンハンスの効果が弱くなることがあった。

　そもそも、ボイスエンハンサなどの音声帯域強調装置は、入力オーディオ信号の特定の周波数帯域を増幅する効果がある一方、その周波数帯域のノイズ成分も増幅することで音質を低下させるおそれがある。特に、ＳＮ比の小さいオーディオ信号の場合、ボイスエンハンサによる悪影響は顕著にあらわれる。

　さらに、従来のようなＩＩＲフィルタやＦＩＲフィルタを用いた数バンドの帯域分割法により入力信号を帯域分割し、決して狭帯域とは言えない周波数帯域のゲイン量を調整しただけでは、音声成分とノイズ成分とを分離しないままボイスエンハンスをかけていることになる。このため、音声以外の例えばＢＧＭや自然界の環境音が背景音として付加されているコンテンツでは、セリフやボーカルの明瞭度が必ずしも向上せず、背景音に埋もれたまま再生されていた。

　本発明は上記に鑑みてなされたもので、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減することができるオーディオ信号処理装置及びオーディオ信号処理方法を提供することを目的とする。

　さらには、上記のオーディオ信号処理装置及びオーディオ信号処理方法において、回路規模の増大を招くことなく、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することを付加的な目的とする。

　上記目的を達成するため、本発明の第一の側面によれば、入力されたオーディオ信号を所定の単位であるフレームに分割するフレーム分割部と、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換する周波数変換部と、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出するレベル検出部と、第１の閾値と、この第１の閾値よりも低いレベルに設定された第２の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行うレベル調整値設定部と、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に１つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行うレベル調整値スムージング部と、前記スムージング処理後の前記レベル調整値を保存する保存部と、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行うスペクトル調整部と、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する逆周波数変換部とを備えたことを特徴とするオーディオ信号処理装置が提供される。

　また、本願発明の第二の側面によれば、フレーム分割部によって、入力されたオーディオ信号を所定の単位であるフレームに分割し、周波数変換部によって、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換し、レベル検出部によって、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出し、レベル調整設定部によって、第１の閾値と、この第１の閾値よりも低いレベルに設定された第２の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行い、レベル調整値スムージング部によって、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に１つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行い、保存部に、前記スムージング処理後の前記レベル調整値を保存し、スペクトル調整部によって、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行い、逆周波数変換部によって、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換することを特徴とするオーディオ信号処理方法が提供される。

図１は、本発明の実施の形態に係るオーディオ信号処理装置の構成を示すブロック図である。図２は、ノイズ低減処理のためのレベル調整区間を示す図である。図３は、人間の聴覚の周波数特性を示す図である。図４は、音声強調処理における増幅量の周波数特性の一例を示す図である。図５は、入力信号レベルとノイズ低減処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図である。図６は、入力信号レベルと音声強調処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図である。図７は、ノイズ低減処理と音声強調処理とを行った場合の入力信号レベルとレベル調整後のスムージングされた出力信号レベルとの関係を示す図である。図８は、ノイズ低減処理と音声強調処理とを行った場合の周波数スペクトルごとの入出力時のレベルを示す概念図であり、図８（ａ）は入力時のレベルを示す図、図８（ｂ）はノイズ低減処理と音声強調処理とをかけた後のレベルを示す図である。

　以下、本発明の一実施形態に係るオーディオ信号処理装置について、図１乃至８を参照して説明する。

　図１は、本発明の実施の形態に係るオーディオ信号処理装置の構成を示すブロック図である。図１に示すように本実施の形態に係るオーディオ信号処理装置は、フレーム分割部１と、周波数変換部２と、レベル検出部３と、閾値比較部４と、レベル調整値設定部５と、レベル調整値スムージング部６と、レベル調整値保存バッファ７と、スペクトル調整部８と、逆周波数変換部９と、フレーム合成部１０と、制御部１１とを備える。

　フレーム分割部１は、外部から入力されるデジタル信号のオーディオ信号を所定のサンプル数で区切ったフレーム単位に分割する。

　周波数変換部２は、フレーム分割部１から入力されるオーディオ信号を、時間領域の信号から周波数領域の信号へと変換し、得られた周波数信号をレベル検出部３およびスペクトル調整部８に供給する。

　周波数変換部２で変換された周波数信号は、オーバーラップ構造を取りながら逆周波数変換処理すれば、演算精度が保たれている限り元のオーディオ信号に再現できる。周波数変換部２で用いる代表的な周波数変換法の例は、ＦＦＴ（Fast Fourier Transform）やＭＤＣＴ（Modified Discrete Cosine Transform）などの、ブロック長の半分を重ね合わせながら周波数変換および逆変換を行う方法である。

　なお、ポリフェイズフィルタのような多段構成のフィルタバンクを周波数変換法に用いてもよい。ただし、隣接するバンドに信号成分が若干もれるため、後述のバンド分割後の信号をレベル調整する際に該当周波数近傍に対し影響を及ぼすので注意が必要である。

　レベル検出部３は、周波数変換部２から入力される周波数信号から、各周波数のスペクトルのレベルを検出し、その検出結果を閾値比較部４に出力する。

　閾値比較部４は、レベル検出部３で検出された各スペクトルのレベルと、代表的なノイズ成分レベルの上限値、下限値として設定された閾値Ｔ１，Ｔ２とを比較する。また、閾値比較部４は、レベル検出部３で検出された各スペクトルのレベルと、音声強調効果を与えるレベルの上限値、下限値として設定された閾値Ｔ３，Ｔ４とを比較する。

　閾値Ｔ１～Ｔ４は、制御部１１より与えられる。閾値Ｔ１～Ｔ４は、最小信号レベル≦Ｔ２≦Ｔ１≦Ｔ４≦Ｔ３≦最大信号レベルの関係を満足するように設定される。最小信号レベル、最大信号レベルは、それぞれ入力オーディオ信号の下限、上限として予め設定されているレベルである。

　閾値比較部４には、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号が制御部１１から入力される。閾値比較部４は、例えば、ノイズ低減処理を無効とするよう指示された場合、入力された各スペクトルのレベルと閾値Ｔ１，Ｔ２との比較は行わず、音声強調処理を無効とするよう指示された場合、入力された各スペクトルのレベルと閾値Ｔ３，Ｔ４との比較は行わない。

　レベル調整値設定部５は、閾値比較部４での比較結果に基づいて、閾値Ｔ１と閾値Ｔ２との間の範囲内のレベルを有するスペクトルにノイズ成分が含まれているものとして、そのレベルを低下させるためのレベル調整値をフレームごとに設定する低減量設定処理を行う。また、レベル調整値設定部５は、閾値比較部４での比較結果に基づいて、閾値Ｔ３と閾値Ｔ４との間の範囲内のレベルを有する、音声帯域を含む所定周波数帯域内のスペクトルに音声成分が含まれているものとして、そのレベルを増加させるためのレベル調整値をフレームごとに設定する増幅量設定処理を行う。

　レベル調整値設定部５には、閾値比較部４と同様に、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号が制御部１１から入力される。レベル調整値設定部５は、例えば、ノイズ低減処理を無効とするよう指示された場合、低減量設定処理は行わず、音声強調処理を無効とするよう指示された場合、増幅量設定処理は行わない。

　レベル調整値スムージング部６は、現在のフレームの時間的に１つ前のフレームで用いたレベル調整値をレベル調整値保存バッファ７から読み出し、レベル調整値設定部５で設定した、現在のフレームにおけるレベル調整値に対して、時間的に１つ前のフレームで用いたレベル調整値との間で時間方向に平滑化するスムージングを行う。レベル調整値スムージング部６は、スムージング後の現在のフレームのレベル調整値をスペクトル調整部８に出力するとともに、レベル調整値保存バッファ７に格納する。

　レベル調整値保存バッファ７は、過去のフレームに対して用いられたレベル調整値を保存する。

　スペクトル調整部８は、レベル調整値スムージング部６から入力されるスムージング後の現在のフレームのレベル調整値を、周波数変換部２から入力される現在のフレームの周波数信号に乗算してレベル調整を行う。

　逆周波数変換部９は、スペクトル調整部８でレベル調整された周波数信号を時間領域の信号に変換して出力する。

　フレーム合成部１０は、逆周波数変換部９からの信号においてオーバーラップしているフレーム長の半分ずつを加算することにより時間軸上の連続したオーディオ信号に復元する。

　制御部１１は、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号を閾値比較部４およびレベル調整値設定部５に出力する。閾値比較部４への制御信号には、閾値Ｔ１～Ｔ４の値が含まれる。閾値Ｔ１～Ｔ４は予め設定された値でもよいし、制御部１１が閾値Ｔ１～Ｔ４の値の複数の組み合わせを保持し、その中から選択される１つを閾値比較部４に出力するようにしてもよい。

　次に、本実施の形態に係るオーディオ信号処理装置の動作について説明する。

　外部からデジタル信号のオーディオ信号が入力されると、フレーム分割部１は、後段の周波数変換部２で用いる周波数分析法に従う所定のサンプル数で区切ったフレーム単位にオーディオ信号を分割する。周波数変換部２で用いる周波数分析法が、ＦＦＴやＭＤＣＴのような周波数変換法であれば、１フレームのサンプル数は、２のべき乗で表現される数値になる。

　なお、入力オーディオ信号はデジタル信号が前提であるが、アナログ信号である場合は、図示しないＡ／Ｄ変換器によりデジタル信号に変換された後、フレーム分割部１に入力される。

　次いで、周波数変換部２は、フレーム分割部１で所定のサンプル数に分割されたフレーム構成を有するオーディオ信号を、時間領域の信号から周波数領域の信号へと変換し、この変換後の周波数信号をレベル検出部３およびスペクトル調整部８に出力する。

　次いで、レベル検出部３は、周波数変換部２から入力される周波数信号から、各周波数のスペクトルのレベルを検出し、その検出結果を閾値比較部４に出力する。

　なお、フィルタバンクを周波数変換法に用いた場合はバンド分割信号がスペクトルに相当する。以降、周波数変換法にポリフェイズフィルタを採用した場合では、スペクトルとはバンド分割信号のことを指すものとする。

　本実施の形態のオーディオ信号処理装置では、ノイズ低減処理および音声強調処理のうちの一方のみを行うこともできるし、両方を同時に行うこともできる。まず、ノイズ低減処理における閾値比較部４、レベル調整値設定部５、レベル調整値スムージング部６の動作について説明する。

　閾値比較部４は、ノイズ低減処理において、レベル検出部３で検出された各スペクトルのレベルと、代表的なノイズ成分レベルの上限値と下限値として予め設定された閾値Ｔ１，閾値Ｔ２とを比較する。

　ここで、閾値Ｔ１，Ｔ２について説明する。テレビ等の放送受信機では、アナログ放送の場合、受信感度によってハムノイズが混入し、オーディオ信号に加算されることになる。また、アナログ放送に限らず、放送コンテンツには様々な背景雑音が加わっており、放送局別、番組別、シーン別にノイズ成分も様々である。

　また、ＶＴＲなどの記録再生系機器を接続した場合は、アナログ機器では記録メディアからデータを読み出す際に発生するメカニカルな駆動に伴う電源ノイズや、画像信号が機器内を通過することによる影響がオーディオ信号に及ぶ。デジタル機器においても、完全なデジタルのみの回路構成でなければ、上記のアナログ機器同様のノイズが加わることになる。また、オーディオ信号を圧縮する際に発生する量子化ノイズもオーディオ信号を劣化させる一因である。

　ハードディスクを記録メディアとするハードディスクレコーダにおいては、ＨＤＤ（Hard Disc Drive）やＤＶＤ（Digital Versatile Disc）ドライブの回転制御が電源に与える変動から周期的なノイズを発生させており、従来のＶＴＲでのホワイトノイズやヒスノイズより、聴感上好ましくないこともある。また、低精度な信号処理チップを使用した場合は、演算精度が十分ではなく、圧縮オーディオ特有の耳障りな量子化ノイズをオーディオ信号に加えている。

　上記のような複合要因からなるノイズ成分は、その特定が難しく、従来のようなモデルノイズを元にノイズ低減を図る手法は相応しくない。そこで、本実施形態では、代表的なノイズ成分レベルの上限値、下限値として閾値Ｔ１，Ｔ２を設定し、閾値Ｔ１と閾値Ｔ２との間の範囲内の信号をある一定レベルだけ低下（レベル調整）させ、ノイズ成分が聴感上目立たなくする。

　図２は、ノイズ低減処理のためのレベル調整区間を示す図である。図２に示す閾値Ｔ１は－５０ｄＢ、閾値Ｔ２は－８０ｄＢに相当し、閾値Ｔ１と閾値Ｔ２との間の範囲（－５０ｄＢ～－８０ｄＢ）は、コンテンツに加算される代表的なノイズ成分レベルと同程度である。

　次いで、閾値比較部４で得られた比較結果に基づいて、レベル調整値設定部５は、閾値Ｔ１と閾値Ｔ２との間の範囲内のレベルを有するスペクトルにノイズ成分が含まれているものとして、そのスペクトルのレベルを低下させるためのレベル調整値を設定する低減量設定処理を行う。

　例えば、レベルを６ｄＢ低下させる場合は、レベル調整値を０．５に設定する。全帯域に渡り一律のノイズレベル低下効果を得るならば、このようにスペクトルの振幅値を低下させる、すなわち１より小さな数値を乗算すればよく、乗算後の値が半分になることで約６ｄＢづつレベルダウンすることを目安にレベル調整値を設定する。このレベル調整値は、レベル調整値保存バッファ７のメモリ使用量を削減したい場合は全帯域で一定の値としてもよいが、スペクトルごとに設定してもよいし、周波数帯域ごとに設定してもよい。さらには、スペクトルのレベルごとに細かく設定してもよい。

　スペクトルのレベルが閾値Ｔ１以上の場合は、信号成分のマスキング効果によりノイズ成分は知覚されないと推測できる。このため、ノイズ低減処理のみを行う場合には、閾値Ｔ１以上のレベルのスペクトルについては、オーディオ成分が優勢であると見なし、レベル調整は基本的には行わない。ただし、ノイズ低減処理により、オーディオ信号全体のパワーが若干低下するので、入力パワーと出力パワーとを同等に保つために、レベルが閾値Ｔ１以上のレベルのスペクトルに対し、１以上の値をレベル調整値として設定してもよい。

　また、スペクトルのレベルが閾値Ｔ２以下の場合は、ノイズレベルが非常に低いと推測できるため、レベル調整を基本的には行わない。ただし、上記閾値Ｔ１以上のレベルのスペクトルと同様に、閾値Ｔ２以下のレベルのスペクトルに対しても、１以上の値をレベル調整値として設定してもよい。

　なお、閾値Ｔ１，Ｔ２の値は全帯域共通で設定してもよいし、スペクトルごとまたは周波数帯域ごとに個別設定してもよい。閾値Ｔ１，Ｔ２が全帯域共通の場合は、処理の簡略化と閾値Ｔ１，Ｔ２を格納するメモリ（図示せず）の削減効果がある。一方、スペクトルごとまたは帯域ごとに個別設定する場合は、より聴感的に優れたノイズ削減効果を発揮できる。

　人間の聴覚特性は周波数によって異なる、つまり、人間は、音圧レベルが一定であっても、周波数が異なれば音量が異なるように聞こえることが知られている。縦軸に音圧レベル、横軸に周波数をとり、同じ音量で人間に聞こえる各周波数の音圧レベルの曲線を描くと、図３に示すような特性となる。図３において下側の曲線は、最小可聴限特性曲線２１であり、この最小可聴限特性曲線２１で示される音圧レベル以下の音は人間に聴感として感知されない。

　そこで、感度が低いとされる周波数帯（例えば１ｋＨｚ以下の低域と８ｋＨｚ以上の高域）については閾値Ｔ２を高いレベルに設定し、感度が高いとされる周波数帯域（例えば１ｋＨｚ～８ｋＨｚの中域）については閾値Ｔ２を低いレベルに設定することで、より聴感的に聴き易い音になることが期待される。

　ところで、オーバーラップ構造によりブロック境界における歪を抑制している周波数変換法では、本来とは異なるスペクトルレベルによって正しい逆変換が行われず、その差分成分が量子化ノイズとなり副作用的なノイズが発生してしまう。

　この現象を回避するため、本実施形態では、レベル調整値スムージング部６において、レベル調整値に時間方向にスムージングをかけ、スペクトルの時間的変動に関わる影響度の低下と、隣り合う変換ブロックで与えるレベル調整値の変化を緩やかにし、量子化ノイズの発生を防ぐ。

　レベル調整値スムージング部６は、時間方向のデータを保存するバッファであるレベル調整値保存バッファ７から、現在のフレームの時間的に１つ前のフレームで用いたレベル調整値を読み出し、現在のフレームにおけるレベル調整値との間で時間方向に平滑化するスムージング処理を行う。この処理は、先に説明した急激なレベル変動によって生じるブロック間スペクトルデータの元信号との差分量から発生する量子化ノイズを抑制する働きを有している。

　例えば、前フレームのレベル調整値がＡbeforeであり、新たにレベル調整値設定部５で設定された現在のフレームのレベル調整値がＡnowのとき、最終的に適用されるレベル調整値Ａは、
Ａ＝（Ａbefore×（Ｎ－１）＋Ａnow）／Ｎ　・・・（式１）
で求めることができる。

　ここで、Ｎはスムージングの時定数である。信号レベルをＳとすると、レベル調整によって発生する誤差量ΔＳは、
ΔＳ＝Ｓ－Ｓ×Ａ＝Ｓ（１－Ａ）　・・・（式２）
で表される。

　この誤差量ΔＳが最大になる状況は、閾値Ｔ１以上のレベルが長期にわたって続いた後、Ｔ１以下のしかもＴ１近傍のレベルへと推移したとき、またはその逆で、Ｔ１以下でＴ２以上のレベルが長期に続いた後、Ｔ１以下のしかもＴ１付近からＴ１以上のレベルへと推移したときである。

　この場合の誤差量（最大誤差量）ΔＳｍａｘは、ＳをＴ１、Ａbeforeを値「１」と近似し、（式１），（式２）から導かれる
ΔＳｍａｘ＝Ｔ１×（１－α）／Ｎ　・・・（式３）
で定義することが可能である。

　ここで、αはＡnowである。αとＴ１とを設定し、図３の最小可聴限特性曲線２１から、許容されるノイズレベルとして最小可聴限レベル値Ｐを求め、このＰをΔＳｍａｘとして与えることで、（式３）から導かれる
Ｎ＝Ｔ１×（１－α）／Ｐ　・・・（式４）
により、スムージングの時定数Ｎを算出する。

　なお、時定数Ｎは、ノイズ低減効果と時間応答特性の両面から検討すべきであり、必ずしも上記（数式４）を満足するものとは限らず、音の立ち上がりを重視する場合には時定数をさらに小さくしてもよい。

　レベル調整値スムージング部６は、上記処理により求めたスムージング処理後の現在のフレームのレベル調整値をスペクトル調整部８に出力するとともに、レベル調整値保存バッファ７に格納する。

　次に、音声強調処理における閾値比較部４、レベル調整値設定部５、レベル調整値スムージング部６の動作について説明する。

　閾値比較部４は、ノイズ低減処理において、レベル検出部３で検出された各スペクトルのレベルと閾値Ｔ３，閾値Ｔ４とを比較する。例えば、閾値Ｔ３は－６ｄＢ、閾値Ｔ４は－４０ｄＢとすることができる。

　次いで、閾値比較部４で得られた比較結果に基づいて、レベル調整値設定部５は、閾値比較部４での比較結果に基づいて、閾値Ｔ３と閾値Ｔ４との間の範囲内のレベルを有する、音声帯域を含む所定周波数帯域内のスペクトルに音声成分が含まれているものとして、そのレベルを増加させるためのレベル調整値を設定する増幅量設定処理を行う。

　レベルを増加させるためには、レベル調整値を１より大きな値に設定する。レベル調整値は、所定周波数帯域内で一定の値としてもよいが、スペクトルごとに設定してもよいし、周波数帯域ごとに設定してもよい。さらには、スペクトルのレベルごとに細かく設定してもよい。

　また、レベル調整値に基づく増幅量の周波数特性が、入力オーディオ信号を含むコンテンツのジャンルに応じて変化するように、レベル調整値を設定するようにしてもよい。

　例えば、ニュースやドラマ等のジャンルのコンテンツの場合は、図４の曲線２３に示すように、人間の音声帯域（例えば、４００Ｈｚ～４０００Ｈｚ）の増幅量を他の帯域の増幅量よりも大きくして、音声がより強調されるようにレベル調整値を設定する。

　一方、例えば、音楽のジャンルのコンテンツについては、音楽としてのバランスを損なわないように、図４の曲線２４に示すように、音声帯域を他の帯域より弱めに増幅するようにレベル調整値を設定する。コンテンツのジャンルは、放送電波に含まれる番組情報等から取得することができる。

　なお、閾値Ｔ３，Ｔ４の値は、閾値Ｔ１，Ｔ２と同様に、全帯域共通で設定してもよいし、スペクトルごとまたは周波数帯域ごとに個別設定してもよい。

　次いで、レベル調整値スムージング部６は、レベル調整値設定部５で設定されたレベル調整値に対して時間方向のスムージング処理を行う。スムージング処理の方法は、前述のノイズ低減処理時と同様であるが、ここで用いるスムージングの時定数は、例えば、（式４）のＴ１をＴ３に置き換えて算出したものを用いる。

　また、
Ｎ１＝Ｔ３×（１－α）／Ｐ１　・・・（式５）
により算出される時定数Ｎ１を用いてもよい。

　ここで、Ｐ１は、図３に示す曲線２２から求められる許容ノイズレベル値である。曲線２２は、最小可聴限特性曲線２１に対応する音量より大きな所定の音量で人間に聞こえる各周波数の音圧レベルの曲線を示す。図３は、人間に聞こえる音量が大きくなると、人間に聴感として感知されない音圧レベルも大きくなることを示している。

　このため、音声成分を強調する音声強調処理においては、ノイズ低減処理の場合と比較して、許容されるノイズレベルが大きくなる。そこで、最小可聴限レベル値Ｐより大きな許容ノイズレベル値Ｐ１を用いて算出される時定数Ｎ１を用いてスムージング処理を行ってもよい。

　レベル調整値スムージング部６は、上記処理によりスムージング処理後の現在のフレームのレベル調整値をスペクトル調整部８に出力するとともに、レベル調整値保存バッファ７に格納する。

　上述のノイズ低減処理における動作と音声強調処理における動作とは、それぞれ独立しているので、制御部１１からの制御信号に応じて、いずれか一方のみを行うこともできるし、両方を同時に行うこともできる。

　スムージング処理が終了すると、スペクトル調整部８は、レベル調整値スムージング部６から入力されるスムージング処理後の現在のフレームのレベル調整値を、周波数変換部２から入力される現在のフレームの周波数信号（スペクトル）に乗算してレベル調整を行う。

　次いで、逆周波数変換部９は、スペクトル調整部８でレベル調整された周波数信号を時間領域の信号に変換して出力する。

　そして、フレーム合成部１０は、逆周波数変換部９からの信号においてオーバーラップしているフレーム長の半分ずつを加算することにより時間軸上の連続したオーディオ信号に復元する。必要であれば、フレーム合成部１０で復元された時間軸上のオーディオ信号を図示しないＤ／Ａ変換器によりアナログ信号に変換した後、外部に出力する。

　図５は、入力信号レベルとノイズ低減処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図、図６は、入力信号レベルと音声強調処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図、図７は、ノイズ低減処理と音声強調処理とを行った場合の入力信号レベルとレベル調整後のスムージングされた出力信号レベルとの関係を示す図である。

　従来の方法では、スムージングによって量子化ノイズ成分を緩和することができても、人間の聴感特性に基づく時定数を与えてはおらず、状況によっては知覚されるおそれがあった。また時定数を不必要に長く設定してしまう可能性もあり、この場合は音の立ち上がりが鈍り、音楽性が損なわれていた。

　図５乃至７が示すように、本実施形態では、スムージング処理により、レベル調整時に発生する副作用的な量子化ノイズを抑制することができる。また、本実施形態では、図３に示したような人間の聴感特性に基づいてスムージングの時定数を与えるため、量子化ノイズが知覚されるおそれを軽減することができる。

　また、例えば図２のように一律にレベル調整を行う場合でも、スムージング処理を行うことで、図５に示すように閾値Ｔ１，Ｔ２における不連続なレベルの変異を避けることができるため、個々のスペクトルに対して負荷の高いｄＢ演算をしなくともよく、演算量を大きく削減することが可能である。

　また、閾値Ｔ２以下の微弱な信号（微弱ノイズ成分）のレベルを低下させないようにすれば、ＳＮ比が良好なオーディオ信号、つまりノイズレベルがＴ２以下の場合はレベル調整が働かず、元信号に限りなく近づくため音質に与える影響を極めて小さくすることができる。反対に下限値としての閾値Ｔ２を設定しなければ、微弱信号が連続した後に急激に立ち上がるオーディオ信号の場合、オーディオ信号本来が持つアタック感が、レベル調整値により指定されるノイズ削減量分だけ引かれた弱い音になってしまう。

　扱うオーディオ信号が音声を主とする携帯電話やＴＶ電話向けの従来のノイズ低減方法では、背景雑音があることが前提であり、入力信号のＳＮ比が様々である広帯域オーディオ信号を扱ったテレビ受信機の場合、常にノイズ削減効果が作用することによって音楽性を維持することがかなり難しかった。本実施形態のように、閾値Ｔ２を設定しＳＮ比が良好なオーディオ信号に備えることで音楽性を保ちつつ、周波数別に最小可聴限特性を反映することで、周波数帯によって異なる知覚感度に沿ったノイズ低減制御が可能である。

　なお、スペクトルのレベル調整は、スペクトルそれぞれ独立して行っても、複数のスペクトルをグループ化したある周波数幅を持つ周波数帯に対して行ってもよい。特に弦楽器のような単楽器で倍音成分が多く含まれる音源の場合は、ある一定の周波数帯でまとめて処理すると、信号のピークがなまるため、スペクトルそれぞれに対してレベル調整を行う方が望ましい。

　一方、レベル調整値保存バッファ７の容量や、個々の閾値を保存するために必要なメモリ容量を削減したり、レベル調整値の算出負荷を削減したい場合には、スペクトルをグループ化する方がよい。グループ化は、等間隔の周波数帯か、低域ほど狭く高域ほど広い人間の聴感特性から定義された臨界帯域幅でまとめるかどちらかを採用する。

　このように、本実施の形態によれば、人間の聴感特性を考慮した一般的なノイズ成分が存在するレベル帯の周波数信号を時間方向にスムージングをかけながらレベル調整するので、異なる背景雑音またはメカニカルな駆動に伴う電源ノイズ等に対し、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減できる。これにより、ユーザーに対し聞き易い音声を提供することが可能である。

　図８は、ノイズ低減処理と音声強調処理とを行った場合の、ある時間における周波数スペクトルごとの入出力時のレベルを示す概念図であり、図８（ａ）は入力時のレベルを示す図、図８（ｂ）はノイズ低減処理と音声強調処理とをかけた後のレベルを示す図である。レベル調整値スムージング部６において過去の状態の重み付けによって、特定の時間（フレーム）で即座にレベル調整値が設定されるわけではないが、図８（ａ），（ｂ）に示すように、Ｔ４からＴ３の範囲にあるスペクトルは増幅され、Ｔ２からＴ１の範囲にあるスペクトルは減衰されており、１回の処理で音声強調効果とノイズ低減効果とを得ることができる。

　なお、レベル調整値は、ノイズ低減用の減衰量ＧａｉｎＮが、ＧａｉｎＮ≦（入力信号レベル－最小信号レベル）を満たし、音声増幅用の増幅量ＧａｉｎＳが、ＧａｉｎＳ≦（最大信号レベル－入力信号レベル）を満たすように設定しなければならない。この条件を満たさない場合、ノイズの発生等による音質の低下を招くことがある。

　このように、本実施形態によれば、オーディオ信号を時間領域の信号から周波数領域の信号へと変換し、この変換した周波数信号においてノイズ低減処理および音声強調処理を同時に行うことで、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することができる。また、時間領域でノイズ低減処理や音声強調処理を行う方式に比べ、きめ細かい処理をおこなうことができ、音質的にもより自然で聞きやすい音声を提供することができる。

　また、ノイズ低減処理と音声強調処理とを共通の構成で実現するので、回路規模の増大を抑えることができる。

　なお、本実施形態に係るオーディオ信号処理装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読みとられてコンピュータに取り込まれてもよいし、通信ネットワーク等を介して伝送されてコンピュータに取り込まれてもよい。

　本発明のオーディオ信号処理装置によれば、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減することができる。

　さらに、本発明のオーディオ信号処理装置によれば、回路規模の増大を招くことなく、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することができる。

Claims

　入力されたオーディオ信号を所定の単位であるフレームに分割するフレーム分割部と、
　前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換する周波数変換部と、
　前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出するレベル検出部と、
　第１の閾値と、この第１の閾値よりも低いレベルに設定された第２の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行うレベル調整値設定部と、
　現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に１つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行うレベル調整値スムージング部と、
　前記スムージング処理後の前記レベル調整値を保存する保存部と、
　前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行うスペクトル調整部と、
　前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する逆周波数変換部と
　を備えることを特徴とするオーディオ信号処理装置。
　前記レベル調整値設定部は、さらに、前記第１の閾値以上のレベルに設定された第３の閾値と、前記第１の閾値以上かつ前記第３の閾値以下のレベルに設定された第４の閾値との間の範囲内のレベルを有する所定周波数帯域内のスペクトルのレベルを増加させるためのレベル調整値を前記フレームごとに設定する増幅量設定処理を行うことを特徴とする請求項１に記載のオーディオ信号処理装置。
　前記低減量設定処理および前記増幅量設定処理のうちのいずれか一方を選択して行うように前記レベル調整値設定部を制御する制御部をさらに備えることを特徴とする請求項１又は２に記載のオーディオ信号処理装置。
　前記第１乃至第４の閾値は、前記フレーム内のスペクトルごとまたは周波数帯域ごとに設定される値であることを特徴とする請求項１乃至３に記載のオーディオ信号処理装置。
　前記レベル調整値設定部は、前記フレーム内のスペクトルごとまたは周波数帯域ごとに前記レベル調整値を設定することを特徴とする請求項１乃至４のいずれか１項に記載のオーディオ信号処理装置。
　前記レベル調整値設定部は、前記第１の閾値よりレベルが高いスペクトル、および前記第２の閾値よりレベルが低いスペクトルのレベルを増大させるように前記レベル調整値を設定することを特徴とする請求項１乃至５のいずれか１項に記載のオーディオ信号処理装置。
　前記レベル調整値設定部は、前記増幅量設定処理において設定する前記レベル調整値に基づく増幅量の周波数特性が、前記オーディオ信号を含むコンテンツのジャンルに応じて変化するように前記レベル調整値を設定することを特徴とする請求項１乃至６のいずれか１項に記載のオーディオ信号処理装置。
　前記レベル調整値スムージング部は、人間の耳が聞き取ることのできる最小の音圧レベルの周波数特性に基づく最小可聴限レベル値、前記第１の閾値、および前記レベル調整値設定部において前記ノイズ低減処理対象としているフレームに対して前記低減量設定処理で設定した前記レベル調整値を用いて、前記低減量設定処理で設定した前記レベル調整値に対するスムージングの時定数を決定することを特徴とする請求項１乃至７のいずれか１項に記載のオーディオ信号処理装置。
　前記レベル調整値スムージング部は、所定の音量に対応する人間の聴覚の周波数特性に基づく許容ノイズレベル値、前記第３の閾値、および前記レベル調整値設定部において前記ノイズ低減処理対象としているフレームに対して前記増幅量設定処理で設定した前記レベル調整値を用いて、前記増幅量設定処理で設定した前記レベル調整値に対するスムージングの時定数を決定することを特徴とする請求項１乃至８のいずれか１項に記載のオーディオ信号処理装置。
　フレーム分割部によって、入力されたオーディオ信号を所定の単位であるフレームに分割し、
　周波数変換部によって、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換し、
　レベル検出部によって、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出し、
　レベル調整設定部によって、第１の閾値と、この第１の閾値よりも低いレベルに設定された第２の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行い、
　レベル調整値スムージング部によって、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に１つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行い、
　保存部に、前記スムージング処理後の前記レベル調整値を保存し、
　スペクトル調整部によって、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行い、
　逆周波数変換部によって、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する
　ことを特徴とするオーディオ信号処理方法。