WO2013038937A1

WO2013038937A1 - 音声処理装置および方法、並びにプログラム

Info

Publication number: WO2013038937A1
Application number: PCT/JP2012/072353
Authority: WO
Inventors: 光行畠中; 徹知念
Original assignee: ソニー株式会社
Priority date: 2011-09-15
Filing date: 2012-09-03
Publication date: 2013-03-21
Also published as: CN103782515A; RU2014108818A; AU2012309702A1; JP2013065952A; JP5845760B2; US20140205111A1; US9294062B2; CA2844915A1; BR112014005295A2; EP2757685A1

Abstract

本技術は、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができる音声処理装置および方法、並びにプログラムに関する。入力信号の各周波数帯域のゲインをゲイン設定値に基づいて調整するイコライザ処理を行なう場合に、ゲイン設定値から求まる入力減衰量だけ入力信号を減衰させ、減衰された入力信号に対してイコライザ処理を行なう。また、予め用意された一般的な音楽信号から求められた各周波数帯域の重み係数と、ゲイン設定値とに基づいて、イコライザ処理による入力信号のゲインの増幅量が推定され、その推定値と入力減衰量との差分がゲイン補正量として算出される。さらに、実際にイコライザ処理された入力信号がゲイン補正量だけ増幅されるように、入力信号に対して非線形増幅処理が行なわれ、出力信号とされる。本技術は、音声処理装置に適用することができる。

Description

音声処理装置および方法、並びにプログラム

　本技術は音声処理装置および方法、並びにプログラムに関し、特に、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにした音声処理装置および方法、並びにプログラムに関する。

　従来、等価器（イコライザ）を用いて、音楽信号の各周波数帯域のゲインを操作することが一般的に行なわれている。その際、特定の周波数帯域のゲインを増幅させることにより、等価器から出力される信号、すなわちゲイン操作された音楽信号の振幅が記録レンジを超えてしまい、結果として聴感上、不快なクリップ歪みが生じることがある。

　このようなクリップ歪みを低減させる技術として、プリゲイン制御処理とオートゲイン制御処理が知られている。

　プリゲイン制御処理では、予めクリップされるゲイン量が想定され、そのゲイン量に基づいて音楽信号が減衰されてから、音楽信号の等価器への入力が行なわれる。このとき、音楽信号の減衰量は、ユーザが手動で減衰つまみを操作することで決定される。

　また、オートゲイン制御処理では、等価器による音楽信号のゲイン操作でクリップが生じないように、等価器への入力直前、または等価器からの出力直後に、適応的に音楽信号のゲイン制御が行なわれる。すなわち、クリップ歪みが発生する区間では、信号の振幅が記録レンジを超えないように、音楽信号に対して強制的に信号波形の変形が行なわれる。

　例えば、図１の上側に示すように、矢印Ｑ１１に示す波形の音楽信号が等価器１１に入力されて、特定周波数帯域のゲイン調整が行なわれ、矢印Ｑ１２に示す波形の音楽信号が出力として得られたとする。矢印Ｑ１２に示す波形では、振幅が増幅され過ぎたため波形の一部、すなわち点線で示される部分がクリップされて波形に歪みが生じている。このようなクリップ歪みが生じると、音楽信号の再生時に音がつぶれてしまい、音質が劣化してしまうことになる。

　そこで、プリゲイン制御処理やオートゲイン制御処理を行なう装置では、図中、下側に示すように等価器１１の前段に減衰回路１２が設けられ、矢印Ｑ２１に示す波形の処理対象となる音楽信号が減衰回路１２に入力される。減衰回路１２で音楽信号に対する減衰処理が行なわれると、矢印Ｑ２２に示すようにゲインが減衰された波形の音楽信号が得られ、この音楽信号が等価器１１に供給されてゲイン調整が行なわれる。

　そして等価器１１による音楽信号のゲイン調整により、矢印Ｑ２３に示す波形の音楽信号が出力として得られる。このようにして得られる音楽信号のゲインは、等価器１１によりゲインが過剰に増幅されてしまう分だけ、予め減衰回路１２で減衰されているので、クリップ歪みの発生を抑制することができる。

　また、クリップ歪みを低減させる技術として、異なる周波数帯域のピーキングフィルタを直列に接続するものもある（例えば、特許文献１参照）。この技術では、より後段においてより高い周波数のピーキングフィルタにより信号に対するフィルタ処理が行なわれるので、信号のクリップにより発生した歪みの高調波成分が後段のフィルタで増長されにくくなっている。

特開平８－２３２５０号公報

　しかしながら、上述した技術では、音楽信号のゲイン増幅を行う場合に生じる音質の劣化を充分に抑制することが困難であった。

　例えば、プリゲイン制御処理では、ユーザが減衰つまみを感覚的に操作してゲインの減衰量を調整する必要があるため、最適な減衰量を指定することが困難であり、最適な減衰量も楽曲ごとに異なるので操作が煩わしく、不便であった。ユーザにより指定される減衰量が適切でないと、音楽信号にクリップ歪みが生じたり、音楽信号の振幅が小さくなり過ぎたりしてしまうことになる。

　また、オートゲイン制御処理では、音楽信号の振幅変化によりゲインの減衰量が自動的に調整されるので、ユーザがいちいち適切な減衰量を指定する必要はないが、クリップが生じる区間では強制的にゲインの減衰、つまり信号波形の変形が行なわれてしまう。そのため、信号波形の変形が行なわれた区間と、行なわれていない区間とが生じて音楽信号に不自然なゲイン変動が発生することになり、再生される音楽信号は聴感上、不安定なものとなってユーザに不快感を与えてしまう。

　本技術は、このような状況に鑑みてなされたものであり、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにするものである。

　本技術の一側面の音声処理装置は、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部とを備える。

　音声処理装置には、予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに設けることができる。

　前記係数算出部には、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求めさせ、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出させることができる。

　前記推定ゲイン増幅量算出部には、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出させることができる。

　前記ゲイン補正量算出部には、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出させることができる。

　前記ゲイン補正部には、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なわせることができる。

　前記ゲイン補正部には、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なわせることができる。

　本技術の一側面の音声処理方法またはプログラムは、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップとを含む。

　本技術の一側面においては、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量が算出され、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量が算出され、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量が算出され、前記入力減衰量に基づいて前記音声信号が減衰され、前記ゲイン設定値に基づいて、減衰された前記音声信号に対する前記イコライザ処理が行なわれて、前記音声信号の各前記周波数帯域のゲインが調整され、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインが補正される。

　本技術の一側面によれば、音質の劣化を抑制することができる。

従来のイコライザ処理について説明する図である。本技術を適用したイコライザ処理について説明する図である。入力減衰量の算出について説明する図である。周波数帯域ごとの重み係数の算出について説明する図である。本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。音声処理について説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［本技術の概要］
　まず、本技術の概要について説明する。本技術は、音楽信号等の音声信号に対して等価器によるイコライザ処理を行なう際に、イコライザ処理の前後において適切に音声信号のゲイン調整を行なうことで、クリップ歪み等による音質の劣化を抑制するものである。なお、以下、処理対象となる音声信号は、楽曲の信号、つまり音楽信号であるものとし、処理対象の音楽信号を入力信号と称する。また、入力信号に対してイコライザ処理等が施され、最終的に得られた音声信号を出力信号と称することとする。

　本技術を適用した音声処理装置では、図２に示すように、入力信号が入力されると、入力信号に対する減衰処理が行なわれ、減衰処理された入力信号に対してイコライザ処理が施される。そして、イコライザ処理された入力信号に対して、ゲイン補正処理が行われて出力信号が生成される。

　なお、図２において横方向は入力信号に対して行なわれる各処理の順序を示しており、縦方向は入力信号の振幅の大きさを示している。また、矢印Ｕ１１乃至矢印Ｕ１４のそれぞれは、入力信号の振幅、減衰処理された入力信号の振幅、イコライザ処理された入力信号の振幅、およびゲイン補正処理後の入力信号、つまり出力信号の振幅を示している。

　図２の例では、まず矢印Ｕ１１に示す振幅の入力信号に対して、入力減衰量G_ATNに基づいて減衰処理が行なわれ、矢印Ｕ１２に示す振幅の入力信号が得られる。

　ここで、入力減衰量G_ATNは、入力信号に対するイコライザ処理により増幅される、入力信号の大まかなゲイン量を示している。

　例えば、入力信号に対するイコライザ処理では、周波数帯域ごとにユーザにより指定されたゲイン設定値に基づいて、入力信号の各周波数帯域の成分に対するゲイン調整が行なわれる。所定の周波数帯域Ｆ_ｋ（但し、１≦ｋ≦Ｎ）のゲイン設定値は、入力信号の周波数帯域Ｆ_ｋの成分のゲインの増幅量を示す値であり、イコライザ処理では、入力信号の各周波数帯域の成分のゲインが、それらの周波数帯域のゲイン設定値の分だけ増幅される。

　入力減衰量G_ATNは、ユーザにより指定された各周波数帯域のゲイン設定値に基づいて算出され、より詳細には、イコライザ処理による入力信号の各周波数帯域成分のゲイン増幅量の推定値のうちの最大値を示している。

　また、減衰処理後、矢印Ｕ１２に示す振幅の入力信号に対して、ユーザにより設定されたゲイン設定値に基づいてイコライザ処理が施されると、矢印Ｕ１３に示す振幅の入力信号が得られる。この入力信号の振幅（ゲイン）は、イコライザ処理前の入力信号と比べて、矢印Ｕ１３に示す振幅と矢印Ｕ１２に示す振幅の差の分だけ増幅されている。

　音声処理装置では、イコライザ処理で増幅されるゲイン量の推定値、すなわち入力信号全体のエネルギの増幅量の推定値である推定ゲイン増幅量G_ESTが、周波数帯域Ｆ_ｋごとの重み係数CR_kとゲイン設定値EQ_ｋとに基づいて、イコライザ処理前に予め算出される。

　ここで、各周波数帯域Ｆ_ｋの重み係数CR_kは、例えば一般的な音楽信号（以下、モデル音楽信号とも称する）の各周波数のエネルギ分布の統計量から推定により算出されるものである。この重み係数CR_kの値は、ゲイン設定値EQ_ｋによるゲイン調整がモデル音楽信号全体のエネルギの増幅に対して大きく寄与するほど、大きくなる。

　音声処理装置では、このようにして算出された推定ゲイン増幅量G_ESTと入力減衰量G_ATNの絶対値の差分が、イコライザ処理された入力信号に対して行なわれるゲイン補正処理時のゲイン補正量G_CMPとして求められる。そして、ゲイン補正量G_CMPに基づいて、イコライザ処理後の矢印Ｕ１３に示す振幅の入力信号に対してゲイン補正処理が行なわれ、矢印Ｕ１４に示す振幅の出力信号が生成される。

　ゲイン補正量G_CMPは、入力減衰量G_ATNと推定ゲイン増幅量G_ESTの差分であるから、ゲイン補正処理では入力信号の振幅（ゲイン）が、音声処理装置に入力された入力信号の振幅とほぼ同じになるように増幅されることになる。図２においても、矢印Ｕ１４に示される出力信号の振幅は、矢印Ｕ１１に示される入力信号の振幅と同じ大きさとなっており、入力信号とほぼ同じゲインの出力信号が得られることが分かる。

　以上のように、音声処理装置では、クリップ歪みの発生を抑制するために、入力信号に対する減衰処理が行なわれ、その結果得られた信号に対してイコライザ処理が行なわれる。そして、イコライザ処理により得られた信号に対してゲイン補正処理が行なわれ、出力信号とされる。

　これにより、イコライザ処理によるゲイン増幅特性を反映しながら、ゲイン増幅にともない発生するクリップ歪みを抑制することができ、歪み感のない音声の再生が可能となる。また、一般的な音声信号の各周波数のエネルギの分布に基づいて固定的に重み係数CR_kを求め、その重み係数CR_kが用いられて算出されたゲイン補正量G_CMPによりゲイン補正を行なうことで、従来のオートゲイン制御処理で生じるような不快な音圧の変動が発生しないようにすることができ、音質を向上させることができる。

［入力減衰量の算出について］
　次に、以上において説明した、出力信号を生成する音声処理で用いられる入力減衰量G_ATNと推定ゲイン増幅量G_ESTの具体的な算出方法の一例について説明する。

　まず、入力減衰量G_ATNの算出では、例えば図３に示すように、ユーザにより指定された各周波数帯域Ｆ_ｋのゲイン設定値EQ_ｋに基づいて、それらの周波数帯域Ｆ_ｋのゲイン特性が求められる。なお、図３において、図中、横方向は周波数を示しており、縦方向は各周波数のゲインを示している。特に、図中、横方向に並ぶ文字ｆ_１乃至ｆ_４は、周波数帯域Ｆ_１乃至Ｆ_４の中心の周波数を示している。

　図３の例では、曲線Ｌ１１乃至曲線Ｌ１４は、周波数帯域Ｆ_１乃至周波数帯域Ｆ_４のゲイン特性を示している。

　具体的には、例えば周波数帯域Ｆ_１のゲイン特性を示す曲線Ｌ１１は、周波数帯域Ｆ_１のゲイン設定値EQ_１に基づいて周波数ｆ_１のゲインを増幅させたときに生じる、各周波数のゲインの増幅量を示している。ここで、例えば周波数帯域Ｆ_１のゲイン設定値EQ_１が、周波数帯域Ｆ_１の中心の周波数ｆ_１のゲインを増幅させる量であるとすると、曲線Ｌ１１の周波数ｆ_１における値は、ゲイン設定値EQ_１となる。

　曲線Ｌ１１は、周波数帯域Ｆ_１に隣接する周波数帯域Ｆ_２の周波数の位置においても正の値を有しており、各周波数帯域のゲイン設定値によるゲイン増幅は、他の周波数帯域のゲインにも影響を与えることが分かる。

　いま、周波数帯域Ｆ_ｍ（但し、１≦ｍ≦Ｎ）のゲイン設定値による周波数ｆ_ｍのゲイン増幅により、周波数帯域Ｆ_ｋ（但し、１≦ｋ≦Ｎ）の中心の周波数ｆ_ｋが影響を受けて増幅されるゲインの量をゲイン増幅量Ｇ_ｋｍと呼ぶこととする。ゲイン増幅量Ｇ_ｋｍは、周波数帯域Ｆ_ｍのゲイン設定値EQ_ｍから求めることができる。

　この場合、周波数帯域ごとに指定されたゲイン設定値に基づいてイコライザ処理を行なって、各周波数帯域のゲインを増幅させると、周波数ｆ_ｋのゲインは各ゲイン増幅量Ｇ_ｋｍの総和、つまりゲイン増幅量Ｇ_ｋ１乃至Ｇ_ｋＮの和の分だけ増幅することになる。以下、ゲイン増幅量Ｇ_ｋｍの総和により求められる周波数ｆ_ｋのゲインの増幅量を、ゲイン増幅量Ｇ（ｋ）とも称することとする。

　図３では、各矢印Ｇ（１）乃至Ｇ（４）が、周波数ｆ_１乃至ｆ_４（周波数帯域Ｆ_１乃至Ｆ_４）のゲイン増幅量Ｇ（１）乃至Ｇ（４）を表している。例えば、周波数ｆ_２に注目すると、ゲイン増幅量Ｇ（２）に対する寄与率は、周波数ｆ_２のゲイン増幅量Ｇ_２２が最も高くなっていることが分かる。また、周波数ｆ_２を含む周波数帯域Ｆ_２に隣接する周波数帯域Ｆ_１および周波数帯域Ｆ_３によるゲイン増幅量Ｇ_２１およびゲイン増幅量Ｇ_２３のゲイン増幅量Ｇ（２）への寄与率も他の周波数帯域のゲイン増幅量と比べて高いことが分かる。

　このようにして、各周波数帯域Ｆ_ｋについてゲイン増幅量Ｇ（ｋ）が算出されると、これらのゲイン増幅量Ｇ（ｋ）に基づいて次式（１）が計算され、入力減衰量G_ATNが算出される。

　G_ATN＝－ＭＡＸ（ΣＧ_ｋｍ）　　・・・（１）

　なお、式（１）においてΣＧ_ｋｍは、ゲイン増幅量Ｇ_ｋｍ（但し、１≦ｍ≦Ｎ）の総和を示している。つまり、ΣＧ_ｋｍはゲイン増幅量Ｇ（ｋ）を示している。また、式（１）において、ＭＡＸ（ΣＧ_ｋｍ）は、ゲイン増幅量Ｇ（ｋ）（但し、１≦ｋ≦Ｎ）のうちの最大値を出力する関数を示している。したがって、入力減衰量G_ATNは、各周波数帯域のゲイン増幅量Ｇ（ｋ）のうちの最大値に「－１」を乗算することにより求められる。

　以上のように、ゲイン設定値に基づいてイコライザ処理を行なったときに増幅する各周波数帯域のゲインの増幅量が推定により求められ、それらのゲイン増幅量の推定値の最大値の符号を反転させて得られる値が入力減衰量G_ATNとされる。なお、入力減衰量G_ATNは、イコライザ処理により増幅される入力信号全体のエネルギ（ゲイン）量の大まかな推定値が得られる方法であれば、上述した例に限らず、どのような方法で算出されてもよい。

［推定ゲイン増幅量の算出について］
　また、推定ゲイン増幅量G_ESTは、上述したように周波数帯域Ｆ_ｋの重み係数CR_kとゲイン設定値EQ_ｋとから算出される。具体的には、推定ゲイン増幅量G_ESTは次式（２）に示すように、重み係数CR_kが乗算された各ゲイン設定値EQ_ｋの和を求めることにより算出される。

　G_EST＝（CR_１×EQ_１）＋（CR_２×EQ_２）＋・・・＋（CR_Ｎ×EQ_Ｎ）　・・・（２）

　推定ゲイン増幅量G_ESTの算出に用いられる重み係数CR_k（但し、１≦ｋ≦Ｎ）は、音声信号（モデル音楽信号）の周波数帯域Ｆ_ｋのゲインを１ｄＢだけ増幅させたときに変化する、音声信号全体のエネルギの量、つまり音声信号全体のゲイン増幅量を示している。

　したがって、重み係数CR_kが乗算されたゲイン設定値EQ_ｋは、ゲイン設定値EQ_ｋにより周波数帯域Ｆ_ｋのゲインを増幅させたときに生じる音声信号全体のゲイン増幅量となる。
推定ゲイン増幅量G_ESTは、周波数帯域ごとに求めた、周波数帯域のゲイン調整により生じる音声信号全体のゲイン増幅量の総和であるから、イコライザ処理により増幅される音声信号全体のゲインの増幅量の推定値ということができる。

　なお、各周波数帯域Ｆ_ｋの重み係数CR_kは、上述したように、例えばモデル音楽信号の各周波数のエネルギ分布の統計量から推定により算出される。

　具体的には、例えば図４の左側に示すエネルギ分布のモデル音楽信号が予め用意されているとする。なお、図４において、横軸は周波数を示しており、縦軸は振幅（エネルギ）を示している。

　図４において曲線ＭＤ１１は、モデル音楽信号の各周波数の振幅を示している。この曲線ＭＤ１１から、モデル音楽信号、つまり一般的な音楽信号には、低い周波数の成分がより多く含まれ、高い周波数の成分はあまり含まれていないことが分かる。したがって、同じゲイン設定値で各周波数のゲインを増幅させても、モデル音楽信号全体のエネルギの増幅に対する寄与率は、高い周波数よりも低い周波数のほうが高いことが分かる。そこで、本技術では、モデル音楽信号全体のエネルギの増幅に対する寄与率がより高い周波数帯域Ｆ_ｋの重みがより大きくなるように、重み係数CR_kが算出される。

　例えば、まず矢印Ｃ１乃至矢印ＣＮに示すように、モデル音楽信号の周波数帯域Ｆ_１乃至Ｆ_Ｎのゲインを＋ＡｄＢだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギの増幅量であるエネルギ変化量Ｇｋ（但し、１≦ｋ≦Ｎ）が算出される。

　すなわち、エネルギ変化量Ｇｋは、モデル音楽信号の周波数帯域Ｆ_ｋのゲインを＋ＡｄＢだけ増幅させた場合におけるモデル音楽信号全体のエネルギの変化量を示している。なお、ここでいうモデル音楽信号全体のエネルギとは、例えばモデル音楽信号の各サンプルのサンプル値の二乗平均平方根（RMS(Root Mean Square)）などである。

　また、矢印ＣＡに示すように、モデル音楽信号の各周波数帯域Ｆ_１乃至Ｆ_Ｎのゲインをそれぞれ＋ＡｄＢだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギ変化量ＧＡが算出される。

　このようにしてエネルギ変化量Ｇｋとエネルギ変化量ＧＡが得られると、次式（３）の計算が行なわれ、周波数帯域Ｆ_ｋの重み係数CR_kが算出される。

　CR_k＝ＧＡ×（Ｇｋ／ＳＵＭ（Ｇ１：ＧＮ））／Ａ　　　・・・（３）

　なお、式（３）において、Ａは各周波数帯域のゲインの増幅量を示しており、ＳＵＭ（Ｇ１：ＧＮ）は、エネルギ変化量Ｇ１乃至エネルギ変化量ＧＮの総和を示している。

　したがって、周波数帯域Ｆ_ｋの重み係数CR_kは、エネルギ変化量Ｇｋを各周波数帯域のエネルギ変化量の総和で除算したものにエネルギ変化量ＧＡを乗算し、さらにその結果得られた値を増幅量Ａで除算することで得られる。

　このように、モデル音楽信号の各周波数のエネルギ分布に基づいて、周波数帯域ごとの重み係数CR_kを求めることで、イコライザ処理による処理対象の信号全体のゲイン増幅量をより高精度に予測することができる。

［音声処理装置の構成例］
　次に、以上において説明した処理を行なう音声処理装置の具体的な実施の形態について説明する。図５は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。

　図５の音声処理装置４１は、係数算出部５１、ゲイン設定値保持部５２、入力減衰量算出回路５３、推定ゲイン増幅量算出回路５４、ゲイン補正量算出回路５５、入力ゲイン減衰回路５６、等価器５７、およびゲイン補正回路５８から構成される。

　係数算出部５１は、予め記録しているモデル音楽信号に基づいて、各周波数帯域の重み係数CR_kを算出し、推定ゲイン増幅量算出回路５４に供給する。ゲイン設定値保持部５２は、ユーザの入力操作に応じて供給されたゲイン設定値を一時的に保持するとともに、ゲイン設定値を入力減衰量算出回路５３、推定ゲイン増幅量算出回路５４、および等価器５７に供給する。

　入力減衰量算出回路５３は、ゲイン設定値保持部５２から供給されたゲイン設定値に基づいて入力減衰量G_ATNを算出し、ゲイン補正量算出回路５５、および入力ゲイン減衰回路５６に供給する。推定ゲイン増幅量算出回路５４は、係数算出部５１からの重み係数と、ゲイン設定値保持部５２からのゲイン設定値とに基づいて推定ゲイン増幅量G_ESTを算出し、ゲイン補正量算出回路５５に供給する。

　ゲイン補正量算出回路５５は、推定ゲイン増幅量算出回路５４からの推定ゲイン増幅量と、入力減衰量算出回路５３からの入力減衰量とに基づいてゲイン補正量G_CMPを算出し、ゲイン補正回路５８に供給する。

　入力ゲイン減衰回路５６は、入力減衰量算出回路５３から供給された入力減衰量に基づいて、供給された入力信号のゲインを減衰させ、等価器５７に供給する。等価器５７は、ゲイン設定値保持部５２から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路５６からの入力信号に対してイコライザ処理を施し、ゲイン補正回路５８に供給する。

　ゲイン補正回路５８は、ゲイン補正量算出回路５５から供給されたゲイン補正量に基づいて、等価器５７から供給された入力信号に対するゲイン補正を行い、その結果得られた出力信号を出力する。ゲイン補正回路５８は、線形増幅回路７１と非線形増幅回路７２を備えている。

　線形増幅回路７１は、等価器５７から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路７２に供給する。非線形増幅回路７２は、線形増幅回路７１から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。

［音声処理の説明］
　このような音声処理装置４１に処理対象となる入力信号が供給され、入力信号に対するゲイン調整が指示されると、音声処理装置４１は音声処理を行って、入力信号を出力信号に変換し、出力する。以下、図６のフローチャートを参照して、音声処理装置４１による音声処理について説明する。

　ステップＳ１１において、係数算出部５１は、予め記録しているモデル音楽信号に基づいて上述した式（３）の計算を行い、各周波数帯域の重み係数CR_kを算出するとともに、得られた重み係数を推定ゲイン増幅量算出回路５４に供給する。

　なお、重み係数が予め算出されて係数算出部５１に記録されておくようにしてもよい。そのような場合、係数算出部５１は、記録している重み係数を読み出して、推定ゲイン増幅量算出回路５４に供給する。

　ステップＳ１２において、入力減衰量算出回路５３は、ゲイン設定値保持部５２から供給されたゲイン設定値に基づいて上述した式（１）を計算することで入力減衰量G_ATNを算出し、ゲイン補正量算出回路５５、および入力ゲイン減衰回路５６に供給する。

　ステップＳ１３において、推定ゲイン増幅量算出回路５４は、係数算出部５１からの重み係数CR_kと、ゲイン設定値保持部５２からのゲイン設定値EQ_ｋとに基づいて上述した式（２）を計算し、推定ゲイン増幅量G_ESTを算出する。推定ゲイン増幅量算出回路５４は、算出した推定ゲイン増幅量をゲイン補正量算出回路５５に供給する。

　ステップＳ１４において、ゲイン補正量算出回路５５は、推定ゲイン増幅量算出回路５４からの推定ゲイン増幅量と、入力減衰量算出回路５３からの入力減衰量との差分を求めることでゲイン補正量G_CMPを算出し、ゲイン補正回路５８に供給する。より詳細には、推定ゲイン増幅量の絶対値と入力減衰量の絶対値との差分がゲイン補正量とされる。

　以上の処理により、ユーザが指定したゲイン設定値に対して、適切な入力減衰量G_ATN、推定ゲイン増幅量G_EST、およびゲイン補正量G_CMPが算出される。

　ステップＳ１５において、音声処理装置４１は、処理を終了するか否かを判定する。例えば、供給された入力信号の全てのサンプルについてイコライザ処理を行い、出力信号の全てのサンプルが生成された場合、処理を終了すると判定される。すなわち、入力信号の全サンプルに対する処理が行われた場合、処理を終了すると判定される。

　ステップＳ１５において、まだ処理を終了しないと判定された場合、ステップＳ１６において、音声処理装置４１は、ユーザによりゲイン設定値が変更されたか否かを判定する。例えば、ゲイン設定値保持部５２に新たなゲイン設定値が供給された場合、ゲイン設定値が変更されたと判定される。

　ステップＳ１６において、ゲイン設定値が変更されたと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、新たに指定されたゲイン設定値に対して、適切な入力減衰量、推定ゲイン増幅量、およびゲイン補正量が算出される。

　これに対して、ステップＳ１６において、ゲイン設定値が変更されていないと判定された場合、処理はステップＳ１７に進む。

　ステップＳ１７において、入力ゲイン減衰回路５６は、入力減衰量算出回路５３から供給された入力減衰量G_ATNだけ、供給された入力信号のゲインを減衰させ、等価器５７に供給する。

　ステップＳ１８において、等価器５７は、ゲイン設定値保持部５２から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路５６からの入力信号に対するイコライザ処理を行ない、イコライザ処理された入力信号を線形増幅回路７１に供給する。イコライザ処理では、入力信号の各周波数帯域のゲインが、ゲイン設定値の分だけ増幅される。

　ステップＳ１９において、線形増幅回路７１は、等価器５７から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路７２に供給する。

　例えばゲイン補正回路５８は、ゲイン補正量算出回路５５から供給されたゲイン補正量G_CMPを、所定の割合で線形増幅回路７１と非線形増幅回路７２に分配する。線形増幅回路７１は、ゲイン補正量G_CMPのうちの線形増幅回路７１に対して分配された分だけ、等価器５７からの入力信号のゲインが増幅されるように、入力信号の振幅を線形に増幅させ、非線形増幅回路７２に供給する。すなわち、入力信号に対する線形振幅変換が行なわれる。

　ステップＳ２０において、非線形増幅回路７２は、線形増幅回路７１から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。

　具体的には、非線形増幅回路７２は、ゲイン補正量G_CMPのうちの非線形増幅回路７２に対して分配された分だけ、線形増幅回路７１からの入力信号のゲインが増幅されるように、入力信号の振幅を非線形に増幅させ、出力信号とする。すなわち、入力信号に対する非線形振幅変換が行なわれる。ここで例えば、ゲイン補正量G_CMPのうちの線形増幅処理に分配された補正量がαであるとすると、ゲイン補正量G_CMPから補正量αが減算されて得られる値が、非線形増幅処理に分配された補正量となる。

　入力信号に対する非線形増幅処理が行なわれると、その結果得られた出力信号は、入力信号に近い振幅まで増幅された信号となり、クリップ歪みの発生が抑制される。

　なお、入力信号に対する非線形増幅処理での増幅特性は、出力信号のクリップ歪みが生じにくくなるような増幅特性とされる。例えば、入力信号に対して実際にイコライザ処理を施したときの入力信号のゲイン増幅量が、推定ゲイン増幅量G_ESTよりも大きくなる場合には、入力信号に対して線形ゲイン増幅処理のみを行なってゲイン補正量だけゲインを増幅させると、出力信号にクリップ歪みが生じてしまう。しかしながら、線形増幅処理後、入力信号に対して非線形増幅処理を行なって３次高調波を発生させれば、クリップ歪みが低減された出力信号を得ることができる。

　このように、入力信号に対して線形増幅処理を行なってから非線形増幅処理を行い、合計してゲイン補正量G_CMPだけ入力信号のゲインが増幅されるようにすることで、出力信号の波形の歪みを抑制し、高音質な音声を得ることができる。

　なお、ここでは入力信号に対して、線形増幅処理と非線形増幅処理の両方の処理が施されると説明したが、何れか一方の処理のみが入力信号に対して行なわれるようにしてもよい。また、線形増幅処理と非線形増幅処理に対するゲイン補正量G_CMPの分配は、予め定められた比で行なわれるようにしてもよいし、入力信号の特性等に基づいてゲイン補正量の分配比が定められるようにしてもよい。

　ステップＳ２０において出力信号が生成されると、処理はステップＳ１５に戻り、上述した処理が繰り返される。すなわち、入力信号の未処理のサンプルに対する処理が行われ、出力信号が生成される。

　また、入力信号の全てのサンプルに対する処理が行なわれ、ステップＳ１５において処理を終了すると判定された場合、音声処理は終了する。

　以上のように、音声処理装置４１は、予め用意されたモデル音楽信号と、ユーザにより指定されたゲイン設定値とから、入力減衰量G_ATNやゲイン補正量G_CMPを算出する。そして、音声処理装置４１は、入力信号を入力減衰量だけ減衰させてからイコライザ処理を行い、その結果得られた信号に対して線形増幅処理と非線形増幅処理を行なうことで、ゲイン補正量だけ信号のゲインを増幅させて出力信号とする。

　このように入力減衰量だけ減衰させてからイコライザ処理を行い、イコライザ処理後にゲイン補正量だけ入力信号を増幅させることで、クリップ歪みの発生を防止するとともに、入力信号に近い振幅の出力信号を得ることができ、音質の劣化を抑制することができる。

　特に、音声処理装置４１では、推定ゲイン増幅量G_ESTはゲイン設定値により一意に求められ、ユーザによりゲイン設定値が変更されない限り、１つの楽曲を通して同じ入力減衰量G_ATNとゲイン補正量G_CMPが固定的に用いられる。換言すれば、音声処理装置４１では、従来のオートゲイン制御処理のように、入力信号の振幅の変動に依存した強制的な振幅補正は行なわれない。したがって、出力信号に不自然な振幅変動が生じることがなく、ユーザに聴感上の不快感を与えてしまうこともない。

　なお、重み係数の算出に用いるモデル音楽信号の各周波数のエネルギ分布は、複数の楽曲の音楽信号に基づいて求められてもよい。そのような場合、例えば、それらの音楽信号の各周波数のエネルギの代表値が求められ、得られた各周波数の代表値の分布がモデル音楽信号の各周波数のエネルギ分布とされる。

　また、各楽曲について、楽曲の音楽信号の周波数のエネルギ分布を求め、そのようにして得られたエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、処理対象となる入力信号自体のエネルギ分布を用いるので、上述した代表値を求める場合と比べて、より適正な推定ゲイン増幅量G_ESTを得ることができるようになる。これにより、後段のゲイン補正処理において、推定ゲイン増幅量G_ESTの不足による出力ゲインの低下や、非線形増幅処理による出力信号の波形の変形を低減することができ、音質を向上させることができる。

　さらに、単一の楽曲内でも、音楽信号の振幅が大きくクリップが生じ易い区間がある場合には、そのような区間を抽出し、抽出した区間の信号の各周波数のエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、単一の楽曲全体の信号を用いる場合と比べて、クリップ歪みが発生する可能性が高い区間に対して、より適正な推定ゲイン増幅量を求めることができるようになる。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インターフェース２０５が接続されている。入出力インターフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記録部２０８、ネットワークインターフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記録部２０８に記録されているプログラムを、入出力インターフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

　そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インターフェース２０５を介して、記録部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記録部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記録部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　さらに、本技術は、以下の構成とすることも可能である。

［１］
　イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
　前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
　前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
　前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
　前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
　前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
　を備える音声処理装置。
［２］
　予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
　［１］に記載の音声処理装置。
［３］
　前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
　［２］に記載の音声処理装置。
［４］
　前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
　［１］乃至［３］の何れかに記載の音声処理装置。
［５］
　前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
　［１］乃至［４］の何れかに記載の音声処理装置。
［６］
　前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
　［１］乃至［５］の何れかに記載の音声処理装置。
［７］
　前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
　［６］に記載の音声処理装置。

　４１　音声処理装置，　５１　係数算出部，　５３　入力減衰量算出回路，　５４　推定ゲイン増幅量算出回路，　５５　ゲイン補正量算出回路，　５６　入力ゲイン減衰回路，　５７　等価器，　７１　線形増幅回路，　７２　非線形増幅回路

Claims

　イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
　前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
　前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
　前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
　前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
　前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
　を備える音声処理装置。
　予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
　請求項１に記載の音声処理装置。
　前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
　請求項２に記載の音声処理装置。
　前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
　請求項３に記載の音声処理装置。
　前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
　請求項４に記載の音声処理装置。
　前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
　請求項５に記載の音声処理装置。
　前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
　請求項６に記載の音声処理装置。
　イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
　前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
　前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
　前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
　前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
　前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
　を含む音声処理方法。
　イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
　前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
　前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
　前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
　前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
　前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
　を含む処理をコンピュータに実行させるプログラム。