JPWO2010044439A1

JPWO2010044439A1 - 音声信号調整装置及び音声信号調整方法

Info

Publication number: JPWO2010044439A1
Application number: JP2010533920A
Authority: JP
Inventors: 成文後田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-10-17
Filing date: 2009-10-15
Publication date: 2012-03-15
Anticipated expiration: 2029-10-15
Also published as: WO2010044439A1; EP2352225A1; CN102257728A; CN102257728B; JP5236006B2; US20110255712A1; US8787595B2

Abstract

人間の実聴感レベルに即した音量制御を行い制御精度を向上させる。図１に示すように、音声ゲイン調整装置１０は、調整する音声信号を取得する音声信号入力部１２と、取得した音声信号に対して長期ゲインの調整を反映させる長期ゲイン反映部１４と、長期ゲイン反映部１４からの音声信号を３つの周波数帯域に分割する周波数分離部２０と、分割された周波数帯域毎に短期ゲインの調整を反映させる短期ゲイン反映部３０と、短期ゲイン反映部３０から出力される音声信号を合成する合成部４０と、合成された音声信号を出力する音声信号出力部４２とを備える。

Description

本発明は、音声信号調整装置及び音声信号調整方法に関し、特に、自動利得調整により音声信号を調整する音声信号調整装置及び音声信号調整方法に関する。

近年、デジタル放送・ＶＯＤ（Video On Demand）放送・ＤＶＤ（Digital Versatile Disk）・Ｂｌｕ−ｒａｙ（登録商標）ディスク等、世の中には様々なメディアソースがあり、ユーザはそれらのソースを自由に切り換えて楽しむことができる。しかしながら、ソース毎に製作者や放送業者が異なるため、音声の収録レベルやダイナミックレンジが異なってしまうことが多く、番組の切り替わり時やソースの切換時に意図しない大きな音が出力されたり、あるいは小さい音になり聴き取り辛くなったりすることがある。これによりユーザはボリュームをその都度操作して聞き易い音量に揃えなくてはならないという不便さがあった。

上述のようなメディアソース間の音量やダイナミックレンジの違いを調整する技術がいくつか提案されている。例えば、帯域分割された音声信号ごとに利得調整を行い、再び加算して信号を出力することにより、信号レベルを平均化するという技術がある（特許文献１参照）。この技術を用いることで、高周波成分が欠落して音声が不明瞭にならないようにしている。

特開２００３−２９９１８１号公報

ところで、特許文献１に開示の技術では、入力信号の電圧値に対して利得を変化させるため、人間の実聴感レベルに即した制御になっておらず制御精度の点で改善が必要であった。また、全体的にレベルが高い（低い）場合には入力信号の変化に対して利得の変化量が大きくなるため、出力信号のふらつきが大きくなってしまうという課題があった。

本発明の目的は、人間の実聴感レベルに即した音量制御を行い制御精度を向上させる技術を提供することにある。

本発明に係る装置は、音声信号調整装置に関する。この装置は、入力信号の振幅を相対的に長期的に制御する長期ゲイン調整手段と、前記入力信号の前記振幅を相対的に短期的に制御する短期ゲイン調整手段と、を備える。
また、前記長期ゲイン調整手段は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させてもよい。
また、前記短期ゲイン調整手段は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させてもよい。
また、前記長期ゲイン調整手段は、当該音声信号調整装置の信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御してもよい。
また、前記短期ゲイン調整手段は、当該音声信号調整装置の信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御してもよい。
また、前記長期ゲイン調整手段及び前記短期ゲイン調整手段は、一定時間バッファされた前記入力信号をもとに振幅の制御を行ってもよい。
また、前記一定時間バッファされた前記入力信号は、先読みされた信号であってもよい。
また、前記長期ゲイン調整手段は、前回の長期ゲインの制御後の入力信号を反映させてフィードバック制御してもよい。
また、前記短期ゲイン調整手段は、前記長期ゲイン調整手段の長期ゲインの制御後の信号を反映させて制御してもよい。
また、前記短期ゲイン調整手段は、前記入力信号を音声帯域と前記音声帯域以外の帯域とに分けて前記入力信号の振幅を制御してもよい。
また、前記短期ゲイン調整手段は、短期ゲインの振幅の制御においてアタック時間を入力信号の立ち上がり度合いに応じて変更してもよい。
また、前記短期ゲイン調整手段は、前記入力信号の前記立ち上がり度合いを、前記入力信号のラウドネスレベルと、前記ラウドネスレベルの標準偏差及び平均値とをもとに算出してもよい。
また、前記短期ゲイン調整手段は、短期ゲインの振幅の制御において、前記短期ゲインの増幅量を前記入力信号のラウドネスレベルの立ち上がり度合いに応じて変更してもよい。
また、前記短期ゲイン調整手段は、前記入力信号のターゲットゲインを算出するたびに、短期ゲインの変化幅を算出してもよい。
また、前記長期ゲイン調整手段は、前記短期ゲイン調整手段における短期ゲインの制御変化に応じて長期ゲインを調整してもよい。
また、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、前記比較手段で算出された差分レベルに応じて、前記入力信号に施す利得調整処理の利得の調整量を算出する利得調整量算出手段と、入力された前記入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、を備えてもよい。
また、前記入力信号のソースまたは前記入力信号が含まれるコンテンツのジャンルを特定するソース・コンテンツ特定手段を備え、前記利得調整量算出手段は、前記ソース・コンテンツ特定手段において特定された前記ソース又は前記ジャンルに応じて、前記利得の調整量の算出手順を設定可能であってもよい。
本発明のある別の態様は、音声信号調整方法に関する。この方法は、入力信号の振幅を相対的に長期的に制御する長期ゲイン調整工程と、前記入力信号の前記振幅を相対的に短期的に制御する短期ゲイン調整工程と、を備える。
また、前記長期ゲイン調整工程は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させてもよい。
また、前記短期ゲイン調整工程は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させてもよい。
また、前記長期ゲイン調整工程は、当該音声信号調整方法により制御された信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御してもよい。
また、前記短期ゲイン調整工程は、当該音声信号調整方法により制御された信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御してもよい。
また、前記長期ゲイン調整工程及び前記短期ゲイン調整工程は、一定時間バッファされた前記入力信号をもとに振幅の制御を行ってもよい。
また、前記一定時間バッファされた前記入力信号は、先読みされた信号であってもよい。
また、前記長期ゲイン調整工程は、前回の長期ゲインの制御後の入力信号を反映させてフィードバック制御してもよい。
また、前記短期ゲイン調整工程は、前記長期ゲイン調整工程の長期ゲインの制御後の信号を反映させて制御してもよい。
また、前記短期ゲイン調整工程は、前記入力信号を音声帯域と前記音声帯域以外の帯域とに分けて前記入力信号の振幅を制御してもよい。
また、前記短期ゲイン調整工程は、短期ゲインの振幅の制御においてアタック時間を入力信号の立ち上がり度合いに応じて変更してもよい。
また、前記短期ゲイン調整工程は、前記入力信号の前記立ち上がり度合いを、前記入力信号のラウドネスレベルと、前記ラウドネスレベルの標準偏差及び平均値とをもとに算出してもよい。
また、前記短期ゲイン調整工程は、短期ゲインの振幅の制御において、前記短期ゲインの増幅量を前記入力信号のラウドネスレベルの立ち上がり度合いに応じて変更してもよい。
また、前記短期ゲイン調整工程は、前記入力信号のターゲットゲインを算出するたびに、短期ゲインの変化幅を算出してもよい。
また、前記長期ゲイン調整工程は、前記短期ゲイン調整手段における短期ゲインの制御変化に応じて長期ゲインを調整してもよい。
本発明の別の態様は音声信号調整装置に関する。この音声信号調整装置は、入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から圧縮率を算出し、算出された圧縮率に従って、利得の調整量を算出する利得調整量算出手段と、入力された前記入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、を備える。
本発明の別の態様は音声信号調整装置に関する。この音声信号調整装置は、入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から利得の調整量算出用の閾値を算出し、算出された閾値に従って、利得の調整量を算出する利得調整量算出手段と、前記入力された入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、を備える。
本発明の別の態様は音声信号調整装置に関する。この音声信号調整装置は、入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から利得の調整量算出用の閾値と圧縮率を算出し、算出された閾値及び圧縮率に従って、利得の調整量を算出する利得調整量算出手段と、前記入力された入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、を備える。

本発明によれば、人間の実聴感レベルに即した音量制御を行い制御精度を向上させることができる。

第１の実施形態に係る、音声ゲイン調整装置の機能ブロック図である。第１の実施形態に係る、長期ゲイン算出部の機能ブロック図である。第１の実施形態に係る、音声ゲイン調整装置の短期ゲイン調整処理の概略工程を示すフローチャートである。第１の実施形態に係る、短期ゲイン算出部の機能ブロック図である。第１の実施形態に係る、短期ゲイン算出部の抑圧部における処理を示したフローチャートである。第１の実施形態に係る、短期ゲイン算出部の増幅部における処理を示したフローチャートである。第１の実施形態に係る、音声ゲイン調整装置による自動利得調整処理の実験結果を示したグラフである。第１の実施形態の変形例に係る、音声ゲイン調整装置の長期ゲイン算出部の機能ブロック図である。第１の実施形態の変形例に係る、音声ゲイン調整装置の短期ゲイン算出部の機能ブロック図である。第３の実施形態に係る、音声ゲイン調整装置の概略構成を示す機能ブロック図である。第３の実施形態に係る、算出手順１の（ａ）におけるレベル変化度と圧縮率の関係を示す図である。第３の実施形態に係る、算出手順１の（ｂ）におけるレベル変化度と圧縮率の関係を示す図である。第３の実施形態に係る、算出手順１の（ｃ）におけるレベル変化度と圧縮率の関係を示す図である。第３の実施形態に係る、算出手順２の（ａ）におけるレベル変化度と閾値の関係を示す図である。第３の実施形態に係る、算出手順２の（ｂ）におけるレベル変化度と閾値の関係を示す図である。第３の実施形態に係る、算出手順２の（ｃ）におけるレベル変化度と閾値の関係を示す図である。第３の実施形態に係る、算出手順３における入力レベルと出力レベルの関係の一例を示す図である。第３の実施形態に係る、算出手順３における入力レベルと出力レベルの関係の一例を示す図である。第３の実施形態に係る、算出手順３における入力レベルと出力レベルの関係の一例を示す図である。第４の実施形態に係る、音声ゲイン調整装置の概略構成を示す機能ブロック図である。第４の実施形態の変形例に係る、音声ゲイン調整装置の抑圧ターゲットゲイン算出部の構成を示す機能ブロック図である。

つぎに、本発明を実施するための形態（以下、単に「実施形態」という）を、図面を参照して具体的に説明する。

＜第１の実施形態＞
まず概要について説明する。以下に説明する音声ゲイン調整装置１０は、入力信号に対して、長期的なゲイン調整を行い、その出力信号を帯域分割フィルタにより帯域分割し、分割された帯域毎に出力信号に対して短期的なゲイン調整を行い、最後に各出力信号を合成して最終出力とする。

長期ゲインは、長期ゲイン処理後の一定区間の信号を人間の聴感上のレベル（以下、「ラウドネスレベル」という）に変換し、設定されている閾値（抑圧閾値や増幅閾値）と比較することにより算出する。このラウドネスレベルは、例えばＩＴＵ−Ｒ（International Telecommunication Union Radiocommunications Sector）標準規格に規定されているラウドネス曲線を反映させたレベルを用いることができる。より具体的には、ラウドネス曲線で示される特性を反転させてラウドネスレベルが算出される。抑圧閾値とは、信号抑圧処理がなされるときに参照する閾値である。また、増幅閾値とは、信号増幅処理がなされるときに参照される閾値である。また、上記二つの閾値の他に、背景ノイズ等を増幅することを防ぐために、下限閾値が設定される。

そして短期ゲインは、バンドパスフィルタ（ＢＰＦ）を通過した一定区間の信号をラウドネスレベルに変換し、長期ゲイン通過後のラウドネスレベルとあわせて、それぞれ設定されている閾値と比較し、短期ゲインのターゲット値を算出する。また、同時にターゲット値に変化させるアタック時間及びリリース時間を算出する。算出されたターゲット値、アタック時間及びリリース時間をもとに、短期ゲインを変化させる。この様な機能によって、ユーザが聞きやすい音に調整することができ、その結果、ユーザのボリューム操作負担を軽減することができる。なお、本実施形態において用いる「長期」及び「短期」とは、相対的な期間を意味しており、「長期」は、「短期」の３０倍以上の期間でかつ適応的に更新される期間を想定している。このような処理によって、コンテンツ（ソース）の製作者が意図するダイナミックレンジを確保することができる。

図１は、本実施形態に係る音声ゲイン調整装置１０の概略構成を示す機能ブロック図であり、テレビやオーディオ機器に搭載される。本実施形態の構成要素は、例えば、ＤＳＰ（Digital Signal Processor）等のＬＳＩ（大規模集積回路）やメモリ、任意のプログラムにより実現される。図示のように、音声ゲイン調整装置１０は、調整する音声信号を取得する音声信号入力部１２と、取得した音声信号に対して長期ゲインの調整を反映させる長期ゲイン反映部１４と、長期ゲイン反映部１４からの音声信号を３つの周波数帯域に分割する周波数分離部２０と、分割された周波数帯域毎に短期ゲインの調整を反映させる短期ゲイン反映部３０と、短期ゲイン反映部３０から出力される音声信号を合成する合成部４０と、合成された音声信号を出力する音声信号出力部４２とを備える。

さらに、音声ゲイン調整装置１０は、長期ゲイン反映部１４で反映させる長期ゲインを算出する長期ゲイン算出部５０と、短期ゲイン反映部３０で調整する短期ゲインを算出する短期ゲイン算出部６０とを備える。本実施形態では、長期ゲイン算出部５０における算出結果は、長期ゲイン反映部１４とともに短期ゲイン算出部６０における短期ゲインの算出にも利用される。

周波数分離部２０は、ＬＰＦ２２と、ＨＰＦ２４と、ＢＰＦ２６とを備えている。また、短期ゲイン反映部３０は、低周波反映部３２と、高周波反映部３４と、中周波反映部３６とを備えている。

本実施形態では、ＬＰＦ２２は、１００Ｈｚ未満の周波数帯域の信号を低周波反映部３２へ出力する。ＨＰＦ２４は、８０００Ｈｚより大きい周波数帯域の信号を高周波反映部３４に出力する。ＢＰＦ２６は１００Ｈｚ〜８０００Ｈｚの周波数帯域の信号を中周波反映部３６へ出力するとともに、後述する短期ゲイン算出部６０の増幅部７０へ出力する。そして、低周波反映部３２、高周波反映部３４及び中周波反映部３６は、短期ゲイン更新部９０で算出された短期ゲインの変化量をそれぞれＬＰＦ２２、ＨＰＦ２４及びＢＰＦ２６から取得した信号に反映させ、合成部４０に出力する。

なお、詳細は後述するが、中周波反映部３６は短期ゲインの変化量を短期ゲイン更新部９０の第１の更新部９２から取得し、低周波反映部３２及び高周波反映部３４は、短期ゲイン更新部９０の第２の更新部９４から短期ゲインの変化量を取得する。また、音声信号入力部１２に入力される信号のラウドネスレベルを「ラウドネスレベル１」、長期ゲイン反映部１４で長期ゲインの調整がなされた信号のラウドネスレベルを「ラウドネスレベル２」、さらに、中周波反映部３６でフィルタリングされた後の信号のラウドネスレベルを「ラウドネスレベル３」とする。

図２は、本実施形態に係る長期ゲイン算出部５０の機能ブロック図である。図示のように、長期ゲイン算出部５０は、音声信号記憶部５２と、ラウドネスレベル変換部５４と、レベル比較カウント部５６と、長期ゲイン更新部５８とを備えている。

音声信号記憶部５２は、長期ゲイン反映部１４の出力を取得して、所定時間だけ１フレームとしてバッファに記憶する。ここでは、所定時間として、例えば、１０ｍｓを想定している。

ラウドネスレベル変換部５４は、音声信号記憶部５２から１フレーム毎の音声信号を取得してラウドネスレベル２を算出する。ラウドネスレベル変換部５４で算出したラウドネスレベル２は、レベル比較カウント部５６へ出力されるとともに、後述する抑圧部８０の短期ゲイン算出部６０に出力される。

レベル比較カウント部５６は、上述したように抑圧閾値と増幅閾値に対して入力レベルが長期的にどのあたりに位置するかを判断する。具体的には、レベル比較カウント部５６は、長期ゲイン制御用のカウンタ機能を備えており、カウンタ値の初期値を「０」、長期ゲインの所期値を「０ｄＢ」としている。そして、以下の（１）〜（４）の処理がフレーム単位で実行される。
（１）長期ゲイン反映後のラウドネスレベル２が抑圧閾値を越えたらカウンタ値を「１」だけ増やす。
（２）長期ゲイン反映後のラウドネスレベル２が増幅閾値を下回ったらカウンタ値を「１」だけ減らす。
（３）上記（１）（２）のいずれでも無い場合、長期ゲインを初期値に戻す方向にカウンタ値を「１」だけ増減させる。
（４）上記（１）〜（３）による処理の結果、カウンタ値が予め定められた数値に達すると、長期ゲインは１ステップ大きく又は小さく更新され、カウンタ値は初期値「０」にリセットされる。ここでは、カウンタ値が「所定の上限閾値」を越えると、長期ゲインが「０．２ｄＢ」減少される。また、カウンタ値が「所定の下限閾値」を下回ると長期ゲインが「０．２ｄＢ」増加される。なお、長期ゲインは、±４．０の範囲に限定し、調整幅が過度にならないように制御されている。そして、長期ゲイン更新部５８は、長期ゲインの値を長期ゲイン反映部１４へ通知する。

つぎに短期ゲインの調整処理について説明する。図３は、短期ゲイン調整処理の概略工程を示すフローチャートである。短期ゲインの調整処理では、ラウドネスレベル２及びラウドネスレベル３を用いて制御量を決定する。なお、図３及び後述の図５、図６の表記において、信号、閾値及びゲイン等を以下のように表記している。
ラウドネスレベル１〜３：Ｌ１〜Ｌ３
抑圧閾値：Ｔｈ＿ｃｍｐ
増幅閾値：Ｔｈ＿ａｍｐ
ゲイン：Ｇ
ターゲットゲイン：Ｇｔ
仮ターゲットゲイン：Ｇｄ
まず、ラウドネスレベル２が抑圧閾値と比較され（Ｓ１０）、ラウドネスレベル２が抑圧閾値を上回るときに（Ｓ１０のＹ）、抑圧処理がなされる（Ｓ２０）。また、ラウドネスレベル２が抑圧閾値を上回らなかったときには（Ｓ１０のＮ）、ラウドネスレベル３が増幅閾値と比較される（Ｓ３０）。ラウドネスレベル３が増幅閾値以下である場合（Ｓ３０のＮ）、増幅処理がなされる（Ｓ４０）。またラウドネスレベル３が増幅閾値より大きい場合（Ｓ３０のＹ）、収束処理がなされる（Ｓ５０）。収束処理とはゲインが「１」に近づくように行う処理である。

詳細な処理については図５及び図６で説明するが、このようなフローの処理を実行することで、入力レベルに対して短期的に制御する機能によって、コンテンツや番組の切り替わり時や、シーンの切り替わり時、シーンの中の爆発音があった時等に、急に大音量に変化した場合に音量の変化を抑制する。また、音声帯域（ＢＰＦ２６でろ波されて出力される周波数帯域）のレベルが小さい場合には、その帯域を持ち上げることで会話を聞き取りやすくする。短期ゲインは、長期ゲインと比較して素早いゲイン調整が必要であるので、聴感の自然性に大きな影響を及ぼす制御がなされる。聴取者がふらつきを感じやすいパターンとして、音声信号が定常状態にあるときにゲインが変化してしまう状況が挙げられる。本実施形態では、音声信号の定常状態を分析することで、定常状態では、急激にゲインを変化させないように制御される。

図４は、短期ゲイン算出部６０を詳細に示した機能ブロック図である。短期ゲイン算出部６０は、主に人の会話を聞き取りやすくゲインを調整するために調整量を決定する増幅部７０と、全体の信号レベルを抑圧して急激に大音量になるような場合にゲインを調整するために調整量を決定する抑圧部８０と、決定された調整量を信号に反映させる短期ゲイン更新部９０とを備えている。短期ゲイン更新部９０は、増幅部７０と抑圧部８０の処理結果を中周波反映部３６に反映させる第１の更新部９２と、抑圧部８０の処理結果を低周波反映部３２と高周波反映部３４に反映させる第２の更新部９４とを備える。

抑圧部８０は、長期ゲイン調整部８１と、レベル・閾値比較部８２と、抑圧ターゲットゲイン算出部８３と、抑圧ゲイン変化幅算出部８４と、ラウドネスレベル記憶部８５と、平均レベル算出部８６と、レベル標準偏差算出部８７と、レベル立ち上がり検出部８８とを備えている。

図５は、主に抑圧部８０における処理を示したフローチャートである。抑圧部８０による抑圧処理をこのフローチャートで説明し、つづいて、各工程に対応する構成要素について説明する。

この抑圧処理では、ゲインが所定値、ここでは「０ｄＢ」を上回っているか否かを判断する（Ｓ２０１）。ゲインが「０ｄＢ」以下の場合（Ｓ２０１のＹ）、増幅中でないと判断し、通常処理として、予め設定されているアタック時間やリリース時間に基づき現在のゲインと抑圧ターゲットゲインとから１サンプル毎のゲインの変化幅が算出される（Ｓ２０２）。

ゲインが「０ｄＢ」を上回っている場合（Ｓ２０１のＮ）、ゲインが「所定の閾値Ｔｈ＿ｇ」を上回るか否かが判断される（Ｓ２０３）。現在のゲインが「所定の閾値Ｔｈ＿ｇ」を上回る場合には（Ｓ２０３のＹ）、過剰増幅がなされていると見なされ、増幅ゲイン上限値が現在のゲインに更新される。ただし、増幅中に素早くゲインを下げると不自然な聴感になってしまう虞があるため、以下の条件（Ｓ２０４）を満たす場合にのみ素早い抑制処理がなされる。具体的には、以下の（１）〜（３）の条件（条件Ａ）を同時に満たす場合、または（４）の条件（条件Ｂ）を満たす場合に（Ｓ２０４のＹ）、上述のＳ２０２で示した通常処理により、素早い抑圧処理がなされる。ここでは例えばアタック時間が１．０ｍｓに設定される。
条件Ａ：
（１）抑圧閾値を１０ｄＢ以上オーバーしている。
（２）現在のラウドネスレベル２が、その直前のラウドネスレベル２のピーク値よりも第１所定値（例えば数ｄＢ程度）以上大きい。
（３）平均値と現在のラウドネスレベル２の差が、標準偏差σの所定倍数（ｍ×σ）よりも第２所定値（例えば数ｄＢ程度）以上越えている。
条件Ｂ：
（４）平均値と現在のラウドネスレベル２の差が、標準偏差σの所定倍数（ｍ×σ）よりも、第２所定値よりも大きな第３所定値以上越えている。
なお、条件Ａまたは条件Ｂを満たしている場合において、さらに、ラウドネスレベル１が抑圧閾値を越えているか否かのレベル・閾値比較処理がなされ、越えていると判断されると、増幅閾値と現在のラウドネスレベルの差分から抑圧ターゲットゲインが再算出される。

Ｓ２０３のステップでゲインが「所定の閾値Ｔｈ＿ｇ」以下である場合（Ｓ２０３のＮ）またはＳ２０４のステップで条件Ａまたは条件Ｂを満たさない場合（Ｓ２０４のＮ）、通常処理よりも緩やかな速さの抑制処理が設定される（Ｓ２０５）。ここでは例えばアタック時間が１００ｍｓに設定される。

つぎに、上記の抑圧処理を実行するための抑圧部８０の構成について説明する。
まず、ラウドネスレベル記憶部８５は、ラウドネスレベル変換部５４から取得したラウドネスレベル２を一定数記憶する。ここでは、例えば４０個（５００ｍｓ）のラウドネスレベル２が記憶される。

そして、平均レベル算出部８６は、ラウドネスレベル記憶部８５に記憶されているラウドネスレベル２の平均値を算出する。

つづいて、レベル標準偏差算出部８７が、ラウドネスレベル記憶部８５に記憶されているラウドネスレベル２と、平均レベル算出部８６で算出されたラウドネスの平均値から標準偏差σを算出する。

レベル立ち上がり検出部８８は、ラウドネスレベル２の立ち上がり度合いを分析する。具体的には、レベル立ち上がり検出部８８は、上述の条件Ａや条件Ｂを満たすか否かを判断する。

長期ゲイン調整部８１は、上述した長期ゲイン算出部５０の長期ゲイン更新部５８から長期ゲインの値を取得し、その逆特性をラウドネスレベル変換部５４から取得したラウドネスレベルに対して反映させ、オリジナルの信号のラウドネスレベル１を算出し、レベル・閾値比較部８２に出力する。

レベル・閾値比較部８２は、ラウドネスレベル変換部５４から取得したラウドネスレベル２と長期ゲイン調整部８１から取得したラウドネスレベル１とを比較する上述のレベル・閾値比較処理を実行する。

そして抑圧ターゲットゲイン算出部８３は、上述したように、レベル・閾値比較部８２のレベル・閾値比較処理の結果を受けて必要に応じて、抑圧閾値と現在のラウドネスレベルの差分から抑圧ターゲットゲインを再算出する。

抑圧ゲイン変化幅算出部８４は、抑圧ターゲットゲイン算出部８３やレベル立ち上がり検出部８８の処理の結果に基づいて、現在のゲインと抑圧ターゲットゲインとの差分から１サンプル毎のゲイン変化量を算出し、短期ゲイン更新部９０に通知する。

つぎにＳ４０の増幅処理及び増幅部７０に関して説明する。増幅部７０は、音声信号記憶部７１と、ラウドネスレベル変換部７２と、レベル・閾値比較部７３と、レベル立ち上がり検出部７４と、増幅ターゲットゲイン算出部７５と、増幅ゲイン変化幅算出部７６とを備えている。

図６は、主に増幅部７０における処理を示したフローチャートである。このフローチャートと図４に示す増幅部７０の構成要素と増幅部７０とを対応付けて増幅処理について説明する。

音声信号記憶部７１は、ＢＰＦ２６の出力を取得して、所定時間だけ１フレームとしてバッファに記憶する。ここでは、長期ゲイン算出部５０の音声信号記憶部５２と同様に、所定時間として、例えば、１２．５ｍｓを想定している。

ラウドネスレベル変換部７２は、フレーム毎にラウドネスレベルを算出する。

レベル・閾値比較部７３は、フレーム毎に算出されたラウドネスレベルが増幅閾値と下限閾値の間にあるか否かを判断する。つまり、レベル・閾値比較部７３は、ラウドネスレベルが増幅値を下回っており、かつ、下限閾値を上回っているかを判断する。ここで下限閾値は、ノイズを無視して処理するために設定されている。

レベル立ち上がり検出部７４は、ラウドネスレベルの立ち上がり度合いを分析する（Ｓ４０１）。レベル立ち上がり検出部７４は、ＢＰＦ２６から取得した信号、つまり、人の音声の周波数帯域の信号のラウドネスレベルを分析して、下記の（１）〜（４）の条件Ｃに全て当てはまる場合に（Ｓ４０１のＹ）、増幅ターゲットゲインを設定する（Ｓ４０２、Ｓ４０３）。
条件Ｃ：
（１）現在のゲインが０．９以上である。
（２）ラウドネスレベル３が２連続で上昇している。
（３）上記（２）の連続上昇の値が所定値以上である。
（４）上記（２）連続上昇の開始値が下限閾値以上である。

増幅ターゲットゲイン算出部７５は、立ち上がり度合いを算出し（Ｓ４０２）、増幅閾値との差分を算出し（Ｓ４０３）、それらの値と増幅ゲイン上限値から増幅ターゲットゲインを決定する（Ｓ４０４）。

その後、増幅ターゲットゲイン算出部７５は、現在のゲインと増幅ターゲットゲインから、１サンプル毎のゲイン変化量を算出し短期ゲイン更新部９０に通知する（Ｓ４０５）。

Ｓ４０１のステップにおいて条件Ｃを満たさない場合（Ｓ４０１のＮ）、増幅ターゲットゲイン算出部７５は、単純に増幅閾値とラウドネスレベル３の差分から、仮ターゲットゲインを算出し（Ｓ４０６）、その仮ターゲットゲインと現在のターゲットゲインとを比較する（Ｓ４０７）。

現在のターゲットゲインより仮ターゲットゲインが小さい場合（Ｓ４０７のＮ）、増幅ターゲットゲイン算出部７５は、ターゲットゲインとして算出した仮ターゲットゲインを設定する（Ｓ４０８）。仮ターゲットゲインが現在のターゲットゲイン以上の場合（Ｓ４０７のＹ）、増幅ターゲットゲイン算出部７５は、ターゲットゲインを変更せずにそのままとする（Ｓ４０９）。

そして、短期ゲイン更新部９０の第１の更新部９２は、抑圧ターゲットゲイン又は増幅ターゲットゲインになる方向にゲインが変化するように、サンプル毎にゲインを算出する。第１の更新部９２は算出したゲインを中周波反映部３６に対して通知し、中周波反映部３６はその通知されたゲインとなるように信号のゲインを調整する。同様に、第２の更新部９４は、抑圧ターゲットゲインになる方向にゲインが変化するようにサンプル毎にゲインを算出する。第２の更新部９４は算出したゲインを低周波反映部３２及び高周波反映部３４に対して通知し、ゲインを低周波反映部３２及び高周波反映部３４はその通知されたゲインとなるように信号のゲインを調整する。

ここで、短期ゲインの算出処理について概要を説明する。ゲインの算出も、ラウドネスレベル２及びラウドネスレベル３をもとに算出される。ターゲットゲインが算出された時点で、そのときの短期ゲインが旧ゲインとして置き換えられ、さらに現ゲインが「１」倍にされる。そして現ゲインが変化されていく。したがって、短期ゲインは旧ゲインと現ゲインとの積として表される。

Ｓ２０の抑圧処理がなされた場合、つまり、ラウドネスレベル２が抑圧閾値を上回っている場合の短期ゲインの算出手順について説明する。
（１）旧ゲインと現ゲインの積が、抑圧ゲインターゲットより大きい場合は、ゲインが減少される。
（２）旧ゲインと現ゲインの積が抑圧ゲインターゲット以下である場合は、さらに、旧ゲインと現ゲインの差分とゲインの変化幅とを比較する。比較の結果、差分がゲインの変化幅以下である場合、旧ゲインと現ゲインの積を抑圧ゲインターゲットに置き換える。差分がゲインの変化幅より大きい場合、現ゲインを上記変化幅だけ増加させる。

Ｓ４０の増幅処理がなされた場合、つまり、ラウドネスレベル３が増幅閾値を上回っている場合の短期ゲインの算出手順について説明する。
（１）旧ゲインと現ゲインの積が増幅ターゲットゲイン以下の場合は、現ゲインを算出された変化幅だけ増加させる。
（２）旧ゲインと現ゲインの積が増幅ターゲットゲインより大きい場合、さらに旧ゲインと現ゲインの差分を比較する。その差分がＳ４０５の処理で算出されたゲインの変化幅以下の場合、旧ゲインと現ゲインとの積を抑圧ターゲットゲインに置き換えられる。また、前記の差分が、前記の変化幅より大きい場合、現ゲインが前記変化幅だけ減少される。

Ｓ５０の収束処理がなされるとき、旧ゲインと現ゲインとの積が「１」に近づくように現ゲインが変化される。旧ゲインと現ゲインの積が「１」より大きい場合は、現ゲインが減少される。さらに減少した後、旧ゲインと減少させた後の現ゲインとの積が「１」未満になった場合は、「１」になるように調整される。旧ゲインと現ゲインの積が「１」以下の場合は、現ゲインが増加される。増加後、旧ゲインと増加後の現ゲインの積が「１」を越えた場合には、「１」になるように調整される。

図７に上記構成及びフローによる自動利得調整処理の結果を、適用しない条件（図７（ａ））と適用した条件（図７（ｂ））について示している。図から分かるように音量レベル変化が小さくなっている。

以上、本実施形態の自動利得調整処理によると、コンテンツの製作者が意図するダイナミックレンジをある程度確保しながら、ユーザが聞きやすい音に調整することができる。その結果、ユーザのボリューム操作負担を軽減することができる。

以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素及びその組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、短期ゲイン反映部３０において、人間の声の周波数帯域の信号のみが制御されるように中周波反映部３６のみの構成としてもよい。低周波反映部３２や高周波反映部３４がある構成と比較すると、効果は低下するものの処理負荷が低減される。

さらに、短期ゲイン算出部６０の処理の結果が長期ゲイン算出部の処理に反映されてもよい。具体的には、例えば、長期ゲインが上昇方向になっているときに急にシーンが変わって、全体的なレベルが大きくなった場合には短期ゲインが大きく減少方向になるが、このとき短期ゲインの変化量がふらつきやすくなる。そこで、長期ゲインが上昇中であると判断されたときに、短期ゲインが大きく減少したら長期ゲインの減少スピードを一時的に速めてもよい。これによって、そのふらつきを少なくすることができる。また、ＢＰＦ２６及び中周波反映部３６をそれぞれさらに複数に分割してもよい。

図８及び図９に変形例に係る音声ゲイン調整装置１０の長期ゲイン算出部５０ａ及び短期ゲイン算出部６０ａの機能ブロック図を示す。上述の実施形態では、人間の聴感を反映させたラウドネス特性をもとに、自動利得調整がなされたが、本変形例では、さらに、スピーカ等の出力手段の特性が反映される。ここでは、上述の実施形態の音声ゲイン調整装置１０の構成と類似の構成で実現できるので、異なる部分についてのみ図示して説明する。

この変形例の長期ゲイン算出部５０ａは、音声信号記憶部５２とラウドネスレベル変換部５４の間に、スピーカ等の特性を反映させるための出力音圧特性適用部５３を備えている。同様に、短期ゲイン算出部６０ａの増幅部７０ａが、音声信号記憶部７１とラウドネスレベル変換部７２の間に、スピーカ等の特性を反映させるための出力音圧特性適用部７７を備えている。このように、スピーカ等の出力特性によって生じる不要な音量制御（自動利得調整処理）がなくなり、制御精度が向上する。

＜第２の実施形態＞
本実施形態では、第１の実施形態における処理を一部変更している。
まず異なる点の一つにレベル比較カウント部５６の処理にある。具体的には、まず第１の実施形態と同様に、レベル比較カウント部５６は、長期ゲイン制御用のカウンタ機能を備えており、カウンタ値の初期値を「０」、長期ゲインの所期値を「０ｄＢ」としている。そして、第１の実施形態と異なり以下の（１）〜（４）の処理が実行される。なお異なる処理は（３）の処理にある。
（１）長期ゲイン反映後のラウドネスレベル２が抑圧閾値を越えたらカウンタ値を「１」だけ増やす。
（２）長期ゲイン反映後のラウドネスレベル２が増幅閾値を下回ったらカウンタ値を「１」だけ減らす。
（３）長期ゲイン反映後のラウドネスレベル２が下限閾値を下回ったら、長期ゲインを初期値に戻す方向にカウントする。
（４）上記（１）〜（３）による処理の結果、カウンタ値が予め定められた数値に達すると、長期ゲインが１ステップ大きく又は小さく更新され、カウンタ値は初期値「０」にリセットされる。そして第１の実施形態と同様に、カウンタ値が「所定の上限閾値」を越えると、長期ゲインが「０．２ｄＢ」減少される。また、カウンタ値が「所定の下限閾値」を下回ると長期ゲインが「０．２ｄＢ」増加される。なお、長期ゲインは、±４．０の範囲に限定し、調整幅が過度にならないように制御されている。そして、長期ゲイン更新部５８は、長期ゲインの値を長期ゲイン反映部１４へ通知する。

つぎに異なる点は、短期ゲインの調整処理にある。具体的には、図３の抑圧処理（Ｓ２０）の処理、つまり、図５の処理における各種条件及び処理の内容が異なる。

ゲインが「０ｄＢ」を上回っている場合（Ｓ２０１のＮ）、以下の条件（Ｓ２０４）を満たす場合にのみ素早い抑制処理がなされる。ここでは、第１の実施形態のＳ２０３の処理を省いている。増幅中に素早くゲインを下げると不自然な聴感になってしまう虞がある。そこで、このことを回避する為の抑圧処理を行う条件を異なるものとしている。具体的には、以下の（１）及び（２）の条件（条件Ａ１；図５の条件Ａに対応）を同時に満たす場合、または（３）の条件（条件Ｂ１；図５の条件Ｂに対応）を満たす場合に（Ｓ２０４のＹ）、上述のＳ２０２で示した通常処理により、素早い抑圧処理がなされる。ここでは例えばアタック時間が１．０ｍｓに設定される。第１の実施形態と異なる点は、第１の実施形態における条件Ａの（３）が省かれていることにある。

条件Ａ１：
（１）抑圧閾値を１０ｄＢ以上オーバーしている。
（２）平均値と現在のラウドネスレベル２の差が、標準偏差σの所定倍数（ｍ×σ）よりも第２所定値（例えば数ｄＢ程度）以上越えている。
条件Ｂ１：
（３）平均値と現在のラウドネスレベル２の差が、標準偏差σの所定倍数（ｍ×σ）よりも、第２所定値よりも大きな第３所定値以上越えている。
なお、条件Ａ１または条件Ｂ１を満たしている場合において、さらに、ラウドネスレベル１が抑圧閾値を越えているか否かのレベル・閾値比較処理がなされ、越えていると判断されると、抑圧閾値と現在のラウドネスレベルの差分から抑圧ターゲットゲインが再算出される。

Ｓ２０４のステップで条件Ａ１または条件Ｂ１を満たさない場合（Ｓ２０４のＮ）、通常処理よりも緩やかな速さの抑制処理が設定される（Ｓ２０５）。ここでは例えばアタック時間が１００ｍｓに設定される。
なお、上記の抑圧処理を実行するための抑圧部８０の構成については第１の実施形態と同様である。

つぎに異なる点は、図３の増幅処理（Ｓ４０）の内容、つまり、図６の処理における各種条件及び処理の内容が異なる。

レベル立ち上がり検出部７４は、ラウドネスレベルの立ち上がり度合いを分析する（Ｓ４０１）。レベル立ち上がり検出部７４は、ＢＰＦ２６から取得した信号、つまり、人の音声の周波数帯域の信号のラウドネスレベルを分析して、下記の（１）〜（４）の条件Ｃ１（図６の条件Ｃに対応）に全て当てはまる場合に（Ｓ４０１のＹ）、増幅ターゲットゲインを設定する（Ｓ４０３）。
条件Ｃ１：
（１）現在のゲインが０．９９以上である。
（２）ラウドネスレベル３が２連続で上昇している。
（３）上記（２）の連続上昇の値が所定値以上である。
（４）上記（２）連続上昇の開始値が下限閾値以上である。

増幅ターゲットゲイン算出部７５は、増幅閾値との差分を算出し（Ｓ４０３）、その値と増幅ゲイン上限値から増幅ターゲットゲインを決定する（Ｓ４０４）。つまり、第１の実施形態のＳ４０２の処理が省かれている。例えば、「上記差分×長期ゲイン」が、所定の最大増幅値未満なら、その差分が増幅ターゲットゲインとされる。それ以外の時には、「最大増幅値／長期ゲイン」が増幅ターゲットゲインとされる。また、条件Ｃ１の（１）が異なり、「０．９以上」が「０．９９以上」となっている。

Ｓ４０１のステップにおいて条件Ｃ１を満たさない場合（Ｓ４０１のＮ）、増幅ターゲットゲイン算出部７５は、単純に増幅閾値とラウドネスレベル３の差分から、仮ターゲットゲインを算出し（Ｓ４０６）、その仮ターゲットゲインと現在のターゲットゲインとを比較する（Ｓ４０７）。

現在のターゲットゲインより仮ターゲットゲインが小さい場合（Ｓ４０７のＮ）、増幅ターゲットゲイン算出部７５は、ターゲットゲインとして算出した仮ターゲットゲインを設定する（Ｓ４０８）。仮ターゲットゲインが現在のターゲットゲイン以上の場合（Ｓ４０７のＹ）、増幅ターゲットゲイン算出部７５は、ターゲットゲインを変更せずにそのままとする（Ｓ４０９）。このとき、増幅ターゲットゲイン算出部７５は、増幅リリースタイムを１フレームの長さとし、リリースの変化幅、つまり１ステップ毎のゲイン上昇幅を再度算出する。

ここで、短期ゲインの算出処理について概要を説明する。ゲインの算出も、ラウドネスレベル２及びラウドネスレベル３をもとに算出される。なお、第１の実施形態では旧ゲインと現ゲインの積を用いたが、本実施形態では、短期ゲインを用いる。

本実施形態のＳ２０の抑圧処理がなされた場合、つまり、ラウドネスレベル２が抑圧閾値を上回っている場合の短期ゲインの算出手順について説明する。
（１）短期ゲインが抑圧ゲインターゲットより大きい場合は、短期ゲインが減少される。
（２）短期ゲインが抑圧ゲインターゲット以下である場合は、さらに、短期ゲインとゲインの変化幅とを比較する。比較の結果、それらの差分がゲインの変化幅以下である場合、短期ゲインを抑圧ゲインターゲットに置き換える。また、上記差分がゲインの変化幅より大きい場合、短期ゲインを上記変化幅だけ増加させる。

Ｓ４０の増幅処理がなされた場合、つまり、ラウドネスレベル３が増幅閾値を上回っている場合の短期ゲインの算出手順について説明する。
（１）短期ゲインが増幅ターゲットゲイン以下の場合は、算出された変化幅だけ短期ゲインを増加させる。
（２）短期ゲインが増幅ターゲットゲインより大きい場合、さらに短期ゲインと増幅ターゲットゲインとの差分を比較する。その差分がＳ４０５の処理で算出されたゲインの変化幅以下の場合、短期ゲインを増幅ターゲットゲインに置き換えられる。また、前記の差分が、前記の変化幅より大きい場合、短期ゲインが前記変化幅だけ減少される。

Ｓ５０の収束処理がなされるとき、短期ゲインが「１」に近づくように現ゲインが変化される。短期ゲインが「１」より大きい場合は、現ゲインが減少される。減少した後、短期ゲインが「１」未満になった場合は、「１」になるように調整される。短期ゲインが「１」以下の場合は、現ゲインが増加される。増加後、短期ゲインが「１」を越えた場合には、「１」になるように調整される。

以上、本実施形態によると第１の実施形態と同様の効果が得られる。

＜第３の実施形態＞
本実施形態では、入力ソースの切換時やソース内でのシーン切替り時における音量調整について説明する。テレビやオーディオ機器等において、入力ソースの切換時やソース内でのシーン切替り時、音量レベルが急に大きく変化する場合がある。そのような場合、視聴者はその都度不快に感じたり驚いたりして頻繁に音量操作をしなければならないという課題があった。このような課題を解決する手法として、ＡＬＣ（オートレベルコントロール）やＤＲＣ（ダイナミックレンジコンプレッション）といった自動的に利得を調整する技術が用いられてきた。これらの技術は単純に入力ソースの音量レベルが設定した閾値レベルを超えた量に対して一定の比率で信号を減衰させる。

ところで、人間は、耳に入ってきた音の音圧レベルだけではなく、周波数特性やその音圧レベルに至るまでの変化の仕方等、様々な影響を受けて音の大きさを感じている。例えば、同じ音圧レベルであっても無音状態から再生されたときは音をより大きく感じやすい。そのため、閾値レベルを超えた音響信号（音声信号）に対して常に同じ比率で減衰させる技術では十分に効果を発揮できないことがある。

そこで、本実施形態では、瞬間の音量レベルだけでなく、直前まで視聴していた音声信号の音量レベルの状態に応じて利得の調整方法を変化させる。それによって、視聴者が感じる不快感を軽減する。そのため、入力信号（音響信号又は音声信号ともいう）において、その音量レベルが予め定められた閾値レベルを超えた場合に、その時点までの過去の音声信号の音量レベルの状態によって、利得の調整量を変化させる。以下、詳細に説明する。

図１０は、本実施形態に係る音声ゲイン調整装置１１０の概略構成を示す機能ブロック図であり、音声ゲイン調整装置１１０はテレビやオーディオ機器に搭載される。図示のように、音声ゲイン調整装置１１０は、音声信号入力部１１２と、利得調整部１２０と、利得制御部１３０と、音声信号出力部１４２とを備えている。

音声信号入力部１１２は、第１の実施形態の音声信号入力部１２と同様の機能を有し、調整する音声信号を取得する。利得調整部１２０は、利得制御部１３０の算出結果に応じて音声信号に対して利得調整を施す。音声信号出力部１４２は、第１の実施形態の音声信号出力部４２と同様の機能を有し、利得調整がなされた音声信号を出力する。

利得制御部１３０は、閾値・レベル比較部１３２と、レベル変化度算出部１３４と、利得調整量算出部１３６と、ソース特定部１３８とを有する。

閾値・レベル比較部１３２は、音声信号入力部１１２より入力された音声信号のレベル値と予め設定された閾値レベルとを比較し、差分レベルを算出する。

レベル変化度算出部１３４は、過去一定期間（例えば１秒間）に入力された音声信号のレベルと現在入力された音声信号のレベルとを比較し、レベルの変化度を算出し、利得調整量算出部１３６へ通知する。なお、上記過去一定期間を含む所定期間の音声信号のレベルは、レベル変化度算出部１３４に記憶される。

利得調整量算出部１３６は、閾値・レベル比較部１３２で算出された差分レベルが正、つまり音声信号のレベル値が予め設定された閾値を超えている場合には、レベル変化度算出部１３４で算出されたレベル変化度に応じて音声信号の圧縮率を算出し、算出された圧縮率に従って、利得の調整量を算出する。具体的には、利得調整量算出部１３６は、以下の（１）〜（３）のいずれかの手順に従って利得調整量を算出する。
（１）算出手順１：レベル変化度算出部１３４で算出されたレベル変化度に応じて音声信号の圧縮率を算出し、算出された圧縮率に従って、利得の調整量を算出する。
（２）算出手順２：レベル変化度算出部１３４で算出されたレベル変化度に応じて利得調整用の閾値を算出し、算出された閾値に従って、利得の調整量を算出する。
（３）算出手順３：レベル変化度算出部１３４で算出されたレベル変化度に応じて利得調整用の閾値と圧縮率を算出し、算出された閾値と圧縮率に従って、利得の調整量を算出する。
上記いずれの算出手順が用いられるかは、あらかじめユーザが設定したり、選択されているソースや再生されているコンテンツに応じて設定される。それら設定は、ソース特定部１３８による特定にもとづいて定まる。

ソース特定部１３８は、現在再生されている音声信号のコンテンツを特定する。ここで、音声ゲイン調整装置１１０がデジタル放送用テレビに搭載されている場合を想定する。デジタル放送では、放送されるデータに、コンテンツのジャンル等の番組情報が含まれ、電子番組表等に利用されている。ソース特定部１３８は、そのような番組情報をもとに現在のコンテンツがどのようなジャンルであるか特定し、いずれの算出手順を用いて利得調整をするかを決定することができる。

また、ソース特定部１３８は、チャンネルが切り替わったときや、入力ソースが切り替わったときに、いずれの算出手順を用いるかを決定することができる。そしてどのような条件のときにいずれの算出手順を用いるかは、予め設定されているとともに、ユーザが選択可能となっていてもよい。例えば、映画のコンテンツでは、本来は効果音等のために信号のレベルが急激に変化する場合がある。そのような場合に、利得を圧縮する方向の処理がなされると、本来の効果が小さくなってしまうことがある。そこで、コンテンツが映画であることが判明している場合に、利得を圧縮する処理を行わないようにすることで、好ましくない処理を回避できる。また、ニュースの放送中であれば、大きく音量が変化することは想定されないので、比較的圧縮率を高く設定するようにし、ＣＭへ変わったときなどにうるさいと感じないようにできる。また、テレビ等を操作するリモコン装置に上記圧縮する処理を一時的に停止するボタンが設けられてもよい。

利得調整部１２０は、音声信号入力部１１２より入力された音声信号に対して、利得調整量算出部１３６で算出された利得の調整量を反映させ音声信号出力部に出力する。

つぎに、レベル変化度算出部１３４における利得の調整量の算出手順１〜３について説明する。

（１）算出手順１について、以下の（ａ）〜（ｃ）の３種類の手法を用いる。図１１〜１４に、レベル変化度と圧縮率の関係を示す。なお、図１１〜１４において、圧縮率を便宜的に無限大（∞）で表記しているが、当然に適宜設定可能である。
（ａ）図１１に示すように、レベル変化度が予め定めた値を超えている場合にのみ圧縮をかける。いわゆるリミッタと同じ処理である。この手法を用いると、無音状態から急に大きな音声信号が再生される時に効果を奏する。具体的には放送等において番組からＣＭ（commercial message）に切り替わる際、１秒の無音から急にＣＭの音声が流れるような場合にのみ最大の圧縮率になり、視聴者が大きな音声信号に対してうるさいと感じることが低減できる。

（ｂ）図１２に示すように、レベル変化度に比例して、圧縮率を変化させる。つまり、レベル変化度が大きくなるほど圧縮率を大きくする。番組からＣＭに切り替わる時だけでなく、番組や映画内で静かなシーンから急に大きな音が出るシーンに切り替わった際にも、その強さに応じて圧縮率が大きくなる。その結果、視聴者はより快適に視聴することができる。

（ｃ）図１３に示すように、レベル変化度に応じて指数関数的に圧縮率を変化させる。通常は圧縮率を低くしているが、ある程度急に大きな音声が再生されるようになってくる場合には、指数関数的に強い圧縮をかけることができる。このため、通常時は自然な聴感を保ったまま、視聴者がうるさいと感じてしまう音声信号のみを抑え込むことができる。

（２）算出手順２について、以下の（ａ）〜（ｃ）の３種類の手法を用いる。図１４〜図１６にレベル変化度と閾値の関係を示す。
（ａ）図１４に示すように、レベル変化度が予め定めた値を超えている場合に閾値を下げる。無音状態から急に大きな音声信号が再生されるときに効果を奏する。具体的には放送等において番組からＣＭに切り替わる際、１秒の無音から急にＣＭの音声が流れるような場合にのみ閾値が下がる。その結果、視聴者が大きな音声信号に対してうるさいと感じることが低減できる。

（ｂ）図１５に示すように、レベル変化度に比例して、閾値を変化させる。つまり、レベル変化度が大きくなるほど閾値を小さくする。番組からＣＭに切り替わる時だけでなく、番組や映画内で静かなシーンから急に大きな音が出るシーンに切り替わった際にもその強さに応じて閾値が小さく。その結果、視聴者はより快適に視聴することができる。

（ｃ）図１６に示すように、レベル変化度に応じて指数関数的に閾値を変化させる。
通常は閾値を大きくしているが、ある程度急に大きな音声が再生されるようになってくる場合には指数関数的に閾値を下げることができる。その結果、通常時は自然な聴感を保ったまま、視聴者がうるさいと感じてしまう音声信号のみを抑え込むことができる。

（２）算出手順３については、上記の算出手順１及び２をあわせた処理である。
閾値と圧縮率を同時に変化させて制御する。閾値を下げたときには圧縮率を小さくし、最大入力に対する出力レベルを一定にする。その結果、視聴者がうるさいと感じてしまう音声信号のみを抑え込むことができる。入力レベルと出力レベルは、図１７や図１８に示すように、入力レベルが所定値以上となると、対応する出力レベルが従来より小さくなる。また、図１９に示すように、入力レベルが所定値以上となると、出力レベルは一定値にリミットされる。

以上、本実施形態によると、様々な種類のコンテンツにおいて、人間が実際に感じる音量感により即した利得調整が可能となる。したがって、視聴者はより快適にコンテンツを視聴することができる。なお、上記技術を圧縮とは逆の方向に反映させてもよい。つまり、アクション系の映画のコンテンツなどでは、爆発シーンなどが多く含まれ、静寂から急激に大音量にするシーンによって、シーンをより効果的に表現することがある。そのような場合、圧縮ではなく増幅するように音声信号に対して処理を施してもよい。

＜第４の実施形態＞
本実施形態は、第１の実施形態又は第２の実施形態に第３の実施形態を追加したものである。つまり、第１の実施形態又は第２の実施形態と同様に、ラウドネスレベルを用いて長期ゲイン及び短期ゲインを調整することでコンテンツの製作者が意図するダイナミックレンジをある程度確保しながら、ユーザが聞きやすい音に調整する。さらに、第３の実施形態と同様に、入力ソースの切換時やソース内でのシーン切替り時、音量レベルが急に大きく変化する場合に、直前まで視聴していた音声信号の音量レベルの状態に応じて利得の調整方法を変化させる。

図２０は、本実施形態に係る音声ゲイン調整装置２１０の概略構成を示す機能ブロック図であり、第１の実施形態又は第２の実施形態に第３の実施形態を単純に直列的に接続する態様について示している。この音声ゲイン調整装置２１０は、第１の実施形態の図１の音声ゲイン調整装置１０において、音声信号入力部１２と長期ゲイン反映部１４の間に、第３の実施形態の利得調整部１２０と利得制御部１３０とを設けた構成となっている。なお、同一符号を有する各構成要素の機能は上述の構成と同一であるのでここでは説明を省略する。

なお、利得調整部１２０及び利得制御部１３０は、合成部４０と音声信号出力部４２の間に設けられても同様の作用・効果を奏する。

なお、図２０に示したように、第１の実施形態又は第２の実施形態に第３の実施形態を単純に直列的に接続する態様でもよいが、第３の実施形態を第１または２の実施形態の抑圧ターゲットゲインを算出する機能部分に取り込んだ態様とすることによって、処理量の低減とともに、効果的に抑圧ターゲットゲインを求めることも出来る。

図２１は、本実施形態の変形例であって、第１の実施形態で示した抑圧部８０の抑圧ターゲットゲイン算出部８３に、利得調整部１２０及び利得制御部１３０を備える構成を示している。利得調整部１２０及び利得制御部１３０の機能は第３の実施形態とほぼ同様であるが、ここでは音声信号ではなくラウドネスレベルをもとに利得調整を行う。第２の実施形態で示した抑圧部８０の抑圧ターゲットゲイン算出部８３に、利得調整部１２０及び利得制御部１３０を備えてもよい。

利得制御部１３０は、閾値・レベル比較部１３２と、利得調整量算出部１３６と、ソース特定部１３８とを有する。なおここでは、上記のレベル変化度算出部１３４が省かれており、レベル変化度算出部１３４が算出したレベル変化度には、レベル立ち上がり検出部８８で算出する立ち上がり度が用いられる。

閾値・レベル比較部１３２は、レベル・閾値比較部８２から取得したラウドネスレベル値と予め設定された閾値レベルとを比較し、差分レベルを算出し、利得調整量算出部１３６へ通知する。

利得調整量算出部１３６は、閾値・レベル比較部１３２で算出された差分レベルが正、つまりラウドネスレベル値が予め設定された閾値を超えている場合には、レベル立ち上がり検出部８８で算出されたレベル変化度に応じて、抑圧ターゲットゲインを算出するための抑圧率（レシオ）を算出し、利得調整部１２０に出力する。利得調整部１２０は、利得調整量算出部１３６からの出力がない場合、つまり、閾値・レベル比較部１３２で算出された差分レベルが負またはゼロの場合、上述の実施形態同様に、レベル・閾値比較部８２のレベル・閾値比較処理の結果を受けて必要に応じて、抑圧閾値と現在のラウドネスレベルの差分から抑圧ターゲットゲインを再算出する。一方、利得調整量算出部１３６からの出力がある場合、利得調整部１２０は、レベル・閾値比較部８２より入力されたラウドネスレベルに対して、利得調整量算出部１３６で算出された抑圧率に切り換えて抑圧ターゲットゲインを算出し抑圧ゲイン変化幅算出部８４に出力する。また、ソース特定部１３８は、上述と同様に、コンテンツを特定する。特定されたコンテンツの情報が上記の利得調整量算出部１３６における抑圧率算出の処理に反映される。このような構成及び処理によって、瞬間の音量レベルだけでなく、直前まで視聴していた音声信号の音量レベルの状態に応じて利得の調整方法を変化させる場合に、より人間の聴感に近いラウドネスレベルを用いて処理を実行できる。そして、その場合に、コンテンツの特性を反映させることができる。

なお、利得調整部１２０及び利得制御部１３０の機能は、抑圧ターゲットゲイン算出部８３に含まれる構成に限る主ではなく、例えば、レベル・閾値比較部８２や抑圧ゲイン変化幅算出部８４に含まれてもよい。

１０、１１０、２１０音声ゲイン調整装置
１２音声信号入力部
１４長期ゲイン反映部
２０周波数分離部
２２ＬＰＦ
２４ＨＰＦ
２６ＢＰＦ
３０短期ゲイン反映部
３２低周波反映部
３４高周波反映部
３６中周波反映部
４０合成部
４２音声信号出力部
５０、５０ａ長期ゲイン算出部
５２音声信号記憶部
５３出力音圧特性適用部
５４ラウドネスレベル変換部
５６レベル比較カウント部
５８長期ゲイン更新部
６０、６０ａ短期ゲイン算出部
７０、７０ａ増幅部
７１音声信号記憶部
７２ラウドネスレベル変換部
７３レベル・閾値比較部
７４レベル立ち上がり検出部
７５増幅ターゲットゲイン算出部
７６増幅ゲイン変化幅算出部
７７出力音圧特性適用部
８０抑圧部
８１長期ゲイン調整部
８２レベル・閾値比較部
８３抑圧ターゲットゲイン算出部
８４抑圧ゲイン変化幅算出部
８５ラウドネスレベル記憶部
８６平均レベル算出部
８７レベル標準偏差算出部
８８レベル立ち上がり検出部
９０短期ゲイン更新部
１３０利得制御部
１３２閾値・レベル比較部
１３４レベル変化度算出部
１３６利得調整量算出部
１３８ソース特定部
１４０長期ゲイン反映部

Claims

入力信号の振幅を相対的に長期的に制御する長期ゲイン調整手段と、
前記入力信号の前記振幅を相対的に短期的に制御する短期ゲイン調整手段と、
を備えることを特徴とする音声信号調整装置。
前記長期ゲイン調整手段は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させることを特徴とする請求項１に記載の音声信号調整装置。
前記短期ゲイン調整手段は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させることを特徴とする請求項１または２に記載の音声信号調整装置。
前記長期ゲイン調整手段は、当該音声信号調整装置の信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御することを特徴とする請求項１から３までのいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、当該音声信号調整装置の信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御することを特徴とする請求項１から４までのいずれかに記載の音声信号調整装置。
前記長期ゲイン調整手段及び前記短期ゲイン調整手段は、一定時間バッファされた前記入力信号をもとに振幅の制御を行うことを特徴とする請求項１から５までのいずれかに記載の音声信号調整装置。
前記一定時間バッファされた前記入力信号は、先読みされた信号であることを特徴とする請求項６に記載の音声信号調整装置。
前記長期ゲイン調整手段は、前回の長期ゲインの制御後の入力信号を反映させてフィードバック制御することを特徴とする請求項１から７までのいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、前記長期ゲイン調整手段の長期ゲインの制御後の信号を反映させて制御することを特徴とする請求項１から８までのいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、前記入力信号を音声帯域と前記音声帯域以外の帯域とに分けて前記入力信号の振幅を制御することを特徴とする請求項１から９までのいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、短期ゲインの振幅の制御においてアタック時間を入力信号の立ち上がり度合いに応じて変更することを特徴とする請求項１から１０までのいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、前記入力信号の前記立ち上がり度合いを、前記入力信号のラウドネスレベルと、前記ラウドネスレベルの標準偏差及び平均値とをもとに算出することを特徴とする請求項１１に記載の音声信号調整装置。
前記短期ゲイン調整手段は、短期ゲインの振幅の制御において、前記短期ゲインの増幅量を前記入力信号のラウドネスレベルの立ち上がり度合いに応じて変更することを特徴とする請求項１から１２のいずれかに記載の音声信号調整装置。
前記短期ゲイン調整手段は、前記入力信号のターゲットゲインを算出するたびに、短期ゲインの変化幅を算出することを特徴とする請求項１から１３のいずれかに記載の音声信号調整装置。
前記長期ゲイン調整手段は、前記短期ゲイン調整手段における短期ゲインの制御変化に応じて長期ゲインを調整することを特徴とする請求項１から１４のいずれかに記載の音声信号調整装置。
入力信号の振幅を相対的に長期的に制御する長期ゲイン調整工程と、
前記入力信号の前記振幅を相対的に短期的に制御する短期ゲイン調整工程と、
を備えることを特徴とする音声信号調整方法。
前記長期ゲイン調整工程は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させることを特徴とする請求項１６に記載の音声信号調整方法。
前記短期ゲイン調整工程は、前記入力信号の振幅の制御のときに、前記入力信号を人間の聴感に基づくレベルであるラウドネスレベルを反映させることを特徴とする請求項１６または１７に記載の音声信号調整方法。
前記長期ゲイン調整工程は、当該音声信号調整方法により制御された信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御することを特徴とする請求項１６から１８までのいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、当該音声信号調整方法により制御された信号の出力先である音声出力手段の出力音圧特性を反映させて前記入力信号の振幅を制御することを特徴とする請求項１６から１９までのいずれかに記載の音声信号調整方法。
前記長期ゲイン調整工程及び前記短期ゲイン調整工程は、一定時間バッファされた前記入力信号をもとに振幅の制御を行うことを特徴とする請求項１６から２０までのいずれかに記載の音声信号調整方法。
前記一定時間バッファされた前記入力信号は、先読みされた信号であることを特徴とする請求項２１に記載の音声信号調整方法。
前記長期ゲイン調整工程は、前回の長期ゲインの制御後の入力信号を反映させてフィードバック制御することを特徴とする請求項１６から２２までのいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、前記長期ゲイン調整工程の長期ゲインの制御後の信号を反映させて制御することを特徴とする請求項１６から２３までのいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、前記入力信号を音声帯域と前記音声帯域以外の帯域とに分けて前記入力信号の振幅を制御することを特徴とする請求項１６から２４までのいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、短期ゲインの振幅の制御においてアタック時間を入力信号の立ち上がり度合いに応じて変更することを特徴とする請求項１６から２５までのいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、前記入力信号の前記立ち上がり度合いを、前記入力信号のラウドネスレベルと、前記ラウドネスレベルの標準偏差及び平均値とをもとに算出することを特徴とする請求項２６に記載の音声信号調整方法。
前記短期ゲイン調整工程は、短期ゲインの振幅の制御において、前記短期ゲインの増幅量を前記入力信号のラウドネスレベルの立ち上がり度合いに応じて変更することを特徴とする請求項１６から２７のいずれかに記載の音声信号調整方法。
前記短期ゲイン調整工程は、前記入力信号のターゲットゲインを算出するたびに、短期ゲインの変化幅を算出することを特徴とする請求項１６から２８のいずれかに記載の音声信号調整方法。
前記長期ゲイン調整工程は、前記短期ゲイン調整手段における短期ゲインの制御変化に応じて長期ゲインを調整することを特徴とする請求項１６から２９のいずれかに記載の音声信号調整方法。
前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、
過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、
前記比較手段で算出された差分レベルに応じて、前記入力信号に施す利得調整処理の利得の調整量を算出する利得調整量算出手段と、
入力された前記入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、
を備えることを特徴とする請求項１から１５のいずれかに記載の音声信号調整装置。
前記入力信号のソースまたは前記入力信号が含まれるコンテンツのジャンルを特定するソース・コンテンツ特定手段を備え、
前記利得調整量算出手段は、前記ソース・コンテンツ特定手段において特定された前記ソース又は前記ジャンルに応じて、前記利得の調整量の算出手順を設定可能であることを特徴とする請求項３１に記載の音声信号調整装置。
入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、
過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、
前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から圧縮率を算出し、算出された圧縮率に従って、利得の調整量を算出する利得調整量算出手段と、
入力された前記入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、
を備えることを特徴とする音声信号調整装置。
入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、
過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、
前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から利得の調整量算出用の閾値を算出し、算出された閾値に従って、利得の調整量を算出する利得調整量算出手段と、
前記入力された入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、
を備えることを特徴とする音声信号調整装置。
入力信号を取得し、前記入力信号のレベルと予め定められた閾値レベルとを比較し、差分レベルを算出する比較手段と、
過去一定期間に入力された前記入力信号のレベルと現在入力された前記入力信号のレベルとを比較し、レベルの変化度を算出するレベル変化度算出手段と、
前記比較手段で算出された差分レベルと、前記レベル変化度算出手段で算出されたレベル変化度から利得の調整量算出用の閾値と圧縮率を算出し、算出された閾値及び圧縮率に従って、利得の調整量を算出する利得調整量算出手段と、
前記入力された入力信号に対して、前記利得調整量算出手段で算出された利得の調整量だけ調整を施す利得調整手段と、
を備えることを特徴とする音声信号調整装置。