JPWO2010131470A1

JPWO2010131470A1 - ゲイン制御装置及びゲイン制御方法、音声出力装置

Info

Publication number: JPWO2010131470A1
Application number: JP2011513249A
Authority: JP
Inventors: 成文後田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-05-14
Filing date: 2010-05-13
Publication date: 2012-11-01
Also published as: US20120123769A1; WO2010131470A1; CN102422349A

Abstract

コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供する。音響信号処理装置１０は、音響入力信号を所定時間バッファリングする音響信号記憶部１４と、バッファリングされた音響信号から音声の区間を検出する音声検出部２０と、バッファリングされた音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出する音声検出部２０と、算出されたラウドネスレベルと所定のターゲットレベルとを比較する閾値・レベル比較部２６と、音声検出部２０の検出結果と閾値・レベル比較部２６の比較結果をもとに、バッファリングされている音響信号のゲイン制御量を算出する音声増幅量算出部２２と、バッファリングされている音響信号を算出されたゲイン制御量に従って増幅・減衰する音響信号増幅部１６と、を備える。

Description

本発明は、ゲイン制御装置及びゲイン制御方法、音声出力装置に係り、例えば、音響信号に音声信号が含まれるときに増幅処理を行うゲイン制御装置及びゲイン制御方法、音声出力装置に関する。

視聴者がテレビ等においてセリフや会話が含まれるコンテンツを視聴する際、視聴者は会話を聴き取りやすい音量に調整して視聴することが多い。しかしながら、コンテンツが変わると収録されている音声のレベルも変わる。また、コンテンツ内においても話し手の性別や、年齢、声質などによって、実際に聞こえるセリフや会話の音量感は異なるため、視聴者は会話が聴き取りにくくなるたびに音量を調整することになる。

このような背景のもと、コンテンツ中の会話を聞き取りやすくするために、様々な技術が提案されている。例えば、入力信号のうち音声帯域の信号を生成してＡＧＣにより補正を施す技術がある（特許文献１参照）。この技術は、入力信号を音声帯域ＢＰＦにより帯域分割し、音声帯域信号を生成する。さらに音声帯域信号の一定時間内における最大振幅値を検出し、それに応じた振幅制御を行った強調音声帯域信号を生成する。そして、入力信号に対してＡＧＣ圧縮処理をかけた信号と、強調音声帯域信号に対してＡＧＣ圧縮処理をかけた信号を加算し、出力信号とする。

また、別の技術として、テレビの受信機の音声信号出力を入力とし、入力信号のうち実際の人の音声部分区間を検出し、該区間の信号の子音を強調して出力する技術がある（特許文献２参照）。

またさらに、入力信号から人間の聴感に基づく周波数情報を含む信号を抽出し平滑化した信号を、人間が体感する音量度を示す聴感音量信号に変換し、設定されているボリューム値に近づくように入力信号の振幅を制御する技術がある（特許文献３参照）。

特開２００８−８９９８２号公報特開平８−２７５０８７号公報特開２００４−３１８１６４号公報

ところで、特許文献１に開示の技術にあっては、最大振幅値は実際に視聴者が感じる音量と必ずしも一致しないため、効果的な強調が非常に困難であるという課題があった。

特許文献２に開示の技術にあっては、子音の強調度合いが一定であるため、話者の性別や声質に無関係に子音が強調され、本来の音質や声質を損ないやすいという課題があった。また、入力されるコンテンツによって話者の音量も異なることから、音量が絶対的に小さいときには、子音を強調しても明瞭性を高めにくくなることがあるという課題があった。さらに、音声部分区間を検出する具体的方法が示されておらず、この技術の導入の検討が難しく、別の技術が求められていた。

特許文献３に開示の技術にあっては、全ての期間において入力信号を設定ボリューム値に近づけてしまうため、映画等のコンテンツにおいてはダイナミックレンジ感を大きく損なってしまうおそれがあった。

本発明の目的は、上記課題に鑑み、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供することにある。

本発明に係る装置は、ゲイン制御装置に関する。この装置は、音響信号から音声の区間を検出する音声検出手段と、前記音響信号の人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換手段と、前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較手段と、前記音声検出手段の検出結果と前記レベル比較手段の比較結果をもとに、前記音響信号のゲイン制御量を算出する増幅量算出手段と、算出された前記ゲイン制御量に従って前記音響信号のゲイン調整を行う音声増幅手段とを備える。
また、前記ラウドネスレベル変換手段は、前記音声検出手段が音声の区間を検出したときに、前記ラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、所定のサンプル数で構成されるフレーム単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、フレーズ単位でラウドネスレベルのピーク値を算出し、前記レベル比較手段は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記レベル比較手段は、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記音声検出手段は、前記音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出手段と、前記基本周波数変化検出手段によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定手段と、を備えてもよい。
本発明に係る方法は、ゲイン制御方法に関する。この方法は、所定時間バッファリングされた音響信号から、音声の区間を検出する音声検出工程と、前記音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換工程と、前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較工程と、前記音声検出工程の検出結果と前記レベル比較工程の比較結果をもとに、前記バッファリングされている音響信号のゲイン制御量を算出する増幅量算出工程と、前記音響信号に対して、算出された前記ゲイン制御量に従ってゲイン調整を行う音声増幅手段と、を備える。
また、前記ラウドネスレベル変換工程は、前記音声検出工程が音声の区間を検出したときに、前記ラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、所定のサンプリング数で構成されるフレーム単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、フレーズ単位でラウドネスレベルのピーク値を算出し、前記レベル比較工程は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記レベル比較工程は、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記音声検出工程は、前記音響信号から、前記フレームごとに基本周波数を抽出する基本周波数抽出工程と、予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出工程と、前記基本周波数変化検出工程によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定工程と、を備えてもよい。
本発明に係る別の装置は、音声出力装置であって、上記のゲイン制御装置を備える。

本発明によれば、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供することができる。

実施形態に係る、音響信号処理装置の概略構成を示す機能ブロック図である。実施形態に係る、音声検出部の概略構成を示す機能ブロック図である。実施形態に係る、音響信号処理装置の動作を示すフローチャートである。第１の変形例に係る、音響信号処理装置の動作を示すフローチャートである。第２の変形例に係る、音響信号処理装置の動作を示すフローチャートである。

次に、本発明を実施するための形態（以下、「実施形態」という。）を、図面を参照して具体的に説明する。実施形態の概要は、次の通りである。つまり、１以上のチャンネルの入力信号において、セリフや会話の区間を検出する。なお、本実施形態では、人の声やそれ以外の音が含まれる信号を音響信号と呼び、音響信号のうちセリフや会話等の人の声にあたるものを音声と呼ぶ。また、音響信号のうち音声にあたる領域の信号を音声信号という。つぎに、検出された区間における音響信号のラウドネスレベルを算出し、そのレベルが予め定められたターゲットレベルに近づくように、検出された区間（または隣接区間）における信号の振幅を制御する。このようにすることによって、あらゆるコンテンツにおいて、セリフや会話の音量が一定となり、これによって視聴者は音量操作をすることなく常にセリフや会話の内容をより鮮明に聞き取ることができる。以下、具体的に説明する。

図１は、本実施形態に係る音響信号処理装置１０の概略構成を示す機能ブロック図である。この音響信号処理装置１０は、テレビやＤＶＤプレーヤなど音声出力機能を有する機器に搭載される。

音響信号処理装置１０は、上流側から下流側へ、音響信号入力部１２と、音響信号記憶部１４と、音響信号増幅部１６と、音響信号出力部１８とを備える。さらに、音響信号処理装置１０は、音響信号記憶部１４の出力を取得して音声信号を増幅するための計算を行う経路として、音声検出部２０と音声増幅量算出部２２とを備える。また、音響信号処理装置１０は、ラウドネスレベルに応じて振幅を制御するための経路として、ラウドネスレベル変換部２４と閾値・レベル比較部２６とを備える。なお、上記の各構成要素は、例えばＣＰＵ、メモリ、メモリにロードされたプログラムなどによって実現され、ここではそれらの連携によって実現される構成を描いている。機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者に理解されるところである。

具体的には、音響信号入力部１２は、音響信号の入力信号Ｓ＿ｉｎを取得して音響信号記憶部１４へ出力する。音響信号記憶部１４は、音響信号入力部１２より入力された音響信号を例えば１０２４サンプル（サンプリング周波数４８ｋＨｚ時約２１．３ｍｓ）をバッファとして記憶する。この１０２４サンプルで構成される信号を以下、「１フレーム」という。

音声検出部２０は、音響信号記憶部１４にバッファされた音響信号がセリフまたは会話か否かを検出する。音声検出部２０の構成及び処理については図２で後述する。

音声増幅量算出部２２は、音声検出部２０によってセリフまたは会話であると検出された場合は、閾値・レベル比較部２６によって算出された差分レベルを打ち消す方向に音声増幅量を算出する。非会話音声と検出された場合は、音声増幅量算出部２２は音声増幅量を０ｄＢと、つまり増幅も減衰もさせないとする。

ラウドネスレベル変換部２４は、音響信号記憶部１４にバッファされた音響信号から人間の実聴感上の音量レベルであるラウドネスレベルに変換する。このラウドネスレベルの変換には、例えばＩＴＵ−Ｒ（International Telecommunication Union Radiocommunications Sector）ＢＳ１７７０に開示されている技術を利用することができる。より具体的には、ラウドネス曲線で示される特性を反転させてラウドネスレベルが算出される。したがって、本実施形態では、フレーム平均のラウドネスレベルが用いられる。

閾値・レベル比較部２６は、変換されたラウドネスレベルと予め設定されたターゲットレベルとを比較し、差分レベルを算出する。

音響信号増幅部１６は、音響信号記憶部１４にバッファされている音響信号を呼び出して、音声増幅量算出部２２によって算出された増幅・減衰量だけ増幅・減衰を施して音響信号出力部１８に出力する。そして、音響信号出力部１８は、スピーカ等にゲイン調整後の信号Ｓ＿ｏｕｔを出力する。

つぎに音声検出部２０の構成及び処理について説明する。図２は、音声検出部２０の概略構成を示す機能ブロック図である。本実施形態で適用する音声判別処理は、音響信号を前記のフレームに分割し、連続する複数フレームを周波数解析し、会話音声であるか非会話音声であるかを判定する。

そして、音声判別処理は、音響信号に、フレーズ成分またはアクセント成分が含まれている場合に音声信号と判断する。つまり、音声判定処理は、後述するフレームの基本周波数が、単調に変化（単調増加または単調減少）しているか、または、単調変化から一定周波数へ変化（すなわち、単調増加から一定周波数、または、単調減少から一定周波数へ変化）しているか、さらにまたは、一定周波数から単調変化へ変化（すなわち、一定周波数から単調増加、または、一定周波数から単調減少へ変化）していることが検出され、かつ、上記の基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた幅より小さいとき、上記音響信号を音声と判定する。

音声であるとの判定は、以下の知見によるものである。つまり、上記基本周波数の変化が単調に変化している場合、人の声（音声）のフレーズ成分を表している可能性が高いことが確認できている。また、上記基本周波数が単調変化から一定周波数へ変化している場合、あるいは、上記基本周波数が一定周波数から単調変化へ変化している場合に、人の声のアクセント成分を表している可能性が高いことが確認できている。

人の声の基本周波数の帯域は、一般的に、約１００Ｈｚ〜４００Ｈｚの間である。より詳細には、男性の声の基本周波数の帯域は、約１５０Ｈｚ±５０Ｈｚであり、女性の声の基本周波数の帯域は、約２５０Ｈｚ±５０Ｈｚである。また、子供の基本周波数の帯域は、女性よりも５０Ｈｚさらに高く、約３００Ｈｚ±５０Ｈｚである。さらに、人の声のフレーズ成分、あるいは、アクセント成分の場合、基本周波数の変化の幅は、約１２０Ｈｚである。

つまり、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値とが所定の範囲内にない場合、音声ではないと判定できる。また、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値との差が所定の値よりも大きい場合にも、音声ではないと判定できる。

したがって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化しているときに、基本周波数の変化が予め定められた周波数の範囲内における変化となっている場合（基本周波数の最大値と最小値とが所定の範囲内にある場合）であって、かつ、基本周波数の変化の幅が予め定められた周波数の幅より小さい場合（基本周波数の最大値と最小値との差が所定の値よりも小さい場合）、この音声判別処理は、フレーズ成分、あるいは、アクセント成分であると判定できる。しかも、上記の予め定められた周波数の範囲を男性の声、女性の声、子供の声に応じて設定すれば、男性の声、女性の声、子供の声を区別することもできる。

これにより、音響信号処理装置１０の音声検出部２０は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方を検出することが可能であると共に、女性の声か子供の声かもある程度検出することが可能となる。

つづいて、上記の音声判別処理を実現する音声検出部２０の具体的な構成について図２にもとづいて説明する。音声検出部２０は、スペクトル変換部３０と、縦軸対数変換部３１と、周波数時間変換部３２と、基本周波数抽出部３３と、基本周波数保存部３４と、ＬＰＦ部３５と、フレーズ成分解析部３６と、アクセント成分解析部３７と、音声／非音声判定部３８とを備えている。

スペクトル変換部３０は、音響信号記憶部１４から取得した音響信号に対してフレーム単位でＦＦＴ（Fast Fourier Transform）を施し、時間領域の音声信号を周波数領域のデータ（スペクトル）に変換する。なお、ＦＦＴの処理に先立ち、周波数解析の誤差を低減するために、フレーム単位に分割された音響信号に対して、ハニング窓などの窓関数が適用されてもよい。

縦軸対数変換部３１は、周波数軸を基底１０の対数に変換する。周波数時間変換部３２は、縦軸対数変換部３１で対数変換されたスペクトラムに１０２４ポイントの逆ＦＦＴを施し、時間領域に変換する。なお変換された係数を「ケプストラム」という。そして、基本周波数抽出部３３は、ケプストラムの高次側（概ねサンプリング周波数ｆｓ／８００以上）の最大ケプストラムを求め、その逆数を基本周波数Ｆ０とする。基本周波数保存部３４は、算出された基本周波数Ｆ０を保存する。以降の処理では基本周波数Ｆ０を５フレーム分使用するので、最低そのフレーム分だけは保存される必要がある。

ＬＰＦ部３５は、検出された基本周波数Ｆ０と、過去のフレームの基本周波数Ｆ０を基本周波数保存部３４から取り出し、低域濾過する。低域濾過によって、基本周波数Ｆ０に対するノイズを除去することができる。

フレーズ成分解析部３６は、低域濾過した過去５フレーム分の基本周波数Ｆ０が単調増加しているか、または単調減少しているかを解析し、増加又は減少の周波数帯域幅が所定値以内、例えば１２０Ｈｚ以内で遷移していればフレーズ成分であると判定する。

アクセント成分解析部３７は、低域濾過した過去５フレーム分の基本周波数Ｆ０が単調増加からフラット（変化なし）への遷移、または、フラットから単調減少への遷移、または、フラットな遷移かを解析し、周波数帯域幅が１２０Ｈｚ以内で遷移していればアクセント成分であると判定する。

音声／非音声判定部３８は、アクセント成分解析部３７で上記フレーズ成分またはアクセント成分であると判断された場合に、音声シーンと判定し、上記どちらの条件も満たさない場合は、非音声シーンと判定する。

以上の構成による音響信号処理装置１０の動作について説明する。図３は、音響信号処理装置１０の動作を示すフローチャートである。

音響信号処理装置１０の音響信号入力部１２に入力された音響信号は、音響信号記憶部１４にバッファされ、音声検出部２０は、そのバッファされた音響信号に音声が含まれるか否かを判別する上述の音声判別処理を実行する（Ｓ１０）。つまり、音声検出部２０は、上述のように所定のフレーム数のデータを解析して、音声シーンであるかそれとも非音声シーンであるかを判定する。

つぎに、音声が検出されなかった場合（Ｓ１２のＮ）、音声増幅量算出部２２は、現在設定されているゲインが０ｄＢであるか否かを確認する（Ｓ１４）。ゲインが０ｄＢである場合（Ｓ１４のＹ）、当該フローによる処理は終了し、次のフレームに関してＳ１０から再度処理を行う。ゲインが０ｄＢでない場合（Ｓ１４のＮ）、音声増幅量算出部２２は、所定のリリース時間でゲインを０ｄＢに戻すための、１サンプル毎のゲイン変化量を算出する（Ｓ１６）。算出されたゲイン変化量は、音響信号増幅部１６に通知され、音響信号増幅部１６は、そのゲイン変化量を設定されているゲインに反映させゲインを更新する（Ｓ１８）。これによって、非音声シーンであり、かつ設定されているゲインが０ｄＢでないときの処理が終了する。

Ｓ１２の処理で音声が検出されたと判断されたとき（Ｓ１２のＹ）、ラウドネスレベル変換部２４は、ラウドネスレベルを算出する（Ｓ２０）。つぎに、閾値・レベル比較部２６は、予め設定した音声のターゲットレベルとの差分を算出する（Ｓ２２）。つぎに、音声増幅量算出部２２は、算出した差分と予め定めら得たレシオにしたがって、実際に反映させるゲイン量（ターゲットゲイン）を算出する（Ｓ２４）。つまり、上記のレシオは、算出された差分を次に説明するゲイン変化量にどの程度反映させるかが設定されている。そして、音声増幅量算出部２２は、現在のターゲットゲインから設定されているアタック時間にしたがって、ゲイン変化量を算出する（Ｓ２６）。つづいて、音響信号増幅部１６は、音声増幅量算出部２２が算出したゲイン変化量を用いて、ゲインを更新する（Ｓ１８）。

以上の構成及び処理によると、音響信号に音声（人の声）が含まれる場合に、人間の実聴感上の音量レベルであるラウドネスレベルをもとに増幅処理を行うことで、コンテンツの会話等を聞き取りやすくすることができる。また、視聴者は、音量操作をすることがないため、コンテンツの視聴を妨げられることがない。つまり、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減することができる。

つぎに、図３のフローチャートで示した処理の第１の変形例について図４のフローチャートをもとに説明する。この第１の変形例では、上記の処理のラウドネスレベル算出処理（Ｓ２０）の後に、並列処理として、ゲイン変化量を算出する第１系統の処理（Ｓ２１〜Ｓ２６）と、ピーク値を算出する第２系統の処理（Ｓ３１〜Ｓ３３）とを行う。

ここでフレーズは、音声が検出されてから検出されなくなるまでの期間を指す。そして本変形例では、音声増幅量算出部２２は、フレーム平均のラウドネスレベルではなく、フレーズ毎にラウドネスレベルのピーク値を検出して、現在のターゲットレベルと前回のフレーズにおけるラウドネスレベルのピーク値との差分を算出し、その差分に応じてターゲットゲインを算出する。なお、図３のフローチャートと同様の処理については、説明を簡略化して説明する。

音声検出部２０が音声判別処理を行い（Ｓ１０）、音声を検出しなかった場合は（Ｓ１２のＮ）、上述したように、ゲインの確認処理（Ｓ１４）、ゲインが０ｄＢでない場合（Ｓ１４のＮ）におけるゲイン変化量の算出処理（Ｓ１６）、そのゲイン変化量を設定されているゲインに反映させゲインを更新処理（Ｓ１８）がなされる。

音声が検出された場合は（Ｓ１２のＹ）、フレーズのピークレベル値検出処理に移る。まず、ラウドネスレベル算出処理（Ｓ２０）がなされる。なお、Ｓ１０の音声検出処理は、音声が検出された区間を、音響信号記憶部１４に記憶される音響信号に関連づけて所定の記憶領域（音響信号記憶部１４や図示しない作業記憶領域など）に記憶する。つまり、Ｓ１０の音声検出処理においてフレーズが特定される。ラウドネスレベル変換部２４では、フレーズにおけるラウドネスレベルのピーク値を算出する。

つぎに、ゲイン変化量を算出する第１系統の処理（Ｓ２１〜Ｓ２６）と、ピーク値を算出する第２系統の処理（Ｓ３１〜Ｓ３３）が並列処理として行われる。まず、第１系統の処理（Ｓ２１〜Ｓ２６）において、閾値・レベル比較部２６は、前フレーズのピーク値のデータが存在するか否かを確認する（Ｓ２１）。ピーク値が存在しない場合は（Ｓ２１のＮ）、上述のＳ１４の以降の処理へ移る。なお、本変形例では、例えば、テレビにおいて番組が切り替わったときや、ＤＶＤプレーヤにおいて新たなコンテンツが再生されるときに、ピーク値等の変数は初期化されるものとする。したがって、コンテンツが新たに再生されるときは、ピーク値が存在しない。

前フレーズのピーク値のデータが存在する場合（Ｓ２１のＹ）、音声増幅量算出部２２は、予め設定したターゲットレベルと前回のフレーズのピーク値との差分を算出し（Ｓ２２）、設定されているレシオにしたがってターゲットゲインを算出し（Ｓ２４）、さらに、設定されているアタック時間にしたがって１サンプル毎のゲイン変化量を算出する（Ｓ２６）。そして音響信号増幅部１６が、算出されたゲイン変化量にゲインを更新する（Ｓ１８）。これによって、第１系統の処理が終了する。

一方、並列処理のもう一方の処理である第２系統の処理（Ｓ３１〜Ｓ３３）では、閾値・レベル比較部２６は、フレーズの最初のフレームであるか否かを確認する（Ｓ３１）。フレーズの最初のフレームである場合（Ｓ３１のＹ）、その算出されたラウドネスレベルをフレーズ内での初期ピーク値とし、ピーク値を更新する（Ｓ３２）。最初のフレームでない場合（Ｓ３１のＮ）、閾値・レベル比較部２６は、算出されたラウドネスレベルと前フレーム迄の仮ピーク値とを比較する（Ｓ３３）。算出されたラウドネスレベルが前フレーム迄の仮ピーク値より大きい場合（Ｓ３３のＹ）、その算出されたラウドネスレベルを現フレーム迄の仮ピーク値とし、ピーク値を更新し（Ｓ３２）、算出されたラウドネスレベルが前フレーム迄の仮ピーク値以下の場合（Ｓ３３のＮ）、ピーク値は更新せずに終了する。

以上、本変形例によれば、上述の実施形態と同様の効果が実現できる。さらに、フレーズ単位でターゲットレベルとの差分を反映させるように構成されるため、ゲイン制御にともなう出力のふらつき発生を防止することできる。よって、視聴者は、ゲイン制御がなされていることを意識しないで、違和感のない視聴が可能になる。なお、音響信号処理装置１０の処理速度が十分に速い場合や最終的な信号出力までの処理時間の経過が問題にならないような場合には、一つ前のフレーズのピーク値を用いずに、現在のフレーズのピーク値を用いても良い。ただし、コンテンツ間のラウドネスレベルの平均化という観点では、一つ前のフレーズのピーク値を用いても、充分に効果が得られる。

つぎに、第２の変形例について図５のフローチャートをもとに説明する。第１の変形例では、音声が検出された際、増幅量の算出は前フレーズのピーク値を用いて行った。しかし第２の変形例にあっては、現フレーズの仮ピーク値が前フレーズのピーク値を超えた場合には、現フレーズの仮ピーク値を元に増幅量を算出する。なお、図４のフローチャートと同様の処理については、説明を簡略化して説明する。

まず、音声検出部２０が音声判別処理を行い（Ｓ１０）、音声を検出しなかった場合は（Ｓ１２のＮ）、ゲインの確認処理（Ｓ１４）、ゲインが０ｄＢでない場合（Ｓ１４のＮ）におけるゲイン変化量の算出処理（Ｓ１６）、そのゲイン変化量を設定されているゲインに反映させゲインを更新処理（Ｓ１８）がなされる。

音声が検出された場合は（Ｓ１２のＹ）、フレーズのピークレベル値検出処理に移る。まず、ラウドネスレベル算出処理（Ｓ２０）がなされ、つづいて、並列処理によって、ゲイン変化量を算出する第１系統の処理（Ｓ２１〜Ｓ２６）とピーク値を算出する第２系統の処理（Ｓ３１〜Ｓ３３）とが行われる。

まず、第１系統の処理（Ｓ２１〜Ｓ２６）において、閾値・レベル比較部２６は、前フレーズのピーク値のデータが存在するか否かを確認する（Ｓ２１）。ピーク値が存在しない場合は（Ｓ２１のＮ）、上述のＳ１４の以降の処理へ移る。

前フレーズのピーク値のデータが存在する場合（Ｓ２１のＹ）、Ｓ２２の処理に先立ち、Ｓ２２の差分量算出の処理に用いるピーク値を特定する（Ｓ２１ａ）。具体的には、閾値・レベル比較部２６は、前回までのフレーズのピーク値（以下、「旧ピーク値」という）と現フレーズのピーク値（以下、「新ピーク値」という）とを比較し、旧ピーク値が新ピーク値より大きい場合は、差分量算出の処理に用いるピーク値として旧ピーク値を選定し、旧ピーク値が新ピーク値以下の場合は、差分量算出の処理に用いるピーク値として新ピーク値を選定する。つづいて、音声増幅量算出部２２は、予め設定したターゲットレベルとＳ２１ａの処理で特定されたピーク値との差分を算出し（Ｓ２２）、設定されているレシオにしたがってターゲットゲインを算出し（Ｓ２４）、さらに、設定されているアタック時間にしたがって１サンプル毎のゲイン変化量を算出する（Ｓ２６）。そして音響信号増幅部１６が、算出されたゲイン変化量にゲインを更新する（Ｓ１８）。

また、並列処理のもう一方の処理である第２系統の処理（Ｓ３１〜Ｓ３３）では、第１の変形例と同様に、フレーズの最初のフレームであるかの確認処理（Ｓ３１）、ピーク値を更新処理（Ｓ３２）、算出されたラウドネスレベルと前フレーム迄の仮ピーク値との比較処理（Ｓ３３）がなされる。

このような処理とすることで、前フレーズよりも現フレーズのピーク値が大きい場合に、不要な増幅を抑えることができる。

以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

１０音響信号処理装置
１２音響信号入力部
１４音響信号記憶部
１６音響信号増幅部
１８音響信号出力部
２０音声検出部
２２音声増幅量算出部
２４ラウドネスレベル変換部
２６閾値・レベル比較部
３０スペクトル変換部
３１縦軸対数変換部
３２周波数時間変換部
３３基本周波数抽出部
３４基本周波数保存部
３５ＬＰＦ部
３６フレーズ成分解析部
３７アクセント成分解析部
３８音声／非音声判定部

Claims

音響信号から音声の区間を検出する音声検出手段と、
前記音響信号の人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換手段と、
前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較手段と、
前記音声検出手段の検出結果と前記レベル比較手段の比較結果をもとに、前記音響信号のゲイン制御量を算出する増幅量算出手段と、
算出された前記ゲイン制御量に従って前記音響信号のゲイン調整を行う音声増幅手段と
を備えることを特徴とするゲイン制御装置。
前記ラウドネスレベル変換手段は、前記音声検出手段が音声の区間を検出したときに、前記ラウドネスレベルを算出することを特徴とする請求項１に記載のゲイン制御装置。
前記ラウドネスレベル変換手段は、所定のサンプル数で構成されるフレーム単位でラウドネスレベルを算出することを特徴とする請求項１または２に記載のゲイン制御装置。
前記ラウドネスレベル変換手段は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出することを特徴とする請求項１または２に記載のゲイン制御装置。
前記ラウドネスレベル変換手段は、フレーズ単位でラウドネスレベルのピーク値を算出し、
前記レベル比較手段は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項４に記載のゲイン制御装置。
前記レベル比較手段は、
現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、
現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項５に記載のゲイン制御装置。
前記音声検出手段は、前記音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、
予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出手段と、
前記基本周波数変化検出手段によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定手段と、
を備えていることを特徴とする請求項１から６までのいずれかに記載のゲイン制御装置。
所定時間バッファリングされた音響信号から、音声の区間を検出する音声検出工程と、
前記音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換工程と、
前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較工程と、
前記音声検出工程の検出結果と前記レベル比較工程の比較結果をもとに、前記バッファリングされている音響信号のゲイン制御量を算出する増幅量算出工程と、
前記音響信号に対して、算出された前記ゲイン制御量に従ってゲイン調整を行う音声増幅手段と、
を備えることを特徴とするゲイン制御方法。
前記ラウドネスレベル変換工程は、前記音声検出工程が音声の区間を検出したときに、前記ラウドネスレベルを算出することを特徴とする請求項８に記載のゲイン制御方法。
前記ラウドネスレベル変換工程は、所定のサンプリング数で構成されるフレーム単位でラウドネスレベルを算出することを特徴とする請求項８または９に記載のゲイン制御方法。
前記ラウドネスレベル変換工程は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出することを特徴とする請求項８または９に記載のゲイン制御方法。
前記ラウドネスレベル変換工程は、フレーズ単位でラウドネスレベルのピーク値を算出し、
前記レベル比較工程は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項１１に記載のゲイン制御方法。
前記レベル比較工程は、
現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、
現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項１２に記載のゲイン制御方法。
前記音声検出工程は、前記音響信号から、前記フレームごとに基本周波数を抽出する基本周波数抽出工程と、
予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出工程と、
前記基本周波数変化検出工程によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定工程と、
を備えていることを特徴とする請求項８から１３のいずれかに記載のゲイン制御方法。
請求項１から７までのいずれかに記載のゲイン制御装置を備えることを特徴とする音声出力装置。