JPWO2010131470A1 - ゲイン制御装置及びゲイン制御方法、音声出力装置 - Google Patents

ゲイン制御装置及びゲイン制御方法、音声出力装置 Download PDF

Info

Publication number
JPWO2010131470A1
JPWO2010131470A1 JP2011513249A JP2011513249A JPWO2010131470A1 JP WO2010131470 A1 JPWO2010131470 A1 JP WO2010131470A1 JP 2011513249 A JP2011513249 A JP 2011513249A JP 2011513249 A JP2011513249 A JP 2011513249A JP WO2010131470 A1 JPWO2010131470 A1 JP WO2010131470A1
Authority
JP
Japan
Prior art keywords
level
loudness
acoustic signal
voice
gain control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011513249A
Other languages
English (en)
Inventor
成文 後田
成文 後田
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2009117702 priority Critical
Priority to JP2009117702 priority
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to PCT/JP2010/003245 priority patent/WO2010131470A1/ja
Publication of JPWO2010131470A1 publication Critical patent/JPWO2010131470A1/ja
Application status is Granted legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03BASIC ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供する。
音響信号処理装置10は、音響入力信号を所定時間バッファリングする音響信号記憶部14と、バッファリングされた音響信号から音声の区間を検出する音声検出部20と、バッファリングされた音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出する音声検出部20と、算出されたラウドネスレベルと所定のターゲットレベルとを比較する閾値・レベル比較部26と、音声検出部20の検出結果と閾値・レベル比較部26の比較結果をもとに、バッファリングされている音響信号のゲイン制御量を算出する音声増幅量算出部22と、バッファリングされている音響信号を算出されたゲイン制御量に従って増幅・減衰する音響信号増幅部16と、を備える。

Description

本発明は、ゲイン制御装置及びゲイン制御方法、音声出力装置に係り、例えば、音響信号に音声信号が含まれるときに増幅処理を行うゲイン制御装置及びゲイン制御方法、音声出力装置に関する。

視聴者がテレビ等においてセリフや会話が含まれるコンテンツを視聴する際、視聴者は会話を聴き取りやすい音量に調整して視聴することが多い。しかしながら、コンテンツが変わると収録されている音声のレベルも変わる。また、コンテンツ内においても話し手の性別や、年齢、声質などによって、実際に聞こえるセリフや会話の音量感は異なるため、視聴者は会話が聴き取りにくくなるたびに音量を調整することになる。

このような背景のもと、コンテンツ中の会話を聞き取りやすくするために、様々な技術が提案されている。例えば、入力信号のうち音声帯域の信号を生成してAGCにより補正を施す技術がある(特許文献1参照)。この技術は、入力信号を音声帯域BPFにより帯域分割し、音声帯域信号を生成する。さらに音声帯域信号の一定時間内における最大振幅値を検出し、それに応じた振幅制御を行った強調音声帯域信号を生成する。そして、入力信号に対してAGC圧縮処理をかけた信号と、強調音声帯域信号に対してAGC圧縮処理をかけた信号を加算し、出力信号とする。

また、別の技術として、テレビの受信機の音声信号出力を入力とし、入力信号のうち実際の人の音声部分区間を検出し、該区間の信号の子音を強調して出力する技術がある(特許文献2参照)。

またさらに、入力信号から人間の聴感に基づく周波数情報を含む信号を抽出し平滑化した信号を、人間が体感する音量度を示す聴感音量信号に変換し、設定されているボリューム値に近づくように入力信号の振幅を制御する技術がある(特許文献3参照)。

特開2008−89982号公報 特開平8−275087号公報 特開2004−318164号公報

ところで、特許文献1に開示の技術にあっては、最大振幅値は実際に視聴者が感じる音量と必ずしも一致しないため、効果的な強調が非常に困難であるという課題があった。

特許文献2に開示の技術にあっては、子音の強調度合いが一定であるため、話者の性別や声質に無関係に子音が強調され、本来の音質や声質を損ないやすいという課題があった。また、入力されるコンテンツによって話者の音量も異なることから、音量が絶対的に小さいときには、子音を強調しても明瞭性を高めにくくなることがあるという課題があった。さらに、音声部分区間を検出する具体的方法が示されておらず、この技術の導入の検討が難しく、別の技術が求められていた。

特許文献3に開示の技術にあっては、全ての期間において入力信号を設定ボリューム値に近づけてしまうため、映画等のコンテンツにおいてはダイナミックレンジ感を大きく損なってしまうおそれがあった。

本発明の目的は、上記課題に鑑み、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供することにある。

本発明に係る装置は、ゲイン制御装置に関する。この装置は、音響信号から音声の区間を検出する音声検出手段と、前記音響信号の人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換手段と、前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較手段と、前記音声検出手段の検出結果と前記レベル比較手段の比較結果をもとに、前記音響信号のゲイン制御量を算出する増幅量算出手段と、算出された前記ゲイン制御量に従って前記音響信号のゲイン調整を行う音声増幅手段とを備える。
また、前記ラウドネスレベル変換手段は、前記音声検出手段が音声の区間を検出したときに、前記ラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、所定のサンプル数で構成されるフレーム単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換手段は、フレーズ単位でラウドネスレベルのピーク値を算出し、前記レベル比較手段は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記レベル比較手段は、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記音声検出手段は、前記音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出手段と、前記基本周波数変化検出手段によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定手段と、を備えてもよい。
本発明に係る方法は、ゲイン制御方法に関する。この方法は、所定時間バッファリングされた音響信号から、音声の区間を検出する音声検出工程と、前記音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換工程と、前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較工程と、前記音声検出工程の検出結果と前記レベル比較工程の比較結果をもとに、前記バッファリングされている音響信号のゲイン制御量を算出する増幅量算出工程と、前記音響信号に対して、算出された前記ゲイン制御量に従ってゲイン調整を行う音声増幅手段と、を備える。
また、前記ラウドネスレベル変換工程は、前記音声検出工程が音声の区間を検出したときに、前記ラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、所定のサンプリング数で構成されるフレーム単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出してもよい。
また、前記ラウドネスレベル変換工程は、フレーズ単位でラウドネスレベルのピーク値を算出し、前記レベル比較工程は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記レベル比較工程は、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較してもよい。
また、前記音声検出工程は、前記音響信号から、前記フレームごとに基本周波数を抽出する基本周波数抽出工程と、予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出工程と、前記基本周波数変化検出工程によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定工程と、を備えてもよい。
本発明に係る別の装置は、音声出力装置であって、上記のゲイン制御装置を備える。

本発明によれば、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減する技術を提供することができる。

実施形態に係る、音響信号処理装置の概略構成を示す機能ブロック図である。 実施形態に係る、音声検出部の概略構成を示す機能ブロック図である。 実施形態に係る、音響信号処理装置の動作を示すフローチャートである。 第1の変形例に係る、音響信号処理装置の動作を示すフローチャートである。 第2の変形例に係る、音響信号処理装置の動作を示すフローチャートである。

次に、本発明を実施するための形態(以下、「実施形態」という。)を、図面を参照して具体的に説明する。実施形態の概要は、次の通りである。つまり、1以上のチャンネルの入力信号において、セリフや会話の区間を検出する。なお、本実施形態では、人の声やそれ以外の音が含まれる信号を音響信号と呼び、音響信号のうちセリフや会話等の人の声にあたるものを音声と呼ぶ。また、音響信号のうち音声にあたる領域の信号を音声信号という。つぎに、検出された区間における音響信号のラウドネスレベルを算出し、そのレベルが予め定められたターゲットレベルに近づくように、検出された区間(または隣接区間)における信号の振幅を制御する。このようにすることによって、あらゆるコンテンツにおいて、セリフや会話の音量が一定となり、これによって視聴者は音量操作をすることなく常にセリフや会話の内容をより鮮明に聞き取ることができる。以下、具体的に説明する。

図1は、本実施形態に係る音響信号処理装置10の概略構成を示す機能ブロック図である。この音響信号処理装置10は、テレビやDVDプレーヤなど音声出力機能を有する機器に搭載される。

音響信号処理装置10は、上流側から下流側へ、音響信号入力部12と、音響信号記憶部14と、音響信号増幅部16と、音響信号出力部18とを備える。さらに、音響信号処理装置10は、音響信号記憶部14の出力を取得して音声信号を増幅するための計算を行う経路として、音声検出部20と音声増幅量算出部22とを備える。また、音響信号処理装置10は、ラウドネスレベルに応じて振幅を制御するための経路として、ラウドネスレベル変換部24と閾値・レベル比較部26とを備える。なお、上記の各構成要素は、例えばCPU、メモリ、メモリにロードされたプログラムなどによって実現され、ここではそれらの連携によって実現される構成を描いている。機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者に理解されるところである。

具体的には、音響信号入力部12は、音響信号の入力信号S_inを取得して音響信号記憶部14へ出力する。音響信号記憶部14は、音響信号入力部12より入力された音響信号を例えば1024サンプル(サンプリング周波数48kHz時約21.3ms)をバッファとして記憶する。この1024サンプルで構成される信号を以下、「1フレーム」という。

音声検出部20は、音響信号記憶部14にバッファされた音響信号がセリフまたは会話か否かを検出する。音声検出部20の構成及び処理については図2で後述する。

音声増幅量算出部22は、音声検出部20によってセリフまたは会話であると検出された場合は、閾値・レベル比較部26によって算出された差分レベルを打ち消す方向に音声増幅量を算出する。非会話音声と検出された場合は、音声増幅量算出部22は音声増幅量を0dBと、つまり増幅も減衰もさせないとする。

ラウドネスレベル変換部24は、音響信号記憶部14にバッファされた音響信号から人間の実聴感上の音量レベルであるラウドネスレベルに変換する。このラウドネスレベルの変換には、例えばITU−R(International Telecommunication Union Radiocommunications Sector) BS1770に開示されている技術を利用することができる。より具体的には、ラウドネス曲線で示される特性を反転させてラウドネスレベルが算出される。したがって、本実施形態では、フレーム平均のラウドネスレベルが用いられる。

閾値・レベル比較部26は、変換されたラウドネスレベルと予め設定されたターゲットレベルとを比較し、差分レベルを算出する。

音響信号増幅部16は、音響信号記憶部14にバッファされている音響信号を呼び出して、音声増幅量算出部22によって算出された増幅・減衰量だけ増幅・減衰を施して音響信号出力部18に出力する。そして、音響信号出力部18は、スピーカ等にゲイン調整後の信号S_outを出力する。

つぎに音声検出部20の構成及び処理について説明する。図2は、音声検出部20の概略構成を示す機能ブロック図である。本実施形態で適用する音声判別処理は、音響信号を前記のフレームに分割し、連続する複数フレームを周波数解析し、会話音声であるか非会話音声であるかを判定する。

そして、音声判別処理は、音響信号に、フレーズ成分またはアクセント成分が含まれている場合に音声信号と判断する。つまり、音声判定処理は、後述するフレームの基本周波数が、単調に変化(単調増加または単調減少)しているか、または、単調変化から一定周波数へ変化(すなわち、単調増加から一定周波数、または、単調減少から一定周波数へ変化)しているか、さらにまたは、一定周波数から単調変化へ変化(すなわち、一定周波数から単調増加、または、一定周波数から単調減少へ変化)していることが検出され、かつ、上記の基本周波数が予め定められた周波数の範囲内において変化しており、かつ、上記基本周波数の変化の幅が予め定められた幅より小さいとき、上記音響信号を音声と判定する。

音声であるとの判定は、以下の知見によるものである。つまり、上記基本周波数の変化が単調に変化している場合、人の声(音声)のフレーズ成分を表している可能性が高いことが確認できている。また、上記基本周波数が単調変化から一定周波数へ変化している場合、あるいは、上記基本周波数が一定周波数から単調変化へ変化している場合に、人の声のアクセント成分を表している可能性が高いことが確認できている。

人の声の基本周波数の帯域は、一般的に、約100Hz〜400Hzの間である。より詳細には、男性の声の基本周波数の帯域は、約150Hz±50Hzであり、女性の声の基本周波数の帯域は、約250Hz±50Hzである。また、子供の基本周波数の帯域は、女性よりも50Hzさらに高く、約300Hz±50Hzである。さらに、人の声のフレーズ成分、あるいは、アクセント成分の場合、基本周波数の変化の幅は、約120Hzである。

つまり、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値とが所定の範囲内にない場合、音声ではないと判定できる。また、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化している場合、基本周波数の最大値と最小値との差が所定の値よりも大きい場合にも、音声ではないと判定できる。

したがって、上記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化しているときに、基本周波数の変化が予め定められた周波数の範囲内における変化となっている場合(基本周波数の最大値と最小値とが所定の範囲内にある場合)であって、かつ、基本周波数の変化の幅が予め定められた周波数の幅より小さい場合(基本周波数の最大値と最小値との差が所定の値よりも小さい場合)、この音声判別処理は、フレーズ成分、あるいは、アクセント成分であると判定できる。しかも、上記の予め定められた周波数の範囲を男性の声、女性の声、子供の声に応じて設定すれば、男性の声、女性の声、子供の声を区別することもできる。

これにより、音響信号処理装置10の音声検出部20は、精度よく人の声を検出することができ、しかも、男性の声、女性の声の両方を検出することが可能であると共に、女性の声か子供の声かもある程度検出することが可能となる。

つづいて、上記の音声判別処理を実現する音声検出部20の具体的な構成について図2にもとづいて説明する。音声検出部20は、スペクトル変換部30と、縦軸対数変換部31と、周波数時間変換部32と、基本周波数抽出部33と、基本周波数保存部34と、LPF部35と、フレーズ成分解析部36と、アクセント成分解析部37と、音声/非音声判定部38とを備えている。

スペクトル変換部30は、音響信号記憶部14から取得した音響信号に対してフレーム単位でFFT(Fast Fourier Transform)を施し、時間領域の音声信号を周波数領域のデータ(スペクトル)に変換する。なお、FFTの処理に先立ち、周波数解析の誤差を低減するために、フレーム単位に分割された音響信号に対して、ハニング窓などの窓関数が適用されてもよい。

縦軸対数変換部31は、周波数軸を基底10の対数に変換する。周波数時間変換部32は、縦軸対数変換部31で対数変換されたスペクトラムに1024ポイントの逆FFTを施し、時間領域に変換する。なお変換された係数を「ケプストラム」という。そして、基本周波数抽出部33は、ケプストラムの高次側(概ねサンプリング周波数fs/800以上)の最大ケプストラムを求め、その逆数を基本周波数F0とする。基本周波数保存部34は、算出された基本周波数F0を保存する。以降の処理では基本周波数F0を5フレーム分使用するので、最低そのフレーム分だけは保存される必要がある。

LPF部35は、検出された基本周波数F0と、過去のフレームの基本周波数F0を基本周波数保存部34から取り出し、低域濾過する。低域濾過によって、基本周波数F0に対するノイズを除去することができる。

フレーズ成分解析部36は、低域濾過した過去5フレーム分の基本周波数F0が単調増加しているか、または単調減少しているかを解析し、増加又は減少の周波数帯域幅が所定値以内、例えば120Hz以内で遷移していればフレーズ成分であると判定する。

アクセント成分解析部37は、低域濾過した過去5フレーム分の基本周波数F0が単調増加からフラット(変化なし)への遷移、または、フラットから単調減少への遷移、または、フラットな遷移かを解析し、周波数帯域幅が120Hz以内で遷移していればアクセント成分であると判定する。

音声/非音声判定部38は、アクセント成分解析部37で上記フレーズ成分またはアクセント成分であると判断された場合に、音声シーンと判定し、上記どちらの条件も満たさない場合は、非音声シーンと判定する。

以上の構成による音響信号処理装置10の動作について説明する。図3は、音響信号処理装置10の動作を示すフローチャートである。

音響信号処理装置10の音響信号入力部12に入力された音響信号は、音響信号記憶部14にバッファされ、音声検出部20は、そのバッファされた音響信号に音声が含まれるか否かを判別する上述の音声判別処理を実行する(S10)。つまり、音声検出部20は、上述のように所定のフレーム数のデータを解析して、音声シーンであるかそれとも非音声シーンであるかを判定する。

つぎに、音声が検出されなかった場合(S12のN)、音声増幅量算出部22は、現在設定されているゲインが0dBであるか否かを確認する(S14)。ゲインが0dBである場合(S14のY)、当該フローによる処理は終了し、次のフレームに関してS10から再度処理を行う。ゲインが0dBでない場合(S14のN)、音声増幅量算出部22は、所定のリリース時間でゲインを0dBに戻すための、1サンプル毎のゲイン変化量を算出する(S16)。算出されたゲイン変化量は、音響信号増幅部16に通知され、音響信号増幅部16は、そのゲイン変化量を設定されているゲインに反映させゲインを更新する(S18)。これによって、非音声シーンであり、かつ設定されているゲインが0dBでないときの処理が終了する。

S12の処理で音声が検出されたと判断されたとき(S12のY)、ラウドネスレベル変換部24は、ラウドネスレベルを算出する(S20)。つぎに、閾値・レベル比較部26は、予め設定した音声のターゲットレベルとの差分を算出する(S22)。つぎに、音声増幅量算出部22は、算出した差分と予め定めら得たレシオにしたがって、実際に反映させるゲイン量(ターゲットゲイン)を算出する(S24)。つまり、上記のレシオは、算出された差分を次に説明するゲイン変化量にどの程度反映させるかが設定されている。そして、音声増幅量算出部22は、現在のターゲットゲインから設定されているアタック時間にしたがって、ゲイン変化量を算出する(S26)。つづいて、音響信号増幅部16は、音声増幅量算出部22が算出したゲイン変化量を用いて、ゲインを更新する(S18)。

以上の構成及び処理によると、音響信号に音声(人の声)が含まれる場合に、人間の実聴感上の音量レベルであるラウドネスレベルをもとに増幅処理を行うことで、コンテンツの会話等を聞き取りやすくすることができる。また、視聴者は、音量操作をすることがないため、コンテンツの視聴を妨げられることがない。つまり、コンテンツにおける会話・セリフの音量が略一定となるように入力信号を調整することによって、視聴者の音量操作負担を軽減することができる。

つぎに、図3のフローチャートで示した処理の第1の変形例について図4のフローチャートをもとに説明する。この第1の変形例では、上記の処理のラウドネスレベル算出処理(S20)の後に、並列処理として、ゲイン変化量を算出する第1系統の処理(S21〜S26)と、ピーク値を算出する第2系統の処理(S31〜S33)とを行う。

ここでフレーズは、音声が検出されてから検出されなくなるまでの期間を指す。そして本変形例では、音声増幅量算出部22は、フレーム平均のラウドネスレベルではなく、フレーズ毎にラウドネスレベルのピーク値を検出して、現在のターゲットレベルと前回のフレーズにおけるラウドネスレベルのピーク値との差分を算出し、その差分に応じてターゲットゲインを算出する。なお、図3のフローチャートと同様の処理については、説明を簡略化して説明する。

音声検出部20が音声判別処理を行い(S10)、音声を検出しなかった場合は(S12のN)、上述したように、ゲインの確認処理(S14)、ゲインが0dBでない場合(S14のN)におけるゲイン変化量の算出処理(S16)、そのゲイン変化量を設定されているゲインに反映させゲインを更新処理(S18)がなされる。

音声が検出された場合は(S12のY)、フレーズのピークレベル値検出処理に移る。まず、ラウドネスレベル算出処理(S20)がなされる。なお、S10の音声検出処理は、音声が検出された区間を、音響信号記憶部14に記憶される音響信号に関連づけて所定の記憶領域(音響信号記憶部14や図示しない作業記憶領域など)に記憶する。つまり、S10の音声検出処理においてフレーズが特定される。ラウドネスレベル変換部24では、フレーズにおけるラウドネスレベルのピーク値を算出する。

つぎに、ゲイン変化量を算出する第1系統の処理(S21〜S26)と、ピーク値を算出する第2系統の処理(S31〜S33)が並列処理として行われる。まず、第1系統の処理(S21〜S26)において、閾値・レベル比較部26は、前フレーズのピーク値のデータが存在するか否かを確認する(S21)。ピーク値が存在しない場合は(S21のN)、上述のS14の以降の処理へ移る。なお、本変形例では、例えば、テレビにおいて番組が切り替わったときや、DVDプレーヤにおいて新たなコンテンツが再生されるときに、ピーク値等の変数は初期化されるものとする。したがって、コンテンツが新たに再生されるときは、ピーク値が存在しない。

前フレーズのピーク値のデータが存在する場合(S21のY)、音声増幅量算出部22は、予め設定したターゲットレベルと前回のフレーズのピーク値との差分を算出し(S22)、設定されているレシオにしたがってターゲットゲインを算出し(S24)、さらに、設定されているアタック時間にしたがって1サンプル毎のゲイン変化量を算出する(S26)。そして音響信号増幅部16が、算出されたゲイン変化量にゲインを更新する(S18)。これによって、第1系統の処理が終了する。

一方、並列処理のもう一方の処理である第2系統の処理(S31〜S33)では、閾値・レベル比較部26は、フレーズの最初のフレームであるか否かを確認する(S31)。フレーズの最初のフレームである場合(S31のY)、その算出されたラウドネスレベルをフレーズ内での初期ピーク値とし、ピーク値を更新する(S32)。最初のフレームでない場合(S31のN)、閾値・レベル比較部26は、算出されたラウドネスレベルと前フレーム迄の仮ピーク値とを比較する(S33)。算出されたラウドネスレベルが前フレーム迄の仮ピーク値より大きい場合(S33のY)、その算出されたラウドネスレベルを現フレーム迄の仮ピーク値とし、ピーク値を更新し(S32)、算出されたラウドネスレベルが前フレーム迄の仮ピーク値以下の場合(S33のN)、ピーク値は更新せずに終了する。

以上、本変形例によれば、上述の実施形態と同様の効果が実現できる。さらに、フレーズ単位でターゲットレベルとの差分を反映させるように構成されるため、ゲイン制御にともなう出力のふらつき発生を防止することできる。よって、視聴者は、ゲイン制御がなされていることを意識しないで、違和感のない視聴が可能になる。なお、音響信号処理装置10の処理速度が十分に速い場合や最終的な信号出力までの処理時間の経過が問題にならないような場合には、一つ前のフレーズのピーク値を用いずに、現在のフレーズのピーク値を用いても良い。ただし、コンテンツ間のラウドネスレベルの平均化という観点では、一つ前のフレーズのピーク値を用いても、充分に効果が得られる。

つぎに、第2の変形例について図5のフローチャートをもとに説明する。第1の変形例では、音声が検出された際、増幅量の算出は前フレーズのピーク値を用いて行った。しかし第2の変形例にあっては、現フレーズの仮ピーク値が前フレーズのピーク値を超えた場合には、現フレーズの仮ピーク値を元に増幅量を算出する。なお、図4のフローチャートと同様の処理については、説明を簡略化して説明する。

まず、音声検出部20が音声判別処理を行い(S10)、音声を検出しなかった場合は(S12のN)、ゲインの確認処理(S14)、ゲインが0dBでない場合(S14のN)におけるゲイン変化量の算出処理(S16)、そのゲイン変化量を設定されているゲインに反映させゲインを更新処理(S18)がなされる。

音声が検出された場合は(S12のY)、フレーズのピークレベル値検出処理に移る。まず、ラウドネスレベル算出処理(S20)がなされ、つづいて、並列処理によって、ゲイン変化量を算出する第1系統の処理(S21〜S26)とピーク値を算出する第2系統の処理(S31〜S33)とが行われる。

まず、第1系統の処理(S21〜S26)において、閾値・レベル比較部26は、前フレーズのピーク値のデータが存在するか否かを確認する(S21)。ピーク値が存在しない場合は(S21のN)、上述のS14の以降の処理へ移る。

前フレーズのピーク値のデータが存在する場合(S21のY)、S22の処理に先立ち、S22の差分量算出の処理に用いるピーク値を特定する(S21a)。具体的には、閾値・レベル比較部26は、前回までのフレーズのピーク値(以下、「旧ピーク値」という)と現フレーズのピーク値(以下、「新ピーク値」という)とを比較し、旧ピーク値が新ピーク値より大きい場合は、差分量算出の処理に用いるピーク値として旧ピーク値を選定し、旧ピーク値が新ピーク値以下の場合は、差分量算出の処理に用いるピーク値として新ピーク値を選定する。つづいて、音声増幅量算出部22は、予め設定したターゲットレベルとS21aの処理で特定されたピーク値との差分を算出し(S22)、設定されているレシオにしたがってターゲットゲインを算出し(S24)、さらに、設定されているアタック時間にしたがって1サンプル毎のゲイン変化量を算出する(S26)。そして音響信号増幅部16が、算出されたゲイン変化量にゲインを更新する(S18)。

また、並列処理のもう一方の処理である第2系統の処理(S31〜S33)では、第1の変形例と同様に、フレーズの最初のフレームであるかの確認処理(S31)、ピーク値を更新処理(S32)、算出されたラウドネスレベルと前フレーム迄の仮ピーク値との比較処理(S33)がなされる。

このような処理とすることで、前フレーズよりも現フレーズのピーク値が大きい場合に、不要な増幅を抑えることができる。

以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

10 音響信号処理装置
12 音響信号入力部
14 音響信号記憶部
16 音響信号増幅部
18 音響信号出力部
20 音声検出部
22 音声増幅量算出部
24 ラウドネスレベル変換部
26 閾値・レベル比較部
30 スペクトル変換部
31 縦軸対数変換部
32 周波数時間変換部
33 基本周波数抽出部
34 基本周波数保存部
35 LPF部
36 フレーズ成分解析部
37 アクセント成分解析部
38 音声/非音声判定部

Claims (15)

  1. 音響信号から音声の区間を検出する音声検出手段と、
    前記音響信号の人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換手段と、
    前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較手段と、
    前記音声検出手段の検出結果と前記レベル比較手段の比較結果をもとに、前記音響信号のゲイン制御量を算出する増幅量算出手段と、
    算出された前記ゲイン制御量に従って前記音響信号のゲイン調整を行う音声増幅手段と
    を備えることを特徴とするゲイン制御装置。
  2. 前記ラウドネスレベル変換手段は、前記音声検出手段が音声の区間を検出したときに、前記ラウドネスレベルを算出することを特徴とする請求項1に記載のゲイン制御装置。
  3. 前記ラウドネスレベル変換手段は、所定のサンプル数で構成されるフレーム単位でラウドネスレベルを算出することを特徴とする請求項1または2に記載のゲイン制御装置。
  4. 前記ラウドネスレベル変換手段は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出することを特徴とする請求項1または2に記載のゲイン制御装置。
  5. 前記ラウドネスレベル変換手段は、フレーズ単位でラウドネスレベルのピーク値を算出し、
    前記レベル比較手段は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項4に記載のゲイン制御装置。
  6. 前記レベル比較手段は、
    現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、
    現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項5に記載のゲイン制御装置。
  7. 前記音声検出手段は、前記音響信号から、フレームごとに基本周波数を抽出する基本周波数抽出手段と、
    予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出手段と、
    前記基本周波数変化検出手段によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定手段と、
    を備えていることを特徴とする請求項1から6までのいずれかに記載のゲイン制御装置。
  8. 所定時間バッファリングされた音響信号から、音声の区間を検出する音声検出工程と、
    前記音響信号から人間の実聴感上の音量レベルであるラウドネスレベルを算出するラウドネスレベル変換工程と、
    前記算出されたラウドネスレベルと所定のターゲットレベルとを比較するレベル比較工程と、
    前記音声検出工程の検出結果と前記レベル比較工程の比較結果をもとに、前記バッファリングされている音響信号のゲイン制御量を算出する増幅量算出工程と、
    前記音響信号に対して、算出された前記ゲイン制御量に従ってゲイン調整を行う音声増幅手段と、
    を備えることを特徴とするゲイン制御方法。
  9. 前記ラウドネスレベル変換工程は、前記音声検出工程が音声の区間を検出したときに、前記ラウドネスレベルを算出することを特徴とする請求項8に記載のゲイン制御方法。
  10. 前記ラウドネスレベル変換工程は、所定のサンプリング数で構成されるフレーム単位でラウドネスレベルを算出することを特徴とする請求項8または9に記載のゲイン制御方法。
  11. 前記ラウドネスレベル変換工程は、音声の区間の単位であるフレーズ単位でラウドネスレベルを算出することを特徴とする請求項8または9に記載のゲイン制御方法。
  12. 前記ラウドネスレベル変換工程は、フレーズ単位でラウドネスレベルのピーク値を算出し、
    前記レベル比較工程は、前記ラウドネスレベルのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項11に記載のゲイン制御方法。
  13. 前記レベル比較工程は、
    現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値を超えた場合に、現フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較し、
    現フレーズのラウドネスのピーク値が前フレーズのラウドネスのピーク値以下である場合に、前フレーズのラウドネスのピーク値と前記所定のターゲットレベルを比較することを特徴とする請求項12に記載のゲイン制御方法。
  14. 前記音声検出工程は、前記音響信号から、前記フレームごとに基本周波数を抽出する基本周波数抽出工程と、
    予め定められた数の連続する複数フレームにおける前記基本周波数の変化を検出する基本周波数変化検出工程と、
    前記基本周波数変化検出工程によって、前記基本周波数が単調に変化しているか、または、単調変化から一定周波数へ変化しているか、または、一定周波数から単調変化へ変化していることが検出され、かつ、前記基本周波数が予め定められた周波数の範囲内において変化しており、かつ、前記基本周波数の変化の幅が予め定められた周波数の幅より小さいとき、前記音響信号を音声と判定する音声判定工程と、
    を備えていることを特徴とする請求項8から13のいずれかに記載のゲイン制御方法。
  15. 請求項1から7までのいずれかに記載のゲイン制御装置を備えることを特徴とする音声出力装置。
JP2011513249A 2009-05-14 2010-05-13 ゲイン制御装置及びゲイン制御方法、音声出力装置 Granted JPWO2010131470A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009117702 2009-05-14
JP2009117702 2009-05-14
PCT/JP2010/003245 WO2010131470A1 (ja) 2009-05-14 2010-05-13 ゲイン制御装置及びゲイン制御方法、音声出力装置

Publications (1)

Publication Number Publication Date
JPWO2010131470A1 true JPWO2010131470A1 (ja) 2012-11-01

Family

ID=43084855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011513249A Granted JPWO2010131470A1 (ja) 2009-05-14 2010-05-13 ゲイン制御装置及びゲイン制御方法、音声出力装置

Country Status (4)

Country Link
US (1) US20120123769A1 (ja)
JP (1) JPWO2010131470A1 (ja)
CN (1) CN102422349A (ja)
WO (1) WO2010131470A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
JP5859218B2 (ja) * 2011-03-31 2016-02-10 富士通テン株式会社 音響装置および音量補正方法
US9135929B2 (en) 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
CN103491492A (zh) * 2012-02-06 2014-01-01 杭州联汇数字科技有限公司 教室补声方法
US9099972B2 (en) 2012-03-13 2015-08-04 Motorola Solutions, Inc. Method and apparatus for multi-stage adaptive volume control
CN103684303B (zh) * 2012-09-12 2018-09-04 腾讯科技(深圳)有限公司 一种音量控制方法、装置及终端
US9349384B2 (en) * 2012-09-19 2016-05-24 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
CN103841241B (zh) * 2012-11-21 2017-02-08 联想(北京)有限公司 音量调整方法及装置
KR101602273B1 (ko) * 2013-04-03 2016-03-21 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
KR101583294B1 (ko) * 2013-04-03 2016-01-07 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
KR101603992B1 (ko) * 2013-04-03 2016-03-16 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
US9842608B2 (en) * 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
CN106354469B (zh) * 2016-08-24 2019-08-09 北京奇艺世纪科技有限公司 一种响度调节方法及装置
CN106534563A (zh) * 2016-11-29 2017-03-22 努比亚技术有限公司 一种声音调节方法、装置及终端
US10154346B2 (en) * 2017-04-21 2018-12-11 DISH Technologies L.L.C. Dynamically adjust audio attributes based on individual speaking characteristics
WO2019026286A1 (ja) * 2017-08-04 2019-02-07 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
US10171877B1 (en) 2017-10-30 2019-01-01 Dish Network L.L.C. System and method for dynamically selecting supplemental content based on viewer emotions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61180296A (en) * 1985-02-06 1986-08-12 Toshiba Corp Voice recognition equipment
JPH08292787A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 音声・非音声判別方法
JP2000152394A (ja) * 1998-11-13 2000-05-30 Matsushita Electric Ind Co Ltd 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP2000181477A (ja) * 1998-12-14 2000-06-30 Olympus Optical Co Ltd 音声処理装置
WO2008051347A2 (en) * 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5442712A (en) * 1992-11-25 1995-08-15 Matsushita Electric Industrial Co., Ltd. Sound amplifying apparatus with automatic howl-suppressing function
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
JP3627189B2 (ja) * 2003-04-02 2005-03-09 博司 関口 音響電子回路の音量調節方法
DK1629463T3 (da) * 2003-05-28 2007-12-10 Dolby Lab Licensing Corp Fremgangsmåde, apparat og computerprogram til beregning og justering af den opfattede styrke af et audiosignal
JP4328601B2 (ja) * 2003-11-20 2009-09-09 クラリオン株式会社 音声処理装置、編集装置、制御プログラム及び記録媒体
JP4260046B2 (ja) * 2004-03-03 2009-04-30 アルパイン株式会社 音声明瞭度改善装置及び音声明瞭度改善方法
EP1729410A1 (en) * 2005-06-02 2006-12-06 Sony Ericsson Mobile Communications AB Device and method for audio signal gain control
BRPI0709877A2 (pt) * 2006-04-04 2011-07-26 Dolby Lab Licensing Corp cÁlculo e ajuste de intensidade acéstica percebida e/ou do equilÍbrio espectral percebido de um sinal de Áudio
US7818168B1 (en) * 2006-12-01 2010-10-19 The United States Of America As Represented By The Director, National Security Agency Method of measuring degree of enhancement to voice signal
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
PL2162879T3 (pl) * 2007-06-19 2013-09-30 Dolby Laboratories Licensing Corp Pomiar głośności z modyfikacjami widmowymi
EP2009786B1 (en) * 2007-06-25 2015-02-25 Harman Becker Automotive Systems GmbH Feedback limiter with adaptive control of time constants
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
JP5219522B2 (ja) * 2008-01-09 2013-06-26 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61180296A (en) * 1985-02-06 1986-08-12 Toshiba Corp Voice recognition equipment
JPH08292787A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 音声・非音声判別方法
JP2000152394A (ja) * 1998-11-13 2000-05-30 Matsushita Electric Ind Co Ltd 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP2000181477A (ja) * 1998-12-14 2000-06-30 Olympus Optical Co Ltd 音声処理装置
WO2008051347A2 (en) * 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset

Also Published As

Publication number Publication date
US20120123769A1 (en) 2012-05-17
WO2010131470A1 (ja) 2010-11-18
CN102422349A (zh) 2012-04-18

Similar Documents

Publication Publication Date Title
EP1709734B1 (en) System for audio signal processing
CN101432965B (zh) 使用基于特性响度的听觉事件检测的音频增益控制
US9197181B2 (en) Loudness enhancement system and method
US8612222B2 (en) Signature noise removal
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
ES2281816T3 (es) Sistema y metodo para procesamiento de señal de audio.
JP3453898B2 (ja) 音声信号の雑音低減方法及び装置
JP4981123B2 (ja) オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整
CN102197422B (zh) 使用传感器阵列进行音频源接近度估计以用于减少噪音
US20090281805A1 (en) Integrated speech intelligibility enhancement system and acoustic echo canceller
JP2007011330A (ja) スピーチ信号の適合する強化のためのシステム
RU2440627C2 (ru) Повышение разборчивости речи в звукозаписи развлекательных программ
US20060126865A1 (en) Method and apparatus for adaptive sound processing parameters
JP4219898B2 (ja) 音声強調装置
JP2004507141A (ja) 音声強調システム
EP2151920B1 (en) A method and an apparatus for processing an audio signal
JP5149999B2 (ja) 補聴器,ならびに過渡音の検出および減衰方法
EP2631907A1 (en) Method and apparatus for audio intelligibility enhancement
JP2010016429A (ja) ハウリング検出装置およびハウリング検出方法
JP2005027273A (ja) 音声補正装置
JP5236006B2 (ja) 音声信号調整装置及び音声信号調整方法
KR20050057045A (ko) 스피치 및 이외 다른 유형들의 오디오 자료를 포함하는 오디오 신호들에서 스피치의 세기 조절
CN101669284A (zh) 移动音频装置的自动音量及动态范围调整
JP2002149200A (ja) 音声処理装置及び音声処理方法
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131105