JPWO2010146711A1 - 音声信号処理装置及び音声信号処理方法 - Google Patents

音声信号処理装置及び音声信号処理方法 Download PDF

Info

Publication number
JPWO2010146711A1
JPWO2010146711A1 JP2011519388A JP2011519388A JPWO2010146711A1 JP WO2010146711 A1 JPWO2010146711 A1 JP WO2010146711A1 JP 2011519388 A JP2011519388 A JP 2011519388A JP 2011519388 A JP2011519388 A JP 2011519388A JP WO2010146711 A1 JPWO2010146711 A1 JP WO2010146711A1
Authority
JP
Japan
Prior art keywords
audio signal
spectrum
noise
frequency
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011519388A
Other languages
English (en)
Other versions
JP5293817B2 (ja
Inventor
猛 大谷
猛 大谷
太郎 外川
太郎 外川
鈴木 政直
政直 鈴木
大田 恭士
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2010146711A1 publication Critical patent/JPWO2010146711A1/ja
Application granted granted Critical
Publication of JP5293817B2 publication Critical patent/JP5293817B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声信号処理装置は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出する時間周波数変換部と、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、そのスペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定する判定部を有する。

Description

ここに開示される実施形態は、音声信号処理装置及び音声信号処理方法に関する。
近年、携帯電話機など、音声を再生する装置には、再生音の音質を向上するために、受信した音声信号に含まれるノイズを抑制するノイズサプレッサが搭載されている。再生音の音質を向上するためには、ノイズサプレッサが、話者の音声など、本来再生されるべき音声信号と、ノイズとを正確に区別することが望ましい。
そこで、音声信号の周波数スペクトルを解析することにより、音声信号に含まれる音の種別を判別する技術が開発されている(例えば、特許文献1〜3を参照)。
しかし、バックグラウンドにおいて会話する複数の人の話し声が合成されたノイズであるバブルノイズ(babble noise)を検出することは難しい。そのため、音声信号にバブルノイズが含まれている場合、ノイズサプレッサは、バブルノイズを効果的に抑制することができないことがあった。
そこで、バブルノイズを他のノイズとは別個に検出する技術が提案されている(例えば、特許文献4を参照)。
特開2004−240214号公報 特開2004−354589号公報 特開平9−90974号公報 特開平5−291971号公報
バブルノイズを検出する公知の技術では、例えば、入力された音声信号の周波数成分が下記の判別条件を満たす場合に、入力された音声信号にバブルノイズが含まれると判定される。この判別条件は、1kHz以下の周波数範囲に含まれる低域成分の電力が高く、1kHzよりも高い周波数範囲に含まれる高域成分の電力が0でなく、かつ高域成分の電力変動が通常会話に関連するレートよりも高いというものである。
しかしながら、バブルノイズとは異なる音源から発生した音が上記の判別条件を満たすこともある。例えば、携帯電話機を使用する話者の背後を通過する車のように、音声信号を集音するマイクロフォンに対して相対的に高速で移動する音源が存在する場合、その音源が発生する音の音量は短期間に大きく変動する。そのため、マイクロフォンに対して相対的に高速で移動する音源が発生した音、あるいはその音源が発生した音と話者の音声が混合された音が上記の判別条件を満たしてしまい、バブルノイズと誤って判定されるおそれがあった。
そして、バブルノイズと異なる音声が誤ってバブルノイズと判定されてしまうと、ノイズサプレッサは、適切にノイズを抑制できないので、再生音の音質が低下してしまうおそれがあった。
そこで、本明細書は、音声信号にバブルノイズが含まれるか否かを正確に判別可能な音声信号処理装置及び音声信号処理方法を提供することを目的とする。
一つの実施形態によれば、音声信号処理装置が提供される。この音声信号処理装置は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出する時間周波数変換部と、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、そのスペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定する判定部を有する。
他の実施形態によれば、音声信号処理方法が提供される。この音声信号処理方法は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出し、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出し、スペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定することを含む。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声信号処理装置及び音声信号処理方法は、音声信号にバブルノイズが含まれるか否かを正確に判別することができる。
図1は、第1の実施形態による音声信号処理装置が実装された電話機の概略構成図である。 図2(a)は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図2(b)は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。 図3は、第1の実施形態による、音声信号処理装置の概略構成図である。 図4は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す図である。 図5は、第2〜第4の実施形態による音声信号処理装置が実装された電話機の概略構成図である。 図6は、第2の実施形態による、音声信号処理装置の概略構成図である。 図7は、入力された音声信号に対する強調処理の動作フローチャートを示す図である。 図8は、第3の実施形態による、音声信号処理装置の概略構成図である。 図9は、第4の実施形態による、音声信号処理装置の概略構成図である。
以下、図を参照しつつ、第1の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号に含まれるノイズのパワーを低減することで、再生音の音質向上を図る。
図1は、第1の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図1に示されるように、電話機1は、呼制御部10と、通信部11と、マイクロフォン12と、増幅器13、17と、符号化部14と、復号部15と、音声信号処理装置16と、スピーカ18とを有する。
このうち、呼制御部10、通信部11、符号化部14、復号部15及び音声信号処理装置16は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として電話機1に実装されてもよい。さらに、これらの各部は、電話機1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
呼制御部10は、電話機1が有するキーパッドなどの操作部(図示せず)を介したユーザの操作により通話処理が開始されると、電話機1と交換機あるいはSession Initiation Protocol(SIP)サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。そして呼制御部10は、その呼制御処理の結果に応じて、通信部11に対して動作の開始または終了を指示する。
通信部11は、マイクロフォン12により集音され、符号化14により符号化された音声信号を、所定の通信規格に従った送信用信号に変換する。そして通信部11は、その送信用信号を通信回線へ出力する。また、通信部11は、通信回線から所定の通信形式に従った信号を受信し、その受信した信号から符号化された音声信号を取り出す。そして通信部11は、符号化された音声信号を復号部15へ渡す。なお、所定の通信規格は、例えば、インターネットプロトコル(Internet Protocol、IP)とすることができ、送信用信号及び受信信号は、IPパケット化された信号とすることができる。
符号化部14は、マイクロフォン12により集音され、増幅器13により増幅され、かつアナログ−デジタル変換器(図示せず)によりアナログ−デジタル変換された音声信号を符号化する。そのために、符号化部14は、例えば、国際電気通信連合 電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
符号化部14は、符号化された音声信号を通信部11へ渡す。
復号部15は、通信部11から受け取った符号化された音声信号を復号する。そして復号部15は、復号した音声信号を音声信号処理装置16へ渡す。
音声信号処理装置16は、復号部15から受け取った音声信号を解析し、その音声信号に含まれるノイズを抑制する。また音声信号処理装置16は、復号部15から受け取った音声信号に含まれるノイズがバブルノイズか否か判定する。そして音声信号処理装置16は、音声信号に含まれるノイズの種別に応じて異なるノイズ抑制処理を実行する。
音声信号処理装置16は、ノイズ抑制処理が施された音声信号を増幅器17へ出力する。
増幅器17は、音声信号処理装置16から受け取った音声信号を増幅する。そして増幅器17から出力された音声信号は、デジタル−アナログ変換器(図示せず)によりデジタル−アナログ変換される。そしてアナログ化された音声信号はスピーカ18に入力される。
スピーカ18は、増幅器17から受け取った音声信号を再生する。
ここで、バブルノイズの特性と他のノイズ、例えば、定常ノイズの特性の違いについて説明する。
図2(a)は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図2(b)は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。
図2(a)及び図2(b)において、横軸は周波数を表し、縦軸はノイズの周波数スペクトルの振幅の強度を表す。また図2(a)において、グラフ201は、時刻tにおけるバブルノイズの周波数スペクトルの波形の一例を表す。一方、グラフ202は、時刻tよりも所定時間前の時刻(t-1)におけるバブルノイズの周波数スペクトルの波形の一例を表す。また、図2(b)において、グラフ211は、時刻tにおける定常ノイズの周波数スペクトルの波形の一例を表す。一方、グラフ212は、時刻(t-1)における定常ノイズの周波数スペクトルの波形の一例を表す。
バブルノイズは、複数の人の声が合成されたものであるため、ピッチ周波数の異なる複数の音声信号が重なり合ったものとなる。そのため、周波数スペクトルは、短期間に大きく変動する。特に、重なり合う人の声が増えるほど、周波数スペクトルも大きく変化する傾向がある。従って、図2(a)に示されるように、時刻tにおけるバブルノイズの周波数スペクトルの波形201と時刻(t-1)におけるバブルノイズの周波数スペクトルの波形202は大きく異なる。
これに対し、定常ノイズの波形は、短期間の間にはあまり変動しない。そのため、図2(b)に示されるように、時刻tにおける定常ノイズの周波数スペクトルの波形211と時刻(t-1)における定常ノイズの周波数スペクトルの波形212はほぼ等しい。例え、ノイズを生じる音源と、音声を集音するマイクロフォン間の距離が時刻tと時刻(t-1)の間に変化したとしても、周波数スペクトルの強度は全体的に強くなるか弱くなるものの、定常ノイズの周波数スペクトルの波形そのものの変化は少ない。
そこで、音声信号処理装置16は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、入力された音声信号に含まれるノイズがバブルノイズか否か判定できる。
図3は、音声信号処理装置16の概略構成図を示す。図3に示されるように、音声信号処理装置16は、時間周波数変換部161と、パワースペクトル算出部162と、ノイズ推定部163と、音声信号判別部164と、ゲイン算出部165と、フィルタ部166と、周波数時間変換部167とを有する。音声信号処理装置16が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置16が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置16に実装されてもよい。さらに、音声信号処理装置16が有するこれらの各部は、音声信号処理装置16が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部161は、音声信号処理装置16に入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。時間周波数変換部161は、入力音声信号を周波数スペクトルに変換するために、例えば、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
時間周波数変換部161は、周波数スペクトルをパワースペクトル算出部162へ渡す。
パワースペクトル算出部162は、時間周波数変換部161から周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。
なお、パワースペクトル算出部162は、次式に従ってパワースペクトルを算出する。
Figure 2010146711
ここでfは周波数であり、関数X(f)は周波数fに対する周波数スペクトルの振幅を表す関数である。また関数S(f)は、周波数fに対するパワースペクトルの強度を表す関数である。
パワースペクトル算出部162は、算出されたパワースペクトルを、ノイズ推定部163、音声信号判別部164及びゲイン算出部165へ出力する。
ノイズ推定部163は、各フレームのパワースペクトルを受け取る度に、そのパワースペクトルから、音声信号に含まれるノイズ成分に相当する推定ノイズスペクトルを算出する。一般に、ノイズの音源と電話機1に入力される音声信号を集音するマイクロフォン間の距離は、マイクロフォンとそのマイクロフォンに向かって話す話者間の距離よりも遠い。そのため、ノイズ成分のパワーは、話者の音声のパワーよりも小さい。そこで、ノイズ推定部163は、電話機1に入力された音声信号の各フレームのうち、パワースペクトルが小さいフレームについて、入力信号が含まれる周波数帯域を複数に分割したサブ周波数帯域ごとにパワーの平均値を求めることにより、推定ノイズスペクトルを算出する。なお、サブ周波数帯域の幅は、例えば、0Hz〜8kHzの範囲を1024等分あるいは256等分した幅とすることができる。
具体的には、ノイズ推定部163は、フレームの時間順に従って、最新のフレームについて、電話機1に入力された音声信号が含まれる周波数帯域全体のパワースペクトルの平均値pを次式に従って算出する。
Figure 2010146711
ここでMは、サブ周波数帯域の数である。またflowは、最も低いサブ周波数帯域を表し、fhighは、最も高いサブ周波数帯域を表す。次に、ノイズ推定部163は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。なお、閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。そしてノイズ推定部163は、平均値pが閾値Thr未満である場合、各サブ周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームに対する推定ノイズスペクトルNm(f)を算出する。
Figure 2010146711
ただし、Nm-1(f)は、最新のフレームよりも一つ前のフレームに対する推定ノイズスペクトルであり、ノイズ推定部163が有するバッファから読み込まれる。また、係数αは、例えば、0.9〜0.99の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、ノイズ推定部163は推定ノイズスペクトルを更新しない。すなわち、ノイズ推定部163はNm(f)=Nm-1(f)とする。
なお、ノイズ推定部163は、パワースペクトルの平均値pを算出する代わりに、全てのサブ周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
ノイズ推定部163は、推定ノイズスペクトルをゲイン算出部165へ出力する。また、ノイズ推定部163は、最新のフレームに対する推定ノイズスペクトルを、ノイズ推定部163が有するバッファに記憶する。
音声信号判別部164は、各フレームのパワースペクトルを受け取る度に、そのフレームに含まれるノイズの種別を判別する。そのために、音声信号判別部164は、スペクトル正規化部171と、波形変化量算出部172と、バッファ173と、判定部174とを有する。
スペクトル正規化部171は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部171は、次式に従って各サブ周波数帯域におけるパワースペクトルの平均値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出する。
Figure 2010146711
あるいは、スペクトル正規化部171は、次式に従って各サブ周波数帯域におけるパワースペクトルの最大値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出してもよい。
Figure 2010146711
ただし、関数max(S(f))は、サブ周波数帯域flowからfhighの範囲に含まれる各サブ周波数帯域に対するパワースペクトルの最大値を出力する関数である。
スペクトル正規化部171は、正規化パワースペクトルを波形変化量算出部172へ出力する。またスペクトル正規化部171は、正規化パワースペクトルをバッファ173に記憶する。
波形変化量算出部172は、正規化パワースペクトルの波形の時間方向における変化量を波形変化量として算出する。図2(a)及び図2(b)に関して説明したように、バブルノイズの周波数スペクトルの波形は、定常ノイズの周波数スペクトルの波形よりも短期間で変動する。そのため、この波形の変化量は、音声信号に含まれるノイズの種別を判別する有用な情報となる。
そこで、波形変化量算出部172は、スペクトル正規化部171から最新のフレームの正規化パワースペクトルS'm(f)を受け取ると、バッファ173から一つ前のフレームの正規化パワースペクトルS'm-1(f)を読み出す。そして波形変化量算出部172は、次式に従って、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の絶対値の合計を、波形変化量Δとして算出する。
Figure 2010146711
なお、波形変化量算出部172は、波形変化量Δを、各サブ周波数帯域における最新のフレームの正規化パワースペクトルと、最新のフレームから2以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。なお、所定数は、例えば、2〜5の何れかとすることができる。このように波形変化量を算出するための二つのフレーム間の時間間隔を設定することにより、複数の人の声が合成されたバブルノイズに対する波形変化量と、一人の話者の声の波形変化量とを区別することが容易となる。
また、波形変化量算出部172は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の2乗和としてもよい。
波形変化量算出部172は、波形変化量Δを判定部174へ出力する。
バッファ173は、最新のフレームから所定数前のフレームまでの正規化パワースペクトルを記憶する。そしてバッファ173は、その所定数よりも過去の正規化パワースペクトルを消去する。
判定部174は、最新のフレームに対する音声信号にバブルノイズが含まれるか否か判定する。
上記のように、音声信号にバブルノイズが含まれれば、波形変化量Δは大きく、音声信号にバブルノイズが含まれなければ、波形変化量Δは小さい。
そこで、判定部174は、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームに対する音声信号にバブルノイズが含まれると判定する。一方、判定部174は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームに対する音声信号にはバブルノイズが含まれないと判定する。なお、所定の閾値Thwは、一人の声の相当する波形変化量に設定されることが好ましい。バブルノイズのピッチ周波数は、一人の声よりもピッチ周波数の短いため、このように閾値Thwが設定されることにより、判定部174はバブルノイズを正確に検出することができる。また、所定の閾値Thwは、実験的に求められた最適値に設定されてもよい。例えば、所定の閾値Thwは、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の絶対値和である場合、2dB〜3dBの何れかの値とすることができる。また、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の2乗和である場合には、所定の閾値Thwは、4dB〜9dBの何れかの値とすることができる。
判定部174は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部165へ通知する。
ゲイン算出部165は、音声信号判別部164による音声信号に含まれるノイズの種別の判別結果及び推定ノイズスペクトルに応じて、パワースペクトルに乗じるゲインを決定する。ここで、ノイズ成分に相当するパワースペクトルは相対的に小さく、話者の声に相当するパワースペクトルは相対的に大きい。
そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部165は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値(N(f)+Bb)よりも小さいか否か判定する。そしてゲイン算出部165は、S(f)が(N(f)+Bb)よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば16dBに設定する。一方、S(f)が(N(f)+Bb)以上である場合、ゲイン算出部165は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるようにゲイン値G(f)を決定する。例えば、ゲイン算出部165は、S(f)が(N(f)+Bb)以上である場合、ゲイン値G(f)を0dB〜1dBの何れかに設定する。
また、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部165は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値(N(f)+Bc)よりも小さいか否か判定する。そしてゲイン算出部165は、S(f)が(N(f)+Bb)よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば10dBに設定する。一方、S(f)が(N(f)+Bb)以上である場合、ゲイン算出部165は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるように、ゲイン値G(f)を、例えば0dB〜1dBの何れかに設定する。
バブルノイズは、短期間にスペクトルの波形が大きく変動するため、バブルノイズのパワースペクトルは推定ノイズスペクトルよりもかなり大きな値を取り得る。一方、他のノイズは短期間ではスペクトルの波形が大きく変動しないので、バブルノイズ以外のノイズのパワースペクトルと推定ノイズスペクトルとの差は小さい。そのため、バイアス値Bcは、バブルノイズ用バイアス値Bbよりも小さい値に設定されることが好ましい。例えば、バイアス値Bcは6dBに設定され、バブルノイズ用バイアス値Bbは12dBに設定される。
また、バックグラウンドにバブルノイズが存在する場合の方が、その他のノイズが存在する場合よりも話者の声が聞き取り難くなる。そこで、ゲイン算出部165は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値を、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値よりも大きな値に設定することが好ましい。例えば、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値は16dBに設定され、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値は10dBに設定される。
あるいは、ゲイン算出部165は、特開2005−165021号公報に開示されている方法などの他の方法により、音声信号に含まれるノイズ成分とその他の成分を区別し、各成分に応じてサブ周波数帯域ごとにゲイン値を決定してもよい。例えば、ゲイン算出部165は、直近の所定数のフレーム(例えば、100フレーム)のパワースペクトルのうち、上位10%程度のフレームのパワースペクトルの平均値及び分散から、ノイズを含まない純粋音声信号のパワースペクトルの分布を推定する。そしてゲイン算出部165は、サブ周波数帯域ごとに、音声信号のパワースペクトルと推定された純粋音声信号のパワースペクトルの差が大きくなるほど、ゲイン値も大きくなるようにゲイン値を決定する。
ゲイン算出部165は、サブ周波数帯域ごとに決定したゲイン値をフィルタ部166へ出力する。
フィルタ部166は、入力された音声信号の周波数スペクトルを時間周波数変換部161から受け取る度に、ゲイン算出部165により決定されたゲイン値を用いて周波数帯域ごとにノイズに相当する周波数スペクトルを低減するフィルタ処理を実行する。
例えば、フィルタ部166は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。
Figure 2010146711
ただしX(f)は音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。(7)式から明らかなように、ゲイン値が大きくなるほど、Y(f)は減衰する。
フィルタ部166は、ノイズが低減された周波数スペクトルを周波数時間変化部167へ出力する。
周波数時間変換部167は、フィルタ部166によりノイズが低減された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、ノイズが低減された音声信号を得る。なお、周波数時間変換部167は、時間周波数変換部161により使用された時間周波数変換処理の逆変換を使用する。
周波数時間変換部167は、ノイズが低減された音声信号を増幅器17へ出力する。
図4は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す。なお、音声信号処理装置16は、図4に示されたノイズ低減処理をフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、ゲイン算出部165に関して説明したような他の値であってもよい。
まず、時間周波数変換部161は、入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する(ステップS101)。時間周波数変換部161は、周波数スペクトルをパワースペクトル算出部162へ渡す。
次に、パワースペクトル算出部162は、時間周波数変換部161から受け取った周波数スペクトルのパワースペクトルS(f)を算出する(ステップS102)。そしてパワースペクトル算出部162は、算出されたパワースペクトルS(f)を、ノイズ推定部163、音声信号判別部164及びゲイン算出部165へ出力する。
ノイズ推定部163は、全てのサブ周波数帯域のパワースペクトルの平均値が閾値Thrよりも小さいフレームのパワースペクトルをサブ周波数帯域ごとに時間方向に平均することにより、推定ノイズスペクトルN(f)を算出する(ステップS103)。そしてノイズ推定部163は、推定ノイズスペクトルN(f)をゲイン算出部165へ出力する。またノイズ推定部163は、最新のフレームに対する推定ノイズスペクトルN(f)を、ノイズ推定部163が有するバッファに記憶する。
一方、スペクトル正規化部171は、受け取ったパワースペクトルを正規化する(ステップS104)。そしてスペクトル正規化部171は、算出された正規化パワースペクトルS'(f)を波形変化量算出部172へ出力するとともに、バッファ173に記憶する。
波形変化量算出部172は、最新のフレームの正規化パワースペクトルの波形と、バッファ173から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差を表す波形変化量Δを算出する(ステップS105)。そして波形変化量算出部172は、波形変化量Δを判定部174へ渡す。
判定部174は、波形変化量Δが閾値Thwよりも大きいか否か判定する(ステップS106)。波形変化量Δが所定の閾値Thwよりも大きい場合(ステップS106−Yes)、判定部174は最新のフレームの音声信号にバブルノイズが含まれると判定し、その判定結果をゲイン算出部165へ通知する(ステップS107)。一方、波形変化量Δが所定の閾値Thw以下である場合(ステップS106−No)、判定部174は最新のフレームの音声信号にバブルノイズは含まれないと判定し、その判定結果をゲイン算出部165へ通知する(ステップS108)。
ステップS107の後、ゲイン算出部165は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値(N(f)+Bb)よりも小さいか否か判定する(ステップS109)。S(f)が(N(f)+Bb)よりも小さい場合(ステップS109−Yes)、ゲイン算出部165はゲイン値G(f)を16dBに設定する(ステップS110)。一方、S(f)が(N(f)+Bb)以上である場合(ステップS109−No)、ゲイン算出部165は、ゲイン値G(f)を0に設定する(ステップS111)。
一方、ステップS108の後、ゲイン算出部165は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値(N(f)+Bc)よりも小さいか否か判定する(ステップS112)。S(f)が(N(f)+Bc)よりも小さい場合(ステップS112−Yes)、ゲイン算出部165はゲイン値G(f)を10dBに設定する(ステップS113)。一方、S(f)が(N(f)+Bc)以上である場合(ステップS112−No)、ゲイン算出部165は、ゲイン値G(f)を0に設定する(ステップS111)。
なお、ゲイン算出部165は、ステップS109〜S113の処理を、サブ周波数帯域ごとに実行する。そしてゲイン算出部165は、ゲイン値G(f)をフィルタ部166へ出力する。
フィルタ部166は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが低減するように周波数スペクトルに対するフィルタ処理を実行する(ステップS114)。そしてフィルタ部166は、フィルタ処理された周波数スペクトルを周波数時間変換部167へ出力する。
周波数時間変換部167は、フィルタ処理された周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する(ステップS115)。そして周波数時間変換部167は、ノイズが低減された出力音声信号を増幅器17へ出力する。
以上に説明してきたように、第1の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号のパワーを低減することで、再生音の音質を向上することができる。
次に、第2の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べることにより、電話機の周囲の音にバブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、別途取得した再生すべき音声信号のパワーを増幅することで、電話機のユーザが再生音を聞き易くする。
図5は、第2の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図5に示されるように、電話機2は、呼制御部10と、通信部11と、マイクロフォン12と、増幅器13、17と、符号化部14と、復号部15と、音声信号処理装置21と、スピーカ18とを有する。なお、図5に示される電話機2の各構成要素には、図1に示された電話機1の対応する構成要素と同一の参照番号を付した。
電話機2は、音声信号処理装置21が有する音声信号判別部24が、マイクロフォン12により集音された音声にバブルノイズが含まれるか否かを判定し、その判定結果によって音声信号処理装置21が受信した音声信号を増幅する点で、図1に示された電話機1と異なる。そこで以下では、音声信号処理装置21について説明する。電話機2のその他の構成要素については、上述した図1に示した電話機1の説明を参照されたい。
図6は、音声信号処理装置21の概略構成図を示す。図6に示されるように、音声信号処理装置21は、時間周波数変換部22、26と、パワースペクトル算出部23と、音声信号判別部24と、ゲイン算出部25と、フィルタ部27と、周波数時間変換部28とを有する。音声信号処理装置21が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置21が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置21に実装されてもよい。さらに、音声信号処理装置21が有するこれらの各部は、音声信号処理装置21が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部22は、マイクロフォン12を介して集音された、電話機2の周囲の音に対応する入力音声信号を、フレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。なお、時間周波数変換部22は、第1の実施形態に係る音声信号処理装置16が有する時間周波数変換部161と同様に、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
時間周波数変換部22は、入力音声信号の周波数スペクトルをパワースペクトル算出部23へ出力する。
また、時間周波数変換部26は、通信部11を介して受信した音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する。時間周波数変換部26は、受信音声信号の周波数スペクトルをフィルタ部27へ出力する。
パワースペクトル算出部23は、時間周波数変換部22から入力音声信号の周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。パワースペクトル算出部23は、上記の(1)式を用いてパワースペクトルを算出することができる。
パワースペクトル算出部23は、算出されたパワースペクトルを、音声信号判別部24へ出力する。
音声信号判別部24は、各フレームのパワースペクトルを受け取る度に、そのフレームの入力音声信号に含まれるノイズの種別を判別する。そのために、音声信号判別部24は、スペクトル正規化部241と、バッファ242と、重み決定部243と、波形変化量算出部244と、判定部245とを有する。
スペクトル正規化部241は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部241は、上記の(4)式または(5)式を用いて正規化パワースペクトルS'(f)を算出する。
スペクトル正規化部241は、正規化パワースペクトルを波形変化量算出部244へ出力する。またスペクトル正規化部241は、正規化パワースペクトルをバッファ242に記憶する。
バッファ242は、パワースペクトル算出部23からフレーム単位で入力音声信号のパワースペクトルを受け取る度に、そのパワースペクトルを記憶する。またバッファ242は、スペクトル正規化部241から受け取った正規化パワースペクトルを記憶する。
バッファ242は、最新のフレームから所定数前のフレームまでのパワースペクトル及び正規化パワースペクトルを記憶する。そしてバッファ242は、その所定数よりも過去のパワースペクトル及び正規化パワースペクトルを消去する。
重み決定部243は、波形変化量を算出するために使用される、各サブ周波数帯域に対する重み係数を決定する。この重み係数は、バブルノイズ成分が含まれる可能性が高いサブ周波数帯域ほど大きくなるように設定される。例えば、入力音声信号に人の声が含まれていると、人が声を発したときに急激にパワースペクトルの強度が大きくなる。一方、人の声は、徐々に小さくなるという特性を有する。そこで、前のフレームのパワースペクトルよりも所定のオフセット値以上パワースペクトルが大きくなるサブ周波数帯域は、バブルノイズの成分を含む可能性が高い。そこで重み決定部243は、バッファ242から、最新のフレームのパワースペクトルSm(f)と、一つ前のフレームのパワースペクトルSm-1(f)を読み込む。そして重み決定部243は、サブ周波数帯域ごとに、最新のフレームのパワースペクトルSm(f)と、一つ前のフレームのパワースペクトルSm-1(f)を比較する。そして重み決定部243は、パワースペクトルSm(f)からSm-1(f)を引いた差がオフセット値Soffよりも大きい場合、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、1に設定する。一方、パワースペクトルSm(f)からSm-1(f)を引いた差がオフセット値Soff以下である場合、重み決定部243は、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、0に設定する。なお、オフセット値Soffは、例えば、0〜1dBの何れかの値に設定される。
あるいは、重み決定部243は、各サブ周波数帯域のパワースペクトルの平均値が所定の閾値よりも大きいフレームの重み係数w(f)を、その平均値が所定の閾値以下となるフレームの重み係数よりも大きな値に設定してもよい。例えば、重み決定部243は、以下のように重み係数w(f)を決定してもよい。
Figure 2010146711
ここでMは、サブ周波数帯域の数である。またflowは、最も低いサブ周波数帯域を表し、fhighは、最も高いサブ周波数帯域を表す。また閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。
さらに、重み決定部243は、各サブ周波数帯域のパワースペクトルの平均値が大きいフレームほど、重み係数も大きくしてもよい。
重み決定部243は、各サブ周波数帯域について求めた重み係数w(f)を、波形変化算出部244へ出力する。
波形変化量算出部244は、正規化パワースペクトルの波形の時間方向における変化量である波形変化量を算出する。
本実施形態では、波形変化量算出部244は、次式に従って波形変化量Δを算出する。
Figure 2010146711
ただし、(6)式と同様に、S'm(f)は最新のフレームの正規化パワースペクトルであり、S'm-1(f)は、バッファ242から読み込んだ一つ前のフレームの正規化パワースペクトルS'm-1(f)である。
波形変化量算出部244は、波形変化量Δを、最新のフレームの正規化パワースペクトルと、最新のフレームから2以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。
あるいは、波形変化量算出部244は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の2乗に重み係数w(f)を乗じた値の和としてもよい。
波形変化量算出部244は、波形変化量Δを判定部245へ出力する。
判定部245は、最新のフレームの音声信号にバブルノイズが含まれるか否か判定する。
判定部245は、第1の実施形態による音声信号処理装置16が有する判定部174と同様に、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームの音声信号にバブルノイズが含まれると判定する。一方、判定部245は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームの音声信号にバブルノイズは含まれないと判定する。
この実施形態においても、所定の閾値Thwは、例えば、一人の声の波形変化量に相当する値、あるいは、実験的に求められた値に設定される。
判定部245は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部25へ通知する。
ゲイン算出部25は、音声信号判別部24によるノイズの種別の判別結果に基づいて、パワースペクトルに乗じるゲインを決定する。ここで、入力音声信号にバブルノイズが含まれていると、電話機2のユーザの周囲は騒々しく、受信した音声信号を聞き取り難い可能性がある。
そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部25は、全てのサブ周波数帯域に対して一律に、受信音声信号の周波数スペクトルを増幅するように、ゲイン値G(f)の値を決定する。最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部25は、例えば、ゲイン値G(f)を10dBに設定する。一方、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部25は、ゲイン値G(f)を0に設定する。
あるいは、ゲイン算出部25は、他の方法によりゲイン値を決定してもよい。例えば、ゲイン算出部25は、国際公開第2004/040555号パンフレットに開示されている方法に従って、受信音声信号から分離された声道特性を強調するように、ゲイン値を決定してもよい。この場合、ゲイン算出部25は、受信音声信号を音源特性と声道特性とに分離する。そしてゲイン算出部25は、現フレームの自己相関と過去のフレームの自己相関との加重平均に基づいて平均的な声道特性を算出する。ゲイン算出部25は、その平均的な声道特性からホルマント周波数とホルマント振幅を求め、そのホルマント周波数及びホルマント振幅に基づいて、ホルマント振幅を変化させることで平均的な声道特性を強調する。その際、ゲイン算出部25は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ホルマント振幅を増幅させるためのゲイン値を、最新のフレームの音声信号にバブルノイズが含まれていないと判定されている場合のゲイン値よりも大きな値に設定する。
ゲイン算出部25は、ゲイン値をフィルタ部27へ出力する。
フィルタ部27は、通信部11を介して受信した音声信号の周波数スペクトルを時間周波数変換部161から受け取る度に、ゲイン算出部25により決定されたゲイン値を用いてサブ周波数帯域ごとに周波数スペクトルを増幅するフィルタ処理を実行する。
例えば、フィルタ部27は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。
Figure 2010146711
ただしX(f)は受信音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。(10)式から明らかなように、ゲイン値が大きくなるほど、Y(f)も大きくなる。
フィルタ部27は、フィルタ処理により強調された周波数スペクトルを周波数時間変化部28へ出力する。
周波数時間変換部28は、フィルタ部27により強調処理された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、増幅された音声信号を得る。なお、周波数時間変換部28は、時間周波数変換部26により使用された時間周波数変換処理の逆変換を使用する。
周波数時間変換部26は、増幅された音声信号を増幅器17へ出力する。
図7は、通信部11を介して受信した音声信号に対する強調処理の動作フローチャートを示す。なお、音声信号処理装置21は、図7に示された強調処理を、マイクロフォン12により集音された入力音声信号に対するフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、他の値であってもよい。
まず、時間周波数変換部22は、入力音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する(ステップS201)。時間周波数変換部22は、入力音声信号の周波数スペクトルをパワースペクトル算出部23へ渡す。
次に、パワースペクトル算出部23は、時間周波数変換部22から受け取った入力音声信号の周波数スペクトルのパワースペクトルS(f)を算出する(ステップS202)。そしてパワースペクトル算出部23は、算出されたパワースペクトルS(f)を音声信号判別部24へ出力する。そして音声信号判別部24は、受け取ったパワースペクトルS(f)をスペクトル正規化部241へ渡すとともに、バッファ242に記憶する。
音声信号判別部24のスペクトル正規化部241は、受け取ったパワースペクトルを正規化する(ステップS203)。そしてスペクトル正規化部241は、算出された正規化パワースペクトルS'(f)を音声信号判別部24の波形変化量算出部244へ出力するとともに、バッファ242に記憶する。
また、音声信号判別部24の重み決定部243は、バッファ242から、最新のフレームのパワースペクトルと一つ前のフレームのパワースペクトルを読み込む。そして重み決定部243は、最新のフレームのスペクトルが前のフレームのスペクトルよりも所定のオフセット値以上大きくなるサブ周波数帯域に対する重み係数が大きくなるように重み係数w(f)を決定する(ステップS204)。重み決定部243は、重み係数w(f)を波形変化量算出部244へ出力する。
波形変化量算出部244は、サブ周波数帯域ごとに、最新のフレームの正規化パワースペクトルの波形と、バッファ242から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差の絶対値を算出する。そして波形変化量算出部244は、各サブ周波数帯域の波形の差の絶対値に重み係数w(f)を乗じて得られる値を合計することにより、波形変化量Δを算出する(ステップS205)。そして波形変化量算出部244は、波形変化量Δを音声信号判別部24の判定部245へ渡す。
判定部245は、波形変化量Δが閾値Thwよりも大きいか否か判定する(ステップS206)。そして判定部245は、その判定結果をゲイン算出部25へ通知する。
波形変化量Δが所定の閾値Thwよりも大きい場合(ステップS206−Yes)、判定部245によりバブルノイズが含まれると判定されるので、ゲイン算出部25は、ゲイン算出部25はゲイン値G(f)を10dBに設定する(ステップS207)。一方、波形変化量Δが所定の閾値Thw以下である場合(ステップS206−No)、判定部245によりバブルノイズは含まれないと判定されるので、ゲイン算出部25はゲイン値G(f)を0dBに設定する(ステップS208)。
ステップS207またはS208の後、ゲイン算出部25は、ゲイン値G(f)をフィルタ部27へ出力する。
また、時間周波数変換部26は、受信音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する(ステップS209)。時間周波数変換部26は、受信音声信号の周波数スペクトルをフィルタ部27へ出力する。
フィルタ部27は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが大きくなるように、受信音声信号の周波数スペクトルに対するフィルタ処理を実行する(ステップS210)。そしてフィルタ部27は、フィルタ処理された周波数スペクトルを周波数時間変換部28へ出力する。
周波数時間変換部28は、フィルタ処理された受信音声信号の周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する(ステップS211)。そして周波数時間変換部28は、増幅された出力音声信号を増幅器17へ出力する。
以上に説明してきたように、第2の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置が実装された電話機は、バブルノイズが含まれると判定された場合、受信音声信号を増幅することで、電話機の周囲が騒々しくても、受信音声を聞き易くすることができる。
次に、第3の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、第2の実施形態による音声信号処理装置と同様に、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べる。そしてこの音声信号処理装置は、波形変化量が大きくなるほど、別途取得した再生すべき音声信号のパワーを増幅することで、再生音の音量を適切に調節する。
第3の実施形態による音声信号処理装置が実装された電話機は、図5に示された第2の実施形態による電話機2と同様の構成を有する。
図8は、第3の実施形態による音声信号処理装置31の概略構成図を示す。図8に示されるように、音声信号処理装置31は、時間周波数変換部22、26と、パワースペクトル算出部23と、音声信号判別部24と、ゲイン算出部25と、フィルタ部27と、周波数時間変換部28とを有する。なお、図8に示される音声信号処理装置31の各構成要素には、図6に示された音声信号処理装置21の対応する構成要素と同一の参照番号を付した。
音声信号処理装置31が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置31が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置31に実装されてもよい。さらに、音声信号処理装置31が有するこれらの各部は、音声信号処理装置31が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
図8に示された音声信号処理装置31は、音声信号判別部24が判定部245を有さず、波形変化量をゲイン算出部25へ直接出力する点、及びゲイン算出部25は波形変化量に基づいてゲインを決定する点で、第2の実施形態による音声信号処理装置21と異なる。そこで、以下では、ゲイン値の算出について説明する。
ゲイン算出部25は、音声信号判別部24から波形変化量Δを受け取ると、波形変化量Δとゲイン値G(f)の関係を表すゲイン決定関数に従ってゲイン値を決定する。ゲイン決定関数は、波形変化量Δが大きくなるほど、ゲイン値G(f)も大きくなる関数である。例えば、ゲイン決定関数は、波形変化量Δが所定の下限値Thwlowから所定の上限値Thwhighの範囲に含まれる場合、波形変化量Δが大きくなるにつれてゲイン値G(f)も線形に増加する関数であってもよい。またこのゲイン決定関数では、波形変化量Δが下限値Thwlow以下の場合、ゲイン値G(f)は0、波形変化量Δが上限値Thwhigh以上の場合、ゲイン値G(f)は最大ゲイン値Gmaxとなる。なお、下限値Thwlowは、バブルノイズである可能性がある波形変化量の最小値に対応し、例えば、3dBに設定される。また上限値Thwhighは、ノイズ以外の音に起因する波形変化量とバブルノイズに起因する波形変化量との中間値に対応し、例えば、6dBに設定される。また最大ゲイン値Gmaxは、電話機2の周囲で人が会話していても、電話機2のユーザが受信音声を十分に聞き取れる程度に受信音声信号を増幅する値であり、例えば、10dBに設定される。
なお、ゲイン決定関数は、非線形関数であってもよい。例えば、ゲイン決定関数は、波形変化量Δが下限値Thwlowから上限値Thwhighの範囲に含まれる場合、波形変化量Δの2乗あるい波形変化量Δの対数に比例してゲイン値G(f)が大きくなる関数であってもよい。
また、ゲイン算出部25は、ゲイン決定関数により決定されたゲイン値を、人の声に対応する周波数帯域にのみ適用し、その他の周波数帯域についてはゲイン値を、ゲイン決定関数により決定されたゲイン値よりも小さい値、例えば、0dBとしてもよい。これにより、音声信号処理装置3は、受信音声信号のうち、人の声に対応する周波数帯域の音声信号だけを選択的に増幅できる。特に、ゲイン算出部25が人の声のうちの高周波数帯域に対応する受信音声信号を選択的に増幅することで、ユーザが受信音声信号を聞き取り易くすることができる。なお、人の声のうちの高周波数帯域は、例えば、2kHz〜4kHzである。
以上に説明してきたように、第3の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動するほど、受信音声信号のパワーを強くする。そのため、この音声信号処理装置は、受信音声信号の音量を、電話機の周囲のバブルノイズに応じて適切に調節することができる。
次に、第4の実施形態による、音声信号処理装置について説明する。
この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲のノイズに対するアクティブノイズコントロールを実行することにより、電話機周囲のノイズを打ち消すように、電話機周囲の音の逆位相音を電話機のスピーカから発生させる。そしてこの音声信号処理装置は、逆位相音を生成する際、バブルノイズが含まれるか否かに応じて、異なるフィルタを用いて逆位相音を生成する。そしてこの音声信号処理装置は、その逆位相音を受信音声と重畳してスピーカに再生させることにより、電話機周囲のノイズがバブルノイズであっても、適切にノイズを打ち消す。
第4の実施形態による音声信号処理装置が実装された電話機は、図5に示された第2の実施形態による電話機2と同様の構成を有する。
図9は、第4の実施形態による、音声信号処理装置41の概略構成図である。図9に示されるように、音声信号処理装置41は、時間周波数変換部22と、パワースペクトル算出部23と、音声信号判別部24と、逆位相音生成部29と、フィルタ部30とを有する。なお、図9に示される音声信号処理装置41の各構成要素には、図6に示された音声信号処理装置21の対応する構成要素と同一の参照番号を付した。
音声信号処理装置41が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置41が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置41に実装されてもよい。さらに、音声信号処理装置41が有するこれらの各部は、音声信号処理装置41が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
図9に示された音声信号処理装置41は、逆位相音生成部29が、入力音声信号の逆位相音を生成し、フィルタ部27が、その逆位相音を受信音声信号に重畳する点で、第2の実施形態による音声信号処理装置21と異なる。そこで、以下では、逆位相音生成部29及びフィルタ部30について説明する。
逆位相音生成部29は、マイクロフォン12を介して集音された電話機2の周囲の音に対応する入力音声信号に対する逆位相音を生成する。例えば、逆位相音生成部29は、次式に従って、入力音声信号x[n]に対するフィルタ処理を行うことにより、逆位相音d[n]を生成する。
Figure 2010146711
なお、α[i]、β[i](i=1,2,...,L)は、それぞれ、有限インパルス(Finite impulse response、FIR)型のフィルタであり、入力音声信号に対する電話機2の信号伝達特性を考慮して予め作成される。またLはタップ数であり、有限な正の整数の何れかに設定される。
ここで、フィルタα[i]は、入力音声信号にバブルノイズが含まれると判定されたときに使用されるフィルタであり、一方、フィルタβ[i]は、入力音声信号にバブルノイズが含まれないと判定されたときに使用されるフィルタである。フィルタα[i]は、フィルタα[i]を用いて生成される逆位相音d[n]の絶対値が、フィルタβ[i]を用いて生成される逆位相音d[n]の絶対値よりも小さくなるように設計されることが好ましい。入力音声信号x[n]の位相及び振幅と完全に反転する逆位相音d[n]を生成するようにフィルタが設計されると、急激に入力音声信号が変化したときにd[n]の振幅がx[n]の振幅よりも大きくなり、この逆位相音がユーザにとって異音となるおそれがある。そこで、逆位相音生成部29は、短期間に音の特性が変動するバブルノイズに対しては、逆位相音d[n]を、フィルタβ[i]を用いて生成される逆位相音d[n]よりも小さくすることで、逆位相音に起因する異音の発生を防止できる。なお、逆位相音が小さければ、バブルノイズは完全に打ち消されないこともある。しかしながら、逆位相音によりバブルノイズの一部でも打ち消されれば、ユーザは受信音声信号を聞き取り易くなる。
あるいは、逆位相音生成部29は、入力音声信号に対して位相が反転した信号を出力するようなFIR型の適応フィルタを求めてもよい。この場合、逆位相音生成部29は、フィルタ更新部としての機能も有する。そして逆位相音生成部29は、求めた適応フィルタを用いて入力音声信号をフィルタ処理することにより、逆位相音を生成する。
逆位相音生成部29は、FIR型適応フィルタを、例えば、エラーマイクなどにより測定される誤差信号が最小となるように、最急降下法、あるいはFiltered-x LMS法に従って求めることができる。
ここで、入力音声信号にバブルノイズが含まれている場合、図2(a)及び図2(b)に関して説明したように、入力音声信号の周波数スペクトルの波形は短期間で大きく変動する。すなわち、入力音声信号の強さ、周波数の高さなどの特性が短期間で変動する。そこで、逆位相音生成部29は、音声信号判別部24により入力音声信号にバブルノイズが含まれると判定されている場合、FIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれないと判定されている場合の逆位相音よりも短くすることが好ましい。例えば、入力音声信号にバブルノイズが含まれると判定されている場合のFIR型適応フィルタのタップ数は、入力音声信号にバブルノイズが含まれないと判定されている場合のFIR型適応フィルタのタップ数の半分に設定される。これにより、逆位相音生成部29は、入力音声信号にバブルノイズが含まれている場合も、適切なFIR型適応フィルタを作成できる。
逆位相音生成部29は、生成した逆位相音をフィルタ部30へ出力する。
フィルタ部30は、受信音声信号に逆位相音を重畳する。そしてフィルタ部30は、逆位相音が重畳された受信音声信号を増幅器17へ出力する。
以上に説明してきたように、第4の実施形態による音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した入力音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合の逆位相音の振幅が、入力音声信号にバブルノイズが含まれない場合の逆位相音の振幅よりも小さくする。あるいは、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合、逆位相音を生成するためのFIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれない場合よりも短くする。これにより、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合も、適切な逆位相音を生成できる。そのため、この音声信号処理装置が実装された電話機は、その電話機の周囲にバブルノイズが存在しても、適切にノイズを打ち消すことができる。
なお、本発明は、上記の実施形態に限定されるものではない。例えば、第4の実施形態による音声信号処理装置は、記録媒体に記憶された音声信号データを再生する音声再生装置に実装されてもよい。この場合、音声信号処理装置には、受信音声信号の代わりに、記録媒体に記憶された音声信号データから再生される音声信号が入力される。
また、第1の実施形態による音声信号処理装置は、第2の実施形態による音声信号処理装置が有する重み決定部と同様の重み決定部を有してもよい。この場合、第1の実施形態の変形例となる音声信号処理装置の波形変化量算出部は、(9)式に従って波形変化量を算出する。
さらに、第1の実施形態による音声信号処理装置のゲイン算出部は、第3の実施形態による音声信号処理装置と同様に、波形変化量が大きくなるにつれてゲイン値も大きな値となるように、ゲイン値を決定してもよい。この場合、パワースペクトルがノイズ成分か否か判定するための基準値を求めるために、推定ノイズスペクトルに加算されるバイアス値は、バブルノイズ用バイアス値Bbまたはバイアス値Bcの何れか一方のみが使用される。
また、上記の各実施形態の音声信号処理装置は、パワースペクトルの代わりに、周波数スペクトルそのものを正規化し、正規化された周波数スペクトルの二つのフレーム間の波形変化量を算出することにより、音声信号に含まれるノイズの種別を判定してもよい。この場合、スペクトル正規化部は、パワースペクトルの代わりに周波数スペクトルを上記の(4)式あるいは(5)式に入力することにより、正規化された周波数スペクトルを算出する。また、パワースペクトルに対して定められている各閾値は、周波数スペクトルに対して定められる値に修正される。また、パワースペクトル算出部は省略される。
また、上記の各実施形態による音声信号処理装置は、入力された音声信号が複数のチャネルを有する場合、各チャネルごとに上記のノイズ低減処理、受信音声増幅処理あるいはノイズキャンセル処理を実行してもよい。
また、上記の各実施形態による音声信号処理装置が有する各部の機能を実現する機能モジュールを含むコンピュータプログラムは、磁気記録媒体、光記録媒体などの記録媒体に保存された形で配布されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1、2 電話機
10 呼制御部
11 通信部
12 マイクロフォン
13、17 増幅器
14 符号化部
15 復号部
16、21、31、41 音声信号処理装置
18 スピーカ
161、22、26 時間周波数変換部
162、23 パワースペクトル算出部
163 ノイズ推定部
164、24 音声信号判別部
165、25 ゲイン算出部
166、27、30 フィルタ部
167、28 周波数時間変換部
29 逆位相音生成部
171、241 スペクトル正規化部
173、242 バッファ
243 重み決定部
172、244 波形変化量算出部
174、245 判定部

Claims (15)

  1. 音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出する時間周波数変換部と、
    第1のフレームの周波数スペクトルと、前記第1のフレームよりも前の第2のフレームの周波数スペクトルから、前記第1のフレームの周波数スペクトルと前記第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、
    前記スペクトル変化量に応じて前記第1のフレームの音声信号に含まれるノイズの種別を判定する判定部と、
    を有する音声信号処理装置。
  2. 各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出するスペクトル正規化部をさらに有し、
    前記スペクトル変化量算出部は、前記第1のフレームの正規化スペクトルと、前記第2のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項1に記載の音声信号処理装置。
  3. 前記スペクトル変化量算出部は、周波数帯域を複数に分割したサブ周波数帯域ごとに前記周波数スペクトルの変化量を算出する請求項1または2に記載の音声信号処理装置。
  4. 前記スペクトル変化量算出部は、各サブ周波数帯域の前記第1のフレームの正規化スペクトルと前記第2のフレームの正規化スペクトルとの差の絶対値の合計から前記周波数スペクトルの変化量を算出する請求項3に記載の音声信号処理装置。
  5. 周波数帯域を複数に分割したサブ周波数帯域のうち、前記第1のフレームの周波数スペクトルの振幅が前記第2のフレームの周波数スペクトルの振幅よりも大きいサブ周波数帯域の重み係数を、前記第1のフレームの周波数スペクトルの振幅が前記第2のフレームの周波数スペクトルの振幅以下であるサブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
    前記波形変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記波形変化量を算出する、請求項4に記載の音声信号処理装置。
  6. 前記第1のフレームの周波数スペクトルの振幅の平均値が第1の値よりも大きい場合、前記各サブ周波数帯域の重み係数を、前記第1のフレームの周波数スペクトルの振幅の平均値が前記第1の値よりも小さい第2の値以下である場合の前記各サブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
    前記波形変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記波形変化量を算出する、請求項4に記載の音声信号処理装置。
  7. 前記判定部は、前記波形変化量が一人の声に対する波形変化量に相当する閾値よりも大きい場合、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定する、請求項1から6の何れか一項に記載の音声信号処理装置。
  8. 前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
    ノイズ成分のパワースペクトルと前記周波数スペクトルのパワースペクトルに応じてゲインを算出するゲイン算出部と、
    前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
    前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
    前記ゲイン算出部は、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きくする請求項1から7の何れか一項に記載の音声信号処理装置。
  9. 前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
    前記周波数スペクトルのパワースペクトルとノイズ成分のパワースペクトルとの差と所定の閾値との比較に応じてゲインを算出するゲイン算出部と、
    前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
    前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
    前記ゲイン算出部は、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合の前記閾値は、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合の前記閾値よりも大きくする、請求項1から7の何れか一項に記載の音声信号処理装置。
  10. 第2の音声信号をフレーム単位で時間周波数変換することにより、該第2の音声信号の周波数スペクトルを算出する第2の時間周波数変換部と、
    ノイズの判定結果に基づいて入力信号を増幅する帯域毎のゲインを算出するゲイン算出部と、
    帯域毎のゲインを第2の音声信号の周波数スペクトルに乗算し、強調スペクトルを算出するフィルタ部と、
    前記強調スペクトルを時間信号に変換し出力信号を算出する周波数時間変換部をさらに有し、
    前記ゲイン算出部は、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きく設定する、
    請求項1から7の何れか一項に記載の音声信号処理装置。
  11. 前記音声信号に予め設定したフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
    前記逆位相音を第2の音声信号に重畳するフィルタ部とをさらに有し、
    前記逆位相音生成部は、予め設定された複数のフィルタを保持し、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、フィルタを切り換えて使用する、請求項1から7の何れか一項に記載の音声信号処理装置。
  12. 前記音声信号にフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
    誤差信号に基づいて前記フィルタを更新するフィルタ更新部と、
    前記逆位相音を第2の音声信号に重畳するフィルタ部とをさらに有し、
    前記逆位相音生成部は、複数のフィルタを保持し、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、前記フィルタを切り換えて使用し、
    前記フィルタ更新部は、前記逆位相音生成部により使用されるフィルタを更新する、請求項1から7の何れか一項に記載の音声信号処理装置。
  13. 前記波形変化量が大きいほどゲインを大きく設定するゲイン算出部と、
    前記ゲインが大きいほど、前記音声信号と別個に入力された第2の音声信号を大きくするフィルタ処理を実行するフィルタ部と、
    をさらに有する請求項1に記載の音声信号処理装置。
  14. 音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出し、
    第1のフレームの周波数スペクトルと、前記第1のフレームよりも前の第2のフレームの周波数スペクトルから、前記第1のフレームの周波数スペクトルと前記第2のフレーム間の周波数スペクトルの変化量を算出し、
    前記スペクトル変化量に応じて前記第1のフレームの音声信号に含まれるノイズの種別を判定する、
    ことを含む音声信号処理方法。
  15. 各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出することをさらに含み、
    前記周波数スペクトルの変化量を算出することは、前記第1のフレームの正規化スペクトルと、前記第2のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項14に記載の音声信号処理方法。
JP2011519388A 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法 Active JP5293817B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/061221 WO2010146711A1 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法

Publications (2)

Publication Number Publication Date
JPWO2010146711A1 true JPWO2010146711A1 (ja) 2012-11-29
JP5293817B2 JP5293817B2 (ja) 2013-09-18

Family

ID=43356049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011519388A Active JP5293817B2 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法

Country Status (5)

Country Link
US (1) US8676571B2 (ja)
EP (1) EP2444966B1 (ja)
JP (1) JP5293817B2 (ja)
CN (1) CN102804260B (ja)
WO (1) WO2010146711A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US10986399B2 (en) 2012-02-21 2021-04-20 Gracenote, Inc. Media content identification on mobile devices
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
JP2014123011A (ja) * 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム
KR101981487B1 (ko) * 2013-01-23 2019-05-24 에스케이텔레콤 주식회사 주파수대역별 역동범위처리장치 및 주파수대역별 역동범위처리장치의 동작 방법
US9530430B2 (en) * 2013-02-22 2016-12-27 Mitsubishi Electric Corporation Voice emphasis device
JP6284003B2 (ja) * 2013-03-27 2018-02-28 パナソニックIpマネジメント株式会社 音声強調装置及び方法
DE102014202609B4 (de) 2014-02-13 2020-06-04 tooz technologies GmbH Aminkatalysierte Thiolhärtung von Epoxidharzen
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
KR101834913B1 (ko) * 2014-04-30 2018-04-13 후아웨이 테크놀러지 컴퍼니 리미티드 복수의 입력 오디오 신호를 잔향제거하기 위한 신호 처리 장치, 방법 및 컴퓨터가 판독 가능한 저장매체
CN105336344B (zh) 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
US10366703B2 (en) 2014-10-01 2019-07-30 Samsung Electronics Co., Ltd. Method and apparatus for processing audio signal including shock noise
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
US10783899B2 (en) * 2016-02-05 2020-09-22 Cerence Operating Company Babble noise suppression
JP6729186B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
CN110168640B (zh) * 2017-01-23 2021-08-03 华为技术有限公司 用于增强信号中需要分量的装置和方法
CN106846803B (zh) * 2017-02-08 2023-06-23 广西交通科学研究院有限公司 基于音频的交通事件检测装置及方法
EP3688754A1 (en) * 2017-09-26 2020-08-05 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
CN108391190B (zh) * 2018-01-30 2019-09-20 努比亚技术有限公司 一种降噪方法、耳机及计算机可读存储介质
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110427817B (zh) * 2019-06-25 2021-09-07 浙江大学 一种基于空泡图像定位与声纹理分析的水翼空化特征提取方法
CN110970050B (zh) * 2019-12-20 2022-07-15 北京声智科技有限公司 语音降噪方法、装置、设备及介质
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN113035222B (zh) * 2021-02-26 2023-10-27 北京安声浩朗科技有限公司 语音降噪方法、装置、滤波器的确定方法、语音交互设备
JP2022156943A (ja) * 2021-03-31 2022-10-14 富士通株式会社 雑音判定プログラム、雑音判定方法及び雑音判定装置
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176698A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 パターンマッチング装置
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
JPH0454960A (ja) * 1990-06-26 1992-02-21 Osamu Shibayama サヤ付きズーム吸引チューブ
JPH05291971A (ja) 1992-03-25 1993-11-05 Gs Syst Inc 信号処理装置
US5369701A (en) * 1992-10-28 1994-11-29 At&T Corp. Compact loudspeaker assembly
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5644596A (en) * 1994-02-01 1997-07-01 Qualcomm Incorporated Method and apparatus for frequency selective adaptive filtering
US6885752B1 (en) * 1994-07-08 2005-04-26 Brigham Young University Hearing aid device incorporating signal processing techniques
US8085959B2 (en) * 1994-07-08 2011-12-27 Brigham Young University Hearing compensation system incorporating signal processing techniques
GB2317084B (en) * 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE69716266T2 (de) * 1996-07-03 2003-06-12 British Telecommunications P.L.C., London Sprachaktivitätsdetektor
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
CA2349041A1 (en) * 2001-05-28 2002-11-28 Alireza Karimi Ziarani System and method of extraction of sinusoids of time-varying characteristics
US6996241B2 (en) * 2001-06-22 2006-02-07 Trustees Of Dartmouth College Tuned feedforward LMS filter with feedback control
CA2413714C (en) * 2001-12-07 2011-11-15 Ecole De Technologie Superieure Adjustable electronic duplexer
JP4054960B2 (ja) * 2001-12-25 2008-03-05 三菱瓦斯化学株式会社 ニトリル化合物の製造方法
WO2004009007A1 (en) * 2002-07-19 2004-01-29 The Penn State Research Foundation A linear independent method for noninvasive online secondary path modeling
US7242763B2 (en) * 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2004354589A (ja) 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP4023806B2 (ja) * 2003-09-30 2007-12-19 株式会社東芝 コンテンツ再生システム及びコンテンツ再生プログラム
JP4520732B2 (ja) 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
KR101160529B1 (ko) * 2004-03-08 2012-06-28 케이비 세렌 가부시키가이샤 직편물, 스피커용 진동판 및 스피커
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
WO2008028484A1 (en) * 2006-09-05 2008-03-13 Gn Resound A/S A hearing aid with histogram based sound environment classification
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
CN101627428A (zh) * 2007-03-06 2010-01-13 日本电气株式会社 抑制杂音的方法、装置以及程序
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8194882B2 (en) * 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
JP5291971B2 (ja) 2008-04-08 2013-09-18 花王株式会社 メソポーラスシリカ粒子の製造方法
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
JP5293329B2 (ja) * 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法

Also Published As

Publication number Publication date
EP2444966B1 (en) 2019-07-10
CN102804260A (zh) 2012-11-28
CN102804260B (zh) 2014-10-08
US8676571B2 (en) 2014-03-18
WO2010146711A1 (ja) 2010-12-23
EP2444966A4 (en) 2016-08-31
JP5293817B2 (ja) 2013-09-18
EP2444966A1 (en) 2012-04-25
US20120095755A1 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
US8521530B1 (en) System and method for enhancing a monaural audio signal
KR101121489B1 (ko) 복수의 노이즈 억제 기술을 이용하는 노이즈 억제 회로 및 방법
JP4836720B2 (ja) ノイズサプレス装置
JP5923994B2 (ja) 音声処理装置及び音声処理方法
US9197181B2 (en) Loudness enhancement system and method
JP4649546B2 (ja) 補聴器
JP4018571B2 (ja) 音声強調装置
JP2014232331A (ja) アダプティブ・インテリジェント・ノイズ抑制システム及び方法
US9124708B2 (en) Far-end sound quality indication for telephone devices
AU2017405291B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
JP2013059064A (ja) 移動体オーディオデバイスのための自動的な音量およびダイナミックレンジの調整
JPWO2006046293A1 (ja) 雑音抑圧装置
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
WO2018148095A1 (en) Soft-talk audio capture for mobile devices
JP2008309955A (ja) ノイズサプレス装置
KR20150096090A (ko) 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치
JP4317222B2 (ja) ネットワークにおける通信リンクの送話品質の測定
JP7043344B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP4838282B2 (ja) ハンズフリー通話装置及びハンズフリー通話方法
JP4479625B2 (ja) 騒音抑圧装置
Shruthi et al. Speech intelligibility prediction and near end listening enhancement for mobile appliciation
JP2010124207A (ja) 音量調整装置、その方法、そのプログラム、その記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Ref document number: 5293817

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150