WO2018211806A1

WO2018211806A1 - 音声信号処理装置

Info

Publication number: WO2018211806A1
Application number: PCT/JP2018/010328
Authority: WO
Inventors: 菊原靖仁; 相川徹; 実方友里
Original assignee: 株式会社オーディオテクニカ
Priority date: 2017-05-19
Filing date: 2018-03-15
Publication date: 2018-11-22
Also published as: EP3627853A1; CN110663258A; JPWO2018211806A1; US20200152218A1; JP7004332B2; EP3627853A4; US10971169B2; CN110663258B

Abstract

種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供する。　本発明にかかる音声信号処理装置は、入力部１０と、入力部からの入力信号の有無を判別する入力信号判別部２０と、入力部からの入力信号に含まれるノイズを検出するノイズ検出部３０と、入力信号を出力信号として出力する出力部８０と、出力部から出力信号を出力させる出力状態と、出力部から出力信号を出力しない非出力状態と、を切り替える出力切替部５２と、出力切替部の切替を制御する制御部６０と、を有してなり、制御部による切替の制御は、入力信号判別部の判別結果ｒ１と、ノイズ検出部の検出結果ｒ２と、に基づいて、切替を制御する第１制御と、入力信号判別部の判別結果に基づいて、切替を制御する第２制御と、を含み、第１制御と第２制御とは、出力切替部の状態に基づいて、選択される、ことを特徴とする。

Description

音声信号処理装置

　本発明は、音声信号処理装置に関する。

　会議システムは、例えば、議会やテレビなど、多人数が出席する会議などに用いられる。会議システムは、複数のマイクロホンからの音声信号を処理することにより、会議を円滑に進行させる。一部の会議システムは、参加者の発話（音声）を自動的に検出してマイクロホンからの信号の出力・遮断の切替を制御する音声自動認識機能を備える。

　音声自動認識機能は、机をペンで叩く音や、書類を触る音などのノイズを音声として誤検出する場合がある。この場合、使用者の意図しないマイクロホンからの信号の出力・遮断の切替の制御が行われ、ノイズを会議場内に放音するなどの不具合が生じ得る。

　これまでにも、音声自動認識機能において音声以外のノイズを音声として誤検出させないためのノイズ検出装置が提案されている（例えば、特許文献１参照）。

　特許文献１に開示されたノイズ検出装置は、各次数の自己相関係数と閾値とを比較することで、無音と、低周波数領域（低域）の雑音と、高周波数領域（高域）の雑音と、をそれぞれ個別に検出可能である。

特開平６－８３３９１号公報

　特許文献１に開示されたノイズ検出装置は、例えば、机をペンで叩く音などのような低域から高域までに亘り略同レベルの周波数スペクトルを有するインパルス性のノイズを検出することができる。その結果、特許文献１に開示されたノイズ検出装置は、誤検出を抑制する。しかし、特許文献１に開示されたノイズ検出装置は、例えば、紙を丸めた音などのようなインパルス性のノイズと高域のノイズとを合わせた複合的なノイズを検出することができない。そのため、特許文献１に開示されたノイズ検出装置は、このような複合的なノイズを音声として誤検出し、同ノイズを会議場内に放音する場合がある。

　また、特許文献１に開示されたノイズ検出装置は、音声を出力している音声区間において低周波数帯域成分や高周波数帯域成分を多く含む区間を検出すると、音声区間の途中の区間を雑音区間と判定する場合がある。すなわち、特許文献１に開示されたノイズ検出装置は、音声信号を出力中にノイズを検出したとき、参加者の発話の途中でマイクロホンからの信号を遮断する可能性がある。

　本発明は、以上のような従来技術の問題点を解消するためになされたもので、複合的なノイズを含む種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供することを目的とする。

　本発明にかかる音声信号処理装置は、マイクロホンからの信号が入力される入力部と、入力部からの入力信号の有無を判別する入力信号判別部と、入力部からの入力信号に含まれるノイズを検出するノイズ検出部と、入力信号を出力信号として出力する出力部と、出力部から出力信号を出力させる出力状態と、出力部から出力信号を出力しない非出力状態と、を切り替える出力切替部と、出力切替部の切替を制御する制御部と、を有してなり、制御部による切替の制御は、入力信号判別部の判別結果と、ノイズ検出部の検出結果と、に基づいて、切替を制御する第１制御と、入力信号判別部の判別結果に基づいて、切替を制御する第２制御と、を含み、第１制御と第２制御とは、出力切替部の状態に基づいて、選択される、ことを特徴とする。

　本発明によれば、複合的なノイズを含む種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供することができる。

本発明にかかる音声信号処理装置の実施の形態を示す機能ブロック図である。図１の音声信号処理装置が備えるノイズ検出部の機能ブロック図である。図３のノイズ検出部が備える周波数成分判別部の機能ブロック図である。図３のノイズ検出部が備える時間変化判別部の機能ブロック図である。図１の音声信号処理装置の信号処理を示すフローチャートである。図５の信号処理のうち、入力信号判別処理を示すフローチャートである。図５の信号処理のうち、ノイズ検出処理を示すフローチャートである。図７のノイズ検出処理のうち、周波数成分判別処理を示すフローチャートである。図７のノイズ検出処理のうち、時間変化判別処理を示すフローチャートである。図５の信号処理のうち、切替処理の一部の処理を示すフローチャートである。図５の信号処理のうち、切替処理の別の一部の処理を示すフローチャートである。

●音声信号処理装置●
　以下、図面を参照しながら、本発明にかかる音声信号処理装置の実施の形態について説明する。

●音声信号処理装置の構成
　図１は、本発明にかかる音声信号処理装置（以下「本装置」という。）の実施の形態を示す機能ブロック図である。
　本装置１は、音声や楽音を電気信号に変換するマイクロホン２などの機器からの電気信号（入力信号）の混合、分配、バランス調整などの処理を行う。本装置１は、例えば、ミキサや会議システムのコントロールユニットなどである。

　本装置１は、入力部１０と、入力信号判別部２０と、ノイズ検出部３０と、遅延部４０と、切替部５０と、制御部６０と、記憶部７０と、出力部８０と、を有してなる。

　入力部１０は、例えば、マイクロホン２と接続されて、マイクロホン２からの入力信号ｓ１を受信する。マイクロホン２からの入力信号ｓ１は、入力部１０に入力されて、入力部１０から遅延部４０と切替部５０とに入力されると共に、入力部１０により後述する処理を施されて入力信号判別部２０とノイズ検出部３０とに入力される。入力部１０は、受信部１１と、バンドパスフィルタ１２と、整流器１３と、を備える。

　受信部１１は、マイクロホン２からの入力信号ｓ１を受信して、同入力信号ｓ１をバンドパスフィルタ１２と、遅延部４０と、切替部５０と、に入力する。

　バンドパスフィルタ１２は、入力信号ｓ１から低周波数帯域（低域）の信号と高周波数帯域（高域）の信号とを除去する。換言すれば、バンドパスフィルタ１２は、入力信号ｓ１から低域に特徴が現れるノイズと、高域に特徴が現れるノイズと、を除去する。バンドパスフィルタ１２から出力される信号（以下「フィルタ信号」という。）ｓ２は、整流器１３とノイズ検出部３０とに入力される。

　なお、バンドパスフィルタは、ローパスフィルタとハイパスフィルタとを組み合わせて構成されてもよい。

　整流器１３は、交流信号であるフィルタ信号ｓ２を直流信号に変換する。直流信号に変換されたフィルタ信号（以下「ＤＣ信号」という。）ｓ３は、入力信号判別部２０に入力される。

　入力信号判別部２０は、マイクロホン２からの入力信号ｓ１（音声信号）の有無を判別する。入力信号判別部２０は、第１比較部２１を備える。第１比較部２１は、例えば、ＤＣ信号ｓ３と、第１閾値Ｖ１と、を比較して、入力信号ｓ１の有無を判別する。第１比較部２１の出力、すなわち、入力信号判別部２０からの出力（以下「判別結果」という。）ｒ１は、制御部６０に入力される。

　「第１閾値Ｖ１」は、本装置１が入力信号ｓ１の有無を判別するために用いる閾値である。第１閾値Ｖ１は、例えば、マイクロホン２が収音した環境音に対応する信号に基づいて設定される変動値である。「環境音」は、例えば、本装置１やマイクロホン２の設置場所（会議室や講堂など）の空調の音や、本装置１やマイクロホン２が設置された部屋の反響音、などである。本装置１は、第１閾値Ｖ１を変動値とすることにより、本装置１を使用する環境（例えば、本装置１が設置された部屋の空調の有無や同部屋の大きさ、マイクロホン２のゲイン値、など）に応じて入力信号ｓ１の有無を判別することが可能となる。第１閾値Ｖ１は、記憶部７０に記憶されている。

　なお、第１閾値は、本装置を使用する環境に合わせた固定値でもよい。

　ノイズ検出部３０は、マイクロホン２から受信した入力信号ｓ１に含まれるノイズ起因の特徴を検出することにより、入力信号ｓ１に含まれるノイズを検出する。すなわち、ノイズ検出部３０は、入力信号ｓ１がノイズ起因の信号（以下「ノイズ信号」という。）か、音声起因の信号（以下「音声信号」という。）か、を判定する。ノイズ検出部３０の出力（以下「検出結果」という。）ｒ２は、制御部６０に入力される。「ノイズ」は、例えば、机をペンで叩く音、紙をめくる音、くしゃみの音、手を叩く音、紙を丸める音などである。

　図２は、ノイズ検出部３０の機能ブロック図である。
　ノイズ検出部３０は、周波数成分判別部３１と、時間変化判別部３２と、論理和演算部３３と、を備える。

　図３は、周波数成分判別部３１の機能ブロック図である。
　周波数成分判別部３１は、フィルタ信号ｓ２（入力信号ｓ１）の周波数成分に基づいてノイズの有無を判別する。通常、音声信号のパワースペクトルは、高域のパワーよりも中低域のパワーの方が大きい。また、音声信号のパワースペクトルは、一部の周波数帯域に突出して現れる傾向にある。一方、ノイズのパワースペクトルは、全周波数帯域に現れる傾向にある。周波数成分判別部３１は、フィルタ信号ｓ２のパワースペクトルを、中低周波数帯域（中低域）のパワースペクトルと、中高周波数帯域（中高域）のパワースペクトルと、に分割する。周波数成分判別部３１は、２つのパワースペクトルを比較することで、フィルタ信号ｓ２（入力信号ｓ１）が音声信号かノイズ信号かを判別する。

　ここで、中低域は、例えば、１００Ｈｚ－３ｋＨｚ程度の周波数を含む周波数帯域である。中高域は、例えば、３ｋＨｚ以上の周波数を含む周波数帯域である。

　なお、中低域は、中高域と一部の周波数帯域において重複してもよい。

　周波数成分判別部３１は、ローパスフィルタ３１１と、第１移動平均部３１２と、ハイパスフィルタ３１３と、第２移動平均部３１４と、相対比較部３１５と、第２比較部３１６と、を備える。

　ローパスフィルタ３１１は、フィルタ信号ｓ２から中低域の信号を取り出す。

　第１移動平均部３１２は、ローパスフィルタ３１１を通過した中低域の信号の所定サンプル数ｎ（例えば、ｎ＝１０）の移動平均処理を行う。第１移動平均部３１２は、この移動平均処理により、中低域の信号を直流信号に変換すると共に、同信号のパワースペクトル（以下「中低域信号パワースペクトル」という。）を生成する。

　ハイパスフィルタ３１３は、フィルタ信号ｓ２から中高域の信号を取り出す。

　第２移動平均部３１４は、ハイパスフィルタ３１３を通過した中高域の信号の所定サンプル数ｎ（例えば、ｎ＝１０）の移動平均処理を行う。第２移動平均部３１４は、この移動平均処理により、中高域の信号を直流信号に変換すると共に、同信号のパワースペクトル（以下「中高域信号パワースペクトル」という。）を生成する。

　相対比較部３１５は、第１移動平均部３１２が生成した中低域信号パワースペクトルと、第２移動平均部３１４が生成した中高域信号パワースペクトルと、を比較して、その差分を算出する。相対比較部３１５は、算出された差分を第２比較部３１６に入力する。

　第２比較部３１６は、相対比較部３１５からの差分と、第２閾値Ｖ２と、を比較して、その結果を示す信号を論理和演算部３３に入力する。「第２閾値Ｖ２」は、周波数成分判別部３１が、フィルタ信号ｓ２（入力信号ｓ１）が音声信号かノイズ信号かを判別するために用いる閾値である。第２閾値Ｖ２は、記憶部７０（図１参照）に記憶されている。

　図４は、時間変化判別部３２の機能ブロック図である。
　時間変化判別部３２は、フィルタ信号ｓ２（入力信号ｓ１）の時間変化に基づいてノイズの有無を判別する。通常、インパルス性のノイズの時間軸波形は、ノイズの発生直後に急峻に変動した後、所定の時間で減衰する。時間変化判別部３２は、フィルタ信号ｓ２（入力信号ｓ１）の時間変化に基づいてノイズの有無を判別する。すなわち、時間変化判別部３２は、インパルス性のノイズの時間軸波形を持つ信号の時間変化をカウントして、フィルタ信号ｓ２（入力信号ｓ１）が音声信号かノイズ信号かを判別する。

　時間変化判別部３２は、第３移動平均部３２１と、第３比較部３２２と、時間変化カウンタ部３２３と、第４比較部３２４と、を備える。

　第３移動平均部３２１は、フィルタ信号ｓ２の所定サンプル数ｎ（例えば、ｎ＝１０）の移動平均処理を行う。第３移動平均部３２１は、フィルタ信号ｓ２の移動平均処理により、フィルタ信号ｓ２を直流信号に変換すると共に、同信号のパワースペクトル（以下「入力信号パワースペクトル」という。）を生成する。

　第３比較部３２２は、第３移動平均部３２１が生成した入力信号パワースペクトルと、第３閾値Ｖ３と、を比較して、その結果を時間変化カウンタ部３２３に出力する。

　「第３閾値Ｖ３」は、時間変化判別部３２が、フィルタ信号ｓ２（入力信号ｓ１）が音声信号かノイズ信号かを判別するために用いる閾値である。第３閾値Ｖ３は、例えば、マイクロホン２が収音した環境音に対応する信号に基づいて設定される変動値である。本装置１は、第３閾値Ｖ３を変動値とすることにより、本装置１を使用する環境に応じてフィルタ信号ｓ２が音声信号かノイズ信号かを判別することが可能となる。第３閾値Ｖ３は、記憶部７０（図１参照）に記憶されている。

　なお、第３閾値は、本装置を使用する環境に合わせた固定値でもよく、あるいは、第１閾値の基となる信号に所定の調整を加えて算出されてもよい。

　時間変化カウンタ部３２３は、第３比較部３２２により第３閾値Ｖ３を超えたと判断された信号の時間軸波形における時間変化（減衰する時間）をカウントして、その結果を第４比較部３２４に出力する。

　第４比較部３２４は、時間変化カウンタ部３２３のカウント値と、第４閾値Ｖ４と、を比較して、その結果を示す信号を論理和演算部３３に出力する。「第４閾値Ｖ４」は、時間変化判別部３２が、フィルタ信号ｓ２（入力信号ｓ１）が音声信号かノイズ信号かを判別するために用いる閾値である。第４閾値Ｖ４は、記憶部７０（図１参照）に記憶される。

　図２に戻る。
　論理和演算部３３は、周波数成分判別部３１（第２比較部３１６）の出力と、時間変化判別部３２（第４比較部３２４）の出力と、の論理和を演算する。論理和演算部３３は、第２比較部３１６の出力と第４比較部３２４の出力とのうち、いずれか１つの出力がノイズと判別された出力である場合に、フィルタ信号ｓ２（入力信号ｓ１）をノイズ信号と判定する。すなわち、論理和演算部３３は、周波数成分判別部３１の判別結果と、時間変化判別部３２の判別結果と、に基づいて、フィルタ信号ｓ２（入力信号ｓ１）からノイズを検出する。

　図１に戻る。
　遅延部４０は、入力部１０からの入力信号ｓ１を所定時間記憶して、入力信号ｓ１を所定時間遅延させた遅延信号ｓ４を生成して出力する。「所定時間」は、時間変化判別部３２の処理（後述する時間変化判別処理（ＳＴ２０２））に要する時間（例えば、第４閾値Ｖ４）よりも長い時間に設定される。その結果、本装置１は、時間変化判別部３２の処理を実行しても、入力信号ｓ１と比較して情報（音声）の欠けの無い遅延信号ｓ４を生成する。遅延部４０は、例えば、リングバッファを含む。遅延部４０の遅延信号ｓ４の生成は、遅延部４０に入力信号ｓ１が入力されている間、常に行われる。遅延信号ｓ４は、遅延部４０から切替部５０に入力される。

　切替部５０は、後述する制御部６０からの制御信号ｃｓ１に応じて、切替部５０から出力部８０に入力される信号を入力信号ｓ１と遅延信号ｓ４のいずれか一方に切り替えると共に、切替部５０から出力部８０への信号の入力の有無を切り替える。切替部５０は、信号切替部５１と出力切替部５２とを備える。

　信号切替部５１は、後述する制御部６０からの制御信号ｃｓ１に応じて、切替部５０から出力部８０へ入力される信号を切り替える。信号切替部５１は、接点Ｐ１と接点Ｐ２との２つの接点Ｐを備える。接点Ｐ１は遅延部４０に接続される。接点Ｐ１には、遅延部４０からの遅延信号ｓ４が入力される。接点Ｐ２は受信部１１に接続される。接点Ｐ２には、受信部１１からの入力信号ｓ１が入力される。すなわち、切替部５０は、信号切替部５１の接点Ｐ（接点Ｐ１，Ｐ２）を切り替えることにより、入力信号ｓ１と遅延信号ｓ４のいずれか一方を出力部８０へ入力する。本装置１が初期状態（本装置１の電源投入直後の状態）のとき、信号切替部５１の接点Ｐは、接点Ｐ２である。

　出力切替部５２は、後述する制御部６０からの制御信号ｃｓ１に応じて、切替部５０から出力部８０への信号の入力の有無を切り替える。出力切替部５２は、例えば、ゲート回路である。すなわち、例えば、出力切替部５２は、ゲートに高い電圧がかかると信号を出力する出力状態（以下「ゲートオン」という。）となり、ゲートに低い電圧がかかると信号を遮断する非出力状態（以下「ゲートオフ」という。）となる。出力切替部５２の状態がゲートオフのとき、切替部５０は、出力部８０へ信号を入力しない（ミュートオン）。出力切替部５２の状態がゲートオンのとき、切替部５０は、出力部８０へ信号を入力する（ミュートオフ）。換言すれば、出力切替部５２は、制御部６０からの制御信号ｃｓ１に応じて、出力部８０から出力信号を出力させる出力状態と、出力部８０から出力信号を出力させない非出力状態と、を切り替える。「出力信号」については、後述する。本装置１が初期状態のとき、出力切替部５２の状態は、ゲートオフである。出力切替部５２の状態を示す信号（以下「状態信号」という。）ｇｓ１は、切替部５０から制御部６０に入力される。

　制御部６０は、入力信号判別部２０からの判別結果ｒ１と、ノイズ検出部３０からの検出結果ｒ２と、切替部５０からの出力切替部５２の状態信号ｇｓ１と、に基づいて、切替部５０の動作（信号切替部５１や出力切替部５２の切替）を制御する制御信号ｃｓ１を生成する。すなわち、制御部６０は、判別結果ｒ１と、検出結果ｒ２と、状態信号ｇｓ１と、に基づいて、入力信号ｓ１と遅延信号ｓ４とのいずれか一方の出力部８０からの出力を制御する。制御部６０は、論理積演算部６１とカウンタ部６２とを備える。

　「制御信号ｃｓ１」は、例えば、信号切替部５１の接点Ｐ１と接点Ｐ２とを切り替える信号や、出力切替部５２のゲートオンとゲートオフとを切り替える信号である。制御信号ｃｓ１は、制御部６０から切替部５０に入力される。

　論理積演算部６１は、検出結果ｒ２を示す信号（以下「検出結果信号」という。）ｒ２ｓと、状態信号ｇｓ１と、の論理積に基づいて、後述する制御部６０による切替部５０の切替の制御（第１制御、第２制御）を選択する。論理積演算部６１の動作については、後述する。

　カウンタ部６２は、入力信号判別部２０により入力信号ｓ１が無い（無音）と判別されたとき、その無音時間をカウントする。

　記憶部７０は、本装置１が後述する信号処理を実行するために必要な情報を記憶する手段である。記憶部７０は、第１閾値Ｖ１と、第２閾値Ｖ２（図３参照）と、第３閾値Ｖ３（図４参照）と、第４閾値Ｖ４（図４参照）と、後述する第５閾値Ｖ５（図１１参照）と、を記憶する。

　出力部８０は、切替部５０からの入力信号ｓ１、または、切替部５０からの遅延信号ｓ４、のいずれか一方を出力信号として、例えば、本装置１に接続されるスピーカや通信回線などに出力する。

●本装置の信号処理●
　次に、本装置１の信号処理（動作）について、説明する。

　図５は、本装置１の信号処理を示すフローチャートである。
　図１に示されるよう、入力部１０の受信部１１に入力された入力信号ｓ１は、遅延部４０と切替部５０とに入力されると共に、バンドパスフィルタ１２を介してフィルタ信号ｓ２としてノイズ検出部３０に入力された後に整流器１３を介してＤＣ信号ｓ３に変換されて入力信号判別部２０に入力される。本装置１は、入力部１０に入力された入力信号ｓ１ごとに、入力信号判別処理（ＳＴ１）と、ノイズ検出処理（ＳＴ２）と、切替処理（ＳＴ３）と、を実行する。切替処理（ＳＴ３）は、入力信号判別処理（ＳＴ１）とノイズ検出処理（ＳＴ２）との後に実行される。

　なお、本発明において、入力信号判別処理とノイズ検出処理とは、同時に実行される場合に限らず、いずれか一方の処理が先に実行されてもよい。

●入力信号判別処理
　入力信号判別処理（ＳＴ１）は、マイクロホン２からの入力信号ｓ１（ＤＣ信号ｓ３）の有無を判別する処理である。

　図６は、入力信号判別処理（ＳＴ１）を示すフローチャートである。
　本装置１は、入力信号判別部２０を用いて、入力信号ｓ１（ＤＣ信号ｓ３）の有無を判別する。入力部１０からのＤＣ信号ｓ３は、入力信号判別部２０の第１比較部２１に入力される。本装置１は、第１比較部２１を用いて、ＤＣ信号ｓ３と、第１閾値Ｖ１と、を比較する（ＳＴ１０１）。ＤＣ信号ｓ３が第１閾値Ｖ１以上のとき（ＳＴ１０１の「はい」）、本装置１は、入力信号ｓ１が有る（有音）と判別する（ＳＴ１０２）。一方、ＤＣ信号ｓ３が第１閾値Ｖ１よりも小さいとき（ＳＴ１０１の「いいえ」）、本装置１は、入力信号ｓ１が無い（無音）と判別する（ＳＴ１０３）。判別結果ｒ１は、入力信号判別部２０から制御部６０に入力される（ＳＴ１０４）。

　前述のとおり、第１閾値Ｖ１は、マイクロホン２が収音した環境音に対応する信号に基づいて設定される変動値である。すなわち、本装置１は、例えば、マイクロホン２が収音した音が環境音であるとき、入力信号ｓ１が無い（無音）と判別する。一方、本装置１は、例えば、マイクロホン２が収音した音が音声やノイズであるとき、入力信号ｓ１が有る（有音）と判別する。

　このように、本装置１は、環境音に基づいて設定される第１閾値Ｖ１以上の音（音声、ノイズ）を入力信号ｓ１として取り扱い、第１閾値Ｖ１より小さい音（音声、ノイズ）を入力信号ｓ１として取り扱わない。つまり、本装置１は、環境音相当の音（音声、ノイズ）を、本発明における入力信号ｓ１として取り扱わない。

●ノイズ検出処理
　ノイズ検出処理（ＳＴ２）は、フィルタ信号ｓ２（入力信号ｓ１）に含まれるノイズを検出する処理である。すなわち、ノイズ検出処理（ＳＴ２）は、フィルタ信号ｓ２が音声信号かノイズ信号かを判定する処理である。

　図７は、ノイズ検出処理（ＳＴ２）を示すフローチャートである。
　本装置１は、入力部１０からフィルタ信号ｓ２が入力されている間、周波数成分判別処理（ＳＴ２０１）と、時間変化判別処理（ＳＴ２０２）と、を実行する。

　図８は、周波数成分判別処理（ＳＴ２０１）を示すフローチャートである。
　周波数成分比較処理（ＳＴ２０１）は、低域から高域に亘り同レベルのパワースペクトルを持つノイズを検出する処理である。本装置１は、周波数成分判別部３１を用いて、周波数成分判別処理（ＳＴ２０１）を実行する。

　先ず、本装置１は、ローパスフィルタ３１１を用いて、フィルタ信号ｓ２から中低域の信号を取り出す（ＳＴ２１１）。次いで、本装置１は、第１移動平均部３１２を用いて、中低域の信号を直流信号に変換して、同信号から中低域信号パワースペクトルを生成する（ＳＴ２１２）。

　一方、本装置１は、ハイパスフィルタ３１３を用いて、フィルタ信号ｓ２から中高域の信号を取り出す（ＳＴ２１３）。本装置１は、第２移動平均部３１４を用いて、中高域の信号を直流信号に変換して、同信号から中高域信号パワースペクトルを生成する（ＳＴ２１４）。

　次いで、本装置１は、相対比較部３１５を用いて、中低域信号パワースペクトルと中高域信号パワースペクトルとを比較して、その差分を算出する（ＳＴ２１５）。差分は、例えば、中低域信号パワースペクトルから中高域信号パワースペクトルを減算することにより算出される。

　次いで、本装置１は、第２比較部３１６を用いて、相対比較部３１５が算出した差分と、第２閾値Ｖ２と、を比較する（ＳＴ２１６）。差分が第２閾値Ｖ２以下のとき（ＳＴ２１６の「はい」）、本装置１は、入力信号ｓ１をノイズ信号と判別する（ＳＴ２１７）。一方、差分が第２閾値Ｖ２よりも大きいとき（ＳＴ２１６の「いいえ」）、本装置１は、入力信号ｓ１を音声信号と判別する（ＳＴ２１８）。本装置１は、周波数成分判別部３１の判別結果を論理和演算部３３に入力する（ＳＴ２１９）。

　図９は、時間変化判別処理（ＳＴ２０２）のフローチャートである。
　時間変化判別処理（ＳＴ２０２）は、インパルス性のパワースペクトルを持つノイズを検出する処理である。本装置１は、時間変化判別部３２を用いて、時間変化判別処理（ＳＴ２０２）を実行する。

　先ず、本装置１は、第３移動平均部３２１を用いて、フィルタ信号ｓ２を直流信号に変換して、同信号から入力信号パワースペクトルを生成する（ＳＴ２２１）。

　次いで、本装置１は、第３比較部３２２を用いて、入力信号パワースペクトルと、第３閾値Ｖ３と、を比較する（ＳＴ２２２）。入力信号パワースペクトルが第３閾値Ｖ３以上のとき（ＳＴ２２２の「はい」）、本装置１は、時間変化カウンタ部３２３を用いて、第３閾値Ｖ３を超えた信号の時間軸波形における時間変化をカウントする（ＳＴ２２３）。一方、入力信号パワースペクトルが第３閾値Ｖ３よりも小さいとき（ＳＴ２２２の「いいえ」）、本装置１は、入力信号ｓ１を音声信号と判別する（ＳＴ２２６）。

　次いで、本装置１は、第４比較部３２４を用いて、時間変化カウンタ部３２３のカウント値と、第４閾値Ｖ４と、を比較する（ＳＴ２２４）。カウント値が第４閾値Ｖ４以下のとき（ＳＴ２２４の「はい」）、本装置１は、入力信号ｓ１をノイズ信号と判別する（ＳＴ２２５）。一方、カウント値が第４閾値Ｖ４よりも大きいとき（ＳＴ２２４の「いいえ」）、本装置１は、入力信号ｓ１を音声信号と判別する（ＳＴ２２６）。本装置１は、時間変化判別部３２の判別結果を論理和演算部３３に入力する（ＳＴ２２７）。

　図７に戻る。
　本装置１は、論理和演算部３３を用いて、周波数成分判別処理（ＳＴ２０１）の判別結果と、時間変化判別処理（ＳＴ２０２）の判別結果と、の論理和を演算して（ＳＴ２０３）、同論理和に基づいてフィルタ信号ｓ２（入力信号ｓ１）がノイズ信号か音声信号かを判定する（ＳＴ２０４）。

　周波数成分判別処理（ＳＴ２０１）の判別結果と、時間変化判別処理（ＳＴ２０２）の判別結果と、のうち、いずれか１つの判別結果がノイズ信号であるとの判別結果であったとき（ＳＴ２０４の「はい」）、本装置１は、入力信号ｓ１をノイズ信号と判定する（ＳＴ２０５）。すなわち、ノイズ検出部３０は、周波数成分判別部３１の判別結果と、時間変化判別部３２の判別結果と、の論理和に基づいて、ノイズを検出する。一方、周波数成分判別処理（ＳＴ２０１）の判別結果と、時間変化判別処理（ＳＴ２０２）の判別結果と、の双方が音声信号であるとの判別結果であったとき（ＳＴ２０４の「いいえ」）、本装置１は、入力信号ｓ１を音声信号と判定する（ＳＴ２０６）。

　本装置１は、ノイズ検出部３０の検出結果ｒ２を制御部６０に入力する（ＳＴ２０７）。

●切替処理
　図５に戻る。
　切替処理（ＳＴ３）は、入力信号判別部２０からの判別結果ｒ１と、ノイズ検出部３０からの検出結果ｒ２と、から制御信号ｃｓ１を生成して、切替部５０の信号切替部５１と出力切替部５２とを切り替える処理である。

　図１０は、切替処理（ＳＴ３）のうち、一部の処理を示すフローチャートである。
　先ず、本装置１は、制御部６０を用いて、出力切替部５２の状態がゲートオン（出力状態）かゲートオフ（非出力状態）かを確認する（ＳＴ３０１）。このとき、出力切替部５２の状態信号ｇｓ１は、切替部５０から制御部６０の論理積演算部６１に入力される。出力切替部５２の状態がゲートオフのとき（ＳＴ３０１の「いいえ」）、本装置１は、入力信号判別部２０の判別結果ｒ１から、入力信号ｓ１の有無を確認する（ＳＴ３０２）。

　入力信号ｓ１が有る（有音）とき（ＳＴ３０２の「はい」）、本装置１は、ノイズ検出部３０の検出結果ｒ２から入力信号ｓ１が音声信号かノイズ信号かを確認する（ＳＴ３０３）。このとき、ノイズ検出部３０の検出結果信号ｒ２ｓは、論理積演算部６１に入力される。

　入力信号ｓ１が音声信号のとき（ＳＴ３０３の「はい」）、本装置１は、制御部６０を用いて、信号切替部５１の接点Ｐを接点Ｐ１に切り替えると共に出力切替部５２をゲートオンに切り替える制御信号ｃｓ１を生成する（ＳＴ３０４）。本装置１は、制御信号ｃｓ１を制御部６０から切替部５０に入力して、後述する処理（ＳＴ３０８）を実行する。その結果、信号切替部５１の接点Ｐは接点Ｐ１となり、出力切替部５２はゲートオン（ミュートオフ）となる。すなわち、切替部５０から出力部８０には、遅延信号ｓ４が入力される。つまり、本装置１は、遅延信号ｓ４を出力信号として出力する。

　入力信号ｓ１が無い（無音）とき（ＳＴ３０２の「いいえ」）、または、入力信号ｓ１がノイズ信号のとき（ＳＴ３０３の「いいえ」）、本装置１は、制御部６０を用いて、信号切替部５１の接点Ｐを接点Ｐ２に維持すると共に出力切替部５２をゲートオフに維持する制御信号ｃｓ１を生成する（ＳＴ３０５）。本装置１は、制御信号ｃｓ１を制御部６０から切替部５０に入力して、処理（ＳＴ３０１）に戻る。その結果、信号切替部５１の接点Ｐは接点Ｐ２となり、出力切替部５２はゲートオフ（ミュートオン）となる。すなわち、切替部５０から出力部８０には、信号（入力信号ｓ１または遅延信号ｓ４）が入力されない。つまり、本装置１は、出力信号を出力しない。

　一方、出力切替部５２の状態がゲートオンのとき（ＳＴ３０１の「はい」）、本装置１は、入力信号判別部２０の判別結果から、入力信号ｓ１の有無を確認する（ＳＴ３０６）。

　入力信号ｓ１が有る（有音）とき（ＳＴ３０６の「はい」）、本装置１は、後述する処理（ＳＴ３０８）を実行する。

　一方、入力信号ｓ１が無い（無音）とき（ＳＴ３０６の「いいえ」）、本装置１は、制御部６０を用いて、信号切替部５１の接点Ｐを接点Ｐ２に維持すると共に出力切替部５２をゲートオフにする制御信号ｃｓ１を生成する（ＳＴ３０７）。本装置１は、制御信号ｃｓ１を制御部６０から切替部５０に入力して、処理（ＳＴ３０１）に戻る。

　図１１は、切替処理（ＳＴ３）のうち、別の一部の処理を示すフローチャートである。
　同図は、切替処理（ＳＴ３）のうち、出力切替部５２の状態がゲートオン、かつ、入力信号ｓ１が有るときの処理を示す。

　次いで、本装置１は、入力信号ｓ１に含まれる促音や息継ぎなどの短時間の無音時間を検出する。無音時間は、例えば、無音を示す信号の立上エッジを検出することにより検出される。無音を示す信号は、入力信号判別部２０により生成されて、判別結果ｒ１と共に、制御部６０に入力される。

　本装置１は、制御部６０を用いて、入力信号判別部２０からの無音を示す信号の立上エッジを検出する（ＳＴ３０８）。本装置１は、無音を示す信号の立上エッジを検出したとき（ＳＴ３０８の「はい」）、制御部６０のカウンタ部６２を用いて、無音時間のカウントを開始する（ＳＴ３０９）。無音時間のカウントは、制御部６０が、入力信号判別部２０からの無音を示す信号の立下エッジを検出するまで続けられる（ＳＴ３１０の「いいえ」）。

　本装置１は、制御部６０が無音を示す信号の立下エッジを検出したとき（ＳＴ３１０の「はい」）、無音時間が所定の第５閾値Ｖ５以上か否かを確認する（ＳＴ３１１）。「第５閾値Ｖ５」は、短時間の無音が息継ぎか促音かを区分けする閾値である。すなわち、無音時間が第５閾値Ｖ５以上のとき、短時間の無音は、息継ぎに起因する無音である。一方、無音時間が第５閾値Ｖ５よりも小さいとき、短時間の無音は、促音に起因する無音である。第５閾値Ｖ５は、時間変化判別処理（ＳＴ２０２）における第４閾値Ｖ４よりも大きい値に設定される。

　無音時間が第５閾値Ｖ５以上のとき（ＳＴ３１１の「はい」）、本装置１は、信号切替部５１の接点Ｐを接点Ｐ２へ切り替えると共に出力切替部５２をゲートオンに維持する制御信号ｃｓ１を生成する（ＳＴ３１２）。次いで、本装置１は、カウンタ部６２のカウントをクリアすると共に、カウンタ部６２のカウントを終了して（ＳＴ３１３）、処理（ＳＴ３０１）に戻る。

　一方、無音時間が第５閾値Ｖ５よりも小さいとき（ＳＴ３１１の「いいえ」）、本装置１は、カウンタ部６２のカウントをクリアして（ＳＴ３１４）、処理（ＳＴ３０８）に戻る。

　このように、本装置１は、息継ぎなどの無音時間を検出したとき、リアルタイムな入力信号ｓ１を出力部８０に入力し、同無音時間を検出しないとき、遅延信号ｓ４を出力部８０に入力する。換言すれば、入力信号判別部２０が無音（入力信号ｓ１が無い）と判別したとき、信号切替部５１は、無音時間が第５閾値Ｖ５以上であれば入力部１０からの入力信号ｓ１を出力部８０に入力する。すなわち、信号切替部５１は、入力信号判別部２０の判別結果ｒ１に基づいて、遅延信号ｓ４または入力信号ｓ１のいずれか一方を出力部８０に出力する。

●制御部による出力切替部の切替の制御
　図１０に示されるように、制御部６０による出力切替部５２の切替の制御は、入力信号判別部２０の判別結果ｒ１とノイズ検出部３０の検出結果ｒ２とに基づいて切替を制御する第１制御（ＳＴ３０１－ＳＴ３０５を参照）と、入力信号判別部２０の判別結果ｒ１に基づいて切替を制御する第２制御（ＳＴ３０１，ＳＴ３０６，ＳＴ３０７を参照）と、を含む。

　出力切替部５２の状態がゲートオフのとき、本装置１は、第１制御を選択する。出力切替部５２の状態がゲートオフ、かつ、ノイズ検出部３０の検出結果ｒ２が音声信号であるときのみ、本装置１は、出力切替部５２の状態をゲートオンに切り替える。出力切替部５２の状態がゲートオンのとき、本装置１は、第２制御を選択する。このように、出力切替部５２の状態がゲートオフのとき、本装置１は、出力切替部５２の状態と、ノイズ検出部３０の検出結果ｒ２と、の論理積に基づいて、出力切替部５２の状態をゲートオンに切り替えて、第２制御を選択する。

　ここで、本装置１は、論理積演算部６１を用いて、第１制御または第２制御のいずれか一方を選択する。前述のとおり、論理積演算部６１には検出結果信号ｒ２ｓと状態信号ｇｓ１とが入力される。論理積演算部６１は、出力切替部５２の状態がゲートオフのとき、検出結果信号ｒ２ｓと状態信号ｇｓ１との論理積に基づいて、第１制御または第２制御のいずれか一方を選択する。一方、論理積演算部６１は、出力切替部５２の状態がゲートオンのとき、第２制御を選択する。すなわち、第１制御と第２制御とは、出力切替部５２の状態に基づいて、本装置１に選択される。つまり、本装置１は、出力切替部５２の状態がゲートオフ（非出力状態）のとき、第１制御を選択して、第１制御に基づいて出力切替部５２の切替を制御する。一方、本装置１は、出力切替部５２の状態がゲートオン（出力状態）のとき、第２制御を選択して、第２制御に基づいて出力切替部５２の切替を制御する。その結果、本装置１は、マイクロホン２の使用者が発話中に同マイクロホン２がノイズを収音しても、マイクロホン２からの入力信号ｓ１（または遅延信号ｓ４）の出力を遮断（ゲートオフ）しない。

●まとめ
　以上説明した実施の形態によれば、制御部６０による出力切替部５２の切替の制御は第１制御と第２制御とを含み、第１制御は、出力切替部５２の状態がゲートオフのときに選択される。その結果、出力切替部５２の状態がゲートオフのとき、本装置１は、ノイズを検出すると出力切替部５２の状態をゲートオフに維持する。すなわち、本装置１は、ノイズを音声として誤検出し、マイクロホン２からの信号の出力の切替の制御を行わない。つまり、本発明にかかる音声信号処理装置は、初期状態では、音声信号が入力されると遅延信号ｓ４を出力し（ミュートオフ）、ノイズ信号が入力されると信号を出力しない（ミュートオン）。

　一方、第２制御は、出力切替部５２の状態がゲートオンのときに選択される。その結果、出力切替部５２の状態がゲートオンのとき、本装置１は、ノイズを検出しても出力切替部５２の状態をゲートオンに維持する。すなわち、本装置１は、マイクロホン２の使用者が発話している状態（以下「発話状態」という。）では、同マイクロホン２がノイズを収音しても、同マイクロホン２からの入力信号ｓ１（または遅延信号ｓ４）を出力する。つまり、本装置１は、音声信号の出力中にノイズを検出しても音声信号の出力を遮断しない。

　また、以上説明した実施の形態によれば、制御部６０は、論理積演算部６１を備える。本装置１は、論理積演算部６１を用いて、検出結果信号ｒ２ｓと状態信号ｇｓ１との論理積を演算し、同論理積に基づいて、第１制御または第２制御のいずれか一方を選択する。その結果、出力切替部５２の状態がゲートオフ、かつ、ノイズ検出部３０の検出結果ｒ２が音声信号であるときのみ、本装置１は、出力切替部５２の状態をゲートオンに切り替えて、第２制御を選択する。すなわち、本装置１は、初期状態では、音声信号が入力されると音声信号（遅延信号ｓ４）を出力し（ミュートオフ）、ノイズ信号が入力されると信号を出力しない（ミュートオン）。一方、本装置１は、発話状態では、ノイズが検出されても入力信号ｓ１または遅延信号ｓ４のいずれか一方を出力する。つまり、本装置１は、音声信号の出力中にノイズを検出しても音声信号の出力を遮断しない。

　さらに、以上説明した実施の形態によれば、入力信号判別部２０は、環境音に対応する信号（第１閾値Ｖ１）と、入力部１０からの入力信号ｓ１（ＤＣ信号ｓ３）と、の比較結果に基づいて、入力部１０からの入力信号ｓ１の有無を判別する。そのため、本装置１は、本装置１を設置する環境（例えば、同装置が設置された部屋の空調の有無や同部屋の大きさ、マイクロホン２のゲイン値、など）に応じて入力信号ｓ１の有無を判別することが可能となる。

　さらにまた、以上説明した実施の形態によれば、ノイズ検出部３０は、周波数成分判別部３１と、時間変化判別部３２と、を備え、これらの各判別結果に基づいてノイズを検出する。そのため、本装置１は、様々な形状の波形となる複合的なノイズを精度よく検出可能である。

　さらにまた、本装置１は、発話の頭出しでは遅延信号ｓ４を出力し、息継ぎなどの短時間の無音時間を検出したときリアルタイムな入力信号ｓ１を出力する。すなわち、本装置１は、ノイズ検出部３０の処理などで生じる音声信号のいわゆる頭欠けを防止する。

　なお、以上説明した実施の形態によれば、切替部５０が出力切替部５２を備える。これに代えて、出力部が出力切替部を備えてもよい。この場合、ゲートオンとゲートオフとを切り替える制御信号は、制御部から出力部に入力される。

　また、本装置において、制御部の構成は、本実施の形態の構成に限定されない。すなわち、例えば、制御部は、信号切替部を制御する制御回路と、出力切替部を制御する制御回路と、で構成されてもよい。

　さらに、本装置は、複数の入力部を備えてもよい。すなわち、例えば、本装置は、６つの入力部（６ｃｈ）を備え、６つのマイクロホンからの入力信号を処理してもよい。

　さらにまた、本装置は、連続する入力信号の間隔に基づいて、短時間の無音時間を検出してもよい。すなわち、例えば、本装置は、ある入力信号の立ち下がりエッジを検出することにより無音時間をカウントし、次の入力信号の立ち上がりエッジを検出することにより無音時間のカウントを終了してもよい。換言すれば、入力信号判別部が無音（入力信号が無い）と判別したとき、信号切替部は、無音時間が第５閾値以上のときに入力部からの入力信号を出力部に入力し、無音時間が第５閾値よりも小さければ遅延部からの遅延信号を出力部に入力する。

１　　　音声信号処理装置
１０　　入力部
２０　　入力信号判別部
３０　　ノイズ検出部
３１　　周波数成分判別部
３２　　時間変化判別部
３３　　論理和演算部
４０　　遅延部
５０　　切替部
５１　　信号切替部
５２　　出力切替部
６０　　制御部
６１　　論理積演算部
８０　　出力部
ｒ１　　判別結果
ｒ２　　検出結果
ｓ１　　入力信号
ｓ４　　遅延信号

Claims

　マイクロホンからの信号が入力される入力部と、
　前記入力部からの入力信号の有無を判別する入力信号判別部と、
　前記入力部からの前記入力信号に含まれるノイズを検出するノイズ検出部と、
　前記入力信号を出力信号として出力する出力部と、
　前記出力部から前記出力信号を出力する出力状態と、前記出力部から前記出力信号を出力しない非出力状態と、を切り替える出力切替部と、
　前記出力切替部の切替を制御する制御部と、
を有してなり、
　前記制御部による前記切替の制御は、
　前記入力信号判別部の判別結果と、前記ノイズ検出部の検出結果と、に基づいて、前記切替を制御する第１制御と、
　前記入力信号判別部の前記判別結果に基づいて、前記切替を制御する第２制御と、
を含み、
　前記第１制御と前記第２制御とは、前記出力切替部の状態に基づいて、選択される、
ことを特徴とする音声信号処理装置。
　前記第１制御は、前記出力切替部が非出力状態のとき、選択され、
　前記第２制御は、前記出力切替部が出力状態のとき、選択される、
請求項１記載の音声信号処理装置。
　前記制御部は、
　前記ノイズ検出部の検出結果を示す検出結果信号と、前記出力切替部の状態を示す状態信号と、が入力される論理積演算部、
を備え、
　前記論理積演算部は、前記検出結果信号と前記状態信号との論理積に基づいて、前記第１制御または前記第２制御のいずれか一方を選択する、
請求項１記載の音声信号処理装置。
　前記マイクロホンは、前記マイクロホンの設置場所の環境音を収音し、
　前記入力信号判別部は、前記環境音に対応する信号と、前記入力部からの前記入力信号と、の比較結果に基づいて、前記入力部からの前記入力信号の有無を判別する、
請求項１記載の音声信号処理装置。
　前記出力部は、前記ノイズ検出部が前記ノイズを検出したとき、前記出力信号を出力しない、
請求項１記載の音声信号処理装置。
　前記ノイズ検出部は、
　前記入力信号の周波数成分に基づいて前記ノイズの有無を判別する周波数成分判別部と、
　前記入力信号の時間変化に基づいて前記ノイズの有無を判別する時間変化判別部と、
を備え、
　前記ノイズ検出部は、前記周波数成分判別部の判別結果と、前記時間変化判別部の判別結果と、に基づいて、前記ノイズを検出する、
請求項１記載の音声信号処理装置。
　前記ノイズ検出部は、前記周波数成分判別部の判別結果と、前記時間変化判別部の判別結果と、の論理和に基づいて、前記ノイズを検出する、
請求項６記載の音声信号処理装置。
　前記入力部から入力された前記入力信号を遅延させて出力する遅延部と、
　前記遅延部からの遅延信号と、前記入力部からの前記入力信号と、が入力されて、前記遅延信号と前記入力信号のいずれか一方を出力する信号切替部と、
を備え、
　前記出力部は、前記信号切替部から入力される前記遅延信号または前記入力信号を、前記出力信号として出力する、
請求項１記載の音声信号処理装置。
　前記信号切替部は、前記入力信号判別部の前記判別結果に基づいて、前記遅延信号または前記入力信号のいずれか一方を前記出力部に入力する、
請求項８記載の音声信号処理装置。
　前記信号切替部は、前記入力信号判別部が前記入力部からの前記入力信号が無いと判別したとき、前記入力部からの前記入力信号を前記出力部に入力する、
請求項９記載の音声信号処理装置。