WO2023228713A1

WO2023228713A1 - 音声処理装置および方法、情報処理装置、並びにプログラム

Info

Publication number: WO2023228713A1
Application number: PCT/JP2023/017329
Authority: WO
Inventors: 洋平櫻庭
Original assignee: ソニーグループ株式会社
Priority date: 2022-05-25
Filing date: 2023-05-08
Publication date: 2023-11-30

Abstract

本技術は、音質劣化を抑制することができるようにする音声処理装置および方法、情報処理装置、並びにプログラムに関する。音声処理装置は、複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、目的音の到来方向を示す目的音方向情報、およびマイクロホンアレイでの収音により得られた音声信号の少なくとも何れか一方に基づいて目的音の有無を判定し、目的音がない場合、目的音がある場合よりもマイクロホンアレイの指向性を弱くする音声信号処理部とを備える。本技術はデジタルビデオカメラに適用することができる。

Description

音声処理装置および方法、情報処理装置、並びにプログラム

　本技術は、音声処理装置および方法、情報処理装置、並びにプログラムに関し、特に、音質劣化を抑制することができるようにした音声処理装置および方法、情報処理装置、並びにプログラムに関する。

　従来、複数のマイクユニットからなるマイクロホンアレイを用いて指向性を形成するビームフォーミングと呼ばれる技術や、ビームフォーミングを用いたカメラ等の製品が知られている。

　具体的には、例えば被写体の位置に応じて手動または自動で指向性、すなわち指向軸や指向性幅を変化させることで、目的とする被写体からの音声が強調されるように音声収録を行うカメラ等がある。

　また、例えば指向性の制御に関する技術として、ビデオ会議システムにおいて、画像から検出された参加者の視線を示す視線情報を蓄積し、蓄積した視線情報に基づいてマイクロホンの指向性を決定する技術も提案されている（例えば、特許文献１参照）。

特開２０２０－８８６１８号公報

　しかしながら、上述した技術では、指向性の制御により音質劣化が生じてしまう場合があった。

　例えば、目的とする被写体の位置に応じて、手動または自動で指向性を変化させるときに、指向軸や指向性幅、すなわち収音範囲が正しく設定できなかったり、目的とする被写体を検知できなかったりすることがある。

　そのような場合に、目的とする被写体が、設定した指向性に対して定まる収音範囲外に位置してしまうと、目的とする被写体の音声の一部の周波数成分が抑圧されてしまうなどして音声劣化が生じてしまう。

　本技術は、このような状況に鑑みてなされたものであり、音質劣化を抑制することができるようにするものである。

　本技術の第１の側面の音声処理装置は、複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部とを備える。

　本技術の第１の側面の音声処理方法またはプログラムは、複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くするステップを含む。

　本技術の第１の側面においては、複数のマイクユニットを有するマイクロホンアレイにより周囲の音が収音され、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無が判定され、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性が弱くなるようにされる。

　本技術の第２の側面の情報処理装置は、目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える。

　本技術の第２の側面においては、目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示が行われる。

撮像装置の構成例を示す図である。撮像装置と収音装置の構成例を示す図である。撮像処理を説明するフローチャートである。記録用音声生成処理を説明するフローチャートである。記録用音声生成処理を説明するフローチャートである。記録用音声生成処理を説明するフローチャートである。記録用音声生成処理を説明するフローチャートである。記録用音声生成処理を説明するフローチャートである。指向性の制御について説明する図である。撮像処理を説明するフローチャートである。収音範囲に関する表示の例を示す図である。非収音範囲に関する表示の例を示す図である。収音範囲と非収音範囲に関する表示の例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈撮像装置の構成例〉
　本技術は、目的とする被写体の位置や方向に応じて、手動または自動で指向性、すなわち指向軸や指向性幅を変更する制御を行う場合に、音質劣化を抑制し、収録ミスを低減させることができるようにするものである。

　また、一般的な指向性の制御では、目的音がない場合でも指向性に応じて周囲の雑音等の不要音が十分抑圧されずに収録されてしまうことがあるが、本技術では、そのような不要音の抑圧量不足も抑制することが可能である。すなわち、本技術によれば、不要音の抑圧量を向上させることができる。

　図１は、本技術を適用した撮像装置の一実施の形態の構成例を示す図である。

　図１に示す撮像装置１１は、例えばデジタルビデオカメラや、動画撮影機能を有するデジタルスチルカメラ、スマートホンなどからなる。

　撮像装置１１は、マイクロホンアレイ２１、A/D（Analog/Digital）変換器２２－１乃至A/D変換器２２－Ｎ、音声信号処理部２３、撮像部２４、画像信号処理部２５、入力部２６、表示制御部２７、表示部２８、記録制御部２９、および記録部３０を有している。

　マイクロホンアレイ２１は、マイク筐体に設けられた標準的なＮ個のマイクユニット５１－１乃至マイクユニット５１－Ｎを有している。

　マイクユニット５１－１乃至マイクユニット５１－Ｎは、撮像装置１１の周囲の音を収音し、その結果得られた音声信号をA/D変換器２２－１乃至A/D変換器２２－Ｎに供給する。なお、以下、マイクユニット５１－１乃至マイクユニット５１－Ｎを特に区別する必要のない場合、単にマイクユニット５１とも称することとする。

　マイクロホンアレイ２１では、１つのマイクユニット５１が１つのチャンネルに対応している。そのため、マイクロホンアレイ２１による収音（収録）によって、目的とする被写体により発せられた音（目的音声）や、目的外の被写体からの音（不要音）など、撮像装置１１の周囲の被写体からの音を含むＮチャンネルの音声信号が得られる。

　マイクロホンアレイ２１に設けられるマイクユニット５１の個数Ｎはいくつであってもよいが、ビームフォーミング処理を行うにあたっては、マイクユニット５１の個数Ｎが多い方が指向性の鋭さの点で有利である。

　A/D変換器２２－１乃至A/D変換器２２－Ｎは、マイクユニット５１－１乃至マイクユニット５１－Ｎから供給されたアナログの音声信号をデジタル信号に変換し、その結果得られたデジタルの音声信号を音声信号処理部２３に供給する。

　なお、以下、A/D変換器２２－１乃至A/D変換器２２－Ｎを特に区別する必要のない場合、単にA/D変換器２２とも称する。

　また、より詳細にはマイクユニット５１とA/D変換器２２の間には図示せぬマイクアンプ（増幅器）が設けられており、マイクユニット５１から出力された音声信号は、マイクアンプにより増幅されてA/D変換器２２へと供給される。

　音声信号処理部２３は、例えばデジタルシグナルプロセッサ（DSP（Digital Signal Processor））やCPU（Central Processing Unit）で構成される。

　音声信号処理部２３は、A/D変換器２２から供給されたＮチャンネルの音声信号に対して、ビームフォーミング処理を含む各種の信号処理を行うことで目的音声が強調されたり、不要な雑音等である不要音が除去（抑圧）されたりした音声信号を生成し、出力する。

　音声信号処理部２３は、STFT（Short Term Fourier Transform）部５２－１乃至STFT部５２－Ｎ、ビームフォーミング処理部５３、およびIFFT（Inverse Fast Fourier Transform）部５４を有している。

　STFT部５２－１乃至STFT部５２－Ｎは、A/D変換器２２－１乃至A/D変換器２２－Ｎから供給された音声信号に対してフーリエ変換処理、より詳細にはSTFTを施し、その結果得られた周波数領域の音声信号をビームフォーミング処理部５３に供給する。

　STFTでは、窓関数をずらしながら、すなわち適用位置を時間方向にずらしながら窓関数が音声信号にかけられて（適用されて）、時間領域の音声信号が周波数領域の音声信号へと変換される。換言すれば、音声信号が各周波数帯域の成分に分割される。

　なお、以下、STFT部５２－１乃至STFT部５２－Ｎを特に区別する必要のない場合、単にSTFT部５２とも称することとする。

　また、ここではSTFT部５２による時間周波数変換としてSTFTが行われる例について説明するが、これに限らず、例えばQMF（Quadrature Mirror Filter）やDFT（Discrete Fourier Transform）フィルタバンクなどによる帯域分割処理を行うようにしてもよい。

　ビームフォーミング処理部５３は、収音により得られた音声信号、および画像信号処理部２５から供給された目的音声方向情報の少なくとも何れか一方に基づいて、マイクロホンアレイ２１の指向性の制御を行う。

　ここで、目的音声方向情報とは、画像信号処理部２５により求められたか、または撮像装置１１を操作するユーザの入力操作によって入力された、収録対象となる目的の被写体から発せられる音声（目的音声）の方向、換言すれば目的とする被写体のある方向を示す情報である。より具体的には、目的音声方向情報は、撮像装置１１（マイクロホンアレイ２１）から見た目的音声の到来方向を示す情報である。

　ビームフォーミング処理部５３は、適宜、画像信号処理部２５から供給された目的音声方向情報を用いて、STFT部５２から供給された周波数領域の音声信号に対してビームフォーミング処理を行い、その結果得られた記録用音声信号をIFFT部５４に供給する。

　ビームフォーミング処理では、目的音声が強調されたり、不要音が抑圧されたりして、２チャンネル等の予め定められた所定チャンネル数の音声信号が記録用音声信号として生成される。ビームフォーミング処理部５３は、このようなビームフォーミング処理によって記録用音声信号を生成することで、マイクロホンアレイ２１の指向性を変化させる（指向性を制御する）。

　なお、ビームフォーミング処理により記録用音声信号が生成された時点では、記録用音声信号は、周波数領域の信号となっている。

　また、ビームフォーミング処理には、遅延和法や適応ビームフォーミングなどの多数の手法があり、それらの手法のうちの何れの手法により記録用音声信号が生成されてもよい。さらにビームフォーミング処理では、目的音声方向情報に代えて、撮像装置１１（マイクロホンアレイ２１）から見た目的とする被写体の位置を示す情報が用いられてもよい。

　その他、所望の指向性の形成、すなわち指向性の制御は、ビームフォーミング処理に限らず、DNN（Deep Neural Network）を用いた音源分離処理や、収音（記録用音声信号の生成）に用いるマイクユニット５１の選択などにより実現されるようにしてもよい。

　ビームフォーミング処理では、収録したい目的音声の方向や位置が指定され、その方向や位置に対応する音声、つまりその方向や位置からマイクロホンアレイ２１へと到来した（伝搬してきた）音声を強調する強調処理が行われる。

　具体的には、ビームフォーミング処理部５３は、例えば目的音声方向情報により示される目的音声の到来方向に基づき、目的音声の収音に関する指向性、すなわちマイクロホンアレイ２１の指向性（指向軸と指向性幅）を決定する。

　これらの指向軸と指向性幅により定まる空間上の範囲（領域）が収音範囲となる。指向軸は収音範囲の中心の方向（中心方向）を示す軸であり、指向性幅は収音範囲の水平方向の幅に対応する。

　したがって、例えば目的音声の方向が指向軸の方向とされるなど、目的音声を発する被写体（目的とする被写体）が収音範囲内に含まれるように指向軸と指向性幅が決定される。例えば指向性幅の決定は、収音範囲の幅に対応する角度を決定することにより行われるようにしてもよい。

　ビームフォーミング処理部５３は、決定した指向性（指向軸と指向性幅）、すなわち収音範囲に応じて、STFT部５２から供給されたＮチャンネルの音声信号（マイク入力信号）のうちの所定のものを組み合わせて遅延処理や加算処理、減算処理、フィルタ処理などを行い、各周波数帯域のビームフォーミング出力音声を記録用音声信号として生成する。

　このようなビームフォーミング処理によって、指向性の制御が実現され、すなわち所望の指向性が形成され、収音範囲から到来する音が強調された記録用音声が得られる。

　なお、ビームフォーミング処理では、不要音の到来方向などが感度の低い方向とされる指向性、すなわちNULL（ヌル）と呼ばれる死角方向を有する指向性が形成されるようにし、不要音が抑圧された記録用音声が生成されるようにすることも可能である。特に、適応ビームフォーミングでは、特定の方向からの音声を強調しつつ、同時に他の所定の方向からの音声を抑圧することが可能である。

　その他、ビームフォーミング処理部５３は、指向軸や指向性幅など、ビームフォーミング処理の過程で得られる情報を適宜、表示制御部２７に供給することが可能である。

　IFFT部５４は、ビームフォーミング処理部５３から供給された記録用音声信号に対してIFFT（逆FFT）、すなわちSTFT部５２で行われた時間周波数変換の逆変換を行うとともに、逆変換により得られた信号に対してオーバーラップ加算処理を行う。

　これにより、周波数領域の記録用音声信号が、時間領域（時間軸）の記録用音声信号へと変換される。IFFT部５４は、このようにして得られた時間領域の記録用音声信号を記録制御部２９に供給する。

　撮像部２４は、例えばイメージセンサからなり、撮像装置１１の周囲の被写体を撮像し、その結果得られた動画像の画像信号（映像信号）を画像信号処理部２５に供給する。

　マイクロホンアレイ２１では、撮像部２４による撮像と同時に収音が行われ、撮像部２４で得られる動画像に付随する音声の音声信号が得られる。すなわち、マイクロホンアレイ２１で得られる音声信号は、撮像部２４で得られる画像信号に対応する音声信号である。

　画像信号処理部２５は、例えばDSPやCPUからなる。なお、画像信号処理部２５と音声信号処理部２３が１つのDSPやCPUにより実現されてもよい。

　画像信号処理部２５は、撮像部２４から供給された画像信号に対して、適宜、ホワイトバランス調整やゲイン補正、顔認識処理、瞳検出処理、動体検出処理などの所定の画像信号処理を行い、記録用画像信号を記録制御部２９に供給する。

　また、画像信号処理部２５は、撮像部２４から供給された画像信号に基づいて、ユーザ（撮影者）に提示する画角確認用のスルー画像を生成し、表示制御部２７に供給する。

　さらに、画像信号処理部２５は、撮像部２４から供給された画像信号に対する顔認識処理や瞳検出処理、動体検出処理などの画像信号処理の結果と、ユーザの入力操作に応じて入力部２６から供給された信号との少なくとも何れか一方に基づいて目的音声方向情報を生成し、ビームフォーミング処理部５３に供給する。

　入力部２６は、例えばボタンやスイッチ、表示部２８に重畳して設けられたタッチパネルなどからなり、ユーザの操作に応じた信号を画像信号処理部２５に供給する。

　表示制御部２７は、画像信号処理部２５から供給されたスルー画像の画像信号を表示部２８に供給し、表示させる。なお、表示制御部２７は、ビームフォーミング処理部５３から適宜供給されたビームフォーミング処理の過程で得られた情報に基づき、表示部２８に収音範囲や非収音範囲に関する表示を行わせることもできる。

　表示部２８は、例えば電子ファインダや撮像装置１１の背面に設けられた表示パネルなどからなり、表示制御部２７の制御に従ってスルー画像等の任意の画像を表示する。

　記録制御部２９は、画像信号処理部２５から供給された記録用画像信号と、IFFT部５４から供給された記録用音声信号とを含む動画像ファイルを生成し、生成した動画像ファイルを記録部３０に供給して記録させる。動画像ファイルの生成にあたっては、記録用画像信号や記録用音声信号が必要に応じて所定の方式により圧縮符号化される。

　記録部３０は、例えば撮像装置１１に対して着脱可能な記録媒体からなり、記録制御部２９から供給された動画像ファイルを記録する。

〈撮像装置と収音装置の構成例〉
　図１では、収音を行って記録用音声信号を生成する音声処理装置を実現する構成、すなわちマイクロホンアレイ２１、A/D変換器２２、および音声信号処理部２３が撮像装置１１に設けられている例について説明した。

　しかし、これに限らず、音声処理装置が撮像装置とは別に設けられ、音声処理装置と撮像装置とが相互に接続されるようにしてもよい。

　そのような場合、音声処理装置と撮像装置は、例えば図２に示す構成とすることができる。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２の例では、外付け用の収音装置８１が音声処理装置として機能しており、収音装置８１が撮像装置８２に接続されている。

　収音装置８１は、マイクロホンアレイ２１、A/D変換器２２－１乃至A/D変換器２２－Ｎ、および音声信号処理部２３を有している。

　また、音声信号処理部２３は、図１における場合と同様に、STFT部５２－１乃至STFT部５２－Ｎ、ビームフォーミング処理部５３、およびIFFT部５４を有している。

　撮像装置８２は、図１に示した撮像装置１１に対応し、撮像部２４、画像信号処理部２５、入力部２６、表示制御部２７、表示部２８、記録制御部２９、および記録部３０を有している。

　図２に示す例では、収音装置８１が有する構成、すなわちマイクロホンアレイ２１乃至音声信号処理部２３が撮像装置８２の外部に設けられている点のみ、図１に示した撮像装置１１の例と異なっており、全体として行われる処理自体は同様である。そこで、以下では、撮像装置１１についてのみ具体的な動作の説明を行う。

〈撮像処理の説明〉
　撮像装置１１は、起動後、ユーザにより被写体の撮像開始が指示されると、図３に示す撮像処理を行う。以下、図３のフローチャートを参照して、撮像装置１１による撮像処理について説明する。

　ステップＳ１１において撮像部２４は、周囲の被写体を撮像し、その結果得られた画像信号を画像信号処理部２５に供給する。

　また、画像信号処理部２５は、撮像部２４から供給された画像信号に対して、適宜、画像信号処理を行って記録用画像信号やスルー画像の画像信号を生成し、記録用画像信号を記録制御部２９に供給するとともにスルー画像の画像信号を表示制御部２７に供給する。

　表示制御部２７は、画像信号処理部２５から供給された画像信号を表示部２８に供給し、スルー画像を表示させる。撮影者であるユーザは、表示部２８に表示されたスルー画像を見ながら画角等を確認し、撮影を行う。

　ステップＳ１２においてマイクロホンアレイ２１を構成する各マイクユニット５１は、周囲の音を収音し、その結果得られた音声信号を出力する。

　各マイクユニット５１から出力された音声信号は、A/D変換器２２を介してSTFT部５２に供給される。このとき、A/D変換器２２では音声信号に対するA/D変換が行われる。

　なお、より詳細には、ステップＳ１１における撮像部２４での動画像の撮像と、ステップＳ１２におけるマイクロホンアレイ２１での収音とは同時に行われる。

　ステップＳ１３において画像信号処理部２５は、目的音声方向情報を出力する。

　具体的には、例えば撮影者であるユーザが入力部２６を操作して、目的とする被写体の位置または方向を指定した場合、入力部２６から画像信号処理部２５には、ユーザの操作に応じた信号が供給される。

　このような場合、画像信号処理部２５は、ユーザの操作に応じて入力部２６から供給された信号に基づいて、ユーザにより指定された位置の方向、またはユーザにより指定された方向を示す目的音声方向情報を生成し、ビームフォーミング処理部５３に供給する。

　また、例えばユーザにより目的とする被写体の位置や方向の指定がない場合、画像信号処理部２５は、撮像部２４から供給された画像信号に対して行われた顔認識処理や瞳検出処理、動体検出処理などの画像信号処理の結果に基づいて目的音声方向情報を生成する。

　例えば、顔認識処理や瞳検出処理により被写体としての人物の顔や瞳が検出された場合、画像信号処理部２５は、画像上における検出された人物の顔や瞳の位置、および焦点距離等の撮像に関する情報に基づき、撮像装置１１から見た人物の方向を特定可能である。

　画像信号処理部２５は、このようにして特定された人物の方向を目的音声の方向とし、目的音声方向情報を生成する。例えば目的とする被写体が複数ある場合には、それらの各被写体の方向を示す目的音声方向情報が生成される。

　なお、瞳検出処理では、被写体としての人の瞳だけでなく、鳥等の動物の瞳も検出することができるので、瞳検出処理により人以外の動物の瞳が検出された場合にも、瞳が検出された動物の方向を目的音声の方向として目的音声方向情報を生成することが可能である。

　同様に、例えば動体検出処理により動体が検出された場合に、その動体の方向を目的音声の方向として目的音声方向情報を生成してもよい。この場合、被写体としての動体は人である場合もあれば、人以外の動物などである場合もある。

　さらに、例えばユーザによる位置や方向の指定操作が行われず、また顔認識処理や瞳検出処理、動体検出処理において、顔や瞳、動体が検出されなかった場合には、画像信号処理部２５は、目的とする被写体がない旨の目的音声方向情報を生成するか、または目的音声方向情報の出力を行わない。

　この場合、ビームフォーミング処理部５３では、供給された目的音声方向情報や、目的音声方向情報の供給の有無から、目的とする被写体の方向や位置が指定されておらず、かつ撮像により得られた画像信号からも目的とする被写体が検出されなかったことを把握することができる。

　なお、目的音声方向情報は、ユーザによる目的とする被写体の位置や方向の指定操作（入力操作）と、画像信号に対する画像信号処理の結果との両方に基づき生成されてもよい。

　ステップＳ１４において音声信号処理部２３は、A/D変換器２２から供給された音声信号に基づいて記録用音声生成処理を行い、その結果得られた記録用音声信号を記録制御部２９に供給する。

　なお、記録用音声生成処理の詳細は後述するが、記録用音声生成処理では、収音により得られた音声信号と、画像信号処理部２５で生成された目的音声方向情報とに基づいて、ビームフォーミング処理等が行われ、記録用音声信号が生成される。

　ステップＳ１５において撮像装置１１は、動画像の撮像を終了するか否かを判定する。

　例えば、ユーザが入力部２６を操作することで撮像終了を指示した場合に、撮像を終了すると判定される。

　ステップＳ１５において、まだ撮像を終了しないと判定された場合、その後、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１５において撮像を終了すると判定された場合、動画像の撮像のための処理が停止され、その後、処理はステップＳ１６へと進む。この場合、マイクロホンアレイ２１による収音も終了する。

　ステップＳ１６において記録制御部２９は、動画像ファイルを記録部３０に記録させる。

　すなわち、記録制御部２９は、撮像開始後からこれまでの間に画像信号処理部２５から供給された記録用画像信号と、IFFT部５４から供給された記録用音声信号とを含む動画像ファイルを生成し、その動画像ファイルを記録部３０に供給して記録させる。

　このようにして動画像ファイルが記録されると、撮像処理は終了する。

　以上のようにして撮像装置１１は、ユーザの操作に従って動画像を撮像し、得られた動画像ファイルを記録する。

〈記録用音声生成処理の説明１〉
　続いて、図３のステップＳ１４に対応する記録用音声生成処理について説明する。

　例えば、音声信号処理部２３に入力される音声信号のサンプリング周波数が48kHzであり、STFT部５２でのSTFTのシフト幅が256サンプルだった場合、約5.3ms（＝256/48000）ごとに記録用音声生成処理、特に指向性等を制御する処理が行われる。

　記録用音声生成処理における指向性等の制御手法として複数の手法が考えられるが、ここでは具体的な例として、図４乃至図８のそれぞれを参照して、５つの制御手法について説明を行う。

　図４乃至図８に示す各フローチャートは、図３のステップＳ１４に対応する記録用音声生成処理を示すフローチャートであり、音声信号処理部２３により行われる。

　まず、図４のフローチャートを参照して、１つ目の制御手法（以下、制御CT1とも称する）に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて指向性幅が変更される。

　ステップＳ４１においてSTFT部５２は、A/D変換器２２を介してマイクユニット５１から供給された音声信号に対してSTFTを行い、その結果得られた周波数領域の音声信号をビームフォーミング処理部５３に供給する。

　ステップＳ４２においてビームフォーミング処理部５３は、STFT部５２から供給された音声信号、および画像信号処理部２５から供給された目的音声方向情報のうちの少なくとも何れか一方に基づいて、目的音声がないかを判定する。換言すれば、収音により得られた音声信号に目的音声が含まれているか否か、すなわち目的音声の有無が判定される。

　例えば、目的とする被写体がない旨の目的音声方向情報が供給された場合や、目的音声方向情報が供給されなかった場合に、目的音声がないと判定される。

　ステップＳ４２において目的音声がないと判定された場合、ステップＳ４３においてビームフォーミング処理部５３は、弱い指向性として記録用音声信号を生成する。

　例えば画像信号処理部２５において画像信号から目的とする被写体が検出されなかった場合、すなわち顔や瞳、動体が検出されなかった場合、ステップＳ４２では目的音声がないと判定される。

　このように目的音声がないと判定される場合、画像信号処理部２５において認識誤りによって、目的とする被写体が検出（検知）できなかった可能性がある。そのため、目的音声の方向が不明なまま不適切な収音範囲を設定してしまうと、本来収録したかった目的音声が収録されない、すなわち目的音声が抑圧されてしまう可能性がある。

　そこで、ビームフォーミング処理部５３は、目的音声がない場合には、目的音声がある場合よりもマイクロホンアレイ２１の指向性を弱くすることによって、目的音声が誤抑圧されてしまうことを軽減させる。

　具体的な例として、例えばビームフォーミング処理部５３は、マイクロホンアレイ２１（記録用音声信号）に関する指向性を、全方位からの音声を収録する全指向性とする。換言すれば、全指向性となるように指向性幅が決定される。この場合、例えば360度の全範囲を収音範囲とするような指向性幅が設定される。

　したがって、例えば、これまでは目的音声があったために鋭い指向性が形成されるように記録用音声信号が生成されていたが、ステップＳ４２で目的音声がないと判定された場合には、指向性が全指向性に戻されるなど、指向性が弱められるような制御が行われる。すなわち、指向性が変更される。

　ビームフォーミング処理部５３は、指向性、すなわち指向性幅を決定すると、決定した指向性に応じて、STFT部５２から供給されたＮチャンネル分の音声信号のうちの任意のものを組み合わせて遅延処理や加算処理等を行い、記録用音声信号を生成する。

　なお、指向性の変更方法は、ビームフォーミング処理の方式によって異なる。

　例えば遅延和法の場合には、加算処理に用いるマイクユニット５１の個数、すなわち加算する音声信号の個数（チャンネル数）を減らすことで指向性を弱めることができる。したがって、例えば全指向性に対応する少ない数の音声信号を加算して記録用音声信号を生成することで、全指向性を形成することができる。換言すれば、全範囲を収音範囲とした記録用音声信号を得ることができる。

　また、例えば適応ビームフォーミングの場合には、全指向性と鋭指向性の出力割合を変えることなどが考えられる。

　すなわち、全指向性となるように生成された記録用音声信号と、所定の鋭い指向性である鋭指向性となるように生成された記録用音声信号とを重み付き加算して最終的な記録用音声信号を生成する場合に、重み付き加算時の重みを変化させることで、最終的な記録用音声信号（マイクロホンアレイ２１）の指向性を変化させることができる。

　その他、指向性の制御方法によっては、抑圧した音声成分の重みを小さくするなど、様々な手法が考えられるが、どのような手法により指向性を制御するようにしてもよい。

　ビームフォーミング処理部５３は、決定した弱い指向性に応じた記録用音声信号を生成すると、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ４５へと進む。

　また、ステップＳ４２において目的音声があると判定された場合、目的音声方向情報により目的音声の到来方向、すなわち目的とする被写体の方向を特定できるので、その後、処理はステップＳ４４へと進む。

　ステップＳ４４においてビームフォーミング処理部５３は、鋭い（強い）指向性として記録用音声信号を生成する。

　例えばビームフォーミング処理部５３は、マイクロホンアレイ２１（記録用音声信号）に関する指向性を、予め定められた所定の鋭い指向性である鋭指向性とする。換言すれば、鋭指向性となるように指向性幅が決定される。この場合、例えば、予め定められた特定の狭い幅が指向性幅とされる。

　したがって、例えば、これまでは全指向性としていたが、ステップＳ４２で目的音声があると判定された場合には、指向性が全指向性から鋭指向性に変更される制御が行われる。

　なお、ステップＳ４４では、予め定められた鋭指向性に変更される例に限らず、ステップＳ４２において目的音声がないと判定された場合の変更後の指向性よりも、より鋭い指向性に変更されるようにすればよい。

　例えば現時点の指向性幅よりも所定幅だけ変更後の指向性幅が狭くなるようにしてもよいし、目的とする被写体の位置や数、すなわち目的音声を発する音源の位置や数に応じて指向性幅が動的に変化する（決定される）ようにしてもよい。

　また、ステップＳ４２で継続して目的音声があると判定され続けており、既に鋭い指向性で記録用音声信号が生成されている場合には、現時点での鋭い指向性がそのまま維持されるようにしてもよい。すなわち、指向性幅が変更されずに維持されてもよい。

　そしてビームフォーミング処理部５３は、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ４５へと進む。

　このように目的音声がある場合には、鋭い指向性とすることで、目的音声を強調しつつ不要音を十分に抑圧することができる。すなわち、不要音の抑圧量を向上させる（不要音の抑圧量不足を抑制する）ことができる。

　ステップＳ４３の処理、またはステップＳ４４の処理が行われると、その後、ステップＳ４５の処理が行われる。

　ステップＳ４５においてIFFT部５４は、ビームフォーミング処理部５３から供給された記録用音声信号に対してIFFTを行うとともに、その結果得られた信号に対してオーバーラップ加算処理を行い、時間領域の記録用音声信号を得る。

　IFFT部５４は、このようにして得られた時間領域の記録用音声信号を記録制御部２９に供給する。記録用音声信号が記録制御部２９に供給されると、記録用音声生成処理は終了し、その後、処理は図３のステップＳ１５へと進む。

　以上のようにして、ビームフォーミング処理部５３は、収音した音声信号に目的音声が含まれているか否か、すなわち目的音声があるか否かに応じて、動画像の撮影中に動的に指向性、特に指向性幅を変更する。

　このようにすることで、音質劣化を抑制し、動画像の付随音声として、より高品質な音声を得ることができる。

　すなわち、目的音声がない場合には弱い指向性とされ、収音範囲がより広く設定される。そのため、例えば認識誤りによって、本来検出されるべき目的とする被写体が検出（認識）されなかったときでも、目的とする被写体が収音範囲から外れてしまい、目的音声の音質が劣化してしまうことを抑制することができる。換言すれば、収録ミスを低減させることができる。

　また、目的音声がある場合には鋭い指向性とされ、収音範囲がより狭く設定されるため、目的音声を強調することができるだけでなく、不要音を抑圧することができる。これにより、動画像の付随音声として目的音声が強調され、かつ不要音が十分に抑圧された音声を得ることができる。

〈記録用音声生成処理の説明２〉
　次に、図５のフローチャートを参照して、２つ目の制御手法（以下、制御CT2とも称する）に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて指向軸が変更される。

　なお、ステップＳ７１およびステップＳ７２の処理は、図４のステップＳ４１およびステップＳ４２の処理と同様であるので、その説明は省略する。

　ステップＳ７２において目的音声がないと判定された場合、ステップＳ７３においてビームフォーミング処理部５３は、マイクロホンアレイ２１の指向軸の方向を予め定められた所定の方向として記録用音声信号を生成する。

　例えばビームフォーミング処理部５３は、撮像装置１１から見た正面方向や、予め定められたプリセット方向などを指向軸の方向とする。プリセット方向は、ユーザにより指定可能（選択可能）であってもよい。

　ビームフォーミング処理部５３は、決定した指向軸に基づき、図４のステップＳ４３における場合と同様にして指向性（指向軸）に応じた記録用音声信号を生成する。

　目的音声がないと判定される場合、画像信号処理部２５において認識誤りによって、目的とする被写体が検出（検知）できなかった可能性がある。そのため、目的音声の方向が不明なまま間違った方向に指向軸を向けてしまうと、本来収録したかった目的音声の音源（被写体）が収音範囲外に位置してしまい、目的音声が抑圧されてしまう可能性がある。

　そこで、ビームフォーミング処理部５３は、目的音声がないと判定された場合には、指向軸の方向を正面方向や予め定められたプリセット方向に戻すことで、認識誤りによって検出されなかった目的音声の被写体が収音範囲から外れてしまうことを抑制する。これは、ユーザが撮影したい被写体、つまり目的とする被写体は正面方向や撮影用途等に応じたプリセット方向に位置していることが多いためである。このようにすることで、目的音声が誤抑圧されてしまうことを軽減させることができる。

　ビームフォーミング処理部５３は、決定した指向軸に応じた記録用音声信号を生成すると、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ７５へと進む。

　また、ステップＳ７２において目的音声があると判定された場合、目的音声方向情報により目的音声の到来方向、すなわち目的とする被写体の方向を特定できるので、その後、処理はステップＳ７４へと進む。

　ステップＳ７４においてビームフォーミング処理部５３は、目的音声方向情報に応じて指向軸の方向を決定し、記録用音声信号を生成する。

　例えばビームフォーミング処理部５３は、目的音声方向情報により示される目的音声の到来方向、すなわち目的とする被写体の方向を指向軸の方向とする。なお、目的音声方向情報が用いられずに、音声信号に基づき目的音声の方向が特定された場合には、その特定された目的音声の方向が指向軸の方向とされる。

　ビームフォーミング処理部５３は、指向性、すなわち指向軸を決定すると、決定した指向性に基づき、図４のステップＳ４３における場合と同様にして指向性（指向軸）に応じた記録用音声信号を生成する。

　そしてビームフォーミング処理部５３は、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ７５へと進む。

　ステップＳ７３またはステップＳ７４の処理が行われると、ステップＳ７５の処理が行われて記録用音声生成処理は終了するが、ステップＳ７５の処理は図４のステップＳ４５の処理と同様であるので、その説明は省略する。

　記録用音声生成処理が終了すると、図３のステップＳ１４の処理が終了したことになるので、その後、処理はステップＳ１５へと進む。

　以上のようにして、ビームフォーミング処理部５３は、目的音声があるか否かに応じて、動画像の撮影中に動的に指向軸を変更する。

　すなわち、目的音声がない場合には、正面方向等の所定方向を指向軸の方向とすることで、認識誤りによって、本来検出されるべき目的とする被写体が検出（認識）されなかったときでも、目的とする被写体が収音範囲から外れてしまうことを抑制することができる。これにより、目的音声の音質が劣化してしまうことを抑制することができる。

　また、目的音声がある場合には、目的音声の方向を指向軸の方向とすることで、鋭い指向性としたときでも、目的とする被写体が確実に収音範囲に含まれるようにすることができる。これにより、動画像の付随音声として目的音声が強調され、かつ不要音が十分に抑圧された音声を得ることができる。

〈記録用音声生成処理の説明３〉
　図６のフローチャートを参照して、３つ目の制御手法（以下、制御CT3とも称する）に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて記録用音声信号の音量が制御される。

　なお、ステップＳ１０１およびステップＳ１０２の処理は、図４のステップＳ４１およびステップＳ４２の処理と同様であるので、その説明は省略する。

　ステップＳ１０２において目的音声がないと判定された場合、ステップＳ１０３においてビームフォーミング処理部５３は、記録用音声信号の音量を低い音量とする。

　例えばビームフォーミング処理部５３は、図４のステップＳ４３における場合と同様にして指向性に応じた記録用音声信号を生成する。

　このとき、ビームフォーミング処理部５３は、記録用音声信号に基づく音声の音量が、予め定められた規定音量よりも小さくなるように、記録用音声信号に対してゲイン補正（音量調整）を行う。

　ここでいう規定音量は、例えば目的音声があると判定された場合における記録用音声信号の音量であり、ゲイン（音量）の補正量が１倍のときの音量などとされる。すなわち、特にゲイン補正を行わないときの音量が規定音量とされる。

　したがって、目的音声がない場合には、目的音声がある場合よりも、より音量が小さくなるように音量制御が行われることになる。

　なお、ゲイン補正時には、記録用音声信号の一部または全部の周波数帯域成分のゲインが小さくなるようにされる。すなわち、記録用音声信号の全周波数帯域のゲイン（音量）が小さくなるようにしてもよいし、記録用音声信号の一部の周波数帯域のゲインのみが小さくなるようにしてもよい。

　このように、目的音声がないときには、記録用音声信号の音量を下げることで、不要音が目立たなくなるようにすることができる。すなわち、不要音の抑圧量を向上させることができる。

　ビームフォーミング処理部５３は、決定した音量の記録用音声信号を生成すると、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ１０５へと進む。

　また、ステップＳ１０２において目的音声があると判定された場合、ステップＳ１０４においてビームフォーミング処理部５３は、記録用音声信号の音量を規定音量とする。

　例えばビームフォーミング処理部５３は、ステップＳ１０３における場合と同様にして指向性に応じた記録用音声信号を生成する。但し、この場合、ビームフォーミング処理部５３は、記録用音声信号に基づく音声の音量が、予め定められた規定音量となるように、必要に応じて記録用音声信号に対してゲイン補正（音量調整）を行う。

　目的音声がある場合には、予め定めた適切な規定音量で音声が再生される記録用音声信号を生成することで、強調された目的音声が適切な音量で再生されるようになる。

　ビームフォーミング処理部５３は、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ１０５へと進む。

　ステップＳ１０３またはステップＳ１０４の処理が行われると、ステップＳ１０５の処理が行われて記録用音声生成処理は終了するが、ステップＳ１０５の処理は図４のステップＳ４５の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図３のステップＳ１５へと進む。

　以上のようにして、ビームフォーミング処理部５３は、目的音声があるか否かに応じて、動画像の撮影中に記録用音声信号の音量を動的に変更する。このようにすることで、動画像の付随音声として、不要音が十分に抑圧された音声を得ることができる。

〈記録用音声生成処理の説明４〉
　続いて、図７のフローチャートを参照して、４つ目の制御手法（以下、制御CT4とも称する）に対応する記録用音声生成処理について説明する。この例では、目的音声の有無、より詳細には不要音のみの区間であるか否かに応じて記録用音声信号の音量が制御される。

　なお、ステップＳ１３１の処理は、図４のステップＳ４１の処理と同様であるので、その説明は省略する。

　ステップＳ１３２においてビームフォーミング処理部５３は、STFT部５２から供給された音声信号、および画像信号処理部２５から供給された目的音声方向情報に基づいて、不要音のみの区間であるかを判定する。すなわち、収音により得られた音声信号における処理対象となっている区間に不要音のみが含まれているか否かが判定される。

　例えばステップＳ１３２では、顔認識処理等により目的とする被写体が検出され、その目的とする被写体の方向を示す目的音声方向情報が供給された場合であっても、収音された音声信号から目的音声が検出されなかったときには、不要音のみの区間であるとされる。具体的な例として、例えば画像上には目的とする被写体が含まれているが、その目的とする被写体が音を発していない場合に、不要音のみの区間であると判定される。

　ステップＳ１３２において不要音のみの区間であると判定された場合、ステップＳ１３３においてビームフォーミング処理部５３は、記録用音声信号の音量を低い音量とする。

　例えばビームフォーミング処理部５３は、図６のステップＳ１０３における場合と同様にして、記録用音声信号に基づく音声の音量が、予め定められた規定音量よりも小さくなるようにゲイン補正を行い、記録用音声信号を生成する。

　この場合においても、ゲイン補正時には、記録用音声信号の一部または全部の周波数帯域成分のゲインが小さくなるようにされる。

　このように、目的音声が発せられておらず、不要音のみが発せられているときには、記録用音声信号の音量を下げることで、不要音を目立たなくすることができる。すなわち、不要音の抑圧量を向上させることができる。

　ビームフォーミング処理部５３は、決定した音量の記録用音声信号を生成すると、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ１３５へと進む。

　また、ステップＳ１３２において不要音のみの区間でない、すなわち目的音声を含む区間であると判定された場合、ステップＳ１３４においてビームフォーミング処理部５３は、記録用音声信号の音量を規定音量とする。

　例えばビームフォーミング処理部５３は、図６のステップＳ１０４における場合と同様にして、記録用音声信号に基づく音声の音量が、予め定められた規定音量となるように、必要に応じてゲイン補正を行い、記録用音声信号を生成する。

　ビームフォーミング処理部５３は、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ１３５へと進む。

　ステップＳ１３３またはステップＳ１３４の処理が行われると、ステップＳ１３５の処理が行われて記録用音声生成処理は終了するが、ステップＳ１３５の処理は図４のステップＳ４５の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図３のステップＳ１５へと進む。

　以上のようにして、ビームフォーミング処理部５３は、不要音のみの区間であるか否かに応じて、動画像の撮影中に記録用音声信号の音量を動的に変更する。このようにすることで、動画像の付随音声として、不要音が十分に抑圧された音声を得ることができる。

〈記録用音声生成処理の説明５〉
　図８のフローチャートを参照して、５つ目の制御手法（以下、制御CT5とも称する）に対応する記録用音声生成処理について説明する。この例では、目的音声が複数あるか否かに応じて指向性幅が変更される。

　なお、ステップＳ１６１の処理は、図４のステップＳ４１の処理と同様であるので、その説明は省略する。

　ステップＳ１６２においてビームフォーミング処理部５３は、STFT部５２から供給された音声信号、および画像信号処理部２５から供給された目的音声方向情報のうちの少なくとも何れか一方に基づいて、目的音声が複数あるか否かを判定する。換言すれば、収音により得られた音声信号に目的音声が複数含まれているか、または目的音声が１つだけ含まれているかが判定される。

　例えば、目的とする複数の各被写体の方向を示す目的音声方向情報が供給された場合に、目的音声が複数あると判定される。

　ステップＳ１６２において目的音声が複数あると判定された場合、ステップＳ１６３においてビームフォーミング処理部５３は、弱い指向性として記録用音声信号を生成する。

　特に、ステップＳ１６３では、図４のステップＳ４３における場合と同様にして記録用音声信号が生成される。

　例えば、目的とする被写体が複数ある場合、鋭い指向性とすると、収音範囲が狭くなり、目的とする被写体のうちのいくつかが収音範囲外に位置してしまう可能性がある。そうすると、誤抑圧により目的音声の音質が劣化してしまう。

　そこで、ビームフォーミング処理部５３は、目的音声が複数ある場合には、目的音声が１つである場合よりもマイクロホンアレイ２１の指向性を弱くすることによって、複数の各目的音声が誤抑圧されてしまうことを軽減させる。この場合、例えば全指向性となるように指向性幅が決定される。

　ビームフォーミング処理部５３は、指向性、すなわち指向性幅を決定すると、決定した指向性に応じて記録用音声信号を生成してIFFT部５４に供給し、その後、処理はステップＳ１６５へと進む。

　一方、ステップＳ１６２において目的音声が複数ない、すなわち目的音声が１つであると判定された場合、ステップＳ１６４においてビームフォーミング処理部５３は、鋭い指向性として記録用音声信号を生成する。

　この場合、例えば図４のステップＳ４４における場合と同様の処理により記録用音声信号が生成される。すなわち、鋭指向性など、目的音声がない場合や目的音声が複数ある場合よりも、より鋭い指向性となるように指向性幅（指向性）が決定され、決定された指向性に応じた記録用音声信号が生成される。

　ビームフォーミング処理部５３は、得られた記録用音声信号をIFFT部５４に供給し、その後、処理はステップＳ１６５へと進む。

　ステップＳ１６３またはステップＳ１６４の処理が行われると、ステップＳ１６５の処理が行われて記録用音声生成処理は終了するが、ステップＳ１６５の処理は図４のステップＳ４５の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図３のステップＳ１５へと進む。

　以上のようにして、ビームフォーミング処理部５３は、目的音声が複数あるか否かに応じて、動画像の撮影中に動的に指向性、特に指向性幅を変更する。このようにすることで、音質劣化を抑制し、動画像の付随音声として、より高品質な音声を得ることができる。

　以上においては、図３のステップＳ１４で行われる指向性等の制御手法として、図４乃至図８を参照して５つの制御CT1乃至制御CT5について説明した。

　これらの制御CT1乃至制御CT5をまとめると、図９に示すようになる。

　図９において「判定処理」の欄には、指向性等を決定するにあたり行われる判定処理として、どのような処理が行われるかが記されている。

　また、「判定結果がYES（肯定）の場合」の欄には、判定処理の結果が肯定的であった場合に行われる指向性等の制御が記されており、「判定結果がNO（否定）の場合」の欄には、判定処理の結果が否定的であった場合に行われる指向性等の制御が記されている。

　具体的には、例えば図４を参照して説明した制御CT1では、ステップＳ４２において判定処理として目的音声がないかが判定される。

　そして制御CT1では、判定結果が肯定的である場合、つまり目的音声がない場合には、ステップＳ４３において指向性が弱められ、逆に判定結果が否定的である場合、つまり目的音声がある場合には、ステップＳ４４において指向性が鋭くなるようにされる。

　これらの制御CT1乃至制御CT5のうち、制御CT1、制御CT2、および制御CT5では、収録したい目的音声の音質劣化や誤抑圧を低減（軽減）させることができる。また、制御CT3および制御CT4では、不要音の抑圧量を向上させることができる。これらの制御CT1乃至制御CT5は、ビームフォーミング処理として、鋭い指向性を形成可能な適応ビームフォーミングを行う場合などに特に有用である。

　なお、図３のステップＳ１４においては、上述の制御CT1乃至制御CT5のうちの１つの制御を単独で行う他、制御CT1乃至制御CT5のうちの任意の２以上のものを組み合わせて記録用音声信号を生成することも勿論可能である。

　例えば制御CT4と、制御CT1乃至制御CT3や制御CT5とを組み合わせた制御を行う場合、目的音声があると判定されたときや、目的音声が複数あると判定されたときであっても、不要音のみの区間であると判定されると、低い音量で記録用音声信号が生成される。

　また、制御CT1乃至制御CT5での目的音声があるかの判定や、不要音のみの区間であるかの判定、目的音声が複数あるかの判定にあたっては、目的音声方向情報とSTFT部５２から供給された音声信号のうちの少なくとも何れか一方が用いられると説明した。

　この場合、STFT部５２から供給された音声信号、つまり収音により得られた音声信号を用いる手法として、例えば以下に示す判定手法JM1乃至判定手法JM4や、それらの判定手法JM1乃至判定手法JM4のうちの任意のものを組み合わせる手法などが考えられる。

　（判定手法JM1）
　手動で目的とする被写体の方向（角度）を指定し、その方向の音声のパワー値で閾値処理する
　（判定手法JM2）
　手動で目的とする被写体の方向（角度）を指定し、その方向が収音により得られた音声信号に基づく音源の方向推定の結果に近いかを判定する
　（判定手法JM3）
　収音により得られた音声信号に対して音声検知処理を行い、音声の有無を判定する
　（判定手法JM4）
　収音により得られた音声信号に基づく音源の方向推定を行い、その推定結果が所定の方向の範囲から外れていれば不要音であると判定する

　具体的には、判定手法JM1では、ユーザ（撮影者）が入力部２６を操作することで、目的とする被写体の方向（角度）または位置を指定する。したがって、目的音声方向情報は、ユーザにより指定された被写体の方向となる。

　ビームフォーミング処理部５３は、ビームフォーミング処理の過程において、STFT部５２から供給された音声信号に基づき、目的音声方向情報により示される方向から到来する音声のパワー値を求め、得られたパワー値が所定の閾値以上であるか否かを判定する。

　そして、パワー値が所定の閾値以上であると判定された場合に、目的音声方向情報により示される方向から目的音声が到来した、つまり目的音声があるとされる。

　判定手法JM2では、判定手法JM1における場合と同様にして、ユーザにより指定された方向を示す目的音声方向情報が生成される。

　また、ビームフォーミング処理部５３は、ビームフォーミング処理の過程において、STFT部５２から供給された音声信号に基づいて方向推定を行う。この方向推定によって、音声信号に含まれている音（音声）の到来方向、つまり収音時に音を発していた被写体（音源）の方向が推定結果として得られる。

　ビームフォーミング処理部５３は、方向推定の結果として得られた方向と、目的音声方向情報により示される方向とのなす角度を求め、得られた角度が所定の閾値以下である場合に、目的音声方向情報により示される方向から目的音声が到来した、つまり目的音声があるとする。

　判定手法JM3では、収音により得られた音声信号に対して音声検知処理が行われる。音声検知処理では、マイクユニット５１により収音された音声信号に音声らしい音が含まれているか否か、換言すれば音声信号に基づく音が音声らしいか否かの判定が行われる。

　具体的には、例えば音声信号処理部２３がSTFT部５２から出力された音声信号に基づいて、予め学習により得られたDNNによるVAD（Voice Activity Detection）などを音声検知処理として行い、その処理結果をビームフォーミング処理部５３に供給する。

　ビームフォーミング処理部５３は、音声信号処理部２３から供給された音声検知処理の処理結果に基づいて、目的音声の有無を判定する。例えば音声検知処理により音声が検知された場合、すなわち音声らしいと判定された場合、目的音声があるとされる。

　判定手法JM4では、判定手法JM2における場合と同様に、ビームフォーミング処理部５３は、ビームフォーミング処理の過程において、音声信号に基づく方向推定を行う。

　そしてビームフォーミング処理部５３は、方向推定の結果として得られた方向が、所定の方向の範囲外の方向であった場合、方向推定により示される方向からの音は不要音であるとする。

　ここで、所定の方向の範囲とは、例えば正面方向を含む所定の幅の範囲など、予め定められた範囲であってもよいし、目的音声方向情報により示される方向を含む範囲であってもよいし、予めユーザ等により指定された範囲であってもよい。その他、所定の方向の範囲は、決定された指向軸や指向性幅などから定まる範囲であってもよい。

　上述の制御CT4では、目的音声方向情報と音声信号に基づいて、不要音のみの区間であるかの判定が行われる。

　具体的には、例えば判定手法JM2と判定手法JM4を組み合わせることで、不要音のみの区間であるかの判定を行うことができる。

　この場合、まずはユーザの指定操作や顔認識処理等の結果に基づき、目的音声の方向を示す目的音声方向情報が生成される。そして、得られた目的音声方向情報と、収音により得られた音声信号とに基づいて、判定手法JM2と判定手法JM4により不要音のみの区間であるかが判定される。このとき、方向推定の結果から、目的音声方向情報により示される目的音声の方向とは異なる方向から音が到来している場合、その音は不要音であるとされる。

　判定の結果、不要音のみの区間であるとされた場合には、図７のステップＳ１３３の処理が行われ、全体の音量が下げられて、不要音の抑圧効果が高められる。すなわち、不要音の抑圧量の向上が実現される。

〈第２の実施の形態〉
〈撮像処理の説明〉
　ところで、一般的に知られているデジタルカメラ等のカメラシステムとして、顔認識処理を行って、検出された顔の方向に指向性を向ける場合に、検出された顔部分を囲む枠を表示させるものが多数存在する。

　しかし、そのようなカメラシステムで一般的に用いられている固定ビームフォーミングやガンマイクでは、検出された顔の範囲、すなわち表示した枠の範囲のみを収音範囲とするような鋭い指向性を形成することは困難である。そのため、実際の収音範囲が、撮影者のイメージする収音範囲と異なる可能性がある。

　また、例えば指向性の制御に適応ビームフォーミングなど、不要音に対して死角（NULL）を形成可能な方式のビームフォーミング処理では、ガンマイクなどと比べて抑圧量が大きくなる。そのため、実際の収音範囲が、撮影者のイメージする収音範囲と異なると、本来必要な目的音声が誤抑圧されてしまうケースも想定される。

　そこで、収音範囲や、音声が抑圧されている範囲（以下、非収音範囲とも称する）など、収音範囲や非収音範囲に関する表示を行うことで、撮影者が収音範囲や非収音範囲を視覚的に瞬時に把握することができるようにしてもよい。そうすれば、誤抑圧のリスク等を低減させることができるようになる。

　このような収音範囲または非収音範囲に関する表示は、ビームフォーミング処理として、鋭い指向性を実現可能な適応ビームフォーミングなどを行う場合に特に有用である。

　収音範囲または非収音範囲に関する表示を行う場合、撮像装置１１は、例えば図１０に示す撮像処理を行う。以下、図１０のフローチャートを参照して、撮像装置１１による撮像処理について説明する。

　なお、ステップＳ２０１乃至ステップＳ２０４の処理は、図３のステップＳ１１乃至ステップＳ１４の処理と同様であるので、その説明は省略する。

　但し、ステップＳ２０４では、ビームフォーミング処理部５３は、ビームフォーミング処理の過程で得られた、収音範囲や非収音範囲を特定可能な情報、音声の抑圧量を示す情報などを収音関連情報として表示制御部２７に供給する。例えば収音関連情報は、スルー画像の表示に関する処理を行う、表示制御部２７を実現するアプリケーションプログラムにメタデータなどで伝送される。

　収音関連情報は、ビームフォーミング処理部５３において得られた、マイクロホンアレイ２１の指向性の制御に関する情報であり、例えば収音範囲を特定するための指向軸や指向性幅、非収音範囲を特定するための死角方向や音声が抑圧される範囲の幅などとされる。

　ステップＳ２０５において表示制御部２７は、ビームフォーミング処理部５３から供給された収音関連情報に基づいて、表示部２８に収音範囲または非収音範囲に関する表示を行わせる。

　具体的には、例えば表示制御部２７は、収音関連情報により特定される収音範囲や非収音範囲を示す枠をスルー画像上に重畳表示させたり、記録用音声信号に基づく音声全体の抑圧量、または被写体（方向）ごとの音声の抑圧量をスルー画像上に重畳表示させたりする。このとき、表示制御部２７は、必要に応じて画像信号処理部２５から顔認識処理の結果や目的音声方向情報などを取得し、収音範囲や非収音範囲に関する表示に利用する。

　ステップＳ２０５の処理が行われると、その後、ステップＳ２０６およびステップＳ２０７の処理が行われて撮像処理は終了するが、これらの処理は図３のステップＳ１５およびステップＳ１６の処理と同様であるので、その説明は省略する。

　以上のようにして撮像装置１１は、動画像の撮像時に収音関連情報に基づき、収音範囲や非収音範囲に関する表示を行う。このようにすることで、撮影者（ユーザ）に対して、収音範囲や非収音範囲を視覚的に分かりやすく提示することができる。これにより、誤抑圧の発生等を低減させ、音声劣化の少ない高品質な音声を得ることができる。

〈収音範囲または非収音範囲に関する表示の例〉
　ここで、図１１乃至図１３を参照して、図１０のステップＳ２０５で表示される収音範囲または非収音範囲に関する表示の具体的な例について説明する。なお、図１３において図１１または図１２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１１には、収音範囲が提示される場合の例が示されている。

　具体的には、図１１の左側には、収音範囲を枠表示する例が示されている。

　この例では、表示部２８の表示画面にスルー画像に重畳されて、収音範囲となる領域を示す枠K11が表示されている。例えば収音範囲に含まれている被写体（音源）が枠K11により囲まれるようにすることができる。

　ここでは、収音範囲を表す所定の色の枠K11が、スルー画像上における目的とする被写体、すなわち目的音声の音源を囲むように表示されている。そのため、撮影者（ユーザ）は枠K11の表示を見ることで、その枠K11内の領域が収音範囲となっていることを視覚的に瞬時に把握することができる。

　同様に、図１１の中央には、収音範囲を指向性ビーム図で表示する例が示されている。

　この例では、スルー画像に重畳して表示されている所定の色の領域K12が、収音範囲となる指向性ビームの範囲、すなわち収音された音声が強調される領域の範囲を表している。特に、領域K12の向けられた方向が指向軸の方向を表しており、領域K12の幅が指向性幅に対応している。

　図１１の右側には、収音範囲を画面端での指向性模式図で表示する例が示されている。

　この例では、スルー画像に重畳されて、表示画面の端部分に撮像装置１１を表すカメラの模式図K13と、そのカメラの模式図K13の部分を起点とする指向性ビームの範囲（方向）を模式的に表す所定の色の領域K14とが表示されている。図中、中央に示した例と同様に、領域K14の向けられた方向が指向軸の方向を表しており、領域K14の幅が指向性幅に対応している。

　なお、収音範囲に関する表示は、図１１に示した例に限らず、指向性を表すポーラパターン、収音対象の音源となる被写体、つまり目的とする被写体の位置や方向（角度）を示す表示など、他のどのような表示であってもよい。

　図１２には、非収音範囲に関する表示の例として、非収音範囲や不要音等の抑圧量が提示される場合の例が示されている。

　具体的には、図１２の左側には、非収音範囲を枠表示する例が示されている。

　この例では、表示部２８の表示画面にスルー画像に重畳されて、非収音範囲となる領域を示す枠K31が表示されている。

　この枠K31内の領域は、非収音範囲となる音声の抑圧量が大きい範囲となっており、例えば収音範囲外にある被写体（音源）を囲むように枠K31が表示される。また、例えば非収音範囲を表す枠K31は点滅表示されるなど、図１１に示した収音範囲を表す枠K11とは異なる表示形式で表示されている。

　撮影者（ユーザ）は枠K31の表示を見ることで、その枠K31内の領域が非収音範囲となっていることを視覚的に瞬時に把握することができる。したがって、撮影者は、目的とする被写体が枠K31内に位置しないように画角調整や目的音声の方向の指定操作等を行うようにすれば、目的音声が誤って抑圧されてしまうことを抑制することができる。

　図１２の中央には、ビームフォーミング処理による音声の抑圧量が被写体（音源）ごとにdB値で表示される例が示されている。すなわち、記録用音声信号における被写体（音源）ごとの音声の抑圧量が表示されている。

　この例では、スルー画像上には音源となる被写体として２人の人物が含まれており、それらの各人物の近傍に各人物の方向からの音声の抑圧量がスルー画像に重畳されて表示されている。

　例えば、図中、左側の人物の上側には抑圧量「-12.3dB」が表示されているため、撮影者は、この人物により発せられた音声が大きく抑圧されていること、すなわち非収音範囲内に人物が位置していることを瞬時に把握することができる。

　同様に、例えば、図中、右側の人物の上側には抑圧量「-0.1dB」が表示されているため、撮影者は、この人物により発せられた音声の抑圧量が小さい、すなわち非収音領域外（収音領域内）に人物が位置していることを瞬時に把握することができる。

　特に、この例では抑圧量の大きさによって、その抑圧量を示すdB値が異なる色など、異なる表示形式で表示される。そのため、抑圧量「-12.3dB」と抑圧量「-0.1dB」とは異なる色で表示されており、撮影者は、抑圧量「-12.3dB」が大きいことを瞬時に把握できる。

　図１２の右側には、ビームフォーミング処理による記録用音声信号に基づく音声全体の抑圧量を表す抑圧レベルメータが表示される例が示されている。

　この例では、表示部２８の表示画面における下側にスルー画像に重畳されて抑圧レベルメータK32とともに、その抑圧レベルメータK32により示される記録用音声信号に基づく音声全体の抑圧量を示すdB値「-4.5dB」が表示されている。

　したがって、撮影者は、抑圧レベルメータK32や抑圧量を示すdB値を見ることで、収録される音声がどの程度抑圧されているかを瞬時に視覚的に把握することができる。

　なお、非収音範囲や音声の抑圧量を示す表示は、図１２に示した例に限らず、収音（収録）の対象外となる被写体（音源）、つまり目的外であり、音声が抑圧される被写体の位置や方向（角度）を示す表示など、他のどのような表示であってもよい。

　さらに、図１１に示した収音範囲を表す表示と、図１２に示した非収音範囲や抑圧量を表す表示とを組み合わせて、それらの表示が同時に行われるようにしてもよい。そのような場合の表示例を図１３に示す。

　図１３の左側には、図１１の左側に示した収音範囲を表す枠K11と、図１２の左側に示した非収音範囲を表す枠K31とがスルー画像に重畳されて同時に表示される例が示されている。例えば枠K11と枠K31とを異なる色で表示するなど、互いに異なる表示形式で表示させるようにしてもよい。この例では、撮影者は、収音範囲となる領域だけでなく、非収音範囲となる領域も同時に把握することができる。

　図１３の中央には、図１１の左側に示した収音範囲を表す枠K11と、図１２の中央に示したビームフォーミング処理による各被写体（方向）からの音声の抑圧量のdB値とがスルー画像に重畳されて同時に表示される例が示されている。この例では、撮影者は、収音範囲となる領域だけでなく、各方向からの音声の抑圧量も把握することができる。

　図１３の右側には、図１１の右側に示したカメラの模式図K13および指向性ビームの範囲を模式的に表す領域K14と、図１２の右側に示した抑圧レベルメータK32および抑圧量のdB値とがスルー画像に重畳されて同時に表示される例が示されている。この例では、撮影者は、収音範囲となる方向や領域だけでなく、音声の抑圧量も把握することができる。

　以上のように、図１１乃至図１３の各例の表示を行うことで、撮影者（ユーザ）に対して、収音範囲や非収音範囲（音声が抑圧されている範囲）を視覚的に分かりやすく提示することができる。これにより、誤抑圧や撮影ミスを低減させることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホンアレイ、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部と
　を備える音声処理装置。
（２）
　前記音声信号処理部は、前記目的音がない場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
　（１）に記載の音声処理装置。
（３）
　前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向軸の方向を正面方向または予め定められた方向とする
　（１）または（２）に記載の音声処理装置。
（４）
　前記音声信号処理部は、前記目的音方向情報および前記音声信号に基づいて、不要音のみの区間であるかを判定し、前記不要音のみの区間である場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
　（１）乃至（３）の何れか一項に記載の音声処理装置。
（５）
　前記音声信号処理部は、前記目的音が複数ある場合、前記目的音が１つである場合よりも前記マイクロホンアレイの指向性を弱くする
　（１）乃至（４）の何れか一項に記載の音声処理装置。
（６）
　前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向性を全指向性とする
　（１）乃至（５）の何れか一項に記載の音声処理装置。
（７）
　前記音声信号処理部は、前記音声信号に対するビームフォーミング処理により、前記マイクロホンアレイの指向性を変化させる
　（１）乃至（６）の何れか一項に記載の音声処理装置。
（８）
　前記音声信号処理部は、前記ビームフォーミング処理として適応ビームフォーミングを行う
　（７）に記載の音声処理装置。
（９）
　前記目的音方向情報は、ユーザにより指定された位置または方向に基づき生成される
　（１）乃至（８）の何れか一項に記載の音声処理装置。
（１０）
　前記目的音方向情報は、前記マイクロホンアレイによる収音と同時に行われた撮像部での撮像により得られた画像信号に対する画像処理の結果に基づき生成される
　（１）乃至（８）の何れか一項に記載の音声処理装置。
（１１）
　前記画像処理は、顔認識処理、瞳検出処理、または動体検出処理である
　（１０）に記載の音声処理装置。
（１２）
　前記音声信号処理部における前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部をさらに備える
　（１）乃至（１１）の何れか一項に記載の音声処理装置。
（１３）
　前記表示制御部は、前記収音範囲となる領域を示す表示を行わせる
　（１２）に記載の音声処理装置。
（１４）
　前記表示制御部は、前記非収音範囲となる領域を示す表示を行わせる
　（１２）または（１３）に記載の音声処理装置。
（１５）
　前記表示制御部は、前記音声信号に基づく音声全体の抑圧量、または前記音声信号における被写体ごとの音声の抑圧量を表示させる
　（１２）乃至（１４）の何れか一項に記載の音声処理装置。
（１６）
　音声処理装置が、
　複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音し、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
　音声処理方法。
（１７）
　複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
　ステップを含む処理をコンピュータに実行させるプログラム。
（１８）
　目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える
　情報処理装置。

　１１　撮像装置，　２１　マイクロホンアレイ，　２３　音声信号処理部，　２４　撮像部，　２５　画像信号処理部，　２６　入力部，　２７　表示制御部，　２８　表示部，　２９　記録制御部，　５２－１乃至５２－Ｎ，５２　STFT部，　５３　ビームフォーミング処理部，　５４　IFFT部

Claims

　複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部と
　を備える音声処理装置。
　前記音声信号処理部は、前記目的音がない場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向軸の方向を正面方向または予め定められた方向とする
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記目的音方向情報および前記音声信号に基づいて、不要音のみの区間であるかを判定し、前記不要音のみの区間である場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記目的音が複数ある場合、前記目的音が１つである場合よりも前記マイクロホンアレイの指向性を弱くする
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向性を全指向性とする
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記音声信号に対するビームフォーミング処理により、前記マイクロホンアレイの指向性を変化させる
　請求項１に記載の音声処理装置。
　前記音声信号処理部は、前記ビームフォーミング処理として適応ビームフォーミングを行う
　請求項７に記載の音声処理装置。
　前記目的音方向情報は、ユーザにより指定された位置または方向に基づき生成される
　請求項１に記載の音声処理装置。
　前記目的音方向情報は、前記マイクロホンアレイによる収音と同時に行われた撮像部での撮像により得られた画像信号に対する画像処理の結果に基づき生成される
　請求項１に記載の音声処理装置。
　前記画像処理は、顔認識処理、瞳検出処理、または動体検出処理である
　請求項１０に記載の音声処理装置。
　前記音声信号処理部における前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部をさらに備える
　請求項１に記載の音声処理装置。
　前記表示制御部は、前記収音範囲となる領域を示す表示を行わせる
　請求項１２に記載の音声処理装置。
　前記表示制御部は、前記非収音範囲となる領域を示す表示を行わせる
　請求項１２に記載の音声処理装置。
　前記表示制御部は、前記音声信号に基づく音声全体の抑圧量、または前記音声信号における被写体ごとの音声の抑圧量を表示させる
　請求項１２に記載の音声処理装置。
　音声処理装置が、
　複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音し、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
　音声処理方法。
　複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、
　目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
　ステップを含む処理をコンピュータに実行させるプログラム。
　目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える
　情報処理装置。