WO2019044157A1

WO2019044157A1 - 収音装置、収音方法、及びプログラム

Info

Publication number: WO2019044157A1
Application number: PCT/JP2018/024996
Authority: WO
Inventors: 良文廣瀬; 中西　雅浩; 祐介足立
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2017-08-30
Filing date: 2018-07-02
Publication date: 2019-03-07
Also published as: JPWO2019044157A1; US11330367B2; EP3678385A4; JP7233035B2; EP3678385A1; CN111034222A; US20200137491A1; EP3678385B1

Abstract

収音装置は、音源となる物体から出力される目的音を収音するための装置であって、カメラの画像データに基づいて、物体の位置を示す物体位置情報を生成し、マイクアレイの音響信号に基づいて、音源の位置を示す音源位置情報を生成し、物体位置情報に対してカメラの撮影状況に応じた重みを設定し、物体位置情報と物体位置情報の重みと音源位置情報とに基づいて、目的音を収音する方向を決定する制御部を含む。

Description

収音装置、収音方法、及びプログラム

　本開示は、目的音を収音する収音装置、収音方法、及びプログラムに関する。

　特許文献１は、一人以上の参加者による談話を記録したデータから、どの参加者がいつ発話したかを推定するための推定装置を開示している。この推定装置は、マイクロホンから出力される音響信号から得られる情報と、カメラから出力される映像信号から得られる情報とを統合することによって、談話参加者が発話した確率を算出している。これにより、談話参加者が発話のない状況で移動した場合であっても、談話参加者の位置を追跡することを可能にしている。

特許第５２１５８２６号公報

　本開示は、目的音の収音の精度を向上させる収音装置、収音方法、及びプログラムを提供する。

　本開示の一態様の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、第１の入力部と、第２の入力部と、制御部とを有する。第１の入力部は、カメラによって生成された画像データの入力を受ける。第２の入力部は、マイクアレイから出力される音響信号の入力を受ける。制御部は、目的音を収音する方向を決定する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データに基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報を出力する。推定部は、音響信号に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報を出力する。重み付け部は、カメラの撮影状況に応じて物体位置情報の重みを設定する。決定部は、物体位置情報と物体位置情報の重みと音源位置情報とに基づいて、目的音を収音する方向を決定する。

　これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

　本開示の収音装置、収音方法、及びプログラムによれば、カメラの撮影状況及びマイクアレイの受音状況に応じて収音方向が決定されるため、目的音の収音の精度が向上する。

図１は、第１実施形態の収音装置の構成を示すブロック図である。図２は、第１実施形態の制御部の機能を示すブロック図である。図３Ａは、マイクアレイのみを使用した場合の収音方向を説明するための図である。図３Ｂは、マイクアレイとカメラを使用した場合の収音方向を説明するための図である。図４は、第１実施形態における収音方法を示すフローチャートである。図５は、顔位置の検出単位の領域を説明するための図である。図６は、顔の識別を説明するための図である。図７は、顔の確率を説明するための図である。図８は、画像確度の判定を示すフローチャートである。図９は、音源位置の推定を説明するための図である。図１０は、音源の確率を説明するための図である。図１１は、音響確度の判定を示すフローチャートである。図１２は、画像確度と音響確度の重みを示す図である。図１３Ａは、顔の確率の一例を示す図である。図１３Ｂは、音源の確率の一例を示す図である。図１３Ｃは、図１３Ａと図１３Ｂとにより算出される収音方向を示す図である。図１４Ａは、顔の確率の他の例を示す図である。図１４Ｂは、音源の確率の他の例を示す図である。図１４Ｃは、図１４Ａと図１４Ｂとにより算出される収音方向を示す図である。図１５は、第２実施形態の収音装置の構成を示すブロック図である。図１６は、第３実施形態における制御部の機能を示すブロック図である。図１７は、第４実施形態における顔位置の検出単位の領域を説明するための図である。図１８は、他の実施形態の制御部の機能を示すブロック図である。図１９は、他の実施形態の制御部の機能を示すブロック図である。

　（本開示の基礎となった知見）
　特許文献１の推定装置において、談話参加者が発話した確率を精度良く算出するためには、カメラから出力される映像信号から得られる情報とマイクロホンから出力される音響信号から得られる情報とが正確である必要がある。よって、映像信号から得られる情報と音響信号から得られる情報とが正確でない場合には、談話参加者が発話した確率を精度良く算出することができない。

　本開示は、カメラから出力される映像信号から得られる情報及びマイクアレイから出力される音響信号から得られる情報の精度がよくない場合であっても、目的音の収音の精度を向上させる収音装置を提供する。具体的には、本開示の収音装置は、映像信号から得られる情報に対してカメラの撮影状況に応じた重みを設定し、且つ音響信号から得られる情報に対してマイクアレイの受音状況に応じた重みを設定する。これによって、本開示の収音装置は、精度良く目的音の収音方向を決定する。

　（第１実施形態）
　以下、第１実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。本実施形態では、カメラの撮影状況に応じた重みは、人物の顔が画像データに含まれている確からしさを示す確度に基づいて、設定される。また、マイクアレイの受音状況に応じた重みは、目的音が音響信号に含まれている確からしさを示す確度に基づいて、設定される。「確度」とは、確実さの度合いのことである。

　１．　収音装置の構成
　図１は、本開示の第１実施形態の収音装置の構成を示している。収音装置１は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０を備える。収音装置１は、例えば、会議中の人の音声を収音する。収音装置１は、一例では、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０が一体化された専用の収音機である。

　なお、別の例では、収音装置１は、カメラ１０とマイクアレイ２０のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置１は、外付けのカメラ１０又はマイクアレイ２０と電気的に接続される。例えば、収音装置１は、カメラ１０を備えたスマートフォンなどの電子機器であって、マイクアレイ２０を備えた外部機器と電気的及び機械的に接続されてもよい。

　カメラ１０は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、又はＮＭＯＳイメージセンサなどを備える。カメラ１０は、映像信号である画像データを生成して、出力する。

　マイクアレイ２０は、複数のマイクロホンを備える。マイクアレイ２０は、音波を受信して電気信号である音響信号に変換して出力する。

　制御部３０は、カメラ１０から得られた画像データと、マイクアレイ２０から得られた音響信号に基づいて、収音方向を決定する。制御部３０は、決定した収音方向に基づいて、音響信号から目的音を取り出す。制御部３０は、半導体素子などで実現可能である。制御部３０は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣで構成することができる。

　記憶部４０は、カメラ１０から得られた画像データ及びマイクアレイ２０から得られた音響信号を格納する。記憶部４０は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。

　入出力インタフェース部５０は、所定の通信規格（例えばＬＡＮ、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ(登録商標）、ＵＳＢ、ＨＤＭＩ(登録商標））に準拠して外部機器との通信を行う回路を含む。

　バス６０は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、及び入出力インタフェース部５０を電気的に接続する信号線である。

　制御部３０が画像データを記憶部４０から取り出すときは、制御部３０が画像データの入力部に相当する。制御部３０が音響信号を記憶部４０から取り出すときは、制御部３０が音響信号の入力部に相当する。入出力インタフェース部５０が収音装置１に外付けされたカメラ１０から画像データを入力するときは、入出力インタフェース部５０が画像データの入力部に相当する。入出力インタフェース部５０が収音装置１に外付けされたマイクアレイ２０から音響信号を入力するときは、入出力インタフェース部５０が音響信号の入力部に相当する。

　図２は、制御部３０の機能を示している。制御部３０の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。

　制御部３０は、物体位置検出部３１、音源位置推定部３２、重み付け部３００、収音方向決定部３６、及びビームフォーム部３７を含む。

　物体位置検出部３１は、カメラ１０によって生成された画像データｖから物体の位置を検出する。本実施形態では、検出対象となる物体は人の顔である。物体位置検出部３１は、検出した物体の位置を示す情報である物体位置情報を出力する。具体的には、物体位置情報は、動画１フレーム分又は静止画１枚分に相当する画像データｖ内の複数の領域のそれぞれの画像が顔である確率Ｐ（θ，φ｜ｖ）を示す情報である。画像データｖ内の各領域の座標系の位置は、カメラ１０の設計情報に基づいて、カメラ１０の画角の水平角θ及び垂直角φと対応付けられる。

　音源位置推定部３２は、マイクアレイ２０から得られる音響信号ｓから、音源の位置を推定する。本実施形態では、音源は、音声を発する人である。音源位置推定部３２は、推定した音源の位置を示す情報である音源位置情報を出力する。具体的には、音源位置情報は、水平角θ及び垂直角φによって特定される位置に音源が存在する確率Ｐ（θ，φ｜ｓ）を示す情報である。

　重み付け部３００は、画像データｖに基づいて、物体位置情報である確率Ｐ（θ，φ｜ｖ）に重み付けを行う。また、重み付け部３００は、音響信号ｓに基づいて、音源位置情報である確率Ｐ（θ，φ｜ｓ）に重み付けを行う。

　重み付け部３００は、画像確度判定部３３、音響確度判定部３４、及び重み設定部３５を含む。画像確度判定部３３は、画像データｖに基づいて画像確度ＣＭｖを判定する。画像確度ＣＭｖは、顔が画像データｖに含まれている確からしさを示す確度である。すなわち、画像確度ＣＭｖは、物体位置情報である確率Ｐ（θ，φ｜ｖ）の信頼性を表す。音響確度判定部３４は、音響信号ｓに基づいて音響確度ＣＭｓを判定する。音響確度ＣＭｓは、目的音である音声が音響信号に含まれている確からしさを示す確度である。すなわち、音響確度ＣＭｓは、音源位置情報である確率Ｐ（θ，φ｜ｓ）の信頼性を表す。

　重み設定部３５は、画像確度ＣＭｖに基づいて、物体位置情報の重みＷｖを設定する。画像確度ＣＭｖに基づいて設定された物体位置情報の重みＷｖは、カメラ１０の撮影状況に応じた値になる。重み設定部３５は、音響確度ＣＭｓに基づいて、音源位置情報の重みＷｓを設定する。音響確度ＣＭｓに基づいて設定された音源位置情報の重みＷｓは、マイクアレイ２０の受音状況に応じた値になる。

　収音方向決定部３６は、物体位置情報である確率Ｐ（θ，φ｜ｖ）及びその重みＷｖと、音源位置情報である確率Ｐ（θ，φ｜ｓ）及びその重みＷｓとに基づいて、収音方向を決定する。

　ビームフォーム部３７は、決定された収音方向に基づいて、音響信号ｓから目的音を取り出す。これにより、雑音が低減された、クリアな音声を収音できる。

　図３Ａは、マイクアレイ２０のみを使用した場合の収音方向を模式的に示している。図３Ｂは、マイクアレイ２０とカメラ１０を使用した場合の収音方向を模式的に示している。図３Ａに示すように、マイクアレイ２０から出力される音響信号のみによって収音方向を決定した場合、周囲の雑音（スピーカの音）が人の音声よりも大きいときに、音源の方向として雑音の方向が検出される。この場合、大きな雑音を収音してしまい、人の音声をクリアに収音することができない。しかし、図３Ｂに示すように、カメラ１０を併用した場合、カメラ１０の画像データに含まれる人の顔の位置を検出することによって、人がいる方向を音源の方向として特定できる。

　一方、カメラ１０の撮影状況に応じて、画像データｖから得られる顔位置の検出の精度は変化する。例えば、暗い環境で撮影されて生成された画像データｖでは、顔の位置を誤検出する場合がある。よって、本実施形態においては、顔の確率Ｐ（θ，φ｜ｖ）に対して、カメラ１０の撮影状況に応じた重み付けを行う。また、マイクアレイ２０の受音状況に応じて、音響信号ｓから得られる音源位置の推定の精度も変わる。例えば、雑音が大きすぎると、音響信号ｓから目的音の音源の位置を正確に推定できない場合がある。よって、本実施形態においては、音源の確率Ｐ（θ，φ｜ｓ）に対して、マイクアレイ２０の受音状況に応じた重み付けを行う。そして、重み付けされた確率Ｐ（θ，φ｜ｖ），Ｐ（θ，φ｜ｓ）に基づいて、収音方向を決定する。

　２．　収音装置の動作
　図４は、制御部３０による収音動作を示している。

　物体位置検出部３１は、カメラ１０によって生成された画像データｖに基づいて、顔の位置を検出する（Ｓ１）。具体的には、物体位置検出部３１は、画像データｖ内において水平角θ及び垂直角φで特定される位置の画像が顔である確率Ｐ（θ，φ｜ｖ）を算出する。顔の位置の検出方法は、任意である。一例として、顔の位置の検出は、動画１フレーム分又は静止画１枚分に相当する画像データｖを複数の領域に分割して、各領域が顔の特徴と一致しているか否かを判定することによって行う（「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照）。以下、この顔検出の方法について説明する。

　図５は、画像データｖにおける顔位置の検出単位の領域ｒ（θ，φ）を示している。物体位置検出部３１は、画像データｖを複数の領域ｒ（θ，φ）に分割し、各領域ｒ（θ，φ）の画像が顔であるか否かを判定する。なお、図５では、画像データｖを格子状に分割し、それぞれの軸をθ、φに対応付けたが、全周カメラを使用した場合は、円周状にθ、φを対応付けるようにしても良い。

　図６は、顔の識別の一例を示している。物体位置検出部３１は、例えば、Ｎ個の弱識別器３１０（弱識別器３１０（１）～３１０（Ｎ））を備える。弱識別器３１０（１）～３１０（Ｎ）は、それぞれ、顔の特徴を示す情報を有する。顔の特徴を示す情報は、Ｎ個の弱識別器３１０のそれぞれにおいて、異なる。物体位置検出部３１は、領域ｒ（θ，φ）が顔であると判定した回数Ｃ（ｒ（θ，φ））を計算する。具体的には、物体位置検出部３１は、最初に、一つ目の弱識別器３１０（１）によって、領域ｒ（θ，φ）が顔であるか否かを判定する。弱識別器３１０（１）が、領域ｒ（θ，φ）は顔でないと判定した場合、「Ｃ（ｒ（θ，φ））＝０」となる。一つ目の弱識別器３１０（１）が、領域ｒ（θ，φ）は顔であると判定した場合は、二つ目の弱識別器３１０（２）が、一つ目の弱識別器３１０（１）とは異なる顔の特徴の情報を用いて、領域ｒ（θ，φ）が顔であるか否かを判定する。二つ目の弱識別器３１０（２）が、領域ｒ（θ，φ）が顔であると判定した場合、三つ目の弱識別器３１０（３）が、領域ｒ（θ，φ）が顔であるか否かを判定する。このように、動画１フレーム分又は静止画１枚分に相当する画像データｖに対して、領域ｒ（θ，φ）毎に、Ｎ個の弱識別器３１０を用いて顔であるか否かを判定する。例えば、Ｎ個の弱識別器３１０の全てが領域ｒ（θ，φ）は顔であると判定した場合、顔であると判定された回数は「Ｃ（ｒ（θ，φ））＝Ｎ」となる。

　顔を検出するときの領域ｒ（θ，φ）の大きさは、一定であってもよいし、可変であってもよい。例えば、顔を検出するときの領域ｒ（θ，φ）の大きさは、動画の１フレーム分又は静止画１枚分の画像データｖ毎に変わってもよい。

　物体位置検出部３１は、画像データｖ内の領域ｒ（θ，φ）の全てについて、顔であるか否かの判定を行う。そして、物体位置検出部３１は、下記式（１）によって、画像データｖ内において水平角θ及び垂直角φで特定される位置の画像が顔である確率Ｐ（θ，φ｜ｖ）を算出する。

　なお、水平角θのみで顔の位置を検出できる場合は、下記式（２）によって、顔の確率Ｐ（θ｜ｖ）を算出してもよい。

　図７は、画像データｖ内における水平角θで特定される位置の画像が顔である確率Ｐ（θ｜ｖ）を例示している。確率Ｐ（θ｜ｖ）が高いほど、その水平角θに顔がある可能性が高いことを表している。

　図４に示すように、物体位置検出部３１によって顔の位置が検出されると、画像確度判定部３３は、顔が画像データｖに含まれている確からしさを示す画像確度ＣＭｖを判定する（Ｓ２）。具体的には、画像確度判定部３３は、カメラ１０によって生成された画像データｖに基づいて、画像確度ＣＭｖを設定する。なお、画像確度ＣＭｖの判定（Ｓ２）は、顔の位置を検出する（Ｓ１）よりも前に行ってもよい。

　図８は、画像確度ＣＭｖの判定方法（Ｓ２の詳細）の一例を示している。図８の例では、画像確度判定部３３は、画像データｖの平均輝度Ｙａｖｅに基づいて、画像確度ＣＭｖを判定する。画像確度判定部３３は、まず、画像データｖの平均輝度Ｙａｖｅを算出する（Ｓ２０１）。それから、画像確度判定部３３は、平均輝度Ｙａｖｅを推奨輝度（Ｙｍｉｎ＿ｂａｓｅ～Ｙｍａｘ＿ｂａｓｅ）と比較する（Ｓ２０２）。推奨輝度は、最小推奨輝度（Ｙｍｉｎ＿ｂａｓｅ）から最大推奨輝度（Ｙｍａｘ＿ｂａｓｅ）までの範囲を有する。推奨輝度を示す情報は、予め記憶部４０に格納されている。平均輝度Ｙａｖｅが最小推奨輝度よりも低ければ（Ｓ２０３でＹｅｓ）、画像確度判定部３３は、画像確度ＣＭｖを「Ｙａｖｅ／Ｙｍｉｎ＿ｂａｓｅ」に設定する（Ｓ２０４）。平均輝度Ｙａｖｅが最大推奨輝度よりも高ければ（Ｓ２０５でＹｅｓ）、画像確度判定部３３は、画像確度ＣＭｖを「Ｙｍａｘ＿ｂａｓｅ／Ｙａｖｅ」に設定する（Ｓ２０６）。平均輝度Ｙａｖｅが推奨輝度の範囲内であれば（Ｓ２０５でＮｏ）、画像確度判定部３３は、画像確度ＣＭｖを「１」に設定する（Ｓ２０７）。平均輝度Ｙａｖｅが最小推奨輝度Ｙｍｉｎ＿ｂａｓｅよりも低かったり、最大推奨輝度Ｙｍａｘ＿ｂａｓｅよりも高かったりすれば、顔を誤検出する場合がある。よって、平均輝度Ｙａｖｅが推奨輝度の範囲内のときは画像確度ＣＭｖを最大値「１」に設定し、平均輝度Ｙａｖｅが推奨輝度より高い、或いは、低いほど画像確度ＣＭｖを低くする。

　図４に示すように、音源位置推定部３２は、マイクアレイ２０から出力された音響信号ｓに基づいて、音源の位置を推定する（Ｓ３）。具体的には、物体位置検出部３１は、水平角θ及び垂直角φで特定される位置に音源が存在する確率Ｐ（θ，φ｜ｓ）を算出する。音源の位置の推定方法は、任意である。例えば、音源の位置の推定は、ＣＳＰ（Cross-Power Spectrum Phase Analysis）法又はＭＵＳＩＣ（Multiple Signal Classification）法を使用して行うことができる。以下、ＣＳＰ法を使用して、音源の位置を推定する例について説明する。

　図９は、人の音声（音波）がマイクアレイ２０のマイクロホン２０_ｉ及び２０_ｊに到来する状態を模式的に示している。マイクロホン２０_ｉ及び２０_ｊ間の距離ｄに応じて、音波がマイクロホン２０_ｉ及び２０_ｊに到来するときに時間差τが生じる。

　音源位置推定部３２は、水平角θにおいて、音源が存在する確率Ｐ（θ｜ｓ）を、ＣＳＰ係数（相関関数）を用いた下記式（３）により算出する。

　ここで、ＣＳＰ係数は、下記式（４）によって求めることができる（電子情報通信学会論文誌　Ｄ－ＩＩＶｏｌ．Ｊ８３－Ｄ－ＩＩＮｏ．８　ｐｐ．１７１３－１７２１、「マイクロホンアレーを用いたＣＳＰ法に基づく複数音源位置推定」を参照）。式（４）において、ｎは時間、Ｓ_ｉ（ｎ）はマイクロホン２０_ｉで受音した音響信号、Ｓ_ｊ（ｎ）はマイクロホン２０_ｊで受音した音響信号を示している。式（４）において、ＤＦＴは、離散フーリエ変換を示す。また、＊は共役複素数を示す。

　時間差τは、音速ｃ、マイクロホン２０_ｉ，２０_ｊ間の距離ｄ、及びサンプリング周波数Ｆ_ｓを用いて、下記式（５）によって表せる。

　よって、下記式（６）に示すように、式（３）のＣＳＰ係数を式（５）によって時間軸から方向軸に変換することによって、水平角θにおいて音源が存在する確率Ｐ（θ｜ｓ）を算出できる。

　なお、上記で示した確率Ｐ（θ｜ｓ）の算出方法では、２つのマイクロホン２０ｉ及び２０ｊを使用した例を示しているが、２つ以上のマイクロホンを使用して、音源が存在する確率Ｐ（θ｜ｓ）を算出してもよい。また、垂直角φにおける音源が存在する確率Ｐ（φ｜ｓ）は、水平角θにおける確率Ｐ（θ｜ｓ）と同様に、ＣＳＰ係数と時間差τによって算出できる。また、確率Ｐ（θ｜ｓ）及び確率Ｐ（φ｜ｓ）に基づいて、確率Ｐ（θ，φ｜ｓ）を算出できる。

　図１０は、水平角θにおける音源が存在する確率Ｐ（θ｜ｓ）を例示している。確率Ｐ（θ｜ｓ）が高いほど、その水平角θに目的音の音源が存在する可能性が高いことを表している。

　図４に示すように、音源位置推定部３２によって音源の位置が推定されると、音響確度判定部３４は、音声が音響信号ｓに含まれている確からしさを示す音響確度ＣＭｓを判定する（Ｓ４）。具体的には、音響確度判定部３４は、マイクアレイ２０から出力される音響信号ｓに基づいて、音響確度ＣＭｓを設定する。なお、音響確度ＣＭｓの判定（Ｓ４）は、音源の位置を推定する（Ｓ３）よりも前に行ってもよい。

　図１１は、音響確度ＣＭｓの判定方法（Ｓ４の詳細）の一例を示している。図１１の例では、音響確度判定部３４は、マイクアレイ２０が受信した音の音声らしさを判定する。具体的には、音響確度判定部３４は、人の音声ＧＭＭ（Gausian Mixture Model）と非音声ＧＭＭを用いて、音響確度ＣＭｓを算出する。音声ＧＭＭと非音声ＧＭＭは、予め学習して生成されたものである。音声ＧＭＭと非音声ＧＭＭを示す情報は記憶部４０に格納されている。

　音響確度判定部３４は、まず、音響信号ｓにおける音声ＧＭＭによる尤度Ｌｖを算出する（Ｓ４０１）。次に、音響確度判定部３４は、音響信号ｓにおける非音声ＧＭＭによる尤度Ｌｎを算出する（Ｓ４０２）。それから、音響確度判定部３４は、音響確度ＣＭｓを「ＣＭｓ＝Ｌｖ／Ｌｎ」に設定する（Ｓ４０３）。

　図４に示すように、重み設定部３５は、画像確度ＣＭｖに基づいて顔の確率Ｐ（θ，φ｜ｖ）に重みＷｖを設定し、且つ音響確度ＣＭｓに基づいて音源の確率Ｐ（θ，φ｜ｓ）に重みＷｓを設定する（Ｓ５）。図１２は、画像確度ＣＭｖ，音響確度ＣＭｓと、重みＷｖ，Ｗｓとの対応付けを示している。このように、重みＷｖ，Ｗｓは、単調増加関数によって、確度ＣＭｖ，ＣＭｓに応じて決定される。

　図４に示すように、重みＷｖ，Ｗｓが設定されると、収音方向決定部３６は、収音方向を決定する（Ｓ６）。具体的には、収音方向決定部３６は、顔の確率Ｐ（θ，φ｜ｖ）とその重みＷｖ、及び音源の確率Ｐ（θ，φ｜ｓ）とその重みＷｓを用いて、音源である人物がいる確率Ｐ（θ，φ）を下記式（７）によって算出する。それから、下記式（８）により、確率Ｐ（θ，φ）が最大となる水平角θ、垂直角φを収音方向として決定する。なお、確率Ｐ（θ，φ｜ｓ）の対数については下記式（９）によって表現できる。

　図１３Ａ～図１３Ｃは、水平角θを決定するときの一例を示している。図１３Ａは、顔の確率の一例を示している。図１３Ｂは、音源の確率の一例を示している。図１３Ｃは、図１３Ａと図１３Ｂとにより算出される収音方向を示している。画像データｖの平均輝度Ｙａｖｅが高い場合、画像確度ＣＭｖは高くなり、物体位置情報の重みＷｖは大きくなる。また、音響信号ｓにおいて雑音が大きいと、音響確度ＣＭｓは小さくなり、音源位置情報の重みＷｓは小さくなる。よって、平均輝度Ｙａｖｅが高い場合及び雑音が大きい場合は、重みの大きい顔の確率Ｐ（θ｜ｖ）が優先されて、水平角θが決定される。

　図１４Ａ～図１４Ｃは、水平角θを決定するときの他の例を示している。図１４Ａは、顔の確率の他の例を示している。図１４Ｂは、音源の確率の他の例を示している。図１４Ｃは、図１４Ａと図１４Ｂとにより算出される収音方向を示している。画像データｖの平均輝度Ｙａｖｅが低い場合、画像確度ＣＭｖは低くなり、物体位置情報の重みＷｖは小さくなる。また、音響信号ｓにおいて雑音が小さいと、音響確度ＣＭｓは大きくなり、音源位置情報の重みＷｓは大きくなる。よって、平均輝度Ｙａｖｅが低い場合及び雑音が小さい場合は、重みの大きい音源の確率Ｐ（θ｜ｓ）が優先されて、水平角θが決定される。

　図４に示すように、ビームフォーム部３７は、決定された収音方向θ，φに基づいて、音響信号ｓに含まれる目的音である音声を収音する（Ｓ７）。

　なお、図４のステップＳ１～Ｓ４を実行する順序は、任意である。

　３．　効果及び補足
　本開示の収音装置１は、音源となる物体から出力される目的音を収音するための収音装置である。収音装置１は、カメラ１０によって生成された画像データｖの入力を受ける第１の入力部（制御部３０、または入出力インタフェース部５０）と、マイクアレイ２０から出力される音響信号ｓの入力を受ける第２の入力部（制御部３０、または入出力インタフェース部５０）と、画像データｖ及び音響信号ｓに基づいて収音する方向θ，φを決定する制御部３０と、を有する。制御部３０は、物体位置検出部３１と、音源位置推定部３２と、重み付け部３００と、収音方向決定部３６とを含む。物体位置検出部３１は、画像データｖに基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報Ｐ（θ，φ｜ｖ）を出力する。音源位置推定部３２は、音響信号ｓに基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報Ｐ（θ，φ｜ｓ）を出力する。重み付け部３００は、物体位置情報に対してカメラ１０の撮影状況に応じた重みＷｖを設定し、且つ音源位置情報に対してマイクアレイ２０の受音状況に応じた重みＷｓを設定する。収音方向決定部３６は、物体位置情報Ｐ（θ，φ｜ｖ）と物体位置情報の重みＷｖと音源位置情報Ｐ（θ，φ｜ｓ）と音源位置情報の重みＷｓとに基づいて、収音する方向θ，φを決定する。

　このように、カメラ１０の撮影状況に応じた重みＷｖとマイクアレイ２０の受音状況に応じた重みＷｓを使用して収音する方向θ，φを決定しているため、物体位置情報Ｐ（θ，φ｜ｖ）と音源位置情報Ｐ（θ，φ｜ｓ）の信頼性が高いほうの情報を優先させることができる。よって、物体位置情報Ｐ（θ，φ｜ｖ）又は音源位置情報Ｐ（θ，φ｜ｓ）の精度がよくない場合であっても、精度良く目的音の収音方向を決定することができる。これにより、マイクアレイ２０から出力された音響信号ｓから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。

　具体的には、重み付け部３００は、物体が画像データに含まれている確からしさを示す画像確度ＣＭｖに基づいて物体位置情報の重みＷｖを設定し、且つ目的音が音響信号に含まれている確からしさを示す音響確度ＣＭｓに基づいて音源位置情報の重みＷｓを設定する。画像確度ＣＭｖは、カメラ１０の撮影状況に応じた値である。また、音響確度ＣＭｓは、マイクアレイ２０の受音状況に応じた値である。よって、画像確度ＣＭｖ及び音響確度ＣＭｓに基づいて重みＷｖ，Ｗｓを設定することによって、カメラ１０の撮影状況及びマイクアレイ２０の受音状況に応じた重みＷｖ，Ｗｓを設定することができる。これにより、精度良く目的音の収音方向を決定することができる。

　（第２実施形態）
　本実施形態の収音装置１は、物体位置情報の重みＷｖをセンサの出力に基づいて設定する。

　図１５は、第２実施形態の収音装置の構成を示すブロック図である。第２実施形態の収音装置１は、センサ部７０を備える。センサ部７０は、周囲の明るさを検知する輝度センサ、物体までの距離を検知する距離センサ、及び加速度センサのうちの少なくとも１つを含む。第２実施形態の収音装置１は、画像確度判定部３３を備えない。重み設定部３５は、センサ部７０の出力に基づいて、物体位置情報の重みＷｖを設定する。例えば、重み設定部３５は、輝度センサが検知した輝度に基づいて、輝度が高いほど物体位置情報の重みＷｖが大きくなるように、重みＷｖを設定してもよい。重み設定部３５は、距離センサが検知した物体までの距離に基づいて、距離が近いほど物体位置情報の重みＷｖが大きくなるように、重みＷｖを設定してもよい。加速度が大きい場合は画像がブレている可能性があるため、重み設定部３５は、加速度センサが検知した加速度に基づいて、加速度が大きいほど物体位置情報の重みＷｖが小さくなるように、重みＷｖを設定してもよい。

　センサ部７０の出力はカメラ１０の撮影状況に応じた値であるため、本実施形態においても、精度良く目的音の収音方向を決定することができる。

　（第３実施形態）
　本実施形態の収音装置１は、画像データｖから発話区間を検出して収音を制御する。

　図１６は、第３実施形態における制御部３０の機能を示している。第３実施形態の制御部３０は、発話区間検出部３８を備える。発話区間検出部３８は、例えば、口唇が開いている状態の特徴量を示す情報を備え、その情報に基づいて画像データｖにおいて口唇が開いているか否かを判定する。これにより、発話区間検出部３８は、発話の開始時点及び終了時点を検出する。発話の開始時点から発話の終了時点までが発話区間である。あるいは、音響信号ｓを入力とし、音響特徴に基づいて発話区間の検出を実施するようにしても良い。または、画像データｖおよび音響信号ｓの双方の特徴量に基づいて発話区間の検出を実施するようにしても良い。

　図１６において、収音部８０は、物体位置検出部３１、音源位置推定部３２、画像確度判定部３３、音響確度判定部３４、重み設定部３５、収音方向決定部３６、及びビームフォーム部３７により構成される。収音部８０は、発話区間検出部３８によって検出された発話区間内において、目的音を収音する。例えば、物体位置検出部３１は、発話区間に対応する画像データｖから顔の位置を検出してもよい。収音方向決定部３６は、検出された発話区間においてのみ、収音方向を決定してもよい。ビームフォーム部３７は、検出された発話区間に対応する音響信号ｓのみから、目的音を収音してもよい。

　なお、口唇の開閉に基づく発話区間の検出は、物体位置検出部３１が行ってもよい。例えば、物体位置検出部３１は、顔を検出した領域ｒ（θ，φ）内において、口唇の開閉を判定してもよい。

　（第４実施形態）
　本実施形態の収音装置１は、画像データｖの複数の領域毎に、顔の確率Ｐに重みＷｖを設定する。以下、図２および図１７を参照して、本実施形態を説明する。

　物体位置検出部３１は、画像データｖを複数の領域に分割し、各領域の画像が顔であるか否かを判定する。すなわち、物体位置検出部３１は、各領域の画像が顔である確率Ｐを算出する。

　本実施形態では、図１７に示すように、複数の領域のうち、２以上の領域で顔が検出されている。すなわち、領域ｒａには音声を発している顔が含まれ、領域ｒｂには音声を発していない顔が含まれている。さらに、領域毎にカメラ１０の撮影状況が異なっている。具体的には、複数の領域のうち、領域ｒａの画像においては、カメラ１０の撮影状況に応じて、平均輝度が高すぎたり、低すぎたりしている。例えば、領域ｒａの周辺のみに光が強く当たったり、光がほとんど当たらなかったりする場合に、このようなことが起こる。一方、領域ｒｂの画像においては、平均輝度は顔を検出するのに適切な値である。そのため、領域ｒａの画像に含まれる人物が音声を発しているのにもかかわらず、領域ｒａの画像に含まれる顔の確率Ｐが、領域ｒｂの画像に含まれる顔の確率Ｐよりも低くなってしまう。これにより、音声を発していない領域ｒｂの人物が音声を発していると誤検出されてしまうことがある。

　そこで、本実施形態の重み設定部３５は、複数の領域のうち、検出した顔の位置に対応する領域ｒａの平均輝度に基づいて、領域ｒａの画像確度ＣＭｖを算出する。例えば、重み設定部３５は、領域ｒａの平均輝度が高すぎたり、低すぎたりした場合には、画像確度ＣＭｖが低くなるように、領域ｒａの画像確度ＣＭｖを算出する。そして、重み設定部３５は、領域ｒａの画像確度ＣＭｖが低い場合に、領域ｒａの物体位置情報の重みＷｖが高くなるように、物体位置情報の重みＷｖを設定する。つまり、重み設定部３５は、領域ｒａの画像確度ＣＭｖに基づいて、領域ｒａの物体位置情報の重みＷｖを設定する。

　以上のように、重み設定部３５は、複数の領域のうち、人物の位置に対応する領域ｒａの平均輝度に基づいて画像確度ＣＭｖを算出する。そのため、例えば、領域ｒａの撮影状況に応じて、領域ｒａの平均輝度が高すぎたり、低すぎたりした場合でも、領域ｒａの画像に顔が含まれる確率が適切に算出される。

　なお、重み設定部３５は、平均輝度に基づく以外に、領域ｒａの画像の輝度の分散に基づいて、画像確度ＣＭｖを算出してもよい。

　また、重み設定部３５は、領域ｒａに顔の一部のみが含まれている場合に、画像確度ＣＭｖを低く設定してもよい。すなわち、重み設定部３５は、領域ｒａに顔の一部のみが含まれている場合に、画像確度ＣＭｖに基づいて、領域ｒａの物体位置情報の重みＷｖが高くなるように、物体位置情報の重みＷｖを設定してもよい。これにより、画像ｖ内で音声を発している人物にオクルージョンが発生しても、音声を発している人物の顔の確率が適切に算出される。

　（他の実施形態）
　以上のように、本出願において開示する技術の例示として、第１～第４実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記第１～第４実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。

　第１実施形態においては、重み設定部３５は、物体位置情報の重みＷｖおよび音源位置情報の重みＷｓを設定している。しかし、本開示はこれに限定されない。重み設定部３５は、物体位置情報の重みＷｖまたは音源位置情報の重みＷｓの一方のみを設定してもよい。すなわち、重み付け部３００は、画像確度判定部３３または音響確度判定部３４の一方のみを含んでいてもよい。この例について、図１８と図１９を参照して説明する。

　図１８に示すように、他の実施形態の重み付け部３００は、音響確度判定部３４を含んでいない。すなわち、重み設定部３５は、物体位置情報の重みＷｖのみを設定する。この場合、収音方向決定部３６は、物体位置情報Ｐ（θ，φ｜ｖ）と、物体位置情報の重みＷｖと、音源位置情報Ｐ（θ，φ｜ｓ）とに基づいて、目的音を収音する方向を決定する。具体的には、収音方向決定部３６は、第１実施形態における式（７）の重みＷｓを１に設定し、式（７）を用いることで、目的音を収音する方向を決定できる。このような構成であっても、第１実施形態の収音装置１と同様に、物体位置情報の重みＷｖを用いることで、撮影状況に応じた誤検出を抑制することができる。

　また、図１９に示すように、他の実施形態の別の重み付け部３００は、画像確度判定部３３を含んでいない。すなわち、重み設定部３５は、音源位置情報の重みＷｓのみを設定する。この場合、収音方向決定部３６は、物体位置情報Ｐ（θ，φ｜ｖ）と、音源位置情報Ｐ（θ，φ｜ｓ）と、音源位置情報の重みＷｓとに基づいて、目的音を収音する方向を決定する。具体的には、収音方向決定部３６は、第１実施形態における式（７）の重みＷｖを１に設定し、式（７）を用いることで、目的音を収音する方向を決定できる。このような構成であっても、第１実施形態の収音装置１と同様に、音源位置情報の重みＷｓを用いることで、マイクアレイ２０の受音状況に応じた誤検出を抑制することができる。

　第１実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、検出対象の物体は、人の顔に限らず、人として認識できる部分であればよい。例えば、検出される物体は、人の身体又は唇であってもよい。

　第１実施形態においては、画像データｖの平均輝度Ｙａｖｅに基づいて、画像確度ＣＭｖを判定したが、画像確度ＣＭｖの判定を別の方法で行ってもよい。例えば、画像データｖの輝度の分散に基づいて、画像確度ＣＭｖを判定してもよい。具体的には、例えば、画像データｖの輝度の分散Ｙｓｔｄが推奨分散Ｙｓｔｄ_ｂａｓｅよりも小さければ、画像確度判定部３３は、画像確度ＣＭｖを「Ｙｓｔｄ／Ｙｓｔｄ_ｂａｓｅ」に設定する。分散Ｙｓｔｄが推奨分散Ｙｓｔｄ_ｂａｓｅ以上であれば、画像確度判定部３３は、画像確度ＣＭｖを「１」に設定する。

　画像確度ＣＭｖの判定のさらに別の方法として、画像データｖの輝度ヒストグラムを用いても良い。例えば、輝度ヒストグラムが低輝度又は高輝度に集中しているときは画像確度ＣＭｖを低く設定し、輝度ヒストグラムが低輝度から高輝度まで幅広く分散しているときは画像確度ＣＭｖを高く設定する。

　また、画像データｖのフォーカスが合っているかどうかに基づいて、画像確度ＣＭｖを判定してもよい。

　第１実施形態においては、音響確度ＣＭｓを、音声ＧＭＭによる尤度Ｌｖ及び非音声ＧＭＭによる尤度Ｌｎに基づいて判定したが、音響確度ＣＭｓの判定を別の方法で行ってもよい。例えば、音響確度判定部３４は、音響信号ｓを音源分離技術によって音声と非音声に分離し、音声と非音声のパワー比に基づいて、音響確度ＣＭｓを算出してもよい。音源分離技術として、例えば、ブラインド音源分離（Blind Source Separation）を用いてもよい。

　第１実施形態では、確度ＣＭｖ，ＣＭｓに基づいて重みＷｖ，Ｗｓを設定したが、重みＷｖ，Ｗｓは確度ＣＭｖ，ＣＭｓと同一の値であってもよい。

　上記実施形態において、画像確度ＣＭｖと音響確度ＣＭｓの両方が、例えば、所定値以下であれば、前回設定した収音方向θ，φを今回の収音方向として決定してもよい。

　上記実施形態では、収音方向として、水平角θ及び垂直角φを決定する場合について説明したが、水平角θ及び垂直角φの少なくともいずれか一方のみで、目的音を発する物体の位置を特定できる場合は、水平角θ及び垂直角φの少なくともいずれか一方を決定するだけであってもよい。

　上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音又は動物の鳴き声であってもよい。目的音が車の音である場合は、車の特徴を示す情報に基づいて、領域ｒ（θ，φ）内の画像が車である確率Ｐ（θ，φ｜ｖ）を算出してもよい。また、車の音のＧＭＭに基づいて、音響確度ＣＭｓを設定してもよい。

　（実施形態の概要）
　（１）本開示の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、カメラによって生成された画像データ（ｖ）の入力を受ける第１の入力部と、マイクアレイから出力される音響信号（ｓ）の入力を受ける第２の入力部と、画像データ（ｖ）及び音響信号（ｓ）に基づいて、目的音を収音する方向（θ，φ）を決定する制御部と、を有する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データ（ｖ）に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報（Ｐ（θ，φ｜ｖ））を出力する。推定部は、音響信号（ｓ）に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報（Ｐ（θ，φ｜ｓ））を出力する。重み付け部は、物体位置情報に対してカメラの撮影状況に応じた重み（Ｗｖ）を設定する。決定部は、物体位置情報（Ｐ（θ，φ｜ｖ））と物体位置情報の重み（Ｗｖ）と音源位置情報（Ｐ（θ，φ｜ｓ））とに基づいて、目的音を収音する方向（θ，φ）を決定する。

　これにより、物体位置情報Ｐ（θ，φ｜ｖ）の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ２０から出力された音響信号ｓから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。

　（２）（１）の収音装置において、重み付け部は、物体が画像データに含まれている確からしさを示す画像確度（ＣＭｖ）に基づいて物体位置情報の重みを設定してもよい。

　これにより、物体位置情報に対してカメラの撮影状況に応じた重み（Ｗｖ）を精度良く設定することができる。

　（３）（２）の収音装置において、重み付け部は、画像データの平均輝度又は輝度の分散に基づいて、画像確度（ＣＭｖ）を算出してもよい。

　これにより、撮影時の照明環境に応じた重み（Ｗｖ）を精度良く設定することができる。

　（４）（２）の収音装置において、検出部は、画像データを複数の領域に分割し、重み付け部は、複数の領域のうち、検出した物体の位置に対応する一の領域の平均輝度又は輝度の分散に基づいて、画像確度を算出してもよい。

　これにより、領域の撮影状況に応じて、領域の平均輝度が高すぎたり、低すぎたりした場合でも、領域の画像に物体が含まれる確率を適切に算出することができる。

　（５）（１）～（４）の収音装置において、重み付け部は、マイクアレイの受音状況に応じて音源位置情報の重みを設定し、決定部は、物体位置情報と物体位置情報の重みと音源位置情報と音源位置情報の重みに基づいて、目的音を収音する方向を決定するとしてもよい。

　これにより、物体位置情報Ｐ（θ，φ｜ｖ）及び音源位置情報Ｐ（θ，φ｜ｓ）の信頼性が高いほうの情報を優先させることによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ２０から出力された音響信号ｓから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。

　（６）（５）の収音装置において、重み付け部は、目的音が音響信号に含まれている確からしさを示す音響確度（ＣＭｓ）に基づいて音源位置情報の重みを設定するとしてもよい。

　これにより、また、音源位置情報に対してマイクアレイの受音状況に応じた重み（Ｗｓ）を精度良く設定することができる。

　（７）（６）の収音装置において、重み付け部は、音響信号に含まれる目的音と非目的音の尤度比又はパワー比に基づいて、音響確度（ＣＭｓ）を算出してもよい。

　これにより、受音時の周囲の状況に応じた重み（Ｗｓ）を精度良く設定することができる。

　（８）（１）の収音装置は、周囲の明るさを検知する輝度センサ、物体までの距離を検知する距離センサ、又は加速度センサのうちの少なくとも１つを含むセンサ部をさらに有してもよい。重み付け部は、センサ部の出力に基づいて、物体位置情報の重み（Ｗｓ）を設定してもよい。

　これにより、撮影時の状況に応じた重み（Ｗｖ）を精度良く設定することができる。

　（９）（１）の収音装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。

　これにより、例えば、カメラを備えた収音装置にマイクアレイのみを外付けすることによって、目的音を精度良く収音することができる。

　（１０）（１）の収音装置において、検出部は、物体として、人の身体、顔、又は唇を検出してもよい。

　これにより、人の音声を精度良く収音することができる。

　（１１）また、本開示の別の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、カメラによって生成された画像データ（ｖ）の入力を受ける第１の入力部と、マイクアレイから出力される音響信号（ｓ）の入力を受ける第２の入力部と、画像データ（ｖ）及び音響信号（ｓ）に基づいて、目的音を収音する方向（θ，φ）を決定する制御部と、を有する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データ（ｖ）に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報（Ｐ（θ，φ｜ｖ））を出力する。推定部は、音響信号（ｓ）に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報（Ｐ（θ，φ｜ｓ））を出力する。重み付け部は、マイクアレイの受音状況に応じて音源位置情報の重みを設定する。決定部は、物体位置情報（Ｐ（θ，φ｜ｖ））と音源位置情報（Ｐ（θ，φ｜ｓ））と音源位置情報の重み（Ｗｓ）とに基づいて、目的音を収音する方向（θ，φ）を決定する。

　これにより、音源位置情報（Ｐ（θ，φ｜ｓ））の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ２０から出力された音響信号ｓから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。

　（１２）本開示の収音方法は、音源となる物体から出力される目的音を収音するための収音方法であって、カメラによって生成された画像データ（ｖ）の入力を受けるステップと、マイクアレイから出力される音響信号（ｓ）の入力を受けるステップと、画像データ（ｖ）に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報（Ｐ（θ，φ｜ｖ））を出力するステップと、音響信号（ｓ）に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報（Ｐ（θ，φ｜ｓ））を出力するステップと、カメラの撮影状況に応じて物体位置情報の重み（Ｗｖ）を設定するステップと、物体位置情報（Ｐ（θ，φ｜ｖ））と物体位置情報の重み（Ｗｖ）と音源位置情報（Ｐ（θ，φ｜ｓ））とに基づいて、目的音を収音する方向（θ，φ）を決定するステップと、を含む。

　（１３）また、本開示の別の収音方法は、音源となる物体から出力される目的音を収音するための収音方法であって、カメラによって生成された画像データ（ｖ）の入力を受けるステップと、マイクアレイから出力される音響信号（ｓ）の入力を受けるステップと、画像データ（ｖ）に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報（Ｐ（θ，φ｜ｖ））を出力するステップと、音響信号（ｓ）に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報（Ｐ（θ，φ｜ｓ））を出力するステップと、マイクアレイの受音状況に応じて音源位置情報の重み（Ｗｓ）を設定するステップと、物体位置情報（Ｐ（θ，φ｜ｖ））と音源位置情報（Ｐ（θ，φ｜ｓ））と音源位置情報の重み（Ｗｓ）とに基づいて、目的音を収音する方向（θ，φ）を決定するステップと、を含む。

　これにより、音源位置情報Ｐ（θ，φ｜ｓ）の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ２０から出力された音響信号ｓから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。

　（１４）本開示のプログラムは、コンピュータに上記収音方法を実行させる。

　本開示の全請求項に記載の収音装置及び収音方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。

　本開示の収音装置は、例えば、会話中の人の音声を収音する装置として、有用である。

　　１　　　　収音装置
　　１０　　　カメラ
　　２０　　　マイクアレイ
　　３０　　　制御部
　　３１　　　物体位置検出部
　　３２　　　音源位置推定部
　　３３　　　画像確度判定部
　　３４　　　音響確度判定部
　　３５　　　重み設定部
　　３６　　　収音方向決定部
　　３７　　　ビームフォーム部
　　３８　　　発話区間検出部
　　４０　　　記憶部
　　５０　　　入出力インタフェース部
　　６０　　　バス
　　７０　　　センサ部
　　３００　　重み付け部

Claims

　音源となる物体から出力される目的音を収音するための収音装置であって、
　カメラによって生成された画像データの入力を受ける第１の入力部と、
　マイクアレイから出力される音響信号の入力を受ける第２の入力部と、
　前記目的音を収音する方向を決定する制御部と、
　を有し、
　前記制御部は、
　　前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力する検出部と、
　　前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力する推定部と、
　　前記カメラの撮影状況に応じて前記物体位置情報の重みを設定する重み付け部と、
　　前記物体位置情報と前記物体位置情報の重みと前記音源位置情報とに基づいて、前記目的音を収音する方向を決定する決定部と、
　を含む、収音装置。
　前記重み付け部は、
　　前記物体が前記画像データに含まれている確からしさを示す画像確度に基づいて前記物体位置情報の重みを設定する、
　請求項１に記載の収音装置。
　前記重み付け部は、前記画像データの平均輝度又は輝度の分散に基づいて、前記画像確度を算出する、請求項２に記載の収音装置。
　前記検出部は、前記画像データを複数の領域に分割し、
　前記重み付け部は、前記複数の領域のうち、検出した前記物体の位置に対応する一の領域の平均輝度又は輝度の分散に基づいて、前記画像確度を算出する、請求項２に記載の収音装置。
　前記重み付け部は、前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定し、
　前記決定部は、前記物体位置情報と前記物体位置情報の重みと前記音源位置情報と前記音源位置情報の重みに基づいて、前記目的音を収音する方向を決定する、請求項１～４のいずれかに記載の収音装置。
　前記重み付け部は、
　　前記目的音が前記音響信号に含まれている確からしさを示す音響確度に基づいて前記音源位置情報の重みを設定する、
　請求項５に記載の収音装置。
　前記重み付け部は、前記音響信号に含まれる前記目的音と非目的音の尤度比又はパワー比に基づいて、前記音響確度を算出する、請求項６に記載の収音装置。
　周囲の明るさを検知する輝度センサ、前記物体までの距離を検知する距離センサ、又は加速度センサのうちの少なくとも１つを含むセンサ部をさらに有し、
　前記重み付け部は、前記センサ部の出力に基づいて、前記物体位置情報の重みを設定する、
　請求項１に記載の収音装置。
　前記カメラ又は前記マイクアレイのうちの少なくとも一方を備える、請求項１に記載の収音装置。
　前記検出部は、前記物体として、人の身体、顔、又は唇を検出する、請求項１に記載の収音装置。
　音源となる物体から出力される目的音を収音するための収音装置であって、
　カメラによって生成された画像データの入力を受ける第１の入力部と、
　マイクアレイから出力される音響信号の入力を受ける第２の入力部と、
　前記目的音を収音する方向を決定する制御部と、
　を有し、
　前記制御部は、
　　前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力する検出部と、
　　前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力する推定部と、
　　前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定する重み付け部と、
　　前記物体位置情報と前記音源位置情報と前記音源位置情報の重みとに基づいて、前記目的音を収音する方向を決定する決定部と、
　を含む、収音装置。
　前記重み付け部は、
　　前記目的音が前記音響信号に含まれている確からしさを示す音響確度に基づいて前記音源位置情報の重みを設定する、
　請求項１１に記載の収音装置。
　前記重み付け部は、前記音響信号に含まれる前記目的音と非目的音の尤度比又はパワー比に基づいて、前記音響確度を算出する、請求項１２に記載の収音装置。
　音源となる物体から出力される目的音を収音するための収音方法であって、
　カメラによって生成された画像データの入力を受けるステップと、
　マイクアレイから出力される音響信号の入力を受けるステップと、
　前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力するステップと、
　前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力するステップと、
　前記カメラの撮影状況に応じて前記物体位置情報の重みを設定するステップと、
　前記物体位置情報と前記物体位置情報の重みと前記音源位置情報とに基づいて、前記目的音を収音する方向を決定するステップと、
　を含む、収音方法。
　音源となる物体から出力される目的音を収音するための収音方法であって、
　カメラによって生成された画像データの入力を受けるステップと、
　マイクアレイから出力される音響信号の入力を受けるステップと、
　前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力するステップと、
　前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力するステップと、
　前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定するステップと、
　前記物体位置情報と前記音源位置情報と前記音源位置情報の重みとに基づいて、前記目的音を収音する方向を決定するステップと、
　を含む、収音方法。
　コンピュータに請求項１４又は１５に記載の収音方法を実行させるためのプログラム。