WO2021038752A1

WO2021038752A1 - 画像処理装置、システム、画像処理方法および画像処理プログラム

Info

Publication number: WO2021038752A1
Application number: PCT/JP2019/033709
Authority: WO
Inventors: 小泉　誠
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-03-04
Also published as: US20220308157A1; JPWO2021038752A1; JP7304955B2

Abstract

画像処理装置は、画像センサが取得した画像情報を受信する第１の受信部と、１つまたは複数の指向性マイクロフォンが取得した、画像センサの被写界内の少なくとも一部の領域における音声情報を受信する第２の受信部と、音声情報を、被写界内の位置を示す画像情報の画素アドレスに関連付ける関連付け処理部と、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出するオブジェクト検出部と、関連付け処理部による関連付けの結果に基づき、オブジェクトに対して所定の処理を行う処理実行部とを備える。

Description

画像処理装置、システム、画像処理方法および画像処理プログラム

　本発明は、画像処理装置、システム、画像処理方法および画像処理プログラムに関する。

　撮像装置によって生成した画像を用いて画像解析を行い、物体の検出や追尾を行う動体検出技術が知られている。動体検出は、撮像時の焦点調節や監視カメラへの応用に利点がある。このような動体検出に関する技術は、例えば特許文献１に記載されている。特許文献１の発明では、ＲＧＢ映像を取得するモードと赤外映像を取得するモードとを有し、背景差分法を用いて動体検出を行う際に、背景モデルの再生成の要否を判断し、効率的な動体検出を実現している。

特開２０１８－１８５６３５号公報

　しかしながら、動体検出においては誤検出も多く発生する。誤検出が発生すると、動体検出に基づく様々な後処理にも問題が生じるため、処理の目的に応じた適切なオブジェクトに対して選択的に処理実行することが望まれている。

　そこで、本発明は、音声情報を適用することによって、処理の目的に応じた適切なオブジェクトに対して処理実行することができる画像処理装置、システム、画像処理方法および画像処理プログラムを提供することを目的とする。

　本発明のある観点によれば、画像センサが取得した画像情報を受信する第１の受信部と、１つまたは複数の指向性マイクロフォンが取得した、画像センサの被写界内の少なくとも一部の領域における音声情報を受信する第２の受信部と、音声情報を、被写界内の位置を示す画像情報の画素アドレスに関連付ける関連付け処理部と、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出するオブジェクト検出部と、関連付け処理部による関連付けの結果に基づき、オブジェクトに対して所定の処理を行う処理実行部とを備える画像処理装置が提供される。

　本発明の別の観点によれば、画像情報を取得する画像センサと、画像センサの被写界内の少なくとも一部の領域における音声情報を取得する１つまたは複数の指向性マイクロフォンと、画像情報を受信する第１の受信部と、音声情報を受信する第２の受信部と、音声情報を、被写界内の位置を示す画像情報の画素アドレスに関連付ける関連付け処理部と、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出するオブジェクト検出部と、関連付け処理部による関連付けの結果に基づき、オブジェクトに対して所定の処理を行う処理実行部とを有する端末装置とを備えるシステムが提供される。

　本発明のさらに別の観点によれば、画像センサが取得した画像情報を受信するステップと、１つまたは複数の指向性マイクロフォンが取得した、画像センサの被写界内の少なくとも一部の領域における音声情報を受信するステップと、音声情報を、被写界内の位置を示す画像情報の画素アドレスに関連付けるステップと、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出するステップと、関連付けの結果に基づき、オブジェクトに対して所定の処理を行うステップとを含む画像処理方法が提供される。

　本発明のさらに別の観点によれば、画像センサが取得した画像情報を受信する機能と、１つまたは複数の指向性マイクロフォンが取得した、画像センサの被写界内の少なくとも一部の領域における音声情報を受信する機能と、音声情報を、被写界内の位置を示す画像情報の画素アドレスに関連付ける機能と、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出する機能と、関連付けの結果に基づき、オブジェクトに対して所定の処理を行う機能とをコンピュータに実現させる画像処理プログラムが提供される。

本発明の第１の実施形態に係るシステムの概略的な構成を示すブロック図である。本発明の第１の実施形態における処理の流れについて概略的に説明するための図である。本発明の第１の実施形態に係る処理の例を示すフローチャートである。本発明の第１の実施形態に係る処理の例を示すフローチャートである。本発明の第１の実施形態に係る処理の例を示すフローチャートである。本発明の第２の実施形態に係るシステムの概略的な構成を示すブロック図である。本発明の第２の実施形態における処理の流れについて概略的に説明するための図である。本発明の第２の実施形態に係る処理の例を示すフローチャートである。

　以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　（第１の実施形態）
　図１は、本発明の第１の実施形態に係る画像処理システム１０の概略的な構成を示すブロック図である。
　図示された例において、画像処理システム１０は、ビジョンセンサ１０１と、マイクロフォン１０２と、情報処理装置２００とを含む。

　ビジョンセンサ１０１は、光の強度変化を検出したときにイベント信号を生成するイベント駆動型センサ（ＥＤＳ：Event Driven Sensor）からなるセンサアレイと、センサに接続される処理回路とを含む。ＥＤＳは、受光素子を含み、入射する光の強度変化、より具体的には輝度変化を検出したときにイベント信号を生成する。輝度変化を検出しなかったＥＤＳはイベント信号を生成しないため、ビジョンセンサ１０１においてイベント信号は、イベントが発生した画素アドレスについて時間非同期的に生成される。具体的には、イベント信号は、センサの識別情報（例えば画素アドレス）、輝度変化の極性（上昇または低下）、およびタイムスタンプを含む。ビジョンセンサ１０１で生成されたイベント信号は、情報処理装置２００に出力される。

　マイクロフォン１０２は、ビジョンセンサ１０１の被写界内の少なくとも一部の領域で発生した音を音声信号に変換する。マイクロフォン１０２は、例えばマイクアレイを構成する複数の指向性マイクを含み、所定の信号レベル以上の音を検出した時にビジョンセンサ１０１の被写界内の少なくとも一部の領域で音が発生した位置を示す位置情報に関連付けられた音声信号を生成する。マイクロフォン１０２で生成される音声信号は、ビジョンセンサ１０１の被写界内の位置情報（例えばＸＹ座標）、信号レベル（音量）、およびタイムスタンプを含む。マイクロフォン１０２で生成された音声信号は、情報処理装置２００に出力される。ここで、音声信号のタイムスタンプは、イベント信号のタイムスタンプと共通であるか、または対応付け可能である。

　情報処理装置２００は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現されるイベント信号受信部２０１、オブジェクト検出部２０２、音声信号受信部２０３、位置合わせ処理部２０４、関連付け処理部２０５、オブジェクト分類部２０６、第１画像処理部２０７、第２画像処理部２０８の機能を含む。以下、各部の機能についてさらに説明する。

　イベント信号受信部２０１は、ビジョンセンサ１０１で生成されたイベント信号を受信する。ビジョンセンサ１０１の被写界内でオブジェクトの位置が変化した場合、輝度変化が発生し、その輝度変化が発生した画素アドレスでＥＤＳが生成したイベント信号がイベント信号受信部２０１により受信される。なお、被写界内でのオブジェクトの位置変化は、ビジョンセンサ１０１の被写界内における動体の移動によって起こるだけでなく、ビジョンセンサ１０１が搭載された装置の移動によって、実際は静止している物体が見かけ上移動する場合にも起こるが、ＥＤＳが生成するイベント信号ではそれらの区別はつかない。

　オブジェクト検出部２０２は、イベント信号受信部２０１が受信したイベント信号に基づいて、オブジェクトを検出する。例えば、オブジェクト検出部２０２は、受信したイベント信号によって同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、検出結果を示す情報を関連付け処理部２０５に供給する。上述のように、イベント信号では実際に移動しているオブジェクトとビジョンセンサ１０１が搭載された装置の移動によって見かけ上移動しているオブジェクトとは区別されないため、オブジェクト検出部２０２によって検出されるオブジェクトにはビジョンセンサ１０１の被写界内で実際に動いているオブジェクトと、実際には静止しているがビジョンセンサ１０１が搭載された装置の移動によって見かけ上移動しているオブジェクトとが含まれる。

　音声信号受信部２０３は、マイクロフォン１０２で生成された音声信号を受信する。ここで、音声信号受信部２０３が受信する音声信号には、ビジョンセンサ１０１の被写界内の少なくとも一部の領域で音が発生した位置を示す位置情報が関連付けられている。多くの場合、ビジョンセンサ１０１の被写界内で実際に動いているオブジェクトは、オブジェクト自身が発する音（例えば、モーターやエンジンが発する音や、部品が互いにぶつかる音など）、またはオブジェクトの移動に伴って発生する音（例えば、摩擦音や風切り音など）が発生する。これらの音を示す音声信号が、位置情報とともに音声信号受信部２０３により受信される。上述したように、ビジョンセンサ１０１からのイベント信号に基づくオブジェクト検出では実際に動いているオブジェクトと実際には静止しているが見かけ上移動しているオブジェクトとが区別されないが、マイクロフォン１０２からの音声信号は、実際に移動しているオブジェクトについてのみ取得される可能性が高い。

　位置合わせ処理部２０４は、音声信号受信部２０３が受信した音声信号の座標系を、イベント信号受信部２０１が受信したイベント信号の座標系に合わせる処理を行う。なお、ビジョンセンサ１０１により生成されるイベント信号の位置情報（画素アドレス）と、マイクロフォン１０２により生成される音声信号の位置情報とは予めキャリブレーションされており、位置合わせ処理部２０４は、２つの位置情報の相関に基づいて幾何的な演算を行うことにより、音声信号受信部２０３が受信した音声信号の座標系を、イベント信号受信部２０１が受信したイベント信号の座標系に変換する処理を行う。なお、ビジョンセンサ１０１とマイクロフォン１０２とは、同軸上または近接して配置されても良い。この場合、上述したキャリブレーションを簡易的に、かつ精度良く行うことができる。

　関連付け処理部２０５は、位置合わせ処理部２０４の処理結果を用いて、音声信号を、オブジェクト検出部２０２が検出したオブジェクトの画像内での領域に対応する画素アドレスに関連付ける処理を行う。本実施形態において、位置合わせ処理部２０４は音声信号の位置情報と画素アドレスとのキャリブレーション結果に基づいて座標系を変換するため、関連付け処理部２０５も位置情報と画素アドレスとのキャリブレーション結果を用いて音声情報を画素アドレスに関連付ける。具体的には、例えば、関連付け処理部２０５は、オブジェクトが検出される基になったイベント信号が生成された時間（例えば、イベント信号のタイムスタンプの最小と最大との間）において、オブジェクトの画像内での領域と一致または重複する位置で発生した音を示す音声信号に基づく情報をオブジェクトの画素アドレスに関連付ける。ここで、オブジェクトの画素アドレスに関連付けられる情報には、例えば音声検出の有無のみが含まれてもよいし、音声信号の信号レベルなどがさらに含まれても良い。

　オブジェクト分類部２０６は、関連付け処理部２０５による関連付けの結果に基づいて、オブジェクト検出部２０２で検出したオブジェクトを分類する。本実施形態において、オブジェクト分類部２０６は、音声検出があったことを示す情報が関連付けられたオブジェクト、または関連付けられた情報によって示される音声信号の信号レベルが閾値以上であるオブジェクトを音ありオブジェクトに分類し、それ以外のオブジェクトを音なしオブジェクトに分類する。あるいは、オブジェクト分類部２０６は、音声検出があったことを示す情報に関連付けられていないオブジェクト、または関連付けられた情報によって示される音声信号の信号レベルが閾値未満であるオブジェクトを音なしオブジェクトに分類し、それ以外のオブジェクトを音ありオブジェクトに分類してもよい。

　ここで、「実際に移動している物体は音を発する」という前提にたてば、上記のようなオブジェクト分類部２０６の処理によって分類される音ありオブジェクトは実際に移動しているオブジェクト（動体）であり、音なしオブジェクトは実際には静止しているが見かけ上移動しているオブジェクト（背景）である。

　第１画像処理部２０７は、オブジェクト分類部２０６によって音ありオブジェクトに分類されたオブジェクトの情報に基づいて、第１画像処理を行う。第１画像処理は、例えば実際に移動しているオブジェクト（動体）を処理対象とする処理であり、例えばトラッキング処理や動体を切り出して描画する処理などが含まれる。

　例えば、第１画像処理部２０７がトラッキング処理を実行する場合、オブジェクト分類部２０６は、上記の音ありオブジェクトのみをトラッキング対象オブジェクトに追加する。そして、第１画像処理部２０７は、トラッキング対象オブジェクトについて、時系列のイベント信号の検出結果に基づくトラッキング処理を行う。

　一方、第２画像処理部２０８は、オブジェクト分類部２０６によって音なしオブジェクトに分類されたオブジェクトの情報に基づいて、第２画像処理を行う。第２画像処理は、例えば実際は静止しているが見かけ上移動しているオブジェクト（背景）を処理対象とする処理であり、例えば自己位置推定処理やモーションキャンセル処理、画像から動体を消して背景のみを描画する処理などが含まれる。

　例えば、第２画像処理部２０８が自己位置推定処理を実行する場合、オブジェクト分類部２０６は、上記の音なしオブジェクトのみを自己位置推定処理の対象オブジェクトに追加する。そして、第２画像処理部２０８は、対象オブジェクトについて、時系列のイベント信号の検出結果に基づいて例えばＳＬＡＭ（Simultaneously Localization and Mapping）などの手法を用いた自己位置推定処理を行う。同様に、第２画像処理部２０８がモーションキャンセル処理を実行する場合も、オブジェクト分類部２０６は上記の音なしオブジェクトのみをモーションキャンセル処理の対象オブジェクトに追加する。そして、第２画像処理部２０８は、ビジョンセンサ１０１の被写界内で対象オブジェクトの位置が維持されるように、ビジョンセンサ１０１を補償的に回転または移動させるモーションキャンセル処理を行う。モーションキャンセル処理は、例えばビジョンセンサ１０１を搭載した装置の駆動部に制御信号を送信することによって実行されてもよい。

　図２は、図１に示した画像処理システムにおける処理を概念的に説明するための図である。図示された例において、ビジョンセンサ１０１により生成されたイベント信号には、実際に移動しているオブジェクト（動体）である車両（ｏｂｊ１）と、ビジョンセンサ１０１が搭載された装置の移動によって見かけ上移動しているオブジェクト（背景）である建物（ｏｂｊ２）とが含まれる。マイクロフォン１０２では、車両の走行によって発生する音のみが集音されるため、音声信号は動体である車両と一致または重複する領域（斜線で示す）についてのみ生成される。

　この結果、情報処理装置２００の関連付け処理部２０５では、車両のオブジェクト（ｏｂｊ１）のみに音声検出があったことを示す情報（または閾値以上の音声信号の信号レベル）が関連付けられ、オブジェクト分類部２０６は車両のオブジェクト（ｏｂｊ１）を音ありオブジェクトに分類する。第１画像処理部２０７は、車両のオブジェクト（ｏｂｊ１）に対してトラッキングなどの処理を実行する。

　一方、関連付け処理部２０５では、建物のオブジェクト（ｏｂｊ２）には音声検出があったことを示す情報が関連付けられず（または閾値未満の音声信号の信号レベルが関連付けられ）、オブジェクト分類部２０６は建物のオブジェクト（ｏｂｊ２）を音なしオブジェクトに分類する。第２画像処理部２０８は、建物のオブジェクト（ｏｂｊ２）を用いて自己位置推定やモーションキャンセルなどの処理を実行する。

　なお、図２では、説明のために車両のオブジェクト（ｏｂｊ）および建物のオブジェクト（ｏｂｊ２）が切り出して別個に描画されるように図示されているが、画像としてそれぞれのオブジェクトを切り出して描画する必要はなく、上述したような画像処理がオブジェクトの描画を伴わずに実行されてもよい。

　図３は、本発明の第１の実施形態に係る処理の例を示すフローチャートである。図示された例では、情報処理装置２００のイベント信号受信部２０１がビジョンセンサ１０１により生成されたイベント信号を受信し（ステップＳ１０１）、イベント信号受信部２０１により受信したイベント信号に基づいて、オブジェクト検出部２０２がオブジェクトを検出する（ステップＳ１０２）。一方、音声信号受信部２０３がマイクロフォン１０２により取得された音声信号を受信し（ステップＳ１０３）、位置合わせ処理部２０４が位置合わせ処理を行う（ステップＳ１０４）。そして、オブジェクト検出部２０２で検出したオブジェクトごとに、関連付け処理部２０５が関連付け処理を行う（ステップＳ１０５）。

　図４および図５は、図３のフローチャートの後段における処理の２つの例を示すフローチャートである。
　図４に図示された第１の例では、関連付け処理部２０５が関連付け処理を行った後に、オブジェクト分類部２０６がオブジェクトの位置における音声検出の有無を判定し（ステップＳ２０２）、音声検出があったオブジェクトを処理対象オブジェクトに分類する（ステップＳ２０３）。オブジェクト分類部２０６は、上記のステップＳ１０２でオブジェクト検出部２０２が検出したオブジェクトについて分類処理を繰り返す（ステップＳ２０１からＳ２０４）。そして、処理対象オブジェクトに分類されたオブジェクトを対象として、第１画像処理部２０７がトラッキング処理を実行する（ステップＳ２０５）。

　図５に図示された第２の例では、関連付け処理部２０５が関連付け処理を行った後に、オブジェクト分類部２０６がオブジェクトの位置における音声検出の有無を判定し（ステップＳ３０２）、音声検出がなかったオブジェクトを処理対象オブジェクトに分類する（ステップＳ３０３）。オブジェクト分類部２０６は、上記のステップＳ１０２でオブジェクト検出部２０２が検出したオブジェクトについて分類処理を繰り返す（ステップＳ３０１からＳ３０４）。そして、処理対象オブジェクトに分類されたオブジェクトを自己位置推定処理またはモーションキャンセル処理に利用するオブジェクトとして、第２画像処理部２０８が自己位置推定処理またはモーションキャンセル処理を実行する（ステップＳ３０５）。

　以上で説明したような本発明の第１の実施形態では、指向性のマイクロフォン１０２が取得した、ビジョンセンサ１０１の被写界内の少なくとも一部の領域における音声情報を、被写界内の位置を示すイベント信号の画素アドレスに関連付け、画像情報から被写界内に存在するオブジェクトの少なくとも一部を検出し、関連付け処理の結果に基づき、オブジェクトに対して所定の処理を行う。したがって、音声情報を適用することによって、処理の目的に応じた適切なオブジェクトに対する処理を行うことができる。
　また、本発明の第１の実施形態では、関連付けの結果に基づいて、オブジェクトを音ありオブジェクトおよび音なしオブジェクトに分類する。音ありオブジェクトまたは音なしオブジェクトの少なくともいずれかを選択的に用いて所定の処理を行うことによって、例えばオブジェクトが動体であるか、背景であるかといったようなオブジェクトの特性に応じた適切な処理を行うことができる。

　具体的には、例えば、本発明の第１の実施形態では、実際に移動しているオブジェクト（動体）に対してトラッキング処理を実行することができる。この場合、ビジョンセンサ１０１が搭載された装置が移動している状況であっても、動体であるオブジェクトをとらえる可能性を高めることが期待できる。そのため、例えば、危険察知などの目的で近接物体をトラッキングする際にも、見かけ上移動しているオブジェクトを誤ってトラッキングしてしまうという問題を回避することができる。また、真に移動しているオブジェクトのみをトラッキングできる可能性を高めることができるので、ビジョンセンサ１０１が搭載された装置が移動している場合などに、画面全体でイベント信号が生成されたとしても、遅延なくより正確にオブジェクトをトラッキングすることができる。

　また、例えば、本発明の第１の実施形態では、実際は静止しているが見かけ上移動しているオブジェクト（背景）の時系列の検出結果を用いて、ビジョンセンサ１０１が搭載された装置の自己位置推定処理を実行することができる。例えば、自己位置推定処理において静止しているオブジェクトだけをマップ化する必要がある場合に、本発明の第１の実施形態では、静止しているオブジェクトを正しく区別して自己位置推定処理を行うことにより、自己位置推定用のマップの精度を向上させることができる。

　また、例えば、本発明の第１の実施形態では、実際は静止しているが見かけ上移動しているオブジェクト（背景）の時系列の検出結果を用いて、ビジョンセンサ１０１が搭載された装置におけるモーションキャンセル処理を実行することができる。モーションキャンセルで基準になる静止したオブジェクトを精度良く認識する必要がある場合に、本発明の第１の実施形態では、静止しているオブジェクトを正しく区別してモーションキャンセル処理を行うことにより、ビジョンセンサ１０１の回転または移動を正しく補償するモーションキャンセル処理が可能になる。

　なお、上記の例で説明された画像処理システム１０による画像処理は、これらの例に限定されない。
　例えば、図３および図４で説明された各画像処理の何れか一つのみを行う構成としても良いし、複数の画像処理を行う構成としても良い。
　また、第１画像処理部２０７による画像処理と第２画像処理部２０８による画像処理との何れか一方のみを行う構成としても良い。この場合、図１で示されたブロック図において、第１画像処理部２０７または第２画像処理部２０８の何れかのみを備えても良い。

　（第２の実施形態）
　次に、本発明の第２の実施形態について詳細に説明する。図６は、本発明の第２の実施形態に係る画像処理システム２０の概略的な構成を示すブロック図である。第１の実施形態の各構成と実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　第１の実施形態では、検出したオブジェクトごとに関連付け処理を行う例を示したが、第２の実施形態では、関連付け処理の結果に基づいてオブジェクト検出を行う。

　図示された例において、画像処理システム２０は、ビジョンセンサ１０１と、マイクロフォン１０２と、情報処理装置３００とを含む。
　情報処理装置３００は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現されるイベント信号受信部２０１、音声信号受信部２０３、位置合わせ処理部２０４、関連付け処理部３０１、オブジェクト検出部３０２、画像処理部３０３の機能を含む。以下、図１と異なる構成の機能についてさらに説明する。

　関連付け処理部３０１は、上記の第１の実施形態で説明した位置合わせ処理部２０４の処理結果を用いて、音声信号受信部２０３により受信した音声信号を、ビジョンセンサ１０１の被写界内の位置を示すイベント信号の画素アドレスに関連付ける処理を行う。具体的には、例えば、関連付け処理部３０１は、オブジェクトが検出される基になったイベント信号が生成された時間（例えば、イベント信号のタイムスタンプの最小と最大との間）において、ビジョンセンサ１０１の被写界内の少なくとも一部の領域において発生した音を示す音声信号に基づく情報を、イベント信号の画素アドレスに関連付ける。ここで、イベント信号の画素アドレスに関連付けられる情報には、例えば音声検出の有無のみが含まれてもよいし、音声信号の信号レベルなどがさらに含まれても良い。

　オブジェクト検出部３０２は、イベント信号の画素アドレスに関連付けられた音声信号に応じて決定される画像内の領域で、イベント信号に基づいてオブジェクトを検出する。例えば、オブジェクト検出部３０２は、画像処理部３０３による画像処理の対象となるオブジェクトの特性に応じた音声情報に応じて決定される画像内の領域で、イベント信号によって同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、検出結果を示す情報を画像処理部３０３に供給する。

　例えば、画像処理部３０３が、第１の実施形態の第１画像処理部２０７で説明したように、ビジョンセンサ１０１の被写界内で実際に動いている音ありオブジェクトを処理対象とする場合、オブジェクト検出部３０２は、音声検出があったことを示す情報、または音声信号の信号レベルが閾値以上であることを示す情報が音声情報として関連付けられた画像内の領域で、イベント信号に基づくオブジェクト検出を行う。

　また、例えば、画像処理部３０３が、第１の実施形態の第２画像処理部２０８で説明したように、実際には静止しているがビジョンセンサ１０１が搭載された装置の移動によって見かけ上移動している音なしオブジェクトを処理対象とする場合、オブジェクト検出部３０２は、音声検出があったことを示す情報が音声情報として関連付けられていない画像内の領域、または音声信号の信号レベルが閾値未満であることを示す情報が音声情報として関連付けられた画像内の領域で、イベント信号に基づくオブジェクト検出を行う。
　このように、本実施形態においては、オブジェクト検出部３０２がすべてのオブジェクトを検出するのではなく、音声情報を適用して、画像処理部３０３による画像処理の対象となるオブジェクトのみを検出する。

　画像処理部３０３は、オブジェクト検出部３０２によって検出されたオブジェクトの情報に基づいて、第１の実施形態の第１画像処理部２０７または第２画像処理部２０８と同様に画像処理を行う。

　図７は、図６に示した画像処理システムにおける処理を概念的に説明するための図である。図示された例において、ビジョンセンサ１０１により生成されたイベント信号には、実際に移動しているオブジェクト（動体）である車両と、ビジョンセンサ１０１が搭載された装置の移動によって見かけ上移動しているオブジェクト（背景）である建物とが含まれる。マイクロフォン１０２では、車両の走行によって発生する音のみが集音されるため、音声信号は動体である車両と一致または重複する領域（斜線で示す）についてのみ生成される。

　この結果、情報処理装置３００の関連付け処理部３０１は、車両のオブジェクトが含まれる領域Ｒ１のみに音声検出があったことを示す情報（または閾値以上の音声信号の信号レベル）を関連付け、オブジェクト検出部３０２が領域Ｒ１で車両のオブジェクト（ｏｂｊ１）を検出し、画像処理部３０３がこのオブジェクトに対してトラッキングなどの処理を実行する。

　あるいは、関連付け処理部３０１が音声検出があったことを示す情報を関連付けなかった（または閾値未満の音声信号の信号レベルを関連付けた）領域Ｒ２で、オブジェクト検出部３０２が建物のオブジェクト（ｏｂｊ２）を検出し、画像処理部３０３がこのオブジェクトに対して自己位置推定やモーションキャンセルなどの処理を実行してもよい。

　なお、図７では、説明のために車両のオブジェクト（ｏｂｊ）および建物のオブジェクト（ｏｂｊ２）が切り出して別個に描画されるように図示されているが、画像としてそれぞれのオブジェクトを切り出して描画する必要はなく、上述したような画像処理がオブジェクトの描画を伴わずに実行されてもよい。

　図８は、本発明の第２の実施形態に係る処理の例を示すフローチャートである。図示された例では、情報処理装置３００のイベント信号受信部２０１がビジョンセンサ１０１により生成されたイベント信号を受信する（ステップＳ４０１）。一方、音声信号受信部２０３がマイクロフォン１０２により取得された音声信号を受信し（ステップＳ４０２）、位置合わせ処理部２０４が位置合わせ処理を行う（ステップＳ４０３）。そして、関連付け処理部３０１が関連付け処理を行う（ステップＳ４０４）。次に、イベント信号受信部２０１により受信したイベント信号に基づいて、オブジェクト検出部３０２がオブジェクトを検出し（ステップＳ４０５）、画像処理部３０３が画像処理を実行する（ステップＳ４０６）。

　以上で説明したような本発明の第２の実施形態では、画素アドレスに関連付けられた音声情報に応じて決定される画像内の領域で検出されたオブジェクトに対して所定の処理を行うことによって、処理の目的に応じたオブジェクトに対する処理を行うことができる。

　なお、上記の各実施形態で説明された画像処理システム１０およびシステム２０による画像処理を、一般的な画像ベースの物体認識（General Object Recognition）と組み合わせて実行しても良い。例えば、画像ベースの物体認識によって構造物（建物など）や静置物（椅子など）等、通常静止しているオブジェクトであることが特定されたオブジェクトを、上述した情報処理装置２００のオブジェクト分類部２０６が音なしオブジェクト（実際は静止しているが見かけ上移動している背景）に分類した場合、オブジェクトの分類が正しく行われたと判断することができる。一方、画像ベースの物体認識による認識結果と分類結果が矛盾する場合には、オブジェクトの分類が正しく行われなかったと判断し、例えば物体認識または音声信号との関連付けを再実行してもよい。このような構成とすることにより、オブジェクトの分類精度を向上させることができる。

　また、例えば、画像ベースの物体認識によって特定されたオブジェクトと、上述した情報処理装置３００のオブジェクト検出部３０２により検出されたオブジェクトとの特性が一致した場合、オブジェクト検出部３０２によるオブジェクトの検出が正しく行われたと判断することができる。一方、画像ベースの物体認識による認識結果と検出結果が矛盾する場合には、オブジェクト検出部３０２によるオブジェクトの検出が正しく行われなかったと判断し、例えば物体認識または音声信号との関連付けを再実行してもよい。このような構成とすることにより、オブジェクトの検出精度を向上させることができる。

　また、上記の各実施形態において、マイクロフォン１０２により生成された音声信号に対して周波数解析を行い、音源の種類や特性を認識し、音声信号に基づく認識結果と、上述した一般物体認識による認識結果との整合が取れているか否かを判断してもよい。この場合、例えば、オブジェクトの音声信号に基づく認識の結果が動物の鳴き声であり、一般物体認識による認識結果が動物である場合には整合が取れているので、そのオブジェクトを関連付け処理やオブジェクト分類処理の対象とする。一方、整合が取れていない場合には、画像信号と音声信号との少なくとも一方におけるノイズであると判断し、そのオブジェクトを関連付け処理やオブジェクト分類処理の対象としない。このような構成とすることにより、オブジェクト検出の精度を向上させることができる。

　また、上記の各実施形態で説明された画像処理システム１０およびシステム２０による画像処理を、特定のオブジェクトをターゲットとするトラッキング処理に適用しても良い。例えば、ゲーム機器のコントローラ等の入力装置をトラッキングする場合には、入力装置に常時所定の音を発する発信部材を備える。そして、まず音声情報に基づいて大まかなトラッキング処理を行い、次に、大まかなトラッキング処理に基づいてトラッキング範囲を限定し、画像情報に基づくより詳細なトラッキング処理を行うことにより、処理負荷を抑えつつ、トラッキング処理の精度を向上させることができる。

　また、上記の各実施形態で説明された画像処理システム１０およびシステム２０においては、ビジョンセンサ１０１によりイベント信号を生成する例を示したが、この例に限定されない。例えば、ビジョンセンサ１０１に代えてＲＧＢ画像を取得する撮像装置を備えても良い。この場合、例えば、複数フレームの画像の差分に基づいてオブジェクト検出を行うことにより、同様の効果を得ることができる。なお、音声情報に基づいて検出範囲を限定した上でオブジェクト検出を行うことにより、オブジェクト検出の処理負荷を抑えることもできる。

　なお、上記の各実施形態で説明された画像処理システム１０およびシステム２０は、単一の装置内で実装されても良いし、複数の装置に分散して実装されても良い。例えば、ビジョンセンサ１０１を含む端末装置に画像処理システム１０およびシステム２０全体を実装しても良いし、情報処理装置２００および情報処理装置３００をサーバー装置に分離して実装しても良い。また、関連付け処理後またはオブジェクト分類後のデータを保存した上で、事後的に画像処理を行う構成としても良い。この場合、画像処理は、イベント信号受信部、音声信号受信部、オブジェクト検出部、位置合わせ処理部、関連付け処理部、オブジェクト分類部、第１画像処理部、第２画像処理部、画像処理部をそれぞれ別の装置で行う構成としても良い。

　以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

　１０，２０…画像処理システム、１０１…ビジョンセンサ、１０２…マイクロフォン、２００，３００…情報処理装置、２０１…イベント信号受信部、２０２，３０２…オブジェクト検出部、２０３…音声信号受信部、２０４…位置合わせ処理部、２０５，３０１…関連付け処理部、２０６…オブジェクト分類部、２０７…第１画像処理部、２０８…第２画像処理部、３０３…画像処理部

Claims

　画像センサが取得した画像情報を受信する第１の受信部と、
　１つまたは複数の指向性マイクロフォンが取得した、前記画像センサの被写界内の少なくとも一部の領域における音声情報を受信する第２の受信部と、
　前記音声情報を、前記被写界内の位置を示す前記画像情報の画素アドレスに関連付ける関連付け処理部と、
　前記画像情報から前記被写界内に存在するオブジェクトの少なくとも一部を検出するオブジェクト検出部と、
　前記関連付け処理部による関連付けの結果に基づき、前記オブジェクトに対して所定の処理を行う処理実行部と
　を備える画像処理装置。
　前記第２の受信部は、前記被写界内の位置を示す位置情報に関連付けられた前記音声情報を受信し、
　前記関連付け処理部は、前記位置情報と前記画素アドレスとのキャリブレーション結果を用いて前記音声情報を前記画素アドレスに関連付ける、請求項１に記載の画像処理装置。
　前記関連付け処理部は、前記オブジェクト検出部が検出した前記オブジェクトの画像内での領域に対応する前記画素アドレスに前記音声情報を関連付け、
　前記処理実行部は、前記音声情報が関連付けられた前記画素アドレスに対応する前記オブジェクトに対して前記所定の処理を行う、請求項１または請求項２に記載の画像処理装置。
　前記オブジェクト検出部は、前記画素アドレスに関連付けられた前記音声情報に応じて決定される画像内の領域で前記オブジェクトを検出し、
　前記処理実行部は、前記オブジェクト検出部が検出した前記オブジェクトに対して前記所定の処理を行う、請求項１または請求項２に記載の画像処理装置。
　前記オブジェクト検出部が検出した前記オブジェクトを、前記オブジェクトの画像内での領域に対応する前記画素アドレスに関連付けられた前記音声情報に応じて、第１のオブジェクトおよび第２のオブジェクトに分類するオブジェクト分類部をさらに備え、
　前記処理実行部は、前記オブジェクトのうち前記第１のオブジェクトに対して前記所定の処理を行う、請求項３に記載の画像処理装置。
　前記音声情報は、音声検出の有無を示す情報を含み、
　前記処理実行部は、音声検出があったことを示す前記音声情報に関連付けられた画素アドレスで検出された前記オブジェクトに対して前記所定の処理を行う、請求項１から請求項５のいずれか１項に記載の画像処理装置。
　前記処理実行部は、前記オブジェクトの時系列の検出結果を用いてトラッキング処理を行う、請求項６に記載の画像処理装置。
　前記音声情報は、音声検出の有無を示す情報を含み、
　前記処理実行部は、音声検出がなかったことを示す前記音声情報に関連付けられたか、または音声検出があったことを示す前記音声情報に関連付けられなかった画素アドレスで検出された前記オブジェクトに対して前記所定の処理を行う、請求項１から請求項５のいずれか１項に記載の画像処理装置。
　前記処理実行部は、前記オブジェクトの時系列の検出結果を用いて前記画像センサが搭載された装置の自己位置推定処理を行う、請求項８に記載の画像処理装置。
　前記処理実行部は、前記オブジェクトの時系列の検出結果を用いて前記画像センサが搭載された装置のモーションキャンセル処理を行う、請求項８に記載の画像処理装置。
　前記処理実行部は、前記画像情報から、前記オブジェクトのみを含む画像情報を抽出する、請求項１から請求項５のいずれか１項に記載の画像処理装置。
　前記画像センサは、画素ごとに入射する光の強度変化を検出したときにイベント信号を生成するイベント駆動型のビジョンセンサであり、
　前記画像情報は、前記イベント信号を含む、請求項１から請求項１１の何れか１項に記載の画像処理装置。
　画像情報を取得する画像センサと、
　前記画像センサの被写界内の少なくとも一部の領域における音声情報を取得する１つまたは複数の指向性マイクロフォンと、
　　前記画像情報を受信する第１の受信部と、
　　前記音声情報を受信する第２の受信部と、
　　前記音声情報を、前記被写界内の位置を示す前記画像情報の画素アドレスに関連付ける関連付け処理部と、
　　前記画像情報から前記被写界内に存在するオブジェクトの少なくとも一部を検出するオブジェクト検出部と、
　　前記関連付け処理部による関連付けの結果に基づき、前記オブジェクトに対して所定の処理を行う処理実行部と
　を有する端末装置と
　を備えるシステム。
　画像センサが取得した画像情報を受信するステップと、
　１つまたは複数の指向性マイクロフォンが取得した、前記画像センサの被写界内の少なくとも一部の領域における音声情報を受信するステップと、
　前記音声情報を、前記被写界内の位置を示す前記画像情報の画素アドレスに関連付けるステップと、
　前記画像情報から前記被写界内に存在するオブジェクトの少なくとも一部を検出するステップと、
　関連付けの結果に基づき、前記オブジェクトに対して所定の処理を行うステップと
　を含む画像処理方法。
　画像センサが取得した画像情報を受信する機能と、
　１つまたは複数の指向性マイクロフォンが取得した、前記画像センサの被写界内の少なくとも一部の領域における音声情報を受信する機能と、
　前記音声情報を、前記被写界内の位置を示す前記画像情報の画素アドレスに関連付ける機能と、
　前記画像情報から前記被写界内に存在するオブジェクトの少なくとも一部を検出する機能と、関連付けの結果に基づき、前記オブジェクトに対して所定の処理を行う機能と
　をコンピュータに実現させる画像処理プログラム。