WO2021240671A1

WO2021240671A1 - ジェスチャ検出装置およびジェスチャ検出方法

Info

Publication number: WO2021240671A1
Application number: PCT/JP2020/020839
Authority: WO
Inventors: 太郎熊谷; 拓也村上
Original assignee: 三菱電機株式会社
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-02
Also published as: US20230154226A1; JP7289406B2; JPWO2021240671A1

Abstract

乗員のジェスチャにおける手を正確に検出するジェスチャ検出装置を提供する。ジェスチャ検出装置は、顔枠情報取得部、手候補検出部および判定部を含む。顔枠情報取得部は、顔枠の情報を取得する。その顔枠は、車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される。手候補検出部は、その映像に基づいて、乗員の手の候補である手候補を検出する。判定部は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。

Description

ジェスチャ検出装置およびジェスチャ検出方法

　本開示は、ジェスチャ検出装置およびジェスチャ検出方法に関する。

　車両の乗員による車載機器の操作に関して、乗員の手のジェスチャを検出することにより、乗員がその車載機器に接触することなく、その車載機器を操作するシステムが提案されている。例えば、ジェスチャ検出装置は、車内に設けられたカメラ等によって撮影された映像に基づいて乗員の手を検出する。車載機器は乗員の手のジェスチャに従って動作することから、ジェスチャ検出装置における乗員の手の検出には正確性が求められる。特許文献１には、運転手の顔の領域に基づいて設定されたジェスチャ領域のみから、ユーザの手に関する情報を検出する制御装置が提案されている。

特開２０１４－１１９２９５号公報

　ジェスチャ検出装置は、映像に基づいて乗員の手を検出する。そのため、映像の状態によっては、ジェスチャ検出装置は、手以外の物を手として検出する場合がある。

　本開示は、上記の課題を解決するためのものであり、乗員のジェスチャにおける手を正確に検出するジェスチャ検出装置の提供を目的とする。

　本開示に係るジェスチャ検出装置は、顔枠情報取得部、手候補検出部および判定部を含む。顔枠情報取得部は、顔枠の情報を取得する。その顔枠は、車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される。手候補検出部は、その映像に基づいて、乗員の手の候補である手候補を検出する。判定部は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。

　本開示によれば、乗員のジェスチャにおける手を正確に検出するジェスチャ検出装置が提供される。

　本開示の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。

実施の形態１におけるジェスチャ検出装置の構成を示す機能ブロック図である。ジェスチャ検出装置が含む処理回路の構成の一例を示す図である。ジェスチャ検出装置が含む処理回路の構成の別の一例を示す図である。実施の形態１におけるジェスチャ検出方法を示すフローチャートである。実施の形態２におけるジェスチャ検出装置の構成を示す機能ブロック図である。実施の形態２におけるジェスチャ検出方法を示すフローチャートである。乗員の顔枠および手候補枠の一例を示す図である。乗員の顔枠および手候補枠の別の一例を示す図である。図８における手候補枠が拡大された一例を示す図である。処理対象のフレームにおける乗員の顔枠および手候補枠の一例を示す図である。別の処理対象のフレームにおける乗員の顔枠および手候補枠の一例を示す図である。実施の形態３におけるジェスチャ検出方法を示すフローチャートである。実施の形態４におけるジェスチャ検出装置およびそれに関連して動作する装置の構成を示すブロック図である。

　＜実施の形態１＞
　図１は、実施の形態１におけるジェスチャ検出装置１００の構成を示す機能ブロック図である。また、図１には、ジェスチャ検出装置１００と関連して動作する装置として、撮像装置１１０および顔検出部１０が示されている。

　撮像装置１１０は、車両に設けられている。撮像装置１１０は、車両の室内の乗員の映像を撮影する。

　顔検出部１０は、その映像に基づいて、乗員の顔を検出する。顔検出部１０は、その顔を囲むように顔枠を設定する。「顔を囲む」とは、顔の輪郭を全て囲むこと、または、輪郭の全てを囲んでいなくても、予め定められた顔パーツを含んで囲むことを含む。

　ジェスチャ検出装置１００は、撮像装置１１０によって撮影された映像に基づいて、車両の乗員の手のジェスチャを検出する。

　ジェスチャ検出装置１００は、顔枠情報取得部２０、手候補検出部３０および判定部４０を含む。

　顔枠情報取得部２０は、顔検出部１０から乗員の顔枠の情報を取得する。

　手候補検出部３０は、撮像装置１１０によって撮影された映像に基づいて、乗員の手の候補である手候補を検出する。手候補検出部３０は、例えばその映像における物体の形状のパターン（輝度分布の情報）と予め定められた手の形状のパターンとをマッチングすることにより、手候補を検出する。また、手候補検出部３０は、その手候補を囲むように手候補枠を設定する。

　判定部４０は、その映像における顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。ジェスチャ検出装置１００は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。

　図２は、ジェスチャ検出装置１００が含む処理回路９０の構成の一例を示す図である。顔枠情報取得部２０、手候補検出部３０および判定部４０の各機能は、処理回路９０により実現される。すなわち、処理回路９０は、顔枠情報取得部２０、手候補検出部３０および判定部４０を有する。

　処理回路９０が専用のハードウェアである場合、処理回路９０は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせた回路等である。顔枠情報取得部２０、手候補検出部３０および判定部４０の各機能は、複数の処理回路により個別に実現されてもよいし、１つの処理回路によりまとめて実現されてもよい。

　図３は、ジェスチャ検出装置１００が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ９１とメモリ９２とを有する。プロセッサ９１がメモリ９２に格納されるプログラムを実行することにより、顔枠情報取得部２０、手候補検出部３０および判定部４０の各機能が実現される。例えば、プログラムとして記載されたソフトウェアまたはファームウェアが、プロセッサ９１によって実行されることにより各機能が実現される。このように、ジェスチャ検出装置１００は、プログラムを格納するメモリ９２と、そのプログラムを実行するプロセッサ９１とを有する。

　プログラムには、ジェスチャ検出装置１００が、車両に設けられた撮像装置１１０によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する機能が記載されている。また、プログラムには、ジェスチャ検出装置１００が、その映像に基づいて、乗員の手の候補である手候補を検出する機能が記載されている。さらに、プログラムには、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する機能が記載されている。このように、プログラムは、顔枠情報取得部２０、手候補検出部３０および判定部４０の手順または方法をコンピュータに実行させるものである。

　プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）等である。メモリ９２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の、不揮発性または揮発性の半導体メモリである。または、メモリ９２は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、今後使用されるあらゆる記憶媒体であってもよい。

　上記の顔枠情報取得部２０、手候補検出部３０および判定部４０の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上記の各機能を実現する。

　図４は、実施の形態１におけるジェスチャ検出方法を示すフローチャートである。図４に示されるステップＳ１よりも前に、顔検出部１０は、車両に設けられた撮像装置１１０によって撮影された映像に基づいて乗員の顔を検出し、その顔を囲むように顔枠を設定している。

　ステップＳ１にて、顔枠情報取得部２０は、顔検出部１０から乗員の顔枠の情報を取得する。

　ステップＳ２にて、手候補検出部３０は、撮像装置１１０によって撮影された映像に基づいて、乗員の手の候補である手候補を検出する。また、手候補検出部３０は、その手候補を囲むように手候補枠を設定する。

　ステップＳ３にて、判定部４０は、その映像における顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却するか否かを判定する。判定部４０は、その判定結果に従い、手候補の情報を棄却する。棄却された手候補は、検出対象である乗員のジェスチャにおける乗員の手として検出されない。言い換えると、ジェスチャ検出装置１００は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。

　まとめると、実施の形態１におけるジェスチャ検出装置１００は、顔枠情報取得部２０、手候補検出部３０および判定部４０を含む。顔枠情報取得部２０は、顔枠の情報を取得する。その顔枠は、車両に設けられた撮像装置１１０によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される。手候補検出部３０は、その映像に基づいて、乗員の手の候補である手候補を検出する。判定部４０は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。

　このようなジェスチャ検出装置１００は、乗員のジェスチャにおける手を正確に検出する。

　また、実施の形態１におけるジェスチャ検出方法は、車両に設けられた撮像装置１１０によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する。また、ジェスチャ検出方法は、その映像に基づいて、乗員の手の候補である手候補を検出する。さらにジェスチャ検出方法は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。

　このようなジェスチャ検出方法によれば、乗員のジェスチャにおける手が正確に検出される。

　＜実施の形態２＞
　実施の形態２におけるジェスチャ検出装置およびジェスチャ検出方法を説明する。実施の形態２は実施の形態１の下位概念であり、実施の形態２におけるジェスチャ検出装置は、実施の形態１におけるジェスチャ検出装置１００の各構成を含む。なお、実施の形態１と同様の構成および動作については説明を省略する。

　図５は、実施の形態２におけるジェスチャ検出装置１０１の構成を示す機能ブロック図である。また、図５には、ジェスチャ検出装置１０１と関連して動作する装置として、撮像装置１１０および車載機器１２０が示されている。

　撮像装置１１０は、車両の室内の前方中央に設けられている。撮像装置１１０は、車両の室内を広角で撮影し、運転席および助手席の両方を一度に撮影する。撮像装置１１０は、例えば、赤外線を検知するカメラ、可視光を検知するカメラ等である。実施の形態２におけるジェスチャ検出装置１０１は、撮像装置１１０によって撮影される映像に基づいて、車両の乗員の手のジェスチャを検出する。そのジェスチャは、車載機器１２０を操作するためのジェスチャである。車載機器１２０とは、例えば、エアコン、オーディオ等である。ジェスチャ検出装置１０１によって検出されたジェスチャによって、エアコンの温度調節、オーディオの音量調節等が実行される。ただし、車載機器１２０はエアコンおよびオーディオに限定されるものではない。

　ジェスチャ検出装置１０１は、映像取得部５０、顔検出部１０、記憶部６０、顔枠情報取得部２０、手候補検出部３０および判定部４０を含む。

　映像取得部５０は、撮像装置１１０によって撮影された映像をフレームごとに取得する。

　顔検出部１０は、その映像のフレームごとに、乗員の顔を検出する。顔検出部１０は、その顔に対して顔枠を設定する。つまり、顔枠はフレームごとに設定される。顔枠は、顔の輪郭を全て囲むように設定される必要はなく、例えば、予め定められた顔パーツを囲むように設定されていればよい。また、顔枠の外形は矩形であってもよいし、その他の形状であってもよい。なお顔枠は、顔領域と読み替えてもよい。

　記憶部６０は、顔検出部１０によって顔の検出が成功した場合、フレームごとにその顔枠の情報を記憶する。

　顔枠情報取得部２０は、フレームごとに、顔枠の情報を取得する。顔枠情報取得部２０は、処理対象のフレームにおける乗員の顔が検出されている場合、その処理対象のフレームにおける顔枠の情報を取得する。処理対象のフレームにおける乗員の顔が検出されない場合、顔枠情報取得部２０は、以下のように動作する。ここでは、処理対象のフレームよりも前のフレームを第１フレームとし、処理対象のフレームを第２フレームとする。第１フレームにおける乗員の顔は検出される。第２フレームにおける乗員の顔は検出されない。この場合、第２フレームの処理において、顔枠情報取得部２０は、第１フレームにおける顔枠の情報を記憶部６０から取得する。

　その第２フレームは、第１フレームから予め定められたフレーム数以内のフレームである。予め定められたフレーム数は、例えば、ジェスチャ検出装置１０１に記憶されていてもよいし、外部から入力されたものであってもよい。第１フレームは、第２フレームから遡って直近で乗員の顔が検出されたフレームであることが好ましい。

　手候補検出部３０は、撮像装置１１０によって撮影された映像のフレームごとに、乗員の手の候補である手候補を検出する。手候補検出部３０は、例えばその映像における物体の形状のパターン（輝度分布の情報）と予め定められた手の形状のパターンとをマッチングすることにより、つまりパターンマッチング処理により、乗員の手候補を検出する。検出対象の手の形状は、開いた状態の手の形状および閉じた状態の手の形状のうちいずれであってもよい。検出対象の手の形状は、例えば、数を示す手の形状、方向を示す手の形状、乗員の意思（ＯＫまたはＧｏｏｄなど）を示す手の形状等であってもよい。

　手候補検出部３０は、手候補を囲むように手候補枠を設定する。つまり、手候補枠はフレームごとに設定される。手候補枠の大きさは、例えば、顔枠の大きさに基づいて設定される。例えば、手候補枠の大きさは、手候補枠の中心位置を基準として、顔枠と同じ大きさに設定される。または例えば、手候補枠の大きさは、手候補枠の中心位置を基準として、顔枠が任意の倍率で拡大または縮小された大きさに設定される。その倍率は、手候補の検出についての正確性に応じて、適宜変更可能である。なお、手候補枠は手候補領域と読み替えてもよい。

　判定部４０は、顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、フレームごとに、手候補の情報を棄却する。予め定められた条件は、例えば、ジェスチャ検出装置１０１に記憶されていてもよいし、外部から入力されたものであってもよい。予め定められた条件の一例は、後述する。「棄却する」とは、判定部４０が手候補を手以外の物として識別することを含んでいてもよい。または、「棄却する」とは、判定部４０が手候補の情報を無効にすることを含んでいてもよい。いずれにしても、棄却された手候補は、検出対象である乗員のジェスチャにおける乗員の手として検出されない。言い換えると、ジェスチャ検出装置１０１は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。一方で、ジェスチャ検出装置１０１は、判定部４０で棄却されなかった手候補を乗員のジェスチャを構成する手として識別する。ジェスチャ検出装置１０１によって識別された乗員の手によるジェスチャに基づいて、車載機器１２０の操作処理等が実行される。なお、図５に示される機能ブロック図において、判定部４０と車載機器１２０との間の処理を行う機能部の図示は省略されている。

　実施の形態２における判定部４０は、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれる場合に、手候補の情報を棄却する。つまり、実施の形態２における予め定められた条件とは、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれることである。

　第１フレームと第２フレームとが上記の関係を有する場合、判定部４０は、第１フレームにおける顔枠と第２フレームにおける手候補枠との重なりに関する条件に基づいて、第２フレームにおける手候補の情報を棄却する。例えば、判定部４０は、第１フレームの顔枠の少なくとも一部が第２フレームの手候補枠と重なり、かつ、第１フレームの顔枠の中心が第２フレームの手候補枠内に含まれる場合に、第２フレームの手候補の情報を棄却する。

　上記の顔検出部１０、顔枠情報取得部２０、手候補検出部３０、判定部４０、映像取得部５０および記憶部６０の機能は、図２または図３に示される処理回路によって実現される。

　図６は、実施の形態２におけるジェスチャ検出方法を示すフローチャートである。

　ステップＳ１０にて、映像取得部５０は、撮像装置１１０によって撮影された映像における処理対象のフレームを取得する。

　ステップＳ２０にて、顔検出部１０は、処理対象のフレームにおける乗員の顔を検出する。

　ステップＳ３０にて、ジェスチャ検出装置１０１は、乗員の顔が検出されたか否かを判定する。乗員の顔が検出されている場合、ステップＳ４０が実行される。乗員の顔が検出されていない場合、ステップＳ７０が実行される。

　ステップＳ４０にて、顔検出部１０は、検出された顔に対して顔枠を設定する。

　ステップＳ５０にて、記憶部６０は、フレームごとに顔枠の情報を記憶する。

　ステップＳ６０にて、顔枠情報取得部２０は、処理対象のフレームにおける顔枠の情報を取得する。顔枠情報取得部２０は、その顔枠の情報を顔検出部１０から取得してもよいし、記憶部６０から取得してもよい。また、顔枠情報取得部２０は、顔枠の中心を算出する。顔枠の中心は、顔検出部１０によって算出され、顔枠の情報に含まれていてもよい。

　ステップＳ７０にて、顔枠情報取得部２０は、処理対象のフレームが、直近で乗員の顔が検出されたフレームから予め定められたフレーム数以内のフレームであるか否かを判定する。処理対象のフレームが予め定められたフレーム数以内のフレームである場合、つまり、この条件が満たされる場合、ステップＳ８０が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。

　ステップＳ８０にて、顔枠情報取得部２０は、直近で乗員の顔が検出されたフレームにおける顔枠の情報を記憶部６０から取得する。また、顔枠情報取得部２０は、顔枠の中心を算出する。顔枠の中心は、記憶部６０に記憶された顔枠の情報に含まれていてもよい。

　ステップＳ９０にて、手候補検出部３０は、処理対象のフレームにおける乗員の手候補を検出する。手候補検出部３０は、その手候補に対して手候補枠を設定する。

　ステップＳ１００にて、判定部４０は、顔枠と手候補枠との重なりが予め定められた条件を満たすか否かを判定する。ここでは、予め定められた条件は、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれることである。この条件が満たされる場合、ステップＳ１１０が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。

　図７は、乗員の顔枠１２および手候補枠３２の一例を示す図である。図７において、乗員は、車載機器１２０の操作のための手のジェスチャを行っていない。顔検出部１０は、正確に乗員の顔１１を検出しており、その検出結果に基づいて、顔枠１２が設定されている。手候補検出部３０は、乗員の顔１１を誤って手候補として検出しており、その検出結果に基づいて、手候補枠３２が設定されている。図７のように、乗員の頭が丸坊主である場合、手候補検出部３０は、その乗員の顔１１を、少なくとも一部の指が閉じられた状態の手（サムズアップの手など）であると判断し、それを手候補として検出する場合がある。しかし、図７においては、顔枠１２の一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれている。そのため、ステップＳ１１０が実行される。

　図８は、乗員の顔枠１２および手候補枠３２の別の一例を示す図である。図８において、乗員は、車載機器１２０の操作のための手３１のジェスチャを、顔１１の横で行っている。顔検出部１０は、正確に乗員の顔１１を検出しており、その検出結果に基づいて、顔枠１２が設定されている。手候補検出部３０は、乗員の手３１を正確に手候補として検出しており、その検出結果に基づいて、手候補枠３２が設定されている。顔枠１２の一部は手候補枠３２と重なっているものの、顔枠１２の中心１３は手候補枠３２内に含まれていない。そのため、判定部４０は、手候補の情報を棄却することなく、ジェスチャ検出方法は終了する。

　図９は、図８における手候補枠３２が拡大された一例を示す図である。手候補検出部３０は、乗員の手３１を正確に手候補として検出している。ここでは、手３１の中心３３を基準として、縦横２倍に拡大された手候補枠３２が設定されている。顔枠１２の一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれている。そのため、ステップＳ１１０が実行される。

　ステップＳ１１０にて、判定部４０は、手候補の情報を棄却する。例えば、判定部４０は、手候補を手以外の物として識別する。例えば、判定部４０は、手候補の検出結果を手以外の物の検出結果に置き換える。このように、判定部４０は、顔枠１２と手候補枠３２との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。以上で、ジェスチャ検出方法は終了する。

　上記のジェスチャ検出方法において、ジェスチャ検出装置１０１は、顔１１の検出処理および顔枠１２の情報の取得処理を行った後、手候補の検出処理および手候補枠３２の設定処理を行っている。しかし、ジェスチャ検出装置１０１は、手候補の検出処理および手候補枠３２の設定処理の後に、顔１１の検出処理および顔枠１２の情報の取得処理を実行してもよい。または、ジェスチャ検出装置１０１は、手候補の検出処理および手候補枠３２の設定処理を、顔１１の検出処理および顔枠１２の情報の取得処理と並行して実行してもよい。

　次に、一例として、映像を構成する第１フレームと第２フレームとが上記の関係を有する場合の、第２フレームにおけるジェスチャ検出方法を説明する。ここでは、顔検出部１０は、第１フレームにおいて乗員の顔１１の検出に成功し、第１フレームよりも後の第２フレームにおいて乗員の顔１１の検出に失敗している。その第１フレームは、第２フレームから遡って直近で乗員の顔１１が検出されたフレームである。

　ステップＳ１０にて、映像取得部５０は、撮像装置１１０によって撮影された映像の第２フレームを取得する。

　ステップＳ２０にて、顔検出部１０は、第２フレームにおける乗員の顔１１の検出に失敗する。

　ステップＳ３０にて、ジェスチャ検出装置１０１は、乗員の顔１１が検出されていないと判定する。ステップＳ７０が実行される。

　ステップＳ７０にて、顔枠情報取得部２０は、第２フレームが、直近で乗員の顔１１が検出された第１フレームから予め定められたフレーム数以内のフレームであるか否かを判定する。上記のように、第１フレームと第２フレームとは、この条件を満たすため、ステップＳ８０が実行される。

　ステップＳ８０にて、顔枠情報取得部２０は、第１フレームにおける顔枠１２の情報を記憶部６０から取得する。

　ステップＳ９０にて、手候補検出部３０は、第２フレームにおける乗員の手候補を検出する。手候補検出部３０は、その手候補に対して手候補枠３２を設定する。

　ステップＳ１００にて、判定部４０は、第２フレームの顔枠１２の少なくとも一部が第１フレームの手候補枠３２と重なり、かつ、第２フレームの顔枠１２の中心１３が第１フレームの手候補枠３２内に含まれるか否かを判定する。この条件が満たされる場合、ステップＳ１１０が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。

　ステップＳ１１０にて、判定部４０は、第２フレームにおける手候補の情報を棄却する。以上で、ジェスチャ検出方法は終了する。

　以上のように、実施の形態２における予め定められた条件は、顔枠１２の少なくとも一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれることである。

　このようなジェスチャ検出装置１０１は、乗員の手以外の物が手３１として識別されることを低減させる。つまり、ジェスチャ検出装置１０１は、乗員のジェスチャを構成する手３１を正確に検出する。例えば、乗員の頭が丸坊主である場合、手候補検出部３０は、その乗員の頭（または顔１１）を、少なくとも一部の指が閉じられた状態の手３１であると判断し、それを手候補として検出する場合がある（例えば図７）。または例えば、乗員の髪型がスパイキーである場合、手候補検出部３０は、その乗員の顔１１が手のひらであり、髪型が指である手候補として検出する場合がる。そのような場合、顔枠１２と手候補枠３２とは、互いに近い距離で重なりあう。実施の形態２におけるジェスチャ検出装置１０１の判定部４０は、顔枠１２の少なくとも一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれる場合に、手候補の情報を棄却する。そのため、ジェスチャ検出装置１０１は、乗員の顔１１の形状、髪型等によらず、乗員の手３１を正確に検出する。

　顔枠１２と手候補枠３２との重なりに関する予め定められた条件は、上記の条件に限定されるものではない。その条件は、例えば、顔枠１２と手候補枠３２との重なり領域の面積が予め定められた閾値以上であること、であってもよい。または例えば、その条件は、顔枠１２または手候補枠３２の面積に対する重なり領域の面積の比率が、予め定められた閾値以上であること、であってもよい。または例えば、その条件は、顔枠１２内の予め定められた領域に手候補枠３２が重なっていること、であってもよい。その予め定められた領域とは、例えば、撮像装置１１０が設けられている方向とは反対側の領域である。

　実施の形態２におけるジェスチャ検出装置１０１は、記憶部６０を含む。記憶部６０は、映像のフレームごとに検出される顔１１に対してフレームごとに設定される顔枠１２の情報を記憶する。映像の第１フレームにおける乗員の顔１１が検出され、かつ、第１フレームよりも後の第２フレームにおける乗員の顔１１が検出されなかった場合、顔枠情報取得部２０は、第１フレームにおける顔枠１２の情報を記憶部６０から取得する。その第２フレームは、第１フレームから予め定められたフレーム数以内のフレームである。手候補検出部３０は、第２フレームにおける手候補を検出する。判定部４０は、予め定められた条件としての、第１フレームにおける顔枠１２と第２フレームにおける手候補枠３２との重なりに関する条件に基づいて、第２フレームにおける手候補の情報を棄却する。

　顔検出のパターンマッチング処理と手候補検出のパターンマッチング処理とは互いに異なるため、顔検出部１０が乗員の顔１１の検出に失敗した場合であっても、手候補検出部３０が乗員の顔１１、頭等を手候補として誤って検出する場合がある。そのような場合であっても、実施の形態２におけるジェスチャ検出装置１０１は、処理対象のフレームよりも前に顔１１が検出されたフレームにおける顔枠１２と、処理対象のフレームにおける手候補枠３２との重なりを判定する。そのため、ジェスチャ検出装置１０１は、一時的に乗員の顔１１が検出されない状態であっても、乗員の顔１１または頭が手３１として検出されることを防ぐ。その結果、乗員の手３１の検出精度が向上する。

　実施の形態２における第１フレームは、第２フレームから遡って直近で乗員の顔１１が検出されたフレームである。

　一時的に乗員の顔１１が検出されない状態であっても、ジェスチャ検出装置１０１は、直近で検出された顔枠１２と、処理対象のフレームにおける手候補枠３２との重なりを判定する。そのため、ジェスチャ検出装置１０１は、乗員の手３１を正確に検出する。

　＜実施の形態３＞
　実施の形態３におけるジェスチャ検出装置およびジェスチャ検出方法を説明する。実施の形態３は実施の形態１の下位概念であり、実施の形態３におけるジェスチャ検出装置は、実施の形態２におけるジェスチャ検出装置１０１の各構成を含む。なお、実施の形態１または２と同様の構成および動作については説明を省略する。

　顔検出部１０は、映像のフレームごとに、乗員の顔１１を検出する。この際、顔検出部１０は、乗員の顔パーツを検出する。顔検出部１０は、必ずしも全ての顔パーツを検出しなくても、乗員の顔１１を検出できる。例えば、顔検出部１０は、少なくとも２つの目を検出することにより乗員の顔１１を検出する。その場合、鼻および口の検出は必ずしも必要ない。

　顔枠情報取得部２０は、顔検出部１０によって検出される乗員の顔パーツの情報を取得する。

　判定部４０は、以下の２つの条件が満たされる場合、手候補の情報を棄却する。１つの条件は、顔枠１２と手候補枠３２との重なりに関する予め定められた条件が満たされる場合である。実施の形態３におけるその予め定められた条件とは、顔枠１２の少なくとも一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれることである。もう１つの条件は、顔検出部１０によって検出された顔パーツが予め定められた顔パーツの全てを含むことである。予め定められた顔パーツの情報は、例えば、ジェスチャ検出装置に記憶されていてもよいし、外部から入力されたものであってもよい。

　以下、予め定められた顔パーツが２つの目、鼻および口である例を説明する。

　図１０は、処理対象のフレームにおける乗員の顔枠１２および手候補枠３２の一例を示す図である。図１０において、乗員は、顔１１の近くで、車載機器１２０の操作のための手３１のジェスチャを行っている。顔検出部１０は、乗員の顔１１を検出する際、顔パーツとして２つの目および鼻を検出する。口の大部分は手３１の後ろに隠れているため、顔検出部１０は顔パーツとして口を検出しない。手候補検出部３０は、乗員の顔１１の近くの手３１を手候補として検出する。顔枠１２の一部は手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれている。顔検出部１０で検出された顔パーツは、２つの目および鼻のみであり、予め定められた顔パーツとしての２つの目、鼻および口の全てを含んでいるわけではない。言い換えると、顔検出部１０で検出された顔パーツは、予め定められた顔パーツの一部のみを含んでいる。したがって、判定部４０は、手候補の情報を棄却しない。

　図１１は、別の処理対象のフレームにおける乗員の顔枠１２および手候補枠３２の一例を示す図である。図１１において、乗員は、手３１のジェスチャを行っていない。顔検出部１０は、乗員の顔１１を検出する際、顔パーツとして２つの目、鼻および口を検出する。手候補検出部３０は、乗員の顔１１を誤って手候補として検出している。顔枠１２の一部は手候補枠３２と重なり、顔枠１２の中心１３が手候補枠３２内に含まれている。顔検出部１０によって検出された顔パーツは、２つの目、鼻および口であり、予め定めされた顔パーツとしての２つの目、鼻および口の全てを含んでいる。したがって、判定部４０は、手候補の情報を棄却する。

　上記の顔検出部１０、顔枠情報取得部２０および判定部４０の機能は、図２または図３に示される処理回路によって実現される。

　図１２は、実施の形態３におけるジェスチャ検出方法を示すフローチャートである。図６に示されるフローチャートに対し、ステップＳ２０がステップＳ２５に置き換えられ、かつ、ステップＳ１０２およびＳ１０４が追加されている。

　ステップＳ１０は、図６に示されるステップＳ１０と同じである。

　ステップＳ２５にて、顔検出部１０は、乗員の顔パーツおよび顔１１を検出する。

　ステップＳ３０からＳ１００までは、図６に示されるステップＳ３０からＳ１００と同様である。ステップＳ１００において、顔枠１２の一部が手候補枠３２と重なり、かつ、顔枠１２の中心１３が手候補枠３２内に含まれている場合、ステップＳ１０２が実行される。

　ステップＳ１０２にて、顔枠情報取得部２０は、顔検出部１０によって検出される乗員の顔パーツの情報を取得する。

　ステップＳ１０４にて、判定部４０は、顔検出部１０によって検出された顔パーツが予め定められた顔パーツの全てを含むか否かを判定する。検出された顔パーツが予め定められた顔パーツの全てを含む場合、ステップＳ１１０が実行される。検出された顔パーツが予め定められた顔パーツの全てを含むわけではない場合、判定部４０は手候補の情報を棄却せずに、ジェスチャ検出方法は終了する。言い換えると、検出された顔パーツが予め定められた顔パーツの一部のみを含む場合、ジェスチャ検出方法は終了する。

　以上をまとめると、実施の形態３における顔枠情報取得部２０は、映像に基づいて検出される乗員の顔パーツの情報を取得する。判定部４０は、顔枠１２と手候補枠３２との重なりに関する予め定められた条件が満たされ、かつ、映像に基づいて検出された顔パーツが予め定められた顔パーツの全てを含む場合、手候補の情報を棄却する。

　このようなジェスチャ検出装置は、乗員が顔１１の近くで車載機器１２０の操作のための手３１のジェスチャを行った場合であっても、正確に手候補の情報を棄却するか否かを判定する。

　＜実施の形態４＞
　以上の各実施の形態に示されたジェスチャ検出装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、ＰＮＤ（Portable Navigation Device）などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。

　図１３は、実施の形態４におけるジェスチャ検出装置１０１およびそれに関連して動作する装置の構成を示すブロック図である。

　ジェスチャ検出装置１０１および通信装置１３０がサーバ３００に設けられている。ジェスチャ検出装置１０１は、車両１に設けられた撮像装置１１０で撮影された映像を、通信装置１４０および通信装置１３０を介して取得する。ジェスチャ検出装置１０１は、その映像に基づいて検出される乗員の顔枠１２の情報を取得する。ジェスチャ検出装置１０１は、その映像に基づいて手候補を検出し、手候補枠３２を設定する。ジェスチャ検出装置１０１は、乗員の顔枠１２と手候補枠３２との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。ジェスチャ検出装置１０１は、棄却されなかった手候補を、乗員のジェスチャを構成する手３１として識別する。ジェスチャ検出装置１０１によって識別された乗員の手３１によるジェスチャに基づいて、車載機器１２０の操作処理等が実行される。

　このように、ジェスチャ検出装置１０１がサーバ３００に配置されることにより、車両１に設けられる装置の構成が簡素化される。

　また、ジェスチャ検出装置１０１の機能あるいは構成要素の一部がサーバ３００に設けられ、他の一部が車両１に設けられるなど、それらが分散して配置されてもよい。実施の形態１に示されたジェスチャ検出装置１００がサーバ３００に設けられる場合も同様の効果を奏する。

　なお、本開示は、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。

　本開示は詳細に説明されたが、上記の説明は、全ての局面において、例示であり、限定されるものではない。例示されていない無数の変形例が、想定され得る。

　１　車両、１０　顔検出部、１１　顔、１２　顔枠、１３　中心、２０　顔枠情報取得部、３０　手候補検出部、３１　手、３２　手候補枠、３３　中心、４０　判定部、５０　映像取得部、６０　記憶部、１００　ジェスチャ検出装置、１０１　ジェスチャ検出装置、１１０　撮像装置、１２０　車載機器。

Claims

　車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する顔枠情報取得部と、
　前記映像に基づいて、前記乗員の手の候補である手候補を検出する手候補検出部と、
　前記映像における前記顔枠と前記手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、前記手候補が検出対象である前記乗員のジェスチャにおける前記乗員の前記手として検出されないように、前記手候補の情報を棄却する判定部と、を備える、ジェスチャ検出装置。
　前記映像のフレームごとに検出される前記顔に対して前記フレームごとに設定される前記顔枠の前記情報を記憶する記憶部をさらに備え、
　前記映像の第１フレームにおける前記乗員の前記顔が検出され、かつ、前記第１フレームから予め定められたフレーム数以内の第２フレームであって前記第１フレームよりも後の前記第２フレームにおける前記乗員の前記顔が検出されなかった場合、
　前記顔枠情報取得部は、前記第１フレームにおける前記顔枠の前記情報を前記記憶部から取得し、
　前記手候補検出部は、前記第２フレームにおける前記手候補を検出し、
　前記判定部は、前記予め定められた条件としての、前記第１フレームにおける前記顔枠と前記第２フレームにおける前記手候補枠との重なりに関する条件に基づいて、前記第２フレームにおける前記手候補の前記情報を棄却する、請求項１に記載のジェスチャ検出装置。
　前記第１フレームは、前記第２フレームから遡って直近で前記乗員の前記顔が検出されたフレームである、請求項２に記載のジェスチャ検出装置。
　前記顔枠情報取得部は、前記映像に基づいて検出される前記乗員の顔パーツの情報をさらに取得し、
　前記判定部は、前記顔枠と前記手候補枠との重なりに関する前記予め定められた条件が満たされ、かつ、前記映像に基づいて検出された前記顔パーツが予め定められた顔パーツの全てを含む場合、前記手候補の前記情報を棄却する、請求項１に記載のジェスチャ検出装置。
　前記予め定められた条件は、
　前記顔枠の少なくとも一部が前記手候補枠と重なり、かつ、前記顔枠の中心が前記手候補枠内に含まれることである、請求項１に記載のジェスチャ検出装置。
　車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得し、
　前記映像に基づいて、前記乗員の手の候補である手候補を検出し、
　前記映像における前記顔枠と前記手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、前記手候補が検出対象である前記乗員のジェスチャにおける前記乗員の前記手として検出されないように、前記手候補の情報を棄却する、ジェスチャ検出方法。