WO2021140543A1

WO2021140543A1 - ジェスチャ検出装置およびジェスチャ検出方法

Info

Publication number: WO2021140543A1
Application number: PCT/JP2020/000070
Authority: WO
Inventors: 真之大坪
Original assignee: 三菱電機株式会社
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-07-15
Also published as: JP7072737B2; JPWO2021140543A1

Abstract

本発明は、ジェスチャの誤認識を低減することが可能なジェスチャ検出装置およびジェスチャ検出方法に関する。本発明によるジェスチャ検出装置は、車両内の乗員を撮影した映像を取得する映像取得部と、映像取得部が取得した映像に基づいて乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、ジェスチャをしたときの乗員の手の深度情報を取得する深度情報取得部と、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行う判定部とを備える。

Description

ジェスチャ検出装置およびジェスチャ検出方法

　本発明は、車載装置を操作するジェスチャを検出するジェスチャ検出装置およびジェスチャ検出方法に関する。

　従来、車載装置に指示を与えるための操作画面に対してなされる乗員の動きを検出する動き検出システムが開示されている（例えば、特許文献１参照）。

特開２０１７－２１１８８４号公報

　特許文献１に開示されている動き検出システムでは、後部座席の乗員が車載装置を操作するために手でジェスチャを行っている最中に、後部座席の乗員のジェスチャを遮るように運転者または助手席の乗員が手を出すと、後部座席の乗員のジェスチャを誤認識する可能性がある。ここで、「後部座席の乗員のジェスチャを遮るように運転者または助手席の乗員が手を出す」とは、操作画面と後部座席の乗員の手とを結ぶ直線上であり、かつ操作画面と後部座席の乗員の手との間に運転者または助手席の乗員が手を出すことをいう。

　例えば、後部座席の乗員が手を横方向に動かすジェスチャを行っている最中に、後部座席の乗員の手を遮るように助手席の乗員が手を出した場合、動き検出システムは、後部座席の乗員が手を前方に動かすジェスチャを行っていると誤認識する可能性がある。

　このように、従来では、ジェスチャを誤認識する場合があり改善の余地があった。

　本発明は、このような問題を解決するためになされたものであり、ジェスチャの誤認識を低減することが可能なジェスチャ検出装置およびジェスチャ検出方法に関する。

　上記の課題を解決するために、本発明によるジェスチャ検出装置は、車両内の乗員を撮影した映像を取得する映像取得部と、映像取得部が取得した映像に基づいて乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、ジェスチャをしたときの乗員の手の深度情報を取得する深度情報取得部と、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行う判定部とを備える。

　本発明によると、ジェスチャ検出装置は、深度情報取得部が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部が検出したジェスチャを棄却する判定を行うため、ジェスチャの誤認識を低減することが可能となる。

　本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

本発明の実施の形態１によるジェスチャ検出装置の構成の一例を示すブロック図である。本発明の実施の形態１によるジェスチャ検出装置の構成の一例を示すブロック図である。本発明の実施の形態１によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態１によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態１によるジェスチャ検出装置の動作の一例を示すフローチャートである。本発明の実施の形態２によるジェスチャ検出装置の構成の一例を示すブロック図である。本発明の実施の形態２によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態２によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態２によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態２によるジェスチャ検出装置の動作を説明するための図である。本発明の実施の形態２によるジェスチャ検出装置の動作の一例を示すフローチャートである。本発明の実施の形態３によるジェスチャ検出装置の構成の一例を示すブロック図である。本発明の実施の形態３によるジェスチャ検出装置の動作の一例を示すフローチャートである。本発明の実施の形態によるジェスチャ検出装置のハードウェア構成の一例を示すブロック図である。本発明の実施の形態によるジェスチャ検出装置のハードウェア構成の一例を示すブロック図である。本発明の実施の形態によるジェスチャ検出システムの構成の一例を示すブロック図である。

　本発明の実施の形態について、図面に基づいて以下に説明する。

　＜実施の形態１＞
　＜構成＞
　図１は、本実施の形態１によるジェスチャ検出装置１の構成の一例を示すブロック図である。なお、図１では、本実施の形態１によるジェスチャ検出装置を構成する必要最小限の構成を示している。また、ジェスチャ検出装置１は、車両内に搭載されているものとする。以下で説明するジェスチャとは、操作対象である車載装置に触れることなく、車載装置に対する操作を乗員の手の動きで表現することをいう。

　図１に示すように、ジェスチャ検出装置１は、映像取得部２と、ジェスチャ検出部３と、深度情報取得部４と、判定部５とを備えている。

　映像取得部２は、車両内の乗員を撮影した映像を取得する。ジェスチャ検出部３は、映像取得部２が取得した映像に基づいて乗員の手の動きをジェスチャとして検出する。深度情報取得部４は、ジェスチャをしたときの乗員の手の深度情報を取得する。判定部５は、深度情報取得部４が取得した深度情報の変化量が予め定められた閾値以上であるとき、ジェスチャ検出部３が検出したジェスチャを棄却する判定を行う。

　次に、図１に示すジェスチャ検出装置１を含むジェスチャ検出装置の他の構成について説明する。

　図２は、他の構成に係るジェスチャ検出装置６の構成の一例を示すブロック図である。なお、ジェスチャ検出装置６は、車両内に搭載されているものとする。

　図２に示すように、ジェスチャ検出装置６は、映像取得部２と、ジェスチャ検出部３と、深度情報取得部４と、判定部５と、位置算出部７と、変化量算出部８と、出力部９とを備えている。映像取得部２は撮影装置１０に接続され、深度情報取得部４は深度センサ１１に接続され、出力部９は車載装置１２に接続されている。撮影装置１０、深度センサ１１、および車載装置１２は、車両内に搭載されている。

　映像取得部２は、撮影装置１０が撮影した車両内の乗員の映像を取得する。また、映像取得部２は、取得した映像をジェスチャ検出部３および位置算出部７に出力する。撮影装置１０は、運転席、助手席、および後部座席のそれぞれに着座した乗員を撮影することが可能な広角カメラで構成されている。撮影装置１０は、撮影した車両内の乗員の映像を映像取得部２に出力する。

　深度情報取得部４は、深度センサ１１から深度情報を取得する。また、深度情報取得部４は、取得した深度情報を位置算出部７に出力する。深度センサ１１は、当該深度センサ１１と、ジェスチャを行っている乗員の手との距離を測定し、測定した距離を深度情報として深度情報取得部４に出力する。

　位置算出部７は、映像取得部２が取得した映像と、深度情報取得部４が取得した深度情報とに基づいて、映像のフレームごとに、３次元空間における乗員の手の位置を３次元座標として算出する。ここで、３次元座標とは、例えば、ｘ軸、ｙ軸、およびｚ軸で表される座標系における１点をいう。位置算出部７は、算出した乗員の手の３次元座標を映像のフレームに対応付けて、ジェスチャ検出部３および変化量算出部８に出力する。

　なお、位置算出部７は、乗員の手における予め定められた１点の３次元座標を算出してもよく、複数点の３次元座標を算出してもよい。

　撮影装置１０が撮影した乗員の手の位置と、深度センサ１１が測定した深度センサ１１に対する手の位置とは、撮影装置１０および深度センサ１１の位置関係に応じた誤差が生じる。従って、位置算出部７は、各位置が同一の基準で表されるように補正する。例えば、位置算出部７は、深度センサ１１の位置を基準として、撮影装置１０が撮影した乗員の手の位置を補正してもよい。

　本実施の形態１では、位置算出部７が、映像取得部２が取得した映像と、深度情報取得部４が取得した深度情報とに基づいて乗員の手の位置を３次元座標として算出することについて説明したが、これに限るものではない。乗員の手の位置を示す３次元座標は、周知の技術を用いて算出してもよい。

　位置算出部７は、現フレームについて算出した３次元座標に基づいて、映像の次フレームでジェスチャを検出する３次元空間である有効空間を設定してもよい。ここで、次フレームとは、現フレームの１つ後のフレームのことをいう。この場合、次フレームにおいて位置算出部７が算出した３次元座標が有効空間外に存在するとき、判定部５はジェスチャを棄却するなどの判定をすることができる。

　変化量算出部８は、位置算出部７が算出した現フレームにおける乗員の手の３次元座標と、前フレームにおける乗員の手の３次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部８は、算出した変化量を判定部５に出力する。ここで、前フレームとは、現フレームの１つ前のフレームのことをいう。また、乗員の手の位置の変化量は、乗員の手の位置が前後方向および左右方向に変化した時の移動量であり、上記で説明した深度情報の変化量に相当する。

　なお、変化量算出部８は、前フレームにおける乗員の手の３次元座標を保持しているものとする。そして、変化量算出部８は、変化量を算出した後、前フレームにおける乗員の手の３次元座標を現フレームにおける乗員の手の３次元座標に更新する。更新された現フレームにおける乗員の手の３次元座標は、次フレームで変化量算出部８が変化量を算出するときに前フレームにおける乗員の手の３次元座標として用いられる。

　ジェスチャ検出部３は、映像取得部２が取得した映像と、位置算出部７が算出した乗員の手の３次元座標とに基づいて、乗員の手の動きをジェスチャとして検出する。そして、ジェスチャ検出部３は、検出したジェスチャが予め登録したジェスチャと一致したとき、車載装置１２に対するジェスチャとして認識する。

　なお、乗員の手の位置の変化は、位置算出部７が算出した乗員の手の３次元座標の経時変化から把握することができる。また、乗員の手の形状は、映像取得部２が取得した映像から把握することができる。ジェスチャ検出部３は、乗員の手の位置の変化、および乗員の手の形状に基づいてジェスチャを検出することができる。

　判定部５は、変化量算出部８が算出した変化量が予め定められた閾値以上であるとき、ジェスチャ検出部３が検出したジェスチャを棄却する判定を行う。そして、判定部５は、判定した結果を出力部９に出力する。ここで、ジェスチャを棄却するとは、以後のジェスチャの検出を行わないことをいう。

　例えば、図３に示すように、第ｎフレームのときに後部座席の乗員が自身の手１３を横に動かすジェスチャを行っている場合を想定する。この場合、図４に示す第（ｎ＋１）フレームのときに、後部座席の乗員の手１３を遮るように助手席の乗員の手１４が出てくると、深度センサ１１は手１４との距離を測定し、位置算出部７は手１４の３次元位置を算出する。従って、ジェスチャ検出部３は、本来は横方向に動いている手１３が前方に動いたと誤って検出する。また、変化量算出部８が算出した変化量は大きくなって予め定められた閾値以上となる。このような場合、判定部５は、ジェスチャ検出部３が検出したジェスチャは誤っていると判定し、当該ジェスチャを棄却する。

　また、判定部５は、ジェスチャ検出部３が車載装置１２に対するジェスチャとして認識したとき、ジェスチャ検出部３がジェスチャを認識したと判定する。そして、判定部５は、判定した結果を出力部９に出力する。

　上記で説明した判定部５によるジェスチャの棄却の判定で用いた閾値は、固定値でなくてもよい。例えば、乗員の手の３次元座標の変化量から微分値を算出し、当該微分値の変化量から動的に閾値を設定してもよい。

　出力部９は、判定部５が判定した結果を車載装置１２に出力する。例えば、出力部９は、ジェスチャが棄却されたことを車載装置１２に出力する。この場合、車載装置１２は、ジェスチャが棄却されたことを表示、音声、またはそれらの両方で操作者に通知する。

　また、例えば、出力部９は、ジェスチャを認識したことを車載装置１２に出力する。この場合、車載装置１２は、ジェスチャに対応する機能を実行する。

　車載装置１２は、自車両内の乗員が操作可能な装置であり、例えば、ナビゲーション装置、空調装置、またはオーディオ装置などが挙げられる。

　＜動作＞
　図５は、ジェスチャ検出装置６の動作の一例を示すフローチャートである。なお、ステップＳ１０１～ステップＳ１０６，ステップＳ１０８の処理は、映像取得部２が取得した映像の１フレームごとに行われる。

　ステップＳ１０１において、映像取得部２は、撮影装置１０が撮影した車両内の乗員の映像を取得する。

　ステップＳ１０２において、深度情報取得部４は、深度センサ１１から深度情報を取得する。

　ステップＳ１０３において、位置算出部７は、映像取得部２が取得した映像と、深度情報取得部４が取得した深度情報とに基づいて、映像のフレームごとに、３次元空間における乗員の手の位置を３次元座標として算出する。

　ステップＳ１０４において、ジェスチャ検出部３は、映像取得部２が取得した映像と、位置算出部７が算出した乗員の手の３次元座標とに基づいて、乗員の手の動きをジェスチャとして検出する。

　ステップＳ１０５において、変化量算出部８は、位置算出部７が算出した現フレームにおける乗員の手の３次元座標と、前フレームにおける乗員の手の３次元座標との差分を、乗員の手の位置の変化量として算出する。

　ステップＳ１０６において、判定部５は、変化量算出部８が算出した変化量が予め定められた閾値α以上であるか否かを判断する。変化量算出部８が算出した変化量が予め定められた閾値α以上である場合は、ステップＳ１０７に移行する。一方、変化量算出部８が算出した変化量が予め定められた閾値α以上でない場合は、ステップＳ１０８に移行する。

　ステップＳ１０７において、判定部５は、ジェスチャ検出部３が検出したジェスチャを棄却する判定を行う。

　ステップＳ１０８において、ジェスチャ検出部３は、ジェスチャを認識したか否かを判断する。具体的には、例えば、ジェスチャ検出部３は、検出したジェスチャの開始から終了までの一連の動きが、予め登録したジェスチャの開始から終了までの一連の動きと同じであるとき、検出したジェスチャが予め登録したジェスチャと一致したと判断する。または、ジェスチャ検出部３は、検出したジェスチャの開始から途中までの動きが、予め登録したジェスチャの開始から途中までの動きと同じであるとき、検出したジェスチャが予め登録したジェスチャと一致したと判断する。そして、ジェスチャ検出部３は、検出したジェスチャが予め登録したジェスチャと一致したとき、車載装置１２に対するジェスチャとして認識する。ジェスチャを認識した場合は、ステップＳ１０９に移行する。一方、ジェスチャを認識していない場合は、ステップＳ１０１に戻る。

　ステップＳ１０９において、判定部５は、ジェスチャ検出部３がジェスチャを認識したと判定する。

　ステップＳ１１０において、出力部９は、判定部５が判定した結果を出力する。具体的には、ステップＳ１０７において判定部５がジェスチャを破棄する判定を行ったとき、出力部９は、ジェスチャが棄却されたことを車載装置１２に出力する。また、ステップＳ１０９においてジェスチャを認識したと判定部５が判定したとき、出力部９は、ジェスチャが認識されたことを車載装置１２に出力する。

　＜効果＞
　本実施の形態１によれば、変化量算出部８はジェスチャを行っている乗員の手の位置の変化量を算出し、判定部５は変化量が予め定められた閾値以上であるときにジェスチャを棄却する判定を行う。これにより、ジェスチャの誤認識を低減することが可能となる。例えば、後部座席の乗員が手を横方向に動かすジェスチャを行っている最中に、後部座席の乗員の手を遮るように助手席の乗員が手を出した場合、従来ではジェスチャを誤認識することがあったが、本実施の形態１によれば当該ジェスチャを棄却するため誤認識することを防ぐことができる。

　＜実施の形態２＞
　＜構成＞
　図６は、本実施の形態２によるジェスチャ検出装置１５の構成の一例を示すブロック図である。

　図６に示すように、ジェスチャ検出装置１５は、補完部１６およびジェスチャログ記憶部１７を備えることを特徴としている。その他の構成は、実施の形態１で説明した図２に示すジェスチャ検出装置６と同様であるため、ここでは詳細な説明を省略する。

　ジェスチャログ記憶部１７は、位置算出部７が算出した乗員の手の３次元座標を、映像の各フレームに対応付けてジェスチャログとして記憶する。具体的には、ジェスチャログ記憶部１７は、ジェスチャの開始から終了までの間、位置算出部７が算出した乗員の手の３次元座標を映像の各フレームに対応付けて記憶する。

　変化量算出部８は、ジェスチャログ記憶部１７に記憶されているジェスチャログに基づいて、現フレームに対応する乗員の手の３次元座標と、前フレームに対応する乗員の手の３次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部８は、後述する補完部１６が前フレームに対応する３次元座標を補完したとき、現フレームに対応する３次元座標と、補完部１６が補完した前フレームに対応する３次元座標との差分を、乗員の手の位置の変化量として算出する。

　判定部５は、変化量算出部８が算出した変化量が予め定められた閾値以上であるとき、現フレームに対応する３次元座標をジェスチャログ記憶部１７から削除する。

　補完部１６は、前フレームに対応する３次元座標がジェスチャログ記憶部１７から削除されているとき、現フレームに対応する３次元座標と前フレームの１つ前のフレームに対応する３次元座標とに基づいて、前フレームに対応する３次元座標を補完する。

　ここで、補完部１６が行う補完について図７～１０を用いて説明する。

　図７～１０は、後部座席の乗員が自身の手１８を「Ｚ」を描くように動かすジェスチャを行う場合を示している。なお、図７～１０は、連続する４つのフレームを示しているものとする。

　例えば、図８に示すように、後部座席の乗員の手１８を遮るように助手席の乗員の手１９が出てくると、ジェスチャ検出部３は手１３が前方に動いたと誤って検出する。このとき、判定部５は、位置算出部７が算出してジェスチャログ記憶部１７に記憶された手１９の３次元座標を、ジェスチャログ記憶部１７から削除する。従って、ジェスチャログ記憶部１７には、図８に示すフレームに対応する３次元座標が記憶されない。

　その後、図９に示すフレームのとき、補完部１６は、図９に示す現フレームに対応する３次元座標と、前フレームの１つ前のフレーム（図７に示すフレーム）に対応する３次元座標とに基づいて、前フレーム（図８に示すフレーム）に対応する３次元座標を補完する。なお、図９に示す破線矢印および「×」印は、図８に示すフレームに対応する３次元座標がジェスチャログ記憶部１７から削除されていることを示している。

　なお、補完部１６は、線形的に補完してもよく、各フレームに対応する３次元座標の軌跡のベクトルを算出し、当該算出したベクトルの内挿などから補完してもよい。

　図７～１０に示す例において、判定部５は、図７に示すフレームに対応する３次元座標に基づいて補完有効空間を設定してもよい。この場合、補完部１６は、図８に示す乗員の手１９が補完有効空間内に存在するときは図８に示すフレームに対応する３次元座標を補完し、図８に示す乗員の手１９が補完有効空間内に存在しないときは図８に示すフレームに対応する３次元座標を補完しないようにしてもよい。また、図８に示す乗員の手１９が補完有効空間内に存在しないとき、ジェスチャ検出部３は、当該乗員の手１９の動きを新たなジェスチャとして検出してもよい。補完有効空間は、実施の形態１で説明した有効空間と同一の空間であってもよい。

　判定部５は、予め定められたフレーム数に対応する複数の３次元座標を連続してジェスチャログ記憶部１７から削除したとき、ジェスチャ検出部３が検出したジェスチャを棄却する判定を行ってもよい。

　＜動作＞
　図１１は、ジェスチャ検出装置１５の動作の一例を示すフローチャートである。なお、図１１のステップＳ２０１～ステップＳ２０４，ステップＳ２１２，ステップＳ２１５は、図５のステップＳ１０１～ステップＳ１０４，ステップＳ１０８，ステップＳ１１０に対応しているため、ここでは説明を省略する。以下では、ステップＳ２０５～ステップＳ２１１，ステップＳ２１３，ステップＳ２１４について説明する。ステップＳ２０１～ステップＳ２１２の処理は、映像取得部２が取得した映像の１フレームごとに行われる。

　ステップＳ２０５において、判定部５は、ジェスチャログ記憶部１７を参照して、前フレームに対応する３次元座標が削除されているか否かを判断する。前フレームに対応する３次元座標が削除されている場合は、ステップＳ２０６に移行する。一方、前フレームに対応する３次元座標が削除されていない場合は、ステップＳ２０８に移行する。

　ステップＳ２０６において、判定部５は、ジェスチャログ記憶部１７から連続して削除した複数の３次元座標に対応するフレーム数が閾値以下であり、かつ乗員の手の位置が補完有効空間内にあるか否かを判断する。ジェスチャログ記憶部１７から連続して削除した複数の３次元座標に対応するフレーム数が閾値以下であり、かつ乗員の手の位置が補完有効空間内にある場合は、ステップＳ２０７に移行する。ジェスチャログ記憶部１７から連続して削除した複数の３次元座標に対応するフレーム数が閾値を超える場合、または乗員の手の位置が補完有効空間外にある場合は、ステップＳ２１４に移行する。

　ステップＳ２０７において、補完部１６は、現フレームに対応する３次元座標と前フレームの１つ前のフレームに対応する３次元座標とに基づいて、前フレームに対応する３次元座標を補完する。

　ステップＳ２０８において、変化量算出部８は、補完部１６が補完を行った場合、現フレームに対応する３次元座標と、補完部１６が補完した前フレームに対応する３次元座標との差分を、乗員の手の位置の変化量として算出する。また、変化量算出部８は、補完部１６が補完を行っていない場合、現フレームに対応する３次元座標と、前フレームに対応する３次元座標との差分を、乗員の手の位置の変化量として算出する。

　ステップＳ２０９において、位置算出部７は、算出した現フレームに対応する３次元座標をジェスチャログ記憶部１７に記憶する。また、補完部１６は、前フレームに対応する３次元座標を補完したとき、当該補完した３次元座標をジェスチャログ記憶部１７に記憶する。

　ステップＳ２１０において、判定部５は、変化量算出部８が算出した変化量が予め定められた閾値α以上であるか否かを判断する。変化量算出部８が算出した変化量が予め定められた閾値α以上である場合は、ステップＳ２１１に移行する。一方、変化量算出部８が算出した変化量が予め定められた閾値α以上でない場合は、ステップＳ２１２に移行する。

　ステップＳ２１１において、判定部５は、現フレームに対応する３次元座標をジェスチャログ記憶部１７から削除する。

　ステップＳ２１３において、判定部５は、ジェスチャ検出部３がジェスチャを認識したと判定する。

　ステップＳ２１４において、判定部５は、ジェスチャ検出部３が検出したジェスチャを棄却する判定を行う。

　＜効果＞
　本実施の形態２によれば、判定部５は、変化量算出部８が算出した変化量が予め定められた閾値以上であるときのフレームに対応する３次元座標をジェスチャログ記憶部１７から削除する。そして、補完部１６は、削除したフレームに対応する３次元座標を補完する。これにより、ジェスチャの誤認識を低減し、ユーザが意図したジェスチャを認識することができる。

　＜実施の形態３＞
　＜構成＞
　図１２は、本実施の形態３によるジェスチャ検出装置２０の構成の一例を示すブロック図である。

　図１２に示すように、ジェスチャ検出装置２０は、補正部２１を備えることを特徴としている。その他の構成は、実施の形態１で説明した図２に示すジェスチャ検出装置６と同様であるため、ここでは詳細な説明を省略する。

　補正部２１は、映像取得部２が取得した映像と、位置算出部が算出した３次元座標と、変化量算出部が算出した変化量とに基づいて、変化量算出部８が算出した変化量に対して予め定められた補正を行う。

　例えば、車体の揺れなどによって乗員の手がぶれてしまい、変化量算出部８が乗員の手の変化量を正確に算出することができないことが考えられる。このような問題を解決するために、補正部２１は、変化量算出部８が算出した変化量に対して補正を行う。具体的には、補正部２１は、変化量算出部８が算出した変化量に対して、ぶれを抑制する補正を行う。

　運転者または助手席の乗員が行うジェスチャと、後部座席の乗員が行うジェスチャとでは、撮影装置１０に映るジェスチャのスケールが異なるため、車体の揺れなどに起因する乗員の手のぶれは、後部座席の乗員よりも運転者または助手席の乗員の方が大きくなる。従って、補正部２１は、映像取得部２が取得した映像から得られる乗員の手のスケールと、位置算出部７が算出した３次元座標とに基づいて、後部座席の乗員の手の３次元座標の変化量を抑制する抑制値が小さくなる重みを算出し、運転者または助手席の乗員の手の３次元座標の変化量を抑制する抑制値が大きくなる重みを算出する。そして、補正部２１は、算出した重みを変化量算出部８が算出した変化量に乗算することによって、変化量算出部８が算出した変化量を補正する。

　＜動作＞
　図１３は、ジェスチャ検出装置２０の動作の一例を示すフローチャートである。なお、図１３のステップＳ３０１～ステップＳ３０５は図５のステップＳ１０１～ステップＳ１０５に対応し、図１３のステップＳ３０７～ステップＳ３１１は図５のステップＳ１０６～ステップＳ１１０に対応しているため、ここでは説明を省略する。以下では、ステップＳ３０６について説明する。ステップＳ３０１～ステップＳ３０７，ステップＳ３０９の処理は、映像取得部２が取得した映像の１フレームごとに行われる。

　ステップＳ３０６において、補正部２１は、映像取得部２が取得した映像と、位置算出部が算出した３次元座標と、変化量算出部が算出した変化量とに基づいて、変化量算出部が算出した変化量に対して予め定められた補正を行う。

　＜効果＞
　本実施の形態３によれば、補正部２１は、車体の揺れなどを考慮して変化量算出部８が算出した変化量を補正する。判定部５は、補正部２１が補正した変化量に基づいてジェスチャを棄却するか否かを判定する。これにより、ジェスチャの誤認識を低減することができる。

　なお、本実施の形態３では、実施の形態１で説明した図２に示すジェスチャ検出装置６に補正部２１を追加する場合について説明したが、これに限るものではない。例えば、実施の形態２で説明した図６に示すジェスチャ検出装置１５に補正部２１を追加した場合であっても、本実施の形態３と同様の効果が得られる。

　＜ハードウェア構成＞
　各実施の形態１，２，３で説明したジェスチャ検出装置１，６，１５，２０における映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、出力部９、補完部１６、および補正部２１の各機能は、処理回路により実現される。すなわち、ジェスチャ検出装置１，６，１５，２０は、車両内の乗員の映像を取得し、乗員の手の動きをジェスチャとして検出し、深度情報を取得し、算出した変化量が予め定められた閾値以上であるとき検出したジェスチャを棄却する判定を行い、３次元空間における乗員の手の位置を３次元座標として算出し、乗員の手の位置の変化量を算出し、判定部５が判定した結果を出力し、削除された前フレームに対応する３次元座標を補完し、変化量に対して予め定められた補正を行うための処理回路を備える。処理回路は、専用のハードウェアであってもよく、メモリに格納されるプログラムを実行するプロセッサ（ＣＰＵ（Central Processing Unit）、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）ともいう）であってもよい。

　処理回路が専用のハードウェアである場合、図１４に示すように、処理回路２２は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、またはこれらを組み合わせたものが該当する。映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、出力部９、補完部１６、および補正部２１の各機能をそれぞれ処理回路２２で実現してもよく、各機能をまとめて１つの処理回路２２で表現してもよい。

　処理回路２２が図１５に示すプロセッサ２３である場合、映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、出力部９、補完部１６、および補正部２１の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ２４に格納される。プロセッサ２３は、メモリ２４に記録されたプログラムを読み出して実行することにより、各機能を実現する。すなわち、ジェスチャ検出装置１，６，１５，２０は、車両内の乗員の映像を取得するステップ、乗員の手の動きをジェスチャとして検出するステップ、深度情報を取得するステップ、算出した変化量が予め定められた閾値以上であるとき検出したジェスチャを棄却する判定を行うステップ、３次元空間における乗員の手の位置を３次元座標として算出するステップ、乗員の手の位置の変化量を算出するステップ、判定部５が判定した結果を出力するステップ、削除された前フレームに対応する３次元座標を補完するステップ、変化量に対して予め定められた補正を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ２４を備える。また、これらのプログラムは、映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、出力部９、補完部１６、および補正部２１の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ＤＶＤ（Digital Versatile Disc）等、または、今後使用されるあらゆる記憶媒体であってもよい。

　なお、映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、出力部９、補完部１６、および補正部２１の各機能について、一部の機能を専用のハードウェアで実現し、他の機能をソフトウェアまたはファームウェアで実現するようにしてもよい。

　このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。

　＜システム構成＞
　以上で説明したジェスチャ検出装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なＰＮＤ（Portable Navigation Device）、および車両の外部に設けられたサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、ジェスチャ検出装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。

　具体的には、一例として、ジェスチャ検出装置の機能をサーバに配置することができる。例えば、図１６に示すように、車両には撮影装置１０、深度センサ１１、および車載装置１２を備える。また、サーバ２５には、映像取得部２、ジェスチャ検出部３、深度情報取得部４、判定部５、位置算出部７、変化量算出部８、および出力部９を備える。このような構成とすることによって、ジェスチャ検出システムを構築することができる。

　このように、ジェスチャ検出装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。

　また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現されるジェスチャ検出方法は、車両内の乗員を撮影した映像を取得し、取得した映像に基づいて乗員の手の動きをジェスチャとして検出し、ジェスチャをしたときの乗員の手の深度情報を取得し、取得した深度情報の変化量が予め定められた閾値以上であるとき、検出したジェスチャを棄却する判定を行うことを含む。

　このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。

　なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

　本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

　１　ジェスチャ検出装置、２　映像取得部、３　ジェスチャ検出部、４　深度情報取得部、５　判定部、６　ジェスチャ検出装置、７　位置算出部、８　変化量算出部、９　出力部、１０　撮影装置、１１　深度センサ、１２　車載装置、１３，１４　手、１５　ジェスチャ検出装置、１６　補完部、１７　ジェスチャログ記憶部、１８，１９　手、２０　ジェスチャ検出装置、２１　補正部、２２　処理回路、２３　プロセッサ、２４　メモリ、２５　サーバ。

Claims

　車両内の乗員を撮影した映像を取得する映像取得部と、
　映像取得部が取得した前記映像に基づいて前記乗員の手の動きをジェスチャとして検出するジェスチャ検出部と、
　前記ジェスチャをしたときの前記乗員の手の深度情報を取得する深度情報取得部と、
　前記深度情報取得部が取得した前記深度情報の変化量が予め定められた閾値以上であるとき、前記ジェスチャ検出部が検出した前記ジェスチャを棄却する判定を行う判定部と、
を備える、ジェスチャ検出装置。
　前記映像取得部が取得した前記映像と、前記深度情報取得部が取得した前記深度情報とに基づいて、前記映像のフレームごとに、３次元空間における前記乗員の手の位置を３次元座標として算出する位置算出部と、
　前記位置算出部が算出した前記映像の現フレームにおける前記３次元座標と、前記現フレームの１つ前のフレームである前フレームにおける前記３次元座標との差分を前記変化量として算出する変化量算出部と、
をさらに備える、請求項１に記載のジェスチャ検出装置。
　前記位置算出部が算出した前記３次元座標を前記映像の各フレームに対応付けてジェスチャログとして記憶するジェスチャログ記憶部をさらに備え、
　前記判定部は、前記変化量が前記予め定められた閾値以上であるとき、前記現フレームに対応する前記３次元座標を前記ジェスチャログ記憶部から削除する、請求項２に記載のジェスチャ検出装置。
　前記前フレームに対応する前記３次元座標が前記ジェスチャログ記憶部から削除されているとき、前記現フレームに対応する前記３次元座標と前記前フレームの１つ前のフレームに対応する前記３次元座標とに基づいて、前記前フレームに対応する前記３次元座標を補完する補完部をさらに備え、
　前記変化量算出部は、前記現フレームに対応する前記３次元座標と、前記補完部が補完した前記３次元座標との差分を前記変化量として算出する、請求項３に記載のジェスチャ検出装置。
　前記ジェスチャログ記憶部は、前記補完部が補完した前記前フレームに対応する前記３次元座標を記憶する、請求項４に記載のジェスチャ検出装置。
　前記映像取得部が取得した前記映像と、前記位置算出部が算出した前記３次元座標と、前記変化量算出部が算出した前記変化量とに基づいて、前記変化量に対して予め定められた補正を行う補正部をさらに備える、請求項２に記載のジェスチャ検出装置。
　前記判定部が判定した結果を出力する出力部をさらに備える、請求項１に記載のジェスチャ検出装置。
　車両内の乗員を撮影した映像を取得し、
　取得した前記映像に基づいて前記乗員の手の動きをジェスチャとして検出し、
　前記ジェスチャをしたときの前記乗員の手の深度情報を取得し、
　取得した前記深度情報の変化量が予め定められた閾値以上であるとき、検出した前記ジェスチャを棄却する判定を行う、ジェスチャ検出方法。