WO2018087987A1

WO2018087987A1 - 撮像装置、撮像方法、およびプログラム

Info

Publication number: WO2018087987A1
Application number: PCT/JP2017/030519
Authority: WO
Inventors: 山本　智昭
Original assignee: シャープ株式会社
Priority date: 2016-11-10
Filing date: 2017-08-25
Publication date: 2018-05-17

Abstract

撮像装置は、撮像部と、音、音声、および光の少なくとも１つを刺激として出力する刺激部と、所定の対象に異常を通知する通知部と、制御部とを備え、前記制御部は、前記撮像部が撮像した第１の映像に基づいて前記刺激部に第１の刺激を出力させ、前記刺激部が前記第１の刺激を出力した後に前記撮像部が撮像した第２の映像に基づいて前記通知部に異常を通知させる。

Description

撮像装置、撮像方法、およびプログラム

　本発明のいくつかの態様は、撮像装置、撮像方法、およびプログラムに関する。
　本願は、２０１６年１１月１０日に日本に出願された特願２０１６－２１９６０１号について優先権を主張し、その内容をここに援用する。

　不正行為の発見または予防のため、店等の施設において監視カメラが設置されている。
特許文献１には、監視カメラが取得した人物の顔画像と、予めデータベースに記憶された顔画像とを照合し、両者が一致した場合に外部に通知を行う監視システムが開示されている。

特開２００７－３０６４８５号公報

　しかし、従来技術では、監視カメラに写る人物の向きや姿勢によっては、人物の顔を監視カメラが撮影できないため、不審者を検出できない場合がある、という問題がある。

　本発明のいくつかの態様は、不審者検出の機会を増加させることができる撮像装置、撮像方法、およびプログラムを提供することを目的とする。

　本発明の一態様は、撮像部と、音、音声、および光の少なくとも１つを刺激として出力する刺激部と、所定の対象に異常を通知する通知部と、制御部とを備え、前記制御部は、前記撮像部が撮像した第１の映像に基づいて前記刺激部に第１の刺激を出力させ、前記刺激部が前記第１の刺激を出力した後に前記撮像部が撮像した第２の映像に基づいて前記通知部に異常を通知させる、撮像装置である。

　本発明の一態様による撮像装置において、前記制御部は、前記第２の映像から第１の顔画像を抽出し、前記第１の顔画像に基づいて前記通知部に異常を通知させる。

　本発明の一態様による撮像装置は、予め記録された第２の顔画像を取得する顔画像取得部をさらに備え、前記制御部は、前記顔画像取得部から前記第２の顔画像を取得し、前記第１の顔画像と前記第２の顔画像との比較結果に基づいて、前記通知部に異常を通知させる。

　本発明の一態様による撮像装置において、前記制御部は、前記第１の顔画像の表情が所定の表情であるか否かを判定し、前記判定の結果に基づいて前記通知部に異常を通知させる。

　本発明の一態様による撮像装置において、前記制御部は、前記第１の映像から第３の顔画像を抽出し、前記第３の顔画像に顔の少なくとも一部を覆う物体が含まれるときに、前記刺激部に第２の刺激を出力させ、前記刺激部が第２の刺激を出力した後に、前記撮像部に前記第２の映像を撮像させる。

　本発明の一態様による撮像装置において、前記制御部は、前記第２の映像に含まれる人物の行動に基づいて前記通知部に異常を通知させる。

　本発明の一態様による撮像装置において、前記制御部は、前記第１の映像に含まれる人物の行動に基づいて前記刺激部に前記第１の刺激を出力させる。

　本発明の一態様は、撮像部が第１の映像を撮像する第１の撮像ステップと、音、音声、および光の少なくとも１つを刺激として出力する刺激部が前記第１の映像に基づいて刺激を出力する刺激ステップと、前記刺激部が前記刺激を出力した後に前記撮像部が第２の映像を撮像する第２の撮像ステップと、前記第２の映像に基づいて通知部が所定の対象に異常を通知する通知ステップと、を有する撮像方法である。

　本発明の一態様は、撮像部によって第１の映像を撮像する第１の撮像ステップと、音、音声、および光の少なくとも１つを刺激として出力する刺激部に、前記第１の映像に基づいて刺激を出力させる刺激ステップと、前記刺激部が前記刺激を出力した後に前記撮像部によって第２の映像を撮像する第２の撮像ステップと、前記第２の映像に基づいて所定の対象に異常を通知する通知ステップと、をコンピュータに実行させるためのプログラムである。

　本発明の一態様によれば、不審者検出の機会を増加させることができる。

本発明の第１の実施形態による撮像装置の構成を示すブロック図である。本発明の第１の実施形態による撮像装置の動作の手順を示すフローチャートである。本発明の第２の実施形態による撮像装置の構成を示すブロック図である。本発明の第２の実施形態による撮像装置の動作の手順を示すフローチャートである。本発明の第３の実施形態による撮像装置の構成を示すブロック図である。本発明の第３の実施形態による撮像装置の動作の手順を示すフローチャートである。本発明の第４の実施形態による撮像装置の構成を示すブロック図である。本発明の第４の実施形態による撮像装置の動作の手順を示すフローチャートである。

　以下、図面を参照し、本発明の実施形態を説明する。

　（第１の実施形態）
　図１は、本発明の第１の実施形態による撮像装置１の構成を示している。例えば、撮像装置１は、現金自動預け払い機すなわちＡＴＭ（Ａｕｔｏｍａｔｅｄ　Ｔｅｌｌｅｒ　Ｍａｃｈｉｎｅ）機に組み込まれている。図１に示すように、撮像装置１は、撮像部１０と、制御部１１と、顔画像取得部１３と、通知部１６と、音声出力部１８とを有する。

　撮像部１０は、カメラである。例えば、撮像部１０は、ＡＴＭ機の画面上に設置されている。撮像部１０は、監視対象の人物である利用者Ｍを撮像し、かつ利用者Ｍの映像（画像）を生成する。

　制御部１１は、顔画像抽出部１２と、顔画像照合部１４と、判定部１５と、メッセージ生成部１７とを有する。顔画像抽出部１２は、撮像部１０によって生成された映像から利用者Ｍの顔画像を抽出する。顔画像取得部１３は、予め登録された人物の顔画像を取得する。例えば、顔画像取得部１３は、顔画像記憶部であり、かつ犯罪者の顔画像を予め記憶する。あるいは、顔画像取得部１３は、通信部であり、かつ犯罪者の顔画像を外部のサーバ等の機器から受信する。第１の実施形態の顔画像取得部１３は、犯罪者の顔画像と名前情報とを関連付けて取得する。つまり、顔画像取得部１３は、犯罪者の顔画像と名前情報とを予め記憶する、あるいは犯罪者の顔画像と名前情報とを外部のサーバ等の機器から受信する。顔画像取得部１３が取得する犯罪者の顔画像および名前情報は、定期的に更新される。

　顔画像照合部１４は、顔画像取得部１３から顔画像を取得し、かつ撮像部１０によって生成された映像における人物の顔と、顔画像取得部１３から取得された顔画像とを照合する。つまり、顔画像照合部１４は、顔画像抽出部１２によって抽出された顔画像と、顔画像取得部１３から取得された顔画像とを照合する。顔画像照合部１４は、照合を行った２つの顔画像の類似度を算出する。例えば、顔画像の照合技術として、インターネット（ｈｔｔｐ：／／ｊｐｎ．ｎｅｃ．ｃｏｍ／ｂｉｏｍｅｔｒｉｃｓ／ｆａｃｅ／）に開示された技術を用いてもよい。

　判定部１５は、撮像装置１内の各部の制御に関係する判定を行う。顔画像照合部１４によって照合された顔画像の類似度が所定値以上である場合、通知部１６は、予め設定された場所（所定の対象）に異常を通知する。例えば、予め設定された場所は、管理センターまたは警察機関である。例えば、通知部１６は、管理センターまたは警察機関の端末と通信を行う通信部である。通知部１６は、撮像部１０によって生成された映像を上記の場所に送信してもよい。

　顔画像照合部１４によって照合された顔画像の類似度が所定値よりも小さい場合に、メッセージ生成部１７は、利用者Ｍに伝えるメッセージを生成する。例えば、メッセージ生成部１７は、顔画像取得部１３に記憶された名前情報に基づいて、犯罪者の名前を含むメッセージを生成する。例えば、「○○（利用者Ｍと顔が類似している犯罪者の名前）が近くに潜伏している可能性があります。見かけた方は警察まで通報してください。」というメッセージが生成される。

　音声出力部１８は、スピーカである。例えば、音声出力部１８は、撮像部１０の近傍に配置されている。音声出力部１８は、撮像部１０と接触した状態で配置されてもよい。顔画像照合部１４によって照合された顔画像の類似度が所定値よりも小さい場合に、音声出力部１８は、メッセージ生成部１７によって生成されたメッセージを音声に変換し、かつ音声を出力する。音声出力部１８は、人物を刺激する刺激部として機能する。刺激部は、音、音声、および光の少なくとも１つを刺激として出力することにより利用者Ｍを刺激すればよい。例えば、刺激部は、スピーカとして構成され、かつサイレン、ブザー、および振動音のような音により利用者Ｍを刺激してもよい。刺激部は、ＬＥＤのような光源、あるいは液晶のようなディスプレイとして構成され、かつ閃光のような光により利用者Ｍを刺激してもよい。

　上記の構成により、制御部１１は、撮像部１０が撮像した第１の映像に基づいて音声出力部１８に音声（第１の刺激）を出力させる。音声出力部１８が音声を出力した後、制御部１１は、撮像部１０が撮像した第２の映像に基づいて通知部１６に異常を通知させる。
制御部１１は、第２の映像から第１の顔画像を抽出する。制御部１１は、第１の顔画像に基づいて通知部１６に異常を通知させる。顔画像取得部１３は、予め記録された第２の顔画像を取得する。制御部１１は、顔画像取得部１３から第２の顔画像を取得する。制御部１１は、第１の顔画像と第２の顔画像との比較結果に基づいて、通知部１６に異常を通知させる。

　撮像装置１が、プログラムを読み込み、かつ読み込まれたプログラムを実行してもよい。つまり、撮像装置１の機能の少なくとも一部はソフトウェアにより実現されてもよい。
このプログラムは、顔画像抽出部１２、顔画像照合部１４、判定部１５、およびメッセージ生成部１７の動作を規定する命令を含む。このプログラムは、例えばフラッシュメモリのような「コンピュータ読み取り可能な記録媒体」により提供されてもよい。また、上述したプログラムは、このプログラムが保存された記憶装置等を有するコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により撮像装置１に伝送されてもよい。
プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように、情報を伝送する機能を有する媒体である。また、上述したプログラムは、前述した機能の一部を実現してもよい。さらに、上述したプログラムは、前述した機能をコンピュータに既に記録されているプログラムとの組合せで実現できる差分ファイル（差分プログラム）であってもよい。

　通常の利用者は、他人の情報を含む音声に対して、不審な挙動を示す可能性は低い。一方、犯罪者本人は、自分の情報を含む音声に対して、動揺して何らかの反応を示す可能性が高い。音声出力部１８によって音声が出力されたとき、犯罪者は無意識に、音声出力部１８の方向にあるＡＴＭ機の画面を見つめることが期待される。このとき、撮像部１０が利用者Ｍを撮像することにより、撮像部１０は、利用者Ｍの顔を正面から撮影することができる。その結果、顔画像照合部１４による顔画像の照合の精度が向上し、かつ犯罪者のような不審者の検出の精度が向上する。

　撮像部１０および音声出力部１８は、ＡＴＭ機自体に配置されていなくてもよい。例えば、撮像部１０および音声出力部１８は、ＡＴＭ機の正面方向にＡＴＭ機から離れた場所に配置されてもよい。この場合、ＡＴＭ機の正面を向いていた利用者Ｍが振り返ったときに撮像部１０は利用者Ｍの顔を撮影することができる。音声出力部１８は、場内アナウンスにより犯罪者の名字で利用者Ｍに呼びかけてもよい。撮像部１０および音声出力部１８が配置される場所は上記の例に限らない。また、音声出力部１８が出力する音声は上記の例に限らない。

　図２は、撮像装置１の動作の手順を示している。図２を参照し、撮像装置１の動作を説明する。

　撮像部１０は、利用者Ｍを撮像し、かつ利用者Ｍの映像を生成する。例えば、撮像部１０は、動画を生成する。撮像部１０によって生成された映像は、顔画像抽出部１２に出力される（ステップＳ１００）。

　ステップＳ１００の後、顔画像抽出部１２は、撮像部１０によって生成された映像から利用者Ｍの顔を抽出する。顔画像抽出部１２によって抽出された顔画像は、顔画像照合部１４に出力される（ステップＳ１０５）。

　ステップＳ１０５の後、顔画像照合部１４は、顔画像取得部１３から顔画像を取得し、かつ顔画像抽出部１２によって抽出された顔画像と、顔画像取得部１３から取得された顔画像とを照合する。顔画像照合部１４は、照合を行った２つの顔画像の類似度を算出する。複数の顔画像が顔画像取得部１３に登録されている場合、顔画像照合部１４は、顔画像抽出部１２によって抽出された顔画像と、顔画像取得部１３に登録されている各々の顔画像とを照合する。例えば、顔画像照合部１４は、複数の顔画像のうち、最も類似度が高い顔画像を選択する。顔画像照合部１４によって算出された類似度は、判定部１５に出力される。また、顔画像照合部１４が顔画像取得部１３から取得した顔画像の情報は、判定部１５に出力される（ステップＳ１１０）。

　ステップＳ１１０の後、判定部１５は、顔画像照合部１４によって算出された類似度が所定値Ｔｈ１以上であるか否かを判定する（ステップＳ１１５）。所定値Ｔｈ１は０よりも大きい。

　ステップＳ１１５において類似度が所定値Ｔｈ１以上である場合、利用者Ｍが犯罪者本人である可能性が高い。このため、判定部１５は通知部１６に管理センターへの通知を指示する。通知部１６は、管理センターに異常を通知する（ステップＳ１２０）。ステップＳ１２０の後、ステップＳ１００における処理が行われる。

　ステップＳ１１５において類似度が所定値Ｔｈ１よりも小さい場合、判定部１５は、顔画像照合部１４によって算出された類似度が所定値Ｔｈ２以上であるか否かを判定する（ステップＳ１２５）。所定値Ｔｈ２は、０よりも大きく、かつ所定値Ｔｈ１よりも小さい。

　ステップＳ１２５において類似度が所定値Ｔｈ２以上である場合、利用者Ｍが犯罪者に類似している。このとき、利用者Ｍが犯罪者本人であるにもかかわらず、利用者Ｍが撮像部１０の方向を向いていないことにより、顔画像照合部１４による顔画像の照合の精度が低下している可能性がある。この場合、判定部１５は、メッセージ生成部１７にメッセージの生成を指示する。また、判定部１５は、顔画像照合部１４が顔画像取得部１３から取得した顔画像の情報をメッセージ生成部１７に通知する。メッセージ生成部１７は、顔画像と関連付けられた名前情報を顔画像取得部１３から取得する（ステップＳ１３０）。

　ステップＳ１３０の後、メッセージ生成部１７は、ステップＳ１３０において取得された名前情報に基づいてメッセージを生成する。音声出力部１８は、メッセージ生成部１７によって生成されたメッセージを音声に変換し、かつ音声を出力する（ステップＳ１３５）。これによって、音声出力部１８は、犯罪者の名前で利用者Ｍに呼びかける。

　ステップＳ１３５における処理が行われた後、ステップＳ１１５において類似度が所定値Ｔｈ１よりも小さい場合がありうる。この場合、ステップＳ１２５における処理が行われることなくステップＳ１００における処理が再度行われてもよい。

　上記のように、顔画像取得部１３は、犯罪者の顔画像と関連付けられた犯罪者の名前情報を取得する。名前情報は、利用者Ｍとして想定される人物の特徴を示す特徴情報の一例である。音声出力部１８は、顔画像取得部１３に記憶された特徴情報に基づいて利用者Ｍを刺激する。上記の例では、音声出力部１８は、犯罪者の名前で利用者Ｍに呼びかける。
これによって、利用者Ｍをより効果的に刺激することができる。顔画像取得部１３は、犯罪者の年齢、性別、および身体的特徴等の情報を特徴情報として取得してもよい。音声出力部１８は、これらの特徴情報に基づく音声を出力してもよい。

　ステップＳ１３５の後、ステップＳ１００における処理が行われる。つまり、音声出力部１８によって利用者Ｍが刺激された後、撮像部１０は、音声出力部１８によって刺激された利用者Ｍを撮像し、かつ利用者Ｍの映像を生成する。前述したように、利用者Ｍが犯罪者本人である場合、利用者ＭがＡＴＭ機の画面を見つめることが期待される。このため、撮像部１０は、利用者Ｍの顔を正面から撮影することができる。その後、ステップＳ１１０において、顔画像照合部１４は、顔画像の照合に適した顔画像を用いて照合を行うことができる。

　ステップＳ１２５において類似度が所定値Ｔｈ２よりも小さい場合、利用者Ｍが通常の利用者である可能性が高い。この場合、ステップＳ１００における処理が行われる。

　上記のように、利用者Ｍが撮像部１０の方向を向いていない場合であっても、利用者Ｍが刺激されることにより、利用者Ｍに撮像部１０の方向を向かせることができる。その結果、顔画像照合部１４による顔画像の照合の精度を向上させることができる。したがって、不審者検出の機会を増加させることができる。

　（第２の実施形態）
　図３は、本発明の第２の実施形態による撮像装置１ａの構成を示している。図３に示す構成について、図１に示す構成と異なる点を説明する。

　撮像装置１ａにおいて、図１に示す制御部１１は制御部１１ａに変更される。制御部１１ａは、図１に示す構成に加えて表情判定部１９を有する。制御部１１ａは、音声出力部１８が音声を出力した後に撮像部１０が撮像した第２の映像から抽出された第１の顔画像の表情が所定の表情であるか否かを判定する。制御部１１ａは、判定の結果に基づいて通知部１６に異常を通知させる。

　具体的には、利用者Ｍが刺激された後、表情判定部１９は、撮像部１０によって生成された利用者Ｍの映像に基づいて利用者Ｍの表情が所定の表情であるか否かを判定する。所定の表情は、音声出力部１８によって利用者Ｍが刺激されることにより利用者Ｍが示すと期待される表情である。例えば、所定の表情は、驚きの表情である。例えば、表情の推定技術として、インターネット（ｈｔｔｐ：／／ｐｌｕｓ－ｓｅｎｓｉｎｇ．ｏｍｒｏｎ．ｃｏ．ｊｐ／ｔｅｃｈｎｏｌｏｇｙ／ｄｅｔａｉｌ／）に開示された技術を用いてもよい。表情判定部１９によって利用者Ｍの表情が所定の表情であると判定された場合、通知部１６は異常を通知する。

　上記以外の点について、図３に示す構成は、図１に示す構成と同様である。

　図４は、撮像装置１ａの動作の手順を示している。図４に示す動作について、図２に示す動作と異なる点を説明する。

　ステップＳ１３５の後、表情判定部１９は、撮像部１０から映像を取得する。表情判定部１９は、撮像部１０によって生成された映像から利用者Ｍの顔を検出する。表情判定部１９は、検出された顔の表情を推定する（ステップＳ２００）。撮像部１０は動画の撮影を行う。つまり、撮像部１０は、複数フレームの映像を連続的に生成する。ステップＳ２００において表情の推定に使用される映像は、ステップＳ１１０において使用された映像が撮像部１０によって生成された後に撮像部１０によって生成された映像である。

　ステップＳ２００の後、表情判定部１９は、ステップＳ２００において推定された表情が驚きの表情であるか否かを判定する（ステップＳ２０５）。ステップＳ２０５において、推定された表情が驚きの表情である場合、ステップＳ１２０において通知部１６は管理センターに異常を通知する。ステップＳ２０５において、推定された表情が驚きの表情でない場合、ステップＳ１００における処理が行われる。

　上記以外の点について、図４に示す動作は、図２に示す動作と同様である。

　上記のように、利用者Ｍが刺激された後、表情判定部１９は、利用者Ｍの表情が所定の表情であるか否かを判定する。これによって、顔画像の照合により不審者を検出できない場合であっても、表情の判定により不審者検出の機会を増加させることができる。また、表情判定部１９によって利用者Ｍの表情が所定の表情であると判定された場合に通知部１６が異常を通知することによって、異常の通知の精度を向上させることができる。

　（第３の実施形態）
　図５は、本発明の第３の実施形態による撮像装置１ｂの構成を示している。図５に示す構成について、図１に示す構成と異なる点を説明する。

　撮像装置１ｂにおいて、図１に示す制御部１１は制御部１１ｂに変更される。制御部１１ｂは、図１に示す構成に加えてマスク顔判定部２０を有する。制御部１１ｂは、撮像部１０が撮像した第１の映像から第３の顔画像を抽出する。第３の顔画像に顔の少なくとも一部を覆う物体が含まれるときに、制御部１１ｂは音声出力部１８に音声（第２の刺激）を出力させる。音声出力部１８が音声を出力した後、制御部１１ｂは、撮像部１０に第２の映像を撮像させる。

　具体的には、マスク顔判定部２０は、撮像部１０によって生成された利用者Ｍの映像に基づいて、利用者Ｍの顔の少なくとも一部を覆う物体が存在するか否かを判定する被覆物判定部として機能する。第３の実施形態では、マスク顔判定部２０は、利用者Ｍの顔にマスクが存在するか否かを判定する。これによって、マスク顔判定部２０は、利用者Ｍの顔からマスクを検出する。例えば、マスクを装着した顔の検出技術として、ディープラーニング技術を活用した画像認識を利用することができる。音声出力部１８は、被覆物判定部によって、利用者Ｍの顔の少なくとも一部を覆う物体が存在すると判定された場合、その物体を外すように利用者Ｍに指示する指示部として機能する。第３の実施形態では、音声出力部１８は、マスクを外すように利用者Ｍに指示する音声を出力する。撮像装置１ｂは、マスク以外の物体を利用者Ｍの顔から検出してもよい。例えば、撮像装置１ｂは、眼鏡または帽子を利用者Ｍの顔から検出してもよい。

　上記以外の点について、図５に示す構成は、図１に示す構成と同様である。

　図６は、撮像装置１ｂの動作の手順を示している。図６に示す動作について、図２に示す動作と異なる点を説明する。

　ステップＳ１１５において類似度が所定値Ｔｈ１よりも小さい場合、マスク顔判定部２０は、撮像部１０によって生成された映像から利用者Ｍの顔を検出する。マスク顔判定部２０は、検出された顔にマスクが存在するか否かを判定する。マスク顔判定部２０による判定の結果は判定部１５に通知される（ステップＳ３００）。

　ステップＳ３００の後、判定部１５は、マスク顔判定部２０によって、利用者Ｍの顔にマスクが存在すると判定されたか否かを判定する（ステップＳ３０５）。ステップＳ３０５において利用者Ｍの顔にマスクが存在しないと判定された場合、ステップＳ１２５における処理が行われる。

　ステップＳ３０５において利用者Ｍの顔にマスクが存在すると判定された場合、判定部１５は、メッセージ生成部１７にメッセージの生成を指示し、かつメッセージ生成部１７はメッセージを生成する。音声出力部１８は、メッセージ生成部１７によって生成されたメッセージを音声に変換し、かつ音声を出力する（ステップＳ３１０）。これによって、音声出力部１８は、マスクを外すように利用者Ｍに音声で指示する。ステップＳ３１０の後、ステップＳ１００における処理が行われる。

　上記以外の点について、図６に示す動作は、図２に示す動作と同様である。

　利用者Ｍがマスク等の物体を装着している場合、顔画像の照合の精度が低下する。このため、第３の実施形態では、利用者Ｍの顔にマスクが存在する場合、音声出力部１８は、マスクを外すように利用者Ｍに指示する。これによって、利用者Ｍがマスクを外すことが期待される。その結果、顔画像照合部１４による顔画像の照合の精度を向上させることができる。したがって、不審者検出の機会を増加させることができる。

　（第４の実施形態）
　図７は、本発明の第４の実施形態による撮像装置１ｃの構成を示している。例えば、撮像装置１ｃは、駐車場に設置される。図７に示す構成について、図１に示す構成と異なる点を説明する。

　撮像装置１ｃにおいて、図１に示す制御部１１は制御部１１ｃに変更される。制御部１１ｃは、図１に示す構成に加えて行動判定部２１を有する。制御部１１ｃは、音声出力部１８が音声を出力した後に撮像部１０が撮像した第２の映像に含まれる人物の行動に基づいて通知部１６に異常を通知させる。制御部１１ｃは、撮像部１０が撮像した第１の映像に含まれる人物の行動に基づいて音声出力部１８に音声（第１の刺激）を出力させる。

　具体的には、行動判定部２１は、撮像部１０によって生成された利用者Ｍの映像に基づいて、利用者Ｍの行動が所定の行動である可能性を示す値が所定値以上であるか否かを判定する。これによって、行動判定部２１は、不審な行動を検出する。例えば、不審な行動は、しゃがんでいる行動である。利用者Ｍが車の横でしゃがんでいる場合、利用者Ｍが車上荒らしを行おうとしている可能性がある。例えば、所定の行動の検出技術として、インターネット（ｈｔｔｐｓ：／／ｉｏｔｎｅｗｓ．ｊｐ／ａｒｃｈｉｖｅｓ／５８２５）に開示された技術を用いてもよい。撮像部１０によって生成された利用者Ｍの映像から利用者Ｍの顔を検出できない場合、行動判定部２１は、利用者Ｍの行動が所定の行動である可能性を示す値が所定値以上であるか否かを判定する。

　行動判定部２１によって、利用者Ｍの行動が所定の行動である可能性を示す値が所定値以上であると判定された場合、通知部１６は、異常を通知する。行動判定部２１によって、利用者Ｍの行動が所定の行動である可能性を示す値が所定値よりも小さいと判定された場合、音声出力部１８は利用者Ｍを刺激する。

　上記以外の点について、図７に示す構成は、図１に示す構成と同様である。

　図８は、撮像装置１ｃの動作の手順を示している。図８に示す動作について、図２に示す動作と異なる点を説明する。

　ステップＳ１００の後、判定部１５は、顔画像抽出部１２が顔画像を検出できたか否かを判定する（ステップＳ４００）。ステップＳ４００において、顔画像抽出部１２が顔画像を検出できた場合、ステップＳ１０５における処理が行われる。

　ステップＳ４００において、顔画像抽出部１２が顔画像を検出できなかった場合、行動判定部２１は、撮像部１０によって生成された映像に基づいて、利用者Ｍの行動が所定の行動である可能性を示す判定値を算出する（ステップＳ４０５）。

　ステップＳ４０５の後、判定部１５は、行動判定部２１によって算出された判定値が所定値Ｔｈ３以上であるか否かを判定する（ステップＳ４１０）。所定値Ｔｈ３は０よりも大きい。

　ステップＳ４１０において判定値が所定値Ｔｈ３以上である場合、利用者Ｍが不審者である可能性が高い。このため、判定部１５は通知部１６に管理センターへの通知を指示する。通知部１６は、管理センターに異常を通知する（ステップＳ４１５）。ステップＳ４１５の後、ステップＳ１００における処理が行われる。ステップＳ４１５における処理が行われたとき、ステップＳ１００において映像を証拠として残すために、サーチライトによって利用者Ｍを照らしてもよい。

　ステップＳ４１０において判定値が所定値Ｔｈ３よりも小さい場合、判定部１５は、行動判定部２１によって算出された判定値が所定値Ｔｈ４以上であるか否かを判定する（ステップＳ４２０）。所定値Ｔｈ４は、０よりも大きく、かつ所定値Ｔｈ３よりも小さい。
ステップＳ４２０において判定値が所定値Ｔｈ４よりも小さい場合、ステップＳ１００における処理が行われる。

　ステップＳ４２０において判定値が所定値Ｔｈ４以上である場合、利用者Ｍが通常の利用者である可能性がある。判定部１５は、メッセージ生成部１７にメッセージの生成を指示し、かつメッセージ生成部１７はメッセージを生成する。例えば、「何かトラブルでしょうか。」のように利用者Ｍに話しかけるメッセージが生成される。音声出力部１８は、メッセージ生成部１７によって生成されたメッセージを音声に変換し、かつ音声を出力する（ステップＳ４２５）。これによって、音声出力部１８は、利用者Ｍを刺激する。ステップＳ４２５の後、ステップＳ１００における処理が行われる。このとき、第１の実施形態と同様に、撮像部１０が利用者Ｍの顔を正面から撮影できることが期待される。

　上記以外の点について、図８に示す動作は、図２に示す動作と同様である。

　上記のように、利用者Ｍが撮像部１０の方向を向いていない場合であっても、利用者Ｍの行動を判定することにより、不審者検出の機会を増加させることができる。また、行動判定部２１によって利用者Ｍの行動が所定の行動であると判定された場合に通知部１６が異常を通知することによって、異常の通知の精度を向上させることができる。

　利用者Ｍの行動が所定の行動でない場合であっても、利用者Ｍが刺激されることにより、利用者Ｍに撮像部１０の方向を向かせることができる。その結果、顔画像照合部１４による顔画像の照合の精度を向上させることができる。したがって、顔画像の照合による不審者検出の機会を増加させることができる。

　以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

　本発明のいくつかの態様は、不審者検出の機会を増加させることが必要な撮像装置、撮像方法、およびプログラムなどに適用することができる。

　１，１ａ，１ｂ，１ｃ　撮像装置
　１０　撮像部
　１１，１１ａ，１１ｂ，１１ｃ　制御部
　１２　顔画像抽出部
　１３　顔画像取得部
　１４　顔画像照合部
　１５　判定部
　１６　通知部
　１７　メッセージ生成部
　１８　音声出力部
　１９　表情判定部
　２０　マスク顔判定部
　２１　行動判定部

Claims

　撮像部と、
　音、音声、および光の少なくとも１つを刺激として出力する刺激部と、
　所定の対象に異常を通知する通知部と、
　制御部とを備え、
　前記制御部は、
　前記撮像部が撮像した第１の映像に基づいて前記刺激部に第１の刺激を出力させ、
　前記刺激部が前記第１の刺激を出力した後に前記撮像部が撮像した第２の映像に基づいて前記通知部に異常を通知させる、
　撮像装置。
　前記制御部は、
　前記第２の映像から第１の顔画像を抽出し、
　前記第１の顔画像に基づいて前記通知部に異常を通知させる、
　請求項１に記載の撮像装置。
　予め記録された第２の顔画像を取得する顔画像取得部をさらに備え、
　前記制御部は、
　前記顔画像取得部から前記第２の顔画像を取得し、
　前記第１の顔画像と前記第２の顔画像との比較結果に基づいて、前記通知部に異常を通知させる
　請求項２に記載の撮像装置。
　前記制御部は、
　前記第１の顔画像の表情が所定の表情であるか否かを判定し、
　前記判定の結果に基づいて前記通知部に異常を通知させる
　請求項２または請求項３に記載の撮像装置。
　前記制御部は、
　前記第１の映像から第３の顔画像を抽出し、
　前記第３の顔画像に顔の少なくとも一部を覆う物体が含まれるときに、前記刺激部に第２の刺激を出力させ、
　前記刺激部が第２の刺激を出力した後に、前記撮像部に前記第２の映像を撮像させる
　請求項１から請求項４のいずれか一項に記載の撮像装置。
　前記制御部は、
　前記第２の映像に含まれる人物の行動に基づいて前記通知部に異常を通知させる
　請求項１から請求項５のいずれか一項に記載の撮像装置。
　前記制御部は、
　前記第１の映像に含まれる人物の行動に基づいて前記刺激部に前記第１の刺激を出力させる
　請求項１から請求項５のいずれか一項に記載の撮像装置。
　撮像部が第１の映像を撮像する第１の撮像ステップと、
　音、音声、および光の少なくとも１つを刺激として出力する刺激部が前記第１の映像に基づいて刺激を出力する刺激ステップと、
　前記刺激部が前記刺激を出力した後に前記撮像部が第２の映像を撮像する第２の撮像ステップと、
　前記第２の映像に基づいて通知部が所定の対象に異常を通知する通知ステップと、
　を有する撮像方法。
　撮像部によって第１の映像を撮像する第１の撮像ステップと、
　音、音声、および光の少なくとも１つを刺激として出力する刺激部に、前記第１の映像に基づいて刺激を出力させる刺激ステップと、
　前記刺激部が前記刺激を出力した後に前記撮像部によって第２の映像を撮像する第２の撮像ステップと、
　前記第２の映像に基づいて、通知部によって所定の対象に異常を通知する通知ステップと、
　をコンピュータに実行させるためのプログラム。