WO2021140879A1

WO2021140879A1 - 撮像装置、撮像装置の制御方法、プログラム

Info

Publication number: WO2021140879A1
Application number: PCT/JP2020/047490
Authority: WO
Inventors: 陽介高木
Original assignee: キヤノン株式会社
Priority date: 2020-01-06
Filing date: 2020-12-18
Publication date: 2021-07-15
Also published as: US20220337740A1

Abstract

音声を集音する集音手段と、前記集音手段によって集音した音声を解析する解析手段と、自動的に撮影を行う自動撮影手段と、前記自動撮影手段の撮影頻度を設定する設定手段と、を有し、前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする撮像装置。

Description

撮像装置、撮像装置の制御方法、プログラム

　本発明は、音声を用いて指示を受け付けることが可能な撮像装置に関する。

　近年では、定期的に撮影を自動で繰り返すライフログカメラや、撮影状況をカメラ自身が判断して自動的に撮影を行う撮像装置が提案されている。これらの機器では、自動的に撮影することで、ユーザが意識せずとも、ユーザの欲するシーンの画像を撮影することを目的としている。例えば、特開２０１９－１１０５２５号公報に記載されている機器では、被写体の顔を検出した情報を用いたり、過去の撮影枚数、目標とする撮影枚数などから、撮影のタイミングを判断して、自動的に撮影を行っている。

　しかしながら、あくまでも自動であるため、ユーザの意思が反映されているとは限らない。ゆえに、それだけではユーザが望むタイミングで撮影を行うことができず、撮り逃しが発生する可能性があった。

特開２０１９－１１０５２５号公報

　本発明の撮像装置は、音声を集音する集音手段と、前記集音手段によって集音した音声を解析する解析手段と、自動的に撮影を行う自動撮影手段と、前記自動撮影手段の撮影頻度を設定する設定手段と、を有し、前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする。

撮像装置の外観の例を示すための図である。撮像装置の動作を説明するための図である。撮像装置の構成を示す図である。撮像装置と外部機器との構成を示す図である。外部機器の構成を示す図である。自動撮影処理を説明するフローチャートである。音声認識処理を説明するフローチャートである。頻度設定処理を説明するフローチャートである。撮影画像内のエリア分割を説明するための図である。撮影画像内のエリア分割を説明するための図である。撮影画像内のエリア分割を説明するための図である。撮影画像内のエリア分割を説明するための図である。外部機器に表示される画面の一例を示す図である。

　以下に、本発明を実施するための形態について、添付の図面を用いて詳細に説明する。

　尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施の形態は適宜組み合わされることも可能である。

　＜撮像装置の構成＞
　図１は、第１の実施形態の撮像装置を模式的に示す図である。

　図１Ａに示す撮像装置１０１は、電源スイッチの操作を行うことができる操作部材（以後、電源ボタンというが、タッチパネルへのタップやフリック、スワイプなどの操作でもよい）などが設けられている。撮像を行う撮影レンズ群や撮像素子を含む筐体である鏡筒１０２は、撮像装置１０１に取り付けられ、鏡筒１０２を固定部１０３に対して回転駆動できる回転機構を設けている。チルト回転ユニット１０４は、鏡筒１０２を図１Ｂに示すピッチ方向に回転できるモーター駆動機構であり、パン回転ユニット１０５は、鏡筒１０２をヨー方向に回転できるモーター駆動機構である。よって、鏡筒１０２は、１軸以上の方向に回転可能である。なお、図１Ｂは、固定部１０３位置での軸定義である。角速度計１０６と加速度計１０７はともに、撮像装置１０１の固定部１０３に実装されている。そして、角速度計１０６や加速度計１０７に基づいて、撮像装置１０１の振動を検出し、チルト回転ユニットとパン回転ユニットを検出した揺れ角度に基づいて回転駆動する。これにより、可動部である鏡筒１０２の振れを補正したり、傾きを補正したりする構成となっている。

　図２は、本実施形態の撮像装置の構成を示すブロック図である。

　図２において、第１制御部２２３は、プロセッサ（例えば、ＣＰＵ、ＧＰＵ、マイクロプロセッサ、ＭＰＵなど）、メモリ（例えば、ＤＲＡＭ、ＳＲＡＭなど）からなる。これらは、各種処理を実行して撮像装置１０１の各ブロックを制御したり、各ブロック間でのデータ転送を制御したりする。不揮発性メモリ（ＥＥＰＲＯＭ）２１６は、電気的に消去・記録可能なメモリであり、第１制御部２２３の動作用の定数、プログラム等が記憶される。

　図２において、ズームユニット２０１は、変倍を行うズームレンズを含む。ズーム駆動制御部２０２は、ズームユニット２０１を駆動制御する。フォーカスユニット２０３は、ピント調整を行うレンズを含む。フォーカス駆動制御部２０４は、フォーカスユニット２０３を駆動制御する。

　撮像部２０６では、撮像素子が各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をアナログ画像データとして画像処理部２０７に出力する。画像処理部２０７はＡ／Ｄ変換により出力されたデジタル画像データに対して、歪曲補正やホワイトバランス調整や色補間処理等の画像処理を適用し、適用後のデジタル画像データを出力する。画像処理部２０７から出力されたデジタル画像データは、画像記録部２０８でＪＰＥＧ形式等の記録用フォーマットに変換し、メモリ２１５や後述する映像出力部２１７に送信される。

　鏡筒回転駆動部２０５は、チルト回転ユニット１０４、パン回転ユニット１０５を駆動して鏡筒１０２をチルト方向とパン方向に駆動させる。

　装置揺れ検出部２０９は、例えば撮像装置１０１の３軸方向の角速度を検出する角速度計（ジャイロセンサ）１０６や、装置の３軸方向の加速度を検出する加速度計（加速度センサ）１０７が搭載される。装置揺れ検出部２０９は、検出された信号に基づいて、装置の回転角度や装置のシフト量などが演算される。

　音声入力部２１３は、撮像装置１０１に設けられたマイクを用いて撮像装置１０１周辺から集音された音声信号を取得し、アナログデジタル変換をして音声処理部２１４に送信する。音声処理部２１４は、入力されたデジタル音声信号の適正化処理等の音声に関する処理を行う。そして、音声処理部２１４で処理された音声信号は、第１制御部２２３によりメモリ２１５に送信される。メモリ２１５は、画像処理部２０７、音声処理部２１４により得られた画像信号及び音声信号を一時的に記憶する。

　画像処理部２０７及び音声処理部２１４は、メモリ２１５に一時的に記憶された画像信号や音声信号を読み出して画像信号の符号化、音声信号の符号化などを行い、圧縮画像信号、圧縮音声信号を生成する。第１制御部２２３は、これらの圧縮画像信号、圧縮音声信号を、記録再生部２２０に送信する。

　記録再生部２２０は、記録媒体２２１に対して画像処理部２０７及び音声処理部２１４で生成された圧縮画像信号、圧縮音声信号、その他撮影に関する制御データ等を記録する。また、音声信号を圧縮符号化しない場合には、第１制御部２２３は、音声処理部２１４により生成された音声信号と画像処理部２０７により生成された圧縮画像信号とを、記録再生部２２０に送信し記録媒体２２１に記録させる。

　記録媒体２２１は、撮像装置１０１に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。記録媒体２２１は、撮像装置１０１で生成した圧縮画像信号、圧縮音声信号、音声信号などの各種データを記録することができ、不揮発性メモリ２１６よりも大容量な媒体が一般的に使用される。例えば、記録媒体２２１は、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－Ｒ、ＤＶＤ－Ｒ、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。

　記録再生部２２０は、記録媒体２２１に記録された圧縮画像信号、圧縮音声信号、音声信号、各種データ、プログラムを読み出す（再生する）。そして読み出した圧縮画像信号、圧縮音声信号を、第１制御部２２３は画像処理部２０７及び音声処理部２１４に送信する。画像処理部２０７及び音声処理部２１４は、圧縮画像信号、圧縮音声信号を一時的にメモリ２１５に記憶させ、所定の手順で復号し、復号した信号を映像出力部２１７、音声出力部２１８に送信する。

　音声入力部２１３は複数のマイクが撮像装置１０１に搭載されており、音声処理部２１４は複数のマイクが設置された平面上の音の方向を検出することができ、後述する探索や自動撮影に用いられる。さらに、音声処理部２１４では、特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる構成にしてもよい。また、音シーン認識も行う。音シーン認識では、予め大量の音声データを基に機械学習により学習させた学習済みモデルにより音シーン判定を行う。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。

　本実施形態では、例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出するためのニューラルネットワークが音声処理部２１４に設定されている。そして、特定音シーンや特定音声コマンドを検出すると、第１制御部２２３や第２制御部２１１に、検出トリガー信号を出力する構成になっている。

　すなわち、音声処理部２１４のニューラルネットワークは、あらかじめ「歓声が上がっている」、「拍手している」、「声を発している」シーンの音声情報を用意し、その音声情報を入力とし、検出トリガー信号を出力として学習する。

　撮像装置１０１のメインシステム全体を制御する第１制御部２２３とは別に設けられた、第２制御部２１１が第１制御部２２３の供給電源を制御する。

　第１電源部２１０と第２電源部２１２は、第１制御部２２３と第２制御部２１１を動作させるための、電源をそれぞれ供給する。撮像装置１０１に設けられた電源ボタンの押下により、まず第１制御部２２３と第２制御部２１１の両方に電源が供給されるが、後述するように、第１制御部２２３は、第１電源部２１０へ自らの電源供給をＯＦＦするように制御される。第１制御部２２３が動作していない間も、第２制御部２１１は動作しており、装置揺れ検出部２０９や音声処理部２１４からの情報が入力される。第２制御部は各種入力情報を基にして、第１制御部２２３を起動するか否かの判定処理を行い、起動判定されると第１電源部に電源供給指示をする構成になっている。本実施形態では、電源部は電池から電力を供給する。すなわち、撮像装置１０１は携帯端末でもある。

　音声出力部２１８は、例えば撮影時などに撮像装置１０１に内蔵されたスピーカーから予め設定された音声パターンを出力する。

　ＬＥＤ制御部２２４は、例えば撮影時などに撮像装置１０１に設けられたＬＥＤを予め設定された点灯点滅パターンを制御する。

　映像出力部２１７は、例えば映像出力端子からなり、接続された外部ディスプレイ等に映像を表示させるために画像信号を送信する。また、音声出力部２１８、映像出力部２１７は、結合された１つの端子、例えばＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）端子のような端子であってもよい。

　通信部２２２は、撮像装置１０１と外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、撮影開始や終了コマンド、パン、チルト、ズーム駆動など、撮影にかかわる制御信号を受信して、撮像装置１０１と相互通信可能な外部機器の指示から撮像装置１０１を駆動する。また、撮像装置１０１と外部装置との間で、後述する学習処理部２１９で処理される学習にかかわる各種パラメータなどの情報を送信したり受信したりする。通信部２２２は、例えば、赤外線通信モジュール、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信モジュール、無線ＬＡＮ通信モジュール、ＷｉｒｅｌｅｓｓＵＳＢ、ＧＰＳ受信機等の無線通信モジュールである。

　＜外部通信機器とのシステム構成＞
　図３は、撮像装置１０１と外部装置３０１との無線通信システムの構成例を示す図である。撮像装置１０１は撮影機能を有するデジタルカメラであり、外部装置３０１はＢｌｕｅｔｏｏｔｈ通信モジュール、無線ＬＡＮ通信モジュールを含むスマートデバイスである。

　撮像装置１０１とスマートデバイス３０１は、例えばＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮによる通信３０２と、例えばＢｌｕｅｔｏｏｔｈ　Ｌｏｗ　Ｅｎｅｒｇｙ（以下、「ＢＬＥ」と呼ぶ。）ＢＬＥなどの、制御局と従属局などの主従関係を有する通信３０３とによって通信可能である。なお、無線ＬＡＮ及びＢＬＥは通信手法の一例であり、各通信装置は、２つ以上の通信機能を有し、例えば制御局と従属局との関係の中で通信を行う一方の通信機能によって、他方の通信機能の制御を行うことが可能であれば、他の通信手法が用いられてもよい。ただし、一般性を失うことなく、無線ＬＡＮなどの第１の通信は、ＢＬＥなどの第２の通信より高速な通信が可能であり、また、第２の通信は、第１の通信よりも消費電力が少ないか通信可能距離が短いかの少なくともいずれかであるものとする。

　＜外部通信機器の構成＞
　外部通信機器の一例としてのスマートデバイス３０１の構成を、図４を用いて説明する。スマートデバイス３０１は、いわゆる携帯電話、すなわち携帯端末である。

　スマートデバイス３０１は、例えば、無線ＬＡＮ用の無線ＬＡＮ制御部４０１、及び、ＢＬＥ用のＢＬＥ制御部４０２に加え、公衆無線通信用の公衆回線制御部４０６を有する。また、スマートデバイス３０１は、パケット送受信部４０３をさらに有する。無線ＬＡＮ制御部４０１は、無線ＬＡＮのＲＦ制御、通信処理、ＩＥＥＥ８０２．１１規格シリーズに準拠した無線ＬＡＮによる通信の各種制御を行うドライバや無線ＬＡＮによる通信に関するプロトコル処理を行う。ＢＬＥ制御部４０２は、ＢＬＥのＲＦ制御、通信処理、ＢＬＥによる通信の各種制御を行うドライバやＢＬＥによる通信に関するプロトコル処理を行う。公衆回線制御部４０６は、公衆無線通信のＲＦ制御、通信処理、公衆無線通信の各種制御を行うドライバや公衆無線通信関連のプロトコル処理を行う。公衆無線通信は例えばＩＭＴ（Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｍｕｌｔｉｍｅｄｉａ　Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ）規格やＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）規格などに準拠したものである。パケット送受信部４０３は、無線ＬＡＮ並びにＢＬＥによる通信及び公衆無線通信に関するパケットの送信と受信との少なくともいずれかを実行するための処理を行う。なお、本例では、スマートデバイス３０１は、通信においてパケットの送信と受信との少なくともいずれかを行うものとして説明するが、パケット交換以外に、例えば回線交換など、他の通信形式が用いられてもよい。

　スマートデバイス３０１は、例えば、制御部４１１、記憶部４０４、ＧＰＳ受信部４０５、表示部４０７、操作部４０８、音声入力音声処理部４０９、電源部４１０をさらに有する。制御部４１１は、例えば、記憶部４０４に記憶される制御プログラムを実行することにより、スマートデバイス３０１全体を制御する。記憶部４０４は、例えば制御部４１１が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、記憶部４０４に記憶された制御プログラムを制御部４１１が実行することにより、実現される。

　電源部４１０はスマートデバイス３０１に電源を供給する。表示部４０７は、例えば、ＬＣＤやＬＥＤのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部４０８は、例えばユーザによるスマートデバイス３０１の操作を受け付けるボタン等である。なお、表示部４０７及び操作部４０８は、例えばタッチパネルなどの共通する部材によって構成されてもよい。

　音声入力音声処理部４０９は、例えばスマートデバイス３０１に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。

　また、スマートデバイス内の専用のアプリケーションを介して、ユーザの発音により音声コマンドを取得する。そして、無線ＬＡＮによる通信３０２を介して、撮像装置１０１の音声処理部２１４に特定音声コマンド認識させるための特定音声コマンドとして登録することもできる。

　ＧＰＳ（Ｇｌｏｂａｌ　ｐｏｓｉｔｉｏｎｉｎｇ　ｓｙｓｔｅｍ）４０５は、衛星から通知されるＧＰＳ信号を受信し、ＧＰＳ信号を解析し、スマートデバイス３０１の現在位置（経度・緯度情報）を推定する。もしくは、位置推定は、ＷＰＳ（Ｗｉ－Ｆｉ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）等を利用して、周囲に存在する無線ネットワークの情報に基づいて、スマートデバイス３０１の現在位置を推定するようにしてもよい。取得した現在のＧＰＳ位置情報が予め事前に設定されている位置範囲（所定半径の範囲以内）に位置している場合に、ＢＬＥ制御部４０２を介して撮像装置１０１へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。また、ＧＰＳ位置情報に所定以上の位置変化があった場合に、ＢＬＥ制御部４０２を介して撮像装置１０１へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。

　上記のように撮像装置１０１とスマートデバイス３０１は、無線ＬＡＮ制御部４０１、及び、ＢＬＥ制御部４０２を用いた通信により、撮像装置１０１とデータのやりとりを行う。例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイスから撮像装置１０１の撮影などの操作指示であったり、音声コマンド登録データ送信や、ＧＰＳ位置情報に基づいた所定位置検出通知や場所移動通知を行う。また、スマートデバイス内の専用のアプリケーションを介しての学習用データの送受信も行う。

　＜撮像動作のシーケンス＞
　図５は、本実施形態における撮像装置１０１の自動撮影処理のフローチャートである。

　ユーザが撮像装置１０１に設けられた電源ボタンを操作すると、本フローチャートの処理が開始する。なお、本実施形態においては、常に撮像装置１０１とスマートデバイス３０１が無線通信による接続が確立され、スマートデバイス３０１上の専用アプリケーションから各種の操作が可能な状態とする。また、以下のフローチャートの各ステップの処理は、第１制御部２２３が撮像装置１０１の各部を制御することによって実現される。

　Ｓ５０１では、第１制御部２２３は、自動撮影停止中の状態かどうかを判別する。自動撮影の停止に関しては後述する音声認識処理のフローチャートにて説明する。自動撮影停止中であった場合には、何も行わずに待機し、自動撮影の停止が解除されるまで待つ。自動撮影が停止中でなかった場合には、Ｓ５０２へ進み、画像認識処理を行う。

　Ｓ５０２では、第１制御部２２３は、画像処理部２０７に撮像部２０６で取り込まれた信号を画像処理させ、被写体認識用の画像を生成させる。

　生成された画像からは、人物や物体認識などの被写体認識が行われる。

　人物を認識する場合、被写体の顔や人体を検出する。顔検出処理では、人物の顔を判断するためのパターンが予め定められており、撮像された画像内に含まれる該パターンに一致する箇所を人物の顔画像として検出することができる。

　また、被写体の顔としての確からしさを示す信頼度も同時に算出し、信頼度は、例えば画像内における顔領域の大きさや、顔パターンとの一致度等から算出される。

　物体認識についても同様に、予め登録されたパターンに一致する物体を認識することができる。

　また、撮像された画像内の色相や彩度等のヒストグラムを使用する方法で特徴被写体を抽出する方法などもある。この場合、撮影画角内に捉えられている被写体の画像に関し、その色相や彩度等のヒストグラムから導出される分布を複数の区間に分け、区間ごとに撮像された画像を分類する処理が実行される。

　例えば、撮像された画像について複数の色成分のヒストグラムが作成され、その山型の分布範囲で区分けし、同一の区間の組み合わせに属する領域にて撮像された画像が分類され、被写体の画像領域が認識される。

　認識された被写体の画像領域ごとに評価値を算出することで、当該評価値が最も高い被写体の画像領域を主被写体領域として判定することができる。

　以上の方法で、撮像情報から各被写体情報を得ることができる。

　Ｓ５０３では、第１制御部２２３は、像揺れ補正量の算出を行う。具体的には、まず、装置揺れ検出部２０９において取得した角速度および加速度情報に基づいて撮像装置の絶対角度の算出を行う。そして、絶対角度を打ち消す角度方向にチルト回転ユニット１０４およびパン回転ユニット１０５を動かす防振角度を求め、像揺れ補正量とする。なお、ここでの像揺れ補正量算出処理は、後述する学習処理によって、演算方法を変更することができる。

　Ｓ５０４では、第１制御部２２３は、撮像装置の状態判定を行う。角速度情報や加速度情報やＧＰＳ位置情報などで検出した角度や移動量などにより、現在、撮像装置がどのような振動／動き状態なのかを判定する。

　例えば、車に撮像装置１０１を装着して撮影する場合、移動された距離によって大きく周りの風景などの被写体情報が変化する。

　そのため、車などに装着して速い速度で移動している「乗り物移動状態」か否かを判定し、後に説明する自動被写体探索に使用することができる。

　また、角度の変化が大きいか否かを判定し、撮像装置１０１が揺れ角度がほとんどない「置き撮り状態」であるのかを判定する。

　「置き撮り状態」である場合は、撮像装置１０１自体の角度変化はないと考えてよいので、置き撮り用の被写体探索を行うことができる。

　また、比較的、角度変化が大きい場合は、「手持ち状態」と判定され、手持ち用の被写体探索を行うことができる。

　Ｓ５０５では、第１制御部２２３は、被写体探索処理を行う。被写体探索は、以下の処理によって構成される。

　（１）エリア分割
　図８を用いて、エリア分割を説明する。図８Ａのように撮像装置（原点Ｏが撮像装置位置とする。）位置を中心として、全周囲でエリア分割を行う。図８Ａの例においては、チルト方向、パン方向それぞれ２２．５度で分割している。図８Ａのように分割すると、チルト方向の角度が０度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。そこで、本実施形態の撮像装置は、図８Ｂのように、チルト角度が４５度以上の場合、水平方向のエリア範囲は２２．５度よりも大きく設定している。図８Ｃ、図８Ｄに撮影画角内でのエリア分割された例を示す。軸１３０１は初期化時の撮像装置１０１の方向であり、この方向角度を基準位置としてエリア分割が行われる。１３０２は、撮像されている画像の画角エリアを示しており、そのときの画像例を図８Ｄに示す。画角に写し出されている画像内ではエリア分割に基づいて、図８Ｄの１３０３～１３１８のように画像分割される。

　（２）エリア毎の重要度レベルの算出
　前記のように分割した各エリアについて、エリア内に存在する被写体やエリアのシーン状況に応じて、探索を行う優先順位を示す重要度レベルを算出する。被写体の状況に基づいた重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔向き、顔検出の確からしさ、人物の表情、人物の個人認証結果に基づいて算出する。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果（青空、逆光、夕景など）、エリアの方向からする音のレベルや音声認識結果、エリア内の動き検知情報等である。また、撮像装置の状態判定（Ｓ５０４）で、撮像装置の振動状態が検出されており、振動状態に応じても重要度レベルが変化するようにもすることができる。例えば、「置き撮り状態」と判定された場合、顔認証で登録されている中で優先度の高い被写体（例えば撮像装置のユーザである）を中心に被写体探索が行われるように、特定人物の顔認証を検出すると重要度レベルが高くなるように判定される。また、後述する自動撮影も上記顔を優先して行われることになり、撮像装置のユーザが撮像装置を身に着けて持ち歩き撮影を行っている時間が多くても、撮像装置を取り外して机の上などに置くことで、ユーザが写った画像も多く残すことができる。このときパン・チルトにより探索可能であることから、撮像装置の置き角度などを考えなくても、適当に設置するだけでユーザが写った画像やたくさんの顔が写った集合写真などを残すことができる。なお、上記条件だけでは、各エリアに変化がない限りは、最も重要度レベルが高いエリアが同じとなり、その結果探索されるエリアがずっと変わらないことになってしまう。そこで、過去の撮影情報に応じて重要度レベルを変化させる。具体的には、所定時間継続して探索エリアに指定され続けたエリアは重要度レベルを下げたり、後述するＳ５１３にて撮影を行ったエリアでは、所定時間の間重要度レベルを下げたりしてもよい。

　（３）探索対象エリアの決定
　前記のように各エリアの重要度レベルが算出されたら、重要度レベルが高いエリアを探索対象エリアとして決定する。そして、探索対象エリアを画角に捉えるために必要なパン・チルト探索目標角度を算出する。

　Ｓ５０６では、第１制御部２２３は、パン・チルト駆動を行う。具体的には、像振れ補正量とパン・チルト探索目標角度に基づいた制御サンプリングでの駆動角度を加算することで、パン・チルト駆動量を算出し、鏡筒回転駆動部２０５によって、チルト回転ユニット１０４、パン回転ユニット１０５をそれぞれ駆動制御する。

　Ｓ５０７では第１制御部２２３は、ズームユニット２０１を制御しズーム駆動を行う。具体的には、Ｓ５０５で決定した探索対象被写体の状態に応じてズームを駆動させる。例えば、探索対象被写体が人物の顔であるとき、画像上の顔が小さすぎると検出可能な最小サイズを下回ることで検出ができず、見失ってしまう恐れがある。そのような場合は、望遠側にズームすることで画像上の顔のサイズが大きくなるように制御する。一方で、画像上の顔が大きすぎる場合、被写体や撮像装置自体の動きによって被写体が画角から外れやすくなってしまう。そのような場合は、広角側にズームすることで、画面上の顔のサイズが小さくなるように制御する。このようにズーム制御を行うことで、被写体を追跡するのに適した状態を保つことができる。

　Ｓ５０５乃至Ｓ５０７では、パン・チルトやズーム駆動により被写体探索を行う方法を説明したが、広角なレンズを複数使用して全方位を一度に撮影する撮像システムで被写体探索を行ってもよい。全方位カメラの場合、撮像によって得られる信号すべてを入力画像として、被写体検出などの画像処理を行うと膨大な処理が必要となる。そこで、画像の一部を切り出して、切り出した画像範囲の中で被写体の探索処理を行う構成にする。上述した方法と同様にエリア毎の重要レベルを算出し、重要レベルに基づいて切り出し位置を変更し、後述する自動撮影の判定を行う。これにより画像処理による消費電力の低減や高速な被写体探索が可能となる。

　Ｓ５０８では、第１制御部２２３は、頻度パラメータの読み込みを行う。頻度パラメータとは、自動撮影のされ易さを示す設定値である。スマートデバイス３０１の専用アプリケーションを介して、「低」「中」「高」といった選択肢の中からユーザが任意の頻度に設定が可能である。頻度を「高」に設定した場合には、「低」に設定した場合に比べて、所定時間あたりに多くの枚数が撮影されるようになる。「中」の設定は「低」と「高」の設定の間の枚数が撮影される。また、後述の頻度設定処理によって、自動的に変更され得る。

　Ｓ５０９では、第１制御部２２３は、読み込んだ頻度パラメータが所定の値であるかを判定する。例えば、自動撮影を行う頻度として「最高」が設定されている場合には、Ｓ５１０へ進み、そうでない場合にはＳ５１２へ進む。なお、頻度が「最高」という設定は後述の頻度設定処理により自動的に変更された設定であり、スマートデバイス３０１の専用アプリケーションを用いた通常のユーザによる頻度の設定では、上記の通り「低」「中」「高」の選択肢から設定される。すなわちユーザ操作による設定では頻度「最高」には設定されない。

　Ｓ５１０では、第１制御部２２３は、後述するＳ７０５で開始した頻度パラメータの設定を「最高」から元に戻すまでの頻度ブースト時間が終了しているかを判定する。終了している場合にはＳ５１１へ進み、そうでない場合にはＳ５１２へ進む。

　Ｓ５１１では、第１制御部２２３は、頻度ブースト時間が終了していたため、頻度パラメータを「最高」に設定される前の頻度設定に元に戻す。このとき、頻度ブースト時間中に、自動撮影によって所定枚数以上の撮影が行われた場合には、現在のシーンが撮影すべきシーンであると判断できるため、頻度ブースト時間を延長してもよい。そうすることで、さらにユーザが撮って欲しいシーンを撮り続けることができる。

　Ｓ５１２では、第１制御部２２３は、自動撮影を行うかどうかの判定を行う。

　ここで、自動撮影を行うかどうかの判定について説明する。自動撮影を行うかどうかの判定は、重要度スコアが所定値を超えるかどうかで行われる。重要度スコアとは、自動撮影を行うかどうかの判定に用いるパラメータであり、探索エリアを決定するための重要度レベルとは異なるものである。重要度スコアは、被写体の検出状況と時間経過に応じて得点が加点される。例えば、重要度スコアが２０００点を超えると自動撮影を行われるよう設計する場合を考える。この場合、まず、重要度スコアは初期値が０点であり、自動撮影のモードに入った時点からの時間経過によって加点されていく。優先度の高い被写体がいなければ、例えば１２０秒後に２０００点に達するような増加率で増加していく。優先度の高い被写体が検出されないまま１２０秒が経過した場合、時間経過による加点によって２０００点に達し、撮影が行われる。また、時間経過中に優先度の高い被写体を検出すると１０００点が加点される。このため、優先度の高い被写体が検出されている状態では、２０００点に達しやすくなり、結果的に撮影頻度が上がることになりやすい。

　また、例えば被写体の笑顔を認識した場合は、８００点が加点される。なお、この笑顔に基づく加点は、優先度の高い被写体でなくとも加点される。また、本実施形態では、笑顔に基づく加点の点数は優先度の高い被写体であるか否かに関わらず同じ点数である場合を例に挙げて説明するが、これに限られるものではない。例えば優先度の高い被写体の笑顔を検知したことに応じた加点の点数を、優先度が高くない被写体の笑顔を検知したことに応じた加点の点数よりも高くしてもよい。このようにすることで、よりユーザの意図に沿った撮影を行うことが可能になる。これらの被写体の表情変化に伴う加点により２０００点を超えれば自動撮影される。また、表情変化に伴う加点で２０００点を超えなくとも、その後の時間経過による加点で２０００点により短い時間で到達する。

　なお、時間経過による加点は、例えば１２０秒で２０００点になるよう加点する場合、１秒ごとに２０００／１２０点だけ加点する、すなわち時間に対して線形に加点する場合を例に挙げて説明するがこれに限られるものではない。例えば、１２０秒のうち１１０秒までは加点せず、１１０秒から１２０秒までの１０秒間で、秒間２００点ずつ加点して２０００点に達するような増加の仕方にしてもよい。このようにすることで、被写体の表情変化による加点で、優先度の高低に関わらず撮影される点数に達してしまうことを防ぐことができる。時間経過に伴い線形増加する加点方法の場合、すでに時間経過により加点されている状態が長いため、優先度の低い被写体の笑顔への変化に伴う加点であっても撮影される点数に達してしまうことが多く、優先度の高低がさほど反映されにくい。かといって表情変化に伴う加点の点数を低くすると表情変化のあるタイミングを逃すことになるため、加点の点数を下げることでの対応は避けたい。そこで、１１０秒までは加点しないようにする。このようにすれば、優先度の低い被写体は加点されないまま１１０秒が経過する。一方、優先度の高い被写体は検知した時点で１０００点が加点されるようにしているため、１１０秒まで時間経過による加点がなくとも１０００点は加点された状態になる。これにより、表情変化に伴う加点が行われる場合に、優先度の低い被写体は撮影を行う点数に達する可能性を、優先度の高い被写体にくらべて抑えることができ、優先度の高低が機能しやすい。上記の説明では表情変化を例に挙げたが、加点される基準はこのほかにも声が大きくなった場合や身振り手振りが大きくなった場合などが考えられる。これらについても優先度の高低を機能させやすくするために上記のような加点方法の差を設ければよい。

　また、仮に被写体の行動によって２０００点を超えなくとも、時間経過によって必ず１２０秒で撮影されるため、一定期間まったく撮影されないということはない。

　また、途中で被写体が検出された場合、１２０秒のうち、増加を開始する時間を前倒ししてもよい。つまり、例えば６０秒の時点で優先度の高い被写体が検出された場合、それによって１０００点が加点されてもまだ２０００点を超えないが、このまま１１０秒まで増加しないのではなく、被写体を検出したのち３０秒が経過したら線形増加を始めるようにしてもよい。あるいは、１２０秒の１０秒前ではなく２０秒前に線形増加を始めるようにしてもよい。このようにすれば、優先度の高い被写体が撮影される可能性が高まるため、よりユーザの意図に沿った撮影を実現しやすくなる。

　自動撮影が行われると、重要度スコアは０点にリセットされる。再度２０００点を超えるまで自動撮影は行われない。

　ここで、頻度パラメータは、時間経過による重要度スコアの増加の仕方をコントロールするために用いられる。上記の例で被写体が検出されていない場合には自動撮影されるまで１２０秒かかるように設定されている。これは頻度パラメータが「中」の場合を例に挙げて説明したものだが、頻度ブーストの状態（頻度パラメータ「最高」）では６０秒で自動撮影が行われるように、重要度スコアの増加のさせ方を変更する。この場合、増加の仕方は１秒ごとに２０００／６０点を加点してもよいし、例えば５５秒まで加点せず、６０秒までの残り５秒で、毎秒４００点ずつ加点してもよい。後者のようにした場合の利点は上に述べた通りである。なお、ほかの頻度の例を挙げると、例えば頻度パラメータ「高」の場合は、１００秒で２０００点になるよう増加させ、頻度パラメータ「低」の場合は、２４０秒で２０００点になるよう増加させるなどと設計する。以上の通り、頻度パラメータ「最高」の場合は、最も短い時間（本実施形態の説明では６０秒の例）で少なくとも１枚撮影される頻度になる。したがって、撮影の頻度を上げるということは、加点の方法を変えることにより時間当たりに撮影される枚数を増やすことであり、撮影の頻度を下げるということは、加点の方法を変えることにより時間当たりに撮影される枚数を減らすことである。

　以上が、自動撮影を行うかどうかの判定について説明である。上記の判断により、自動撮影すると判断した場合には、Ｓ５１３へ進み、撮影しないと判断した場合には、Ｓ５０１へと進む。

　Ｓ５１３では、第１制御部２２３は、撮影処理を実行する。ここでいう撮影処理とは、静止画撮影や動画撮影が挙げられる。

　図６は、本実施形態における撮像装置１０１の音声認識処理のフローチャートである。撮像装置１０１に内蔵されたマイクに、ユーザが発した音声が入力された場合、音声入力音声処理部４０９において音声認識処理を行いユーザの操作命令を取得する。

　Ｓ６０１では、第１制御部２２３は、ウェイクワードの検出がされたかどうかの判定を行う。ウェイクワードとは、撮像装置１０１に対する具体的な指示を音声で行う音声コマンド認識を開始するための起動コマンドである。音声によって指示を行う場合、ウェイクワード認識後にコマンドワードを発生し、認識が成功する必要がある。ウェイクワードの検出がされた場合には、Ｓ６０２へ進み、検出されなかった場合には検出されるまでＳ６０１の処理を繰り返す。

　Ｓ６０２では、第１制御部２２３は、自動撮影処理を停止状態にする。ウェイクワードを認識したら、コマンドワードの待ち受け状態となるため、自動撮影処理を停止する。自動撮影の停止とは、パン・チルト動作、ズーム動作を用いた被写体探索や撮影処理の実行を指す。自動撮影を停止する目的は、ウェイクワードの次に発せられるコマンドワードの指示に素早く反応するために、自動撮影の処理を停止してコマンドワード待ち受け状態にすることが挙げられる。また、音声指示によって撮影指示を与えようとしていた場合、パン・チルトを停止することでユーザが撮影しようとしていた方向で撮影できるようにすることが挙げられる。

　Ｓ６０３では、第１制御部２２３は、ウェイクワードに認識成功をしたことをユーザに示すための認識音を鳴動させる。

　Ｓ６０４では、第１制御部２２３は、コマンドワードが検出されたかどうか判定を行う。コマンドワードが検出された場合にはＳ６０６に進み、検出されなかった場合にはＳ６０５に進む。

　Ｓ６０５では、第１制御部２２３は、ウェイクワードを検出し、コマンドワード待ち受け状態になってから所定時間が経過したかを判定する。所定時間が経過した場合にはＳ６０１に進み、コマンドワードの待ち受け状態を止めて、ウェイクワードの待ち受け状態となる。所定時間が経過していない場合には、コマンドワードが検出されるまでＳ６０４を繰り返す。

　Ｓ６０６では、第１制御部２２３は、検出されたコマンドワードが静止画撮影コマンドかどうかの判定を行う。この静止画撮影コマンドは、撮像装置１０１に対して１枚の静止画の撮影・記録の実行要求を行うコマンドである。静止画撮影コマンドと判定した場合にはＳ６０７へ進み、そうでない場合にはＳ６０８へ進む。

　Ｓ６０７では、第１制御部２２３は、静止画撮影処理を行う。具体的には、撮像部２０６にて撮影した信号を画像処理部２０７において、例えばＪＰＥＧファイルに変換し、画像記録部２０８にて記録媒体２２１に記録を行う。

　Ｓ６０８では、第１制御部２２３は、検出されたコマンドワードが被写体探索コマンドかどうかの判定を行う。被写体探索コマンドと判定した場合にはＳ６０９へ進み、そうでない場合にはＳ６１０へ進む。

　Ｓ６０９では、第１制御部２２３は、被写体探索処理を行う。すでにＳ５０５での被写体探索処理によって探索対象エリアが決定され、Ｓ５０６のパン・チルト駆動、Ｓ５０７のズーム駆動によって被写体を捉えている状態であれば、その被写体を追跡することを中止し、他の被写体を探すため、被写体探索処理を実行する。これは、被写体を捉えている状態で、ユーザが被写体探索を指示したのであれば、現在捉えている被写体とは別に撮影してほしい被写体が存在することを意味するためである。

　Ｓ６０７乃至Ｓ６０９の処理が完了後には、Ｓ６１０において、頻度設定処理を行う。頻度設定処理では、所定時間内にどのくらいの枚数の撮影を行うかの頻度パラメータを設定する処理である。処理内容の詳細については後述するが、Ｓ６１０で実行される頻度設定処理では撮影の頻度がより高くなるように設定される。

　Ｓ６１１では、第１制御部２２３は、検出されたコマンドワードが動画記録開始コマンドかどうかの判定を行う。動画撮影コマンドは、撮像装置１０１に対して動画像の撮像と記録を要求するコマンドである。動画記録開始コマンドと判定した場合にはＳ６１２へ進み、そうでない場合にはＳ６１３へ進む。

　Ｓ６１２では、第１制御部２２３は、撮像部２０６を用いて動画像の撮影を開始し、記録媒体２２１へ記録を行う。動画の記録中は、パン・チルトやズーム駆動は行わず、被写体の探索は行わず、自動撮影は停止の状態を維持し続ける。

　Ｓ６１３では、第１制御部２２３は、検出されたコマンドワードが動画記録停止コマンドかどうかの判定を行う。動画記録停止コマンドと判定した場合にはＳ６１４へ進み、そうでない場合にはＳ６１５へ進む。

　Ｓ６１４では、第１制御部２２３は、撮像部２０６を用いた動画像の撮影・記録を停止し、記録媒体２２１へ動画ファイルとしての記録を完了させる。

　Ｓ６１５では、第１制御部２２３は、音声コマンドにおけるその他の処理を実行する。例えば、ユーザの指定した方向にパン・チルトを行うコマンドに対する処理や、露出補正など各種撮影パラメータを変更するコマンドに対する処理を行う事が挙げられる。

　Ｓ６１６、Ｓ６１７では、第１制御部２２３は、Ｓ６０２にて停止した自動撮影に対して再開処理を行う。これによって、Ｓ５０２～Ｓ５１０の処理が動作可能となり自動撮影が再開される。

　このとき、動画の記録開始、記録停止の指示の場合には頻度設定処理は実行してない。これは、動画の記録開始後は連続して撮像部２０６からの信号を記録するため頻度設定を高く設定する意味がないことが理由である。また、動画の記録停止後は、ユーザが記録停止を指示したということは、記録に残すべきシーンが終わったことを示すので、いたずらに頻度を高く設定して無駄な画像を撮影しないようにするためである。

　また、撮像装置１０１が持つ電池残量などが少ない場合や、撮像装置１０１が発熱により所定温度以上になっている場合では、撮像部２０６などを頻繁に動作させないことが好ましい。このような状況では、後述図７のＳ７０４による頻度パラメータを「最高」に設定しないようにしてもよい。

　図７は、本実施形態における撮像装置１０１の頻度設定処理のフローチャートである。ユーザが自動撮影を行う頻度を設定する手段としては、スマートデバイス３０１内の専用アプリケーションを介して行う方法がある。本フローチャートの処理は、図６のＳ６１０の実行に応じても開始される。さらに、スマートデバイス３０１内の専用アプリケーションを介してユーザが頻度の変更を指示したことに応じても開始される。

　Ｓ７０１では、第１制御部２２３は、スマートデバイス３０１内の専用アプリケーションを介した頻度設定であるかを判定する。専用アプリケーションを介した頻度設定である場合にはＳ７０２に進み、そうでない場合（例えばＳ６１０で実行される場合）にはＳ７０３に進む。

　Ｓ７０２では、第１制御部２２３は、ユーザが指示した頻度パラメータに設定を行う。例えば、図９のようにスマートデバイス３０１内の専用アプリケーションの画面において、自動撮影頻度の項目から「低」・「中」・「高」を選択することで設定が可能である。

　ここで、図９のアプリケーション画面について説明する。

　スマートデバイス３０１の専用アプリケーションでは、自動的に撮影するコンテンツとして、静止画と動画が用意されている。さらに、自動的に撮影するコンテンツとして、静止画を優先するか、動画を優先するかを専用アプリケーションから設定することができる。この設定は、図９に示すように、スライダーバーのつまみをタッチ（フリック）して変更することができる。静止画を優先するよう設定された場合、動画よりも静止画を多く撮影する。また、動画を優先するよう設定された場合、静止画よりも動画を多く撮影する。

　また、撮像装置が撮像すべきシーンを探索する範囲を、正面方向から何度の範囲にするかを設定することもできる。図９の例では、正面から左右それぞれ３０度で合わせて６０度の範囲、正面から左右それぞれ９０度で合わせて１８０度の範囲、全周、の３パターンが設定できる。なお、より細かい範囲設定が可能なように数値を入力する形にしてもよい。

　また、自動的に撮像する場合、撮像されたコンテンツが多くなりすぎることが懸念される。そこで、自動的に画像を削除する機能を設け、その機能をスマートデバイス３０１から入切りできるようにしている。なお、自動的に削除される画像は、例えば撮影日時が古いものから順に削除してもよいし、重要度が低い順から削除してもよい。ここでいう重要度とは、例えば静止画の場合は、ブレが少ないかどうかや人物が写っているかどうかなど、ユーザが残したくなるであろう画像であることが予測されるパラメータを数値化したものである。また、動画の場合は、例えば人物が写っているかどうかや、会話などの人の声が記録されているかどうかなどを数値化し、重要度を算出する。そして、合計数値の高いものほど重要度が高いものとして扱う。

　以上が図９の説明である。図７の説明に戻る。

　Ｓ７０３では、第１制御部２２３は、音声認識処理から呼び出された頻度設定であるかを判定する。音声認識処理から呼び出された頻度設定である場合にはＳ７０４へ進み、そうでない場合には頻度設定処理を終了する。

　Ｓ７０４では、第１制御部２２３は、頻度パラメータをＳ７０２で設定できる頻度よりもさらに高い頻度を設定する。このようにするのは、ユーザが撮影を指示したタイミングは、少なくとも撮影してほしいタイミングであることが理由である。すなわち、ユーザが撮影を指示したタイミングでは、撮影してほしい状況であるため、時間的に近い期間では、撮影してほしいシーンが生じやすいと考えられる。この点に着目し、本実施形態の撮像装置は、ユーザの音声コマンドによる音声指示をトリガーとして、音声コマンドが入力されてから一定の期間は撮影すべきシーンと推測し、撮影頻度を高くする。これによりユーザが撮って欲しい画像を逃さずに撮影することができる。本実施形態では、「最高」という頻度のパラメータに設定を行う事として説明をしているが、音声コマンド指示による頻度設定が行われる度に、頻度を段階的に高くするようにしてもよい。この場合、頻度の上限は撮像装置１０１が備える連写撮影の最速のコマ速度が上限となる。

　Ｓ７０５では、第１制御部２２３は、Ｓ７０４で「最高」に設定した頻度パラメータを、元のパラメータに戻すまでの頻度ブースト時間の設定を行い、カウントダウンを開始する。例えば、頻度設定が「中」に設定されている状態で、音声コマンド指示によって頻度設定が「最高」に設定された場合、仮に頻度ブースト時間を６０秒とすると、６０秒経過後には頻度設定が「中」に設定が戻る（実際の処理はＳ５１１で行われる）。なお、ここでいう頻度ブースト時間とは、頻度が最高の状態を維持する時間である。この頻度ブースト時間は、自動的に設定されるものだが、ユーザが任意の時間を設定できるようにしてもよい。

　このとき、この頻度ブースト時間は所定時間の経過によって設定を戻す以外に、自動撮影によって所定枚数の撮影がされるかどうかによって設定を元に戻しても良い。

　また、頻度ブースト時間のカウントダウンが終了する前に、再度音声コマンドによって再度、頻度設定が「最高」に設定された場合には、頻度設定を元に戻すまでの所定時間もしくは所定枚数を延長する。

　さらに、頻度設定を元に戻す判断として、被写体探索処理をパン方向の全方位に対して行ったかどうかで判断しても良い。

　以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

　例えば、上記実施例ではユーザからの撮影指示の手段として音声コマンドの例を用いて説明した。これに加えて、スマートデバイスやＢＬＥリモコンからの通信手段を介しての指示で撮影を指示された場合にも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。また、撮像装置内の加速度センサーを利用した特定の振動パターンによる、この振動パターンに応じた処理の実行の指示を検出した場合にも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。さらに、撮像部を通してユーザの手の動きを解析しジェスチャーによるジェスチャー指示を受けた場合でも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。

　また、本実施形態では、パン・チルト駆動とズーム駆動によって被写体を追尾することで、ユーザが欲する画像の撮影を行うことを特徴としてきた。これについては例えば、撮像手段として３６０°カメラを採用することで全方位を常時撮影し、撮影できた画像から必要な範囲の画像を切り出すことで被写体の画像を得るような実装も考えられる。このようにした場合は、常に動画記録を実行し、切り出し指示が入力されたことに応じて、静止画のフォーマットで記録を行った後、動画のフレームレートを上げるようにする。この場合でも、上述の実施形態での撮影頻度と同様に、フレームレートを設定できる最高のレートにしてもよいし、設定できる値を超えた値にしてもよい。また、上げたフレームレートを元に戻す条件も、上述の実施形態と同様に、一定時間の経過を採用すればよい。これにより、ユーザが画像の記録を望むタイミングの周辺ではより高頻度で記録することになる、その結果、例えば動体に対するピントのブレが生じていない画像を取得しやすくなるという効果が得られる。

　なお、頻度ブースト時間内に撮影タイミングが来なかった場合には、１枚も撮影されないということが考えられる。そこで、まず静止画撮影コマンドを受け付けた時点で、パン・チルトやズーム駆動は行わず、被写体の探索も行わずに１枚撮影する。続いて、被写体を探索しながら連続して３枚撮影を行う。その後、所定時間の間、頻度ブースト状態になり自動撮影を行う。こうすることで、ユーザが静止画撮影コマンドにより意図して静止画撮影を指示した場合に、１枚も撮影がされないということはなくなり、最低でも４枚は撮影されることになる。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　本願は、２０２０年１月６日提出の日本国特許出願特願２０２０－０００４５９と２０２０年９月８日提出の日本国特許出願特願２０２０－１５０３６７を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　音声を集音する集音手段と、
　前記集音手段によって集音した音声を解析する解析手段と、
　自動的に撮影を行う自動撮影手段と、
　前記自動撮影手段の撮影頻度を設定する設定手段と、
　を有し、
　前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする撮像装置。
　前記自動撮影手段は、撮像装置のパン、チルト、およびズームを自動的に行い、被写体を追尾して自動的に静止画もしくは動画の撮影を行うことを特徴とする請求項１に記載の撮像装置。
　前記設定手段によって設定される頻度は、ユーザが任意に設定できる頻度よりも、さらに高い頻度で設定されることを特徴とする請求項１に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定されてから、所定時間が経過した場合に、撮影頻度を元に戻すことを特徴とする請求項１に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定された状態で、前記自動撮影手段によって所定枚数以上の撮影が行われた場合には、前記所定時間を延長することを特徴とする請求項４に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定された状態で、前記解析手段によって特定の音声指示を認識した場合には、前記所定時間を延長することを特徴とする請求項４に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定されてから、前記自動撮影手段によって所定枚数が撮影された場合に、撮影頻度を元に戻すことを特徴とする請求項１に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定された状態で、前記自動撮影手段によって所定枚数以上の撮影が行われた場合には、前記所定枚数を増やすことを特徴とする請求項７に記載の撮像装置。
　前記設定手段によって撮影頻度をより高く設定された状態で、前記解析手段によって特定の音声指示を認識した場合には、前記所定枚数を増やすことを特徴とする請求項７に記載の撮像装置。
　撮像装置の向きを変更する回転手段をさらに有し、前記設定手段によって撮影頻度をより高く設定された後、前記回転手段によって全方位の被写体を探索した場合に、撮影頻度を元に戻すことを特徴とする請求項１に記載の撮像装置。
　前記解析手段によって解析された前記特定の音声指示が、撮影指示であった場合に、前記設定手段によって撮影頻度をより高く設定することを特徴とする請求項１に記載の撮像装置。
　前記解析手段によって解析された前記特定の音声指示が、被写体を探索する指示であった場合に、前記設定手段によって撮影頻度をより高く設定することを特徴とする請求項１に記載の撮像装置。
　前記解析手段によって解析された前記特定の音声指示が、動画の記録を開始させる指示であった場合には、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項１に記載の撮像装置。
　前記解析手段によって解析された前記特定の音声指示が、動画の記録を停止させる指示であった場合には、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項１に記載の撮像装置。
　撮像装置の電池残量が所定の量よりも少ない場合には、前記解析手段によって解析された音声が前記特定の音声指示であったとしても、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項１に記載の撮像装置。
　撮像装置の温度が所定の温度より高い温度の場合には、前記解析手段によって解析された音声が前記特定の音声指示であったとしても、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項１に記載の撮像装置。
　携帯端末からの通信手段を介しての特定の指示、撮像装置の加速度センサーを利用した特定の振動パターンを検出した場合、もしくは、ユーザの手の動きによって指示を実現するジェスチャー指示による特定の指示がされた場合であっても、前記設定手段によって頻度を高く設定することを特徴とする請求項１に記載の撮像装置。
　音声を集音する集音手段を有する撮像装置の制御方法であって、
　前記集音手段によって集音した音声を解析する解析ステップと、
　自動的に撮影を行う自動撮影ステップと、
　前記自動撮影ステップにおける撮影頻度を設定する設定ステップとを有し、
　前記解析ステップによって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定ステップを実行し、撮影頻度を高く設定することを特徴とする撮像装置の制御方法。
　コンピュータを、請求項１乃至１７のいずれか１項に記載の撮像装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。