WO2021251298A1

WO2021251298A1 - 画像処理装置およびその制御方法

Info

Publication number: WO2021251298A1
Application number: PCT/JP2021/021400
Authority: WO
Inventors: 貴弘宇佐美; 寧司大輪; 浩靖形川; 友貴植草; 徹相田; 侑弘小貝; 浩之谷口
Original assignee: キヤノン株式会社
Priority date: 2020-06-12
Filing date: 2021-06-04
Publication date: 2021-12-16
Also published as: CN115812309A; US20230116274A1

Abstract

消費電力を抑制しながら良好な性能を実現する被写体追尾機能を備えた画像処理装置およびその制御方法が開示される。画像処理装置は、第１の追尾手段と、第１の追尾手段よりも処理精度が高いが演算負荷が大きい第２の追尾手段を有する。画像処理装置は、追尾処理を適用する処理対象のフレームに基づいて決定した、追尾対象とする被写体領域について、追尾の難度に関する評価値を算出する。画像処理装置は、評価値に基づいて、処理対象のフレームの後のフレームについて、第１の追尾手段および第２の追尾手段の両方を有効にするか、第１の追尾手段および第２の追尾手段の少なくとも一方を無効にする。

Description

画像処理装置およびその制御方法

　本発明は画像処理装置およびその制御方法に関し、特に、被写体の追尾技術に関する。

　デジタルカメラなどの画像処理装置には、顔領域などの特徴領域の検出を経時的に適用することにより、特徴領域を追尾する機能（被写体追尾機能）を有するものがある。また、学習済みのニューラルネットワークを用いて被写体を追尾する装置も知られている（特許文献１）。

特開２０１７－１５６８８６号公報

　ニューラルネットワークを用いることにより、画像領域間の相関や類似性などを用いる場合よりも被写体追尾の精度を向上させることができる場合がある。しかしながら、ニューラルネットワークを用いた処理は演算量が多く、高速なプロセッサや大規模な回路が必要となるため、消費電力が大きいという問題がある。例えば、ライブビュー表示用の動画像に対してニューラルネットワークを用いた被写体追尾を適用した場合、ライブビュー表示による電池の消耗が問題となる。

　本発明はこのような従来技術の課題に鑑みなされたものである。本発明は、消費電力を抑制しながら良好な性能を実現する被写体追尾機能を備えた画像処理装置およびその制御方法の提供を目的とする。

　本発明の一観点によれば、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、候補領域から、追尾対象とする被写体領域を決定する決定手段と、決定手段が決定した被写体領域について、追尾の難度に関する評価値を算出する算出手段と、処理対象のフレームにおける、処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段であって、第１の追尾手段と第２の追尾手段とを有する追尾手段と、評価値に基づいて、処理対象のフレームより後のフレームに対する第１の追尾手段と第２の追尾手段の動作を決定する制御手段と、を有し、第２の追尾手段は、第１の追尾手段よりも処理精度が高いが演算負荷が大きく、制御手段は、評価値に基づいて、第１の追尾手段および第２の追尾手段の両方を有効にするか、第１の追尾手段および第２の追尾手段の少なくとも一方を無効にする、ことを特徴とする画像処理装置が提供される。

　本発明の別の観点によれば、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、候補領域から、追尾対象とする被写体領域を決定する決定手段と、処理対象のフレームにおける、処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段であって、第１の追尾手段と第２の追尾手段とを有する追尾手段と、検出手段により検出した被写体の種類に基づいて、処理対象のフレームより後のフレームに対する第１の追尾手段と第２の追尾手段の動作を決定する制御手段と、を有し、第２の追尾手段は、第１の追尾手段よりも処理精度が高いが演算負荷が大きく、制御手段は、検出手段により検出した被写体の種類に基づいて、第１の追尾手段および第２の追尾手段の両方を有効にするか、第１の追尾手段および第２の追尾手段の少なくとも一方を無効にする、ことを特徴とする画像処理装置が提供される。

　本発明のさらに別の観点によれば、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、候補領域の検出結果に基づいて、候補領域から追尾処理の対象となる領域を決定する決定処理の難度に関する評価値を算出する算出手段と、第１の決定手段と第２の決定手段とを有し、検出手段が検出した候補領域に対して決定処理を行う対象決定手段と、評価値に基づいて、第１の決定手段と第２の決定手段の動作を制御する制御手段と、を有し、第２の決定手段は、第１の決定手段よりも処理精度が高いが演算負荷が大きく、制御手段は、評価値に基づいて、第１の決定手段と第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、ことを特徴とする画像処理装置が提供される。

　本発明のさらに別の観点によれば、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、第１の決定手段と、第１の決定手段よりも精度が高いが演算負荷が大きい第２の決定手段とを有し、検出手段が検出した候補領域から追尾処理の対象となる領域を決定する決定処理を行う対象決定手段と、候補領域の検出結果に基づいて、第１の決定手段と第２の決定手段の動作を制御する制御手段と、を有し、制御手段は、検出された候補領域の種類および数に基づいて、第１の決定手段と第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、ことを特徴とする画像処理装置が提供される。

　本発明のさらに別の観点によれば、コンピュータを、本発明に係る電子機器が有する制御手段として機能させるためのプログラムを格納したnon-transitoryな機械可読媒体が提供される。

　本発明によれば、消費電力を抑制しながら良好な性能を実現する被写体追尾機能を備えた画像処理装置およびその制御方法を提供することができる。

　本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。

　添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
第１実施形態に係る撮像装置の機能構成例を示すブロック図第１実施形態に係る撮像装置における被写体追尾結果の表示例を示す図第１実施形態に係る撮像装置における被写体追尾結果の表示例を示す図第１実施形態における難度スコアの算出処理に関するフローチャート第１実施形態における難度スコアに基づく制御動作に関するフローチャート第１実施形態に係る撮像装置の処理に関する例示的なタイミングチャート第１実施形態における追尾処理結果の利用に関するタイミングチャート第１実施形態における基本的なライブビュー表示動作に関するフローチャート第１実施形態における被写体追尾時のライブビュー表示動作に関するフローチャート第１実施形態における被写体追尾時のライブビュー表示動作に関するフローチャート第２実施形態に係る撮像装置の機能構成例を示すブロック図第２実施形態における被写体追尾時のライブビュー表示例を示す図第２実施形態における難度スコアの算出処理に関するフローチャート第２実施形態における難度スコアの算出処理に関するフローチャート第２実施形態における難度スコアに基づく制御動作に関するフローチャート第２実施形態における難度スコアを用いない制御動作に関するフローチャート第２実施形態に係る撮像装置の処理に関する例示的なタイミングチャート第２実施形態における追尾対象の被写体領域の決定方法に関するフローチャート第２実施形態における追尾対象の被写体領域の決定方法に関するフローチャート第２実施形態における被写体追尾時のライブビュー表示動作に関するフローチャート第３～第８実施形態に係る撮像装置の機能構成例を示すブロック図実施形態に係る視線情報取得部置の構成を示す図第３実施形態における被写体検出部の有効無効制御に関する機能ブロックを示す図第３実施形態におけるシステム制御部の動作に関するフローチャート第３実施形態におけるシステム制御部の動作に関するフローチャート第３実施形態におけるシステム制御部の動作に関するフローチャート第４実施形態におけるシステム制御部の動作に関するフローチャート第５実施形態におけるシステム制御部の動作に関するフローチャート第６実施形態におけるシステム制御部の動作に関するフローチャート第７実施形態におけるシステム制御部の動作に関するフローチャート第８実施形態におけるシステム制御部の動作に関するフローチャート第９～第１８実施形態に係る撮像装置の機能構成例を示すブロック図第９実施形態におけるシステム制御部の動作に関するフローチャート第１０実施形態におけるシステム制御部の動作に関するフローチャート第１１実施形態におけるシステム制御部の動作に関するフローチャート第１２実施形態におけるシステム制御部の動作に関するフローチャート第１３実施形態におけるシステム制御部の動作に関するフローチャート第１４実施形態におけるシステム制御部の動作に関するフローチャート第１５実施形態におけるシステム制御部の動作に関するフローチャート第１６実施形態におけるシステム制御部の動作に関するフローチャート第１７実施形態におけるシステム制御部の動作に関するフローチャート第１８実施形態におけるシステム制御部の動作に関するフローチャート第１２実施形態における撮像装置の背面外観例を示す図

　以下、添付図面を参照して本発明をその例示的な実施形態に基づいて詳細に説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定しない。また、実施形態には複数の特徴が記載されているが、その全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

　なお、以下の実施形態では、本発明をデジタルカメラなどの撮像装置で実施する場合に関して説明する。しかし、撮像装置は本発明を適用可能な画像処理装置の単なる一例であり、本発明は画像処理が可能な任意の電子機器で実施可能である。このような電子機器には、コンピュータ機器（パーソナルコンピュータ、タブレットコンピュータ、メディアプレーヤ、ＰＤＡなど）、携帯電話機、スマートフォン、ゲーム機、ロボット、ドローン、ドライブレコーダが含まれる。これらは例示であり、本発明は他の電子機器でも実施可能である。

●＜第１実施形態＞
　図１は第１実施形態に係る画像処理装置の一例としての撮像装置１００の機能構成例を示すブロック図である。
　光学系１０１はフォーカスレンズなどの可動レンズを含む複数枚のレンズを有し、撮影範囲の光学像を撮像素子１０３の結像面に形成する。

　制御部１０２は、ＣＰＵを有し、例えばＲＯＭ１２３に記憶されたプログラムをＲＡＭ１２２に読み込んで実行する。制御部１０２は、各機能ブロックの動作を制御することにより、撮像装置１００の機能を実現する。ＲＯＭ１２３は例えば書き換え可能な不揮発性メモリであり、制御部１０２のＣＰＵが実行可能なプログラム、設定値、ＧＵＩデータなどを記憶する。ＲＡＭ１２２は、制御部１０２のＣＰＵが実行するプログラムを読み込んだり、プログラムの実行中に必要な値を保存したりするために用いられるシステムメモリである。なお、図１では省略しているが、制御部１０２は各機能ブロックと通信可能に接続されている。

　撮像素子１０３は、例えば原色ベイヤ配列のカラーフィルタを有するＣＭＯＳイメージセンサであってよい。撮像素子１０３には光電変換領域を有する複数の画素が２次元配置されている。撮像素子１０３は、光学系１０１が形成する光学像を複数の画素によって電気信号群（アナログ画像信号）に変換する。アナログ画像信号は撮像素子１０３が有するＡ／Ｄ変換器によってデジタル画像信号（画像データ）に変換されて出力される。Ａ／Ｄ変換器は撮像素子１０３の外部に設けられてもよい。

　評価値生成部１２４は、撮像素子１０３から得られる画像データから、自動焦点検出（ＡＦ）に用いる信号や評価値を生成したり、自動露出制御（ＡＥ）に用いる評価値を算出したりする。評価値生成部１２４は、生成した信号および評価値を制御部１０２に出力する。制御部１０２は、評価値生成部１２４から得られる信号や評価値に基づいて、光学系１０１のフォーカスレンズ位置を制御したり、撮影条件（露光時間、絞り値、ＩＳＯ感度など）を決定したりする。評価値生成部１２４は、後述する後処理部１１４が生成する表示用画像データから信号や評価値を生成してもよい。

　第１前処理部１０４は、撮像素子１０３から得られる画像データに対して色補間処理を適用する。色補間処理は、デモザイク処理などとも呼ばれ、画像データを構成する画素データのそれぞれが、Ｒ成分、Ｇ成分、Ｂ成分の値を有するようにする処理である。また、第１前処理部１０４は、必要に応じて画素数を削減する縮小処理を適用してもよい。第１前処理部１０４は、処理を適用した画像データを表示用メモリ１０７に格納する。

　第１画像補正部１０９は、表示用メモリ１０７に格納された画像データに対してホワイトバランス補正処理およびシェーディング補正処理といった補正処理や、ＲＧＢ形式からＹＵＶ形式への変換処理などを適用する。なお、第１画像補正部１０９は、補正処理を適用する際、表示用メモリ１０７に格納されている画像データのうち、処理対象フレームとは異なる１フレーム以上の画像データを用いてもよい。第１画像補正部１０９は、例えば、処理対象のフレームより時系列で前および／または後のフレームの画像データを補正処理に用いることができる。第１画像補正部１０９は、処理を適用した画像データを、後処理部１１４に出力する。

　後処理部１１４は、第１画像補正部１０９から供給される画像データから、記録用画像データや表示用画像データを生成する。後処理部１１４は、例えば画像データに符号化処理を適用し、符号化した画像データを格納するデータファイルを記録用画像データとして生成する。後処理部１１４は、記録用画像データを記録部１１８に供給する。

　また、後処理部１１４は、第１画像補正部１０９から供給される画像データから、表示部１２１に表示するための表示用画像データを生成する。表示用画像データは、表示部１２１での表示サイズに応じたサイズを有する。後処理部１１４は表示用画像データを情報重畳部１２０に供給する。

　記録部１１８は、後処理部１１４で変換された記録用画像データを記録媒体１１９に記録する。記録媒体１１９は、例えば半導体メモリカード、内蔵不揮発性メモリなどであってよい。

　第２前処理部１０５は、撮像素子１０３が出力する画像データに対して色補間処理を適用する。第２前処理部１０５は、処理を適用した画像データを追尾用メモリ１０８に格納する。追尾用メモリ１０８と表示用メモリ１０７とは同一メモリ空間内の別アドレス空間として実装されてもよい。また、第２前処理部１０５は、処理負荷を軽減するために必要に応じて画素数を削減する縮小処理を適用してもよい。なお、ここでは第１前処理部１０４と第２前処理部１０５とを別個の機能ブロックとして記載したが、共通の前処理部を用いる構成としてもよい。

　第２画像補正部１０６は、追尾用メモリ１０８に格納された画像データに対してホワイトバランス補正処理およびシェーディング補正処理といった補正処理や、ＲＧＢ形式からＹＵＶ形式への変換処理などを適用する。また、第２画像補正部１０６は、被写体検出処理に適した画像処理を画像データに適用してもよい。第２画像補正部１０６は、例えば、画像データの代表輝度（例えば全画素の平均輝度）が予め定められた閾値以下であれば、代表輝度が閾値以上になるよう、画像データ全体に一定の係数（ゲイン）を乗じてもよい。

　なお、第２画像補正部１０６は、補正処理を適用する際、追尾用メモリ１０８に格納されている画像データのうち、処理対象フレームとは異なる１フレーム以上の画像データを用いてもよい。第２画像補正部１０６は、例えば、処理対象のフレームより時系列で前および／または後のフレームの画像データを補正処理に用いることができる。第２画像補正部１０６は、処理を適用した画像データを、追尾用メモリ１０８に格納する。

　なお、第２前処理部１０５、第２画像補正部１０６など、被写体追尾機能に関する機能ブロックは、被写体追尾機能を実施しない場合には動作しなくてよい。また、被写体追尾機能を適用する画像データは、ライブビュー表示用もしくは記録用に撮影される動画データである。動画データは例えば３０ｆｐｓ、６０ｆｐｓ、１２０ｆｐｓといった所定のフレームレートを有する。

　検出部１１０は、１フレーム分の画像データから、予め定められた候補被写体の領域（候補領域）を１つ以上検出する。また、検出部１１０は、検出した領域ごとに、フレーム内の位置および大きさ、候補被写体の種類（自動車、飛行機、鳥、昆虫、人体、頭部、瞳、猫、犬など）を示すオブジェクトクラスとその信頼度を関連付ける。また、オブジェクトクラスごとに、検出した領域数を計数する。

　検出部１１０は、人物や動物の顔領域のような特徴領域を検出するための公知技術を用いて候補領域を検出することができる。例えば、学習データを用いて学習済みのクラス識別器として検出部１１０を構成してもよい。識別（分類）のアルゴリズムに特に制限はない。多クラス化したロジスティック回帰、サポートベクターマシン、ランダムフォレスト、ニューラルネットワークなどを実装した識別器を学習させることで、検出部１１０を実現できる。検出部１１０は、検出結果を追尾用メモリ１０８に格納する。

　対象決定部１１１は、検出部１１０が検出した候補領域から、追尾対象とする被写体領域（主被写体領域）を決定する。追尾対象の被写体領域は、例えば、オブジェクトクラス、領域の大きさなど、検出結果に含まれる項目ごとに予め付与された優先順位に基づいて決定することができる。具体的には、候補領域ごとに優先順位の合計を算出し、合計が最も小さい候補領域を追尾対象の被写体領域として決定してもよい。あるいは、特定のオブジェクトクラスに属する候補領域のうち、画像の中央もしくは焦点検出領域に最も近い候補領域や、最も大きい候補領域を追尾対象の被写体領域として決定してもよい。対象決定部１１１は、決定した被写体領域を特定する情報を追尾用メモリ１０８に格納する。

　難度判定部１１２は、対象決定部１１１が決定した追尾対象の被写体領域について、追尾の難度を示す評価値である難度スコアを算出する。例えば、難度判定部１１２は、追尾の難度に影響を与える１つ以上の要素を考慮して難度スコアを算出することができる。追尾の難度に影響を与える要素としては、被写体領域の大きさ、被写体のオブジェクトクラス（種類）、同じオブジェクトクラスに属する領域の総数、画像内の位置などが例示されるが、これらに限定されない。難度スコアの算出方法の具体例については後述する。難度判定部１１２は、算出した難度スコアを追尾制御部１１３に出力する。

　追尾制御部１１３は、難度判定部１１２が算出した難度スコアに基づいて、追尾部１１５が有する複数の追尾部のそれぞれについて、有効とするか無効とするかを決定する。本実施形態では、追尾部１１５が、演算負荷と追尾精度が異なる複数の追尾部を有する。具体的には、追尾部１１５は、深層学習（ＤＬ）を用いて被写体追尾を行うＤＬ追尾部１１６と、ＤＬを用いずに被写体追尾を行う非ＤＬ追尾部１１７とを有する。ＤＬ追尾部１１６は、非ＤＬ追尾部１１７よりも処理精度が高い反面、演算負荷が非ＤＬ追尾部１１７よりも大きいものとする。

　この場合、追尾制御部１１３は、ＤＬ追尾部１１６と非ＤＬ追尾部１１７のそれぞれについて、有効とするか無効とするかを決定する。また、追尾制御部１１３は、有効とする追尾部についての動作頻度についても併せて決定する。動作頻度とは、追尾処理を適用する頻度（ｆｐｓ）である。

　追尾部１１５は、追尾用メモリ１０８に格納された、処理対象のフレーム（現フレーム）の画像データから追尾対象の被写体領域を推定し、推定した被写体領域のフレーム内の位置と大きさを追尾結果として求める。追尾部１１５は例えば、現フレームの画像データと、現フレームより前に撮影された過去フレーム（例えば１つ前のフレーム）との画像データとを用いて、現フレーム内の追尾対象の被写体領域を推定する。追尾部１１５は、追尾結果を情報重畳部１２０に出力する。

　ここで、追尾部１１５は、過去フレームにおける追尾対象の被写体領域に対応する、処理対象のフレーム内の領域を推定するものである。つまり、処理対象のフレームについて対象決定部１１１が決定した追尾対象の被写体領域は、処理対象のフレームに対する追尾処理における追尾対象の被写体領域ではない。処理対象のフレームに対する追尾処理における追尾対象の被写体領域は、過去フレームにおける追尾対象の被写体領域である。処理対象のフレームについて対象決定部１１１が決定した追尾対象の被写体領域は、追尾対象の被写体が別の被写体に切り替わった場合に、次のフレームの追尾処理に用いられる。

　追尾部１１５は深層学習（ＤＬ）を用いて被写体追尾を行うＤＬ追尾部１１６と、ＤＬを用いずに被写体追尾を行う非ＤＬ追尾部１１７とを有する。そして、追尾制御部１１３によって有効とされた追尾部が、追尾制御部１１３によって設定された動作頻度で追尾結果を出力する。

　ＤＬ追尾部１１６は、学習済みの、畳み込み層を含む多層ニューラルネットワークを用いて、追尾対象の被写体領域の位置および大きさを推定する。より具体的には、ＤＬ追尾部１１６は、対象となりうるオブジェクトクラスごとの被写体領域についての特徴点と、特徴点が含む特徴量とを抽出する機能と、抽出した特徴点をフレーム間で対応付ける機能とを有する。したがって、ＤＬ追尾部１１６は、過去フレームの追尾対象の被写体領域についての特徴点に対応付けられる現フレームの特徴点から、現フレームにおける追尾対象の被写体領域の位置と大きさを推定することができる。

　ＤＬ追尾部１１６は、現フレームについて推定した追尾対象の被写体領域について、位置、大きさ、および信頼度スコアを出力する。信頼度スコアは、フレーム間における特徴点の対応付けの信頼度、すなわち、追尾対象の被写体領域の推定結果の信頼度を示す。信頼度スコアが、フレーム間の特徴点の対応付けの信頼度が低いことを示す場合、現フレームにおいて推定された被写体領域が、過去フレームにおける追尾対象の被写体領域とは異なる被写体に関する領域である可能性があることを示す。

　一方、非ＤＬ追尾部１１７は、深層学習を用いない手法によって、現フレームにおける追尾対象の被写体領域を推定する。ここでは、非ＤＬ追尾部１１７が、色構成の類似度に基づいて追尾対象の被写体領域を推定するものとする。しかし、過去フレームにおける追尾対象の被写体領域をテンプレートとしたパターンマッチングなど、他の方法を用いてもよい。非ＤＬ追尾部１１７は、現フレームについて推定した追尾対象の被写体領域について、位置、大きさ、および信頼度スコアを出力する。

　ここで、色構成の類似度について説明する。ここでは、説明および理解を容易にするため、過去フレームと現フレームとで追尾対象の被写体領域の形状および大きさが同一であるものとする。また、画像データがＲＧＢの色成分ごとに８ビット（値０～２５５）の深度を有するものとする。

　非ＤＬ追尾部１１７は、ある色成分（例えばＲ成分とする）について、取り得る値の範囲（０～２５５）を複数の領域に分割する。そして、非ＤＬ追尾部１１７は、追尾対象の被写体領域に含まれる画素について、Ｒ成分の値が属する領域によって分類した結果（値の範囲ごとの頻度）を、追尾対象の被写体領域の色構成とする。

　最も単純な例として、Ｒ成分の取り得る値の範囲（０～２５５）を、０～１２７のＲｅｄ１と、１２８～２５５のＲｅｄ２とに分割したものとする。そして、過去フレームにおける追尾対象の被写体領域の色構成が、Ｒｅｄ１が５０画素、Ｒｅｄ２が７０画素であったとする。また、現フレームにおける追尾対象の被写体領域の色構成が、Ｒｅｄ１が４５画素、Ｒｅｄ２が７５画素であったとする。

　この場合、非ＤＬ追尾部１１７は色構成の類似度を表すスコア（類似度スコア）を、同じ値の範囲に分類された画素数の差に基づいて、以下の様に算出することができる。
　類似度スコア＝｜５０－４５｜＋｜７０－７５｜＝１０

　仮に、現フレームにおける追尾対象の被写体領域の色構成が、Ｒｅｄ１が１０画素、Ｒｅｄ２が１１０画素であったとすると、類似度スコアは、
　類似度スコア＝｜５０－１０｜＋｜７０－１１０｜＝８０
となる。このように、色構成の類似度が低いほど類似度スコアは大きくなる。あるいは、類似度スコアが小さいほど、色構成の類似度が高いことを表す。

　選択部１２５は、ＤＬ追尾部１１６が出力する信頼度スコア、および非ＤＬ追尾部１１７が出力する類似度スコアに基づいて、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の追尾結果の一方を採用する。選択部１２５は例えば信頼度スコアが予め定められた信頼度スコア閾値以下、かつ類似度スコアが予め定められた類似度スコア閾値以下であった場合には、非ＤＬ追尾部１１７の追尾結果を採用し、それ以外の場合には、ＤＬ追尾部１１６の追尾結果を採用する。選択部１２５は、採用した追尾結果を、情報重畳部１２０および制御部１０２に出力する。

　なお、ここではＤＬ追尾部１１６および非ＤＬ追尾部１１７の追尾結果のいずれを採用するかを信頼度スコアおよび類似度スコアに基づいて決定した。しかし、他の方法で決定してもよい。例えば、ＤＬ追尾部１１６の精度は、非ＤＬ追尾部１１７の精度より高い傾向にあることを利用して、ＤＬ追尾部１１６の追尾結果を優先して採用してもよい。具体的には、ＤＬ追尾部１１６の追尾結果が得られていればＤＬ追尾部１１６の追尾結果を採用し、得られていなければ非ＤＬ追尾部１１７の追尾結果を採用してもよい。

　情報重畳部１２０は、追尾部１１５が出力する追尾結果に含まれる、被写体領域の大きさに基づいて、追尾枠の画像を生成する。例えば、追尾枠の画像は、被写体領域に外接する矩形の輪郭を表す枠状の画像であってよい。そして、情報重畳部１２０は、追尾結果に含まれる被写体領域の位置に追尾枠が表示されるように、後処理部１１４が出力する表示用画像データに対して追尾枠の画像を重畳させて合成画像データを生成する。情報重畳部１２０はまた、撮像装置１００の現在の設定値や状態などを表す画像を生成し、これらの画像が予め定められた位置に表示されるように、後処理部１１４が出力する表示用画像データに重畳させてもよい。情報重畳部１２０は、合成画像データを表示部１２１に出力する。

　表示部１２１は例えば液晶ディスプレイや有機ＥＬディスプレイであってよい。表示部１２１は、情報重畳部１２０が出力する合成画像データに基づく画像を表示する。以上のようにして１フレーム分のライブビュー表示が行われる。

　図２Ａおよび図２Ｂは、ライブビュー表示の例を示す図である。図２Ａは、後処理部１１４が出力する表示用画像データが表す画像８００を示す。また、図２Ｂは、表示用画像データに対して追尾枠８０３の画像を重畳した合成画像データが表す画像８０２を示す。ここでは撮影範囲に候補被写体８０１が１つだけ存在するため、候補被写体８０１が追尾対象の被写体として選択される。そして、候補被写体８０１を囲むように追尾枠８０３が重畳されている。なお、図２Ｂの例では、追尾枠８０３が４つの中空かぎ形状の組み合わせから構成されているが、中空でないかぎ形状の組み合わせ、切れ目のない枠、矩形の組み合わせ、三角形の組み合わせなど、他の形態の追尾枠８０３としてもよい。また、追尾枠８０３の形態はユーザが選択可能であってもよい。

　次に、図３のフローチャートを用いて、難度判定部１１２が実行する、追尾対象の被写体領域に関する難度スコアの算出動作についてさらに説明する。ここではオブジェクトクラスが以下のグループＡ～Ｄに分類されているものとする。グループＡ～Ｃは、追尾の難度に関して類似した特性を有するオブジェクトクラスが同じグループに属するように定められている。また、グループＤは、グループＡ～Ｃに属するオブジェクトクラスに対して重要性が低いオブジェクトクラスが分類される。

　グループＡは車オブジェクトクラス、電車オブジェクトクラス、ジェット機オブジェクトクラス、自転車オブジェクトクラス、オートバイオブジェクトクラス、ヘリコプターオブジェクトクラスなど、剛体の被写体のオブジェクトクラスを主に含む。グループＢは鳥オブジェクトクラス、昆虫オブジェクトクラスなど、動きが速く、また被写体領域の形状が大きく変化する被写体のオブジェクトクラスを主に含む。グループＣ（動物・人間）は犬オブジェクトクラス、猫オブジェクトクラス、人体オブジェクトクラスなど、顔と身体を含む被写体のオブジェクトクラスを主に含む。グループＤは他のオブジェクトクラスであり、グループＤに属するオブジェクトクラスは重要度が低いものとする。なお、グループＡ～Ｄの分類については単なる例示であり、他の観点から追尾の難度に関して分類してもよい。

　Ｓ４０１において難度判定部１１２は、難度スコアを０に初期化する。
　Ｓ４０２において難度判定部１１２は、追尾対象の被写体領域のオブジェクトクラスがグループＡに属するか否かを判定し、グループＡに属すると判定されればＳ４０６を、グループＡに属すると判定されなければＳ４０３を実行する。

　Ｓ４０６において難度判定部１１２は、難度スコアを維持する。グループＡに属するオブジェクトクラスは、比較的追尾が容易な被写体のオブジェクトクラスである。そのため、難度判定部１１２は追尾対象の被写体領域は追尾しやすいと判定し、難度スコアに加点しない（難度を高くしない）。

　Ｓ４０３において難度判定部１１２は、追尾対象の被写体領域のオブジェクトクラスがグループＢに属するか否かを判定し、グループＢに属すると判定されればＳ４０７を、グループＢに属すると判定されなければＳ４０４を実行する。

　Ｓ４０７において難度判定部１１２は、難度スコアを１加点（＋１）する。グループＢは動きが速く、形状変化も大きな被写体のオブジェクトクラスが分類されている。そのため、追尾対象の被写体領域のオブジェクトクラスがグループＢに属する場合、難度判定部１１２は追尾対象の被写体領域は追尾しづらいと判定し、難度スコアに加点する（難度を上げる）。

　Ｓ４０４において難度判定部１１２は、追尾対象の被写体領域のオブジェクトクラスがグループＣに属するか否かを判定し、グループＣに属すると判定されればＳ４０５を、グループＣに属すると判定されなければＳ４１０を実行する。

　Ｓ４０５において難度判定部１１２は、追尾対象の被写体領域内で、頭部オブジェクトクラスを有する被写体領域および、瞳オブジェクトクラスを有する被写体領域が検出されているか否かを判定する。難度判定部１１２は、追尾対象の被写体領域内で、頭部オブジェクトクラスを有する被写体領域および、瞳オブジェクトクラスを有する被写体領域が検出されていると判定されればＳ４０８を、判定されなければＳ４０９を実行する。

　Ｓ４０８において難度判定部１１２は、難度スコアを維持する。グループＣは主に犬、猫、人体のように、顔を有する被写体のオブジェクトクラスである。そして、階層関係にある頭部と瞳の両方が検出されていると判定されていることから、難度判定部１１２は追尾対象の被写体領域は追尾しやすいと判定し、難度スコアに加点しない。

　Ｓ４０９において難度判定部１１２は、難度スコアを１加点する。グループＣは主に犬、猫、人体のように、顔を有する被写体のオブジェクトクラスである。そして、階層関係にある頭部と瞳の少なくとも一方が検出されていないと判定されていることから、難度判定部１１２は追尾対象の被写体領域は追尾しづらいと判定し、難度スコアに加点する。

　Ｓ４１０において難度判定部１１２は、難度スコアを維持する。追尾対象の被写体領域はグループＤに属しており、グループＡ、グループＢ、グループＣのいずれのオブジェクトクラスでもないことから、難度判定部１１２は追尾対象の被写体領域が主要な被写体に関する領域ではないと判定し、難度スコアに加点しない。

　Ｓ４１１において難度判定部１１２は、追尾対象の被写体領域のオブジェクトクラスと同じオブジェクトクラスを有する候補領域の数が予め定められた閾値Ｎ（Ｎ≧２）以上であるか否かを判定する。難度判定部１１２は、追尾対象の被写体領域のオブジェクトクラスと同じオブジェクトクラスを有する候補領域の数が予め定められた閾値Ｎ以上であると判定されればＳ４１２を、判定されなければＳ４１３を実行する。

　Ｓ４１２において難度判定部１１２は、難度スコアを１加点する。追尾対象の被写体領域と同じオブジェクトクラスを有する候補領域の数が閾値Ｎ以上である場合、難度判定部１１２は追尾対象の被写体領域は追尾しづらいと判定し、難度スコアに加点する。

　Ｓ４１３において難度判定部１１２は、難度スコアを維持する。追尾対象の被写体領域と同じオブジェクトクラスを有する候補領域の数が閾値Ｎ未満である場合、難度判定部１１２は追尾対象の被写体領域は追尾しやすいと判定し、難度スコアを維持する。

　Ｓ４１４において難度判定部１１２は、検出部１１０が検出した候補領域が有するオブジェクトクラスの種別数が予め定められた閾値Ｏ（Ｏ≧２）以上であるか否かを判定する。難度判定部１１２は、検出部１１０が検出した候補領域が有するオブジェクトクラスの種別数が閾値Ｏ以上であると判定されればＳ４１５を、判定されなければＳ４１６を実行する。

　Ｓ４１５において難度判定部１１２は、難度スコアを１加点する。候補領域のオブジェクトクラス種別数が閾値Ｏ以上である場合、様々なオブジェクトクラスの候補領域が撮影範囲に混在しているため、追尾対象の被写体領域は追尾しづらいと判定し、難度スコアに加点する。

　Ｓ４１６において難度判定部１１２は、難度スコアを維持する。追尾対象の被写体領域のオブジェクトクラス種別数が閾値Ｏ未満である場合、難度判定部１１２は追尾対象の被写体領域が追尾部１１５にて追尾しやすい状態であると判定し、難度スコアを維持する。

　Ｓ４１７において難度判定部１１２は、算出した難度スコアを追尾制御部１１３に出力する。

　ここで説明した動作によって算出される難度スコアは０，１，２，３のいずれかの値を取る。しかし、実際にはより細かな刻みを有してもよい。実際にはここで例示したものより多くのオブジェクトクラスを、またより多くのグループに分類することができる。また、難度スコアはＳ４０２～Ｓ４０４、Ｓ４１１、Ｓ４１４の要素全てを判定する必要はなく、これらの要素のうちの少なくとも１つに基づき算出してもよい。また、難度スコアとを２値（０または１）として、難度スコア１でＤＬ追尾部１１６を有効（非ＤＬ追尾部１１７は有効または無効）、難度スコア０でＤＬ追尾部１１６を無効（非ＤＬ追尾部１１７は有効）、のように制御してもよい。

あらかじめグルーピングし、難度スコアが取りうるレンジを広くすることで、難度判定部１１２はより精度の高い難度スコアを算出できる。また、オブジェクトクラスに対して速度情報を関連付けておくことにより、追尾対象の被写体領域のオブジェクトクラスに加え、大きさと速度情報とから画像上の移動速度を推定して、難度スコアに反映させてもよい。例えば、推定される移動速度が閾値以上であれば難度スコアに加点するようにする。また、過去のフレーム（例えば１つ前のフレーム）において算出した信頼度スコアおよび類似度スコアを難度スコアの算出処理に含めてもよい。

　次に、追尾制御部１１３の動作について、図４のフローチャートを用いてさらに説明する。ここでは、難度判定部１１２が、図３を用いて説明した動作によって難度スコアを算出しているものとする。したがって、難度スコアは０から３のいずれかの値を有する。

　Ｓ５０１において追尾制御部１１３は、難度スコアが３であるか否かを判定し、難度スコアが３であると判定されればＳ５０４を、判定されなければＳ５０２を実行する。
　Ｓ５０２において追尾制御部１１３は、難度スコアが２であるか否かを判定し、難度スコアが２であると判定されればＳ５０５を、判定されなければＳ５０３を実行する。
　Ｓ５０３において追尾制御部１１３は、難度スコアが１であるか否かを判定し、難度スコアが１であると判定されればＳ５０６を、判定されなければＳ５０７を実行する。

　Ｓ５０４において追尾制御部１１３は、ＤＬ追尾部１１６を有効に、非ＤＬ追尾部１１７を無効にすることを決定する。また、追尾制御部１１３は、ＤＬ追尾部１１６の動作頻度を６０ｆｐｓ（毎フレーム）に設定する。難度スコア３は算出される難度スコアのうち、追尾の難度が最も高い状態である。そのため、追尾制御部１１３は、非ＤＬ追尾部１１７よりも性能の良いＤＬ追尾部１１６を用いることを決定する。一方、追尾制御部１１３は、非ＤＬ追尾部１１７を用いても良い結果が得られる可能性が低いと判定し、非ＤＬ追尾部１１７は用いないことを決定する。

　Ｓ５０５において追尾制御部１１３は、ＤＬ追尾部１１６と非ＤＬ追尾部１１７との両方を有効にすることを決定する。また、追尾制御部１１３は、ＤＬ追尾部１１６の動作頻度を３０ｆｐｓ（１フレームおき）に、非ＤＬ追尾部１１７の動作頻度を６０ｆｐｓに設定する。難度スコア２は追尾の難度がやや高い状態である。そのため、追尾制御部１１３は、ＤＬ追尾部１１６と非ＤＬ追尾部１１７との両方を用いることを決定する。一方で、追尾制御部１１３は、ＤＬ追尾部１１６については非ＤＬ追尾部１１７についてよりも動作頻度を低減することにより、消費電力を低減する。また、追尾制御部１１３は、非ＤＬ追尾部１１７の動作頻度を毎フレームに設定することで、追尾の追従性を維持する。

　Ｓ５０６において追尾制御部１１３は、ＤＬ追尾部１１６と非ＤＬ追尾部１１７との両方を有効にすることを決定する。また、追尾制御部１１３は、ＤＬ追尾部１１６の動作頻度を１５ｆｐｓ（２フレームおき）に、非ＤＬ追尾部１１７の動作頻度を６０ｆｐｓに設定する。難度スコア１は追尾の難度がやや低い状態である。そのため、追尾制御部１１３は、ＤＬ追尾部１１６と非ＤＬ追尾部１１７との両方を用いることを決定する。一方で、追尾制御部１１３は、ＤＬ追尾部１１６については難度スコア２の場合よりもさらに動作頻度を低減することにより、消費電力を一層低減する。一方で、追尾制御部１１３は、非ＤＬ追尾部１１７の動作頻度を毎フレームに設定することで、追尾の追従性を維持する。

　Ｓ５０７において追尾制御部１１３は、ＤＬ追尾部１１６を無効に、非ＤＬ追尾部１１７を有効にすることを決定する。また、追尾制御部１１３は、非ＤＬ追尾部１１７の動作頻度を３０ｆｐｓ（１フレームおき）に設定する。Ｓ５０７が実行されるのは難度スコア０の場合であり、追尾の難度が最も低い状態である。そのため、追尾制御部１１３は、非ＤＬ追尾部１１７で十分精度の良い結果が得られる可能性が高いと判定し、非ＤＬ追尾部１１７だけを用いることを決定する。さらに、追尾制御部１１３は、非ＤＬ追尾部１１７の動作頻度を１フレームおきとすることにより、消費電力をさらに低減させる。

　ここで説明した制御動作は単なる例示であり、難度スコアが取り得る値の範囲や値の刻みに応じて変化しうる。また、ここでは動画のフレームレートが６０ｆｐｓであるものとしたが、１２０ｆｐｓとしてもよい。この場合、非ＤＬ追尾部１１７の動作頻度を１２０ｆｐｓに設定するときには、ＤＬ追尾部１１６の動作頻度を１５ｆｐｓ未満、例えば５ｆｐｓとしてもよい。

　また、必ずしも難度スコアごとに制御を異ならせなくてもよい。例えば、難度スコアが第１の閾値以上であればＤＬ追尾部１１６を有効に、非ＤＬ追尾部１１７を無効にしたり難度スコアが第２の閾値未満であればＤＬ追尾部１１６を無効に、非ＤＬ追尾部１１７を有効にしたりしてもよい。

　図５は、撮像装置１００で被写体追尾機能を実施する際の、上述した各部の動作タイミングの例を示すタイミングチャートである。ｔ６００、ｔ６０１、ｔ６０２、ｔ６０３、ｔ６０４、ｔ６０５、ｔ６０６は各フレームにおいて検出部１１０が検出処理を開始するタイミングである。ｔ６００において、検出部１１０は最初のフレーム（０フレーム目）に対する検出処理６１０を開始する。

　検出処理６１０により検出部１１０が０フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出すると、対象決定部１１１は追尾対象の被写体領域を決定する決定処理６１１を開始する。決定処理６１１によって０フレーム目の画像データについて追尾対象の被写体領域を決定すると、難度判定部１１２が追尾対象の被写体領域の難度判定処理６１２を開始する。

　難度判定処理６１２によって難度スコアが算出され、かつ、決定処理６１１で決定した被写体領域が、直近に決定された被写体領域とは異なる被写体に関する領域である場合、追尾制御部１１３は、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の制御を見直す。具体的には、０フレーム目の画像データについて決定された追尾対象の被写体領域の難度スコアに応じて、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の有効または無効と、動作頻度とを更新する。また、追尾部１１５は、追尾対象とする被写体領域を、０フレーム目の画像データについて決定された追尾対象の被写体領域で更新する。したがって、１フレーム目の画像データについては、更新された被写体領域を追尾する。

　一方、決定処理６１１で決定した被写体領域と直近に決定された被写体領域とが同一被写体に関する領域である場合、追尾制御部１１３は、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の制御を見直さない。また、追尾部１１５は、追尾対象とする被写体領域を更新しない。

　図５において、０フレーム目、ｔ６０２より検出処理６２４が開始される２フレーム目、ｔ６０４より検出処理６３３が開始される４フレーム目、ｔ６０６より検出処理６４３が開始される６フレーム目は、追尾対象の被写体に変更がない場合である。

　一方、ｔ６０１より検出処理６１６を開始する１フレーム目の画像データについては、決定処理６１７で決定された追尾対象の被写体領域と直近に決定された被写体領域とが互いに異なる被写体に関する領域である例を示す。

　この場合、次フレームで追尾対象とする被写体を変更するため、追尾制御部１１３は難度判定処理６１８の結果を用いて、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の有効・無効制御を見直す。ここでは、次フレームに対して、非ＤＬ追尾部１１７を無効、ＤＬ追尾部１１６を有効、ＤＬ追尾部１１６の動作頻度を、０フレーム目および１フレーム目における動作頻度の倍に切り替える。

　ｔ６０３より検出処理６２９を開始する３フレーム目においても同様に追尾対象の被写体が変化し、追尾制御部１１３はＤＬ追尾部１１６および非ＤＬ追尾部１１７の有効・無効制御を見直す。ここでは、ｔ６０４より検出処理６３３を開始する４フレーム目について、ＤＬ追尾部１１６を無効、非ＤＬ追尾部１１７を有効とする。また、非ＤＬ追尾部１１７の動作頻度を０フレーム目および１フレーム目の動作頻度設定の半分の頻度とする。

　ｔ６００において、追尾部１１５は０フレーム目のＤＬ追尾処理６１３および非ＤＬ追尾処理６１４を開始する。ここでは０フレーム目の時点で追尾制御部１１３によりＤＬ追尾部１１６および非ＤＬ追尾部１１７がいずれも有効で、非ＤＬ追尾部１１７の動作頻度がＤＬ追尾部１１６の動作頻度の２倍に設定されているものとする。

　図５において、破線矩形で示されるＤＬ追尾処理および非ＤＬ追尾処理は、ＤＬ追尾部１１６および非ＤＬ追尾部１１７の動作頻度が毎フレームよりも低く設定されたことによって実行されないことを示している。

　０フレーム目において、ＤＬ追尾部１１６はＤＬ追尾処理６１３を、非ＤＬ追尾部１１７は非ＤＬ追尾処理６１４を実施し、追尾処理結果を出力する。ここでＤＬ追尾処理６１３は非ＤＬ追尾処理６１４よりも精度の高い追尾結果を出力できる。そのため、追尾部１１５は選択部１２５によってＤＬ追尾処理６１３の追尾結果を採用する。そして、情報重畳部１２０は、重畳処理６１５において、ＤＬ追尾処理６１３の追尾結果に基づく追尾枠が重畳された合成画像データを生成する。ｔ６０１において、表示部１２１は０フレーム目の合成画像データの表示処理６２３を実行する。

　ｔ６０１において、非ＤＬ追尾部１１７は１フレーム目の非ＤＬ追尾処理６２０を開始する。ＤＬ追尾部１１６は動作頻度の設定にしたがい、１フレーム目については追尾処理を行わない。１フレーム目では非ＤＬ追尾部１１７の追尾結果のみが得られるため、重畳処理６２２において情報重畳部１２０は、非ＤＬ追尾部１１７の追尾結果に基づく追尾枠が重畳された合成画像データを生成する。

　なお、非ＤＬ追尾処理はＤＬ追尾処理よりも処理負荷が低いため、ＤＬ追尾処理よりも早く終了する。ＤＬ追尾処理が行われる場合と同様のタイミングで追尾結果を出力するため、追尾部１１５は、非ＤＬ追尾部処理に続いて待ち処理６２１を実施する。ｔ６０２において、表示部１２１は１フレーム目の合成画像データの表示処理６２８を実行する。

　ｔ６０２において、ＤＬ追尾部１１６は２フレーム目のＤＬ追尾処理６２５を開始する。２フレーム目については非ＤＬ追尾部１１７が無効にされているため、非ＤＬ追尾処理は実行されない。２フレーム目ではＤＬ追尾部１１６の追尾結果のみが得られるため、重畳処理６２７において情報重畳部１２０は、ＤＬ追尾部１１６の追尾結果に基づく追尾枠が重畳された合成画像データを生成する。ｔ６０３において、表示部１２１は１フレーム目の合成画像データの表示処理６３２を実行する。

　ｔ６０３において、ＤＬ追尾部１１６は３フレーム目のＤＬ追尾処理６３０を開始する。２フレーム目のＤＬ追尾処理６２５開始前に、ＤＬ追尾部１１６の動作頻度は０フレーム目における動作頻度の倍に変更されているため、２フレーム目に続いて３フレーム目においてもＤＬ追尾処理が実行される。重畳処理６３１および表示処理６３８については２フレーム目と同様である。

　ｔ６０４において、非ＤＬ追尾部１１７は４フレーム目の非ＤＬ追尾処理６３５を開始する。４フレーム目についてはＤＬ追尾部１１６が無効であるため、ＤＬ追尾処理は実行されない。非ＤＬ追尾部１１７の動作頻度は０フレーム目、１フレーム目の動作頻度の半分に設定されているため、４フレーム目の非ＤＬ追尾処理６３５は実施されるが、５フレーム目の非ＤＬ追尾処理６４０は実施されない。待ち処理６３６、重畳処理６３７、表示処理６４２については１フレーム目と同様である。

　ｔ６０５において、追尾部１１５はＤＬ追尾処理６３９および非ＤＬ追尾処理６４０をいずれも実行しない。そのため、５フレーム目に対する重畳処理６４１において情報重畳部１２０は、４フレーム目で得られた非ＤＬ追尾処理６３５の追尾結果に基づく追尾枠を重畳した合成画像データを生成する。なお、情報重畳部１２０は、５フレーム目のようにＤＬ追尾処理および非ＤＬ追尾処理のいずれも実行されないフレームについては重畳処理において追尾枠を重畳しない合成画像データを生成してもよい。

　ｔ６０６において、非ＤＬ追尾部１１７は６フレーム目の非ＤＬ追尾処理６４４を開始する。ＤＬ追尾部１１６は無効であるため、ＤＬ追尾処理は実行されない。６フレーム目の非ＤＬ追尾処理６４４、待ち処理６４５、重畳処理６４６、表示処理６４７は４フレーム目と同様である。

　このように、追尾対象の被写体が別の被写体に切り替わった場合には、次のフレームで用いる新たな追尾対象の被写体領域について算出される難度スコアに基づいてＤＬ追尾処理、非ＤＬ追尾処理の実行の有無および動作頻度を見直す。そのため、難度スコアに応じて動的に適切な追尾処理を実行することができ、消費電力を抑えることができる。

　本実施形態における追尾処理は、処理対象のフレームより前のフレームに対する追尾結果を利用することができる。図６に示すタイミングチャートを用いて、過去の追尾結果を利用した追尾処理に関して説明する。

　ｔ７００は０フレーム目の追尾処理開始タイミングである。以降、ｔ７０ｎ（ｎ＝１，２，...）はｎフレーム目の追尾処理開始タイミングを示す。ｔ７０２、ｔ７０４においてそれぞれ追尾対象の被写体の切り替え、追尾制御部１１３によるＤＬ追尾部１１６、非ＤＬ追尾部１１７の制御の見直しを行う。

　ＤＬ追尾部１１６および非ＤＬ追尾部１１７は、有効に設定されている場合に、動作頻度に応じたフレームに対して追尾処理を実行する。また、ＤＬ追尾部１１６および非ＤＬ追尾部１１７は、処理対象フレームの追尾処理に、１つ前のフレームに対して得られた追尾結果を用いる。

　ＤＬ追尾部１１６の処理精度は、類似度などに基づく非ＤＬ追尾部１１７の処理精度よりも高い傾向にある。そのため、処理対象フレームのＤＬ追尾処理および／または非ＤＬ追尾処理には、利用可能であれば処理対象フレームの１つ前のフレームに対するＤＬ追尾処理の追尾結果を用いる。なお、処理対象フレームと１つ前のフレームとで追尾対象の被写体が異なる場合には、１つ前のフレームに対する追尾結果を用いない。

　したがって、１フレーム目の非ＤＬ追尾処理７１１は０フレーム目のＤＬ追尾処理７１０の追尾結果を用いる。１フレーム目と２フレーム目とでは追尾対象の被写体が異なるため、２フレーム目のＤＬ追尾処理７１２では、１フレーム目の追尾結果を用いない。３フレーム目のＤＬ追尾処理７１３は２フレーム目のＤＬ追尾処理７１２の追尾結果を用いる。３フレーム目と４フレーム目とでは追尾対象の被写体が異なるため、４フレーム目の非ＤＬ追尾処理７１５では、３フレーム目の追尾結果を用いない。４フレーム目ではＤＬ追尾処理７１４が実行されていないため、５フレーム目の非ＤＬ追尾処理７１６は、４フレーム目の非ＤＬ追尾処理７１５の追尾結果を用いる。

　図７は、撮像装置１００の、被写体追尾機能が有効な際のライブビュー表示動作に関するフローチャートである。
　Ｓ２００で制御部１０２は、撮像素子１０３を制御して、１フレームの撮影を行い、画像データを読み出す。
　Ｓ２０１で第１前処理部１０４は、撮像素子１０３から読み出された画像データに対して前処理を適用する。
　Ｓ２０２で第１前処理部１０４は、前処理を適用した画像データを表示用メモリ１０７に格納する。

　Ｓ２０３で第１画像補正部１０９は、表示用メモリ１０７から読み出した画像データに対し、所定の画像補正処理の適用を開始する。Ｓ２０４で第１画像補正部１０９は、適用すべき画像補正処理をすべて完了したか否かを判定し、すべて完了したと判定されれば、画像補正処理を適用した画像データを後処理部１１４に出力する。また、第１画像補正部１０９は、画像補正処理がすべて完了したと判定されなければ、画像補正処理を継続する。

　Ｓ２０５で後処理部１１４は、第１画像補正部１０９によって画像補正処理が適用された画像データから、表示用の画像データを生成し、情報重畳部１２０に出力する。

　Ｓ２０６で情報重畳部１２０は、後処理部１１４が生成した表示用の画像データと、追尾枠の画像データと、他の情報を示す画像データとを用いて、撮影画像に追尾枠や他の情報の画像が重畳した合成画像のデータを生成する。情報重畳部１２０は、合成画像データを表示部１２１に出力する。

　Ｓ２０７で表示部１２１は、情報重畳部１２０が生成した合成画像データを表示する。これにより、１フレーム分のライブビュー表示が完了する。

　図８Ａおよび図８Ｂは、撮像装置１００の被写体追尾機能の動作に関するフローチャートである。
　Ｓ３００～Ｓ３０４の処理は、表示用メモリ１０７の代わりに追尾用メモリ１０８を用いることと、画像補正処理が追尾用の画像補正処理であることとを除き、図７のＳ２００～Ｓ２０４の処理と同様である。

　Ｓ３０５で検出部１１０は、すべての画像補正処理が完了した画像データに対して、被写体領域の検出処理を実行する。検出部１１０は、検出した被写体領域（候補領域）のそれぞれについて、位置および大きさ、オブジェクトクラス、同一オブジェクトクラスに属する被写体領域の数、信頼度スコアなどを、検出結果として追尾用メモリ１０８に格納する。

　Ｓ３０６で対象決定部１１１は、追尾用メモリ１０８に格納された候補領域の情報から、追尾対象の被写体領域を１つ決定する。対象決定部１１１は、決定した追尾対象の被写体領域の情報を追尾用メモリ１０８に格納する。

　Ｓ３０７で難度判定部１１２は、追尾対象の被写体領域の情報および候補領域の情報に基づいて、及び、追尾用メモリ１０８より読み出す追尾候補被写体情報に基づいて難度スコアを算出する。また、追尾制御部１１３は、難度スコアに基づいて、ＤＬ追尾部１１６と非ＤＬ追尾部１１７の有効・無効および、有効な追尾部の動作頻度を決定する。

　Ｓ３０８で追尾部１１５は、処理対象フレームについて、ＤＬ追尾部１１６が追尾処理を実行したか否かを判定し、実行したと判定されればＳ３０９を、実行したと判定されなければＳ３１０を実行する。

　Ｓ３０９で追尾部１１５は、選択部１２５によってＤＬ追尾部１１６の追尾結果を採用して情報重畳部１２０に出力する。
　Ｓ３１０で追尾部１１５は、選択部１２５によって非ＤＬ追尾部１１７の追尾結果を採用して情報重畳部１２０に出力する。なお、非ＤＬ追尾部１１７も追尾処理を実行していない場合には、追尾結果を出力しないか、１つ前のフレームの追尾結果を出力する。

　Ｓ３１１で追尾制御部１１３は、処理対象フレームの追尾処理に用いられた被写体領域が、Ｓ３０６で決定した追尾対象の被写体領域と同一被写体に係る領域であるか否かを判定する。この判定は、追尾対象の被写体が切り替わったか否かの判定とも言える。追尾制御部１１３は、例えば、処理対象のフレームにおける追尾結果に含まれる信頼度スコアが閾値以下であれば、追尾対象の被写体が切り替わったと判定することができる。なお、これは一例であり、他の方法で判定を行ってもよい。

　追尾制御部１１３は、追尾対象の被写体が切り替わったと判定されればＳ３１２を、追尾対象の被写体が切り替わったと判定されなければＳ３１３を、実行する。

　Ｓ３１２で追尾制御部１１３は、Ｓ３０６で処理対象のフレームについて決定した追尾対象の被写体領域の難度スコアに基づいて、次フレームに対するＤＬ追尾部１１６および非ＤＬ追尾部１１７の有効・無効と、動作頻度とを決定する。

　Ｓ３１３で情報重畳部１２０は、表示用画像データと、Ｓ３０９もしくはＳ３１０で採用した追尾結果とに基づいて、追尾枠の画像が重畳された合成画像のデータを生成する。
　Ｓ３１４およびＳ３１５の処理はＳ２０６およびＳ２０７の処理と同様である。

　以上説明したように、本実施形態によれば、第１の追尾部と、第１の追尾部よりも処理精度が高いが、演算量が多い第２の追尾部とを用いる撮像装置において、追尾の難度に基づいて第１および／または第２追尾部の有効・無効を制御するようにした。そのため、良好な追尾結果が得られる可能性が低い追尾部を無効としたり、一方の処理部だけで良好な追尾結果が得られる可能性が高い場合には他方の追尾部を無効としたりすることで、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。

　追尾処理は一般に動画に対して実行されるため、第２の追尾部として、深層学習のような演算量の多い機械学習を利用する追尾部を用いる場合、消費電力の抑制効果は特に大きい。

●＜第２実施形態＞
　次に、本発明の第２実施形態について説明する。
　図９は第２実施形態に係る画像処理装置の一例である撮像装置１００'の機能構成例を示すブロック図であり、第１実施形態で説明した撮像装置１００と同じ構成には同じ参照数字を付してある。本実施形態は、追尾部ではなく対象決定部の動作を難度スコアによって制御する。

　以下、第１実施形態と異なる部分について説明する。
　本実施形態の難度判定部１１２は、追尾用メモリ１０８に格納された、検出部１１０の検出結果に基づいて、検出された候補領域から追尾対象の被写体領域を決定する処理（対象決定処理）の難度を示す評価値である難度スコアを算出する。

　例えば、難度判定部１１２は、対象決定処理の難度に影響を与える１つ以上の要素を考慮して難度スコアを算出することができる。対象決定処理の難度に影響を与える要素としては、候補領域の大きさ、候補領域のオブジェクトクラス（種類）、同じオブジェクトクラスに属する候補領域の数、画像内における候補領域の位置などが例示されるが、これらに限定されない。難度スコアの算出方法の具体例については後述する。難度判定部１１２は、算出した難度スコアを対象決定制御部１３５に出力する。

　対象決定制御部１３５は、難度判定部１１２が算出した難度スコアに基づいて、対象決定部１３０が有する複数の対象決定部のそれぞれについて、有効とするか無効とするかを決定する。本実施形態では、対象決定部１３０が演算負荷と対象決定精度が異なる複数の対象決定部を有する。具体的には、対象決定部１３０は、深層学習（ＤＬ）を用いて対象決定処理を行うＤＬ対象決定部１３１と、ＤＬを用いずに対象決定処理を行う非ＤＬ対象決定部１３２とを有する。ＤＬ対象決定部１３１は、非ＤＬ対象決定部１３２よりも処理精度が高い反面、演算負荷が非ＤＬ対象決定部１３２よりも大きいものとする。

　この場合、対象決定制御部１３５は、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２のそれぞれについて、有効とするか無効とするかを決定する。なお、検出された候補領域が１つの場合と、候補領域が検出されなかった場合、対象決定制御部１３５は、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を無効にする。

　対象決定部１３０は、検出部１１０が検出した候補領域から、追尾対象とする被写体領域（主被写体領域）を決定する。対象決定部１３０は、決定した被写体領域を特定する情報を追尾用メモリ１０８に格納する。

　対象決定部１３０は深層学習（ＤＬ）を用いて対象決定処理を行うＤＬ対象決定部１３１と、ＤＬを用いずに対象決定処理を行う非ＤＬ対象決定部１３２とを有する。そして、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２のうち、対象決定制御部１３５によって有効にされた対象決定部が、決定した被写体領域を特定する情報を出力する。

　ＤＬ対象決定部１３１は、学習済みの多層ニューラルネットワークを用いて、複数の候補領域から追尾対象の被写体領域を決定する。多層ニューラルネットワークは、例えば畳み込みニューラルネットワーク（ＣＮＮ）であってよい。多層ニューラルネットワークの学習は、例えば、候補領域のそれぞれについての、大きさ情報、画面内の位置情報、オブジェクトクラス情報、信頼度を入力データとし、正解となる主被写体領域を教師データとした学習用データを用いて実施することができる。なお、教師データは、例えば処理対象のフレームを人間が見て正解となる主被写体領域を決定することによって用意することができる。

　多層ニューラルネットワークの学習は別の装置で行ってもよいし、撮像装置１００'で行ってもよい。撮像装置１００'で行う場合には、ＤＬ対象決定部１３１を学習モードとし、学習用データ（入力データと教師データのセット）を例えば記録媒体１１９からＤＬ対象決定部１３１に供給することによって多層ニューラルネットワークを学習することができる。なお、学習は、公知の最適化アルゴリズムを用い、損失関数の値が所定値未満になるまで実施すればよい。

　多層ニューラルネットワークの学習を別の装置で行う場合、例えば別の装置で学習が完了した多層ニューラルネットワークのパラメータを例えば記録媒体１１９を通じてＤＬ対象決定部１３１に供給すればよい。別の装置で学習する多層ニューラルネットワークは、ＤＬ対象決定部１３１に実装された多層ニューラルネットワークと同様の構成とする。また、学習方法は撮像装置１００'で学習する場合と同じであってよい。

　ＤＬ対象決定部１３１は、検出部１１０で検出された候補領域のそれぞれについての、大きさ情報、画面内の位置情報、オブジェクトクラス情報、信頼度をテストデータとして学習済の多層ニューラルネットワークに与える。学習済の多層ニューラルネットワークは、候補領域それぞれに対し、例えば主被写体領域である確率を出力する。

　ＤＬ対象決定部１３１は、検出部１１０が検出した複数の候補領域のうち、多層ニューラルネットワークの出力が最も高い候補領域を追尾対象の被写体領域（主被写体領域）と決定する。そして、ＤＬ対象決定部１３１は、決定した主被写体領域の大きさ情報、画面内の位置情報、オブジェクトクラス情報を出力する。

　一方、非ＤＬ対象決定部１３２は、深層学習を用いない手法によって、複数の候補領域から追尾対象の被写体領域を決定する。非ＤＬ対象決定部は、第１実施形態の対象決定部１１１と同様にして追尾対象の被写体領域を決定することができる。非ＤＬ対象決定部１３２は、決定した被写体領域を特定する情報を追尾用メモリ１０８に格納する。

　選択部１３３は、ＤＬ対象決定部１３１が出力する主被写体領域の情報、および非ＤＬ対象決定部１３２が出力する主被写体領域の情報の一方を採用する。選択部１３３は例えば、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２が出力する主被写体領域の位置情報に基づいて、どちらの主被写体領域の情報を採用するかを決定する。選択部１３３は、例えば、撮像装置１００'で現在設定されている焦点検出領域との距離が短い方（焦点検出領域に近い方）の主被写体領域の情報を採用することができる。選択部１３３は採用した主被写体領域の情報を追尾用メモリ１０８に格納する。

　対象決定制御部１３５によって、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の両方が無効の場合、対象決定部１３０は候補領域が１つまたは検出されていないと判定する。そして、対象決定部１３０は、候補領域が１つであれば、その候補領域を主被写体領域と決定する。また、対象決定部１３０は、候補領域が１つも検出されていない場合には、主被写体の不存在を追尾部１３４に通知し、追尾処理を停止させる。

　追尾部１３４は、追尾用メモリ１０８に格納された、処理対象のフレーム（現フレーム）の画像データから追尾対象の被写体領域を推定し、推定した被写体領域のフレーム内の位置と大きさを追尾結果として求める。追尾部１３４は例えば第１実施形態における非ＤＬ追尾部１１７と同様に、色構成の類似度に基づいて追尾対象の被写体領域を推定することができる。なお、追尾対象の被写体領域の色構成情報を、過去フレームにおける追尾対象の被写体領域によって更新し、次のフレームの追尾処理を実行してもよい。

　なお、追尾部１３４は、過去フレームにおける追尾対象の被写体領域をテンプレートとしたパターンマッチングを用いて現フレームにおける追尾対象の被写体領域を推定してもよい。この場合、パターンマッチングに用いるテンプレートを、対象決定部１３０が決定した追尾対象の被写体領域で毎フレーム更新してもよい。また、追尾部１３４は、学習済みの多層ニューラルネットワークを用いて現フレームにおける追尾対象の被写体領域の位置と大きさを推定してもよい。追尾部１３４は、現フレームについて推定した追尾対象の被写体領域について、位置、大きさ、および信頼度スコアを出力する。

　情報重畳部１２０は、追尾部１３４が出力する追尾結果に含まれる主被写体領域の大きさに基づいて、追尾枠の画像を生成する。そして、情報重畳部１２０は、第１実施形態と同様にして生成した合成画像データを表示部１２１に出力する。

　図１０は、後処理部１１４が出力する表示用画像データを用いた、表示部１２１におけるライブビュー表示の例を示す図である。図１０において、破線１００４は画像の中央領域を示し、実際の表示用画像データには含まれない。画像１０１０および１０２０は、表示用画像データに追尾枠１０１５の画像が重畳された合成画像データの表示例を示す。画像１０１０は画像１０００の１フレーム後の画像であり、画像１０２０は画像１０１０から複数フレーム後の画像である。

　画像１０００において、自動車１００１、１００２、１００３が候補領域として検出された場合、対象決定部１３０は破線１００４が示す中央領域に最も近い自動車１００３の領域を追尾対象の被写体領域として決定する。その結果、１フレーム後の画像１０１０において自動車１００３の領域が追尾処理され、追尾枠１０１５が自動車１００３の領域を囲むように重畳表示されている。さらに複数フレーム後の画像１０２０においても、自動車１００３の領域に追尾枠１０１５が重畳表示される。

　画像１０３０、１０４０は候補領域が１つのみの場合のライブビュー表示の例を示す。画像１０４０は画像１０３０の１フレーム後の画像である。画像１０３０では自動車１０３１が唯一の候補領域として検出される。この場合、対象決定制御部１３５は対象決定部１３０のＤＬ対象決定部１３１および非ＤＬ対象決定部１３２をいずれも無効にする。そして、対象決定部１３０は、自動車１０３１の領域を追尾対象の被写体領域として決定する。その結果、１フレーム後の画像１０４０において、追尾対象の自動車１０３１の領域を囲むように追尾枠１０１５が重畳表示される。本実施形態においても、第１実施形態と同様、追尾枠１０１５の形状は４つの中空かぎ形状の組み合わせに限定されない。

　次に、図１１Ａおよび図１１Ｂのフローチャートを用いて、本実施形態で難度判定部１１２が実行する、追尾対象の被写体領域に関する難度スコアの算出動作についてさらに説明する。
　Ｓ１１０１において難度判定部１１２は、難度スコアを０に初期化する。

　Ｓ１１０２において難度判定部１１２は、画像中心に候補領域が存在するか否かを判定する。難度判定部１１２は例えば、図１０に破線１００４で示した画面中央の領域の一部または全部を含む候補領域が存在すれば、画像中心に候補領域が存在すると判定する。また、難度判定部１１２は例えば、破線１００４で示した画面中央の領域の一部または全部を含む候補領域が存在しなければ、画像中心に候補領域が存在しないと判定する。そして、難度判定部１１２は、画像中心に候補領域が存在すると判定されなければＳ１１０３を、画像中心に候補領域が存在すると判定されればＳ１１０４を実行する。

　なお、焦点検出領域があらかじめ設定されている場合、難度判定部１１２は、画面中央の領域の代わりに焦点検出領域に対して同様の判定を行う。そして、難度判定部１１２は、焦点検出領域に候補領域が存在すると判定されなければＳ１１０３を、焦点検出領域に候補領域が存在すると判定されればＳ１１０４を実行する。

　Ｓ１１０３において難度判定部１１２は、難度スコアを１加点（＋１）する。候補領域が焦点検出領域や画像中心に存在しない場合、難度判定部１１２は追尾対象の被写体領域を決定しづらいと判定し、難度スコアに加点する（難度を上げる）。そして、難度判定部１１２はＳ１１０５を実行する。

　Ｓ１１０４において難度判定部１１２は、難度スコアを維持する。候補領域が焦点検出領域や画像中心に存在する場合、難度判定部１１２は追尾対象の被写体領域を決定しやすいと判定し、難度スコアに加点しない（難度を高くしない）。そして、難度判定部１１２はＳ１１０５を実行する。

　Ｓ１１０５において難度判定部１１２は、候補領域の種類（オブジェクトクラスの種類）の数があらかじめ設定されている閾値Ｎ以上か否か（Ｎ種類以上の候補領域が検出されているか否か）を判定する。例えば、人オブジェクトクラス、犬オブジェクトクラス、猫オブジェクトクラス、自動車オブジェクトクラスが関連付けられた候補領域が検出されている場合、候補領域は４種類となる。閾値Ｎが３であった場合、難度判定部１１２は候補領域の種類が閾値Ｎ以上であると判定し、Ｓ１１０６を実行する。一方、犬オブジェクトクラス、猫オブジェクトクラスが関連付けられた候補領域が検出されている場合、候補領域は２種類となる。閾値Ｎが３であった場合、難度判定部１１２は候補領域の種類が閾値Ｎ以上でない判定し、Ｓ１１０７を実行する。

　Ｓ１１０６において難度判定部１１２は、難度スコアを、（候補領域の種類の数－Ｎ＋１）加点する。Ｎ種類以上の候補領域が検出されている場合、難度判定部１１２は追尾対象の被写体領域を決定しづらいと判定し、種類が多いほど多く難度スコアに加点する（難度を上げる）。そして、難度判定部１１２はＳ１１０８を実行する。

　Ｓ１１０７において難度判定部１１２は、難度スコアを維持する。候補領域の種類の数がＮ未満の場合、難度判定部１１２は追尾対象の被写体領域を決定しやすいと判定し、難度スコアに加点しない（難度を高くしない）。そして、難度判定部１１２はＳ１１０８を実行する。

　Ｓ１１０８およびＳ１１１５はその間の処理を繰り返して実行することを示す。具体的には、Ｓ１１０９からＳ１１１４の処理を、検出された候補領域の種類の数に等しい回数、繰り返して実行する。例えば、４種類の候補領域が検出されていれば、Ｓ１１０９からＳ１１１４の処理を、候補領域の種類ごとに４回繰り返して実行する。

　Ｓ１１０９で難度判定部１１２は、同じ種類（オブジェクトクラス）が関連付けられた候補領域の数があらかじめ設定されている閾値Ｍ以上か否かを判定する。例えば、検出部１１０によって、犬オブジェクトクラスの候補領域が４つ、猫オブジェクトクラスの候補領域が２つ検出されており、閾値Ｍが３であるとする。この場合、Ｓ１１０９からＳ１１１４の処理が、犬オブジェクトクラスについて１回、猫オブジェクトクラスについて１回実行される。

　犬オブジェクトクラスについての処理において、Ｓ１１０９で難度判定部１１２は、犬オブジェクトクラスの候補領域の数は４であるため、閾値Ｍ以上と判定し、Ｓ１１１０を実行する。一方、猫オブジェクトクラスについての処理において、Ｓ１１０９で難度判定部１１２は、猫オブジェクトクラスの候補領域の数は２であるため、閾値Ｍ以上でないと判定し、Ｓ１１１１を実行する。

　Ｓ１１１０において難度判定部１１２は、難度スコアを、（処理対象のオブジェクトクラスの候補領域の数－Ｍ＋１）加点する。同じオブジェクトクラスの候補領域の数が閾値Ｍ以上の場合、追尾対象の被写体領域を決定しづらいと判定し、難度スコアに加点する（難度を上げる）。そして、難度判定部１１２はＳ１１１２を実行する。

　Ｓ１１１１において難度判定部１１２は、難度スコアを維持する。同じオブジェクトクラスの候補領域の数が閾値Ｍ未満の場合、追尾対象の被写体領域を決定しやすいと判定し、難度スコアに加点しない（難度を高くしない）。そして、難度判定部１１２はＳ１１１２を実行する。

　Ｓ１１１２で難度判定部１１２は、同じオブジェクトクラスの候補領域の大きさの分散があらかじめ設定されている閾値Ｌ未満か否かを判定する。ここで、候補領域の大きさは、例えば候補領域の水平ピクセル数と垂直ピクセル数との積であってよい。また候補領域の大きさは、同じオブジェクトクラスの候補領域の中で最大の候補領域の大きさで正規化した値（≦１）とする。正規化した大きさを用い、分散を、個々の候補領域の大きさと大きさの平均値との差の二乗値の平均値として算出することができる。

　例えば、犬オブジェクトクラスの候補領域が４つ、猫オブジェクトクラスの候補領域が２つ検出され、あらかじめ設定されている閾値Ｌが０．１であったとする。また、犬オブジェクトクラスについてＳ１１１２を実行した際に、候補領域の大きさの分散が０．２であれば、難度判定部１１２は、同じオブジェクトクラスの候補領域の大きさの分散がＬ未満でないと判定し、Ｓ１１１４を実行する。一方、猫オブジェクトクラスについてＳ１１１２を実行した際に、候補領域の大きさの分散が０．００２５であれば、難度判定部１１２は、同じオブジェクトクラスの候補領域の大きさの分散がＬ未満であると判定し、Ｓ１１１３を実行する。

　Ｓ１１１３で難度判定部１１２は、難度スコアを１加点する。同じオブジェクトクラスの候補領域の大きさの分散がＬ未満である場合、同じ種類の被写体に関する候補領域が似た大きさを有していると考えられる。そのため、難度判定部１１２は、処理対象のオブジェクトクラスについて追尾対象の被写体領域を決定しづらいと判定し、難度スコアに加点する（難度を上げる）。そして、難度判定部１１２はＳ１１１５を実行する。

　Ｓ１１１４で難度判定部１１２は、難度スコアを維持する。同じオブジェクトクラスの候補領域の大きさの分散がＬ未満でない場合、同じ種類の被写体に関する候補領域の大きさにばらつきがあると考えられる。そのため、難度判定部１１２は、処理対象のオブジェクトクラスについて追尾対象の被写体領域を決定しやすいと判定し、難度スコアに加点しない（難度を高くしない）。そして、難度判定部１１２はＳ１１１５を実行する。

　検出された全ての種類（オブジェクトクラス）のそれぞれについてＳ１１０９からＳ１１１４の処理を実行すると、難度判定部１１２はＳ１１１６を実行する。
　Ｓ１１１６で難度判定部１１２は、算出した難度スコアを対象決定制御部１３５に出力する。

　なお、ここで説明した難度スコアの算出方法は一例に過ぎず、他の様々な方法で難度スコアを算出することができる。例えば、Ｓ１１０３で難度スコアを１加点する代わりに、あらかじめ設定されているゲイン係数を乗じた値を加点してもよい。また、候補領域の種類の数、同じ種類の被写体に関する（同じオブジェクトクラスに属する）候補領域の数のみを用いて難度スコアを算出してもよい。あるいは、１つの項目のみに基づいて難度スコアを算出してもよい。また、難度スコアを２値（０または１）として、難度スコア１でＤＬ対象決定部１３１を有効、難度スコア０でＤＬ対象決定部１３１を無効、のように制御してもよい。

　次に、対象決定制御部１３５の動作について、図１２のフローチャートを用いてさらに説明する。ここでは、難度判定部１１２が、図１１Ａおよび図１１Ｂを用いて説明した動作によって難度スコアを算出しているものとする。

　Ｓ１２０１において対象決定制御部１３５は、難度スコアがあらかじめ設定されている閾値Ａより大きいか否かを判定し、大きいと判定されればＳ１２０３を、判定されなければＳ１２０２を実行する。

　Ｓ１２０２において対象決定制御部１３５は、難度スコアがあらかじめ設定されている閾値Ｂ（＜Ａ）より大きいか否かを判定し、大きいと判定されればＳ１２０４を、判定されなければＳ１２０５を実行する。

　Ｓ１２０３において対象決定制御部１３５は、ＤＬ対象決定部１３１を有効に、非ＤＬ対象決定部１３２を無効にすることを決定する。難度スコアがＡよりも大きい場合、対象決定の難度が高い。そのため、対象決定制御部１３５は、非ＤＬ対象決定部１３２よりも性能の良いＤＬ対象決定部１３１を用いることを決定する。また、対象決定制御部１３５は、非ＤＬ対象決定部１３２を用いても良い結果が得られる可能性が低いと判定し、非ＤＬ対象決定部１３２は用いないことを決定する。

　Ｓ１２０４において対象決定制御部１３５は、ＤＬ対象決定部１３１を無効に、非ＤＬ対象決定部１３２を有効にすることを決定する。難度スコアがＡ以下であり、Ｂより大きい場合、対象決定の難度が中程度である。そのため、対象決定制御部１３５は、非ＤＬ対象決定部１３２で十分精度の良い結果が得られる可能性が高いと判定し、非ＤＬ対象決定部１３２だけを用いることを決定する。非ＤＬ対象決定部１３２よりも消費電力が高いＤＬ対象決定部１３１を無効にすることにより、消費電力を低減することができる。

　Ｓ１２０５において対象決定制御部１３５は、ＤＬ対象決定部１３１を無効に、非ＤＬ対象決定部１３２を無効にすることを決定する。難度スコアがＢ以下である状態は、対象決定の難度が低い。そのため、対象決定制御部１３５は、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２を用いずに対象決定可能と判定し、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の両方を無効にする。これにより、消費電力をさらに低減することができる。

　なお、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２を用いずに追尾対象の被写体領域を決定が可能であるのは、例えば、検出された候補領域が１つもしくは検出されなかった場合である。また、検出された複数の候補領域の１つが非常に大きく、かつ画面中央もしくは焦点検出領域に存在する場合も該当する。

　ここで説明した対象決定制御部１３５の動作は単なる例示である。例えば、難度スコアにごとに制御を異ならせなくてもよい。例えば、Ｓ１２０５でＳ１２０４と同様に非ＤＬ対象決定部を有効にしてもよい。あるいは、Ｓ１２０１で難度スコアがＡより大きいと判定されない場合には、直ちにＳ１２０４を実行してもよい。

　次に、図１３のフローチャートを用いて、対象決定制御部１３５が、難度スコアを用いずにＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効および無効を決定する方法の例を説明する。ここでは、対象決定制御部１３５が、検出されたオブジェクトクラスと、同一オブジェクトクラスに属する候補領域の数とを用いて、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効および無効を決定するものとする。

　なお、ここでは、ＤＬ対象決定部１３１が特定のシーン、例えば、ボールを使うスポーツのシーンに関する学習用データによって学習済みの多層ニューラルネットワークを有するものとする。学習用データは、入力データと、対応する教師データのセットである。ここで、入力データとして、ボールを使うスポーツの画像データから抽出した複数の候補領域のそれぞれの大きさ情報、画面内の位置情報、オブジェクトクラス情報、信頼度を用いることができる。また、画像データに含まれる候補領域のうち、人オブジェクトクラスに属する候補領域を正解とする教師データを用いることができる。

　このような学習を行った多層ニューラルネットワークを有するＤＬ対象決定部１３１は、撮像装置１００'によってボールを使うスポーツのシーンを撮像した場合に、精度の高い対象決定処理を行うことができる。さらに、入力データの生成に用いる画像データを、人オブジェクトクラスの候補領域の数が４以上である画像データに制限することができる。これにより、ＤＬ対象決定部１３１は、ボールを使うスポーツの、４人以上の「人」が含まれるシーンの画像に対して、より精度の高い対象決定処理を行うことができる。

　以下、ＤＬ対象決定部１３１が、ボールを使うスポーツの、４人以上の「人」が含まれるシーンの画像に対して、より精度の高い対象決定処理を行うことができる場合の対象決定制御部１３５の動作について説明する。

　Ｓ１３０１において対象決定制御部１３５は、検出部１１０によって人オブジェクトクラスの候補領域が４つ以上、かつボールオブジェクトクラスの候補領域が１つ以上検出されているか否かを判定する。対象決定制御部１３５は、人オブジェクトクラスの候補領域が４つ以上、かつボールオブジェクトクラスの候補領域が１つ以上検出されていると判定されればＳ１３０４を、判定されなければＳ１３０２を実行する。

　Ｓ１３０２において対象決定制御部１３５は、検出部１１０によって人オブジェクトクラスの候補領域が３つ、かつボールオブジェクトクラスの候補領域が１つ以上検出されているか否かを判定する。対象決定制御部１３５は、人オブジェクトクラスの候補領域が３つ以上、かつボールオブジェクトクラスの候補領域が１つ以上検出されていると判定されればＳ１３０５を、判定されなければＳ１３０３を実行する。

　Ｓ１３０１において対象決定制御部１３５は、検出部１１０によって人オブジェクトクラスの候補領域が２つ検出されているか否かを判定する。対象決定制御部１３５は、人オブジェクトクラスの候補領域が２つ以上検出されていると判定されればＳ１３０６を、判定されなければＳ１３０７を実行する。

　Ｓ１３０４において対象決定制御部１３５は、ＤＬ対象決定部１３１を有効に、非ＤＬ対象決定部１３２を無効にすることを決定する。人オブジェクトクラスの候補領域が４つ以上、かつボールオブジェクトクラスの候補領域が１つ以上検出されている場合、ＤＬ対象決定部１３１の多層ニューラルネットワークの学習に用いたシーンと同様のシーンである。そのため、対象決定制御部１３５は、ＤＬ対象決定部１３１が最適に対象決定を行えるものとして、ＤＬ対象決定部１３１だけを用いることを決定する。

　Ｓ１３０５において対象決定制御部１３５は、ＤＬ対象決定部１３１を有効に、非ＤＬ対象決定部１３２を有効にすることを決定する。人オブジェクトクラスの候補領域が３つ、かつボールオブジェクトクラスの候補領域が１つ以上検出されている場合、ＤＬ対象決定部１３１の多層ニューラルネットワークの学習に用いたシーンと類似したシーンであるが、同様のシーンではない。一方で、人オブジェクトクラスの候補領域３つについて対象決定処理を行う必要があるため、非ＤＬ対象決定部のみを有効にするだけでは精度が不十分である可能性が高い。そのため、対象決定制御部１３５は、精度の高い対象決定処理を実現するため、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を用いることを決定する。

　Ｓ１３０６において対象決定制御部１３５は、ＤＬ対象決定部１３１を無効に、非ＤＬ対象決定部１３２を有効にすることを決定する。人オブジェクトクラスの候補領域が２つ検出されている場合、その一方を追尾対象の被写体領域として選択すればよく、対象決定の難度が低い。そのため、対象決定制御部１３５は、非ＤＬ対象決定部１３２で十分精度の良い結果を得られる可能性が高いと判定し、非ＤＬ対象決定部１３２だけを用いることを決定する。非ＤＬ対象決定部１３２よりも消費電力が高いＤＬ対象決定部１３１を無効にすることにより、消費電力を低減できる。

　Ｓ１３０７において対象決定制御部１３５は、ＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を無効にすることを決定する。人オブジェクトクラスの候補領域が１つ、または１つも検出されていない場合は、対象決定の難度が最も低い。そのため、対象決定制御部１３５は、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２を用いなくとも、追尾対象の被写体領域を決定可能であると判定し、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の両方を無効にする。これにより、消費電力をさらに低減することができる。この場合、対象決定部１３０は、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２を用いず、唯一検出されている候補領域を追尾対象の被写体領域と決定し、情報を出力する。候補領域が検出されていない場合、対象決定部１３０は、例えば１フレーム前の決定結果を再度出力する。

　ここで説明した制御動作は単なる例示である。対象決定制御部１３５は、対象の画像が、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２で精度良い対象決定が可能なシーンの画像であるか否かを考慮して、有効にする対象決定部を決定することができる。

　なお、シーンの種類ごとに用意した学習用データを用いて多層ニューラルネットワークを学習して得られるパラメータを切り替えて用いることで、ＤＬ対象決定部１３１で精度よく対象決定が可能なシーンを切り替えできるように構成してもよい。例えば、撮像装置１００'で撮影しているシーンに対応した学習済みのパラメータを多層ニューラルネットワークに設定して用いることができる。

　また、撮像装置１００'がユーザの視線検出機能を有する場合、非ＤＬ対象決定部１３２は、ユーザの視線に基づいて対象決定を行ってもよい。非ＤＬ対象決定部１３２は、例えば、ユーザの注目する画像座標を含んでいる候補領域を追尾対象の被写体領域として決定することができる。

　非ＤＬ対象決定部１３２は、ユーザの視線に基づいて対象決定を行うように設定されている状態で、対象決定制御部１３５がＤＬ対象決定部１３１を有効にすることを決定した場合、対象決定制御部１３５は非ＤＬ対象決定部１３２を無効にすることができる。これは、ＤＬ対象決定部１３１が有効にされる対象決定難度が高いシーンでは、ユーザの視線が主被写体領域に定まる可能性が低いと考えられるためである。

　図１４は、撮像装置１００'で対象決定処理を含む被写体追尾機能を実施する際の、上述した各部の動作タイミングの例を示すタイミングチャートである。ｔ１４００、ｔ１４０１、ｔ１４０２、ｔ１４０３、ｔ１４０４は各フレームにおいて検出部１１０が検出処理を開始するタイミングである。ｔ１４００において、検出部１１０は最初のフレーム（０フレーム目）に対する検出処理１４１０を開始する。

　検出処理１４１０により、検出部１１０が０フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出する。難度判定部１１２は０フレーム目の画像データで検出された候補領域の情報に基づいて、図１１Ａおよび図１１Ｂを用いて説明したような難度判定処理１４１１を実行し、難度スコアを算出する。

　対象決定制御部１３５は、難度判定処理１４１１によって算出された難度スコアに基づいて、０フレーム目の画像データに対するＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効・無効を決定する。

　図１４において破線で示した対象決定処理（例えばＤＬ対象決定処理１４１２）は、その対象決定処理を実行する対象決定部（ＤＬ対象決定部１３１）が対象決定制御部１３５によって無効とされたことを示している。一方、実線で示した対象決定処理（例えば非ＤＬ対象決定処理１４１３）は、その対象決定処理を実行する対象決定部（非ＤＬ対象決定部１３２）が対象決定制御部１３５によって有効とされたことを示している。

　追尾部１３４は、対象決定部１３０から出力される追尾対象の被写体領域を対象とした追尾処理１４１４を実行する。追尾部１３４は、処理対象の画像データにおける追尾対象の被写体領域の位置を推定する。そして、追尾部１３４は、推定した、０フレーム目の画像データにおける追尾対象の被写体領域の情報（位置、大きさなど）を追尾結果として情報重畳部１２０に出力する。追尾処理１４１４を破線で示しているのは、０フレーム目では追尾対象の被写体領域が決定されておらず、実際には追尾処理が行われないためである。

　追尾枠重畳処理１４１５により情報重畳部１２０は０フレーム目の表示用画像データに追尾処理１４１４の結果に基づく追尾枠を重畳した合成画像データを生成する。なお、情報重畳部１２０を破線で示しているのは、０フレーム目においては追尾対象の被写体領域が決定されておらず、実際には追尾枠の重畳を行われないためである。

　表示処理１４１６により表示部１２１は０フレーム目の合成画像データを表示する。上述の通り、追尾枠重畳処理１４１５は実際には行われていないため、表示部１２１は追尾枠が重畳されていない表示用画像データを表示する。

　検出処理１４２０により、検出部１１０が１フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出する。難度判定部１１２は１フレーム目の画像データで検出された候補領域の情報に基づいて難度判定処理１４２１を実行し、難度スコアを算出する。

　対象決定制御部１３５は、難度判定処理１４２１によって算出された難度スコアに基づいて、１フレーム目の画像データに対するＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効・無効を決定する。ここでは、対象決定制御部１３５がＤＬ対象決定部１３１を有効に、非ＤＬ対象決定部１３２を無効にすることを決定したものとする。

　非ＤＬ対象決定処理１４２３は実際には行われないため、破線で示している。一方、ＤＬ対象決定処理１４２２はＤＬ対象決定部１３１により実行される。対象決定部１３０は、ＤＬ対象決定部１３１が決定した追尾対象の被写体領域の情報を出力する。

　追尾処理１４２４で追尾部１３４は、０フレーム目の画像について非ＤＬ対象決定処理１４１３で決定された追尾対象の被写体領域が、１フレーム目の画像データに存在する位置を推定する。そして、追尾部１３４は、推定した、１フレーム目の画像データにおける追尾対象の被写体領域の情報（位置、大きさなど）を追尾結果として情報重畳部１２０に出力する。

　追尾枠重畳処理１４２５で情報重畳部１２０は１フレーム目の表示用画像データに追尾処理１４２４の結果に基づく追尾枠を重畳した合成画像データを生成する。
　表示処理１４２６により表示部１２１は１フレーム目の合成画像データを表示する。

　検出処理１４３０により、検出部１１０が２フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出する。難度判定部１１２は２フレーム目の画像データで検出された候補領域の情報に基づいて難度判定処理１４３１を実行し、難度スコアを算出する。

　対象決定制御部１３５は、難度判定処理１４３１によって算出された難度スコアに基づいて、２フレーム目の画像データに対するＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効・無効を決定する。ここでは、検出処理１４３０において候補領域が１つしか検出されず、対象決定制御部１３５がＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を無効にすることを決定したものとする。

　したがって、ＤＬ対象決定処理１４３２および非ＤＬ対象決定処理１４３３は行われず、破線で示されている。この場合、対象決定部１３０は、唯一検出されている候補領域を追尾対象の被写体領域として決定する。

　追尾処理１４３４で追尾部１３４は、１フレーム目の画像についてＤＬ対象決定処理１４２２で決定された追尾対象の被写体領域が、２フレーム目の画像データに存在する位置を推定する。そして、追尾部１３４は、推定した、２フレーム目の画像データにおける追尾対象の被写体領域の情報（位置、大きさなど）を追尾結果として情報重畳部１２０に出力する。

　追尾枠重畳処理１４３５で情報重畳部１２０は２フレーム目の表示用画像データに追尾処理１４３４の結果に基づく追尾枠を重畳した合成画像データを生成する。
　表示処理１４３６により表示部１２１は２フレーム目の合成画像データを表示する。

　検出処理１４４０により、検出部１１０が３フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出する。難度判定部１１２は３フレーム目の画像データで検出された候補領域の情報に基づいて難度判定処理１４４１を実行し、難度スコアを算出する。

　対象決定制御部１３５は、難度判定処理１４４１によって算出された難度スコアに基づいて、３フレーム目の画像データに対するＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効・無効を決定する。ここでは、対象決定制御部１３５がＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を有効にすることを決定したものとする。

　したがって、ＤＬ対象決定部１３１はＤＬ対象決定処理１４４２を、非ＤＬ対象決定部１３２は非ＤＬ対象決定処理１４４３を、それぞれ実行する。そして、ＤＬ対象決定処理１４４２と非ＤＬ対象決定処理１４４３の結果の一方を、選択部１３３で選択し、３フレーム目について決定された追尾対象の被写体領域の情報として出力する。例えば選択部１３３は、それぞれの対象決定処理で決定された２つの被写体領域が同じであれば、予め定められた一方を選択する。一方、それぞれの対象決定処理で決定された２つの被写体領域が異なる場合、選択部１３３は、予め定められた条件にしたがって一方の決定結果を選択する。選択部１３３は例えば、より大きな被写体領域、重心位置が画像中央により近い被写体領域、または重心位置が焦点検出領域により近い被写体領域を示す決定結果を選択することができる。

　追尾処理１４４４で追尾部１３４は、２フレーム目の画像について決定された追尾対象の被写体領域が、３フレーム目の画像データに存在する位置を推定する。そして、追尾部１３４は、推定した、３フレーム目の画像データにおける追尾対象の被写体領域の情報（位置、大きさなど）を追尾結果として情報重畳部１２０に出力する。

　追尾枠重畳処理１４４５で情報重畳部１２０は３フレーム目の表示用画像データに追尾処理１４４４の結果に基づく追尾枠を重畳した合成画像データを生成する。
　表示処理１４４６により表示部１２１は３フレーム目の合成画像データを表示する。

　検出処理１４５０により、検出部１１０が４フレーム目の画像データについて、１つ以上の候補領域とそのオブジェクトクラスを検出する。難度判定部１１２は４フレーム目の画像データで検出された候補領域の情報に基づいて難度判定処理１４５１を実行し、難度スコアを算出する。

　対象決定制御部１３５は、難度判定処理１４５１によって算出された難度スコアに基づいて、４フレーム目の画像データに対するＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の有効・無効を決定する。ここでは、対象決定制御部１３５がＤＬ対象決定部１３１と非ＤＬ対象決定部１３２の両方を有効にすることを決定したものとする。

　したがって、ＤＬ対象決定部１３１はＤＬ対象決定処理１４５２を、非ＤＬ対象決定部１３２は非ＤＬ対象決定処理１４５３を、それぞれ実行する。選択部１３３は、３フレーム目の処理に関して説明したように、一方の決定結果を選択して出力する。

　追尾処理１４５４で追尾部１３４は、３フレーム目の画像について決定された追尾対象の被写体領域が、４フレーム目の画像データに存在する位置を推定する。そして、追尾部１３４は、推定した、４フレーム目の画像データにおける追尾対象の被写体領域の情報（位置、大きさなど）を追尾結果として情報重畳部１２０に出力する。

　追尾枠重畳処理１４５５で情報重畳部１２０は４フレーム目の表示用画像データに追尾処理１４５４の結果に基づく追尾枠を重畳した合成画像データを生成する。
　表示処理１４５６により表示部１２１は４フレーム目の合成画像データを表示する。

　図１４のタイミングチャートは一例にすぎず、様々な変更が可能である。例えば、図１４では検出処理および難度判定処理を各フレームについて実行したが、実行頻度を下げてもよい。複数フレームあたり１回実行することで、消費電力を低減することができる。この場合、検出処理および難度判定処理が実行されるフレームについての対象決定処理の結果で追尾対象の被写体領域を更新し、検出処理および難度判定処理が実行されないフレームについての対象決定処理の結果は更新に用いなくてもよい。

　本実施形態におけるライブビュー表示動作は図７を用いて第１実施形態で説明した通りであるため、説明を省略する。

　図１５Ａおよび図１５Ｂは、追尾対象の被写体領域の決定に用いる対象決定部の動作制御に関するフローチャートである。
　Ｓ３００～Ｓ３０５の処理は、図８Ａを用いて第１実施形態で説明した処理と同じであるため、説明を省略する。なお、画像補正処理は追尾用および検出用の補正処理である。

　Ｓ１５０１で難度判定部１１２は、Ｓ３０５における候補領域の検出結果に基づいて、例えば図１１Ａおよび図１１Ｂを用いて説明したようにして対象決定の難度を示す難度スコアを算出する。難度判定部１１２は算出した難度スコアを対象決定制御部１３５に出力する。

　Ｓ１５０２で対象決定制御部１３５は、難度スコアがあらかじめ設定された第１の閾値以上であるか否かを判定する。対象決定制御部１３５は、難度スコアが第１の閾値以上であると判定されればＳ１５０３を実行し、難度スコアが第１の閾値以上であると判定されなければＳ１５０４を実行する。

　Ｓ１５０３で対象決定制御部１３５は、ＤＬ対象決定部１３１を有効にすることを決定し、ＤＬ対象決定部１３１を有効にする制御を実行する。
　Ｓ１５０４で対象決定制御部１３５は、ＤＬ対象決定部１３１を無効にすることを決定し、ＤＬ対象決定部１３１を無効にする制御を実行する。さらに、対象決定制御部１３５は、Ｓ１５０５を実行する。

　Ｓ１５０５で対象決定制御部１３５は、難度スコアがあらかじめ設定された第２の閾値未満であるか否かを判定する。ここで、第２の閾値は第１の閾値より小さい（難度が低い）。対象決定制御部１３５は、難度スコアが第２の閾値未満であると判定されればＳ１５０６を実行し、難度スコアが第２の閾値未満であると判定されなければＳ１５０７を実行する。

　Ｓ１５０６で対象決定制御部１３５は、非ＤＬ対象決定部１３２を無効にすることを決定し、非ＤＬ対象決定部１３２を無効にする制御を実行する。
　Ｓ１５０７で対象決定制御部１３５は非ＤＬ対象決定部１３２を有効にすることを決定し、非ＤＬ対象決定部１３２を有効にする制御を実行する。

　Ｓ１５０８で対象決定部１３０は、ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の一方だけが有効である場合は、有効な対象決定部の決定結果を選択部１３３で選択する。

　ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の両方が有効である場合、対象決定部１３０は、それぞれの決定結果が同じ被写体領域であれば任意の一方の決定結果を選択部１３３で選択する。決定結果が異なる場合、対象決定部１３０は、上述したように、所定の条件に基づいて一方の決定結果を選択部１３３で選択する。対象決定部１３０は、例えば画面中央により近い中心位置を有する被写体領域を示す決定結果を選択部１３３で選択する。対象決定部１３０は、選択部１３３で選択した決定結果を、追尾対象の被写体領域の情報として追尾用メモリ１０８に格納する。

　ＤＬ対象決定部１３１および非ＤＬ対象決定部１３２の両方が無効である場合、対象決定部１３０は、Ｓ３０５で検出された候補領域の数を確認する。検出された候補領域の数が１つである場合、対象決定部１３０は、検出された候補領域を追尾対象の被写体領域として決定し、情報を追尾用メモリ１０８に格納する。候補領域の数が０の場合は追尾対象の被写体候補が存在しない。この場合、対象決定部１３０は、直前に出力した追尾対象の被写体領域の情報を追尾用メモリ１０８に格納してもよいし、次フレームの追尾処理を無効にしてもよい。

　これにより１フレーム分の追尾対象の被写体領域の決定動作が完了する。以降、フレームごとに、あるいは所定の複数のフレームごとに、同様の処理を実行する。

　図１６は撮像装置１００'の被写体追尾機能の動作に関するフローチャートであり、図１５Ａおよび図１５Ｂと同じ処理については同じ参照数字を付してある。Ｓ３００～Ｓ３０４の処理に関する説明は省略する。

　Ｓ１６０１で追尾部１３４は、処理対象のフレームの１つ前のフレームについてのＳ１５０８の処理において追尾対象の被写体領域が決定されているか否か判定する。追尾部１３４は、前フレームで追尾対象の被写体領域が決定されていると判定されればＳ１６０２を実行し、追尾対象の被写体領域が決定されていると判定されなければＳ１６０３を実行する。

　Ｓ１６０２で追尾部１３４は、追尾対象の被写体領域の情報を、前フレームについて決定された情報で更新する。また、前フレームにおいて追尾処理が無効とされていた場合、追尾部１３４は追尾処理を開始する制御を実行する。これは、上述の通り、候補領域が１つも検出されなかった場合、次フレームに対する追尾処理が無効にされうるからである。

　Ｓ１６０３で追尾部１３４は、追尾継続状態であるか否かを判定する。追尾継続状態とは、追尾処理が有効であり、前フレームで追尾対象の被写体領域が決定されている状態である。追尾部１３４は、追尾継続状態と判定されればＳ１６０４を実行し、追尾継続状態と判定されなければＳ３１４を実行する。

　Ｓ１６０４で追尾部１３４は、決定された被写体領域の追尾処理を実行する。追尾部１３４は、追尾結果として、推定した被写体領域の大きさと、画像内の位置を情報重畳部１２０に出力する。

　Ｓ３１３～Ｓ３１５の処理は、図８Ｂに関して第１実施形態で説明した通りであるため説明を省略する。ただし、Ｓ１６０３で追尾継続状態でないと判定されてＳ３１４を実行している場合は、追尾結果が無いため、追尾枠の重畳は行わない。

　本実施形態では、追尾対象の被写体領域を決定する第１の対象決定部と、第１の対象決定部よりも精度が高いが演算量が多い第２の対象決定部とを用いる画像処理装置において、対象決定の難度に基づいて第１および／または第２追尾部の有効・無効を制御する。そのため、精度良く対象を決定できる可能性が低い対象決定部を無効としたり、一方の対象決定部だけで精度良く対象を決定できる可能性が高い場合には他方の対象決定部を無効としたりすることで、対象決定精度の低下を抑制しつつ、消費電力を抑制することができる。

　対象決定処理は一般に連続したフレームに対して都度、実行するため、第２の対象決定部として深層学習のような演算量の多い機械学習を利用する対象決定部を用いる場合、消費電力の抑制効果は特に大きい。

●＜第３実施形態＞
　次に、本発明の第３実施形態について説明する。図１７は第３実施形態に係る画像処理装置の一例としての撮像装置１７００の機能構成例を示すブロック図である。
　光学系１７０１および撮像素子１７０４は撮像装置１００の光学系１０１および撮像素子１０３と同様の構成であってよいため、説明を省略する。本実施形態では光学系１７０１と撮像素子１７０４との間にメカニカルシャッタ１７０３（以下、単にシャッタという）が、シャッタ１７０３は必須ではない。シャッタ１７０３の動作はシステム制御部１７４０が制御する。シャッタスピードは撮像素子１７０４の露光時間に相当する。

　光学制御部１７０２は、光学系１７０１が形成する光学像を例えば位相差ＡＦセンサによって撮像することにより、複数の焦点検出領域のそれぞれについてデフォーカス量を算出する。焦点検出領域は例えば撮像面内に予め定められた矩形領域であってよい。光学制御部１７０２は、算出したデフォーカス量と、追尾部１７１８による追尾結果とに基づいて、光学系１７０１を合焦させる焦点検出領域を決定する。そして、光学制御部１７０２は、決定した焦点検出領域について算出されたデフォーカス量に基づいて光学系１７０１のフォーカスレンズを駆動する。これにより、決定した焦点検出領域内の被写体に光学系１７０１が合焦した状態となる。

　撮像素子１７０４は、撮像によって得られた画像データを画像処理部１７１０の第１前処理部１７１１および第２前処理部１７１２に出力する。
　第１前処理部１７１１は、画像データを第１前処理部１０４と同様に処理し、表示用メモリ１７１４に格納する。

　第１画像補正部１７１６は、第１画像補正部１０９と同様の処理を画像データに適用し、処理を適用した画像データを第１後処理部１７１９に出力する。

　第１後処理部１７１９は、後処理部１１４と同様にして、記録用画像データや表示用画像データを生成する。第１後処理部１７１９は、記録用画像データを記録部１７２０に供給する。また、第１後処理部１７１９は表示用画像データを情報重畳部１７２１に供給する。

　記録部１７２０は、第１後処理部１７１９で生成された記録用画像データを記録媒体１７３０に記録する。記録媒体１７３０は、例えば半導体メモリカード、内蔵不揮発性メモリなどであってよい。

　第２前処理部１７１２は、第２前処理部１０５と同様に、画像データに色補間処理を適用して追尾用メモリ１７１５に格納する。本実施形態においても追尾用メモリ１７０８と表示用メモリ１０７とは同一メモリ空間内の別アドレス空間として実装されてもよい。また、第２前処理部１７１２は、処理負荷を軽減するために必要に応じて画素数を削減する縮小処理を適用してもよい。なお、ここでは第１前処理部１７１１と第２前処理部１７１２とを別個の機能ブロックとして記載したが、共通の前処理部を用いる構成としてもよい。

　第２画像補正部１７１３は、追尾用メモリ１７０８に格納された画像データに対して第２画像補正部１０６と同様に処理を適用する。第２画像補正部１７１３は、処理を適用した画像データを、追尾用メモリ１７０８に格納する。

　本実施形態においても、第２前処理部１７１２、第２画像補正部１７１３など、被写体追尾機能に関する機能ブロックは、被写体追尾機能を実施しない場合には動作しなくてよい。また、被写体追尾機能を適用する画像データは、ライブビュー表示用もしくは記録用に撮影される動画データである。動画データは例えば３０ｆｐｓ、６０ｆｐｓ、１２０ｆｐｓといった所定のフレームレートを有する。

　検出部１７１７は、１フレーム分の画像データから、予め定められた候補被写体の領域（候補領域）を１つ以上検出する。また、検出部１７１７は、検出した領域ごとに、フレーム内の位置および大きさ、候補被写体の種類（自動車、飛行機、鳥、昆虫、人体、頭部、瞳、猫、犬など）を示すオブジェクトクラスとその信頼度を関連付ける。また、オブジェクトクラスごとに、検出した候補領域の数を求める。

　本実施形態では、検出部１７１７が演算負荷と対象決定精度が異なる複数の検出部を有する。具体的には、検出部１７１７は、深層学習（ＤＬ）を用いて対象決定処理を行うＤＬ検出部１７２２と、ＤＬを用いずに対象決定処理を行う非ＤＬ検出部１７２３とを有する。ＤＬ検出部１７２２は、非ＤＬ検出部１７２３よりも処理精度が高い反面、演算負荷が非ＤＬ検出部１７２３よりも大きいものとする。

　ＤＬ検出部１７２２と非ＤＬ検出部１７２３は、それぞれが候補領域の検出、候補領域の種類へのオブジェクトクラスとその信頼度の関連付け、オブジェクトクラスごとの候補領域の計数を行う。また、ＤＬ検出部１７２２と非ＤＬ検出部１７２３は、検出した候補領域について、大きさおよび位置の情報を求める。

　ＤＬ検出部１７２２は、機械学習を用いた多クラス識別器にて実現できる。ＤＬ検出部１７２２は多クラス化したロジスティック回帰やサポートベクターマシン、ランダムフォレスト、ニューラルネットワークなどを用いて実装可能である。

　非ＤＬ検出部１７２３は、機械学習を用いない公知の方法で候補領域を検出する。非ＤＬ検出部１７２３は、例えばオブジェクトクラスごとに予め用意されたテンプレートを用いるパターンマッチング、オブジェクトクラスごとに予め用意された特徴情報を用いる特徴検出、距離情報に基づく検出などを用いて候補領域を検出することができる。

　情報重畳部１７２１は、情報重畳部１２０と同様に、検出部１７１７または追尾部１７１８が出力する、追尾対象の被写体領域の中心位置および大きさに基づいて追尾枠の画像を生成する。そして情報重畳部１７２１は、第１後処理部１７１９が出力する表示用画像データに追尾枠の画像が重畳した合成画像データを生成する。情報重畳部１７２１は、合成画像データを表示部１７３１に出力する。

　不揮発性メモリ１７５３は、例えばＥＥＰＲＯＭなどの書き換え可能な不揮発性メモリであり、システム制御部１７４０のＣＰＵが実行可能なプログラム、設定値、ＧＵＩデータなどを記憶する。

　システムメモリ１７５４は例えばＲＡＭであり、システム制御部１７４０のＣＰＵが実行するプログラムを読み込んだり、プログラムの実行中に必要な値を保存したりするために用いられる。

　システム制御部１７４０は、ＣＰＵを有し、例えば不揮発性メモリ１７５３に記憶されたプログラムをシステムメモリ１７５４に読み込んで実行する。システム制御部１７４０は、各機能ブロックの動作を制御することにより、撮像装置１７００の機能を実現する。

　レリーズボタン１７５０、モード切替スイッチ１７５１、操作部１７５２はシステム制御部１７４０に指示を入力するための入力デバイスである。
　レリーズボタン１７５０は半押しでＯＮするスイッチＳＷ１と、全押しでＯＮするスイッチＳＷ２を有する。システム制御部１７４０はＳＷ１のＯＮを静止画の撮影準備指示として、ＳＷ２のＯＮを静止画の撮影開始指示と認識し、それぞれに指示に応じた動作を実行する。

　システム制御部１７４０は、撮影準備指示に応じてでＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理などを実行する。

　また、システム制御部１７４０は撮影指示に応じて、撮影準備指示に応じて実行したＡＦ処理やＡＥ処理の結果を用いた静止画撮影処理を実行する。静止画撮影処理には、シャッタ１７０３の開閉制御、撮像素子１７０４の動作制御、画像処理部１７１０における記録用画像データの生成動作および記録媒体１７３０への記録動作などが含まれる。システム制御部１７４０は、これら一連の静止画撮影処理に関して各機能ブロックを制御する。

　動きセンサ１７６０は撮像装置１７００の動きに応じた信号を出力し、システム制御部１７４０に出力する。動きセンサ１７６０は例えば加速度センサや角速度センサであってよい。また、光学系１０１が手ブレ補正用の動きセンサを有している場合には、動きセンサ１７６０を設けずに、手ブレ補正用の動きセンサを用いて撮像装置１７００の動きを検出してもよい。

　モード切替スイッチ１７５１は、システム制御部１７４０の動作モードを静止画撮影モード、動画撮影モード、再生モード等のいずれかに切り替える。静止画撮影モードに含まれるモードとして、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード（Ａｖモード）、シャッタ速度優先モード（Ｔｖモード）がある。また、撮影シーン別の撮影設定となる各種シーンモード、プログラムＡＥモード、カスタムモード等がある。モード切替スイッチ１７５１で、メニューボタンに含まれるこれらのモードのいずれかに直接切り替えられる。あるいは、モード切替スイッチ１７５１でメニューボタンに一旦切り換えた後に、メニューボタンに含まれるこれらのモードのいずれかに、他の操作部材を用いて切り替えるようにしてもよい。同様に、動画撮影モードにも複数のモードが含まれていてもよい。

　操作部１７５２はレリーズボタン１７５０およびモード切替スイッチ１７５１以外の入力デバイスの総称である。操作部１７５２に含まれる入力デバイスには、例えば表示部１７３１に表示される機能アイコンの選択操作などを通じて、撮像装置１７００の動作状態に応じて機能が割り当てられる。入力デバイスは割り当てられた機能に応じた名称を有する。

　例えば方向ボタン、決定（ＳＥＴ）ボタン、終了ボタン、戻るボタン、画像送りボタン、ジャンプボタン、絞込みボタン、属性変更ボタン、メニューボタンなどが操作部１７５２に含まれる。例えば、メニューボタンが押されると各種の設定可能なメニュー画面が表示部１７３１に表示される。ユーザは表示部１７３１に表示されたメニュー画面を方向ボタンやＳＥＴボタンを用いて操作することにより、各種設定を行うことができる。

　本実施形態では、操作部１７５２に含まれる入力デバイスとして、視線情報取得部（視線検出手段）が設けられている。視線情報取得部は、ユーザの視線もしくは表示部１７３１内のユーザ注視位置を検出する。図１８は、視線情報取得部１８００の構成例を示す図である。ここでは、表示部１７３１が覗き込み型のファインダ内に設けられており、ファインダを覗くユーザの眼球１８０２の回転角から視線方向を検出することで、ユーザが注視している表示部１７３１内の位置を検出するものとする。

　図１８において、視線情報取得部１８００は、撮像素子１８０１ａ、受光レンズ１８０１ｂ、ダイクロイックミラー１８０１ｃ、および照明光源１８０１ｅを有する。接眼レンズ１８０１ｄはファインダ光学系であり、視線情報の取得には直接関係しない。

　ユーザは、表示部１７３１の表示を、接眼レンズ１８０１ｄおよびダイクロイックミラー１８０１ｃを通じて観察することができる。照明光源１８０１ｅはファインダの外部に向けて赤外光を投射する。ユーザがファインダを覗いている場合、赤外光は眼球１８０２で反射され、反射光がファインダ内に入射する。反射光はダイクロイックミラー１８０１ｃにより上方に反射され、受光レンズ１８０１ｂによって形成される眼球像が撮像素子１８０１ａで撮像される。眼球像の画像データは撮像素子１８０１ａからシステム制御部１７４０に送信される。

　システム制御部１７４０は眼球像から例えば瞳孔の領域を抽出し、瞳孔の領域の位置から眼球の回転角を検出する。そして、システム制御部１７４０は、眼球の回転角からユーザの視線方向を求める。なお、視線方向は算出して求めてもよいし、回転角と視線方向との関係を記憶したテーブルを参照することによって求めてもよい。システム制御部１７４０は、視線方向に基づいてユーザが注視している表示部１７３１内の位置（座標）を検出する。なお、眼球の回転角から注視位置を求めてもよい。

　なお、ここではファインダを片目で覗くことを想定し、両目視線方向や注視位置といった視線情報を１つの眼球について求めている。しかし、両目の眼球像が取得可能な環境であれば、視線情報をそれぞれの眼球について求めてもよい。両目の視線情報を求める場合、例えば検出精度が高いと考えられる一方の視線情報を用いるなどにより、視線情報の精度を高めることができる。

　なお、視線情報取得部１８００は、ユーザが注視している表示部１７３１内の位置を特定可能であれば他の任意の構成を用いることができる。なお、表示部１７３１は必ずしも撮像装置１７００の内部に配置されていなくてもよい。例えば、表示部１７３１と、照明光源１８０１ｅ、受光レンズ１８０１ｂが撮像装置１７００の背面に設けられてもよい。

　次に、視線情報取得部１８００によって検出される視線もしくは注視位置に基づいてＤＬ検出部７１２２および非ＤＬ検出部７１２３の有効および無効を制御するシステム制御部１７４０の動作について説明する。

　図１９は、視線もしくは注視位置に基づいて被写体検出部の有効無効を制御する動作に関連する機能ブロックを示す図である。なお、図１９では、システム制御部１７４０を便宜上３つの機能ブロックとして示しているが、実際にはシステム制御部１７４０のＣＰＵがプログラムを実行することにより、これら機能ブロックの機能を実現する。

　以下、視線もしくは注視位置に基づいてシステム制御部１７４０が被写体検出部の有効無効を制御する動作を、図２０に示すフローチャートと、図１７および図１９を用いて説明する。
　Ｓ２０００は画像取得処理である。図２１のフローチャートを用いて画像取得処理の詳細について説明する。
　Ｓ２１００でシステム制御部１７４０は、撮像素子１７０４を制御して１フレーム分の撮像動作を実行する。これにより、光学系１７０１で形成された被写体光学像が複数の画素データからなるＲＡＷ画像データに変換される。

　Ｓ２１０２で画像処理部１７１０の第１前処理部１７１１は、ＲＡＷ画像データにデモザイク処理を適用し、各画素がＲＧＢ成分を有する画像データを生成する。第１前処理部１７１１は生成した画像データを表示用メモリ１７１４に格納する。なお、第１前処理部１７１１は画像データをＲＧＢ形式からＹＵＶ形式に変換してから表示用メモリ１７１４に格納してもよい。

　Ｓ２１０３で第１画像補正部１７１６は、表示用メモリ１７１４に格納された画像データに対して、予め定められた画像補正処理を適用する。なお、画像補正処理には、評価値の算出処理も含まれる。第１画像補正部１７１６は、適用する処理に応じて画像データの読み出し範囲を異ならせてもよい。

　例えば、１ライン（画素行）の画像データに対して適用する画像処理について、適用対象の１ラインの画像データだけを読み出す場合もあれば、適用対象の１ラインを含んだ複数ラインの画像データを読み出す場合もある。また、画像処理を所定サイズの矩形領域の画像データに対して適用してもよい。第１画像補正部１７１６は、画像処理結果を適宜表示用メモリ１７１４に格納しながら画像補正処理を実行する。

　Ｓ２１０４で第１画像補正部１７１６は、１フレーム分の画像データについて適用すべきすべての画像補正処理を完了したか否かを判定する。適用すべきすべての画像補正処理を完了したとで判定された場合、第１画像補正部１７１６は画像補正処理後の画像データを第１後処理部１７１９に出力し、評価値をシステム制御部１７４０に出力する。これにより、１フレーム分の画像取得処理が完了する。一方、適用すべき画像補正処理がまだ残っていると判定された場合、第１画像補正部１７１６は、Ｓ２１０３を繰り返し実行する。

　なお、画像データの格納先が追尾用メモリ１７１５である点と、第２画像補正部１７１３が追尾用の画像処理を適用する点を除き、第２前処理部１７１２、追尾用メモリ１７１５、第２画像補正部１７１３においても、同様の処理を実行する。

　図２０に戻り、Ｓ２００１で追尾部１７１８は、Ｓ２０００で取得し、追尾用メモリ１７１５に格納されている画像データに対して追尾処理を適用する。なお、追尾部１７１８は、第１実施形態における非ＤＬ追尾部１１７が適用する非ＤＬ追尾処理を適用するものとする。追尾部１７１８は追尾結果として、追尾対象の被写体領域の位置および大きさを出力する。

　Ｓ２００２でシステム制御部１７４０は、被写体見失い判定処理を実行する。図２２のフローチャートを用いて被写体見失い判定処理の詳細について説明する。
　Ｓ２２００においてシステム制御部１７４０は、視線情報取得部１８００を通じてユーザの視線情報を取得する。ここで取得する視線情報は視線方向であってもよいし、注視位置であってもよい。

　Ｓ２２０１において視線解析部１９００が視線情報の不規則度を算出する。視線情報の不規則度とは、ユーザの注視位置の安定性の評価値である。不規則度が大きい場合には、ユーザの注視位置が安定しておらず、表示部１７３１の画面内で不規則に移動している状態に該当する。したがって、視線情報の不規則度が大きい場合には、ユーザが主被写体を見失い、画面内で探していると考えられる。

　Ｓ２２０１で算出した不規則度に基づいて、Ｓ２００３で不規則性判定部１９０１は、ユーザが被写体を見失ったか否かを判定する。

　Ｓ２２０１における視線情報の不規則度は、どのような方法で算出してもよい。また、Ｓ２００３における判定は、不規則度に応じた閾値を用いて実行することができる。以下に、不規則度の算出および判定方法の例を示す。
・注視位置または視線の軌跡の時間軸方向の周波数情報を用いる
　周波数スペクトルを算出し、ある周波数以上のスペクトルの大きさを不規則度として求める。不規則度が閾値を超えた場合には被写体を見失ったと判定する。
・注視位置または視線の軌跡の自己相関の絶対値を不規則度として算出する
　視線の動きが規則的であれば、隣接する時間幅において自己相関は１に近づき、視線の動きがランダムであれば自己相関は０に近くなる。不規則度が閾値未満の場合には被写体を見失ったと判定する。
・ある時間幅Ｔにおける、注視位置または視線の速度ベクトルもしくは加速度ベクトルの大きさの平均値と、個々の被写体領域の軌跡の速度ベクトルもしくは加速度ベクトルの大きさの平均値との相互相関の絶対値を、不規則度として算出する。
　全ての被写体領域について不規則度が閾値未満であれば、被写体を見失ったと判定する。

　Ｓ２００３において不規則性判定部１９０１によって被写体を見失ったと判定されれば処理判定部１９０２がＳ２００４を実行する。Ｓ２００３において不規則性判定部１９０１によって被写体を見失ったと判定されなければ処理判定部１９０２がＳ２００５を実行する。

　Ｓ２００４で処理判定部１９０２は、ＤＬ検出部１７２２を有効にすると判定する。非ＤＬ検出部１７２３は無効しても、有効にしてもよい。画像処理部１７１０内のＤＬ検出部１７２２は、上述したように機械学習（ここではＤＬ）を用いた候補領域の検出処理を実行する。ＤＬ検出部１７２２により候補領域が１つのみ検出された場合、システム制御部１７４０は検出された候補領域を追尾対象の被写体領域として決定する。

　一方、ＤＬ検出部１７２２により候補領域が複数検出された場合、システム制御部１７４０は複数の候補領域から追尾対象の被写体領域を決定する。システム制御部１７４０は、先の実施形態で説明したように候補領域の大きさや位置に基づいて、あるいは、他の方法により、追尾対象の被写体領域を決定することができる。他の方法に特に制限は無いが、例えば検出された候補領域から追尾対象の被写体領域をユーザに選択させてもよい。例えば、検出された候補領域のそれぞれに追尾枠と同様の指標を重畳表示させ、操作部１７５２を通じてユーザに追尾対象の被写体領域を選択させることができる。例えば方向ボタンとＳＥＴボタンの操作を通じて、あるいは視線情報取得部１８００を用いた注視位置の検出を通じて、ユーザは追尾対象の被写体領域を選択することができる。

　Ｓ２００５で処理判定部１９０２は、ＤＬ検出部１７２２を無効に、非ＤＬ検出部１７２３を有効にすると判定する。画像処理部１７１０内の非ＤＬ検出部１７２３は、上述したように、機械学習を用いない方法により候補領域を検出する。この場合、ユーザは被写体を見失っていないと判定されているため、システム制御部１７４０は、視線情報に基づいて候補領域の中から追尾対象の被写体領域を決定することができる。

　なお、第１実施形態のように、画像処理部１７１０に対象決定部を設け、対象決定部が候補領域から追尾対象の被写体領域を決定してもよい。

　Ｓ２００６でシステム制御部１７４０は、追尾対象の被写体領域の情報を追尾部１７１８および情報重畳部１７２１に出力する。これにより、追尾対象の被写体領域の情報が更新される。

　Ｓ２００７でシステム制御部１７４０は、ＤＬ検出部１７２２および非ＤＬ検出部１７２３の両方を無効として、消費電力を抑制する。

　Ｓ２００８で情報重畳部１７２１は、第１後処理部１７１９からの表示用画像データにＳ２００６で更新された追尾対象の被写体領域を示す追尾枠を重畳した合成画像データを生成して表示部１７３１に出力する。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する第１の被写体検出部と、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部とを、ユーザが被写体を見失っているか否かに応じて使い分けるようにした。具体的には、第２の被写体検出部は、ユーザが被写体を見失っている場合に用い、ユーザが被写体を見失っていない場合には用いないようにした。ユーザが被写体を見失っていない場合には、第１の被写体検出部で十分精度の良く候補領域が検出可能であるため、第２の被写体検出部を無効にすることで、検出精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第４実施形態＞
　次に、本発明の第４実施形態について説明する。本実施形態では、撮像装置のオートフォーカス（ＡＦ）モードに応じてＤＬ検出部および非ＤＬ検出部の有効、無効を制御する。本実施形態は第３実施形態と同様の撮像装置１７００で実施可能であるため、図１７に示した構成要素を用いて説明する。

　ここでは、撮像装置１７００が、ＡＦモードとして、焦点検出結果を維持するシングルＡＦモードと、継続的に焦点検出動作を行うコンティニュアスＡＦモードとを有するものとする。シングルＡＦモードは風景やポートレートのような静止もしくは動きの少ない被写体の撮影に用いられる可能性が高い。一方で、コンティニュアスＡＦモードは乗り物やスポーツシーンのような移動被写体の撮影に用いられる可能性が高い。

　したがって、設定されているＡＦモードから、ユーザが撮影しようとしている主被写体の動きに関して推測することができる。ＡＦモードはユーザが明示的に指定してもよいし、スポーツモード、風景モードなど、撮像装置１７００が有する撮影モードに応じて自動的に設定されてもよい。また、他の条件に基づいてシステム制御部１７４０が設定してもよい。

　なお、ＡＦモードは静止画撮影時の焦点検出動作に関する設定である。一方で、静止画撮影モードにおける被写体追尾は、撮影スタンバイ状態でのライブビュー表示用に撮影される動画像に対して適用される。

　本実施形態では、シングルＡＦモードの場合は被写体が静止しているか被写体の動きが小さく、被写体検出が比較的容易である可能性が高いため、ＤＬ検出部１７２２を無効とし、非ＤＬ検出部１７２３を有効とする。一方、コンティニュアスＡＦモードの場合は被写体が動いているか被写体の動きが大きく、被写体検出が比較的難しい可能性が高いため、ＤＬ検出部１７２２を有効とし、非ＤＬ検出部１７２３を無効とする。このような制御により、被写体検出の精度の低下を抑制しつつ、消費電力を抑制することができる。

　以下、図２３のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図２３において、第３実施形態と同じ処理を行う工程には図２０と同じ参照番号を付して説明を省略する。Ｓ２０００およびＳ２００１の処理は第３実施形態で説明した通りである。

　Ｓ２３０２においてシステム制御部１７４０は、撮像装置１７００の現在のＡＦモードがコンティニュアスＡＦモードか否かを判定する。システム制御部１７４０は、撮像装置１７００の現在のＡＦモードがコンティニュアスＡＦモードと判定されればＳ２００４でＤＬ検出部１７２２を有効にする。非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。一方、システム制御部１７４０は、撮像装置１７００の現在のＡＦモードがコンティニュアスＡＦモードと判定されなけばＳ２００５で非ＤＬ検出部１７２３を有効にし、ＤＬ検出部１７２２は無効にする。

システム制御部１７４０は、を、判定されなければＳ２００５を実行する。以降の処理は第３実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する第１の被写体検出部と、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部とを、撮像装置のオートフォーカスモードに応じて使い分けるようにした。具体的には、第２の被写体検出部は、移動被写体の撮影に用いられる可能性が高いオートフォーカスモードが設定されている場合に用い、静止被写体の撮影に用いられる可能性が高いオートフォーカスモードが設定されている場合には用いないようにした。被写体の動きが少ない場合には、第１の被写体検出部で精度の良く候補領域を検出可能であるため、第２の被写体検出部を無効にすることで、検出精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第５実施形態＞
　次に、本発明の第５実施形態について説明する。本実施形態では、追尾処理を適用する動画のフレームレートに応じて、ＤＬ検出部１７２２と非ＤＬ検出部１７２３の有効、無効を制御する。本実施形態は第３実施形態と同様の撮像装置１７００で実施可能であるため、図１７に示した構成要素を用いて説明する。

　フレーム間における被写体領域の移動量は、フレームレートが高いほど小さくなる。したがって、フレームレートが高い場合には追尾対象の被写体領域の移動量は小さく、被写体ブレが生じる可能性も低い。したがって、非ＤＬ検出部１７２３で十分な精度が得られる可能性が高い。そのため、フレームごとにＤＬ検出部１７２２で検出する必要性は低い。

　そのため、追尾処理を適用する動画のフレームレートが予め定められた第１の閾値（ｆｐｓ）より高い場合には、フレームレートが第１の閾値以下の場合よりも、ＤＬ検出部１７２２を有効とする頻度を下げる。これにより、検出精度の低下を抑制しつつ、消費電力を低減できる。なお、第１の閾値は例えば実験的に決定することができる。なお、閾値を複数設けて、ＤＬ検出部１７２２を有効とする頻度を３段階以上で制御してもよい。

　以下、図２４のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。ここでは、追尾処理を適用する動画のフレームレートが予め定められた第１の閾値（ｆｐｓ）より高いことが既に判定されているものとする。また、図２４において、第３実施形態と同じ処理を行う工程には図２０と同じ参照番号を付して説明を省略する。Ｓ２０００およびＳ２００１の処理は第３実施形態で説明した通りである。

　Ｓ２４０２においてシステム制御部１７４０は、フレーム数のカウンタとして用いる変数ＣＯＵＮＴの値が予め定められたＮ（２以上の整数）であるか否かを判定する。Ｎの値は追尾処理を適用する動画のフレームレートが第１の閾値（ｆｐｓ）以下の場合にＤＬ検出部１７２２がＭフレームごとに有効になるとすると、Ｎ＞Ｍという関係を満たすように定める。ここではＭ＝１、Ｎ＝１０とする。システム制御部１７４０は、変数ＣＯＵＮＴの値がＮであると判定されればＳ２４０３を、判定されなければＳ２４０４を実行する。

　Ｎ＝１０であるため、Ｓ２４０３は１０フレームごとに１回実行される。Ｓ２４０３でシステム制御部１７４０は変数ＣＯＵＮＴの値を１に初期化する。その後、システム制御部１７４０は、Ｓ２００４でＤＬ検出部１７２２を有効にする。非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。

　一方、Ｓ２４０４でシステム制御部１７４０は、変数ＣＯＵＮＴの値を１増加させる。その後、システム制御部１７４０は、Ｓ２００５で非ＤＬ検出部１７２３を有効にし、ＤＬ検出部１７２２は無効にする。以降の処理は第３実施形態と同様であるため説明を省略する。

　以上でライブビュー表示における一フレーム分の動作が完了する。以上の動作により、追尾処理を適用する動画のフレームレートが高い場合、ＤＬ検出部１７２２は１０フレーム当たり１フレームについて有効となり、残りの９フレームについては無効となる。ＤＬ検出部１７２２が無効のフレームでは非ＤＬ検出部１７２３を有効とする。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する被写体検出部であって、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部を用いる頻度を、追尾処理を適用する動画のフレームレートに応じて制御するようにした。具体的には、追尾処理を適用する動画のフレームレートが高い場合には、高くない場合よりも、第２の被写体検出部を有効とする頻度を低くするようにした。被写体の動きが少ない場合には、第１の被写体検出部で精度の良く候補領域を検出可能であるため、第２の被写体検出部を用いる頻度を抑制することで、検出精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第６実施形態＞
　次に、本発明の第６実施形態について説明する。本実施形態では、撮像装置のシャッタスピードに応じてＤＬ検出部および非ＤＬ検出部の有効、無効を制御する。本実施形態は第３実施形態と同様の撮像装置１７００で実施可能であるため、図１７に示した構成要素を用いて説明する。

　シャッタスピードが速い場合、被写体ブレが生じる可能性は低くなる。したがって、非ＤＬ検出部１７２３で十分な精度が得られる可能性が高い。そのため、シャッタスピードが速い場合にはＤＬ検出部１７２２を無効とする。

　以下、図２５のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図２５において、第３実施形態と同じ処理を行う工程には図２０と同じ参照番号を付して説明を省略する。Ｓ２０００およびＳ２００１の処理は第３実施形態で説明した通りである。

　Ｓ２５０２においてシステム制御部１７４０は、現在設定されているシャッタスピードが閾値より速いか否かを判定する。ここで用いる閾値は、非ＤＬ検出部１７２３の性能などに応じて例えば実験的に決定することができる。

　システム制御部１７４０は、シャッタスピードが閾値より速いと判定されなればＳ２００４でＤＬ検出部１７２２を有効にする。非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。
　一方、システム制御部１７４０は、シャッタスピードが閾値より速いと判定されなければＳ２００５で非ＤＬ検出部１７２３を有効にし、ＤＬ検出部１７２２は無効にする。以降の処理は第３実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する第１の被写体検出部と、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部とを、撮像装置のシャッタスピードに応じて使い分けるようにした。具体的には、第２の被写体検出部は、シャッタスピードが速くない（遅い）場合に用い、シャッタスピードが速い場合には用いないようにした。シャッタスピードが速い場合には、被写体ブレが生じる可能性が低く、第１の被写体検出部で精度の良く候補領域を検出可能であるため、第２の被写体検出部を無効にすることで、検出精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第７実施形態＞
　次に、本発明の第７実施形態について説明する。本実施形態では、ユーザの指示に応じてＤＬ検出部および非ＤＬ検出部の有効、無効を制御する。本実施形態は第３実施形態と同様の撮像装置１７００で実施可能であるため、図１７に示した構成要素を用いて説明する。

　本実施形態では、ユーザがＤＬ被写体検出処理を有効とした場合にのみ、ＤＬ検出部１７２２を有効とする。ＤＬ被写体検出処理を有効とするユーザ指示はどのようなものであってもよい。ユーザがＤＬ被写体検出処理を意識して指示する必要はなく、結果としてＤＬ被写体検出処理が有効になる指示であればよい。

　ここでは一例として、操作部１７５２にＤＬ被写体検出処理の有効・無効を切り替える機能が割り当てられた入力デバイス（ＤＬ被写体検出ボタン）が存在するものとする。システム制御部１７４０は、ＤＬ被写体検出ボタンが押下されるごとに、ＤＬ被写体検出処理の有効・無効を切り替える。あるいはシステム制御部１７４０は、ＤＬ被写体検出ボタンが押下されている間だけＤＬ被写体検出処理を有効としてもよい。また、ＤＬ被写体検出ボタンは表示部１７３１を用いたソフトウェアキーであってもよい。

　以下、図２６のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図２６において、第３実施形態と同じ処理を行う工程には図２０と同じ参照番号を付して説明を省略する。Ｓ２０００およびＳ２００１の処理は第３実施形態で説明した通りである。

　Ｓ２６０２においてシステム制御部１７４０は、ＤＬ被写体検出ボタンがＯＮか否かを判定する。ここでは、ＤＬ被写体検出ボタンが押下されている場合にＯＮと判定する。システム制御部１７４０は、ＤＬ被写体検出ボタンがＯＮと判定されれば、Ｓ２００４でＤＬ検出部１７２２を有効にする。非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。一方、システム制御部１７４０は、ＤＬ被写体検出ボタンがＯＮと判定されなければ、Ｓ２００５で非ＤＬ検出部１７２３を有効にし、ＤＬ検出部１７２２は無効にする。以降の処理は第３実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する被写体検出部のうち、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部の有効、無効を、ユーザの指示に応じて制御するようにした。具体的には、第２の被写体検出部を有効にする旨のユーザ指示を検出した場合のみ第２の被写体検出部を有効とするようにした。これにより、ユーザが必要としない場合に第２の被写体検出部が無効になるため、消費電力を抑制することができる。

●＜第８実施形態＞
　次に、本発明の第８実施形態について説明する。本実施形態では、装置の操作状況に応じてＤＬ検出部および非ＤＬ検出部の有効、無効を制御する。本実施形態は第３実施形態と同様の撮像装置１７００で実施可能であるため、図１７に示した構成要素を用いて説明する。

　具体的には、撮影範囲を変更するための操作であるパン、チルト、またはズーム操作が行われていると判定される場合には、ＤＬ検出部１７２２を無効とする。これらの操作が行われている場合、主被写体が撮影範囲に収まるようにユーザが調整している可能性があるからである。そのため、これらの操作中にＤＬ検出部１７２２を有効としても、意味のある検出結果が得られない可能性がある。本実施形態においてＤＬ検出部１７２２は、撮像装置１７００のパン、チルト、またはズーム操作中が行われていないと判定される場合のみ有効にされうる。

　以下、図２７のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図２７において、第３実施形態と同じ処理を行う工程には図２０と同じ参照番号を付して説明を省略する。Ｓ２０００およびＳ２００１の処理は第３実施形態で説明した通りである。

　Ｓ２７０２においてシステム制御部１７４０は、撮像装置１７００でパン、チルト、またはズーム操作が行われているか否かを判定する。システム制御部１７４０は、例えばライブビュー表示用に撮影されている動画のフレーム間の動きベクトルや特徴領域のサイズ変化を検出することにより、あるいは動きセンサ１７６０の出力により、パン、チルト、ズーム操作を検出することができる。ズーム操作については操作部１７５２のズームボタンの操作によっても検出することができる。

　システム制御部１７４０は、パン、チルト、またはズーム操作が行われていると判定されれば、Ｓ２００８を実行する。一方、システム制御部１７４０は、パン、チルト、またはズーム操作が行われていると判定されなければ、Ｓ２７０２を実行する。

　Ｓ２７０２でシステム制御部１７４０は、ＤＬ検出部１７２２または非ＤＬ検出部１７２３を有効にする。ＤＬ検出部１７２２が有効の場合、非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。ＤＬ検出部１７２２を有効とする条件は、例えば第３～第７実施形態で説明した条件の１つ以上を用いることができる。システム制御部１７４０は、ＤＬ検出部１７２２を有効とする条件が満たされなければ、ＤＬ検出部１７２２を無効とし、非ＤＬ検出部１７２３を有効とする。Ｓ２００６以降の処理は第３実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域の候補領域を検出する被写体検出部のうち、第１の被写体検出部よりも精度が高いが演算量が多い第２の被写体検出部を、撮影範囲を変更するための操作が行われていない場合にのみ有効とすることができるようにした。撮影範囲が確定していない状態では第２の被写体検出部を有効としないことにより、効率的に消費電力を抑制することができる。さらに、撮影範囲が確定していない状態では第１の被写体検出部も有効としないようにすれば、消費電力を一層抑制することができる。

（変形例）
　なお、上述の第３～第８実施形態において説明した条件とは異なる条件に基づいて、ＤＬ被写体検出と非ＤＬ被写体検出の有効、無効を制御してもよい。例えば、撮影モード（静止画撮影モードまたは動画撮影モード）、またはレリーズボタンの押下状態（押下なし、半押し、全押し）、または追尾モードの状態、または追尾オブジェクトの種類に応じてＤＬ被写体検出と非ＤＬ被写体検出の有効、無効を制御しうる。

●＜第９実施形態＞
　次に、本発明の第９実施形態について説明する。図２８は第９実施形態に係る画像処理装置の一例としての撮像装置１７００'の機能構成例を示すブロック図である。図１７を用いて説明した撮像装置１７００と同様の構成には同じ参照数字を付して重複する説明を省略する。なお、本実施形態の検出部１７１７は、ＤＬ検出部１７２２もしくは非ＤＬ検出部１７２３のいずれかであってよい。ここでは非ＤＬ検出部１７２３と同じものとする。

　本実施形態の撮像装置１７００'は、新たな構成として対象決定部２８０１を有し、また追尾部１７１８が第１実施形態と同様にＤＬ追尾部２８０２および非ＤＬ追尾部２８０３を有している。

　対象決定部２８０１は、第１実施形態の対象決定部１１１と同様、検出部１７１７が検出した候補領域から、追尾対象とする被写体領域（主被写体領域）を決定する。対象決定部２８０１は、検出された候補領域が１つであれば検出された候補領域を主被写体領域として決定する。また、対象決定部２８０１は、複数の候補領域が検出されている場合には、あらかじめ定められた優先順位に基づいて、主被写体領域を決定することができる。

　対象決定部２８０１は、例えば候補領域の大きさに基づく優先順位や、焦点検出領域との距離に基づく優先順位に基づいて主被写体領域を決定することができる。具体的には、サイズが最大の候補領域を主被写体領域としてもよいし、焦点検出領域に最も近い候補領域を主被写体領域としてもよい。また、焦点検出領域からの距離が閾値未満である候補領域のうち、サイズが最も大きな候補領域を主被写体領域とするなど、複数の優先順位を考慮して主被写体領域を決定してもよい。ここで例示した以外の優先順位を考慮してもよい。

　追尾部１７１８は、追尾用メモリ１７１５に格納された、処理対象のフレーム（現フレーム）の画像データから追尾対象の被写体領域を推定し、推定した被写体領域のフレーム内の位置と大きさを追尾結果として求める。追尾部１１５は例えば、現フレームより前に撮影された過去フレーム（例えば１つ前のフレーム）について対象決定部２８０１が決定した主被写体領域について、現フレーム内の位置と大きさを推定する。追尾部１１５は、追尾結果を情報重畳部１７２１に出力する。

　追尾部１７１８は深層学習（ＤＬ）を用いて被写体追尾を行うＤＬ追尾部２８０２と、ＤＬを用いずに被写体追尾を行う非ＤＬ追尾部２８０３とを有する。ＤＬ追尾部２８０２および非ＤＬ追尾部２８０３の構成は、第１実施形態で説明したＤＬ追尾部１１６とおよび非ＤＬ追尾部１１７とそれぞれ同じであってよいため、詳細に関する説明は省略する。本実施形態では、システム制御部１７４０が、ＤＬ追尾部２８０２および非ＤＬ追尾部２８０３の有効および無効、ならびに有効時の動作頻度を制御する。

　本実施形態においても、ＤＬ追尾部２８０２は、推定された主被写体領域の位置および大きさと、信頼度スコアを追尾結果として出力する。また、非ＤＬ追尾部２８０３は、推定された主被写体領域の位置および大きさと、類似度スコアを出力を追尾結果として出力する。

　追尾部１７１８は、ＤＬ追尾部２８０２が出力する信頼度スコア、および非ＤＬ追尾部２８０３が出力する類似度スコアに基づいて、ＤＬ追尾部２８０２および非ＤＬ追尾部２８０３の追尾結果の一方を採用する。追尾部１７１８は例えば信頼度スコアが予め定められた信頼度スコア閾値以下、かつ類似度スコアが予め定められた類似度スコア閾値以下であった場合には、非ＤＬ追尾部２８０３の追尾結果を採用する。追尾部１７１８は、それ以外の場合には、ＤＬ追尾部２８０２の追尾結果を採用する。追尾部１７１８は、採用した追尾結果を、情報重畳部１７２１およびシステム制御部１７４０に出力する。

　なお、ここではＤＬ追尾部２８０２および非ＤＬ追尾部２８０３の追尾結果のいずれを採用するかを信頼度スコアおよび類似度スコアに基づいて決定した。しかし、他の方法で決定してもよい。例えば、ＤＬ追尾部２８０２の精度は、非ＤＬ追尾部２８０３の精度より高い傾向にあることを利用して、ＤＬ追尾部２８０２の追尾結果を優先して採用してもよい。具体的には、ＤＬ追尾部２８０２の追尾結果が得られていればＤＬ追尾部２８０２の追尾結果を採用し、得られていなければ非ＤＬ追尾部２８０３の追尾結果を採用してもよい。

　次に、本実施形態においてシステム制御部１７４０が行う、ＤＬ追尾部２８０２および非ＤＬ追尾部２８０３の制御動作について説明する。本実施形態においてシステム制御部１７４０は、撮像装置１７００'に設定されているＡＦモードに応じてＤＬ追尾部２８０２と非ＤＬ追尾部２８０３のいずれを有効にするかを制御する。

　ここでは、撮像装置１７００'が第４実施形態と同様にシングルＡＦモードとコンティニュアスＡＦモードとを有するものとする。シングルＡＦモードは風景やポートレートのような静止もしくは動きの少ない被写体の撮影に用いられる可能性が高い。一方で、コンティニュアスＡＦモードは乗り物やスポーツシーンのような移動被写体の撮影に用いられる可能性が高い。

　シングルＡＦモードの場合は被写体が静止しているか被写体の動きが小さい可能性が高い。そのため、ＤＬ追尾部ではなく非ＤＬ追尾部を有効とする。一方、コンティニュアスＡＦモードの場合は、被写体が動いているか被写体の動きが大きい可能性が高い。そのため、非ＤＬ追尾部ではなくＤＬ追尾部を有効とする。このような制御により、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。

　図２９は、本実施形態におけるシステム制御部１７４０の動作に関するフローチャートである。
　Ｓ２９００は第３実施形態において図２１を用いて説明した処理と同様の画像取得処理である。

　Ｓ２９０１でシステム制御部１７４０は、検出部１７１７に候補領域の検出を実行するように指示する。検出部１７１７は、１フレーム分の画像に対して被写体領域の検出処理を適用し、検出結果を追尾用メモリ１７１５に格納する。検出結果は検出された候補領域の総数、個々の候補領域の画像内の位置および大きさを含む。

　Ｓ２９０２でシステム制御部１７４０は、対象決定部２８０１に、候補領域の中から追尾対象とする被写体領域（主被写体領域）を決定するように指示する。対象決定部２８０１は、追尾用メモリ１７１５に格納された候補領域の情報を読み出し、候補領域が複数検出されている場合には上述したような優先順位に基づいて主被写体領域を決定する。対象決定部２８０１は、主被写体領域を特定する情報を追尾用メモリ１７１５に格納する。

　Ｓ２９０３においてシステム制御部１７４０は、撮像装置１７００'に現在設定されているＡＦモードがコンティニュアスＡＦモードであるか否かを判定する。システム制御部１７４０は、現在設定されているＡＦモードがコンティニュアスＡＦモードであると判定された場合にはＳ２９０４を実行し、現在設定されているＡＦモードがコンティニュアスＡＦモードであると判定されない場合にはＳ２９０５を実行する。

　Ｓ２９０４でシステム制御部１７４０は、ＤＬ追尾部２８０２を有効とし、非ＤＬ追尾部２８０３を無効とする。これにより、ＤＬ追尾部２８０２は、現フレームに対する追尾処理を実行する。
　また、Ｓ２９０５でシステム制御部１７４０は、非ＤＬ追尾部２８０３を有効とし、ＤＬ追尾部２８０２を無効とする。これにより、非ＤＬ追尾部２８０３は、現フレームに対する追尾処理を実行する。
　なお、Ｓ２９０４おようびＳ２９０５における追尾処理に用いる主被写体領域は、現フレームよりも過去のフレームについて直近に決定された主被写体領域である。

　Ｓ２９０６でシステム制御部１７４０は、追尾用メモリ１７１５に格納されている主被写体領域の情報を、Ｓ２９０４またはＳ２９０５における追尾処理の結果によって更新する。また、追尾処理の結果は情報重畳部１７２１にも出力される。

　Ｓ２９０７でシステム制御部１７４０は、ＤＬ追尾部２８０２および非ＤＬ追尾部２８０３を無効にする。
　Ｓ２９０８でシステム制御部１７４０は、情報重畳部１７２１に、追尾結果に基づく追尾枠を現フレームの表示用画像に重畳表示するように指示する。情報重畳部１７２１は、追尾結果に基づく位置と大きさを有する追尾枠の画像を生成し、現フレームの表示用画像データに合成した合成画像データを生成する。情報重畳部１７２１は、合成画像データを表示部１７３１に出力する。

　以上でライブビュー表示における一フレーム分の動作が完了する。本実施形態では、第１の追尾部と、第１の追尾部よりも処理精度が高いが、演算量が多い第２の追尾部とを用いる撮像装置において、ＡＦモードに応じて第１および／または第２追尾部の有効・無効を制御するようにした。そのため、良好な追尾結果が得られる可能性が低い追尾部を無効としたり、一方の処理部だけで良好な追尾結果が得られる可能性が高い場合には他方の追尾部を無効としたりすることで、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第１０実施形態＞
　次に、本発明の第１０実施形態について説明する。本実施形態では、追尾処理を適用する動画のフレームレートに応じて、ＤＬ追尾部２８０２と非ＤＬ追尾部２８０３の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　フレーム間における被写体領域の位置やサイズの変動は、フレームレートが高いほど小さくなる。したがって、フレームレートが高い場合には非ＤＬ追尾部２８０３による追尾処理の精度は十分高いと考えられる。この場合、ＤＬ追尾部２８０２が必要となる可能性は低い。しかしながら、ある程度の頻度でＤＬ追尾部２８０２を用いることで、より確実に追尾処理の精度を維持することができる。

　そのため、追尾処理を適用する動画のフレームレートが予め定められた第１の閾値（ｆｐｓ）より高い場合には、フレームレートが第１の閾値以下の場合よりも、ＤＬ追尾部２８０２を有効とする頻度を下げる。これにより、検出精度の低下を抑制しつつ、消費電力を低減できる。なお、第１の閾値は例えば実験的に決定することができる。なお、閾値を複数設けて、ＤＬ追尾部２８０２を有効とする頻度を３段階以上で制御してもよい。

　以下、図３０のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。ここでは、追尾処理を適用する動画のフレームレートが予め定められた第１の閾値（ｆｐｓ）より高いことが既に判定されているものとする。また、図３０において、第９実施形態と同じ処理を行う工程には図２９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３００１においてシステム制御部１７４０は、フレーム数のカウンタとして用いる変数ＣＯＵＮＴの値が予め定められたＮ（２以上の整数）であるか否かを判定する。Ｎの値は追尾処理を適用する動画のフレームレートが第１の閾値（ｆｐｓ）以下の場合にＤＬ追尾部２８０２がＭフレームごとに有効になるとすると、Ｎ＞Ｍという関係を満たすように定める。ここではＭ＝１、Ｎ＝１０とする。システム制御部１７４０は、変数ＣＯＵＮＴの値がＮであると判定されればＳ３００２を、判定されなければＳ３００３を実行する。

　Ｎ＝１０であるため、Ｓ３００２は１０フレームごとに１回実行される。Ｓ３００２でシステム制御部１７４０は変数ＣＯＵＮＴの値を１に初期化する。その後、システム制御部１７４０は、Ｓ２９０４でＤＬ追尾部２８０２を有効にする。非ＤＬ追尾部２８０３は無効とすることで消費電力を抑制できるが、有効としてもよい。

　一方、Ｓ３００３でシステム制御部１７４０は、変数ＣＯＵＮＴの値を１増加させる。その後、システム制御部１７４０は、Ｓ２９０５で非ＤＬ追尾部２８０３を有効にし、ＤＬ追尾部２８０２は無効にする。以降の処理は第９実施形態と同様であるため説明を省略する。

　以上でライブビュー表示における一フレーム分の動作が完了する。以上の動作により、追尾処理を適用する動画のフレームレートが高い場合、ＤＬ追尾部２８０２は１０フレーム当たり１フレームについてが有効となり、残りの９フレームについては無効となる。ＤＬ追尾部２８０２が無効のフレームでは非ＤＬ追尾部２８０３を有効とする。

　本実施形態では、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を用いる頻度を、追尾処理を適用する動画のフレームレートに応じて制御するようにした。具体的には、追尾処理を適用する動画のフレームレートが高い場合には、高くない場合よりも、第２の追尾部を有効とする頻度を低くするようにした。被写体の動きが少ない場合には、第１の追尾部で精度の良い追尾処理が可能であるため、第２の追尾部を用いる頻度を抑制することで、検出精度の低下を抑制しつつ、消費電力を抑制することができる。
●＜第１１実施形態＞
　次に、本発明の第１１実施形態について説明する。本実施形態では、撮像装置のシャッタスピードに応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　動画撮影時のシャッタスピードが速い場合、フレームレートが高い場合と同様、フレーム間における被写体領域の位置やサイズの変動は小さくなる。したがって、非ＤＬ追尾部２８０３の追尾処理で十分な精度が得られる可能性が高い。そのため、シャッタスピードが速い場合にはＤＬ追尾部２８０２を無効とする。

　以下、図３１のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３１において、第９実施形態と同じ処理を行う工程には図１９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３１０１においてシステム制御部１７４０は、現在設定されているシャッタスピードが閾値より速いか否かを判定する。ここで用いる閾値は、非ＤＬ追尾部２８０３の性能などに応じて例えば実験的に決定することができる。

　システム制御部１７４０は、シャッタスピードが閾値より速いと判定されなればＳ２９０４でＤＬ追尾部２８０２を有効にする。非ＤＬ追尾部２８０３は無効とすることで消費電力を抑制できるが、有効としてもよい。
　一方、システム制御部１７４０は、シャッタスピードが閾値より速いと判定されなければＳ２９０５で非ＤＬ追尾部２８０３を有効にし、ＤＬ追尾部２８０２は無効にする。以降の処理は第３実施形態と同様であるため説明を省略する。

　本実施形態では、第１の追尾部と、第１の追尾部よりも処理精度が高いが、演算量が多い第２の追尾部とを、撮像装置のシャッタスピードに応じて使い分けるようにした。具体的には、第２の追尾部は、シャッタスピードが速くない（遅い）場合に用い、シャッタスピードが速い場合には用いないようにした。シャッタスピードが速い場合には、フレーム間における被写体領域の位置や大きさの変化が小さく、第１の追尾部で精度の良い追尾処理が可能であるため、第２の追尾部を無効にする。これにより、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。

●＜第１２実施形態＞
　次に、本発明の第１２実施形態について説明する。本実施形態では、ユーザの指示に応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　本実施形態では、ユーザがＤＬ追尾処理を有効とした場合にのみ、ＤＬ追尾部２８０２を有効とする。ＤＬ追尾処理を有効とするユーザ指示はどのようなものであってもよい。ユーザがＤＬ追尾処理を意識して指示する必要はなく、結果としてＤＬ追尾処理が有効になる指示であればよい。

　ここでは一例として、操作部１７５２にＤＬ追尾処理の有効・無効を切り替える機能が割り当てられた入力デバイス（ＤＬ追尾ボタン）が存在するものとする。図３９は、撮像装置１７００'の背面外観例を示す図である。ここでは、表示部１７３１が撮像装置１７００'の背面に設けられているものとする。操作部１７５２を構成する一部の入力デバイス３９０１～３９０３が撮像装置１７００'の背面に設けられている。方向入力と決定入力が可能な入力デバイス３９０３は、方向キーおよび決定ボタンとして機能する。入力デバイス３９０１または３９０２をＤＬ追尾ボタンとして用いることができる。

　システム制御部１７４０は、ＤＬ追尾ボタンが押下されるごとに、ＤＬ追尾の有効・無効を切り替える。あるいはシステム制御部１７４０は、ＤＬ追尾ボタンが押下されている間だけＤＬ追尾を有効としてもよい。また、ＤＬ追尾ボタンは表示部１７３１を用いたソフトウェアキーであってもよい。

　以下、図３２のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３２において、第９実施形態と同じ処理を行う工程には図２９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３２０１においてシステム制御部１７４０は、ＤＬ追尾ボタンがＯＮか否かを判定する。ここでは、ＤＬ追尾ボタンが押下されている場合にＯＮと判定する。システム制御部１７４０は、ＤＬ追尾ボタンがＯＮと判定されれば、Ｓ２９０４でＤＬ追尾部２８０２を有効にする。非ＤＬ追尾部２８０３は無効とすることで消費電力を抑制できるが、有効としてもよい。一方、システム制御部１７４０は、ＤＬ追尾ボタンがＯＮと判定されなければ、Ｓ２９０５で非ＤＬ追尾部２８０３を有効にし、ＤＬ追尾部２８０２は無効にする。以降の処理は第９実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の被写体追尾部の有効、無効を、ユーザの指示に応じて制御するようにした。具体的には、第２の追尾部を有効にする旨のユーザ指示を検出した場合のみ第２の追尾部を有効とするようにした。これにより、ユーザが必要としない場合に第２の追尾部が無効になるため、消費電力を抑制することができる。

●＜第１３実施形態＞
　次に、本発明の第１３実施形態について説明する。本実施形態では、装置の操作状況に応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　具体的には、撮影範囲を変更するための操作であるパン、チルト、またはズーム操作が行われていると判定される場合には、ＤＬ追尾部２８０２を無効とする。これらの操作が行われている場合、主被写体が撮影範囲に収まるようにユーザが調整している可能性があるからである。そのため、これらの操作中にＤＬ追尾部２８０２を有効としても、意味のある検出結果が得られない可能性がある。本実施形態においてＤＬ追尾部２８０２は、撮像装置１７００'のパン、チルト、またはズーム操作中が行われていないと判定される場合のみ有効にされうる。

　以下、図３３のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３３において、第９実施形態と同じ処理を行う工程には図２　９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３３０１においてシステム制御部１７４０は、撮像装置１７００'でパン、チルト、またはズーム操作が行われているか否かを判定する。システム制御部１７４０は、例えばライブビュー表示用に撮影されている動画のフレーム間の動きベクトルや特徴領域のサイズ変化を検出することにより、あるいは動きセンサ１７６０の出力により、パン、チルト、ズーム操作を検出することができる。ズーム操作については操作部１７５２のズームボタンの操作によっても検出することができる。

　システム制御部１７４０は、パン、チルト、またはズーム操作が行われていると判定されれば、Ｓ２９０８を実行する。一方、システム制御部１７４０は、パン、チルト、またはズーム操作が行われていると判定されなければ、Ｓ３３０２を実行する。

　Ｓ３３０２でシステム制御部１７４０は、ＤＬ追尾部２８０２または非ＤＬ追尾部２８０３を有効にする。ＤＬ追尾部２８０２が有効の場合、非ＤＬ検出部１７２３は無効とすることで消費電力を抑制できるが、有効としてもよい。ＤＬ追尾部２８０２を有効とする条件は、例えば第９～第１２実施形態で説明した条件の１つ以上を用いることができる。　システム制御部１７４０は、ＤＬ追尾部２８０２を有効とする条件が満たされなければ、ＤＬ追尾部２８０２を無効とし、非ＤＬ追尾部２８０３を有効とする。Ｓ２９０６以降の処理は第９実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を、撮影範囲を変更するための操作が行われていない場合にのみ有効とすることができるようにした。撮影範囲が確定していない状態では第２の追尾部を有効としないことにより、効率的に消費電力を抑制することができる。

●＜第１４実施形態＞
　次に、本発明の第１４実施形態について説明する。本実施形態では、撮像装置１７００'の撮影モードに応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　撮像装置１７００'は静止画撮影モードと動画撮影モードとを含む複数の撮影モードを有する。なお、撮影モードは、夜景モード、スポーツモード、フィルターモードなど、撮影シーンや適用する特殊効果などに応じて設けられる場合もある。ここでは最終的に静止画を撮影する撮影モードであれば静止画撮影モードとして、動画を撮影する撮影モードであれば動画撮影モードとして取り扱う。

　以下、図３４のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３４において、第９実施形態と同じ処理を行う工程には図２　９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３４０１においてシステム制御部１７４０は、例えばモード切替スイッチ１７５１の状態に基づいて、撮像装置１７００'の撮影モードが静止画撮影モードか否かを判定する。システム制御部１７４０は、撮像装置１７００'の撮影モードが静止画撮影モードであると判定されればＳ３４０２を実行する。一方、システム制御部１７４０は、撮像装置１７００'の撮影モードが静止画撮影モードであると判定されなければＳ３４０３を実行する。

　Ｓ３４０２でシステム制御部１７４０は、カウント設定値を第１の値（Ｎ１）としてＳ３４０５を実行する。Ｎ１は１以上の整数である。
　Ｓ３４０３でシステム制御部１７４０は、カウント設定値を第２の値（Ｎ２）としてＳ３４０５を実行する。Ｎ２は１以上の整数である。

　Ｓ３４０５においてシステム制御部１７４０は、フレーム数のカウンタとして用いる変数ＣＯＵＮＴの値がカウント設定値（Ｎ１またはＮ２）であるか否かを判定する。システム制御部１７４０は、変数ＣＯＵＮＴの値がカウント設定値であると判定されればＳ３４０６を、判定されなければＳ３４０７を実行する。

　Ｓ３４０６でシステム制御部１７４０は変数ＣＯＵＮＴの値を１に初期化する。その後、システム制御部１７４０は、Ｓ２９０４でＤＬ追尾部２８０２を有効にする。非ＤＬ追尾部２８０３は無効とすることで消費電力を抑制できるが、有効としてもよい。

　一方、Ｓ３４０７でシステム制御部１７４０は、変数ＣＯＵＮＴの値を１増加させる。その後、システム制御部１７４０は、Ｓ２９０５で非ＤＬ追尾部２８０３を有効にし、ＤＬ追尾部２８０２は無効にする。

　Ｓ２９０４は、変数ＣＯＵＮＴがＮ１もしくはＮ２になるごとに実行される。つまり、静止画撮影モードではＮ１フレームごとに１回、動画撮影モードではＮ２フレームごとに１回、ＤＬ追尾部２８０２が有効とされ、残りのフレームについてはＤＬ追尾部２８０２は無効とされる。

　第１の値および第２の値は、ＤＬ追尾部２８０２を有効とする頻度を撮影モードに応じて制御する。第１の値および第２の値は、例えば不揮発性メモリ１７５３に予め記憶されている。なお、第１の値および第２の値はシャッタスピードやフレームレートなどを考慮して定めることができる。

　例えば、追尾処理を適用する動画のフレームレートが、動画撮影モードでは静止画撮影モードよりも高くなるとする。この場合、動画撮影モードでは静止画撮影モードよりもＤＬ追尾部２８０２を有効とする頻度を下げることで、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。なお、これは一例であり、撮影モードごとにＤＬ追尾部２８０２を有効とする頻度を独立して制御することにより、撮影モードに適した頻度でＤＬ追尾部２８０２を有効とすることができる。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を有効にする頻度を、撮影モードに応じて制御するようにした。撮影モードに応じて適切なカウント設定値を定めることにより、追尾性能の低下を抑制しつつ、消費電力を低減させることができる。

●＜第１５実施形態＞
　次に、本発明の第１５実施形態について説明する。本実施形態では、レリーズボタンの押下状態の状態に応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　レリーズボタン１７５０は、半押しでＯＮするスイッチＳＷ１と、全押しでＯＮするスイッチＳＷ２を有するため、いずれのスイッチもＯＦＦの状態と、スイッチＳＷ１だけがＯＮの状態と、スイッチＳＷ１およびＳＷ２がＯＮの状態とを有する。また、システム制御部１７４０はＳＷ１のＯＮを静止画の撮影準備指示として、ＳＷ２のＯＮを静止画の撮影開始指示と認識する。

　本実施形態では、レリーズボタン１７５０が半押しまたは全押しの状態でなければ、撮影待機状態であるため、ＤＬ追尾部２８０２を無効として、消費電力を抑制する。このように、本実施形態において、ＤＬ追尾部２８０２は、撮像装置１７００'が撮影準備指示もしくは撮影開始指示が入力されている場合のみ有効にされうる。

　以下、図３５のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３５において、第９実施形態と同じ処理を行う工程には図２　９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３５０１においてシステム制御部１７４０は、レリーズボタン１７５０が半押しまたは全押し状態であるか否かを判定する。システム制御部１７４０は、例えばスイッチＳＷ１がＯＮであれば、レリーズボタン１７５０が半押しまたは全押し状態であると判定することができる。スイッチＳＷ２がＯＮのときにスイッチＳＷ１はＯＮであるため、スイッチＳＷ２の状態を検出する必要は無い。

　システム制御部１７４０は、レリーズボタン１７５０が半押しまたは全押し状態であると判定されれば、Ｓ３５０２を実行する。
　一方、システム制御部１７４０は、レリーズボタン１７５０が半押しまたは全押し状態であると判定されなければ、Ｓ２９０８を実行する。この場合は撮影待機状態であるため、処理対象のフレームに対して追尾処理は行わない（非ＤＬ追尾部２８０３で実施してもよい）。

　Ｓ３５０２でシステム制御部１７４０は、ＤＬ追尾部２８０２または非ＤＬ追尾部２８０３を有効にする。ＤＬ追尾部２８０２が有効の場合、非ＤＬ追尾部２８０３は無効とすることで消費電力を抑制できるが、有効としてもよい。ＤＬ追尾部２８０２を有効とする条件は、例えば第９～第１４実施形態で説明した条件の１つ以上を用いることができる。システム制御部１７４０は、ＤＬ追尾部２８０２を有効とする条件が満たされなければ、ＤＬ追尾部２８０２を無効とし、非ＤＬ追尾部２８０３を有効とする。レリーズボタンの半押し状態と全押し状態とでＤＬ追尾部２８０２を有効とする条件を異ならせてもよい。Ｓ２９０６以降の処理は第９実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を、撮影準備指示もしくは撮影開始指示が入力されている場合にのみ有効とすることができるようにした。これにより、撮影準備指示および撮影開始指示が入力されていない撮影待機状態では第２の追尾部が有効とされず、効率的に消費電力を抑制することができる。さらに、撮影待機状態では第１の追尾部も有効としないようにすれば、消費電力を一層抑制することができる。

●＜第１６実施形態＞
　次に、本発明の第１６実施形態について説明する。本実施形態では、撮像装置１７００'の追尾モードに応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　追尾モードとは、主被写体が撮影範囲の中心部から移動しても主被写体に合焦するように継続的に合焦制御を行うモードであり、撮影範囲内で常に移動する被写体や、小動物のように動きが予想しづらい被写体の撮影に適している。追尾モードはモード切替スイッチ１７５１によって設定されてもよいし、操作部１７５２に含まれる入力デバイスの１つの操作によって設定されてもよい。なお、追尾モードで合焦させる被写体は、対象決定部２８０１が決定した主被写体領域に対応する被写体であってよい。なお、追尾モードは明示的に設定される以外に、特定の機能の設定に伴って間接的に設定されてもよい。

　追尾モードが設定されている場合、合焦させる被写体が移動する可能性が高いと考えられるため、ＤＬ追尾部２８０２を有効とする。一方、追尾モードが設定されていない場合、合焦させる被写体が移動する可能性が低いと考えられるため、ＤＬ追尾部２８０２を無効とし、非ＤＬ追尾部２８０３を有効とする。

　以下、図３６のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３６において、第９実施形態と同じ処理を行う工程には図２　９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３６０１においてシステム制御部１７４０は、撮像装置１７００'に追尾モードが設定されているか否かを判定する。システム制御部１７４０は、例えばモード切替スイッチ１７５１の状態から、追尾モードが設定されているか否かを判定することができる。

　システム制御部１７４０は、追尾モードが設定されていると判定されればＳ２９０４を、追尾モードが設定されていると判定されなければＳ２９０５を実行する。
　Ｓ２９０４でシステム制御部１７４０は、ＤＬ追尾部２８０２を有効とし、非ＤＬ追尾部２８０３を無効とする。これにより、ＤＬ追尾部２８０２は、現フレームに対する追尾処理を実行する。

　また、Ｓ２９０５でシステム制御部１７４０は、非ＤＬ追尾部２８０３を有効とし、ＤＬ追尾部２８０２を無効とする。これにより、非ＤＬ追尾部２８０３は、現フレームに対する追尾処理を実行する。
　Ｓ２９０６以降の処理は第９実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を、追尾モードが設定されている場合に有効とし、追尾モードが設定されていない場合には無効とする。第２の追尾部の必要性が低いと考えられる場合に第２の追尾部を無効とすることで、追尾精度の低下を抑制しつつ消費電力を抑制することができる。

●＜第１７実施形態＞
　次に、本発明の第１７実施形態について説明する。本実施形態では、追尾対象の主被写体が追尾しやすい被写体であるか否かに応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。

　本実施形態の検出部１７１７は、第１実施形態における検出部１１０と同様に、検出した候補領域に、被写体の種類を示すオブジェクトクラスとその信頼度を関連付けるものとする。追尾対象である主被写体領域が追尾が容易な被写体であれば、非ＤＬ追尾部２８０３で十分な精度が得られる可能性が高いため、ＤＬ追尾部２８０２を無効とする。

　以下、図３７のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３７において、第９実施形態と同じ処理を行う工程には図２　９と同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ３７０１においてシステム制御部１７４０は、対象決定部２８０１が決定した主被写体領域に関連付けられているオブジェクトクラスから、主被写体領域に係る被写体の種類が追尾の容易な被写体であるか否かを判定する。システム制御部１７４０は、例えば不揮発性メモリ１７５３に予め記憶されている、オブジェクトクラスと追尾の難度とを参照することにより、主被写体領域に係る被写体の種類が追尾の容易な被写体であるか否かを判定することができる。ここでの追尾の難度は、非ＤＬ追尾の難度とする。

　例えば、鳥や昆虫のように、角度や状態（例えば飛んでいる状態か否か）によって形および／または色が大きく変化する被写体はについては、非ＤＬ追尾が難しい。なお、非ＤＬ追尾が難しい被写体は、非ＤＬ追尾のアルゴリズムにも依存するため、形および／または色の変化が大きい被写体に限定されない。なお、検出部１７１７が検出可能なオブジェクトクラスや、非ＤＬ追尾部の性能などに応じて、オブジェクトクラスと追尾難度との対応付けは予め行うことができる。

　システム制御部１７４０は、主被写体領域に係る被写体の種類が追尾の容易な被写体であると判定されればＳ２９０５を、判定されなければＳ２９０４を実行する。
　Ｓ２９０４でシステム制御部１７４０は、ＤＬ追尾部２８０２を有効とし、非ＤＬ追尾部２８０３を無効とする。これにより、ＤＬ追尾部２８０２は、現フレームに対する追尾処理を実行する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を、追尾対象の被写体領域に係る被写体が第１の追尾部で容易に追尾できる被写体であれば無効とする。第２の追尾部の必要性が低いと考えられる場合に第２の追尾部を無効とすることで、追尾精度の低下を抑制しつつ消費電力を抑制することができる。

●＜第１８実施形態＞
　次に、本発明の第１８実施形態について説明する。本実施形態では、ユーザが被写体を見失っているか否かに応じてＤＬ追尾部および非ＤＬ追尾部の有効、無効を制御する。本実施形態は第９実施形態と同様の撮像装置１７００'で実施可能であるため、図２８に示した構成要素を用いて説明する。ただし、撮像装置１７００'は、第３実施形態に係る撮像装置１７００と同様、操作部１７５２に含まれる入力デバイスとして、図１８に示した視線情報取得部１８００が設けられているものとする。また、システム制御部１７４０についても、図１９に示したような機能ブロックを有するものとする。

　以下、図３８のフローチャートを用いて、本実施形態におけるシステム制御部１７４０の動作について説明する。図３８において、第９実施形態と同じ処理を行う工程には図２　９と、第３実施形態と同じ処理を行う工程には図２０とそれぞれ同じ参照番号を付して説明を省略する。Ｓ２９００からＳ２９０２の処理は第９実施形態で説明した通りである。

　Ｓ２００２でシステム制御部１７４０は、図１９および図２２を用いて説明した被写体見失い判定処理を実行する。
　Ｓ２００３でシステム制御部１７４０（不規則性判定部１９０１）は、見失い判定処理で算出した不規則度に基づいて、ユーザが被写体を見失ったか否かを判定する。

　Ｓ２００３において不規則性判定部１９０１によって被写体を見失ったと判定されれば処理判定部１９０２がＳ２９０４を実行する。Ｓ２００３において不規則性判定部１９０１によって被写体を見失ったと判定されなければ処理判定部１９０２がＳ２９０５を実行する。

　Ｓ２９０４でシステム制御部１７４０（処理判定部１９０２）は、ＤＬ追尾部２８０２を有効とし、非ＤＬ追尾部２８０３を無効とする。これにより、ＤＬ追尾部２８０２は、現フレームに対する追尾処理を実行する。
　また、Ｓ２９０５でシステム制御部１７４０（処理判定部１９０２）は、非ＤＬ追尾部２８０３を有効とし、ＤＬ追尾部２８０２を無効とする。これにより、非ＤＬ追尾部２８０３は、現フレームに対する追尾処理を実行する。
　Ｓ２９０６以降の処理は第９実施形態と同様であるため説明を省略する。

　本実施形態では、追尾対象の被写体領域を追尾する追尾部のうち、第１の追尾部と、第１の追尾部よりも精度が高いが演算量が多い第２の追尾部を、ユーザが被写体を見失っているか否かに応じて使い分けるようにした。具体的には、第２の追尾部は、ユーザが被写体を見失っている場合に用い、ユーザが被写体を見失っていない場合には用いないようにした。ユーザが被写体を見失っていない場合には、第１の追尾部で十分精度の良い追尾処理が可能であるため、第２の追尾部を無効にすることで、追尾精度の低下を抑制しつつ、消費電力を抑制することができる。

（その他の実施形態）
　上述した実施形態は組み合わせて実施することも可能である。例えば、検出部、対象決定部、追尾部の２つ以上が、同じ機能を実現する演算量と精度の異なる２つの構成要素を有し、それらの有効・無効を実施形態に従って動的に制御することができる。

　上述の実施形態において、ＤＬ追尾と非ＤＬ追尾が有効となるフレーム周期を異ならせ、それぞれの周期の最小公倍数をの周期ではＤＬ追尾と非ＤＬ追尾とを両方有効としてもよい。

　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

　本願は、２０２０年６月１２日提出の日本国特許出願特願２０２０－１０２５１７および２０２１年３月１日提出の日本国特許出願特願２０２１－３２０３６を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、
　前記候補領域から、追尾対象とする被写体領域を決定する決定手段と、
　前記決定手段が決定した被写体領域について、追尾の難度に関する評価値を算出する算出手段と、
　前記処理対象のフレームにおける、前記処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段であって、第１の追尾手段と第２の追尾手段とを有する追尾手段と、
　前記評価値に基づいて、前記処理対象のフレームより後のフレームに対する前記第１の追尾手段と前記第２の追尾手段の動作を決定する制御手段と、を有し、
　前記第２の追尾手段は、前記第１の追尾手段よりも処理精度が高いが演算負荷が大きく、
　前記制御手段は、前記評価値に基づいて、前記第１の追尾手段および前記第２の追尾手段の両方を有効にするか、前記第１の追尾手段および前記第２の追尾手段の少なくとも一方を無効にする、
ことを特徴とする画像処理装置。
　前記算出手段は、被写体領域の大きさ、被写体領域の位置、被写体の種類、および同じ種類の被写体に関する被写体領域の数の１つ以上に基づいて、前記評価値を算出することを特徴とする請求項１に記載の画像処理装置。
　前記評価値は、値が大きいほど追尾処理の難度が高いことを示し、
　前記制御手段は、前記評価値が第１の閾値以上であれば前記第１の追尾手段を無効に、前記第２の追尾手段を有効にすることを特徴とする請求項１または２に記載の画像処理装置。
　前記評価値は、値が大きいほど追尾処理の難度が高いことを示し、
　前記制御手段は、前記評価値が第２の閾値未満であれば前記第２の追尾手段を無効に、前記第１の追尾手段を有効にすることを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
　前記制御手段は、前記第１の追尾手段および前記第２の追尾手段の両方を有効にする場合、前記第１の追尾手段よりも前記第２の追尾手段の動作頻度を低減することを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
　前記制御手段は、前記決定手段が決定した被写体領域と、前記追尾手段が位置を推定した被写体領域とが同じ被写体に関する場合には、前記後のフレームに対する前記第１の追尾手段と前記第２の追尾手段の動作を、前記処理対象のフレームに対する前記第１の追尾手段と前記第２の追尾手段の動作から変更しないことを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。
　前記制御手段は、前記決定手段が決定した被写体領域と、前記追尾手段が位置を推定した被写体領域とが異なる被写体に関する場合に、前記後のフレームに対する前記第１の追尾手段と前記第２の追尾手段の動作を、前記評価値に基づいて決定することを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　前記第２の追尾手段がニューラルネットワークを用いて前記追尾処理を実行することを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、
　前記候補領域から、追尾対象とする被写体領域を決定する決定手段と、
　前記処理対象のフレームにおける、前記処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段であって、第１の追尾手段と第２の追尾手段とを有する追尾手段と、
　前記検出手段により検出した被写体の種類に基づいて、前記処理対象のフレームより後のフレームに対する前記第１の追尾手段と前記第２の追尾手段の動作を決定する制御手段と、を有し、
　前記第２の追尾手段は、前記第１の追尾手段よりも処理精度が高いが演算負荷が大きく、
　前記制御手段は、前記検出手段により検出した被写体の種類に基づいて、前記第１の追尾手段および前記第２の追尾手段の両方を有効にするか、前記第１の追尾手段および前記第２の追尾手段の少なくとも一方を無効にする、
ことを特徴とする画像処理装置。
　画像処理装置の制御方法であって、
　前記画像処理装置は、処理対象のフレームにおける、前記処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段を有し、
　前記追尾手段は、第１の追尾手段と、前記第１の追尾手段よりも処理精度が高いが演算負荷が大きい第２の追尾手段とを有し、
　前記制御方法が、
　　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出工程と、
　　前記候補領域から、追尾対象とする被写体領域を決定する決定工程と、
　　前記決定工程が決定した被写体領域について、追尾の難度に関する評価値を算出する算出工程と、
　　前記評価値に基づいて、前記処理対象のフレームより後のフレームに対する前記第１の追尾手段および前記第２の追尾手段の動作を制御する制御工程と、を有し、
　　前記制御工程は、前記評価値に基づいて、前記第１の追尾手段および前記第２の追尾手段の両方を有効にするか、前記第１の追尾手段および前記第２の追尾手段の少なくとも一方を無効にする、
ことを特徴とする画像処理装置の制御方法。
　画像処理装置の制御方法であって、
　前記画像処理装置は、処理対象のフレームにおける、前記処理対象のフレームより前のフレームにおける追尾対象の被写体領域に対応する領域の位置を推定する追尾処理を実行する追尾手段を有し、
　前記追尾手段は、第１の追尾手段と、前記第１の追尾手段よりも処理精度が高いが演算負荷が大きい第２の追尾手段とを有し、
　前記制御方法が、
　　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出工程と、
　　前記候補領域から、追尾対象とする被写体領域を決定する決定工程と、
　　前記検出工程にて検出した被写体の種類に基づいて、前記処理対象のフレームより後のフレームに対する前記第１の追尾手段および前記第２の追尾手段の動作を制御する制御工程と、を有し、
　　前記制御工程は、前記検出工程にて検出した被写体の種類に基づいて、前記第１の追尾手段および前記第２の追尾手段の両方を有効にするか、前記第１の追尾手段および前記第２の追尾手段の少なくとも一方を無効にする、
ことを特徴とする画像処理装置の制御方法。
　画像処理装置が有するコンピュータを、請求項１から９のいずれか１項に記載の画像処理装置が有する各手段として機能させるためのプログラム。
　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、
　前記候補領域の検出結果に基づいて、前記候補領域から追尾処理の対象となる領域を決定する決定処理の難度に関する評価値を算出する算出手段と、
　第１の決定手段と第２の決定手段とを有し、前記検出手段が検出した前記候補領域に対して前記決定処理を行う対象決定手段と、
　前記評価値に基づいて、前記第１の決定手段と前記第２の決定手段の動作を制御する制御手段と、を有し、
　前記第２の決定手段は、前記第１の決定手段よりも処理精度が高いが演算負荷が大きく、
　前記制御手段は、前記評価値に基づいて、前記第１の決定手段と前記第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、
ことを特徴とする画像処理装置。
　前記算出手段は、前記候補領域の大きさ、位置、および種類、ならびに同じ種類の被写体に関する候補領域の数の１つ以上に基づいて、前記評価値を算出することを特徴とする請求項１３に記載の画像処理装置。
　前記評価値は、値が大きいほど決定処理の難度が高いことを示し、
　前記制御手段は、前記評価値が第１の閾値以上であれば、前記第２の決定手段を有効にすることを特徴とする請求項１３または１４に記載の画像処理装置。
　前記評価値は、値が大きいほど決定処理の難度が高いことを示し、
　前記制御手段は、前記評価値が第２の閾値未満であれば前記第２の決定手段を無効に、前記第１の決定手段を有効にすることを特徴とする請求項１３から１５のいずれか１項に記載の画像処理装置。
　前記評価値は、値が大きいほど決定処理の難度が高いことを示し、
　前記制御手段は、前記評価値が第３の閾値未満であれば前記第１の決定手段および前記第２の決定手段の両方を無効にすることを特徴とする請求項１３から１６のいずれか１項に記載の画像処理装置。
　処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出手段と、
　第１の決定手段と、前記第１の決定手段よりも精度が高いが演算負荷が大きい第２の決定手段とを有し、前記検出手段が検出した前記候補領域から追尾処理の対象となる領域を決定する決定処理を行う対象決定手段と、
　前記候補領域の検出結果に基づいて、前記第１の決定手段と前記第２の決定手段の動作を制御する制御手段と、を有し、
　前記制御手段は、検出された前記候補領域の種類および数に基づいて、前記第１の決定手段と前記第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、
ことを特徴とする画像処理装置。
　前記制御手段は、検出された前記候補領域のうち、あらかじめ定められた種類の候補領域の数が第１の閾値未満であれば、前記第２の決定手段を無効に、前記第１の決定手段を有効にすることを特徴とする請求項１８に記載の画像処理装置。
　前記制御手段は、検出された前記候補領域のうち、第１の種類の候補領域の数が第１の閾値以上であり、かつ第２の種類の候補領域の数が第２の閾値以上であれば、前記第２の決定手段を有効にすることを特徴とする請求項１８または１９に記載の画像処理装置。
　前記制御手段は、検出された前記候補領域のうち、いずれの種類について、候補領域の数が第３の閾値未満であれば、前記第１の決定手段および前記第２の決定手段の両方を無効にすることを特徴とする請求項１８から２０のいずれか１項に記載の画像処理装置。
　前記画像処理装置のユーザの視線を検出する視線検出手段をさらに有し、
　前記第１の決定手段は、前記視線検出手段によって検出した視線に基づいて前記決定処理を実行し、
　前記制御手段は、前記第２の決定手段が有効なときは、前記第１の決定手段を無効にすることを特徴とする請求項１３から２１のいずれか１項に記載の画像処理装置。
　前記第２の決定手段は、学習済みのニューラルネットワークを用いて前記決定処理を実行することを特徴とする請求項１３から２２のいずれか１項に記載の画像処理装置。
　画像処理装置の制御方法であって、
　検出手段が、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出工程と、
　算出手段が、前記候補領域の検出結果に基づいて、前記候補領域から追尾処理の対象となる領域を決定する決定処理の難度に関する評価値を算出する算出工程と、
　制御手段が、前記評価値に基づいて、前記画像処理装置が有する、前記決定処理を行う対象決定手段の動作を制御する制御工程と、を有し、
　前記対象決定手段は、第１の決定手段と、前記第１の決定手段よりも精度が高いが演算負荷が大きい第２の決定手段とを有し、
　前記制御工程では、前記評価値に基づいて、前記第１の決定手段と前記第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、
ことを特徴とする画像処理装置の制御方法。
　画像処理装置の制御方法であって、
　検出手段が、処理対象のフレームから、予め定められた被写体の領域を候補領域として検出する検出工程と、
　前記画像処理装置が有する、前記候補領域から追尾処理の対象となる領域を決定する決定処理を行う対象決定手段の動作を、制御手段が、前記候補領域の検出結果に基づいて制御する制御工程と、を有し、
　前記対象決定手段は、第１の決定手段と、前記第１の決定手段よりも精度が高いが演算負荷が大きい第２の決定手段とを有し、
　前記制御工程では、検出された前記候補領域の種類および数に基づいて、前記第１の決定手段と前記第２の決定手段の両方を有効にするか、一方を無効にするか、両方を無効にする、
ことを特徴とする画像処理装置の制御方法。
　コンピュータを、請求項１３から２３のいずれか１項に記載の画像処理装置が有する各手段として機能させるためのプログラムを格納したnon-transitoryな機械可読媒体。