WO2022004303A1

WO2022004303A1 - 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム

Info

Publication number: WO2022004303A1
Application number: PCT/JP2021/021754
Authority: WO
Inventors: 亮宏内田
Original assignee: 富士フイルム株式会社
Priority date: 2020-06-30
Filing date: 2021-06-08
Publication date: 2022-01-06
Also published as: CN115735211A; US20230131704A1; JPWO2022004303A1

Abstract

情報処理装置は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備える。プロセッサは、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する。

Description

情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム

　本開示の技術は、情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラムに関する。

　国際公開第２００８／１３３２３７号には、物体空間を撮影する撮像装置が開示されている。この撮像装置は、被写体特徴点学習手段と、被写体特徴点学習情報格納部と、撮影候補画像情報取得手段と、画像検索処理手段と、撮影条件調整手段とを備えることを特徴とする。被写体特徴点学習手段は、物体空間を撮影して得た画像情報から、所定の被写体の像を検出するとともに、被写体の像の特徴点を示す被写体特徴点学習情報を抽出する。被写体特徴点学習情報格納部は、被写体特徴点学習情報を格納する。撮影候補画像情報取得手段は、撮影の候補となる画像である撮影候補画像を取得する。画像検索処理手段は、取得した撮影候補画像から、撮影候補画像に含まれる少なくとも１つの被写体の像が有する特徴点を示す撮影候補画像特徴点情報の中に、被写体特徴点学習情報格納部に予め格納されていた被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれているか否かを判定する。撮影条件調整手段は、判定の結果、撮影候補画像特徴点情報の中に、被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれている場合に、撮影候補画像中の、撮影候補画像特徴点情報に対応する被写体に対して撮影条件の最適化を行わせるように、撮影条件の最適化を行う撮影条件最適化手段に指示を行う。

　特開２０１３－８０４２８号公報には、第１装置が学習により適応させた第１学習データを取得する取得ステップと、第２装置が学習により適応させる第２学習データのデータ形式に基づいて、取得した第１学習データを、第２学習データのデータ形式に適合するデータ形式の学習データに変換するデータ変換ステップと、をコンピュータに実行させるプログラムが開示されている。

　本開示の技術に係る一つの実施形態は、イメージセンサによって撮像されることで得られる撮像画像から、機械学習に用いる特定被写体画像が手作業で選択される場合に比べ、機械学習に用いるデータを簡便に収集することができる情報処理装置を提供する。

　本開示の技術に係る第１の態様は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、プロセッサが、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する情報処理装置である。

　本開示の技術に係る第２の態様は、機械学習が、教師有り機械学習であり、プロセッサが、特定被写体画像に関する情報であるラベルを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータとして出力する第１の態様に係る情報処理装置である。

　本開示の技術に係る第３の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像がモニタに表示されている状態で、フォーカス対象領域を他画像領域と区別可能な態様で表示し、特定被写体画像が、撮像画像内のフォーカス対象領域の位置に対応する画像である第１の態様又は第２の態様に係る情報処理装置である。

　本開示の技術に係る第４の態様は、プロセッサが、表示用動画像において、フォーカス対象領域を取り囲む枠を表示することで、フォーカス対象領域を他画像領域と区別可能な態様で表示する第３の態様に係る情報処理装置である。

　本開示の技術に係る第５の態様は、枠の位置が、与えられた位置変更指示に従って変更可能である第４の態様に係る情報処理装置である。

　本開示の技術に係る第６の態様は、枠のサイズが、与えられたサイズ変更指示に従って変更可能である第４の態様又は第５の態様に係る情報処理装置である。

　本開示の技術に係る第７の態様は、プロセッサが、撮像画像とフォーカス対象領域の座標とを、機械学習に用いるデータとして出力する第１の態様から第６の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第８の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像をモニタに表示し、表示用動画像において、フォーカス対象領域の指定を受け付け、フォーカス対象領域を含む所定領域のうち、フォーカス対象領域に対する類似度を示す類似評価値が第１既定範囲内にある領域に基づいて、特定被写体画像を抽出する第１の態様又は第２の態様に係る情報処理装置である。

　本開示の技術に係る第９の態様は、プロセッサが、フォーカス対象領域を他画像領域と区別可能な態様で表示する第８の態様に係る情報処理装置である。

　本開示の技術に係る第１０の態様は、フォーカス対象領域及び特定被写体画像のうちの少なくとも一方が、所定領域が分割されることで得られた分割領域単位で定められている第８の態様又は第９の態様に係る情報処理装置である。

　本開示の技術に係る第１１の態様は、類似評価値が、フォーカス動作に使用されたフォーカス評価値に基づく値である第８の態様から第１０の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１２の態様は、類似評価値が、所定領域の色情報に基づく色評価値である第８の態様から第１１の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１３の態様は、プロセッサが、表示用動画像において特定被写体を示す表示用特定被写体画像と、特定被写体画像との相違度が第２既定範囲を超えている場合、異常検出処理を行い、表示用特定被写体画像は、類似評価値に基づいて定められている第８の態様から第１２の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１４の態様は、特定被写体データが、特定被写体画像の座標を含み、プロセッサが、撮像画像と特定被写体画像の座標とを、機械学習に用いるデータとして出力する第１の態様から第１３の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１５の態様は、特定被写体データが、撮像画像から切り出された特定被写体画像であり、プロセッサが、切り出された特定被写体画像を、機械学習に用いるデータとして出力する第１の態様から第１４の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１６の態様は、プロセッサが、データをメモリに記憶し、メモリに記憶されているデータを用いて機械学習を行う第１の態様から第１５の態様の何れか一つの態様に係る情報処理装置である。

　本開示の技術に係る第１７の態様は、第１の態様から第１５の態様の何れか一つの態様に係る情報処理装置から出力されたデータを受け付ける受付デバイスと、受付デバイスによって受け付けられたデータを用いて機械学習を行う演算装置と、を備える学習機器である。

　本開示の技術に係る第１８の態様は、第１の態様から第１６の態様のうちの何れか一つの態様に係る情報処理装置と、イメージセンサと、を備える撮像装置である。

　本開示の技術に係る第１９の態様は、イメージセンサが、複数の合焦位置で撮像し、プロセッサが、撮像が行われることによって得られる複数の撮像画像について、特定被写体に合焦している合焦画像から得られる特定被写体画像の座標を、特定被写体に合焦していない非合焦画像における特定被写体画像の座標として出力する第１８の態様に係る撮像装置である。

　本開示の技術に係る第２０の態様は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む情報処理装置の制御方法である。

　本開示の技術に係る第２１の態様は、コンピュータに、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む処理を実行させるためのプログラムである。

トレーニングデータ生成システムの一例を示す概略図である。撮像装置の前面側の外観の一例を示す斜視図である。撮像装置の背面側の外観の一例を示す背面図である。撮像装置のブロック図である。トレーニングデータ撮像モードが選択された場合に、ラベル選択画面がモニタに表示される態様の一例を示す撮像装置の背面図である。モニタに表示されたライブビュー画像に、ＡＦ枠を重畳表示している態様の一例を示す撮像装置の背面図である。被写体の顔の位置に合わせてＡＦ枠の位置を変更する態様の一例を示す撮像装置の背面図である。被写体の顔の位置に合わせてＡＦ枠のサイズを変更する態様の一例を示す撮像装置の背面図である。ＡＦ枠の位置座標の一例を示す説明図である。第１実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。第１実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。被写体の左眼の位置に合わせてＡＦ枠の位置及びサイズを変更させる態様の一例を示す撮像装置の背面図である。第２実施形態に係る情報処理装置が、分割領域毎の合焦位置間距離に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。第２実施形態に係る情報処理装置を有する撮像装置の光電変換素子に含まれる各画素の配置の一例を示す概略図である。図１４に示す光電変換素子に含まれる第１位相差画素及第２位相差画素に対する被写体光の入射特性の一例を示す概念図である。第２実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。第３実施形態に係る情報処理装置が、分割領域毎の色差に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。第３実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。第４実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。ライブビュー画像と本露光画像との間で、特定被写体画像のサイズの相違度がサイズ既定範囲を超える場合、第５実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。ライブビュー画像と本露光画像との間で、特定被写体画像の中心位置の相違度が位置既定範囲を超える場合、第５実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。第５実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。図２２Ａに示すフローチャートの続きである。第６実施形態に係る情報処理装置が、特定被写体画像の位置座標を決定する態様の一例を示す説明図である。第６実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。第６実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。本露光画像から特定被写体画像を切り出して出力する場合のトレーニングデータの一例を示す説明図である。トレーニングデータ生成プログラムが記憶されている記憶媒体から、トレーニングデータ生成プログラムが撮像装置内のコントローラにインストールされる態様の一例を示すブロック図である。

　以下、添付図面に従って本開示の技術に係る撮像装置と撮像装置の動作方法との実施形態の一例について説明する。

　先ず、以下の説明で使用される文言について説明する。

　ＣＰＵとは、“Central Processing Unit”の略称を指す。ＲＡＭとは、“Random Access Memory”の略称を指す。ＮＶＭとは、“Non-Volatile Memory”の略称を指す。ＩＣとは、“Integrated Circuit”の略称を指す。ＡＳＩＣとは、“Application Specific Integrated Circuit”の略称を指す。ＰＬＤとは、“Programmable Logic Device”の略称を指す。ＦＰＧＡとは、“Field-Programmable Gate Array”の略称を指す。ＳｏＣとは、“System-on-a-chip”の略称を指す。ＳＳＤとは、“Solid State Drive”の略称を指す。ＵＳＢとは、“Universal Serial Bus”の略称を指す。ＨＤＤとは、“Hard Disk Drive”の略称を指す。ＥＥＰＲＯＭとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ＥＬとは、“Electro-Luminescence”の略称を指す。Ｉ／Ｆとは、“Interface”の略称を指す。ＵＩとは、“User Interface”の略称を指す。ＴＯＦとは、“Time of Flight”の略称を指す。ｆｐｓとは、“frame per second”の略称を指す。ＭＦとは、“Manual Focus”の略称を指す。ＡＦとは、“Auto Focus”の略称を指す。以下では、説明の便宜上、本開示の技術に係る「プロセッサ」の一例として、ＣＰＵを例示しているが、本開示の技術に係る「プロセッサ」は、ＣＰＵ及びＧＰＵ等のように複数の処理装置の組み合わせであってもよい。本開示の技術に係る「プロセッサ」の一例として、ＣＰＵ及びＧＰＵの組み合わせが適用される場合、ＧＰＵは、ＣＰＵの制御下で動作し、画像処理の実行を担う。

　本明細書の説明において、「垂直」とは、完全な垂直の他に、本開示の技術が属する技術分野で一般的に許容される誤差を含めた意味合いでの垂直を指す。

　以下の説明において、モニタに表示される「画像」以外で、「画像データ」ではなく「画像」と表現されている場合、「画像」には「画像を示すデータ（画像データ）」の意味も含まれる。本明細書において、「画像内の被写体」とは、画像内に像として含まれる被写体を意味する。

　［第１実施形態］
　一例として図１に示すように、トレーニングデータ生成システム１０は、撮像装置１２、学習機器１４、及び学習機器１４に接続されたデータベース１６を備える。

　撮像装置１２は、例えば、デジタルカメラである。撮像装置１２は、インターネット等の通信網を介して、学習機器１４に通信可能に接続されている。撮像装置１２は、撮像系の動作モードとして、通常撮像モードと、トレーニングデータ撮像モードとを有する。通常撮像モードでは、撮像装置１２は、メカニカルシャッタ４８（図４参照）を作動させることで、イメージセンサ２４の受光面２４Ａ（図４参照）に結像された画像（以下、「本露光画像」と称する）をメモリに記憶する。トレーニングデータ撮像モードでは、撮像装置１２は、本露光画像内の特定被写体を示す画像（以下、「特定被写体画像」と称する）に関するデータを、機械学習に用いるデータとして、学習機器１４に出力する。以下、特定被写体画像に関するデータを「特定被写体データ」とも称する。なお、機械学習は、例えば、ディープラーニング、及び畳み込みニューラルネットワーク等を含む。

　学習機器１４は、例えば、コンピュータである。データベース１６は、ＨＤＤ又はＥＥＰＲＯＭ等のストレージを備え、学習機器１４によって受け付けられたデータを記憶する。

　機械学習に用いるデータとは、例えば、機械学習において、モデルを構築するために用いられるトレーニングデータである。本実施形態において、トレーニングデータは、特定被写体データと、特定被写体画像に関する情報であるラベルとを含むラベル付き画像データである。学習機器１４は、トレーニングデータを用いて教師有り機械学習を行うことにより、画像に写る被写体のクラスを分類するクラス分類モデルを構築する。

　図１に示す例では、撮像装置１２のユーザ１１（以下、単に「ユーザ１１」と称する）は、撮像装置１２をトレーニングデータ撮像モードに設定して、特定被写体Ａ、Ｂ、及びＣを順次撮像する。ユーザ１１は、特定被写体Ａを撮像する前に、撮像装置１２において、受付部６０（図４参照）を介して、「顔」を示すラベルＬＡを選択しておく。撮像装置１２は、特定被写体Ａを撮像することで得られた本露光画像ＰＡ内の特定被写体画像ＳＡに関する特定被写体データと、ラベルＬＡとを対応付けて、トレーニングデータ１７Ａとして、学習機器１４に出力する。学習機器１４は、トレーニングデータ１７Ａを受け付け、特定被写体画像ＳＡに関する特定被写体データとラベルＬＡとを対応付けてデータベース１６に記憶する。

　同様に、ユーザ１１は、特定被写体Ｂを撮像する前に、撮像装置１２において、受付部６０（図４参照）を介して、「車」を示すラベルＬＢを選択しておく。撮像装置１２は、特定被写体Ｂを撮像することで得られた本露光画像ＰＢ内の特定被写体画像ＳＢに関する特定被写体データと、ラベルＬＢとを対応付けて、トレーニングデータ１７Ｂとして、学習機器１４に出力する。学習機器１４は、トレーニングデータ１７Ｂを受け付け、特定被写体画像ＳＢに関する特定被写体データとラベルＬＢとを対応付けてデータベース１６に記憶する。

　また、ユーザ１１は、特定被写体Ｃを撮像する前に、撮像装置１２において、受付部６０（図４参照）を介して、「花」を示すラベルＬＣを選択しておく。撮像装置１２は、特定被写体Ｃを撮像することで得られた本露光画像ＰＣ内の特定被写体画像ＳＣに関する特定被写体データと、ラベルＬＣとを対応付けて、トレーニングデータ１７Ｃとして、学習機器１４に出力する。学習機器１４は、トレーニングデータ１７Ｃを受け付け、特定被写体画像ＳＣに関する特定被写体データとラベルＬＣとを対応付けてデータベース１６に記憶する。

　ここで、本露光画像ＰＡ、ＰＢ、及びＰＣは、本開示の技術に係る「撮像画像」の一例である。特定被写体Ａ、Ｂ、及びＣは、本開示の技術に係る「特定被写体」の一例である。特定被写体画像ＳＡ、ＳＢ、及びＳＣは、本開示の技術に係る「特定被写体画像」の一例である。特定被写体データは、本開示の技術に係る「特定被写体データ」の一例である。なお、以下の説明において、本露光画像ＰＡ、ＰＢ、及びＰＣを区別して説明する必要がない場合には、包括的に「本露光画像Ｐ」と称する。また、以下の説明において、特定被写体Ａ、Ｂ、及びＣを区別して説明する必要がない場合には、符号を付けずに「特定被写体」と称する。また、以下の説明において、特定被写体画像ＳＡ、ＳＢ、及びＳＣを区別して説明する必要がない場合には、包括的に「特定被写体画像Ｓ」と称する。

　ラベルＬＡ、ＬＢ、及びＬＣは、本開示の技術に係る「ラベル」の一例である。トレーニングデータ１７Ａ、１７Ｂ、及び１７Ｃは、本開示の技術に係る「データ」及び「トレーニングデータ」の一例である。なお、以下の説明において、ラベルＬＡ、ＬＢ、及びＬＣを区別して説明する必要がない場合には、包括的に「ラベルＬ」と称する。また、以下の説明において、トレーニングデータ１７Ａ、１７Ｂ、及び１７Ｃを区別して説明する必要がない場合には、包括的に「トレーニングデータ１７」と称する。

　一例として図２に示すように、撮像装置１２は、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラである。撮像装置１２は、撮像装置本体２０と、撮像装置本体２０に交換可能に装着される交換レンズ２２と、を備えている。なお、ここでは、撮像装置１２の一例として、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラが挙げられているが、本開示の技術はこれに限定されず、レンズ固定式のデジタルカメラであってもよいし、レフレックスミラーが省略されていないデジタルカメラであってもよいし、スマートデバイス、ウェアラブル端末、細胞観察装置、眼科観察装置、又は外科顕微鏡等の各種の電子機器に内蔵されるデジタルカメラであってもよい。

　撮像装置本体２０には、イメージセンサ２４が設けられている。イメージセンサ２４は、光電変換素子８０（図１４参照）を備えている。イメージセンサ２４は、受光面２４Ａ（図１４参照）を有する。イメージセンサ２４は、受光面２４Ａの中心と光軸ＯＡとが一致するように撮像装置本体２０内に配置されている。

　イメージセンサ２４は、ＣＭＯＳイメージセンサである。交換レンズ２２が撮像装置本体２０に装着された場合に、被写体を示す被写体光は、交換レンズ２２を透過してイメージセンサ２４に結像され、被写体の画像を示す画像データがイメージセンサ２４によって生成される。ここで、イメージセンサ２４は、本開示の技術に係る「イメージセンサ」の一例である。

　なお、本実施形態では、イメージセンサ２４としてＣＭＯＳイメージセンサを例示しているが、本開示の技術はこれに限定されず、例えば、イメージセンサ２４がＣＣＤイメージセンサ等の他種類のイメージセンサであっても本開示の技術は成立する。

　撮像装置本体２０の上面には、レリーズボタン２６及びダイヤル２８が設けられている。ダイヤル２８は、撮像装置１２の動作モードを設定する際に操作される。撮像装置１２の動作モードとしては、通常撮像モードとトレーニングデータ撮像モードとを含む撮像系の動作モードと、再生モードを含む再生系の動作モードがある。

　レリーズボタン２６は、撮像準備指示部及び撮像指示部として機能し、撮像準備指示状態と撮像指示状態との２段階の押圧操作が検出可能である。撮像準備指示状態とは、例えば待機位置から中間位置（半押し位置）まで押下される状態を指し、撮像指示状態とは、中間位置を超えた最終押下位置（全押し位置）まで押下される状態を指す。なお、以下では、「待機位置から半押し位置まで押下される状態」を「半押し状態」といい、「待機位置から全押し位置まで押下される状態」を「全押し状態」という。また、以下では、レリーズボタン２６が最終押下位置（全押し位置）まで押下される操作を「本露光操作」ともいう。なお、「本露光操作」は、例えば後述のタッチパネル・モニタ３がタッチされる等、別の方法で行われても良い。

　一例として図３に示すように、撮像装置本体２０の背面には、タッチパネル・モニタ３０及び指示キー３２が設けられている。

　タッチパネル・モニタ３０は、モニタ３４及びタッチパネル３６（図４も参照）を備えている。モニタ３４の一例としては、有機ＥＬディスプレイが挙げられる。モニタ３４は、有機ＥＬディスプレイではなく、無機ＥＬディスプレイ、液晶ディスプレイなどの他種類のディスプレイであってもよい。なお、モニタ３４は、本開示の技術に係る「モニタ」の一例である。

　モニタ３４は、画像及び／又は文字情報等を表示する。モニタ３４は、撮像装置１２が撮像系の動作モードの場合に、ライブビュー画像用の撮像、すなわち、連続的な撮像が行われることにより得られたライブビュー画像の表示に用いられる。ライブビュー画像用の撮像（以下、「ライブビュー画像用撮像」とも称する）は、例えば、６０ｆｐｓのフレームレートに従って行われる。なお、ライブビュー画像用撮像のフレームレートは、６０ｆｐｓに限らず、６０ｆｐｓよりも高くても低くてもよい。

　ここで、ライブビュー画像とは、イメージセンサ２４によって撮像されることにより得られた画像データに基づく表示用の動画像を指す。ここで、ライブビュー画像は、本開示の技術に係る「表示用動画像」の一例である。ライブビュー画像は、一般的には、スルー画像とも称される。また、モニタ３４は、本露光画像Ｐの表示にも用いられる。更に、モニタ３４は、撮像装置１２が再生モードの場合の再生画像の表示及びメニュー画面等の表示にも用いられる。

　タッチパネル３６は、透過型のタッチパネルであり、モニタ３４の表示領域の表面に重ねられている。タッチパネル３６は、指又はスタイラスペン等の指示体による接触を検知することで、ユーザ１１からの指示を受け付ける。

　なお、本実施形態では、タッチパネル・モニタ３０の一例として、タッチパネル３６がモニタ３４の表示領域の表面に重ねられているアウトセル型のタッチパネル・ディスプレイを挙げているが、これはあくまでも一例に過ぎない。例えば、タッチパネル・モニタ３０として、オンセル型又はインセル型のタッチパネル・ディスプレイを適用することも可能である。

　指示キー３２は、各種の指示を受け付ける。ここで、「各種の指示」とは、例えば、各種メニューを選択可能なメニュー画面の表示の指示、１つ又は複数のメニューの選択の指示、選択内容の確定の指示、選択内容の消去の指示、ズームイン、ズームアウト、及びコマ送り等の各種の指示等を指す。また、これらの指示はタッチパネル３６によってされてもよい。

　一例として図４に示すように、撮像装置１２は、マウント３７及び３８を備えている。マウント３７は、撮像装置本体２０に設けられている。マウント３８は、交換レンズ２２において、マウント３７の位置に対向する位置に設けられている。交換レンズ２２は、マウント３７にマウント３８が結合されることにより撮像装置本体２０に交換可能に装着される。

　一例として図４に示すように、撮像レンズ４０は、対物レンズ４０Ａ、フォーカスレンズ４０Ｂ、及び絞り４０Ｃを備えている。対物レンズ４０Ａ、フォーカスレンズ４０Ｂ、及び絞り４０Ｃは、被写体側（物体側）から撮像装置本体２０側（像側）にかけて、光軸ＯＡに沿って、対物レンズ４０Ａ、フォーカスレンズ４０Ｂ、及び絞り４０Ｃの順に配置されている。

　また、交換レンズ２２は、スライド機構４２、モータ４４及び４６を備えている。スライド機構４２には、光軸ＯＡに沿ってスライド可能にフォーカスレンズ４０Ｂが取り付けられている。また、スライド機構４２にはモータ４４が接続されており、スライド機構４２は、モータ４４の動力を受けて作動することでフォーカスレンズ４０Ｂを光軸ＯＡに沿って移動させる。

　絞り４０Ｃは、開口の大きさが可変な絞りである。絞り４０Ｃにはモータ４６が接続されており、絞り４０Ｃは、モータ４６の動力を受けて作動することで露出を調節する。なお、交換レンズ２２の構成物及び／又は動作方法は、必要に応じて変更可能である。

　モータ４４及び４６は、マウント３８を介して撮像装置本体２０に接続されており、撮像装置本体２０からの命令に従って駆動が制御される。なお、本実施形態では、モータ４４及び４６の一例として、ステッピングモータが採用されている。従って、モータ４４及び４６は、撮像装置本体２０からの命令によりパルス信号に同期して動作する。また、図４に示す例では、モータ４４及び４６が交換レンズ２２に設けられている例が示されているが、これに限らず、モータ４４及び４６のうちの一方が撮像装置本体２０に設けられていてもよいし、モータ４４及び４６の双方が撮像装置本体２０に設けられていてもよい。

　撮像装置１２は、通常撮像モードの場合に、撮像装置本体２０に対して与えられた指示に従って、ＭＦモード及びＡＦモードのうちの一方に選択的に設定される。ＭＦモードは、手動でピントを合わせる動作モードである。ＭＦモードでは、例えば、ユーザ１１によって交換レンズ２２のフォーカスリング（図示省略）が操作されることで、フォーカスリングの操作量に応じた移動量でフォーカスレンズ４０Ｂが光軸ＯＡに沿って移動し、これによってピントが調節される。

　ＡＦモードでは、レリーズボタン２６が半押し状態にされることにより、撮像装置本体２０が被写体距離に応じた合焦位置の演算を行い、演算して得た合焦位置に向けてフォーカスレンズ４０Ｂを移動させることで、ピントを調節する。その後、引き続きレリーズボタン２６が全押し状態にされることにより、撮像装置本体２０は本露光動作（後述）を行う。ここで、合焦位置とは、ピントが合っている状態でのフォーカスレンズ４０Ｂの光軸ＯＡ上での位置を指す。

　なお、トレーニングデータ撮像モードの場合、撮像装置１２はＡＦモードに設定される。以下では、説明の便宜上、フォーカスレンズ４０Ｂを合焦位置に合わせる制御を「ＡＦ制御」とも称する。また、以下では、説明の便宜上、合焦位置の演算を「ＡＦ演算」とも称する。

　撮像装置本体２０は、メカニカルシャッタ４８を備えている。メカニカルシャッタ４８は、フォーカルプレーンシャッタであり、絞り４０Ｃと受光面２４Ａとの間に配置されている。メカニカルシャッタ４８は、モータ等の駆動源（図示省略）からの動力を受けることで作動する。メカニカルシャッタ４８は、撮像レンズ４０を透過してイメージセンサ２４の受光面２４Ａに結像される被写体光を遮る遮光機構（図示省略）を有する。メカニカルシャッタ４８が遮光機構を開閉するタイミングに応じて、撮像装置１２は、本露光動作を行う。本露光動作とは、受光面２４Ａに結像された画像（本露光画像Ｐ）の画像データを取り込んでメモリに記憶する動作を指す。なお、本露光動作は、本開示の技術にかかる「撮像」の一例である。

　撮像装置本体２０は、コントローラ５０及びＵＩ系デバイス５２を備えている。コントローラ５０は、撮像装置１２の全体を制御する。ＵＩ系デバイス５２は、ユーザ１１に対して情報を提示したり、ユーザ１１からの指示を受け付けたりするデバイスである。コントローラ５０には、バスライン５８を介してＵＩ系デバイス５２が接続されており、コントローラ５０は、ＵＩ系デバイス５２からの各種情報の取得、及びＵＩ系デバイス５２の制御を行う。なお、コントローラ５０は、本開示の技術に係る「情報処理装置」の一例である。

　コントローラ５０は、ＣＰＵ５０Ａ、ＮＶＭ５０Ｂ、ＲＡＭ５０Ｃ、制御Ｉ／Ｆ５０Ｄ、及び入力Ｉ／Ｆ５０Ｅを備えている。ＣＰＵ５０Ａ、ＮＶＭ５０Ｂ、ＲＡＭ５０Ｃ、制御Ｉ／Ｆ５０Ｄ、及び入力Ｉ／Ｆ５０Ｅは、バスライン５８を介して相互に接続されている。

　ＣＰＵ５０Ａは、本開示の技術に係る「プロセッサ」の一例である。ＣＰＵ５０Ａは、撮像装置１２の全体を制御する。ＮＶＭ５０Ｂは、本開示の技術に係る「メモリ」の一例である。ＮＶＭ５０Ｂの一例としては、ＥＥＰＲＯＭが挙げられる。ただし、ＥＥＰＲＯＭはあくまでも一例に過ぎず、例えば、ＥＥＰＲＯＭに代えて強誘電体メモリであってもよく、撮像装置１２に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。ＲＡＭ５０Ｃは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。

　ＮＶＭ５０Ｂには、各種プログラム５１が記憶されている。ＣＰＵ５０Ａは、ＮＶＭ５０Ｂから必要なプログラム５１を読み出し、読み出したプログラム５１をＲＡＭ５０Ｃ上で実行することで、撮像装置１２を統括的に制御する。

　制御Ｉ／Ｆ５０Ｄは、ＦＰＧＡを有するデバイスであり、イメージセンサ２４に接続されている。ＣＰＵ５０Ａは、制御Ｉ／Ｆ５０Ｄを介してイメージセンサ２４を制御する。また、制御Ｉ／Ｆ５０Ｄは、マウント３７及び３８を介してモータ４４及び４６に接続されており、ＣＰＵ５０Ａは、制御Ｉ／Ｆ５０Ｄを介してモータ４４及び４６を制御する。

　入力Ｉ／Ｆ５０Ｅは、イメージセンサ２４に接続されている。入力Ｉ／Ｆ５０Ｅは、イメージセンサ２４から出力される画像データを受け付ける。コントローラ５０は、画像データに対して、例えば、ホワイトバランス調整、シャープネス調整、ガンマ補正、色空間変換処理、及び色差補正などの公知の信号処理を施すことによって、本露光画像Ｐを示す本露光画像データを生成する。

　バスライン５８には、外部Ｉ／Ｆ５４が接続されている。外部Ｉ／Ｆ５４は、ＦＰＧＡを有するデバイスである。外部Ｉ／Ｆ５４には、ＵＳＢメモリ又はメモリカード等の外部装置（図示省略）が接続される。外部Ｉ／Ｆ５４は、ＣＰＵ５０Ａと外部装置との間の各種情報の授受を司る。ＣＰＵ５０Ａは、外部Ｉ／Ｆ５４を介して、本露光画像データを外部装置に記憶させる。

　また、バスライン５８には、通信Ｉ／Ｆ５６が接続されている。通信Ｉ／Ｆ５６は、インターネット等の通信網を介して、学習機器１４に通信可能に接続されている。トレーニングデータ撮像モードにおいて、ＣＰＵ５０Ａは、通信Ｉ／Ｆ５６を介して、トレーニングデータ１７を学習機器１４に出力する。

　ＵＩ系デバイス５２は、タッチパネル・モニタ３０及び受付部６０を備えている。モニタ３４及びタッチパネル３６は、バスライン５８に接続されている。従って、ＣＰＵ５０Ａは、モニタ３４に対して各種情報を表示させ、タッチパネル３６によって受け付けられた各種指示に従って動作する。

　受付部６０は、タッチパネル３６及びハードキー部６２を備えている。ハードキー部６２は、複数のハードキーであり、レリーズボタン２６、ダイヤル２８、及び指示キー３２を含む。ハードキー部６２は、バスライン５８に接続されており、ＣＰＵ５０Ａは、ハードキー部６２によって受け付けられた各種指示に従って動作する。

　なお、図４に示す例では、図示の都合上、バスライン５８として１本のバスが図示されているが、複数本のバスであってもよい。バスライン５８は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。

　ＮＶＭ５０Ｂに記憶されている各種プログラム５１には、トレーニングデータ生成プログラム５１Ａが含まれる。撮像装置１２がトレーニングデータ撮像モードに設定された場合、ＣＰＵ５０Ａは、ＮＶＭ５０Ｂからトレーニングデータ生成プログラム５１Ａを読み出し、読み出したトレーニングデータ生成プログラム５１ＡをＲＡＭ５０Ｃ上で実行することで、トレーニングデータ生成部５３として動作する。トレーニングデータ生成部５３は、トレーニングデータ生成処理を実行する。トレーニングデータ生成部５３によって行われるトレーニングデータ生成処理について、以下に具体的に説明する。

　一例として図５に示すように、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部５３は、タッチパネル・モニタ３０上にラベル選択画面６４を表示する。ラベル選択画面６４には、「被写体に付与するラベルを選択してください」というメッセージ６４Ａと、複数のラベル候補が羅列された表６４Ｂが表示されている。

　表６４Ｂの第１列目には、比較的大きな属性を示すラベル候補（以下、「大ラベル候補」とも称する）が表示されている。大ラベル候補は、例えば、「人物」「乗り物」及び「建築物」である。表６４Ｂのその他の列には、第１列目の大ラベル候補を細分化した属性を示すラベル候補（以下、「小ラベル候補」とも称する）が表示される。例えば、大ラベル候補が「人物」の場合、小ラベル候補としては、「顔」「男性」「女性」及び「子供」が挙げられる。ユーザ１１は、指示体でタッチパネル３６に接触することで、表６４Ｂから任意のラベル候補を選択する。

　図１に示す特定被写体Ａを撮像する場合には、一例として図５に示すように、ユーザ１１は、タッチパネル・モニタ３０を介して、表６４Ｂに列記されたラベル候補の中から「顔」のラベルを選択する。なお、図５に列記したラベル候補は一例であり、ラベル候補はこれに限定されない。また、ラベル候補の表示方法はこれに限定されない。図５に示す例では１つの小ラベル候補が選択されているが、大ラベル候補が選択されてもよいし、又は複数の小ラベル候補が選択されてもよい。

　トレーニングデータ生成部５３は、選択されたラベルＬを受け付ける。トレーニングデータ生成部５３は、受け付けたラベルＬをＲＡＭ５０Ｃに記憶する。

　一例として図６に示すように、ラベルＬを受け付けた後、トレーニングデータ生成部５３は、イメージセンサ２４から出力された撮像信号に基づいたライブビュー画像６６をモニタ３４に表示させる。また、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部５３は、ライブビュー画像６６が表示されているモニタ３４の中央に、ＡＦ枠６８を重畳表示する。ＡＦ枠６８とは、ＡＦモードにおいて、フォーカスを合わせる対象となる領域（以下、「フォーカス対象領域」と称する）を、ライブビュー画像６６上で、他の画像領域と区別可能に表示するための枠である。なお、ＡＦ枠６８は、本開示の技術に係る「枠」の一例である。また、フォーカス対象領域は、本開示の技術に係る「フォーカス対象領域」の一例である。また、撮像信号は、本開示の技術に係る「信号」の一例である。

　ＡＦ枠６８は、矩形の枠線６８Ａと、枠線６８Ａの四方に配置された４つの三角矢印６８Ｂ－Ｕ、６８Ｂ－Ｄ、６８Ｂ－Ｒ、及び６８Ｂ－Ｌとを含む。以下、三角矢印６８Ｂ－Ｕ、６８Ｂ－Ｄ、６８Ｂ－Ｒ、及び６８Ｂ－Ｌを区別して説明する必要がない場合には、包括的に「三角矢印６８Ｂ」と称する。

　ユーザ１１は、指示体で、タッチパネル３６上の三角矢印６８Ｂに接触することにより、トレーニングデータ生成部５３に対して、ＡＦ枠６８の位置を各三角矢印６８Ｂが示す方向に移動させる位置変更指示を与えることができる。トレーニングデータ生成部５３は、与えられた位置変更指示に従って、モニタ３４上でＡＦ枠６８の位置を変更する。ここで、位置変更指示は、本開示の技術に係る「位置変更指示」の一例である。なお、タッチパネル３６に表示された三角矢印６８Ｂは、ユーザ１１からの位置変更指示を受け付けるための手段の一例に過ぎず、受付部６０を介してユーザ１１からの位置変更指示を受け付けることができれば、その手段は限定されない。

　例えば、図６において、ユーザ１１は、指示体でタッチパネル３６上の三角矢印６８Ｂ－Ｕ及び６８Ｂ－Ｌに接触することにより、トレーニングデータ生成部５３に対して、枠線６８Ａが特定被写体Ａの顔を示す領域を取り囲むようにＡＦ枠６８を移動させる位置変更指示を与える。これにより、ＡＦ枠６８は、例えば、図７に示す位置に移動する。

　また、ユーザ１１は、タッチパネル・モニタ３０に表示された枠線６８Ａ上で、ピンチイン又はピンチアウト動作を行うことにより、トレーニングデータ生成部５３に対して、枠線６８Ａのサイズを変更させるサイズ変更指示を与えることができる。一例として図８に示すように、図７に示す例に比べて撮像レンズ４０のズーム倍率を低くした場合には、ユーザ１１は、トレーニングデータ生成部５３に対して、枠線６８Ａが特定被写体Ａの顔を示す領域を取り囲むように、枠線６８Ａのサイズを小さく変更させるサイズ変更指示を与える。トレーニングデータ生成部５３は、与えられたサイズ変更指示に従って、モニタ３４上で枠線６８Ａのサイズを変更する。なお、サイズ変更指示は、本開示の技術に係る「サイズ変更指示」の一例である。なお、ピンチイン及びピンチアウト動作は、ユーザ１１からのサイズ変更指示を受け付けるための手段の一例に過ぎず、受付部６０を介してユーザ１１からの位置変更指示を受け付けることができれば、その手段は限定されない。

　ユーザ１１は、ＡＦ枠６８の位置及びサイズを変更した後、レリーズボタン２６を半押し位置まで押下するＡＦ動作を行う。ここで、ＡＦ動作は、本開示の技術に係る「フォーカス動作」の一例である。ＡＦ動作が行われた場合、トレーニングデータ生成部５３は、ライブビュー画像６６において、枠線６８Ａで取り囲まれた領域を、フォーカス対象領域Ｆに指定する。

　トレーニングデータ生成部５３は、フォーカス対象領域Ｆの位置を示す位置座標を取得する。一例として図９に示すように、フォーカス対象領域Ｆの位置座標は、ライブビュー画像６６の左下角を原点Ｏ（０，０）として、枠線６８Ａの右下角Ｑ_１Ａの座標（Ｘ_１Ａ，Ｙ_１Ａ）と、枠線６８Ａの左上角Ｑ_２Ａの座標（Ｘ_２Ａ，Ｙ_２Ａ）とで表される。トレーニングデータ生成部５３は、取得したフォーカス対象領域Ｆの位置座標をＲＡＭ５０Ｃに記憶する。なお、位置座標は、本開示の技術に係る「座標」の一例である。

　ユーザ１１が、ＡＦ動作を行った後、レリーズボタン２６を全押し位置まで押下した場合に、撮像装置１２によって本露光動作が行われ、トレーニングデータ生成部５３は、本露光画像ＰＡから、特定被写体画像ＳＡとして、フォーカス対象領域Ｆを示す画像を抽出する。一例として図１０に示すように、トレーニングデータ生成部５３は、特定被写体画像ＳＡに関する特定被写体データとラベルＬＡとを対応付けて、トレーニングデータ１７Ａとして、学習機器１４に出力する。特定被写体画像ＳＡに関する特定被写体データは、本露光画像ＰＡと、本露光画像ＰＡ内の特定被写体画像ＳＡの位置を示す位置座標、すなわちフォーカス対象領域Ｆの位置座標とを含む。

　同様に、トレーニングデータ撮像モードにおいて、ユーザ１１が、特定被写体Ｂを取り囲むようにＡＦ枠６８を移動させた後、撮像装置１２に対して、ＡＦ動作及び本露光動作を行わせた場合、トレーニングデータ生成部５３は、本露光画像ＰＢから、特定被写体画像ＳＢとして、フォーカス対象領域Ｆを示す画像を抽出する。トレーニングデータ生成部５３は、特定被写体画像ＳＢに関する特定被写体データとラベルＬＢとを対応付けて、トレーニングデータ１７Ｂとして、学習機器１４に出力する。特定被写体画像ＳＢに関する特定被写体データは、本露光画像ＰＢと、本露光画像ＰＢ内の特定被写体画像ＳＢの位置を示す位置座標とを含む。

　同様に、トレーニングデータ撮像モードにおいて、ユーザ１１が、特定被写体Ｃを取り囲むようにＡＦ枠６８を移動させた後、撮像装置１２に対して、ＡＦ動作及び本露光動作を行わせた場合、トレーニングデータ生成部５３は、本露光画像ＰＣから、特定被写体画像ＳＣとして、フォーカス対象領域Ｆを示す画像を抽出する。トレーニングデータ生成部５３は、特定被写体画像ＳＣに関する特定被写体データとラベルＬＣとを対応付けて、トレーニングデータ１７Ｃとして、学習機器１４に出力する。特定被写体画像ＳＣに関する特定被写体データは、本露光画像ＰＣと、本露光画像ＰＣ内の特定被写体画像ＳＣの位置を示す位置座標とを含む。

　学習機器１４は、コンピュータ１５と、入出力Ｉ／Ｆ１４Ｄとを備えている。入出力Ｉ／Ｆ１４Ｄは、撮像装置１２の通信Ｉ／Ｆ５６と通信可能に接続されている。入出力Ｉ／Ｆ１４Ｄは、撮像装置１２からトレーニングデータ１７を受け付ける。コンピュータ１５は、入出力Ｉ／Ｆ１４Ｄによって受け付けられたトレーニングデータ１７をデータベース１６に記憶する。また、コンピュータ１５は、データベース１６からトレーニングデータ１７を読み出し、読み出したトレーニングデータ１７を用いて機械学習を行う。

　コンピュータ１５は、ＣＰＵ１４Ａ、ＮＶＭ１４Ｂ、及びＲＡＭ１４Ｃを備えている。ＣＰＵ１４Ａは、学習機器１４の全体を制御する。ＮＶＭ１４Ｂの一例としては、ＥＥＰＲＯＭが挙げられる。ただし、ＥＥＰＲＯＭはあくまでも一例に過ぎず、例えば、ＥＥＰＲＯＭに代えて強誘電体メモリであってもよく、学習機器１４に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。ＲＡＭ１４Ｃは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。

　ＮＶＭ１４Ｂには、学習実行プログラム７２が記憶されている。ＣＰＵ１４Ａは、ＮＶＭ１４Ｂから学習実行プログラム７２を読み出し、読み出した学習実行プログラム７２をＲＡＭ１４Ｃ上で実行することで、学習実行部７６として動作する。学習実行部７６は、学習実行プログラム７２に従って、トレーニングデータ１７を使ってニューラルネットワーク７４を学習させることで、教師有り学習モデルを構築する。

　次に、本第１実施形態に係る撮像装置１２の作用について図１１を参照しながら説明する。図１１には、トレーニングデータ生成部５３によって実行されるトレーニングデータ生成処理の流れの一例が示されている。トレーニングデータ生成処理は、ＣＰＵ５０Ａが、トレーニングデータ生成プログラム５１Ａを実行することで実現される。トレーニングデータ生成処理は、撮像装置１２がトレーニングデータ撮像モードに設定された場合に開始される。

　図１１に示すトレーニングデータ生成処理では、先ず、ステップＳＴ１０１で、トレーニングデータ生成部５３は、例えば、図５に示すようなラベル選択画面６４をタッチパネル・モニタ３０に表示させる。この後、トレーニングデータ生成処理は、ステップＳＴ１０２に移行する。

　ステップＳＴ１０２で、トレーニングデータ生成部５３は、タッチパネル・モニタ３０上でラベルＬが選択されたか否かを判定する。ステップＳＴ１０２において、ラベルＬが選択された場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ１０３に移行する。ステップＳＴ１０２において、ラベルＬが選択されていない場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ１０１に移行する。

　ステップＳＴ１０３で、トレーニングデータ生成部５３は、タッチパネル・モニタ３０にライブビュー画像６６を表示させる。この後、トレーニングデータ生成処理は、ステップＳＴ１０４に移行する。

　ステップＳＴ１０４で、トレーニングデータ生成部５３は、タッチパネル・モニタ３０に表示しているライブビュー画像６６に、ＡＦ枠６８を重畳表示する。この後、トレーニングデータ生成処理は、ステップＳＴ１０５に移行する。

　ステップＳＴ１０５で、トレーニングデータ生成部５３は、ユーザ１１からの位置変更指示及びサイズ変更指示に従って、ＡＦ枠６８の位置及びサイズを変更する。ユーザ１１は、ライブビュー画像６６において、特定被写体を示す領域がＡＦ枠６８の枠線６８Ａで取り囲まれるように、受付部６０を介して、位置変更指示及びサイズ変更指示を与える。この後、トレーニングデータ生成処理は、ステップＳＴ１０６に移行する。

　ステップＳＴ１０６で、トレーニングデータ生成部５３は、ＡＦ動作が行われたか否かを判定する。ステップＳＴ１０６において、ＡＦ動作が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ１０７に移行する。ステップＳＴ１０６において、ＡＦ動作が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ１０５に移行する。

　ステップＳＴ１０７で、トレーニングデータ生成部５３は、ＡＦ枠６８で示されるフォーカス対象領域Ｆの位置座標を取得する。この後、トレーニングデータ生成処理はステップＳＴ１０８に移行する。

　ステップＳＴ１０８で、トレーニングデータ生成部５３は、本露光が行われたか否かを判定する。ステップＳＴ１０８において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ１０９に移行する。ステップＳＴ１０８において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ１０６に移行する。

　ステップＳＴ１０９で、トレーニングデータ生成部５３は、本露光画像Ｐを取得する。この後、トレーニングデータ生成処理はステップＳＴ１１０に移行する。

　ステップＳＴ１１０で、トレーニングデータ生成部５３は、本露光画像Ｐから、特定被写体画像Ｓとして、フォーカス対象領域Ｆを示す画像を抽出する。この後、トレーニングデータ生成処理はステップＳＴ１１１に移行する。

　ステップＳＴ１１１で、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。特定被写体データは、本露光画像Ｐと、特定被写体画像Ｓの位置座標、すなわちフォーカス対象領域Ｆの位置座標とを含む。学習機器１４は、受け付けた特定被写体データとラベルＬとを、トレーニングデータ１７としてデータベース１６に記憶する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第１実施形態において、トレーニングデータ生成部５３は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う本露光動作がイメージセンサ２４によって行われた場合に、本露光動作によって得られた本露光画像Ｐ内の特定被写体画像Ｓに関する特定被写体データを、機械学習に用いるトレーニングデータ１７として出力する。従って、本構成によれば、イメージセンサ２４によって撮像されることで得られた本露光画像Ｐから、特定被写体画像Ｓが手作業で抽出される場合に比べ、機械学習に用いるトレーニングデータ１７を簡便に収集することができる。

　また、本第１実施形態において、機械学習は、教師有り機械学習である。トレーニングデータ生成部５３は、特定被写体画像Ｓに関する情報であるラベルＬを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータ１７として出力する。従って、本構成によれば、教師有り機械学習に必要なトレーニングデータ１７を収集することができる。

　また、本第１実施形態において、トレーニングデータ生成部５３は、イメージセンサ２４から出力された撮像信号に基づいたライブビュー画像６６をモニタ３４に表示させる。トレーニングデータ生成部５３は、ライブビュー画像６６において、ＡＦ枠６８を用いて、フォーカス対象領域Ｆを他画像領域と区別可能な態様で表示する。特定被写体画像Ｓは、本露光画像Ｐ内のフォーカス対象領域Ｆの位置に対応する画像である。従って、本構成によれば、特定被写体画像Ｓがフォーカス対象領域Ｆの位置と無関係である場合に比べ、特定被写体画像Ｓを容易に抽出することができる。

　また、本第１実施形態において、トレーニングデータ生成部５３は、ライブビュー画像６６に、フォーカス対象領域Ｆを取り囲むＡＦ枠６８を表示することで、フォーカス対象領域Ｆを他画像領域と区別可能な態様で表示する。従って、本構成によれば、ＡＦ枠６８が表示されない場合に比べ、ユーザ１１が特定被写体画像Ｓを認識しやすい。

　また、本第１実施形態において、ＡＦ枠６８の位置は、与えられた位置変更指示に従って変更可能である。従って、本構成によれば、ＡＦ枠６８の位置が固定されている場合に比べ、ユーザ１１は、フォーカス対象領域Ｆを自由に移動させることができる。

　また、本第１実施形態において、ＡＦ枠６８のサイズは、与えられたサイズ変更指示に従って変更可能である。従って、本構成によれば、ＡＦ枠６８のサイズが固定されている場合に比べ、ユーザ１１は、フォーカス対象領域Ｆのサイズを自由に変更させることができる。

　また、本第１実施形態において、特定被写体データは、特定被写体画像Ｓの位置座標を含む。トレーニングデータ生成部５３は、本露光画像Ｐと、フォーカス対象領域Ｆの位置座標、すなわち特定被写体画像Ｓの位置座標とを、機械学習に用いるトレーニングデータ１７として出力する。従って、本構成によれば、特定被写体画像Ｓを切り出して出力する場合に比べ、処理工程が少なくて済むという利点がある。

　また、本第１実施形態において、学習機器１４は、撮像装置１２のコントローラ５０から出力された特定被写体データを受け付ける入出力Ｉ／Ｆ１４Ｄと、入出力Ｉ／Ｆ１４Ｄによって受け付けられた特定被写体データを用いて機械学習を行うコンピュータ１５と、を備える。また、撮像装置１２は、コントローラ５０と、イメージセンサ２４とを備える。従って、本構成によれば、イメージセンサ２４によって撮像されることで得られた本露光画像Ｐから、学習に用いる特定被写体画像Ｓが手作業で選択される場合に比べ、学習機器１４は、学習に用いるトレーニングデータ１７を簡便に収集することができる。

　なお、上記第１実施形態では、一例として図１に示すように、１人のユーザ１１が同一の撮像装置１２を使って複数の特定被写体Ａ、Ｂ、及びＣを撮像することで、トレーニングデータ１７Ａ、１７Ｂ、及び１７Ｃを取得しているが、本開示の技術はこれに限定されない。複数のユーザが、それぞれ別の撮像装置１２を用いて異なる被写体を撮像し、複数の撮像装置１２から同一の学習機器１４にトレーニングデータ１７が出力されてもよい。この場合、複数のユーザにより取得されたトレーニングデータ１７が同一の学習機器１４に出力されることで、学習機器１４は、効率的にトレーニングデータ１７を収集することができる。

　また、上記第１実施形態では、トレーニングデータ生成部５３は、特定被写体画像Ｓの位置座標として、枠線６８Ａの右下角Ｑ_１Ａ及び左上角Ｑ_２Ａの座標を出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、枠線６８Ａの右上角及び左下角の座標を出力してもよい。または、トレーニングデータ生成部５３は、枠線６８Ａの１つ角の座標と、枠線６８Ａを構成する縦及び横の辺の長さを出力してもよい。または、トレーニングデータ生成部５３は、枠線６８Ａの中心の座標と、中心から縦及び横の辺までの長さを出力してもよい。また、特定被写体画像Ｓの位置座標は、ライブビュー画像６６の左下角を原点とした場合の座標で表したが、本開示の技術はこれに限定されず、ライブビュー画像６６の他の角を原点としてもよく、又はライブビュー画像６６の中心を原点としてもよい。

　［第２実施形態］
　本第２実施形態は、ＡＦ枠６８で取り囲まれることによって指定されたフォーカス対象領域Ｆが、特定被写体画像Ｓとして抽出されないという点で、上記第１実施形態と異なる。以下、第１実施形態との相違点を具体的に説明する。以下の説明において、第１実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。

　一例として図１２に示すように、本第２実施形態において、タッチパネル・モニタ３０には、イメージセンサ２４から出力された撮像信号に基づいたライブビュー画像６６が表示され、さらに、ＡＦ枠６８がライブビュー画像６６に重畳表示されている。図１２に示す例では、トレーニングデータ生成部５３は、ライブビュー画像６６において、受付部６０を介して、ユーザ１１からの位置変更指示及びサイズ変更指示を受け付けることにより、特定被写体Ａの左眼を示す画像上にＡＦ枠６８を配置する。この後、ＡＦ動作が行われることによって、枠線６８Ａで取り囲まれた特定被写体Ａの左眼の領域が、フォーカス対象領域Ｆに指定される。トレーニングデータ生成部５３は、ライブビュー画像６６において、フォーカス対象領域Ｆの指定を受け付ける。この後、撮像装置１２が本露光動作を行うことによって、トレーニングデータ生成部５３は、フォーカス対象領域Ｆに合焦した本露光画像Ｐを取得する。

　一例として図１３に示すように、撮像によって得られた本露光画像Ｐにおいて、トレーニングデータ生成部５３は、フォーカス対象領域Ｆを含む候補領域７８を設定する。候補領域７８は、特定被写体画像Ｓを抽出する候補となる領域である。なお、候補領域７８は、本開示の技術に係る「所定領域」の一例である。

　候補領域７８は、例えば、９行×９列のマトリクス状に分割されている。以下では、各分割領域を区別して表すために、説明の便宜上、図１３に示すように、各分割領域の位置に応じて符号が付されている。例えば、候補領域７８の１行目１列目に位置する分割領域に符号Ｄ１１を付し、候補領域７８の２行目１列目に位置する分割領域に符号Ｄ２１を付す。また、分割領域を区別して説明する必要がない場合には、包括的に「分割領域Ｄ」と称する。なお、分割領域Ｄは、本開示の技術に係る「分割領域」の一例である。

　候補領域７８の中心に位置する分割領域Ｄ５５は、フォーカス対象領域Ｆに一致している。つまり、フォーカス対象領域Ｆの位置及びサイズは、分割領域Ｄ単位で指定されている。

　一例として図１４に示すように、イメージセンサ２４は、光電変換素子８０を備えている。光電変換素子８０は、マトリクス状に配置された複数の感光画素を有しており、受光面２４Ａは、これらの感光画素によって形成されている。感光画素は、フォトダイオードＰＤを有する画素であり、受光した光を光電変換し、受光量に応じた電気信号を出力する。各分割領域Ｄの画像データは、複数のフォトダイオードＰＤから出力された電気信号に基づいて生成される。

　フォトダイオードＰＤには、カラーフィルタが配置されている。カラーフィルタは、輝度信号を得るために最も寄与するＧ（緑色）波長域に対応するＧフィルタ、Ｒ（赤色）波長域に対応するＲフィルタ、及びＢ（青色）波長域に対応するＢフィルタを含む。

　光電変換素子８０は、位相差画素８４と、位相差画素８４とは異なる画素である非位相差画素８６との２種類の感光画素を備えている。一般的に、非位相差画素８６は、通常画素とも称される。光電変換素子８０は、非位相差画素８６として、Ｒ画素、Ｇ画素、及びＢ画素の３種類の感光画素を有する。Ｒ画素、Ｇ画素、Ｂ画素、及び位相差画素８４は、行方向（例えば、撮像装置本体２０の底面を水平面に接触させた状態での水平方向）及び列方向（例えば、水平方向に対して垂直な方向である垂直方向）の各々に既定の周期性で規則的に配置されている。Ｒ画素は、Ｒフィルタが配置されたフォトダイオードＰＤに対応する画素であり、Ｇ画素及び位相差画素８４は、Ｇフィルタが配置されたフォトダイオードＰＤに対応する画素であり、Ｂ画素は、Ｂフィルタが配置されたフォトダイオードＰＤに対応する画素である。

　受光面２４Ａには、複数の位相差画素ライン８２Ａと複数の非位相差画素ライン８２Ｂとが配列されている。位相差画素ライン８２Ａは、位相差画素８４を含む水平ラインである。具体的には、位相差画素ライン８２Ａは、位相差画素８４と非位相差画素８６とが混在している水平ラインである。非位相差画素ライン８２Ｂは、複数の非位相差画素８６のみを含む水平ラインである。

　受光面２４Ａには、位相差画素ライン８２Ａと、既定ライン数分の非位相差画素ライン８２Ｂとが列方向に沿って交互に配置されている。ここで言う「既定ライン数」とは、例えば、２ラインを指す。なお、ここでは、既定ライン数として、２ラインを例示しているが、本開示の技術はこれに限らず、既定ライン数は、３ライン以上の数ラインであってもよいし、十数ライン、数十ライン、又は数百ライン等であってもよい。

　位相差画素ライン８２Ａは、１行目から最終行にかけて列方向に２行飛ばしで配列されている。位相差画素ライン８２Ａの一部の画素が位相差画素８４である。具体的には、位相差画素ライン８２Ａは、位相差画素８４と非位相差画素８６とが周期的に配列された水平ラインである。

　位相差画素８４は、第１位相差画素８４－Ｌと第２位相差画素８４－Ｒとに大別される。位相差画素ライン８２Ａには、Ｇ画素として第１位相差画素８４－Ｌと第２位相差画素８４－Ｒとがライン方向に数画素間隔で交互に配置されている。

　第１位相差画素８４－Ｌ及び第２位相差画素８４－Ｒは、列方向で交互に現れるように配置されている。図１４に示す例では、４列目において、１行目から列方向に沿って第１位相差画素８４－Ｌ、第２位相差画素８４－Ｒ、第１位相差画素８４－Ｌ、及び第２位相差画素８４－Ｒの順に配置されている。すなわち、第１位相差画素８４－Ｌと第２位相差画素８４－Ｒとが１行目から列方向に沿って交互に配置されている。また、図１４に示す例では、１０列目において、１行目から列方向に沿って第２位相差画素８４－Ｒ、第１位相差画素８４－Ｌ、第２位相差画素８４－Ｒ、及び第１位相差画素８４－Ｌの順に配置されている。すなわち、第２位相差画素８４－Ｒと第１位相差画素８４－Ｌとが１行目から列方向に沿って交互に配置されている。

　一例として図１５に示すように、第１位相差画素８４－Ｌは、遮光部材８８－Ｌ、マイクロレンズ９０、及びフォトダイオードＰＤを備えている。第１位相差画素８４－Ｌでは、マイクロレンズ９０とフォトダイオードＰＤの受光面との間に遮光部材８８－Ｌが配置されている。フォトダイオードＰＤの受光面における行方向の左半分（受光面から被写体を臨む場合の左側、換言すると、被写体から受光面を臨む場合の右側）は、遮光部材８８－Ｌによって遮光されている。

　第２位相差画素８４－Ｒは、遮光部材８８－Ｒ、マイクロレンズ９０、及びフォトダイオードＰＤを備えている。第２位相差画素８４－Ｒでは、マイクロレンズ９０とフォトダイオードＰＤの受光面との間に遮光部材８８－Ｒが配置されている。フォトダイオードＰＤの受光面における行方向の右半分（受光面から被写体を臨む場合の右側、換言すると、被写体から受光面を臨む場合の左側）は、遮光部材８８－Ｒによって遮光されている。なお、以下では、説明の便宜上、遮光部材８８－Ｌ及び８８－Ｒを区別して説明する必要がない場合、「遮光部材８８」と称する。

　撮像レンズ４０の射出瞳を通過する光束は、左領域通過光９２Ｌ及び右領域通過光９２Ｒに大別される。左領域通過光９２Ｌとは、撮像レンズ４０の射出瞳を通過する光束のうち、位相差画素８４側から被写体側を臨む場合の左半分の光束を指し、右領域通過光９２Ｒとは、撮像レンズ４０の射出瞳を通過する光束のうち、位相差画素８４側から被写体側を臨む場合の右半分の光束を指す。撮像レンズ４０の射出瞳を通過する光束は、瞳分割部として機能するマイクロレンズ９０、遮光部材８８－Ｌ、及び遮光部材８８－Ｒにより左右に分割され、第１位相差画素８４－Ｌが被写体光として左領域通過光９２Ｌを受光し、第２位相差画素８４－Ｒが被写体光として右領域通過光９２Ｒを受光する。この結果、左領域通過光９２Ｌに対応する被写体像に相当する第１位相差画像データと、右領域通過光９２Ｒに対応する被写体像に相当する第２位相差画像データとが光電変換素子８０によって生成される。

　トレーニングデータ生成部５３は、フォーカス対象領域Ｆを撮像する位相差画素８４のうち、同一の位相差画素ライン８２Ａに配置された第１位相差画素８４－Ｌから１ライン分の第１位相差画像データを取得し、同一の位相差画素ライン８２Ａに配置された第２位相差画素８４－Ｒから１ライン分の第２位相差画像データを取得する。トレーニングデータ生成部５３は、１ライン分の第１位相差画像データと１ライン分の第２位相差画像データとのずれ量αに基づいて、フォーカス対象領域Ｆまでの距離を測定する。なお、ずれ量αからフォーカス対象領域Ｆまでの距離が導出される方法は公知技術であるので、ここでの詳細な説明は省略する。

　トレーニングデータ生成部５３は、測定されたフォーカス対象領域Ｆまでの距離に基づいてＡＦ演算を行うことにより、フォーカスレンズ４０Ｂの合焦位置を導出する。以下、フォーカス対象領域Ｆまでの距離に基づいて導出されたフォーカスレンズ４０Ｂの合焦位置を「フォーカス対象領域合焦位置」とも称する。トレーニングデータ生成部５３は、フォーカスレンズ４０Ｂをフォーカス対象領域合焦位置に合わせるフォーカス動作を行う。

　また、トレーニングデータ生成部５３は、各分割領域Ｄについて、各分割領域Ｄを撮像する位相差画素８４のうち、同一の位相差画素ライン８２Ａに配置された第１位相差画素８４－Ｌから１ライン分の第１位相差画像データを取得し、同一の位相差画素ライン８２Ａに配置された第２位相差画素８４－Ｒから１ライン分の第２位相差画像データを取得する。トレーニングデータ生成部５３は、１ライン分の第１位相差画像データと１ライン分の第２位相差画像データとのずれ量αに基づいて、各分割領域Ｄまでの距離を測定する。

　トレーニングデータ生成部５３は、測定された各分割領域Ｄまでの距離に基づいてＡＦ演算を行うことにより、各分割領域Ｄにおけるフォーカスレンズ４０Ｂの合焦位置を導出する。以下、各分割領域Ｄまでの距離に基づいて導出されたフォーカスレンズ４０Ｂの合焦位置を「分割領域合焦位置」とも称する。

　トレーニングデータ生成部５３は、各分割領域Ｄについて、フォーカス対象領域合焦位置から分割領域合焦位置までの距離（以下、「合焦位置間距離」と称する）が、予め定められた距離閾値未満であるか否かを判定する。トレーニングデータ生成部５３は、合焦位置間距離が、距離閾値未満である分割領域Ｄは、フォーカス対象領域Ｆとの類似度が高い領域であると特定する。ここで、距離閾値は、例えば、実機による試験及び／又はコンピュータ・シミュレーション等によって、特定被写体画像Ｓを抽出するための閾値として予め導き出された値である。距離閾値は、固定値であってもよいし、与えられた指示及び／又は条件（例えば、撮像条件等）に応じて変更される可変値であってもよい。

　なお、合焦位置間距離は、本開示の技術に係る「類似評価値」の一例である。また、フォーカス対象領域合焦位置は、本開示の技術に係る「フォーカス評価値」の一例である。また、距離閾値は、本開示の技術に係る「第１既定範囲」の一例である。

　図１３に示す例では、トレーニングデータ生成部５３は、候補領域７８に含まれる８１個の分割領域Ｄのうち、フォーカス対象領域Ｆ（分割領域Ｄ５５）を除く８０個の分割領域Ｄについて、合焦位置間距離を算出する。トレーニングデータ生成部５３は、算出した合焦位置間距離が、距離閾値未満であるか否かを判定する。図１３において、ハッチングで示される分割領域Ｄが、合焦位置間距離が距離閾値未満であると判定された分割領域、すなわちフォーカス対象領域Ｆとの類似度が高いと特定された分割領域である。

　トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。図１３に示す例では、トレーニングデータ生成部５３は、特定された分割領域Ｄを過不足なく取り囲むように、分割領域Ｄ単位で、矩形の特定被写体画像Ｓを抽出している。

　次に、本第２実施形態に係る撮像装置１２の作用について図１６を参照しながら説明する。図１６には、第２実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。

　図１６において、ステップＳＴ２０１～ステップＳＴ２０９は、図１１のステップＳＴ１０１～ステップＳＴ１０９と同じであるので、説明を省略する。

　ステップＳＴ２１０で、トレーニングデータ生成部５３は、本露光画像Ｐにおいて、候補領域７８及び分割領域Ｄを設定する。この後、トレーニングデータ生成処理はステップＳＴ２１１に移行する。

　ステップＳＴ２１１で、トレーニングデータ生成部５３は、各分割領域Ｄの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップＳＴ２１２に移行する。

　ステップＳＴ２１２で、トレーニングデータ生成部５３は、合焦位置間距離が距離閾値未満である分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ２１３に移行する。

　ステップＳＴ２１３で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。また、トレーニングデータ生成部５３は、抽出された特定被写体画像Ｓの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップＳＴ２１４に移行する。

　ステップＳＴ２１４で、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。特定被写体データは、本露光画像Ｐと特定被写体画像Ｓの位置座標とを含むデータである。学習機器１４は、受け付けた特定被写体データ及びラベルＬを、トレーニングデータ１７として、データベース１６に記憶する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第２実施形態において、トレーニングデータ生成部５３は、イメージセンサ２４から出力された撮像信号に基づいたライブビュー画像６６をタッチパネル・モニタ３０に表示させる。トレーニングデータ生成部５３は、ライブビュー画像６６において、ユーザ１１から受付部６０を介してフォーカス対象領域Ｆの指定を受け付ける。トレーニングデータ生成部５３は、フォーカス対象領域Ｆを含む候補領域７８のうち、フォーカス対象領域Ｆに対する類似度を示す合焦位置間距離が、距離閾値未満である分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。従って、本構成によれば、ユーザ１１が、特定被写体Ａの一部をフォーカス対象領域Ｆとして撮像を行うことで、特定被写体Ａの全体を示す特定被写体画像Ｓが本露光画像Ｐから抽出されるので、特定被写体Ａの全体をフォーカス対象領域Ｆに指定しなくてはならない場合に比べ、簡単な操作で学習に用いるトレーニングデータ１７を収集することができる。

　また、本第２実施形態において、トレーニングデータ生成部５３は、フォーカス対象領域Ｆを取り囲むＡＦ枠６８を表示することで、フォーカス対象領域Ｆを他画像領域と区別可能な態様で表示する。従って、本構成によれば、ＡＦ枠６８が表示されない場合に比べ、ユーザ１１が特定被写体画像Ｓを認識しやすい。

　また、本第２実施形態において、フォーカス対象領域Ｆ及び特定被写体画像Ｓのうちの少なくとも一方は、候補領域７８が分割されることで得られた分割領域Ｄ単位で定められている。従って、本構成によれば、候補領域７８が分割されていない場合に比べ、本露光画像Ｐから特定被写体画像Ｓを抽出するのに要する処理が容易になる。

　また、本第２実施形態において、フォーカス動作に使用されたフォーカス対象領域合焦位置から各分割領域合焦位置までの距離（合焦位置間距離）が、フォーカス対象領域Ｆに対する類似度を示す類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部５３は、フォーカス動作に使用されたフォーカス対象領域合焦位置を用いない場合に比べ、本露光画像Ｐから特定被写体画像Ｓを容易に抽出することができる。

　なお、本第２実施形態において、一例として図１３に示すように、フォーカス対象領域Ｆが１個の分割領域Ｄ５５を含んでいるが、フォーカス対象領域Ｆは、２個以上の分割領域Ｄを含むように指定されてもよい。また、候補領域７８の位置及びサイズは、図１３に示す例に限定されず、候補領域７８は、フォーカス対象領域Ｆを含むのであれば、任意の位置及びサイズに設定され得る。また、分割領域Ｄの個数、位置、及びサイズも、図１３に示す例に限定されず、任意に変更可能である。

　なお、上記第２実施形態では、一例として図１３に示すように、矩形の特定被写体画像Ｓを例示したが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、本露光画像Ｐのうち、フォーカス対象領域Ｆに対する合焦位置間距離が距離閾値未満である分割領域Ｄ、すなわち図１３においてハッチングで示される分割領域Ｄのみを、特定被写体画像Ｓとして抽出してもよい。

　［第３実施形態］
　本第３実施形態は、類似評価値として、合焦位置間距離の代わりに、候補領域７８の色情報に基づく色評価値を用いる点で、第２実施形態と異なっている。以下、第２実施形態との相違点を説明する。以下の説明において、第１及び第２実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。

　一例として図１７に示すように、本露光画像Ｐには、前記第２実施形態と同様にフォーカス対象領域Ｆ、候補領域７８、及び複数の分割領域Ｄが設定されている。トレーニングデータ生成部５３は、各分割領域ＤのＲＧＢ積算値を算出する。ＲＧＢ積算値とは、各分割領域ＤのＲＧＢ毎の電気信号を積算した値である。また、トレーニングデータ生成部５３は、ＲＧＢ積算値に基づいて、各分割領域Ｄの色を示すＲＧＢ値を算出する。

　トレーニングデータ生成部５３は、フォーカス対象領域Ｆに相当する分割領域Ｄ５５の色を基準として、フォーカス対象領域Ｆと各分割領域Ｄとの色差（以下、単に「色差」と称する）を算出する。なお、フォーカス対象領域ＦのＲＧＢ値が（Ｒ_Ｆ，Ｇ_Ｆ，Ｂ_Ｆ）であり、分割領域ＤのＲＧＢ値が（Ｒ_Ｄ，Ｇ_Ｄ，Ｂ_Ｄ）である場合、フォーカス対象領域Ｆと分割領域Ｄとの色差は、次の式を用いて算出される。

　色差＝｛（Ｒ_Ｄ－Ｒ_Ｆ）^２＋（Ｇ_Ｄ－Ｇ_Ｆ）^２＋（Ｂ_Ｄ－Ｂ_Ｆ）^２｝^１／２

　トレーニングデータ生成部５３は、各分割領域Ｄについて、算出された色差が、予め定められた色差閾値未満であるか否かを判定する。トレーニングデータ生成部５３は、色差が、色差閾値未満である分割領域Ｄは、フォーカス対象領域Ｆとの類似度が高い領域であると特定する。ここで、色差閾値は、例えば、実機による試験及び／又はコンピュータ・シミュレーション等によって、特定被写体画像Ｓを抽出するための閾値として予め導き出された値である。色差閾値は、固定値であってもよいし、与えられた指示及び／又は条件（例えば、撮像条件等）に応じて変更される可変値であってもよい。なお、ＲＧＢ値は、本開示の技術に係る「色情報」の一例である。また、色差は、本開示の技術に係る「類似評価値」及び「色評価値」の一例である。また、色差閾値は、本開示の技術に係る「第１既定範囲」の一例である。

　図１７に示す例では、トレーニングデータ生成部５３は、候補領域７８に含まれる８１個の分割領域Ｄのうち、フォーカス対象領域Ｆ（分割領域Ｄ５５）を除く８０個の分割領域Ｄについて、色差を算出する。トレーニングデータ生成部５３は、算出した色差が、色差閾値未満であるか否かを判定する。図１７において、ハッチングで示される分割領域Ｄが、色差が色差閾値未満であると判定された分割領域、すなわちフォーカス対象領域Ｆとの類似度が高いと特定された分割領域である。

　トレーニングデータ生成部５３は、特定された分割領域Ｄを過不足なく取り囲むように、分割領域Ｄ単位で、本露光画像Ｐから矩形の特定被写体画像Ｓを抽出する。

　次に、本第３実施形態に係る撮像装置１２の作用について図１８を参照しながら説明する。図１８には、第３実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。

　図１８において、ステップＳＴ３０１～ステップＳＴ３０９は、図１１のステップＳＴ１０１～ステップＳＴ１０９と同じであるので、説明を省略する。また、図１８において、ステップＳＴ３１０は、図１６のステップＳＴ２１０と同じであるので、説明を省略する。

　ステップＳＴ３１１で、トレーニングデータ生成部５３は、各分割領域Ｄの色差を算出する。この後、トレーニングデータ生成処理はステップＳＴ３１２に移行する。

　ステップＳＴ３１２で、トレーニングデータ生成部５３は、色差が色差閾値未満である分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ３１３に移行する。

　ステップＳＴ３１３で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。また、トレーニングデータ生成部５３は、抽出された特定被写体画像Ｓの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップＳＴ３１４に移行する。

　ステップＳＴ３１４で、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。特定被写体データは、本露光画像Ｐと特定被写体画像Ｓの位置座標とを含むデータである。学習機器１４は、受け付けた特定被写体データ及びラベルＬをトレーニングデータ１７としてデータベース１６に記憶する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第３実施形態において、フォーカス対象領域Ｆと各分割領域Ｄとの色差が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部５３は、フォーカス対象領域Ｆと各分割領域Ｄとの色差を用いない場合に比べ、本露光画像Ｐから特定被写体画像Ｓを容易に抽出することができる。

　なお、本第３実施形態では、トレーニングデータ生成部５３は、フォーカス対象領域Ｆと各分割領域Ｄとの色差を、類似評価値として用いたが、本開示の技術はこれに限らない。トレーニングデータ生成部５３は、フォーカス対象領域Ｆと各分割領域Ｄとの色差に加えて、又は、色差の代わりに、フォーカス対象領域Ｆと各分割領域Ｄとの彩度の差を類似評価値として用いてもよい。

　［第４実施形態］
　本第４実施形態では、トレーニングデータ生成部５３は、合焦位置間距離と色差の両方を用いて、本露光画像Ｐから特定被写体画像Ｓを抽出する。本第４実施形態に係る撮像装置１２の構成は、上記第１実施形態と同じであるので、説明を省略する。また、本第４実施形態に係る合焦位置間距離及び色差の算出方法は、上記第２及び第３実施形態と同じであるので、説明を省略する。

　本第４実施形態に係る撮像装置１２の作用について図１９を参照しながら説明する。図１９には、第４実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。

　図１９において、ステップＳＴ４０１～ステップＳＴ４０９は、図１１のステップＳＴ１０１～ステップＳＴ１０９と同じであるので、説明を省略する。また、図１９において、ステップＳＴ４１０は、図１６のステップＳＴ２１０と同じであるので、説明を省略する。

　ステップＳＴ４１１で、トレーニングデータ生成部５３は、各分割領域Ｄの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップＳＴ４１２に移行する。

　ステップＳＴ４１２で、トレーニングデータ生成部５３は、各分割領域Ｄの色差を算出する。この後、トレーニングデータ生成処理はステップＳＴ４１３に移行する。

　ステップＳＴ４１３で、トレーニングデータ生成部５３は、合焦位置間距離が距離閾値未満であり、かつ、色差が色差閾値未満である分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ４１４に移行する。

　ステップＳＴ４１４で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。またトレーニングデータ生成部５３は、抽出された特定被写体画像Ｓの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップＳＴ４１５に移行する。

　ステップＳＴ４１５で、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。学習機器１４は、受け付けた特定被写体データ及びラベルＬを、トレーニングデータ１７として、データベース１６に記憶する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第４実施形態において、合焦位置間距離と色差の両方が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部５３は、合焦位置間距離と色差の両方を用いない場合に比べ、本露光画像Ｐから特定被写体画像Ｓを精度良く抽出することができる。

　［第５実施形態］
　本第５実施形態は、例えば、特定被写体が動く物体である場合に有効である。本第５実施形態では、ＡＦ動作から本露光動作までの間に特定被写体が移動して、本露光画像Ｐから抽出される特定被写体画像Ｓの信頼度が低いと判断される場合、信頼度が低いことを示す警告情報が、特定被写体データに付与される。以下、図２０～図２２を参照して、本第５実施形態について説明する。なお、本第５実施形態に係る撮像装置１２の構成は、上記第１実施形態と同じであるので、説明を省略する。

　一例として図２０に示すように、ユーザ１１がＡＦ動作を行った場合、トレーニングデータ生成部５３は、例えば、６０ｆｐｓのフレームレートで連続的に撮像されたライブビュー画像６６のうちの１フレームを取得する。トレーニングデータ生成部５３は、１フレームのライブビュー画像６６において、上記第２実施形態で説明した合焦位置間距離、及び／又は上記第３実施形態で説明した色差に基づいて、特定被写体を示す画像（以下、「ライブビュー特定被写体画像ＬＳ」と称する）を抽出する。なお、ライブビュー特定被写体画像ＬＳは、本開示の技術に係る「表示用特定被写体画像」の一例である。

　トレーニングデータ生成部５３は、抽出したライブビュー特定被写体画像ＬＳの右下角Ｑ_１Ｌと左上角Ｑ_２Ｌの座標を、ライブビュー特定被写体画像ＬＳの位置座標として求める。また、トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳの位置座標に基づいて、ライブビュー特定被写体画像ＬＳのサイズと、ライブビュー特定被写体画像ＬＳの中心点Ｑ_ＣＬの座標（Ｘ_ＣＬ，Ｙ_ＣＬ）（以下、「ライブビュー特定被写体画像ＬＳの中心座標」と称する）とを求める。

　その後、ユーザ１１が本露光操作を行った場合、トレーニングデータ生成部５３は、本露光画像Ｐを取得する。トレーニングデータ生成部５３は、上記ライブビュー特定被写体画像ＬＳを抽出したのと同様の方法で、本露光画像Ｐから特定被写体画像Ｓを抽出する。

　トレーニングデータ生成部５３は、抽出した特定被写体画像Ｓの右下角Ｑ_１Ｅと左上角Ｑ_２Ｅの座標を、特定被写体画像Ｓの位置座標として求める。また、トレーニングデータ生成部５３は、特定被写体画像Ｓの位置座標に基づいて、特定被写体画像Ｓのサイズと、特定被写体画像Ｓの中心点Ｑ_ＣＥの座標（Ｘ_ＣＥ，Ｙ_ＣＥ）（以下、「特定被写体画像Ｓの中心座標」と称する）とを求める。

　トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳのサイズと、特定被写体画像Ｓのサイズとを比較することにより、ライブビュー特定被写体画像ＬＳと特定被写体画像Ｓとのサイズ相違度を算出する。一例として図２０に示すように、トレーニングデータ生成部５３は、算出したサイズ相違度が予め定められたサイズ既定範囲を超える場合、抽出された特定被写体画像Ｓの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルＬと共に学習機器１４に出力する。なお、サイズ相違度は、本開示の技術に係る「相違度」の一例である。また、サイズ既定範囲は、本開示の技術に係る「第２既定範囲」の一例である。また、警告情報を出力する処理は、本開示の技術に係る「異常検出処理」の一例である。

　また、トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳの中心座標と、特定被写体画像Ｓの中心座標とを比較することにより、ライブビュー特定被写体画像ＬＳと特定被写体画像Ｓとの中心位置の相違度を算出する。一例として図２１に示すように、トレーニングデータ生成部５３は、算出した中心位置の相違度が予め定められた位置既定範囲を超える場合、抽出された特定被写体画像Ｓの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルＬと共に学習機器１４に出力する。なお、中心位置の相違度は、本開示の技術に係る「相違度」の一例である。また、位置既定範囲は、本開示の技術に係る「第２既定範囲」の一例である。

　本第５実施形態に係る撮像装置１２の作用について図２２Ａ及び図２２Ｂを参照しながら説明する。図２２Ａ及び図２２Ｂには、第５実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。

　図２２Ａにおいて、ステップＳＴ５０１～ステップＳＴ５０７は、図１１のステップＳＴ１０１～ステップＳＴ１０７と同じであるので、説明を省略する。

　ステップＳＴ５０８で、トレーニングデータ生成部５３は、ライブビュー画像６６のうち１フレームを取得する。この後、トレーニングデータ生成処理はステップＳＴ５０９に移行する。

　ステップＳＴ５０９で、トレーニングデータ生成部５３は、取得した１フレームのライブビュー画像６６において、候補領域７８及び分割領域Ｄを設定する。この後、トレーニングデータ生成処理はステップＳＴ５１０に移行する。

　ステップＳＴ５１０で、トレーニングデータ生成部５３は、各分割領域Ｄの合焦位置間距離及び／又は色差を算出する。この後、トレーニングデータ生成処理はステップＳＴ５１１に移行する。

　ステップＳＴ５１１で、トレーニングデータ生成部５３は、“合焦位置間距離＜距離閾値”及び／又は“色差＜色差閾値”を満たす分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ５１２に移行する。

　ステップＳＴ５１２で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、１フレームのライブビュー画像６６からライブビュー特定被写体画像ＬＳを抽出する。この後、トレーニングデータ生成処理は、ステップＳＴ５１３に移行する。

　ステップＳＴ５１３で、トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップＳＴ５１４に移行する。

　ステップＳＴ５１４で、トレーニングデータ生成部５３は、本露光が行われたか否かを判定する。ステップＳＴ５１４において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ５１５に移行する。ステップＳＴ５１４において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ５０６に移行する。

　ステップＳＴ５１５で、トレーニングデータ生成部５３は、本露光画像Ｐを取得する。この後、トレーニングデータ生成処理は、ステップＳＴ５１６に移行する。

　ステップＳＴ５１６で、トレーニングデータ生成部５３は、本露光画像Ｐにおいて、候補領域７８及び分割領域Ｄを設定する。この後、トレーニングデータ生成処理はステップＳＴ５１７に移行する。

　ステップＳＴ５１７で、トレーニングデータ生成部５３は、各分割領域Ｄの合焦位置間距離及び／又は色差を算出する。この後、トレーニングデータ生成処理はステップＳＴ５１８に移行する。

　ステップＳＴ５１８で、トレーニングデータ生成部５３は、“合焦位置間距離＜距離閾値”及び／又は“色差＜色差閾値”を満たす分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ５１９に移行する。

　ステップＳＴ５１９で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像Ｐから特定被写体画像Ｓを抽出する。この後、トレーニングデータ生成処理は、ステップＳＴ５２０に移行する。

　ステップＳＴ５２０で、トレーニングデータ生成部５３は、特定被写体画像Ｓの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップＳＴ５２１に移行する。

　ステップＳＴ５２１で、トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳのサイズと特定被写体画像Ｓのサイズとを比較することによって、ライブビュー特定被写体画像ＬＳと特定被写体画像Ｓとのサイズ相違度を算出する。この後、トレーニングデータ生成処理はステップＳＴ５２２に移行する。

　ステップＳＴ５２２で、トレーニングデータ生成部５３は、算出したサイズ相違度がサイズ既定範囲内か否かを判定する。ステップＳＴ５２２において、サイズ相違度がサイズ既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ５２３に移行する。ステップＳＴ５２２において、サイズ相違度がサイズ既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ５２６に移行する。

　ステップＳＴ５２３で、トレーニングデータ生成部５３は、ライブビュー特定被写体画像ＬＳの中心位置と特定被写体画像Ｓの中心位置とを比較することによって、ライブビュー特定被写体画像ＬＳと特定被写体画像Ｓとの中心位置の相違度を算出する。この後、トレーニングデータ生成処理はステップＳＴ５２４に移行する。

　ステップＳＴ５２４で、トレーニングデータ生成部５３は、算出した中心位置の相違度が位置既定範囲内か否かを判定する。ステップＳＴ５２４において、中心位置の相違度が位置既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップＳＴ５２５に移行する。ステップＳＴ５２４において、中心位置の相違度が位置既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップＳＴ５２６に移行する。

　ステップＳＴ５２５で、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。特定被写体データは、本露光画像Ｐと、特定被写体画像Ｓの位置座標とを含むデータである。一方、ステップＳＴ５２６で、トレーニングデータ生成部５３は、特定被写体データ及びラベルＬに加えて、警告情報を学習機器１４に出力する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第５実施形態によれば、トレーニングデータ生成部５３は、ライブビュー画像６６から抽出されたライブビュー特定被写体画像ＬＳと、本露光画像Ｐから抽出された特定被写体画像Ｓとの間のサイズ相違度がサイズ既定範囲を超える場合、又はライブビュー特定被写体画像ＬＳと特定被写体画像Ｓとの間の中心位置の相違度が位置既定範囲を超える場合、警告情報を学習機器１４に出力する。従って、信頼度が低いと判断された特定被写体画像Ｓに関する特定被写体データは、警告情報が付与されて学習機器１４に出力されるので、警告情報が付与されない場合に比べ、トレーニングデータ１７の品質が向上する。

　なお、上記第５実施形態では、トレーニングデータ生成部５３は、信頼度が低いと判断した特定被写体画像Ｓに関する特定被写体データに、警告情報を付与して学習機器１４に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、信頼度が低いと判断した特定被写体画像Ｓに関する特定被写体データを、学習機器１４に出力しなくてもよい。また、トレーニングデータ生成部５３は、特定被写体データに、特定被写体画像Ｓに対する信頼度を示す信頼度数を付与して学習機器１４に出力してもよい。この場合、学習機器１４は、信頼度数を参照して、信頼度数が低い特定被写体データを受け付けなくてもよい。

　［第６実施形態］
　本第６実施形態では、トレーニングデータ生成部５３は、イメージセンサ２４に対して、複数の合焦位置で本露光動作を行わせることによって、フォーカス対象領域Ｆにピントが合っている本露光画像Ｐ（以下、「合焦画像」とも称する）に加えて、フォーカス対象領域Ｆにピントが合っていない本露光画像Ｐ（以下、「非合焦画像」とも称する）を取得させる。トレーニングデータ生成部５３は、合焦画像に写っている特定被写体画像Ｓに関する特定被写体データを、トレーニングデータ１７として出力するだけではなく、非合焦画像に写っている特定被写体画像Ｓに関する特定被写体データを、トレーニングデータ１７として出力する。以下、図２３～図２５を参照して、本第６実施形態について説明する。なお、本第６実施形態に係る撮像装置１２の構成は、上記第１実施形態と同じであるので、説明を省略する。

　一例として図２３に示すように、トレーニングデータ生成部５３は、イメージセンサ２４に対して、フォーカス対象領域Ｆまでの距離に基づいてＡＦ演算を行うことにより導出された合焦位置を含む、複数の合焦位置で本露光動作を行わせる。例えば、特定被写体Ａの左眼の位置をフォーカス対象領域Ｆとして撮像を行った場合（図１２参照）、トレーニングデータ生成部５３は、イメージセンサ２４に対して、フォーカス対象領域Ｆまでの距離に基づいて導出された合焦位置を含む、５か所の合焦位置で本露光動作を行わせる。なお、５か所の合焦位置は、本開示の技術に係る「複数の合焦位置」の一例である。

　これにより、イメージセンサ２４は、特定被写体Ａにピントが合っている本露光画像（合焦画像）Ｐ３の他に、特定被写体Ａにピントが合っていない本露光画像（非合焦画像）Ｐ１、Ｐ２、Ｐ４、及びＰ５を出力する。非合焦画像Ｐ１及びＰ２は、特定被写体Ａよりも撮像装置１２に近い被写体に合焦している前ピン画像である。また、非合焦画像Ｐ４及びＰ５は、特定被写体Ａよりも撮像装置１２から遠い被写体に合焦している後ピン画像である。なお、合焦画像Ｐ３は、本開示の技術に係る「合焦画像」の一例である。非合焦画像Ｐ１、Ｐ２、Ｐ４、及びＰ５は、本開示の技術に係る「非合焦画像」の一例である。

　トレーニングデータ生成部５３は、上記第２実施形態で説明した合焦位置間距離、及び／又は上記第３実施形態で説明した色差に基づいて、合焦画像Ｐ３から特定被写体画像Ｓを抽出する。また、トレーニングデータ生成部５３は、抽出した特定被写体画像Ｓの位置座標を求める。

　一例として図２４に示すように、トレーニングデータ生成部５３は、合焦画像Ｐ３と、特定被写体画像Ｓの位置座標と、ラベルＬとを対応付けて、トレーニングデータ１７－３として学習機器１４に出力する。

　また、トレーニングデータ生成部５３は、各非合焦画像Ｐ１、Ｐ２、Ｐ４、又はＰ５と、合焦画像Ｐ３から抽出された特定被写体画像Ｓの位置座標と、ラベルＬとを対応付けて、トレーニングデータ１７－１、１７－２、１７－４、又は１７－５として学習機器１４に出力する。すなわち、トレーニングデータ生成部５３は、合焦画像Ｐ３から抽出された特定被写体画像Ｓの位置座標を、非合焦画像Ｐ１、Ｐ２、Ｐ４、又はＰ５における特定被写体画像Ｓの位置座標として出力する。学習機器１４は、トレーニングデータ１７－１～１７－５を受け付けて、データベース１６に記憶する。

　本第６実施形態に係る撮像装置１２の作用について図２５を参照しながら説明する。図２５には、本第６実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。

　図２５において、ステップＳＴ６０１～ステップＳＴ６０７は、図１１のステップＳＴ１０１～ステップＳＴ１０７と同じであるので、説明を省略する。

　ステップＳＴ６０８で、トレーニングデータ生成部５３は、本露光操作が行われたか否かを判定する。ステップＳＴ６０８において、本露光操作が行われた場合には、判定が肯定されて、フォーカス対象領域Ｆまでの距離に基づく合焦位置を含む複数の合焦位置で本露光動作が行われ、トレーニングデータ生成処理はステップＳＴ６０９に移行する。ステップＳＴ６０８において、本露光操作が行われていない場合には、判定が否定されて、トレーニングデータ生成処理はステップＳＴ６０６に移行する。

　ステップＳＴ６０９で、トレーニングデータ生成部５３は、複数の本露光画像Ｐ１～Ｐ５を取得する。複数の本露光画像Ｐ１～Ｐ５のうち、本露光画像Ｐ３は合焦画像であり、本露光画像Ｐ１、Ｐ２、Ｐ４、及びＰ５は非合焦画像である。この後、トレーニングデータ生成処理はステップＳＴ６１０に移行する。

　ステップＳＴ６１０で、トレーニングデータ生成部５３は、合焦画像Ｐ３において、候補領域７８及び分割領域Ｄを設定する。この後、トレーニングデータ生成処理はステップＳＴ６１１に移行する。

　ステップＳＴ６１１で、トレーニングデータ生成部５３は、各分割領域Ｄの合焦位置間距離及び／又は色差を算出する。この後、トレーニングデータ生成処理はステップＳＴ６１２に移行する。

　ステップＳＴ６１２で、トレーニングデータ生成部５３は、合焦位置間距離が距離閾値未満、及び／又は、色差が色差閾値未満である分割領域Ｄを特定する。この後、トレーニングデータ生成処理は、ステップＳＴ６１３に移行する。

　ステップＳＴ６１３で、トレーニングデータ生成部５３は、特定された分割領域Ｄに基づいて、本露光画像（合焦画像）Ｐ３から特定被写体画像Ｓを抽出する。この後、トレーニングデータ生成処理は、ステップＳＴ６１４に移行する。

　ステップＳＴ６１４で、トレーニングデータ生成部５３は、特定被写体画像Ｓの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップＳＴ６１５に移行する。

　ステップＳＴ６１５で、特定被写体データとラベルＬとを対応付けて学習機器１４に出力する。特定被写体データは、本露光画像Ｐ１～Ｐ５の各々と、本露光画像Ｐ３から抽出された特定被写体画像Ｓの位置座標とを含むデータである。従って、本第６実施形態では、トレーニングデータ生成処理を一度実行することによって、５種類の特定被写体データが出力される。学習機器１４は、特定被写体データとラベルＬとを対応付けてデータベース１６に記憶する。これにより、トレーニングデータ生成処理が終了する。

　以上説明したように、本第６実施形態において、イメージセンサ２４は、複数の合焦位置で本露光動作を行う。トレーニングデータ生成部５３は、本露光動作が行われることによって得られる複数の本露光画像Ｐ１～Ｐ５の各々について、合焦画像Ｐ３から得られる特定被写体画像Ｓの位置座標を、非合焦画像Ｐ１、Ｐ２、Ｐ４、及びＰ５の各々における特定被写体画像Ｓの位置座標として出力する。従って、本構成によれば、特定被写体画像Ｓが手作業で抽出される場合に比べ、トレーニングデータ生成部５３は、合焦画像Ｐ３に含まれる特定被写体画像Ｓに関する特定被写体データと、非合焦画像Ｐ１、Ｐ２、Ｐ４、及びＰ５の各々に含まれる特定被写体画像Ｓに関する特定被写体データとを簡便に取得することができる。

　また、本構成によれば、トレーニングデータ生成部５３は、一度のラベルＬの選択により複数の本露光画像Ｐ１～Ｐ５に個別にラベルを付与することができる。これにより、複数の本露光画像Ｐ１～Ｐ５にラベルＬを付与する手間を省くことができる。また、トレーニングデータ生成部５３は、撮影後に本露光画像Ｐ１～Ｐ５にラベルＬを付与しても良い。その場合も、一度のラベルＬの選択により、連続的に撮像された複数の本露光画像Ｐ１～Ｐ５にラベルＬが付与されることが望ましい。撮影後に個別にラベルＬを付与しようとすると、非合焦画像のボケ方によっては何の画像か分からなくなる問題が生じることがある。しかし、一度のラベルＬの選択により、連続的に撮像された複数の本露光画像Ｐ１～Ｐ５に同じラベルＬが付与されることにより、そのような問題を解消することができる。この場合、トレーニングデータ生成部５３は、合焦画像Ｐ３に対して選択されたラベルＬを、非合焦画像Ｐ１、Ｐ２、Ｐ４、及びＰ５の各々に付与することが望ましい。

　なお、上記第６実施形態では、一度の本露光動作において、トレーニングデータ生成部５３は、５か所の合焦位置で撮像を行うことによって得られた５種類の特定被写体データを出力するが、本開示の技術はこれに限定されない。イメージセンサ２４が撮像を行う合焦位置は、５か所よりも多くても少なくてもよい。トレーニングデータ生成部５３は、合焦位置の数に応じた種類分の特定被写体データを出力する。

　また、上記第６実施形態において、トレーニングデータ生成部５３は、非合焦画像Ｐ１、Ｐ２、Ｐ４、及びＰ５を含む特定被写体データに、非合焦の度合いを示すＡＦ評価値を付与してもよい。また、トレーニングデータ生成部５３は、ＡＦ評価値に基づいて、「合焦」又は「非合焦」を示すラベルを特定被写体データに付与してもよい。これにより、ＡＦ評価値が付与されない場合に比べ、トレーニングデータ１７の品質が向上する。

　上記第１～第６実施形態において、特定被写体データは、本露光画像Ｐと、特定被写体画像Ｓの位置座標とを含むが、本開示の技術はこれに限定されない。一例として図２６に示すように、特定被写体データは、本露光画像Ｐから切り出された特定被写体画像Ｓであってもよい。トレーニングデータ生成部５３は、本露光画像Ｐから切り出した特定被写体画像Ｓを、ラベルＬと対応付けて、機械学習に用いるトレーニングデータ１７として出力する。この構成によれば、本露光画像Ｐが切り出されずに出力される場合に比べ、出力される特定被写体データのサイズが小さくなる。なお、「トレーニングデータ生成部５３が、特定被写体データを機械学習に用いるデータとして出力する」とは、具体的には、トレーニングデータ生成部５３が、本露光画像Ｐと特定被写体画像Ｓの位置座標とを記憶する記憶処理、又は本露光画像Ｐから特定被写体画像Ｓを切り出す切出処理等を含む。

　また、上記第１～第６実施形態において、枠線６８Ａは矩形であるが、本開示の技術はこれに限定されず、枠線６８Ａの形状は任意に変更可能である。

　また、上記第１～第６実施形態において、ＡＦ枠６８で取り囲まれた領域をフォーカス対象領域Ｆとすることで、フォーカス対象領域Ｆが他画像領域と区別可能な態様で表示されるが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、例えば、ライブビュー画像６６に矢印を表示し、矢印で指示された領域をフォーカス対象領域Ｆとしてもよい。また、トレーニングデータ生成部５３は、例えば、指示体によるタッチパネル３６への接触を感知することでフォーカス対象領域Ｆの指定を受け付け、指定されたフォーカス対象領域Ｆを他画像領域と区別可能な色で表示してもよい。

　また、上記第１～第６実施形態において、学習機器１４は、撮像装置１２から出力されたトレーニングデータ１７をデータベース１６に記憶し、データベース１６に記憶されているトレーニングデータ１７を用いて機械学習を行うが、本開示の技術はこれに限定されない。例えば、撮像装置１２のＣＰＵ５０Ａが、自身で取得したトレーニングデータ１７をＮＶＭ５０Ｂに記憶し、ＮＶＭ５０Ｂに記憶されているトレーニングデータを１７用いて機械学習を行ってもよい。この構成によれば、撮像装置１２が、トレーニングデータ１７の取得と学習とを実行することができるので、トレーニングデータ１７の取得と学習とを別の装置で行う場合に比べ、装置の数が少なくて済む。

　また、上記第１～第６実施形態において、撮像装置１２がトレーニングデータ撮像モードに設定された場合、トレーニングデータ生成部５３は、ＡＦ動作及び本露光動作よりも前に、ラベル選択画面６４をタッチパネル・モニタ３０に表示させて、ユーザ１１にラベルＬを選択させるが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、イメージセンサ２４に本露光画像Ｐを取得させた後、ラベル選択画面６４をタッチパネル・モニタ３０に表示させて、ユーザ１１からラベルＬの選択を受け付けてもよい。

　また、上記第１～第６実施形態において、トレーニングデータ生成部５３は、特定被写体データとラベルＬとを対応付けて、教師有り機械学習に用いるトレーニングデータ１７として、学習機器１４に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部５３は、特定被写体データのみを学習機器１４に出力してもよい。この場合、ユーザ１１は、学習機器１４において、特定被写体データに対するラベル付けを行ってもよい。また、特定被写体データに対するラベル付けは、行われなくてもよい。この場合、特定被写体データは、教師無し機械学習のトレーニングデータとして用いられてもよいし、従来のパターン認識技術に用いられてもよい。

　また、上記第１～第６実施形態において、非位相差画素群８６Ｇと位相差画素群８４Ｇとを併用する形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、非位相差画素群８６Ｇ及び位相差画素群８４Ｇに代えて、位相差画像データと非位相差画像データとが選択的に生成されて読み出されるエリアセンサとしてもよい。この場合、エリアセンサには、複数の感光画素が２次元状に配列されている。エリアセンサに含まれる感光画素には、例えば、遮光部材を有しない独立した一対のフォトダイオードが用いられる。非位相差画像データが生成されて読み出される場合、感光画素の全領域（一対のフォトダイオード）によって光電変換が行われ、位相差画像データが生成されて読み出される場合（例えば、パッシブ方式の測距を行う場合）、一対のフォトダイオードのうちの一方のフォトダイオードによって光電変換が行われる。ここで、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第１位相差画素８４-Ｌに対応するフォトダイオードであり、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第２位相差画素８４-Ｒに対応するフォトダイオードである。なお、エリアセンサに含まれる全ての感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよいが、これに限らず、エリアセンサに含まれる一部の感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよい。

　また、上記第１～第６実施形態において、位相差方式を例に挙げて、フォーカス対象領域Ｆまでの距離を導出する方法について説明したが、本開示の技術はこれに限定されず、ＴＯＦ方式、又はコントラスト方式を用いてもよい。

　また、上記第１～第６実施形態では、ＮＶＭ５０Ｂにトレーニングデータ生成プログラム５１Ａが記憶されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図２７に示すように、トレーニングデータ生成プログラム５１Ａが記憶媒体１００に記憶されていてもよい。記憶媒体１００は、非一時的記憶媒体である。記憶媒体１００の一例としては、ＳＳＤ又はＵＳＢメモリなどの任意の可搬型の記憶媒体が挙げられる。

　記憶媒体１００に記憶されているトレーニングデータ生成プログラム５１Ａは、コントローラ５０にインストールされる。ＣＰＵ５０Ａは、トレーニングデータ生成プログラム５１Ａに従ってトレーニングデータ生成処理を実行する。

　また、通信網（図示省略）を介してコントローラ５０に接続される他のコンピュータ又はサーバ装置等の記憶部にトレーニングデータ生成プログラム５１Ａを記憶させておき、上述の撮像装置１２の要求に応じてトレーニングデータ生成プログラム５１Ａがダウンロードされ、コントローラ５０にインストールされるようにしてもよい。

　なお、コントローラ５０に接続される他のコンピュータ又はサーバ装置等の記憶部、又は記憶媒体１００にトレーニングデータ生成プログラム５１Ａの全てを記憶させておく必要はなく、トレーニングデータ生成プログラム５１Ａの一部を記憶させておいてもよい。

　図４に示す例では、撮像装置１２にコントローラ５０が内蔵されている態様例が示されているが、本開示の技術はこれに限定されず、例えば、コントローラ５０が撮像装置１２の外部に設けられるようにしてもよい。

　図４に示す例では、ＣＰＵ５０Ａは、単数のＣＰＵであるが、複数のＣＰＵであってもよい。また、ＣＰＵ５０Ａに代えてＧＰＵを適用してもよい。

　図４に示す例では、コントローラ５０が例示されているが、本開示の技術はこれに限定されず、コントローラ５０に代えて、ＡＳＩＣ、ＦＰＧＡ、及び／又はＰＬＤを含むデバイスを適用してもよい。また、コントローラ５０に代えて、ハードウェア構成及びソフトウェア構成の組み合わせを用いてもよい。

　上記実施形態で説明したトレーニングデータ生成処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、トレーニングデータ生成処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。また、プロセッサとしては、例えば、ＦＰＧＡ、ＰＬＤ、又はＡＳＩＣなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することでトレーニングデータ生成処理を実行する。

　トレーニングデータ生成処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、又はＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、トレーニングデータ生成処理を実行するハードウェア資源は１つのプロセッサであってもよい。

　１つのプロセッサで構成する例としては、第１に、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、トレーニングデータ生成処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣなどに代表されるように、トレーニングデータ生成処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、トレーニングデータ生成処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

　更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記のトレーニングデータ生成処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

　以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

　本明細書において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「及び／又は」で結び付けて表現する場合も、「Ａ及び／又はＢ」と同様の考え方が適用される。

　本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　プロセッサと、
　前記プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、
　前記プロセッサは、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する
　情報処理装置。
　前記機械学習は、教師有り機械学習であり、
　前記プロセッサは、
前記特定被写体画像に関する情報であるラベルを前記特定被写体データに付与し、
前記特定被写体データを、前記教師有り機械学習に用いるトレーニングデータとして出力する
請求項１に記載の情報処理装置。
　前記プロセッサは、前記イメージセンサから出力された信号に基づいた表示用動画像がモニタに表示されている状態で、前記フォーカス対象領域を他画像領域と区別可能な態様で表示し、
　前記特定被写体画像は、前記撮像画像内の前記フォーカス対象領域の位置に対応する画像である
　請求項１又は請求項２に記載の情報処理装置。
　前記プロセッサは、前記表示用動画像において、前記フォーカス対象領域を取り囲む枠を表示することで、前記フォーカス対象領域を前記他画像領域と区別可能な態様で表示する請求項３に記載の情報処理装置。
　前記枠の位置は、与えられた位置変更指示に従って変更可能である請求項４に記載の情報処理装置。
　前記枠のサイズは、与えられたサイズ変更指示に従って変更可能である請求項４又は請求項５に記載の情報処理装置。
　前記プロセッサは、前記撮像画像と前記フォーカス対象領域の座標とを、前記機械学習に用いる前記データとして出力する請求項１から請求項６の何れか一項に記載の情報処理装置。
　前記プロセッサは、
　前記イメージセンサから出力された信号に基づいた表示用動画像をモニタに表示し、
　前記表示用動画像において、前記フォーカス対象領域の指定を受け付け、
　前記フォーカス対象領域を含む所定領域のうち、前記フォーカス対象領域に対する類似度を示す類似評価値が第１既定範囲内にある領域に基づいて、前記特定被写体画像を抽出する
　請求項１又は請求項２に記載の情報処理装置。
　前記プロセッサは、前記フォーカス対象領域を他画像領域と区別可能な態様で表示する請求項８に記載の情報処理装置。
　前記フォーカス対象領域及び前記特定被写体画像のうちの少なくとも一方は、前記所定領域が分割されることで得られた分割領域単位で定められている請求項８又は請求項９に記載の情報処理装置。
　前記類似評価値は、フォーカス動作に使用されたフォーカス評価値に基づく値である請求項８から請求項１０の何れか一項に記載の情報処理装置。
　前記類似評価値は、前記所定領域の色情報に基づく色評価値である請求項８から請求項１１の何れか一項に記載の情報処理装置。
　前記プロセッサは、前記表示用動画像において前記特定被写体を示す表示用特定被写体画像と、前記特定被写体画像との相違度が第２既定範囲を超えている場合、異常検出処理を行い、
　前記表示用特定被写体画像は、前記類似評価値に基づいて定められている
　請求項８から請求項１２の何れか一項に記載の情報処理装置。
　前記特定被写体データは、前記特定被写体画像の座標を含み、
前記プロセッサは、前記撮像画像と前記特定被写体画像の座標とを、前記機械学習に用いる前記データとして出力する
請求項１から請求項１３の何れか一項に記載の情報処理装置。
　前記特定被写体データは、前記撮像画像から切り出された前記特定被写体画像であり、
前記プロセッサは、切り出された前記特定被写体画像を、前記機械学習に用いる前記データとして出力する
請求項１から請求項１４の何れか一項に記載の情報処理装置。
　前記プロセッサは、
　前記データを前記メモリに記憶し、
　前記メモリに記憶されている前記データを用いて前記機械学習を行う
　請求項１から請求項１５の何れか一項に記載の情報処理装置。
　請求項１から請求項１５の何れか一項に記載の前記情報処理装置から出力された前記データを受け付ける受付デバイスと、
　前記受付デバイスによって受け付けられた前記データを用いて前記機械学習を行う演算装置と、
　を備える学習機器。
　請求項１から請求項１６のうちの何れか一項に記載の情報処理装置と、
　前記イメージセンサと、
　を備える撮像装置。
　前記イメージセンサは、複数の合焦位置で撮像し、
　前記プロセッサは、前記撮像が行われることによって得られる複数の前記撮像画像について、前記特定被写体に合焦している合焦画像から得られる前記特定被写体画像の座標を、前記特定被写体に合焦していない非合焦画像における前記特定被写体画像の座標として出力する
　請求項１８に記載の撮像装置。
　特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む
　情報処理装置の制御方法。
　コンピュータに、
　特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む
　処理を実行させるためのプログラム。