WO2023145632A1

WO2023145632A1 - 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム

Info

Publication number: WO2023145632A1
Application number: PCT/JP2023/001647
Authority: WO
Inventors: 良介辻
Original assignee: キヤノン株式会社
Priority date: 2022-01-28
Filing date: 2023-01-20
Publication date: 2023-08-03
Also published as: JP2023110541A; US20240386706A1; JP7543328B2

Abstract

ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、前記被写体検出のための教師データを入力する教師データ入力手段と、前記被写体検出におけるネットワーク構造の制約を指定するネットワーク構造指定手段と、前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有し、前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含む。

Description

撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム

　本発明は、ニューラルネットワークを用いる撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラムに関する。

　被写体検出はコンピュータビジョン研究の分野の１つであり、これまで広く研究されている。コンピュータビジョンはコンピュータに入力された画像を理解し、その画像の様々な特性を自動的に認識する技術である。その中で被写体検出は、自然画像内に存在する被写体の位置と種類を推定するタスクである。被写体検出は撮像装置のオートフォーカス技術等に応用されている。

　近年では、ニューラルネットワーク等に代表される機械学習手法により被写体を検出する撮像装置が知られている。このような撮像装置は、特定の被写体に対応した学習済みモデル（辞書データ）を利用して、特定の被写体を検出し撮像制御を行う。特定被写体の種類は、人物、犬や猫などの動物、自動車などの乗物が代表的であり、撮像装置のオートフォーカス機能としてニーズの高い被写体である。

　本発明は、ユーザーによる任意の辞書データを生成可能な撮像システムを提供することを目的とする。

特開２０１１－９０４１０号公報特開２０１１－９０４１３号公報

　特開２０１１－９０４１０号公報では、所定の場所に存在する被写体認識の辞書データをサーバー装置から受信する画像処理装置が開示されている。状況に応じて辞書データを切り替えているものの、ユーザーによる任意の特定被写体を検出可能な構成にはなっていない。

　又、特開２０１１－９０４１３号公報では、追加学習によってユーザーにとって好適な被写体検出器を実現する画像処理装置が開示されている。追加学習であるため、ユーザーによる任意の新たな被写体を検出することは難しい。又、画像処理装置において、学習と推論が実行される状況が前提となっているが、例えば撮像装置等においては被写体検出のネットワーク構造の制約等が異なる場合があるため、追加学習が適切にできない場合がある。そこで本発明は、ユーザーによる任意の辞書データを生成可能な撮像システムを提供することを目的とする。

　上述の課題を解決するため、本発明は、
　ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、
　前記被写体検出のための教師データを入力する教師データ入力手段と、
　前記被写体検出におけるネットワーク構造の制約を指定するネットワーク構造指定手段と、
　前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、
　前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有することを特徴とする。

　本発明によれば、ユーザーによる任意の辞書データを生成可能な撮像システムを実現できる。

本発明の実施例１に係る撮像システムの構成図である。実施例１の撮像装置１００の構成例を示すブロック図である。実施例１に係るニューラルネットワーク処理部２０５の概略構成を示すブロック図である。ネットワーク構造の観点で制約条件の例を示した図である。サーバー１１０のハードウェア構成例を示すブロック図である。携帯端末１２０のハードウェア構成例を示すブロック図である。実施例１に係る撮像装置の処理を示すフローチャートである。辞書データに基づく被写体検出の例を説明するための図である。辞書データに基づく被写体検出の例を説明するための図である。実施例１に係るサーバーの処理を示すフローチャートである。実施例１に係る辞書データ生成の処理の流れを説明するためのフローチャートである。実施例１に係る辞書データ生成の処理の流れを説明するためのフローチャートである。実施例１に係る携帯端末１２０で実行される処理の流れの例を示すフローチャートである。実施例１に係る携帯端末の表示部６０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。実施例１に係る携帯端末の表示部６０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。実施例１に係る携帯端末の表示部６０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。実施例１に係る携帯端末の表示部６０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。実施例２の係る撮像システムの構成例を示す図である。実施例２に係る撮像装置における処理例を示すフローチャートである。ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図である。ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図である。実施例３に係る撮像システムの構成図である。実施例３における撮像装置１００の処理を説明するためのフローチャートである。実施例３における撮像装置１００の処理を説明するためのフローチャートである。図１７Ｂにおける教師データ入力の処理の流れを説明するフローチャートである。図１８における教師データ入力画面の１例を示す図である。図１８における教師データ入力画面の１例を示す図である。撮像装置１００での辞書データの情報確認の例を説明するための図である。

　以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。

　実施例においては、撮像装置としてデジタルスチルカメラに適用した例について説明する。しかし、撮像装置はデジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、車載カメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。

　＜実施例１＞
　以下、本発明の実施例１に係る撮像システムに関して、以下に詳細に説明する。

　図１は、本発明の実施例１に係る撮像システムの構成図であり、撮像システムは、撮像装置１００、情報処理サーバーとしてのサーバー１１０、撮像装置１００とは異なる情報処理端末としての携帯端末１２０等からなる。撮像装置１００とサーバー１１０は例えば無線による通信ネットワークにより接続される。又、サーバー１１０と携帯端末１２０は例えば無線による通信ネットワークにより接続される。

　尚、図１に示されるサーバー１１０、携帯端末１２０内の機能ブロックは夫々サーバー１１０、携帯端末１２０に含まれるコンピュータに、記憶媒体としてのメモリに記憶されたコンピュータプログラムを実行させることによって夫々実現されている。尚、これは後出の図１３、図１６等においても当てはまる。

　実施例１に係る撮像システムは、ニューラルネットワークに基づく被写体検出を行うと共に、ユーザーによる任意の被写体を検出可能とする。被写体検出の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク（以下、ＣＮＮと略記する）と呼ばれる手法がある。ＣＮＮでは、画像信号と処理パラメータである辞書データに基づき推論処理が実行され、辞書データは予め教師データに基づき学習処理によって生成しておく。

　実施例１の撮像システムでは、携帯端末１２０は、被写体検出のための教師データを入力する教師データ入力手段としての教師データ入力部１２１を有している。又、教師データ入力部１２１は被写体検出のための教師データを入力する教師データ入力ステップを実行する。

　又、教師データ入力部１２１では、教師データとして、画像データと、目的とする被写体が存在する前記画像データの被写体領域情報とをセットとし、複数セットの教師データを入力可能であって、その複数セットをサーバー１１０へ送信可能である。

　サーバー１１０では、携帯端末１２０から送信された教師データを取得し、取得した教師データに基づき辞書データ生成部１１１で辞書データを生成する。生成された辞書データは撮像装置１００へ送信される。実施例１では、辞書生成手段としての辞書データ生成部１１１は、撮像装置とは異なる情報処理サーバーとしてのサーバー１１０に設けられている。

　撮像装置１００では、サーバー１１０から送信された辞書データを受信し、受信した辞書データに基づき被写体検出部１０１でニューラルネットワークに基づく推論処理を行う。次いで、推論結果に基づき、撮像制御部１０２においてオートフォーカスなどの撮像制御を実行する。即ち、撮像装置１００は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御（オートフォーカスや露出制御等）を行う。

　撮像装置１００の機種によって、被写体検出のネットワーク構造の制約が異なる場合がある。その場合、ネットワーク構造の制約に応じて辞書データも異なる。そこで、携帯端末１２０には、ネットワーク構造指定手段としてのネットワーク構造指定部１２２が設けられている。ネットワーク構造指定部１２２では、撮像装置の機種名やＩＤなどを指定することによって、ネットワーク構造の制約条件等をネットワーク構造に関する情報として指定し、サーバー１１０へ送信する。

　即ち、ネットワーク構造指定部１２２はネットワーク構造に関する情報を指定するネットワーク構造指定ステップを実行する。

　サーバー１１０における、辞書データ生成部１１１は、教師データとネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する。

　図２は実施例１の撮像装置１００の構成例を示すブロック図である。図２に示すように、撮像装置１００は、ＣＰＵ２０１と、メモリ２０２と、不揮発性メモリ２０３と、操作部２０４と、ニューラルネットワーク処理部２０５と、撮像部２１２と、画像処理部２１３と、符号化処理部２１４とを有している。更に、撮像装置１００は、表示制御部２１５と、表示部２１６と、通信制御部２１７と、通信部２１８と、記録媒体制御部２１９と、内部バス２３０とを有している。

　又、撮像装置１００は、撮影レンズ２１１を用いて被写体の光学像を撮像部２１２の画素アレイに結像するが、撮影レンズ２１１は、撮像装置１００のボディ（筐体、本体）から、着脱不能であっても良いし、着脱可能であっても良い。又、撮像装置１００は、記録媒体制御部２１９を介して画像データの書き込み及び読み出しを記録媒体２２０に対して行うが、記録媒体２２０は、撮像装置１００に着脱可能であっても良いし、着脱不能であっても良い。

　ＣＰＵ２０１は、不揮発性メモリ２０３に記憶されているコンピュータプログラムを実行することによって、内部バス２３０を介して撮像装置１００の各部（各機能ブロック）の動作を制御する。

　メモリ２０２は、書き換え可能な揮発性メモリである。メモリ２０２は、撮像装置１００の各部の動作を制御するためのコンピュータプログラム、撮像装置１００の各部の動作に関するパラメータ等の情報、通信制御部２１７によって受信される情報等を一時的に記録する。又、メモリ２０２は、撮像部２１２によって取得された画像、画像処理部２１３、符号化処理部２１４等によって処理された画像及び情報を一時的に記録する。メモリ２０２は、これらを一時的に記録するために十分な記憶容量を備えている。

　不揮発性メモリ２０３は、電気的に消去及び記録が可能なメモリであり、例えばＥＥＰＲＯＭ、ハードディスク等が用いられる。不揮発性メモリ２０３は、撮像装置１００の各部の動作を制御するコンピュータプログラム及び撮像装置１００の各部の動作に関するパラメータ等の情報を記憶する。かかるコンピュータプログラムにより、撮像装置１００によって行われる各種動作が実現される。更に、不揮発性メモリ２０３は、ニューラルネットワーク処理部２０５で使用する、ニューラルネットワークの処理内容を記述したコンピュータプログラムと、重み係数やバイアス値等の学習済み係数パラメータを格納する。

　尚、重み係数とはニューラルネットワークにおいてノード間の接続の強さを示すための値であり、バイアスは重み係数と入力データの積算値に対してオフセットを与えるための値である。不揮発性メモリ２０３は、学習済み係数パラメータと、ニューラルネットワークの処理を記述したコンピュータプログラムとを夫々複数保持することが可能である。

　尚、メモリ２０３ではなくメモリ２０２に、上述したニューラルネットワーク処理部２０５で使用する、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータを、夫々一時的に複数格納するようにしても良い。尚、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータが、被写体検出の辞書データに相当する。

　操作部２０４は、撮像装置１００を操作するためのユーザインタフェースを提供する。操作部２０４は、電源ボタン、メニューボタン、撮影用のレリーズボタン、動画録画ボタン、キャンセルボタン等の各種ボタンを含んでおり、各種ボタンはスイッチ、タッチパネル等により構成される。ＣＰＵ２０１は、操作部２０４を介して入力されたユーザーの指示に従って撮像装置１００を制御する。

　尚、ここでは、操作部２０４を介して入力される操作に基づいてＣＰＵ２０１が撮像装置１００を制御する場合を例に説明したが、これに限定されるものではない。例えば、不図示のリモートコントローラ、携帯端末１２０から通信部２１８を介して入力される要求に基づいて、ＣＰＵ２０１が撮像装置１００を制御しても良い。

　ニューラルネットワーク処理部２０５では、辞書データに基づく被写体検出部１０１の推論処理を行う。詳細は、図３を用いて後述する。

　撮影レンズ（レンズユニット）２１１は、ズームレンズ、フォーカスレンズ等を含むレンズ群、不図示のレンズ制御部、不図示の絞り等によって構成される。撮影レンズ２１１は、画角を変更するズーム手段として機能し得る。撮影レンズ２１１のレンズ制御部は、ＣＰＵ２０１から送信される制御信号により、焦点の調整及び絞り値（Ｆ値）の制御を行う。

　撮像部２１２は、動画像を含む複数の画像を順次取得する取得手段として機能し得る。撮像部２１２としては、例えばＣＣＤ（電荷結合素子）イメージセンサ、ＣＭＯＳ（相補型金属酸化膜半導体）イメージセンサ等が用いられる。撮像部２１２は、被写体の光学像を電気信号に変換する光電変換部（画素）が行列状、即ち、２次元的に配列された不図示の画素アレイを有している。当該画素アレイには、被写体の光学像が撮影レンズ２１１によって結像される。撮像部２１２は、撮像した画像を画像処理部２１３やメモリ２０２に出力する。尚、撮像部２１２は、静止画像を取得することも可能である。

　画像処理部２１３は、撮像部２１２から出力される画像データ、又は、メモリ２０２から読み出された画像データに対し、所定の画像処理を行う。当該画像処理の例としては、ダイナミックレンジ変換処理、補間処理、縮小処理（リサイズ処理）、色変換処理等が挙げられる。又、画像処理部２１３は、撮像部２１２によって取得された画像データを用いて、露光制御、測距制御等のための所定の演算処理を行う。

　そして画像処理部２１３による演算処理によって得られた演算結果に基づいて、露光制御、測距制御等がＣＰＵ２０１によって行われる。具体的には、ＡＥ（Ａｕｔｏ　Ｅｘｐｏｓｕｒｅ）処理、ＡＷＢ（Ａｕｔｏ　Ｗｈｉｔｅ　Ｂａｌａｎｃｅ）処理、ＡＦ（Ａｕｔｏ　Ｆｏｃｕｓ）処理等がＣＰＵ２０１によって行われる。これら撮影制御は、ニューラルネットワーク処理部２０５による被写体検出結果を参照して行われる。

　符号化処理部２１４は、画像処理部２１３からの画像データに対してフレーム内予測符号化（画面内予測符号化）、フレーム間予測符号化（画面間予測符号化）等を行うことによって、画像データのサイズを圧縮する。

　表示制御部２１５は、表示部２１６を制御する。表示部２１６は、不図示の表示画面を備える。表示制御部２１５は、表示部２１６の表示画面に表示可能な画像を生成し、当該画像、即ち、画像信号を表示部２１６に出力する。又、表示制御部２１５は表示部２１６に画像データを出力するだけでなく、通信制御部２１７を介して外部機器に画像データを出力することも可能である。表示部２１６は、表示制御部２１５から送られてくる画像信号に基づいて、表示画面に画像を表示する。

　表示部２１６は、表示画面にメニュー等の設定画面を表示する機能であるＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）機能を備えている。表示制御部２１５は、画像信号にＯＳＤ画像を重畳して表示部２１６に画像信号を出力し得る。ニューラルネットワーク処理部２０５による被写体検出結果に基づき被写体枠を生成して、画像信号に重畳して表示することもできる。表示部２１６は、液晶ディスプレイ、有機ＥＬディスプレイ等により構成されており、表示制御部２１５から送られてきた画像信号を表示する。表示部２１６は、例えばタッチパネルを含んでも良い。表示部２１６がタッチパネルを含む場合、表示部２１６は、操作部２０４としても機能し得る。

　通信制御部２１７は、ＣＰＵ２０１に制御される。通信制御部２１７は、ＩＥＥＥ８０２．１１等のような無線通信規格に適合する変調信号を生成して、当該変調信号を通信部２１８に出力すると共に、外部の機器からの変調信号を、通信部２１８を介して受信する。又、通信制御部２１７は映像信号の制御信号を送受信することが可能である。例えば、通信部２１８を制御して、ＨＤＭＩ（登録商標）（Ｈｉｇｈ　Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）やＳＤＩ（Ｓｅｒｉａｌ　Ｄｉｇｉｔａｌ　Ｉｎｔｅｒｆａｃｅ）などの通信規格に準拠した映像信号を送るようにしても良い。

　通信部２１８は映像信号と制御信号を物理的な電気信号に変換して外部機器と送受信する。尚、通信部２１８によって映像信号や制御信号の送受信を行うだけでなく、ニューラルネットワーク処理部２０５における被写体検出のための辞書データの受信等も行う。

　記録媒体制御部２１９は、記録媒体２２０を制御する。記録媒体制御部２１９は、ＣＰＵ２０１からの要求に基づいて、記録媒体２２０を制御するための制御信号を記録媒体２２０に出力する。記録媒体２２０としては、例えば不揮発性メモリや磁気ディスク等が用いられる。記録媒体２２０は、上述したように、着脱可能であっても良いし、着脱不能であっても良い。記録媒体２２０は、符号化された画像データ等を、記録媒体２２０のファイルシステムに適合した形式でファイルとして保存する。

　各々の機能ブロック２０１～２０５、２１２～２１５、２１７、２１９は、内部バス２３０を介して互いにアクセス可能となっている。

　尚、図２に示される機能ブロックの一部は、撮像装置１００に含まれるコンピュータとしてのＣＰＵ２０１に、記憶媒体としての不揮発性メモリ２０３等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　図３は、実施例１に係るニューラルネットワーク処理部２０５の概略構成を示すブロック図である。

　ニューラルネットワーク処理部２０５は予め学習済み係数パラメータを用いてニューラルネットワークの処理を実行する。尚、ニューラルネットワークの処理は、例えばＣＮＮの全結合層などで構成されるものであるが、これに限定するものではない。また上述の学習済み係数パラメータは、全結合層では各層のノード間を結ぶエッジ毎に持つ重み係数やバイアス値、ＣＮＮにおけるカーネルの重み係数やバイアス値に相当する。

　図３に示すように、ニューラルネットワーク処理部２０５はニューラルコア３００の中に、ＣＰＵ３０１、積和演算回路３０２、ＤＭＡ（Ｄｙｎａｍｉｃ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）３０３、内部メモリ３０４等が含まれる。

　ＣＰＵ３０１は、ニューラルネットワークの処理内容を記述したコンピュータプログラムを、内部バス２３０を介してメモリ２０２又は不揮発性メモリ２０３から、或いは内部メモリ３０４から取得し、これを実行する。またＣＰＵ３０１は積和演算回路３０２及びＤＭＡ３０３の制御も行う。

　積和演算回路３０２は、ニューラルネットワークにおける積和演算を行う回路である。積和演算回路３０２は、積和演算部を複数有し、これらは並列に積和演算の実行をすることが可能である。又、積和演算回路３０２は、複数の積和演算部により並列に実行される積和演算の際に算出される中間データを、ＤＭＡ３０３を介して内部メモリ３０４に出力する。

　ＤＭＡ３０３は、ＣＰＵ３０１を介さずにデータ転送に特化した回路であり、内部バス２３０を介してメモリ２０２又は不揮発性メモリ２０３と内部メモリ３０４との間のデータ転送を行う。又、ＤＭＡ３０３は積和演算回路３０２と内部メモリ３０４と間のデータ転送も行う。ＤＭＡ３０３が転送するデータとしては、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路３０２で算出した中間データ等である。

　内部メモリ３０４は、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路３０２で算出した中間データ等を格納する。又、内部メモリ３０４は複数のバンクを有してもよく、動的にバンクを切り替えても良い。

　尚、内部メモリ３０４の容量や、積和演算回路３０２の演算仕様には制約があり、所定の制約を満たしてニューラルネットワークの処理をすることとなる。撮像装置の機種によって、制約条件は異なる場合があり、制約条件が異なればコンピュータプログラムや、学習済み係数パラメータが異なる。つまり、被写体検出の辞書データが異なる。

　図４は、ネットワーク構造の観点で制約条件の例を示した図である。

　図４では横軸が撮像装置の機種名、縦軸が各ネットワーク構造の制約等のネットワーク構造に関する情報を示している。入力データの画像サイズ、入力データのチャンネル数、ネットワークのパラメータ数は内部メモリ３０４の容量に依存する制約であり、撮像装置Ｂに対して撮像装置Ａはメモリ容量が少なく、制約が大きい。

　又、レイヤーの種類や活性化関数の種類は、積和演算回路３０２の演算仕様の制約であり、撮像装置Ｂに対して撮像装置Ａは表現可能な演算の種類が少なく制約が大きい。即ち、ネットワーク構造に関する情報は、入力データの画像サイズ、入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも１つに関する情報を含む。

　図５は、サーバー１１０のハードウェア構成例を示すブロック図である。

　図５に示す様に、サーバー１１０は、ＣＰＵ５０１と、メモリ５０２と、表示部５０３と、操作部５０５と、記録部５０６と、通信部５０７と、ニューラルネットワーク処理部５０８とを有している。

　尚、図５に示される機能ブロックの一部は、サーバー１１０に含まれるコンピュータとしてのＣＰＵ５０１に、記憶媒体としての記録部５０６等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　ＣＰＵ５０１は、記録部５０６に記憶されているコンピュータプログラムを実行することによって、サーバー１１０を構成するすべての処理ブロックの制御を行う。

　メモリ５０２は、主にＣＰＵ５０１のワークエリアや、データの一時バッファ領域として使用されるメモリである。

　表示部５０３は、液晶パネル、又は有機ＥＬパネル等で構成され、ＣＰＵ５０１の指示に基づいて、操作画面等の表示を行う。

　内部バス５０４は、サーバー１１０内の各処理ブロックを相互に接続するためのバスである。

　操作部５０５は、キーボード、マウス、ボタン、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部５０５から入力された操作情報は、ＣＰＵ５０１に送信され、ＣＰＵ５０１は操作情報に基づいて各処理ブロックの制御を実行する。

　記録部５０６は記録媒体によって構成され、ＣＰＵ５０１の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えばＥＥＰＲＯＭ、内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。記録部５０６には、コンピュータプログラムの他に、ニューラルネットワーク処理部５０８における学習用データである入力データと教師データや辞書データなどを保存しておく。

　通信部５０７は、無線ＬＡＮ及び有線ＬＡＮの通信を行うためのハードウェア等を備えている。無線ＬＡＮにおいては、例えばＩＥＥＥ８０２．１１ｎ／ａ／ｇ／ｂ方式の処理を行う。通信部５０７は、外部のアクセスポイントと無線ＬＡＮで接続し、アクセスポイント経由で他の無線通信機器と無線ＬＡＮ通信を行う。又、通信部５０７は有線ＬＡＮにおいてＥｔｈｅｒｎｅｔケーブル等により外部ルータ、又はスイッチングハブを介して通信を行う。通信部５０７は、撮像装置１００を含む、外部の機器と通信を行い、教師データ、辞書データなどの情報のやり取りを行う。

　ニューラルネットワーク処理部５０８は、通信部５０７を介して得られた教師データと、通信部５０７を介して取得したネットワーク構造の制約情報より、ニューラルネットワークのモデルを選定して、ニューラルネットワークの学習処理を行う。ニューラルネットワーク処理部５０８は、図１の辞書データ生成部１１１に相当し、教師データを用いて異なるクラスの被写体の夫々に対応する辞書データを構築するための学習処理を行う。

　ニューラルネットワーク処理部５０８はＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）や、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等で構成される。又、ニューラルネットワーク処理部５０８により行われた学習処理の結果である、辞書データは記録部５０６に保持される。

　図６は、携帯端末１２０のハードウェア構成例を示すブロック図である。

　図６に示す様に、携帯端末１２０は、ＣＰＵ６０１と、メモリ６０２と、撮像部６０３と、表示部６０４と、操作部６０５と、記録部６０６と、通信部６０７と、内部バス６０８とを有している。図６に示される機能ブロックの一部は、携帯端末１２０に含まれるコンピュータとしてのＣＰＵ６０１に、記憶媒体としての記録部６０６等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　ＣＰＵ６０１は、記録部６０６に記憶されているコンピュータプログラムを実行することによって、携帯端末１２０を構成するすべての処理ブロックの制御を行う。

　メモリ６０２は、主にＣＰＵ６０１のワークエリアや、データの一時バッファ領域として使用されるメモリである。ＯＳ（Ｏｐｅｒａｔｉｏｎ　Ｓｙｓｔｅｍ）やアプリケーションソフト等のプログラムは、メモリ６０２上に展開され、ＣＰＵ６０１により実行される。

　撮像部６０３は、光学レンズ、ＣＭＯＳセンサ、デジタル画像処理部等を備え、光学レンズを介して入力される光学像を撮像し、デジタルデータに変換することにより撮像画像データを取得する。撮像部６０３によって取得された撮影画像データは、メモリ６０２に一時的に格納され、ＣＰＵ６０１の制御に基づいて処理される。例えば、記録部６０６による記録媒体への記録や、通信部６０７による外部機器への送信などが行われる。また撮像部６０３は、レンズ制御部も備えており、ＣＰＵ６０１からの指令に基づいて、ズーム、フォーカス、絞り調整等の制御を行う。

　表示部６０４は、液晶パネル、又は有機ＥＬパネル等で構成され、ＣＰＵ６０１の指示に基づいて、表示を行う。撮影画像から教師データの画像を選択すると共に、ネットワーク構造を指定するために、操作画面や、撮影画像等の表示を行う。

　操作部６０５は、キーボード、マウス、ボタン、十字キー、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部６０５から入力された操作情報は、ＣＰＵ６０１に送信され、ＣＰＵ６０１は操作情報に基づいて各処理ブロックの制御を実行する。

　記録部６０６は、大容量の記録媒体によって構成され、ＣＰＵ６０１の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えば内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。

　通信部６０７は、アンテナ、無線ＬＡＮ、有線ＬＡＮ等の通信を行うための処理ハードウェア等を備え、例えばＩＥＥＥ８０２．１１ｎ／ａ／ｇ／ｂ方式の無線ＬＡＮ通信を行う。通信部６０７は、外部のアクセスポイントと無線ＬＡＮで接続し、アクセスポイント経由で他の無線通信機器と無線ＬＡＮ通信を行う。通信部６０７によって、ユーザーから操作部６０５を介して入力された教師データや、ネットワーク構造をサーバー１１０へ送信する。

　内部バス６０８は、携帯端末ＳＰ内の各処理ブロックを相互に接続するためのバスである。

　図７は、実施例１に係る撮像装置の処理を示すフローチャートであり、図７を用いて、実施例１において撮像装置１００で実行される辞書データを受信し、被写体検出を行って撮像制御する処理の流れについて説明する。この動作は、撮像装置１００の電源がオンの状態において、不揮発性メモリ２０３に格納されているコンピュータプログラムがメモリ２０２に展開され、ＣＰＵ２０１がメモリ２０２のコンピュータプログラムを読み出して実行することにより実現される。

　ステップＳ７０１において、撮像装置１００は、サーバー１１０から未だ受信していない辞書データがないかを、通信部２１８を介してサーバー１１０に確認する。サーバー１１０から受信していない辞書データがサーバー１１０にあれば（ステップＳ７０１でＹＥＳと判定）、ステップＳ７０２において、通信部２１８を介してサーバー１１０から辞書データを取得し、不揮発性メモリ２０３へ記憶する。サーバー１１０から受信していない辞書データがなければ（ステップＳ７０１でＮＯと判定）、ステップＳ７０３へ進む。

　ステップＳ７０３では、不揮発性メモリ２０３に記録されている辞書データを用いて、ニューラルネットワーク処理部２０５で被写体検出を行う。辞書データは、不揮発性メモリ２０３から、メモリ２０２又は、ニューラルネットワーク処理部２０５の内部メモリ３０４へコピーして、被写体検出で使用するようにしても良い。又、ステップＳ７０３における被写体検出は、撮像部２１２によって取得された画像データを入力データとして行われる。

　ステップＳ７０４では、被写体検出結果に基づき撮像部２１２でオートフォーカスなどの撮像制御を行う。即ち、検出された被写体にピントを合わせると共に、適正露出となるようにオートフォーカスや露出制御などの撮像制御を行う。ここで、ステップＳ７０３，Ｓ７０４は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップとして機能している。

　本実施例では、サーバーから辞書データを取得するステップと、取得した辞書データに基づく被写体検出および撮影制御を同一フローで行っている。しかし、これに限らず、たとえば非撮影時にあらかじめサーバーに問合せ辞書データを取得するモードないしタイミングが設けられていてもよい。また、被写体検出に用いられる辞書データは、必ずしもサーバーに問合せて、未取得であった辞書データを取得し、それをそのまま使わなくても良い。例えば、辞書データを利用する前に（例えば、ステップＳ７０４の前に）辞書データを決定するためのステップとして、例えばユーザー操作を受け付けるステップや自動で決定するステップを設けても良い。

　図８Ａ、図８Ｂは、辞書データに基づく被写体検出の例を説明するための図である。

　実施例１の辞書データは、二ューラルネットワーク処理部２０５で被写体検出タスクを実行するための処理内容を記述したコンピュータプログラムや、学習済み係数パラメータを被写体の種類ごとに持っている。

　例えば、被写体の種類としては、人物や動物の犬、猫や自動車などの乗物、バイクなどがある。

　図８Ａ、図８Ｂの８０１、８０５は表示部２１６のメニュー画面の例を示しており、検出する被写体を、操作部２０４を介してユーザーが設定する。図８Ａでは、検出する被写体として「人物」８０２が設定されている。「人物」が設定されている場合、予め不揮発性メモリ２０３に格納されている「人物」の辞書データを用いて被写体検出を行う。８０３は表示部２１６で表示されている撮影画像であり、「人物」の顔が検出され、枠８０４が重畳されて表示されている状態を示している。

　図８Ｂでは、検出する被写体として「カスタム」８０６が設定されている。「カスタム」の場合は、サーバー１１０より受信したカスタム用の辞書データとして例えば「魚」を用いて被写体検出を行う。８０３は表示部２１６で表示されている撮影画像であり、「カスタム」の辞書データが「魚」の場合であり、検出された魚に枠８０６が重畳されて表示された状態を示している。

　図９は、実施例１に係るサーバーの処理を示すフローチャートである。

　尚、図９の処理は、サーバー１１０の電源がオンの状態において、記録部５０６に格納されているコンピュータプログラムがメモリ５０２に展開され、ＣＰＵ５０１がメモリ５０２のコンピュータプログラムを読み出して実行することにより実現される。

　図９を用いて、携帯端末１２０から教師データとネットワーク構造に関する情報を取得し、辞書データを生成し、生成した辞書データを撮像装置１００へ送信するサーバー１１０の処理に関して抜粋して説明する。

　ステップＳ９０１において、サーバー１１０は、通信部５０７を介して、携帯端末１２０より教師データを取得する。ここで、ステップＳ９０１は被写体検出のための教師データを取得する教師データ取得手段として機能している。又、ステップＳ９０２において、通信部５０７を介して、携帯端末１２０よりネットワーク構造に関する情報も取得し、ネットワーク構造を特定する。ネットワーク構造に関する情報とは、例えば、撮像装置の機種名等であり、撮像装置の機種名とネットワーク構造との対応関係が記録部５０６に記録されているものとする。ステップＳ９０２は、ネットワーク構造に関する情報を取得するネットワーク構造取得手段として機能している。

　次いで、ステップＳ９０３において、辞書データ生成に必要なデータが揃っているかを確認する。データが揃っていれば（ステップＳ９０３でＹＥＳと判定）、ステップＳ９０４へ進む。データが揃っていなければ（ステップＳ９０３でＮＯと判定）、ステップＳ９０７へ進む。

　例えば、教師データに画像データはあるが、被写体領域が設定されていないケースではステップＳ９０３でＮＯと判定される。

　ステップＳ９０４において、ニューラルネットワーク処理部５０８で辞書データの生成を行う。辞書データの生成としては、予め多数の辞書データを生成しておき、教師データから適切な辞書データを選択する方法（例えば図１０Ａ）がある。又、教師データから学習によって辞書データを生成する方法（例えば図１０Ｂ）も適用可能である。ステップＳ９０４は辞書生成手段（辞書生成ステップ）として機能している。

　図１０Ａ、図１０Ｂは、実施例１に係る辞書データ生成の処理の流れを説明するためのフローチャートである。

　図１０Ａは選択に基づく辞書データ生成例の処理の流れを示すフローチャートである。ステップＳ１００１ａにおいて、教師データの画像データから被写体検出を行う。ここでの被写体検出は、複数種類の被写体を検出できるものとして、ＹＯＬＯやＦａｓｔＲ－ＣＮＮなど公知の被写体検出方法が適用できる。

　検出結果として、ｘｙ座標の位置情報、サイズ、検出スコア、被写体種類等が出力される。ステップＳ１００２ａにおいて、教師データの領域情報と被写体検出結果の位置情報及びサイズから、教師データの領域と合致する検出結果を抽出する。

　ステップＳ１００３ａにおいて、抽出した検出結果から教師データの種類を推定する。複数の教師データがある場合、被写体種類毎のスコアの平均値から被写体の種類を決める。

　ステップＳ１００４ａにおいて、推定した辞書データを選定する。辞書データは、ネットワーク構造の種類毎に予め複数用意しておき、目的とするネットワーク構造の辞書データを選定する。ここで、ステップＳ１００４ａは、予め用意した複数の辞書データから前記教師データの被写体に適した辞書を選定する辞書生成手段として機能している。

　図１０Ｂは学習に基づく辞書データ生成例の処理の流れを示すフローチャートである。辞書データの初期値が乱数の状態から学習をするとなると多数の教師データが必要となる。多数の教師データが必要となるとユーザーの教師データを入力する手間がかかるため、少数の教師データで学習する方法が望まれる。

　そこで、ステップＳ１００１ｂにおいて、多種多様な物体を予め学習した辞書データを初期値に設定する。ステップＳ１００２ｂにおいて、教師データに基づき学習を行う。辞書データの初期値が乱数ではなく、物体らしさを学習したものであるので、所謂ファインチューニングとなる。ここで、ステップＳ１００２ｂは、教師データに基づき学習をすることによって前記辞書データを生成する辞書生成手段として機能している。

　図９のフローチャートの説明に戻る。ステップＳ９０４において辞書データ生成を行うと、ステップＳ９０５で辞書データ生成に成功できたか否かを判定する。辞書データの生成が図１０Ａのような選定に基づく手法の場合には、辞書選択できた場合は成功、教師データに属する検出結果が得られなかったなど辞書選択ができなかった場合は失敗となる。又、辞書データの生成が図１０Ｂのような学習に基づく手法の場合には、例えば、学習の損失関数の値が、所定の閾値以下であれば成功、所定の閾値よりも大きければ失敗とする。

　辞書データの生成に成功すれば（ステップＳ９０５でＹＥＳと判定）、ステップＳ９０６において、辞書データを通信部５０７へ介して、撮像装置１００へ送信する。ここでステップＳ９０６は辞書生成手段により生成した辞書データを撮像装置１００へ送信する辞書データ送信手段として機能している。

　辞書データの生成に失敗すれば（ステップＳ９０５でＮＯと判定）、ステップＳ９０７において、通信部５０７へ介して、携帯端末１２０へエラーが発生したことを通知する。

　図１１は、実施例１に係る携帯端末１２０で実行される処理の流れの例を示すフローチャートである。

　携帯端末１２０において、教師データとネットワーク構造に関する情報を入力し、サーバー１１０へ学習開始を通知するための、携帯端末１２０での処理に関して抜粋して説明する。この動作は、携帯端末１２０の電源がオンの状態において、記録部６０６に格納されているコンピュータプログラムがメモリ６０２に展開され、ＣＰＵ６０１がメモリ６０２のコンピュータプログラムを読み出して実行することにより実現される。

　図１２Ａ、図１２Ｂ、図１２Ｃ、図１２Ｄを用いて、図１１のフローチャートの処理の流れを説明する。

　図１２Ａ、図１２Ｂ、図１２Ｃ、図１２Ｄは、実施例１に係る携帯端末の表示部６０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。

　図１１のステップＳ１１０１において、ユーザーは、操作部６０５を介して、記録部６０６に記憶されている撮影画像の中から教師データとして利用する画像の選択を行う。図１２Ａは、表示部６０４による画像選択画面の例を示す図であり、１２０１に示すように撮影画像が１２個表示されている。ユーザーはこの１２個の撮影画像の中から操作部６０５によるタッチ等で教師データを例えば２つ選択する。１２０２のように撮影画像の左上に丸が表示されているものが選択された教師データの画像とする。

　ステップＳ１１０２において、ユーザーは、操作部６０５を介して、教師データとして選択した２つの画像に対して、画像中の目的とする被写体領域を指定する。図１２Ｂは、表示部６０４による被写体領域の入力画面の例を示す図であり、１２０３の矩形枠は、ユーザーが入力した被写体領域を示す。教師データとして選択した各画像に対して、被写体領域を設定する。被写体領域の設定方法としては、操作部６０５の一部であり表示部６０４と一体のタッチパネルを介して表示された画像から領域選択を直接行っても良い。

　或いは、ＣＰＵ６０１などにより簡易的にエッジ等の特徴量で検出された被写体枠から選択、微調整するなどして選択しても良い。

　ステップＳ１１０３において、ユーザーは、操作部６０５を介して、ネットワーク構造の制約を指定（ネットワーク構造に関する情報を指定）する。具体的には、例えば撮像装置の種別を選定する。図１２Ｃは、表示部６０４によるネットワーク構造の入力画面の例を示す図であり、撮像装置の機種名が複数個表示されている。この中からユーザーは辞書データを用いた撮像制御を行いたい撮像装置の機種名を１つ選択する。１２０４が選択されたたものとする。

　ステップＳ１１０４において、ユーザーは、操作部６０５を介して、辞書データ生成の開始を決定する。図１２Ｄは、表示部６０４による辞書データ生成の開始の確認画面例を示す図であり、ＹＥＳかＮＯかを入力する。１２０５に示すＹＥＳが選択されれば、通信部６０７を介して、サーバー１１０へ教師データと撮像装置の種別の情報が送信され、サーバー１１０において辞書データ生成が行われる。図１２Ｄで、ＮＯが選択されれば、処理を終了する。

　尚、教師データの画像データ中の被写体領域が正事例、その他の領域が負事例として、サーバー１１０での辞書データ生成で扱われる。上述した説明では、被写体領域が存在する画像を選択する例を示したが、被写体領域が存在しない画像を選択しても良い。その場合は、被写体領域の情報は入力せず、画像全体を負事例として扱う。

　以上のように、実施例１の撮像システムによれば、撮像装置で利用可能な、ユーザーによる任意の辞書データが生成可能となる。

　＜実施例２＞
　本発明の実施例２に係る撮像システムに関して、以下に詳細に説明する。実施例１と同様な部分に関しては、説明を省略する。

　図１３は、実施例２の係る撮像システムの構成例を示す図であり、撮像システムは撮像装置１００、情報処理装置としてのサーバー１１０、情報入力装置としての携帯端末１２０からなる。又、撮像装置１００とサーバー１１０と携帯端末１２０が無線による通信ネットワークにより接続される。

　実施例２においても、実施例１と同様の方法で、携帯端末１２０にインストールされた所定のアプリケーションソフトを用いて、ユーザーによる任意の（カスタムの）被写体検出の辞書データが生成可能となる。但し、実施例２では、課金によりユーザーによるカスタムの辞書データ（ユーザーカスタム辞書と呼ぶ。）を生成するサービスを、撮像装置１００で有効化できるものとする。

　この課金サービスにおいて、ユーザーカスタム辞書が意図したものになっているかを確認できなければ、辞書データの価値が判断できない。

　そこで、撮像装置１００で、ユーザーカスタム辞書に基づく検出結果を枠表示する。それにより検出能力の評価が可能となる。そして、当該辞書データを購入することで、撮像装置１００においてユーザーカスタム辞書を用いた撮像制御機能が有効（利用可能）となる課金システムとする。

　携帯端末１２０では、辞書有効化部１２３を備える。そして、ユーザーカスタム辞書が、携帯端末１２０における課金によって有効化されれば、撮像装置１００においてユーザーカスタム辞書を用いた被写体検出結果に基づく撮像制御を可能とする。ここで、辞書有効化部１２３は、辞書生成手段によって生成された辞書データを課金によって有効化する辞書有効化手段として機能している。

　図１４は、実施例２に係る撮像装置における処理例を示すフローチャートであり、図１４を用いて、実施例２における撮像装置１００で実行される処理の流れに関して説明する。このフローチャートの動作は、撮像装置１００の電源がオンの状態において、不揮発性メモリ２０３に格納されているコンピュータプログラムがメモリ２０２に展開され、ＣＰＵ２０１がメモリ２０２のコンピュータプログラムを読み出して実行することにより実現される。

　ステップＳ１４０１において、ニューラルネットワーク処理部２０５では、ユーザーカスタム辞書を用いて被写体検出を行う。尚、図８Ｂで説明したように、撮像装置１００はカスタム辞書を使う状態に設定されているものとする。

　ステップＳ１４０２において、表示制御部２１５によって、被写体検出結果を枠として撮像装置の撮影画像に重畳して表示手段としての表示部２１６で表示する。これによって、ユーザーは、被写体検出の辞書データがユーザーの意図したものになっているかを確認できる。目的としている被写体が検出され、目的としている被写体以外が検出されない状態であれば、ユーザーの意図した辞書データが生成できていると評価できる。被写体検出の辞書データがユーザーの意図したものでなければ、ユーザーは携帯端末１２において教師データを追加して、辞書データを再生成しても良い。すなわち、ステップＳ１４０２で被写体検出結果を表示するとともに辞書データの再生成フロー（図１１）へ移行するか否かを選択させる画面を表示してもよい。

　ステップＳ１４０３において、ＣＰＵ２０１は、ユーザーカスタム辞書が有効な状態であるかを判定する。ユーザーカスタム辞書の初期状態は無効状態とし、携帯端末１２０より、有効状態に変更される。携帯端末１２０において、操作部６０５を介して、課金により辞書データを有効にする処理が実行されれば、通信部６０７を介して、撮像装置１００へそのことが通知される。

　ステップＳ１４０３において、ユーザーカスタム辞書が有効な状態であれば、ステップＳ１４０４において、当該辞書データによる検出結果を用いた撮像制御が行われる。ステップＳ１４０３において、ユーザーカスタム辞書が無効な状態であれば、ステップＳ１４０５において、当該辞書データによる検出結果を利用せずに撮像制御が行われる。

　即ち、辞書有効化手段によって辞書データが有効化されている場合には、撮像装置１００は、被写体検出により検出された被写体に対してユーザーカスタム辞書データに基づく所定の撮像制御（ＡＦやＡＥなど）を行う。又、辞書有効化手段によって辞書データが有効化されていない場合には、撮像装置１００は、ユーザーカスタム辞書データに基づく所定の撮像制御を行わないように制御される。

　図１５Ａ、図１５Ｂは、ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図であり、図１５Ａは、ユーザーカスタム辞書の有効化後の表示部２１６の撮影画像の例である。撮影画像１５０１は、撮像装置１００の静止画記録スイッチがＯＦＦな状態であり、ユーザーカスタム辞書に基づく被写体検出結果１５０２が枠として撮像装置の撮影画像に重畳されて表示されている。撮影画像１５０３では、撮像装置１００の静止画記録スイッチがＯＮになり、ユーザーカスタム辞書による被写体検出結果１５０４に基づき、オートフォーカスや露出制御などの撮像制御を行っている状態を示す。

　図１５Ｂは、ユーザーカスタム辞書の有効化前の表示部２１６の撮影画像の例である。撮影画像１５０５は、撮像装置１００の静止画記録スイッチがＯＦＦな状態であり、ユーザーカスタム辞書に基づく被写体検出結果１５０６が枠として撮像装置の撮影画像に重畳されて表示される。ここで、図１５Ａでは被写体検出結果１５０２は実線となっているのに対して、被写体検出結果１５０６は点線で表現している。これは、ユーザーカスタム辞書が未だ有効でない（無効）ことをユーザーが確認しやすいようにするためである。尚、実線と点線に限らず、枠の形状や色などを変えても良い。

　撮影画像１５０７では、撮像装置１００の静止画記録スイッチがＯＮになり、ユーザーカスタム辞書とは異なる被写体検出結果１５０８に基づき、オートフォーカスや露出制御などの撮像制御が行なわれている状態を示す。撮影画像１５０７では、ユーザーカスタム辞書とは異なる、「人物」の顔に関する辞書データが用いられて、被写体検出結果１５０８として、人物の顔に枠が重畳表示されている。

　上述した説明では、ユーザーカスタム辞書が１種類の場合を説明したが、１種類に限定されず複数種類設定できるようにしても良い。その場合、ユーザーカスタム辞書毎に課金によって有効／無効の処理が適用される。即ち、辞書有効化手段は、辞書生成手段によって生成された辞書データが複数ある場合に、課金により辞書データ毎の有効化を行う。

　また、上述した説明では、ユーザーカスタム辞書の有効／無効を課金対象とする例を示したが、予め各装置内やサーバーに登録された、サービス提供者により作成された既成の辞書データについても、課金により辞書を追加するサービスとして成立する。すなわち、各装置のメモリ内あるいはサーバー１１０に予め記憶させた既成の辞書データに対しても、辞書有効化手段による有効、無効の設定が可能となるようにしても良い。

　以上のように、実施例２の撮像システムによれば、取得した辞書データの被写体検出性能を撮像装置１００で確認したうえで、当該辞書データの購入判断が可能となる。また、当該辞書データの被写体検出性能が十分であるか否かを確認できるので、教師データを再度提供し、作成した辞書の被写体検出性能をさらに強化することが可能となる。

　＜実施例３＞
　本発明の実施例３に係る撮像システムに関して、以下に詳細に説明する。実施例１と同様な部分に関しては、説明を省略する。

　図１６は、実施例３に係る撮像システムの構成図であり、実施例３に係る撮像システムは、撮像装置１００、情報処理装置としてのサーバー１１０からなるシステムであり、撮像装置１００とサーバー１１０とが無線による通信ネットワークにより接続される。実施例１との違いは、情報処理端末としての携帯端末１２０が存在せず、撮像装置１００において、教師データとネットワーク構造の入力の役割を担う点にある。

　実施例１の撮像システムでは、ユーザーによる任意の辞書データが生成可能となる。ただし、ユーザーによる教師データの作成が必要であり、手間がかかる。この手間を解消するため、実施例３では教師データの作成をアシストするように構成されている。即ち、実施例３に係る撮像システムでは、撮像装置１００に教師データ生成手段としての教師データ生成部１０３を備え、その結果に基づきユーザーが教師データ入力部１２１で教師データの入力を行う。

　教師データ生成部１０３では、被写体検出部１０１（ニューラルネットワーク処理部２０５）での推論結果を利用する。被写体検出部１０１（ニューラルネットワーク処理部２０５）における処理は、撮影時の撮影制御向けの処理をする場合と、非撮影時の教師データ生成向けの処理をする場合とで処理内容が異なる。詳細は後述する。

　実施例１の撮像システムでは、ネットワーク構造指定部１２２は撮像装置とは異なる携帯端末１２０に備えられ、撮像装置の機種によって、ネットワーク構造の制約が異なるため、撮像装置の機種名をユーザーが指定するように構成されていた。一方、実施例３の撮像システムでは、ネットワーク構造指定部１２２は撮像装置１００に備えられており、ユーザーではなく撮像装置１００のＣＰＵ２０１がネットワーク構造を指定して、通信部２１８を介して、サーバー１１０へ通知するもとのとする。

　尚、図１６に示される機能ブロックの一部は、撮像装置１００に含まれるコンピュータとしてのＣＰＵ２０１に、記憶媒体としての不揮発性メモリメモリ２０３等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　図１７Ａ、図１７Ｂは、実施例３における撮像装置１００の処理を説明するためのフローチャートである。図１７Ａ、図１７Ｂを用いて、実施例３における撮像装置１００の撮影時の撮影制御向けと非撮影時の教師データ生成向けのニューラルネットワーク処理の差異に着眼して、処理の流れを説明する。図１７Ａは撮影時の処理の流れを示すフローチャート、図１７Ｂは非撮影時の処理の流れを示すフローチャートである。

　これらの動作は、撮像装置１００の電源がオンの状態において、不揮発性メモリ２０３に格納されているコンピュータプログラムがメモリ２０２に展開され、ＣＰＵ２０１がメモリ２０２のコンピュータプログラムを読み出して実行することにより実現される。後述の図１８のフローチャートについても同様である。

　図１７Ａの撮影時の処理では、ステップＳ１７０１ａにおいて、撮像手段から画像を取得する。当該画像を用いて、ステップＳ１７０２ａにおいて、被写体検出部１０１（ニューラルネットワーク処理部２０５）で被写体検出を行う。この検出結果に基づき、ステップＳ１７０３ａにおいて、撮像制御部１０２によって撮像制御を行う。オートフォーカスなどの撮像制御において被写体検出結果を用いるため、被写体検出部１０１（ニューラルネットワーク処理部２０５）での被写体検出は高速に処理する必要がある。

　高速処理を行うため、検出する被写体の種類は限定する。例えば、図８Ａ、図８Ｂを用いて説明したように、メニュー設定で検出する被写体を選択し、選択した被写体のみを検出する辞書データを利用する。検出する被写体を限定することで、被写体の特徴を表現するパラメータが少なくてよく、特徴抽出のため積和演算回数が少なくなるため、高速処理が可能になる。

　一方で、図１７Ｂの非撮影時の処理では、ステップＳ１７０１ｂにおいて、記録手段としての記録媒体２２０或いはサーバー等から画像を取得する。当該画像を用いて、ステップＳ１７０２ｂにおいて、被写体検出部１０１（ニューラルネットワーク処理部２０５）で被写体検出を行う。この検出結果に基づき、ステップＳ１７０３ｂにおいて、教師データの生成を行う。

　ステップＳ１７０３ｂにおいては、ユーザーによる任意の教師データの作成が目的であるため、被写体検出部１０１（ニューラルネットワーク処理部２０５）での被写体検出では多種の被写体を検出する必要がある。多種の被写体を検出するためには、被写体の特徴を表現するパラメータを多くする必要があり、特徴抽出のため積和演算回数が多くなる。そのため、低速に処理することになる。

　図１８は、図１７Ｂにおける教師データ入力の処理の流れを説明するフローチャートである。又、図１９Ａ、図１９Ｂは、図１８における教師データ入力画面の１例を示す図である。

　教師データの入力は、ユーザーが撮像装置１００の表示部２１６の画面１９００（図１９Ａ、図１９Ｂ）に表示された情報に基づき、操作部２０４を介して、入力することで行われる。

　ステップＳ１８０１において、ユーザーは、記録媒体２２０に記録されている撮影画像から教師データに利用したい画像を選択する。

　ステップＳ１８０２において、ユーザーは選択した画像が正事例であるか、負事例であるかを選択する。選択した画像に目的とする被写体が存在すれば、正事例を選択して、ステップＳ１８０３へ進む。一方で、選択した画像に目的とする被写体が存在しなければ、負事例を選択して処理を終了する。この場合、画像全体が負事例の領域として扱われる。例えば、検出したくない被写体を選択する際に利用される。

　ステップＳ１８０３において、選択した画像に対して、目的とする被写体の位置を指定する。例えば、操作部２０４がタッチパネルの場合、タッチすることで目的とする被写体の位置を指定できる。撮影時のフォーカス領域を目的とする被写体の位置の初期値としても良い。図１９Ａ、図１９Ｂの１９０１が選択した画像であり、１９０２に指定位置の例を示す。

　ステップＳ１８０４において、表示部２１６の画面１９００に教師データ候補を表示させ、目的とする被写体領域があるかを確認する。ニューラルネットワーク処理部２０５の被写体検出結果に基づき、指定位置に近い被写体領域を教師データ候補とする。図１９Ｂに教師データ候補の例を示す。被写体としては同じであるものの、領域が異なる３つの教師データ候補の例を示す。１９０２は全身を、１９０３は顔を、１９０４は瞳を教師データ候補としている。

　ステップＳ１８０４において、教師データ候補の中に目的する被写体領域があれば、ステップＳ１８０５へ進み、教師データ候補の１つを教師データの正領域とする。ステップＳ１８０４において、教師データ候補の中に目的とする被写体領域がなければ、ステップＳ１８０６へ進み、ユーザーが教師データとする被写体領域を入力する。

　以上のように、実施例３の撮像システムによれば、撮像装置１００自身を用いて教師データ生成ができると共に、教師データ生成のユーザーの負担を軽減できる。

　上述した実施例では、ユーザーカスタムの辞書データは１つの場合に関して説明した。しかしこれに限らず、複数の辞書データを作成し、複数の辞書データを撮像装置１００で受信可能な構成であってもよい。このとき、各辞書データを区別・区分する情報が必要となる。そこで、記録部５０６に記録され、撮像装置１００に送信される辞書データには、コンピュータプログラムや学習済み係数パラメータに加え、辞書を識別（表現）する情報がヘッダ情報として付与されるものとする。ヘッダ情報としては例えば辞書データの名称、検出する被写体の種類（分類）、辞書データの作成日、更新日、辞書データの作成者名、辞書データ生成に用いた教師データの枚数（正事例、負事例を区別してもしなくてもよい）、現在のバージョン情報などである。また、辞書データを識別するあるいは評価する上で有効な情報として学習に利用した教師データそのものを付与してもよい。もしくは教師データはサーバー１１０に記憶され、辞書データには、サーバー１１０内の該当する教師データのアドレスを記憶しておいてもよい。これらの情報によって、各辞書データが、どのような教師データを使用したかを確認することができる。辞書データに教師データを付帯させる場合、教師データ数が多いとデータ量が多くなってしまうので、付帯上限枚数を設定し、一部の教師データを付帯させるよう構成してもよい。付帯する教師データはユーザーが指定してもよいし、サーバー１１０のＣＰＵ５０１が評価値に基づいて選択してもよい。

　図２０に撮像装置１００での辞書データの確認画面の例を示す。図２０のメニュー２００１、２００３、２００７、２００９はＣＰＵ２０１が辞書データ内容の確認時に表示部２１６に表示させるメニュー画面の例を示している。メニュー２００１は、検出する被写体を、操作部２０４を介してユーザーが設定するメニュー画面であり、「カスタム」２００２を設定している。サーバー１１０より受信したカスタム用の辞書データが複数ある場合は、カスタム辞書データを選択するメニュー２００３へ遷移する。メニュー２００３では、カスタム辞書データとして、「魚」、「カブトムシ」、「マスコットＡ」が撮像装置１００に受信された状態を示す。「魚」、「カブトムシ」、「マスコットＡ」の辞書データの名称は、辞書データのヘッダ情報に記憶されている。この名称は、携帯端末１２０で、教師データの設定時に操作部６０５を介して、ユーザーが設定する。メニュー２００３では、辞書データとして「魚」２００５が選択されており、「魚」の辞書データを用いて被写体検出を行う。ここで、「ＩＮＦＯ」２００６が操作部２０４を介して選択されると、「魚」のヘッダ情報を表示したメニュー画面２００７へ遷移する。メニュー２００７では、「魚」辞書データのヘッダ情報として記憶されている、辞書データ作成日、辞書データ作成者、学習データ枚数、辞書のバージョンを表示している例を示す。辞書データ作成日はサーバー１００で辞書データ生成を行った日付を辞書データのヘッダ情報に記憶しておく。辞書データ作成者は、携帯端末１２０での所有者情報から辞書データのヘッダ情報へ記憶する。教師データ枚数は、教師データの設定時の画像枚数に基づき、辞書データに記憶しておく。これらのヘッダ領域に記憶されているヘッダ情報は、教師データの設定（受信）時にユーザーが直接数値、名称を入力してもよい。

　また辞書データは一度生成した後であっても更新が可能である構成としてもよい。たとえば、現在の学習済み係数パラメータを初期値として、新たに教師データを追加して、再学習することができる。メニュー２００７のバージョンはその更新情報を示し、再学習の度に、サーバーが割り当てるものとする。これらのヘッダ情報によって、辞書データの概要は把握できるものの、どのような被写体を検出しやすいかなどの詳細を把握しにくい。被写体検出の特性を把握するためには、教師データそのものを確認するのが最適である。そこで、「ＩＮＦＯ」２００８を、操作部２０４を介して選択すると、「魚」辞書データの教師データを示すメニュー２００９へ遷移する。辞書データに、サーバー１００に記憶されている教師データのアドレスが記憶されており、本実施形態では通信部２１８を介してＣＰＵ２０１が表示部２１６に表示させる。このとき正事例および負事例のいずれであるか、また該当する被写体領域を示す枠情報、またこれに限らず、上述した通り少なくとも一部の教師データは辞書データに付帯して受信・記録されていてもよい。この場合、ＣＰＵ２０１は記録媒体２２０あるいはメモリ２０２に辞書データとともに記録された、該辞書データに対応する教師データを表示部２１６に表示させる。

　以上によって、複数のカスタム辞書データがある場合でも、辞書データの違いを確認することができる。上述では、撮像装置１００で辞書データの情報を確認する内容に関して説明したが、携帯端末１２０でも確認できる構成であってもよい。この場合、辞書データのヘッダ情報としては、教師データ入力時に設定したネットワーク構造の制約を示す撮像装置種類が辞書データに追加で記憶されており、表示部６０４で表示するものとする。

　また本実施形態では辞書データ生成のための教師データの生成、供給が携帯端末１２０で辞書データ受信、被写体検出処理に利用する装置が撮像装置１００と別個の装置である実施例を示したが、これに限らず、両装置が同一の装置で構成されていてもよい。

　＜他の実施例＞
　以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。

　本発明が適用され得る対象は、上述の実施例で説明した撮像装置１００、サーバー１１０、携帯端末１２０等に限定されるものではない。例えば、撮像装置１００を複数の装置から構成されるシステムとした場合であっても上述の実施例と同様の機能を実現することが可能である。更に、撮像装置１００の処理の一部をネットワーク上の外部装置により実施して実現することが可能である。

　尚、本実施例における制御の一部又は全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して撮像システム等に供給するようにしてもよい。そしてその撮像システム等におけるコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　本願は、２０２２年１月２８日提出の日本国特許出願特願２０２２－０１２０５４を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、
　前記被写体検出のための教師データを入力する教師データ入力手段と、
　前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定手段と、
　前記教師データと前記ネットワーク構造に関する情報に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、
　前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、
　前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像システム。
　前記撮像装置は、前記辞書データを受信する通信部を備えると共に、前記通信部によって受信された前記辞書データに基づき前記被写体検出をすることを特徴とする請求項１に記載の撮像システム。
　前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも１つに関する情報を含むことを特徴とする請求項１又は２に記載の撮像システム。
　前記ヘッダ情報には、前記辞書データについての作成日、作成者、更新日、バージョンのうち少なくとも１つに関する情報を含むことを特徴とする請求項１～３のいずれか１項に記載の撮像システム。
　前記ヘッダ情報の少なくとも一部を表示部に表示する表示手段を有することを特徴とする請求項４に記載の撮像システム。
　前記教師データは、画像データおよび該画像データに含まれる正事例あるいは負事例としての被写体領域の情報を含むことを特徴とする請求項１～４のいずれか１項に記載の撮像システム。
　前記教師データを表示部に表示する表示手段を有することを特徴とする請求項６に記載の撮像システム。
　前記辞書生成手段は、前記撮像装置とは異なる情報処理サーバーに設けられていることを特徴とする請求項１～７のいずれか１項に記載の撮像システム。
　前記情報処理サーバーは、
　前記被写体検出のための前記教師データを取得する教師データ取得手段と、
　前記ネットワーク構造に関する情報を取得するネットワーク構造取得手段と、
　前記辞書生成手段と、
　前記辞書生成手段により生成した前記辞書データを前記撮像装置へ送信する辞書データ送信手段を有することを特徴とする請求項８に記載の撮像システム。
　前記辞書生成手段は、予め用意した複数の前記辞書データから前記教師データの被写体に適した辞書を選定することを特徴とする請求項１～９のいずれか１項に記載の撮像システム。
　前記辞書生成手段は、前記教師データに基づき学習をすることによって前記辞書データを生成することを特徴とする請求項１～１０のいずれか１項に記載の撮像システム。
　前記教師データ入力手段と、前記ネットワーク構造指定手段は、前記撮像装置とは異なる情報処理端末に設けられていることを特徴とする請求項１～１１のいずれか１項に記載の撮像システム。
　前記教師データは、画像データと、目的とする被写体が存在する前記画像データの領域情報を含むことを特徴とする請求項１～１２のいずれか１項に記載の撮像システム。
　前記ネットワーク構造指定手段は、前記撮像装置の機種を指定することにより前記ネットワーク構造を指定することを特徴とする請求項１～１３のいずれか１項に記載の撮像システム。
　前記辞書生成手段によって生成された前記辞書データを有効化する辞書有効化手段を備え、
　前記辞書有効化手段によって前記辞書データが有効化されている場合、前記撮像装置は、前記被写体検出により検出された被写体に対して前記所定の撮像制御を行い、
　前記辞書有効化手段によって前記辞書データが有効化されていない場合、前記撮像装置は、前記所定の撮像制御を行わないことを特徴とする請求項１～１４のいずれか１項に記載の撮像システム。
　前記被写体検出の結果を枠として、前記撮像装置からの画像に重畳させて表示する表示手段を有することを特徴とする請求項１～１５のいずれか１項に記載の撮像システム。
　前記辞書有効化手段は、課金により前記辞書データを有効化することを特徴とする請求項１５又は１６に記載の撮像システム。
　前記辞書有効化手段は、前記辞書生成手段によって生成された前記辞書データが複数ある場合に、課金により前記辞書データ毎の有効化をすることを特徴とする請求項１～１７のいずれか１項に記載の撮像システム。
　前記撮像装置は、前記教師データを生成する教師データ生成手段を備えることを特徴とする請求項１～１８のいずれか１項に記載の撮像システム。
　ニューラルネットワークに基づき被写体検出を行う撮像装置であって、
　前記被写体検出のための教師データを入力する教師データ入力手段と、
　前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定手段と、
　前記教師データと前記ネットワーク構造に関する情報を情報処理サーバーに送信する通信部と、
　前記情報処理サーバーにおいて、前記教師データと前記ネットワーク構造に関する情報に基づき生成された前記被写体検出のための辞書データを、前記通信部を介して前記情報処理サーバーから取得し、前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像制御手段と、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像装置。
　前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも１つに関する情報を含むことを特徴とする請求項２０記載の撮像装置。
　前記被写体検出の結果を枠として、画像に重畳させて表示する表示手段を有することを特徴とする請求項２０又は２１に記載の撮像装置。
　前記ヘッダ情報には、前記辞書データについての作成日、作成者、更新日、バージョンのうち少なくとも１つに関する情報を含むことを特徴とする請求項２０～２２のいずれか１項に記載の撮像装置。
　被写体検出のための教師データを取得する教師データ取得手段と、
　撮像装置のネットワーク構造に関する情報を取得するネットワーク構造取得手段と、
　前記教師データと前記ネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する辞書生成手段と、
　前記辞書生成手段により生成した前記辞書データを前記撮像装置へ送信する辞書データ送信手段と、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする情報処理サーバー。
　前記辞書生成手段は、予め用意した複数の前記辞書データから前記教師データの被写体に適した辞書を選定することを特徴とする請求項２４に記載の情報処理サーバー。
　前記辞書生成手段は、前記教師データに基づき学習をすることによって前記辞書データを生成することを特徴とする請求項２４に記載の情報処理サーバー。
　前記教師データと、前記ネットワーク構造に関する情報は、前記撮像装置又は、前記撮像装置とは異なる情報処理端末から取得することを特徴とする請求項２４～２６のいずれか１項に記載の情報処理サーバー。
　前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様、前記撮像装置の機種の少なくとも１つに関する情報を含むことを特徴とする請求項２４～２７のいずれか１項に記載の情報処理サーバー。
　ニューラルネットワークに基づき被写体検出を行う撮像方法において、
　前記被写体検出のための教師データを入力する教師データ入力ステップと、
　前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定ステップと、
　前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成ステップと、
　前記辞書生成ステップによって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップと、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像方法。
　ニューラルネットワークに基づき被写体検出を行う撮像方法であって、
　前記被写体検出のための教師データを入力する教師データ入力ステップと、
　前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定ステップと、
　前記教師データと前記ネットワーク構造に関する情報を情報処理サーバーに送信する通信ステップと、
　前記情報処理サーバーにおいて、前記教師データと前記ネットワーク構造に関する情報に基づき生成された前記被写体検出のための辞書データを、前記情報処理サーバーから取得し、前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像制御ステップと、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像方法。
　被写体検出のための教師データを取得する教師データ取得ステップと、
　撮像装置のネットワーク構造に関する情報を取得するネットワーク構造取得ステップと、
　前記教師データと前記ネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する辞書生成ステップと、
　前記辞書生成ステップにより生成した前記辞書データを撮像装置へ送信する辞書データ送信ステップと、を有し、
　前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする情報処理方法。
　請求項１～１９のいずれか１項に記載の撮像システム、又は請求項２０～２３のいずれか１項に記載の撮像装置、又は請求項２４～２８のいずれか１項に記載の情報処理サーバーの各手段をコンピュータにより制御するためのコンピュータプログラム。