WO2023210334A1

WO2023210334A1 - 画像処理装置、撮像装置及びそれらの制御方法

Info

Publication number: WO2023210334A1
Application number: PCT/JP2023/014607
Authority: WO
Inventors: 綾菜木下
Original assignee: キヤノン株式会社
Priority date: 2022-04-28
Filing date: 2023-04-10
Publication date: 2023-11-02
Also published as: JP2023163443A

Abstract

画像処理装置において、第１の対象に対する正事例の画像データを含む第１の教師データを取得する第１の取得手段と、前記第１の対象に対する負事例の画像データを含む第２の教師データを取得する第２の取得手段と、前記第１の取得手段と前記第２の取得手段によって取得された教師データに基づいて前記第１の対象を検出するための第１の辞書データを生成する生成手段と、を有し、前記学習手段は、第２の辞書データに追加学習を行い、前記第１の辞書データを生成し、前記第１の取得手段で取得した前記第１の教師データの数は、前記第２の取得手段で取得した前記第２の教師データの数よりも少ないことを特徴とする。

Description

画像処理装置、撮像装置及びそれらの制御方法

　本発明は、機械学習を用いた、特定の被写体を検出する学習済モデルに係る画像処理装置、撮像装置及びそれらの制御方法に関する。

　被写体検出はコンピュータビジョン研究の分野の１つであり、これまで広く研究されている。コンピュータビジョンはコンピュータに入力された画像を理解し、その画像の様々な特性を自動的に認識する技術である。その中で被写体検出は、画像内に存在する被写体の位置と種類を推定するタスクである。被写体検出は撮像装置のオートフォーカス技術等に応用されている。

　近年では、ニューラルネットワーク等に代表される機械学習手法により被写体を検出する画像処理装置が知られている。このような画像処理装置は、特定の被写体に対応した学習済みモデル（辞書データ）を利用して、特定の被写体を検出し撮像制御を行う。特定被写体の種類は、人物、犬や猫などの動物、自動車などの乗物が代表的であり、撮像装置のオートフォーカス（ＡＦ）機能としてニーズの高い被写体である。

　特開２０２１－５７６７２号公報では、ユーザーから画像を収集し、追加学習によってユーザーにとって好適なＡＦポイントを検出する画像処理装置が開示されている。しかし、画像を自動でカテゴリ化し学習を行うため、ユーザーが検出を所望する任意の新たな被写体を検出することは難しい。

特開２０２１－５７６７２号公報

　また、ユーザーが検出を所望する任意の新たな被写体を検出できる辞書データを生成するためには、ユーザーに当該被写体の教師データを提供してもらう必要がある。しかし、ユーザーの用意できるデータ（正事例の教師データ）が少数である場合もあり、十分な検出性能の辞書データが得られないという問題があった。

　本発明の目的は、少数の正事例データから、一定以上の検出性能を持った辞書データを生成または利用することを可能にした画像処理装置を提供することである。

　上記目的を達成するために、本発明の画像処理装は、第１の対象に対する正事例の画像データを含む第１の教師データを取得する第１の取得手段と、前記第１の対象に対する負事例の画像データを含む第２の教師データを取得する第２の取得手段と、前記第１の取得手段と前記第２の取得手段によって取得された教師データに基づいて前記第１の対象を検出するための第１の辞書データを生成する生成手段と、を有し、前記学習手段は、第２の辞書データに追加学習を行い、前記第１の辞書データを生成し、前記第１の取得手段で取得した前記第１の教師データの数は、前記第２の取得手段で取得した前記第２の教師データの数よりも少ないことを特徴とする。

　本発明によれば、少数の正事例データから、一定以上の検出性能を持った辞書データを生成または利用することができる。

本発明の第１の実施形態に係る画像処理システムの構成図である。第１の実施形態の撮像装置１００の構成例を示すブロック図である。第１の実施形態に係るニューラルネットワーク処理部２０５の概略構成を示すブロック図である。サーバー１１０のハードウェア構成例を示すブロック図である。携帯端末１２０のハードウェア構成例を示すブロック図である。第１の実施形態に係る撮像装置の処理を示すフローチャートである。辞書データに基づく被写体検出の例を説明するための図である。辞書データに基づく被写体検出の例を説明するための図である。第１の実施形態に係るサーバーの処理を示すフローチャートである。第１の実施形態に係る辞書データ生成の処理の流れを説明するためのフローチャートである。第１の実施形態に係る携帯端末１２０で実行される処理の流れの例を示すフローチャートである。第１の実施形態に係る携帯端末の表示部５０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。第１の実施形態に係る携帯端末の表示部５０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。第１の実施形態に係る携帯端末の表示部５０４の教師データ及びネットワーク構造の入力画面例を説明するための図である。

　以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。

　又、本実施形態においては、画像処理装置として情報処理サーバーに適用した例について説明する。しかし、画像処理装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、車載カメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。

　＜第１の実施形態＞
　以下、第１の実施形態に係る画像処理システムに関して、詳細に説明する。

　図１は、第１の実施形態に係る画像処理システムの構成図であり、画像処理システムは、撮像装置１００、情報処理サーバーとしてのサーバー１１０、情報処理端末としての携帯端末１２０等からなる。撮像装置１００とサーバー１１０は例えば無線による通信ネットワークにより接続される。又、サーバー１１０と携帯端末１２０は例えば無線による通信ネットワークにより接続される。

　尚、図１に示されるサーバー１１０、携帯端末１２０内の機能ブロックは夫々サーバー１１０、携帯端末１２０に含まれるコンピュータに、記憶媒体としてのメモリに記憶されたコンピュータプログラムを実行させることによって夫々実現されている。

　第１の実施形態に係る画像処理システムは、ニューラルネットワークに基づく被写体検出を行うと共に、ユーザーによる任意の被写体を検出可能とする。被写体検出の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク（以下、ＣＮＮと略記する）と呼ばれる手法がある。ＣＮＮでは、画像信号と処理パラメータである辞書データに基づき推論処理が実行され、辞書データは予め教師データに基づき学習処理によって生成しておく。

　第１の実施形態の画像処理システムでは、携帯端末１２０は、被写体検出のための教師データを入力する教師データ入力手段としての教師データ入力部１２１を有している。又、教師データ入力部１２１は被写体検出のための教師データを入力する教師データ入力ステップを実行する。

　又、教師データ入力部１２１では、教師データとして、画像データと、目的とする被写体が存在する前記画像データの被写体領域情報とをセットとし、複数セットの教師データを入力可能であって、その複数セットをサーバー１１０へ送信可能である。

　サーバー１１０では、第１の取得手段としての入力データ取得部１１１で携帯端末１２０から送信された正事例教師データおよび負事例教師データを取得し、第２の取得手段としてのサーバー内データ取得部１１２であらかじめサーバー１１０内に用意された負事例データ群１１３から所定の数の負事例教師データを取得する。このとき、教師データ入力部１２１でユーザーが入力するデータ数は正事例データおよび負事例データを含めて１００以下とする。ここでユーザーの意図する被写体を検出できるようにするためにより好ましくは５以上の正事例教師データがユーザーから入力されることが望ましい。しかし、ユーザーが入力する１００以下のデータのみで学習を行っても十分な性能を達成できない。

　そこで、サーバー内データ取得部１１２で１０１以上の教師データを取得し、学習に用いる。ここで例えばサーバー内データ取得部１１２は１００００以上の負事例教師データを用いることで、ユーザーからの正事例教師データが少なくともそれをカバーした被写体検出率をあげる学習を行うことができる。これにより、ユーザー側のデータ入力作業の負荷を軽減しつつ、十分な学習を行うことができる。

　取得したデータに基づき、あらかじめ学習済みのベース辞書データに追加学習を行う形で学習部１１４においてカスタム辞書データを生成する。生成されたカスタム辞書データは判定部１１５によってさらに負事例教師データを取得するか判定された後、撮像装置１００へ送信される。第１の実施形態では、学習部１１４は、撮像装置とは異なる情報処理サーバーとしてのサーバー１１０に設けられている。

　撮像装置１００では、サーバー１１０から送信された辞書データを受信し、受信した辞書データに基づき被写体検出部１０１でニューラルネットワークに基づく推論処理を行う。次いで、推論結果に基づき、撮像制御部１０２においてオートフォーカスなどの撮像制御を実行する。即ち、撮像装置１００は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御（オートフォーカスや露出制御等）を行う。

　図２は第１の実施形態の撮像装置１００の構成例を示すブロック図である。図２に示すように、撮像装置１００は、ＣＰＵ２０１と、メモリ２０２と、不揮発性メモリ２０３と、操作部２０４と、ニューラルネットワーク処理部２０５と、撮像部２１２と、画像処理部２１３と、符号化処理部２１４とを有している。更に、撮像装置１００は、表示制御部２１５と、表示部２１６と、通信制御部２１７と、通信部２１８と、記録媒体制御部２１９と、内部バス２３０とを有している。

　又、撮像装置１００は、撮影レンズ２１１を用いて被写体の光学像を撮像部２１２の画素アレイに結像するが、撮影レンズ２１１は、撮像装置１００のボディ（筐体、本体）から、着脱不能であってもよいし、着脱可能であってもよい。又、撮像装置１００は、記録媒体制御部２１９を介して画像データの書き込み及び読み出しを記録媒体２２０に対して行うが、記録媒体２２０は、撮像装置１００に着脱可能であってもよいし、着脱不能であってもよい。

　ＣＰＵ２０１は、不揮発性メモリ２０３に記憶されているコンピュータプログラムを実行することによって、内部バス２３０を介して撮像装置１００の各部（各機能ブロック）の動作を制御する。

　メモリ２０２は、書き換え可能な揮発性メモリである。メモリ２０２は、撮像装置１００の各部の動作を制御するためのコンピュータプログラム、撮像装置１００の各部の動作に関するパラメータ等の情報、通信制御部２１７によって受信される情報等を一時的に記録する。又、メモリ２０２は、撮像部２１２によって取得された画像、画像処理部２１３、符号化処理部２１４等によって処理された画像及び情報を一時的に記録する。メモリ２０２は、これらを一時的に記録するために十分な記憶容量を備えている。

　不揮発性メモリ２０３は、電気的に消去及び記録が可能なメモリであり、例えばＥＥＰＲＯＭ、ハードディスク等が用いられる。不揮発性メモリ２０３は、撮像装置１００の各部の動作を制御するコンピュータプログラム及び撮像装置１００の各部の動作に関するパラメータ等の情報を記憶する。かかるコンピュータプログラムにより、撮像装置１００によって行われる各種動作が実現される。更に、不揮発性メモリ２０３は、ニューラルネットワーク処理部２０５で使用する、ニューラルネットワークの処理内容を記述したコンピュータプログラムと、重み係数やバイアス値等の学習済み係数パラメータを格納する。

　尚、重み係数とはニューラルネットワークにおいてノード間の接続の強さを示すための値であり、バイアスは重み係数と入力データの積算値に対してオフセットを与えるための値である。不揮発性メモリ２０３は、学習済み係数パラメータと、ニューラルネットワークの処理を記述したコンピュータプログラムとを夫々複数保持することが可能である。

　尚、メモリ２０３ではなくメモリ２０２に、上述したニューラルネットワーク処理部２０５で使用する、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータを、夫々一時的に複数格納するようにしてもよい。尚、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータが、被写体検出の辞書データに相当する。

　操作部２０４は、撮像装置１００を操作するためのユーザインタフェースを提供する。操作部２０４は、電源ボタン、メニューボタン、撮影用のレリーズボタン、動画録画ボタン、キャンセルボタン等の各種ボタンを含んでおり、各種ボタンはスイッチ、タッチパネル等により構成される。ＣＰＵ２０１は、操作部２０４を介して入力されたユーザーの指示に従って撮像装置１００を制御する。

　尚、ここでは、操作部２０４を介して入力される操作に基づいてＣＰＵ２０１が撮像装置１００を制御する場合を例に説明したが、これに限定されるものではない。例えば、不図示のリモートコントローラ、携帯端末１２０から通信部２１８を介して入力される要求に基づいて、ＣＰＵ２０１が撮像装置１００を制御してもよい。

　ニューラルネットワーク処理部２０５では、辞書データに基づく被写体検出部１０１の推論処理を行う。詳細は、図３を用いて後述する。

　撮影レンズ（レンズユニット）２１１は、ズームレンズ、フォーカスレンズ等を含むレンズ群、不図示のレンズ制御部、不図示の絞り等によって構成される。撮影レンズ２１１は、画角を変更するズーム手段として機能し得る。撮影レンズ２１１のレンズ制御部は、ＣＰＵ２０１から送信される制御信号により、焦点の調整及び絞り値（Ｆ値）の制御を行う。

　撮像部２１２は、動画像を含む複数の画像を順次取得する取得手段として機能し得る。撮像部２１２としては、例えばＣＣＤ（電荷結合素子）イメージセンサ、ＣＭＯＳ（相補型金属酸化膜半導体）イメージセンサ等が用いられる。撮像部２１２は、被写体の光学像を電気信号に変換する光電変換部（画素）が行列状、即ち、２次元的に配列された不図示の画素アレイを有している。当該画素アレイには、被写体の光学像が撮影レンズ２１１によって結像される。撮像部２１２は、撮像した画像を画像処理部２１３やメモリ２０２に出力する。尚、撮像部２１２は、静止画像を取得することも可能である。

　画像処理部２１３は、撮像部２１２から出力される画像データ、又は、メモリ２０２から読み出された画像データに対し、所定の画像処理を行う。当該画像処理の例としては、ダイナミックレンジ変換処理、補間処理、縮小処理（リサイズ処理）、色変換処理等が挙げられる。又、画像処理部２１３は、撮像部２１２によって取得された画像データを用いて、露光制御、測距制御等のための所定の演算処理を行う。

　そして画像処理部２１３による演算処理によって得られた演算結果に基づいて、露光制御、測距制御等がＣＰＵ２０１によって行われる。具体的には、ＡＥ（Ａｕｔｏ　Ｅｘｐｏｓｕｒｅ）処理、ＡＷＢ（Ａｕｔｏ　Ｗｈｉｔｅ　Ｂａｌａｎｃｅ）処理、ＡＦ（Ａｕｔｏ　Ｆｏｃｕｓ）処理等がＣＰＵ２０１によって行われる。これら撮影制御は、ニューラルネットワーク処理部２０５による被写体検出結果を参照して行われる。

　符号化処理部２１４は、画像処理部２１３からの画像データに対してフレーム内予測符号化（画面内予測符号化）、フレーム間予測符号化（画面間予測符号化）等を行うことによって、画像データのサイズを圧縮する。

　表示制御部２１５は、表示部２１６を制御する。表示部２１６は、不図示の表示画面を備える。表示制御部２１５は、表示部２１６の表示画面に表示可能な画像を生成し、当該画像、即ち、画像信号を表示部２１６に出力する。又、表示制御部２１５は表示部２１６に画像データを出力するだけでなく、通信制御部２１７を介して外部機器に画像データを出力することも可能である。表示部２１６は、表示制御部２１５から送られてくる画像信号に基づいて、表示画面に画像を表示する。

　表示部２１６は、表示画面にメニュー等の設定画面を表示する機能であるＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）機能を備えている。表示制御部２１５は、画像信号にＯＳＤ画像を重畳して表示部２１６に画像信号を出力し得る。ニューラルネットワーク処理部２０５による被写体検出結果に基づき被写体枠を生成して、画像信号に重畳して表示することもできる。表示部２１６は、液晶ディスプレイ、有機ＥＬディスプレイ等により構成されており、表示制御部２１５から送られてきた画像信号を表示する。表示部２１６は、例えばタッチパネルを含んでもよい。表示部２１６がタッチパネルを含む場合、表示部２１６は、操作部２０４としても機能し得る。

　通信制御部２１７は、ＣＰＵ２０１に制御される。通信制御部２１７は、ＩＥＥＥ８０２．１１等のような無線通信規格に適合する変調信号を生成して、当該変調信号を通信部２１８に出力すると共に、外部の機器からの変調信号を、通信部２１８を介して受信する。又、通信制御部２１７は映像信号の制御信号を送受信することが可能である。例えば、通信部２１８を制御して、ＨＤＭＩ（登録商標）（Ｈｉｇｈ　Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）やＳＤＩ（Ｓｅｒｉａｌ　Ｄｉｇｉｔａｌ　Ｉｎｔｅｒｆａｃｅ）などの通信規格に準拠した映像信号を送るようにしてもよい。

　通信部２１８は映像信号と制御信号を物理的な電気信号に変換して外部機器と送受信する。尚、通信部２１８によって映像信号や制御信号の送受信を行うだけでなく、ニューラルネットワーク処理部２０５における被写体検出のための辞書データの受信等も行う。

　記録媒体制御部２１９は、記録媒体２２０を制御する。記録媒体制御部２１９は、ＣＰＵ２０１からの要求に基づいて、記録媒体２２０を制御するための制御信号を記録媒体２２０に出力する。記録媒体２２０としては、例えば不揮発性メモリや磁気ディスク等が用いられる。記録媒体２２０は、上述したように、着脱可能であってもよいし、着脱不能であってもよい。記録媒体２２０は、符号化された画像データ等を、記録媒体２２０のファイルシステムに適合した形式でファイルとして保存する。

　各々の機能ブロック２０１～２０５、２１２～２１５、２１７、２１９は、内部バス２３０を介して互いにアクセス可能となっている。

　尚、図２に示される機能ブロックの一部は、撮像装置１００に含まれるコンピュータとしてのＣＰＵ２０１に、記憶媒体としての不揮発性メモリ２０３等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　図３に示すように、ニューラルネットワーク処理部２０５はニューラルコア３００の中に、ＣＰＵ３０１、積和演算回路３０２、ＤＭＡ（Ｄｙｎａｍｉｃ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）３０３、内部メモリ３０４等が含まれる。

　ＣＰＵ３０１は、ニューラルネットワークの処理内容を記述したコンピュータプログラムを、内部バス２３０を介してメモリ２０２又は不揮発性メモリ２０３から、或いは内部メモリ３０４から取得し、これを実行する。またＣＰＵ３０１は積和演算回路３０２及びＤＭＡ３０３の制御も行う。

　積和演算回路３０２は、ニューラルネットワークにおける積和演算を行う回路である。積和演算回路３０２は、積和演算部を複数有し、これらは並列に積和演算の実行をすることが可能である。又、積和演算回路３０２は、複数の積和演算部により並列に実行される積和演算の際に算出される中間データを、ＤＭＡ３０３を介して内部メモリ３０４に出力する。

　ＤＭＡ３０３は、ＣＰＵ３０１を介さずにデータ転送に特化した回路であり、内部バス２３０を介してメモリ２０２又は不揮発性メモリ２０３と内部メモリ３０４との間のデータ転送を行う。又、ＤＭＡ３０３は積和演算回路３０２と内部メモリ３０４と間のデータ転送も行う。ＤＭＡ３０３が転送するデータとしては、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路３０２で算出した中間データ等である。

　内部メモリ３０４は、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路３０２で算出した中間データ等を格納する。又、内部メモリ３０４は複数のバンクを有してもよく、動的にバンクを切り替えてもよい。

　図４は、サーバー１１０のハードウェア構成例を示すブロック図である。

　図４に示す様に、サーバー１１０は、ＣＰＵ４０１と、メモリ４０２と、表示部４０３と、操作部４０５と、記録部４０６と、通信部４０７と、ニューラルネットワーク処理部４０８とを有している。

　尚、図４に示される機能ブロックの一部は、サーバー１１０に含まれるコンピュータとしてのＣＰＵ４０１に、記憶媒体としての記録部４０６等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　ＣＰＵ４０１は、記録部４０６に記憶されているコンピュータプログラムを実行することによって、サーバー１１０を構成するすべての処理ブロックの制御を行う。

　メモリ４０２は、主にＣＰＵ４０１のワークエリアや、データの一時バッファ領域として使用されるメモリである。

　表示部４０３は、液晶パネル、又は有機ＥＬパネル等で構成され、ＣＰＵ４０１の指示に基づいて、操作画面等の表示を行う。

　内部バス４０４は、サーバー１１０内の各処理ブロックを相互に接続するためのバスである。

　操作部４０５は、キーボード、マウス、ボタン、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部４０５から入力された操作情報は、ＣＰＵ４０１に送信され、ＣＰＵ４０１は操作情報に基づいて各処理ブロックの制御を実行する。

　記録部４０６は記録媒体によって構成され、ＣＰＵ４０１の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えばＥＥＰＲＯＭ、内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。記録部４０６には、コンピュータプログラムの他に、ニューラルネットワーク処理部４０８における学習用データである入力データと教師データや辞書データなどを保存しておく。

　通信部４０７は、無線ＬＡＮ及び有線ＬＡＮの通信を行うためのハードウェア等を備えている。無線ＬＡＮにおいては、例えばＩＥＥＥ８０２．１１ｎ／ａ／ｇ／ｂ方式の処理を行う。通信部４０７は、外部のアクセスポイントと無線ＬＡＮで接続し、アクセスポイント経由で他の無線通信機器と無線ＬＡＮ通信を行う。又、通信部４０７は有線ＬＡＮにおいてＥｔｈｅｒｎｅｔケーブル等により外部ルータ、又はスイッチングハブを介して通信を行う。通信部４０７は、撮像装置１００を含む、外部の機器と通信を行い、教師データ、辞書データなどの情報のやり取りを行う。

　ニューラルネットワーク処理部４０８は、通信部４０７を介して得られた教師データより、ニューラルネットワークの学習処理を行う。ニューラルネットワーク処理部４０８は、図１の学習部１１４に相当し、教師データを用いて異なるクラスの被写体の夫々に対応する辞書データを構築するための学習処理を行う。

　ニューラルネットワーク処理部４０８はＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）や、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等で構成される。又、ニューラルネットワーク処理部４０８により行われた学習処理の結果である、辞書データは記録部４０６に保持される。

　図５は、携帯端末１２０のハードウェア構成例を示すブロック図である。

　図５に示す様に、携帯端末１２０は、ＣＰＵ５０１と、メモリ５０２と、撮像部５０３と、表示部５０４と、操作部５０５と、記録部５０６と、通信部５０７と、内部バス５０８とを有している。図５に示される機能ブロックの一部は、携帯端末１２０に含まれるコンピュータとしてのＣＰＵ５０１に、記憶媒体としての記録部５０６等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路（ＡＳＩＣ）やプロセッサ（リコンフィギュラブルプロセッサ、ＤＳＰ）などを用いることができる。

　ＣＰＵ５０１は、記録部５０６に記憶されているコンピュータプログラムを実行することによって、携帯端末１２０を構成するすべての処理ブロックの制御を行う。

　メモリ５０２は、主にＣＰＵ５０１のワークエリアや、データの一時バッファ領域として使用されるメモリである。ＯＳ（Ｏｐｅｒａｔｉｏｎ　Ｓｙｓｔｅｍ）やアプリケーションソフト等のプログラムは、メモリ５０２上に展開され、ＣＰＵ５０１により実行される。

　撮像部５０３は、光学レンズ、ＣＭＯＳセンサ、デジタル画像処理部等を備え、光学レンズを介して入力される光学像を撮像し、デジタルデータに変換することにより撮像画像データを取得する。撮像部５０３によって取得された撮影画像データは、メモリ５０２に一時的に格納され、ＣＰＵ５０１の制御に基づいて処理される。例えば、記録部５０６による記録媒体への記録や、通信部５０７による外部機器への送信などが行われる。また撮像部５０３は、レンズ制御部も備えており、ＣＰＵ５０１からの指令に基づいて、ズーム、フォーカス、絞り調整等の制御を行う。

　表示部５０４は、液晶パネル、又は有機ＥＬパネル等で構成され、ＣＰＵ５０１の指示に基づいて、表示を行う。撮影画像から教師データの画像を選択すると共に、ネットワーク構造を指定するために、操作画面や、撮影画像等の表示を行う。

　操作部５０５は、キーボード、マウス、ボタン、十字キー、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部５０５から入力された操作情報は、ＣＰＵ５０１に送信され、ＣＰＵ５０１は操作情報に基づいて各処理ブロックの制御を実行する。

　記録部５０６は、大容量の記録媒体によって構成され、ＣＰＵ５０１の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えば内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。

　通信部５０７は、アンテナ、無線ＬＡＮ、有線ＬＡＮ等の通信を行うための処理ハードウェア等を備え、例えばＩＥＥＥ８０２．１１ｎ／ａ／ｇ／ｂ方式の無線ＬＡＮ通信を行う。通信部５０７は、外部のアクセスポイントと無線ＬＡＮで接続し、アクセスポイント経由で他の無線通信機器と無線ＬＡＮ通信を行う。通信部５０７によって、ユーザーから操作部５０５を介して入力された教師データや、ネットワーク構造をサーバー１１０へ送信する。

　内部バス５０８は、携帯端末ＳＰ内の各処理ブロックを相互に接続するためのバスである。

　図６は、第１の実施形態に係る撮像装置の処理を示すフローチャートであり、図６を用いて、第１の実施形態において撮像装置１００で実行される辞書データを受信し、被写体検出を行って撮像制御する処理の流れについて説明する。この動作は、撮像装置１００の電源がオンの状態において、不揮発性メモリ２０３に格納されているコンピュータプログラムがメモリ２０２に展開され、ＣＰＵ２０１がメモリ２０２のコンピュータプログラムを読み出して実行することにより実現される。

　ステップＳ６０１において、撮像装置１００は、サーバー１１０から未だ受信していない辞書データがないかを、通信部２１８を介してサーバー１１０に確認する。サーバー１１０から受信していない辞書データがサーバー１１０にあれば（ステップＳ６０１でＹＥＳと判定）、ステップＳ６０２において、通信部２１８を介してサーバー１１０から辞書データを取得し、不揮発性メモリ２０３へ記憶する。サーバー１１０から受信していない辞書データがなければ（ステップＳ６０１でＮＯと判定）、ステップＳ６０３へ進む。

　ステップＳ６０３では、不揮発性メモリ２０３に記録されている辞書データを用いて、ニューラルネットワーク処理部２０５で被写体検出を行う。辞書データは、不揮発性メモリ２０３から、メモリ２０２又は、ニューラルネットワーク処理部２０５の内部メモリ３０４へコピーして、被写体検出で使用するようにしてもよい。又、ステップＳ６０３における被写体検出は、撮像部２１２によって取得された画像データを入力データとして行われる。

　ステップＳ６０４では、被写体検出結果に基づき撮像部２１２でオートフォーカスなどの撮像制御を行う。即ち、検出された被写体にピントを合わせると共に、適正露出となるようにオートフォーカスや露出制御などの撮像制御を行う。ここで、ステップＳ６０３，Ｓ６０４は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップとして機能している。

　本実施例では、サーバーから辞書データを取得するステップと、取得した辞書データに基づく被写体検出および撮影制御を同一フローで行っている。しかし、これに限らず、たとえば非撮影時にあらかじめサーバーに問合せ辞書データを取得するモードないしタイミングが設けられていてもよい。また、被写体検出に用いられる辞書データは、必ずしもサーバーに問合せて、未取得であった辞書データを取得し、それをそのまま使わなくてもよい。例えば、辞書データを利用する前に（例えば、ステップＳ６０４の前に）辞書データを決定するためのステップとして、ユーザー操作を受け付けるステップや自動で決定するステップを設けてもよい。

　図７Ａ、図７Ｂは、辞書データに基づく被写体検出の例を説明するための図である。

　第１の実施形態の辞書データは、二ューラルネットワーク処理部２０５で被写体検出タスクを実行するための処理内容を記述したコンピュータプログラムや、学習済み係数パラメータを被写体の種類ごとに持っている。

　例えば、辞書データが登録される被写体の種類としては、人物や動物の犬、猫や自動車などの乗物、バイクなどがある。

　図７Ａ、図７Ｂの７０１、７０５は表示部２１６のメニュー画面の例を示しており、検出する被写体を、操作部２０４を介してユーザーが設定する。図７Ａでは、検出する被写体として「人物」７０２が設定されている。「人物」が設定されている場合、予め不揮発性メモリ２０３に格納されている「人物」の辞書データを用いて被写体検出を行う。７０３は表示部２１６で表示されている撮影画像であり、「人物」の顔が検出され、枠７０４が重畳されて表示されている状態を示している。

　図７Ｂでは、検出する被写体として「カスタム」７０６が設定されている。「カスタム」の場合は、サーバー１１０より受信したカスタム用の辞書データとして例えば「魚」を用いて被写体検出を行う。７０７は表示部２１６で表示されている撮影画像であり、「カスタム」の辞書データが「魚」の場合であり、検出された魚に枠７０８が重畳されて表示された状態を示している。

　図８、図９は、第１の実施形態に係るサーバー１１０のＣＰＵ４０１が行う処理を示すフローチャートである。

　尚、図８の処理は、サーバー１１０の電源がオンの状態において、記録部４０６に格納されているコンピュータプログラムがメモリ４０２に展開され、ＣＰＵ４０１がメモリ４０２のコンピュータプログラムを読み出して実行することにより実現される。

　図８を用いて、サーバー１１０のＣＰＵ４０１が行う処理から、携帯端末１２０から教師データとネットワーク構造に関する情報を取得し、辞書データを生成し、生成した辞書データを撮像装置１００へ送信する処理に関して抜粋して説明する。

　ステップＳ８０１において、サーバー１１０は、通信部４０７を介して、携帯端末１２０より正事例データと負事例データを取得する。又、ステップＳ８０２において、あらかじめ記憶部４０６に保存されていた負事例データを取得する。ここで、ステップＳ８０１およびＳ８０２は被写体検出のための教師データを取得する教師データ取得手段として機能している。さらに、ステップＳ８０３において、記憶部４０６に保存されていたベース辞書データを取得する。

　次いで、ステップＳ８０４において、ステップＳ８０１～Ｓ８０３をへて辞書データ生成に必要なデータが揃っているかを判定する。データが揃っていれば（ステップＳ８０４でＹＥＳと判定）、ステップＳ８０５へ進む。少なくとも一部のデータが揃っていなければ（ステップＳ８０４でＮＯと判定）、ステップＳ８０６へ進む。

　例えば、教師データは存在するが、ベース辞書データが存在しない場合ステップＳ８０４でＮＯと判定される。ＮＯと判定された場合、ステップＳ８０６において、通信部５０７へ介して、携帯端末１２０へエラーが発生したことを通知する。

　ステップＳ８０５において、ニューラルネットワーク処理部４０８でカスタム辞書データの生成を行う。辞書データの生成としては、教師データから学習によって辞書データを生成する方法（例えば図９）がある。ステップＳ８０５はカスタム辞書データを生成する学習手段として機能している。

　図９は、ステップＳ８０５に係る辞書データ生成の処理の流れを説明するためのフローチャートである。

　辞書データの初期値が乱数の状態から学習をするとなると多数の教師データが必要となる。多数の教師データが必要となるとユーザーの教師データを入力する手間がかかるため、少数の教師データで学習する方法が望まれる。

　そこで、ステップＳ９０１において、多種多様な物体を予め学習した辞書データをベース辞書データとして初期値に設定する。ベース辞書データとして、犬や猫、バイクのように特定の種類の被写体を学習させた辞書データを用いてもよい。

　ステップＳ９０２において、学習に用いる教師データの読み込みを行う。

　ステップＳ９０３において、読み込んだ教師データが入力データ取得部で取得したデータかどうか、すなわち携帯端末１２０から取得したデータであるか否かを判定する。入力データ取得部で取得したデータであれば、ステップＳ９０４に進む。入力データ取得部で取得したデータでなければ、ステップＳ９０５に進む。

　ステップＳ９０４において、読み込んだデータに対するロス関数の係数をサーバー内データ取得部１１２で取得したデータよりも大きく設定する。例えば、学習時に計算されるロスが２倍になるように係数を設定する。これは入力データ取得部で取得した教師データはユーザーの意図が色濃く反映された、被写体検出精度の高いデータだと考えるからである。

　また、ステップＳ９０５において、読み込んだデータに対するロス関数の係数を入力データ取得部で取得したデータよりも小さく設定する。サーバー内データ取得部１１２で取得した負事例データがユーザーから提供されたデータではない場合、負事例データの一部にユーザーの検出したい正事例データが紛れ込んでいる可能性があることを考慮して学習を行う必要がある。そこで、ステップＳ９０４およびステップＳ９０５のように処理を分けることで、負事例データ中に正事例データが混在している場合のロスが大きく計算されてしまう悪影響を低減することができる。

　ステップＳ９０６において、教師データに基づき学習を行う。辞書データの初期値が乱数ではなく、物体らしさを学習したものであるので、所謂ファインチューニングとなる。ここで、ステップＳ９０６は、教師データに基づき学習をすることによって前記辞書データを生成する辞書生成手段として機能している。

　図８のフローチャートの説明に戻る。ステップＳ８０５において辞書データ生成を行うと、ステップＳ８０７で負事例データを追加取得するかを判定する。例えば、学習の損失関数の値が、所定の閾値以下であれば辞書データ生成成功、所定の閾値よりも大きければ辞書データ生成失敗とし、失敗した場合は負事例データを追加取得すると判定する。ここで、ステップＳ８０７はサーバー内データ取得部１１２で取得したデータに加えてさらに負事例教師データをサーバー内データ取得部１１２で取得するかを判定する判定手段として機能している。

　辞書データの生成に成功すれば（ステップＳ８０７でＮＯと判定）、ステップＳ８０８において、辞書データを通信部４０７へ介して、撮像装置１００へ送信する。

　辞書データの生成に失敗すれば（ステップＳ８０７でＹＥＳと判定）、ステップＳ８０９に進み、サーバー内データ取得部１１２で負事例データを追加で取得する。取得後はステップＳ８０４に戻る。辞書データの生成失敗が所定回数続いた場合は、これ以上負事例データを追加しても辞書データの生成は成功しないと仮定して、ステップＳ８０４でＮＯと判定し、ステップＳ８０８でエラーを通知するようにしてもよい。

　図１０は、第１の実施形態に係る携帯端末１２０で実行される処理の流れの例を示すフローチャートである。

　携帯端末１２０において、教師データとネットワーク構造に関する情報を入力し、サーバー１１０へ学習開始を通知するための、携帯端末１２０での処理に関して抜粋して説明する。この動作は、携帯端末１２０の電源がオンの状態において、記録部５０６に格納されているコンピュータプログラムがメモリ５０２に展開され、ＣＰＵ５０１がメモリ５０２のコンピュータプログラムを読み出して実行することにより実現される。

　図１１Ａ、図１１Ｂ、図１１Ｃを用いて、図１０のフローチャートの処理の流れを説明する。

　図１１Ａ、図１１Ｂ、図１１Ｃは、第１の実施形態に係る携帯端末の表示部５０４の教師データの入力画面例を説明するための図である。

　図１０のステップＳ１００１において、ユーザーは、操作部５０５を介して、記録部５０６に記憶されている撮影画像の中から教師データとして利用する画像の選択を行う。図１１Ａは、表示部５０４による画像選択画面の例を示す図であり、１１０１に示すように撮影画像が１２個表示されている。ユーザーはこの１２個の撮影画像の中から操作部５０５によるタッチ等で教師データを例えば２つ選択する。１１０２のように撮影画像の左上に丸が表示されているものが選択された教師データの画像とする。

　ステップＳ１００２において、ユーザーは、操作部５０５を介して、教師データとして選択した２つの画像に対して、画像中の目的とする被写体領域を指定する。図１１Ｂは、表示部５０４による被写体領域の入力画面の例を示す図であり、１１０３の矩形枠は、ユーザーが入力した被写体領域を示す。教師データとして選択した各画像に対して、被写体領域を設定する。被写体領域の設定方法としては、操作部５０５の一部であり表示部５０４と一体のタッチパネルを介して表示された画像から領域選択を直接行ってもよい。

　或いは、ＣＰＵ５０１などにより簡易的にエッジ等の特徴量で検出された被写体枠から選択、微調整するなどして選択する特徴的な物体領域であってもよい。

　ステップＳ１００３において、ユーザーは、操作部５０５を介して、辞書データ生成の開始を決定する。図１１Ｃは、表示部５０４による辞書データ生成の開始の確認画面例を示す図であり、ＹＥＳかＮＯかを入力する。１１０４に示すＹＥＳが選択されれば、通信部５０７を介して、サーバー１１０へ教師データと撮像装置の種別の情報が送信され、サーバー１１０において辞書データ生成が行われる。図１１Ｃで、ＮＯが選択されれば、処理を終了する。

　尚、教師データの画像データ中の被写体領域が正事例、その他の領域が負事例として、サーバー１１０での辞書データ生成で扱われる。上述した説明では、被写体領域が存在する画像を選択する例を示したが、被写体領域が存在しない画像を選択してもよい。その場合は、被写体領域の情報は入力せず、画像全体を負事例として扱う。

　以上のように、第１の実施形態の画像処理システムによれば、少数の正事例教師データから、ユーザーによる任意の辞書データが生成可能となる。

　＜他の実施例＞
　以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。

　本発明が適用され得る対象は、上述の実施例で説明した撮像装置１００、サーバー１１０、携帯端末１２０等に限定されるものではない。例えば、撮像装置１００を複数の装置から構成されるシステムとした場合であっても上述の実施例と同様の機能を実現することが可能である。更に、撮像装置１００の処理の一部をネットワーク上の外部装置により実施して実現することが可能である。又、携帯端末１２０の処理を撮像装置１００で実施することも可能である。

　尚、本実施例における制御の一部又は全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して撮像システム等に供給するようにしてもよい。そしてその撮像システム等におけるコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　本願は、２０２２年４月２８日提出の日本国特許出願特願２０２２－０７４３６５を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　第１の対象に対する正事例の画像データを含む第１の教師データを取得する第１の取得手段と、
　前記第１の対象に対する負事例の画像データを含む第２の教師データを取得する第２の取得手段と、
　前記第１の取得手段と前記第２の取得手段によって取得された教師データに基づいて前記第１の対象を検出するための第１の辞書データを生成する生成手段と、を有し、
　前記学習手段は、第２の辞書データに追加学習を行い、前記第１の辞書データを生成し、前記第１の取得手段で取得した前記第１の教師データの数は、前記第２の取得手段で取得した前記第２の教師データの数よりも少ないことを特徴とする画像処理装置。
　前記第１の教師データの取得する先と、前記第２の教師データの取得する先が異なることを特徴とする請求項１に記載の画像処理装置。
　前記第１の教師データのうち、少なくとも１つはユーザーから提供された教師データであることを特徴とする請求項１または請求項２に記載の画像処理装置。
　前記第２の取得手段はあらかじめ用意されていたデータを取得することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
　前記第１の取得手段は、取得した第１の教師データに加えて前記第２の教師データを取得することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
　前記第２の対象は、前記第１の対象をより限定したものであることを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
　前記第１の対象は、特徴的な物体領域であることを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
　前記第１の対象は、特定の被写体であることを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
　前記学習手段は前記第２の取得手段で取得した第２の教師データに加えてさらに負事例の画像データを含む第２の教師データを前記第２の取得手段で取得するかを判定する判定手段を有することを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
　前記第１の取得手段で取得した第１の教師データの数は１００以下であり、前記第２の取得手段で取得したデータの数は１０１以上であることを特徴とする請求項１乃至９のいずれか１項に記載の画像処理装置。
　前記学習手段によって生成された辞書データに基づき被写体検出を行い撮影制御する制御手段を有することを特徴とする請求項１乃至１０のいずれか１項に記載の画像処理装置。
　前記学習手段は前記第２の取得手段で取得したデータで学習する場合のロス関数の係数よりも、前記第１の取得手段で取得したデータで学習する場合のロス関数の係数の方が大きくすることを特徴とする請求項１乃至１１のいずれか１項に記載の画像処理装置。
　第１の対象に対する正事例の画像データを含む第１の教師データを送信する送信手段と、
　前記送信手段によって送信した前記第１の教師データと前記第１の対象に対する負事例の画像データを含む第２の教師データとを用いて生成された第１の辞書データを受信する受信手段と、
　前記受信手段によって受信された辞書データに基づき被写体検出を行い撮影制御する制御手段と、
　を有し、
　前記第１の辞書データは、第２の辞書データに前記第１の教師データと前記第１の対象に対する負事例の画像データを含む第２の教師データとを用いて追加学習を行うことで生成された辞書データであり、
　前記第１の教師データの数は、前記第２の教師データの数よりも少ない
　ことを特徴とする撮像装置。
　第１の対象に対する正事例の画像データを含む第１の教師データを取得する第１の取得工程と、
　前記第１の対象に対する負事例の画像データを含む第２の教師データを取得する第２の取得工程と、
　前記第１の取得手段と前記第２の取得手段によって取得された教師データに基づいて前記第１の対象を検出するための第１の辞書データを生成する生成工程と、を有し、
　前記学習工程では、第２の辞書データに追加学習を行い、前記第１の辞書データを生成し、前記第１の取得工程で取得した前記第１の教師データの数は、前記第２の取得工程で取得した前記第２の教師データの数よりも少ないことを特徴とする画像処理装置の制御方法。
　第１の対象に対する正事例の画像データを含む第１の教師データを送信する送信工程と、
　前記送信工程にて送信した前記第１の教師データと前記第１の対象に対する負事例の画像データを含む第２の教師データとを用いて生成された第１の辞書データを受信する受信工程と、
　前記受信工程にて受信された辞書データに基づき被写体検出を行い撮影制御する制御工程と、
　を有し、
　前記第１の辞書データは、第２の辞書データに前記第１の教師データと前記第１の対象に対する負事例の画像データを含む第２の教師データとを用いて追加学習を行うことで生成された辞書データであり、
　前記第１の教師データの数は、前記第２の教師データの数よりも少ない
　ことを特徴とする撮像装置の制御方法。