WO2022168441A1

WO2022168441A1 - 推論装置、推論方法およびプログラム

Info

Publication number: WO2022168441A1
Application number: PCT/JP2021/045770
Authority: WO
Inventors: 夏子尾崎
Original assignee: ソニーグループ株式会社
Priority date: 2021-02-05
Filing date: 2021-12-13
Publication date: 2022-08-11

Abstract

【課題】被写体の所定の領域の位置を推定するとともに、当該所定の領域が画像に写っている可能性を推定することが可能な技術が提供されることが望まれる。【解決手段】第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、を備える、推論装置が提供される。

Description

推論装置、推論方法およびプログラム

　本開示は、推論装置、推論方法およびプログラムに関する。

　近年、画像に写る被写体の位置を推定する技術が知られている。例えば、被写体の中心の値を示すヒートマップを学習処理に導入する技術が開示されている（例えば、非特許文献１参照）。かかる技術によれば、学習処理の結果と画像とに基づいて、画像に写る被写体の中心位置が推定される。また、被写体の中心位置から回帰することに基づいて、被写体の中心位置を基準とした被写体の所定の領域の相対位置が推定される。

　その他には、画像に写る被写体を囲う矩形領域（バウンディングボックス）の中心位置とその矩形領域内に存在する点との距離を数値化したインデックス（以下、「センターネス」とも言う。）を学習処理に導入する技術が開示されている（例えば、非特許文献２参照）。かかる技術によれば、センターネスが導入された学習処理の結果に基づいて、被写体の中心位置が推定され得る。

Ｘｉｎｇｙｉ　Ｚｈｏｕ、他２名、"Ｏｂｊｅｃｔ　ａｓ　Ｐｏｉｎｔｓ"、［ｏｎｌｉｎｅ］、ａｒＸｉｖ１９０４．０７８５０、インターネット〈ＨＴＴＰＳ：//ａｒｘｉｖ.ｏｒｇ/ＰＤＦ/１９０４．０７８５０．ＰＤＦ〉Ｚｈｉ　Ｔｉａｎ、他３名、"ＦＣＯＳ：Ｆｕｌｌｙ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｏｎｅ－Ｓｔａｇｅ　Ｏｂｊｅｃｔ　Ｄｅｔｅｃｔｉｏｎ"、［ｏｎｌｉｎｅ］、ＩＣＣＶ２０１９、インターネット〈ＨＴＴＰＳ：//ａｒｘｉｖ.ｏｒｇ/ＰＤＦ/１９０４．０１３５５．ＰＤＦ〉

　しかし、画像に基づいて被写体の所定の領域の位置が推定されたとしても、被写体の所定の領域が必ずしも画像に写っているとは限らない。

　そこで、被写体の所定の領域の位置を推定するとともに、当該所定の領域が画像に写っている可能性を推定することが可能な技術が提供されることが望まれる。

　本開示によれば、第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、を備える、推論装置が提供される。

　本開示によれば、第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得することと、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得ることと、を備える、推論方法が提供される。

　本開示によれば、コンピュータを、第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、を備える推論装置として機能させるプログラムが提供される。

本開示の実施形態に係る情報処理システムの機能構成例を示す図である。開示技術１によって推定される位置の例を示す図である。人体中心ヒートマップの例を示す図である。人体の中心位置を基準としたパーツの相対位置の例を示す図である。パーツ位置ヒートマップから推定されるパーツ位置の例を示す図である。人体の中心位置およびパーツの相対位置それぞれの記録の例を示す図である。本開示の第１の実施形態に係る情報処理システムの概要について説明するための図である。入力画像の例を示す図である。学習用画像の例を示す図である。加工処理および存否情報更新の第１の例を示す図である。加工処理および存否情報更新の第２の例を示す図である。本開示の第１の実施形態に係る学習段階の流れの例を示すフローチャートである。パーツの存在確率と閾値との比較結果に応じた情報の例を説明するための図である。パーツの存在確率を示す情報の例を説明するための図である。本開示の第１の実施形態に係る認識段階の流れの例を示すフローチャートである。存在確率がオートフォーカスに適用される例について説明するための図である。オートフォーカスの制御例を示すフローチャートである。中心位置が重なる例を説明するための図である。開示技術２について説明するための図である。ＣＮＮ学習部の機能について説明するための図である。二つの人体の中心位置同士を遠ざける処理を模式的に示した図である。四つの人体の中心位置同士を遠ざける処理を模式的に示した図である。本開示の第２の実施形態に係る学習段階の流れの例を示すフローチャートである。複数の人体の中心位置同士を遠ざける処理の具体例を示すフローチャートである。本開示の第２の実施形態に係る認識段階の流れの例を示すフローチャートである。推定されたパーツ位置がスポーツシーンに適用される例を説明するための図である。オフサイドラインについて説明するための図である。推定されたパーツ位置がオフサイド判定に適用される例を示すフローチャートである。推定されたパーツ位置が街頭シーンに適用される例を説明するための図である。本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の学習段階の流れの例を示すフローチャートである。本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の認識段階の流れの例を示すフローチャートである。本開示の実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、類似する構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　０．情報処理システムの機能構成例
　１．第１の実施形態
　　１．１．背景
　　１．２．概要
　　１．３．学習段階の詳細
　　１．４．認識段階の詳細
　　１．５．オートフォーカスの制御
　　１．６．第１の実施形態の効果
　　１．７．第１の実施形態の変形例
　２．第２の実施形態
　　２．１．背景
　　２．２．学習段階の詳細
　　２．３．認識段階の詳細
　　２．４．適用例
　　２．５．第２の実施形態の効果
　３．実施形態の組み合わせ
　４．ハードウェア構成例
　５．むすび

　＜０．情報処理システムの機能構成例＞
　まず、本開示の実施形態に係る情報処理システムの機能構成例について説明する。

　図１は、本開示の実施形態に係る情報処理システムの機能構成例を示す図である。図１に示したように、情報処理システム１０は、制御部１１０、操作部１２０、センサ部１３０、記憶部１４０、通信部１５０および提示部１６０を有している。情報処理システム１０は、コンピュータによって実現され得る。なお、図１に示された情報処理システム１０の機能構成例は、後に説明する、本開示の第１の実施形態および本開示の第２の実施形態それぞれに適用され得る。

　制御部１１０は、情報処理システム１０の各部の制御を実行する。制御部１１０は、例えば、１または複数のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などによって構成されていてよいし、１または複数のＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などによって構成されてもよい。制御部１１０がＣＰＵまたはＧＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部１１０は、かかる処理装置によってプログラムが実行されることによって実現され得る。

　制御部１１０は、ＣＮＮ認識処理部１１２、後処理部１１４、出力部１１６およびＣＮＮ学習部１１８を有している。これらのブロックの詳細は後に説明する。

　操作部１２０は、ユーザによる操作の入力を受け付ける機能を有する。本開示の実施形態においては、操作部１２０がマウスおよびキーボードを含む場合を主に想定する。しかし、操作部１２０は、マウスおよびキーボードを含む場合に限定されない。例えば、操作部１２０は、タッチパネルを含んでもよいし、タッチパッドを含んでもよいし、スイッチを含んでもよいし、レバーを含んでもよいし、ボタンを含んでもよい。また、操作部１２０は、ユーザの音声を検出するマイクロフォンを含んでもよいし、ユーザの視線を検出するイメージセンサを含んでもよい。

　なお、本開示の実施形態では、操作部１２０が、制御部１１０と同一のマシンに存在する場合を主に想定する。しかし、操作部１２０は、制御部１１０と別のマシンに存在してもよい。このとき、操作部１２０によって受け付けられた操作は、ネットワークを介して制御部１１０に提供されてもよい。

　センサ部１３０は、画像センサを含んで構成され、画像センサによって認識用の画像データを検出する。以下では、画像データを単に「画像」とも言う。ここで、画像センサの種類は限定されない。本開示の実施形態では、画像センサがＲＧＢ画像を検出するＲＧＢ画像センサを含む場合を主に想定するが、画像センサは、デプス画像を検出するデプスセンサを含んでもよいし、ＩＲ（Ｉｎｆｒａｒｅｄ）画像を検出するＩＲセンサを含んでもよい。センサ部１３０によって検出された認識用画像は、制御部１１０に提供され、学習済みのモデルによる認識処理に利用される。

　なお、本開示の実施形態では、センサ部１３０が、制御部１１０と同一のマシンに存在する場合を主に想定する。しかし、センサ部１３０は、制御部１１０と別のマシンに存在してもよい。このとき、センサ部１３０によって検出された画像は、ネットワークを介して制御部１１０に提供されてもよい。

　また、モデルの種類は特に限定されない。本開示の実施形態では、モデルとして、ニューラルネットワークが用いられる場合を主に想定する。さらに、本開示の実施形態では、モデルとして、ＣＮＮが用いられる場合を主に想定する。このとき、ＣＮＮを構成する複数のニューロンそれぞれの重みが学習処理によって更新されることによってＣＮＮの学習が行われる。しかし、ニューラルネットワークの種類は、ＣＮＮに限定されない。以下では、学習済みのＣＮＮを、「学習結果ＣＮＮ」とも言う。

　記憶部１４０は、メモリを含んで構成され、制御部１１０によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。一例として、記憶部１４０は、学習用データベース（以下、「学習用ＤＢ」とも言う。）および学習結果ＣＮＮを記憶する。また、記憶部１４０は、制御部１１０による演算のためにデータを一時的に記憶する。記憶部１４０は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。

　通信部１５０は、通信回路を含んで構成され、ネットワークに接続された他の装置との間で、ネットワークを介して通信を行う機能を有する。

　提示部１６０は、ユーザに対して情報を出力する機能を有する。提示部１６０の種類は限定されない。例えば、提示部１６０は、ユーザに視認可能な表示を行うことが可能なディスプレイを含んでよく、ディスプレイは、液晶ディスプレイであってもよいし、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイであってもよいし、他のディスプレイであってもよい。あるいは、提示部１６０は、ユーザに触覚を提示する触覚提示装置を含んでもよいし、ユーザに音を提示するスピーカを含んでもよい。

　例えば、ＣＮＮ学習部１１８および学習用ＤＢは、学習装置に備えられ、ＣＮＮ認識処理部１１２、後処理部１１４および出力部１１６は、推論装置に備えられる。本開示の実施形態では、学習装置と推論装置とが同一のコンピュータによって実現される場合を想定するが、学習装置と推論装置とは別のコンピュータによって実現されてもよい。このとき、学習結果ＣＮＮは、学習装置から送信されて推論装置の通信部１５０によって受信されてもよい。

　以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

　＜１．第１の実施形態＞
　続いて、本開示の第１の実施形態について説明する。

　［１．１．背景］
　近年、画像に写る被写体の位置を推定する技術が知られている。例えば、被写体の中心の値を示すヒートマップを学習処理に導入する技術（以下、「開示技術１」とも言う。）が開示されている。かかる開示技術１によれば、学習処理の結果と画像とに基づいて、画像に写る被写体の中心位置が推定される。また、開示技術１によれば、被写体の中心位置から回帰することに基づいて、被写体の中心位置を基準とした被写体の所定の領域の相対位置が推定される。

　以下の説明では、画像に写る被写体として、人体を例に挙げて説明する。しかし、画像に写る被写体は、人体に限定されない。例えば、画像に写る被写体は、剛体（例えば、車および家具など）であってもよいし、非剛体（例えば、動物および植物など）であってもよい。また、以下の説明では、被写体の所定の領域として、人体のパーツ（部位）を例に挙げて説明する。人体のパーツの例としては、目、首、肩、肘、手首などが挙げられる。しかし、被写体の所定の領域は、被写体の一部の領域であれば限定されない。

　図２～図６を参照しながら、開示技術１について説明する。図２は、開示技術１によって推定される位置の例を示す図である。図２に示されるように、開示技術１においては、認識用画像がＣＮＮに入力されたことに基づいて、人体の中心の値を示すヒートマップ（以下、「人体中心ヒートマップ」とも言う。）がＣＮＮから出力され、人体中心ヒートマップに基づいて、人体の中心位置Ｃが推定される。さらに、人体の中心位置Ｃから回帰することに基づいて、人体の中心位置Ｃを基準としたパーツの相対位置Ｐｋが推定される。また、パーツ位置の値を示すヒートマップ（以下、「パーツ位置ヒートマップ」とも言う。）に基づいて、パーツ位置が推定される。

　図３は、人体中心ヒートマップの例を示す図である。図３に示されたように、開示技術１によれば、認識用画像がＣＮＮに入力されたことに基づいて、人体中心ヒートマップＧ９１がＣＮＮから出力される。開示技術１によれば、人体中心ヒートマップＧ９１に基づいて、人体の中心位置Ｃが推定される。より詳細に、開示技術１によれば、人体中心ヒートマップＧ９１の各点のうち、周囲の８つの点の値以上の値を持つ点が、人体の中心位置Ｃとして推定される。

　図４は、人体の中心位置Ｃを基準としたパーツの相対位置の例を示す図である。図４に示されたように、開示技術１によれば、人体の中心位置Ｃから回帰することに基づいて、人体の中心位置Ｃを基準としたパーツ（図４に示された例では、目、手首、足など）の相対位置が推定される。図５は、パーツ位置ヒートマップから推定されるパーツ位置の例を示す図である。開示技術１によれば、パーツ位置の値を示すヒートマップに基づいて、パーツ位置（図５に示された例では、パーツ位置Ｈ１～Ｈ５（目、右手首、左手首、右足首、左足首）など）が推定される。

　例えば、画像に写る人の数をＮとすると、ｎ＝０～Ｎ－１として、各人体の中心位置はｃ^ｎと表現され得る。また、パーツの数をＰとすると、ｋ＝０～Ｋ－１として、人体の中心位置ｃ^ｎを基準としたパーツｋの相対位置は、ｘ^ｎ _ｋと表現され得る。

　図６は、人体の中心位置およびパーツの相対位置それぞれの記録の例を示す図である。図６に示されるように、人体の中心位置ｃ^０を基準としたパーツ（ｋ＝０）の相対位置ｘ^０ _０、ｙ^０ _０は、人体の中心位置ｃ^０が記録される位置と対応する位置に記録され、人体の中心位置ｃ^１を基準としたパーツ（ｋ＝１）の相対位置ｘ^１ _０、ｙ^１ _０は、人体の中心位置ｃ^１が記録される位置と対応する位置に記録される。

　換言すると、人体の中心位置ｃ^０が記録された位置が探索され、人体の中心位置ｃ^０が記録された位置が見つかると、人体の中心位置ｃ^０が記録された位置に対応する位置から、人体の中心位置ｃ^０に紐づいたパーツ（ｋ＝０）の相対位置ｘ^０ _０、ｙ^０ _０が読み出される。同様に、人体の中心位置ｃ^１が記録された位置が探索され、人体の中心位置ｃ^１が記録された位置が見つかると、人体の中心位置ｃ^１が記録された位置に対応する位置から、人体の中心位置ｃ^１に紐づいたパーツ（ｋ＝１）の相対位置ｘ^１ _０、ｙ^１ _０が読み出される。

　以上、開示技術１について簡単に説明した。ここで、画像には人体のパーツが必ずしも写っているとは限らない。例えば、人が画像センサに対して背面側を向けているときには、前面側のパーツ（例えば、顔など）が画像には写らなくなってしまう。あるいは、画像センサから見てある人のパーツが障害物などによって遮蔽されているときには、遮蔽されているパーツが画像には写らなくなってしまう。あるいは、一部のパーツを身体に有していない人が撮像される場合（例えば、障害を持つ人が撮像される場合など）には、そのパーツが画像には写らない。

　それにも関わらず、開示技術１によれば、人体の中心位置ｃを基準としたパーツの相対位置（ｘ、ｙ）がパーツ位置として必ず推定される。しかし、開示技術１では、画像にパーツが存在するかを示す情報（以下、「存否情報」とも言う。）が得られない。そして、パーツの存否情報が得られないことによって、様々な不都合が生じ得る。例えば、パーツが画像に存在しないにも関わらず、推定されたパーツ位置に基づいてＡＦ（オートフォーカス）が行われてしまう場合があり得る。あるいは、パーツが画像に存在しないにも関わらず、推定されたパーツ位置のデプス値が用いられてしまう場合があり得る。

　あるいは、画像にパーツが存在するかを判断するために、パーツ位置ヒートマップからパーツ位置が推定されるか否かを用いることも考えられる。しかし、パーツ位置ヒートマップに基づいてパーツ位置が必ずしも精度良く推定されるとは限らない。一例として、右足が障害物に遮蔽され、左足が画像に存在する場合に、左右の足が似ているため、パーツ位置ヒートマップに基づいて左足の位置が右足の位置として推定されてしまう可能性がある。そのため、画像にパーツが存在するかが精度良く判断されない。

　そこで、本開示の第１の実施形態においては、人体のパーツ位置を推定するとともに、当該パーツが画像に写っている可能性を推定することが可能な技術について主に提案する。

　以上、本開示の第１の実施形態の背景について説明した。

　［１．２．概要］
　続いて、図７を参照しながら、本開示の第１の実施形態に係る情報処理システム１０の概要について説明する。図７は、本開示の第１の実施形態に係る情報処理システム１０の概要について説明するための図である。図７に示されるように、本開示の第１の実施形態においても、認識用画像がＣＮＮに入力されたことに基づいて、ＣＮＮから人体の中心位置Ｃ、および、人体の中心位置Ｃを基準としたパーツの相対位置Ｐｋが出力される。

　なお、人体の中心位置Ｃは、人体の「基準位置」の例に該当する。したがって、人体の任意の位置が人体の中心位置Ｃとして扱われてよい。また、本開示の第１の実施形態においては、認識用画像がＣＮＮに入力されたことに基づいて、パーツが画像に存在する可能性を示す情報（以下、「存在確率」とも言う。）ｅ_ｎが出力される。存在確率ｅ_ｎは、ｎ人に対応するＫ個のパーツごとに出力される。

　なお、本開示の第１の実施形態においては、ＣＮＮに入力されるパーツ位置、および、ＣＮＮから出力されるパーツ位置それぞれが、人体の中心位置Ｃとパーツの相対位置Ｐｋとに分離されている場合を主に想定する。しかし、後にも説明するように、ＣＮＮに入力されるパーツ位置、および、ＣＮＮから出力されるパーツ位置それぞれは、人体の中心位置Ｃとパーツの相対位置Ｐｋとに分離されていなくてもよい。すなわち、パーツの絶対位置がＣＮＮに直接入力されてもよく、パーツの絶対位置がＣＮＮから直接出力されてもよい。

　以上、本開示の第１の実施形態の概要について説明した。

　［１．３．学習段階の詳細］
　続いて、図８～図１２を参照しながら、本開示の第１の実施形態に係る情報処理システム１０によって実行される学習段階の詳細について説明する。

　（学習用ＤＢ）
　学習用ＤＢには、入力画像とラベルとが対応付けられて格納されている。入力画像とラベルとは、学習処理に用いられる教師データに該当する。ラベルは、入力画像に写る人体の中心位置Ｃ^ｎ（ｎ＝０～Ｎ－１：ただし、Ｎは人数）と、人体の中心位置Ｃ_ｎを基準としたパーツｋ（ｋ＝０～Ｋ－１：ただし、Ｋはパーツ数）の相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）と、パーツｋの存否情報ｖ^ｎ _ｋとが対応付けられてなる。

　以下では、入力画像にパーツが存在しないことを示す値が０であり、入力画像にパーツが存在することを示す値が１である場合を主に想定する。しかし、入力画像にパーツが存在しないことを示す値は０に限定されず、入力画像にパーツが存在することを示す値は１に限定されない。なお、全部のパーツのラベル（相対位置）が学習用ＤＢに格納されているとは限らない。例えば、入力画像に写っている人の足のパーツが障害物に遮蔽されている場合には、その人の足のパーツのラベル（相対位置）は存在しない。

　（ＣＮＮ学習部１１８）
　ＣＮＮ学習部１１８は、学習段階において、学習用ＤＢから入力画像（第１の画像データ）およびラベルを取得する。

　図８は、入力画像の例を示す図である。図８を参照すると、入力画像Ｇ１０が示されている。入力画像Ｇ１０には、被写体の例として人体Ｂ１１（第１の被写体）および人体Ｂ１２が写っている。このとき、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対応するラベルとして、人体Ｂ１１に対応するラベルを取得する。ここでは、パーツとして、右目を例に挙げて説明するが、パーツは、右目に限定されない。なお、入力画像Ｇ１０には、人体Ｂ１２の右目が写っていないため、人体Ｂ１２に対応するパーツｋ＝０（右目）のラベルが学習用ＤＢから取得されない。

　より詳細に、ＣＮＮ学習部１１８は、人体Ｂ１１に対応するラベルとして、人体Ｂ１１の中心位置Ｃ^０と、人体の中心位置Ｃ^０を基準としたパーツｋ＝０（右目）の相対位置（ｘ^０ _０、ｙ^０ _０）と、パーツｋ＝０（右目）の存否情報ｖ^０ _０＝１（存在する）とを取得する。一方、ＣＮＮ学習部１１８は、人体Ｂ１２に対応するラベルが存在しないため、人体Ｂ１２に対応するラベルとして、パーツｋ＝０（右目）の存否情報ｖ^１ _０＝０（存在しない）とする。以下では、人体Ｂ１１に対応するラベルについて主に説明する。

　続いて、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対して所定の処理（以下、「加工処理」とも言う。）を施す。これによって、パーツの位置が入力画像Ｇ１０に存在しない場合を意図的に生じさせることが可能となるため、パーツが存在しない画像に対する認識精度が向上することが期待される。ここでは、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対して加工処理をランダムに施す場合を主に想定する。しかし、後にも説明するように、ＣＮＮ学習部１１８は、あらかじめ定められた規則に基づいて、入力画像Ｇ１０に対して加工処理を施してもよい（例えば、同一の加工処理を施してもよい）。あるいは、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対して加工処理を施さなくてもよい。

　ＣＮＮ学習部１１８は、入力画像Ｇ１０に対して加工処理を施すとともに、加工処理が施された後の画像（第３の画像データ）にパーツが存在するか否かを判定してパーツの存否情報を得る。ＣＮＮ学習部１１８は、加工処理が施された後の画像にパーツが存在する場合には、そのパーツの存否情報を１（存在する）のままにする。一方、ＣＮＮ学習部１１８は、加工処理が施された後の画像にパーツが存在する場合には、そのパーツの存否情報を０（存在しない）に変更する。

　入力画像Ｇ１０に対する加工処理および存否情報変更が行われる前に、入力画像Ｇ１０に基づいて学習に用いられる画像（学習用画像）が生成され得る。図９は、学習用画像の例を示す図である。図９を参照すると、学習用画像Ｇ２０が示されている。ＣＮＮ学習部１１８は、入力画像Ｇ１０を学習用画像Ｇ２０の枠内に配置することによって、学習用画像Ｇ２０を生成する。なお、人体Ｂ１１に対応するラベルとして、人体Ｂ１１の中心位置Ｃ^０、右目パーツの相対位置（ｘ^０ _０、ｙ^０ _０）と、右目パーツの存否情報ｖ^０ _０＝１（存在する）が示されている。

　図１０は、加工処理および存否情報更新の第１の例を示す図である。図１０を参照すると、入力画像Ｇ１０が（図９に示された入力画像Ｇ１０と比較して）移動している。すなわち、加工処理は、入力画像Ｇ１０を構成する各画素データを移動させる処理（以下、「ずらし処理」とも言う。）を含んでよい。なお、ずらし処理には、このような入力画像Ｇ１０の平行移動が含まれ得るだけではなく、入力画像Ｇ１０の拡大または縮小、回転などのアフィン変換処理も含まれ得る。このとき、ＣＮＮ学習部１１８は、入力画像Ｇ１０の移動に応じて（例えば、移動方向および移動距離に合わせて）、ラベルに含まれる、人体Ｂ１１の中心位置および人体Ｂ１２の中心位置を変更する。

　図１０には、例として、人体Ｂ１１の移動後の中心位置Ｃ’^０が示されている。ここでは、入力画像Ｇ１０のずらし処理が、ランダムに行われる場合を想定する。より詳細に、入力画像Ｇ１０の移動方向および移動距離がランダムに決められる場合を想定する。しかし、入力画像Ｇ１０の移動方向および移動距離は、あらかじめ定められた規則に基づいて決められてもよい。なお、入力画像Ｇ１０に対してランダムにずらし処理を行う技術は、一般的にオーグメンテーション（Ａｕｇｍｅｎｔａｔｉｏｎ）として知られている。入力画像Ｇ１０に対するずらし処理後の学習用画像Ｇ２０は、後に説明する学習に用いられ得る。

　そして、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対するずらし処理後の学習用画像Ｇ２０に人体Ｂ１１の右目パーツが存在するか否かを判定する。図１０に示された例では、ずらし処理後の学習用画像Ｇ２０に人体Ｂ１１の右目パーツが存在しない。そこで、ＣＮＮ学習部１１８は、人体Ｂ１１の右目パーツの存否情報ｖ^０ _０＝１（存在する）をｖ’^０ _００（存在しない）に変更する。なお、図１０に示された例では、ずらし処理後の学習用画像Ｇ２０に人体Ｂ１２の右目パーツが存在するため、ＣＮＮ学習部１１８は、人体Ｂ１２の右目パーツの存否情報を１（存在する）のままにしてよい。

　図１１は、加工処理および存否情報更新の第２の例を示す図である。図１１を参照すると、入力画像Ｇ１０の一部の領域が所定の画像（図１１に示された例では、各ピクセルに均一な色が付された矩形画像Ｇ１２）に置換されている。すなわち、加工処理は、入力画像Ｇ１０の一部の領域を所定の画像に置換して当該一部の領域を隠蔽する処理（以下、「隠蔽処理」とも言う。）を含んでよい。

　ここでは、入力画像Ｇ１０に対する隠蔽処理が、ランダムに行われる場合を想定する。より詳細に、矩形画像Ｇ１２の色がランダムに決められる場合を想定する。しかし、矩形画像Ｇ１２の色は、あらかじめ定められた規則に基づいて決められてもよい（例えば、固定色（例えば、灰色など）であってもよい）。

　また、矩形画像Ｇ１２の位置もランダムに決められる場合を想定する。しかし、矩形画像Ｇ１２の位置は、あらかじめ定められた規則に基づいて決められてもよい。一例として、人体の中心位置Ｃ^０と中心位置Ｃ^０を基準とした相対位置（ｘ^０ _０、ｙ^０ _０）とによって、パーツ位置が既知である。そのため、そのパーツ位置を含んだ領域の画像が矩形画像Ｇ１２によって置換されてもよい。これによって意図的にパーツが隠蔽されるため、パーツが隠れることに対して頑健な認識が可能になることが期待される。

　なお、入力画像Ｇ１０に対してランダムに隠蔽処理を行う技術は、一般的にランダムイレーシング（ＲａｎｄｏｍＥｒａｓｉｎｇ）として知られている。入力画像Ｇ１０に対する隠蔽処理後の学習用画像Ｇ２０は、後に説明する学習に用いられ得る。

　そして、ＣＮＮ学習部１１８は、入力画像Ｇ１０に対する隠蔽処理後の学習用画像Ｇ２０に人体Ｂ１１の右目パーツが存在するか否かを判定する。図１１に示された例では、隠蔽処理後の学習用画像Ｇ２０に人体Ｂ１１の右目パーツが存在しない。そこで、ＣＮＮ学習部１１８は、人体Ｂ１１の右目パーツの存否情報ｖ^０ _０＝１（存在する）をｖ’^０ _０＝０（存在しない）に変更する。なお、図１１に示された例では、隠蔽処理後の学習用画像Ｇ２０に人体Ｂ１２の右目パーツが存在するため、ＣＮＮ学習部１１８は、人体Ｂ１２の右目パーツの存否情報を１（存在する）のままにしてよい。

　なお、図１１には、入力画像Ｇ１０の一部の領域が、各ピクセルに均一な色が付された矩形画像Ｇ１２によって置換される場合が示されている。しかし、入力画像Ｇ１０の一部の領域を置換する画像は、かかる矩形画像Ｇ１２に限定されない。例えば、人体の画像によって入力画像Ｇ１０の一部の領域が置換されてもよい。これによって、人同士の重なりに対して頑健な認識が可能になることが期待される。

　以下では、入力画像Ｇ１０に対して、加工処理の例としてずらし処理および隠蔽処理の双方が施される場合を主に想定する。しかし、入力画像Ｇ１０に対して、ずらし処理および隠蔽処理のうちの一方のみが施されてもよい。ＣＮＮ学習部１１８は、加工処理が施された後の画像と、変更後のラベルとに基づいて、学習処理を行う。ここで、学習処理の具体的な手法は限定されない。

　例えば、ＣＮＮ学習部１１８は、加工処理が施された後の画像をＣＮＮに入力させたことに基づいてＣＮＮから出力される、人体の中心位置Ｃ^ｎ、人体の中心位置Ｃ_ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）およびパーツｋの存否情報ｖ^ｎ _ｋそれぞれと、対応するラベルとの誤差を算出し、算出した誤差の重み付き和を逆伝播（ｂａｃｋ　ｐｒｏｐａｇａｔｉｏｎ）させることによって（誤差逆伝播法を用いて）、ＣＮＮの重みを更新する。例えば、重みの更新手法としては、確率的勾配降下法（ＳＧＤ：Ｓｔｏｃｈａｓｔｉｃ　Ｇｒａｄｉｅｎｔ　Ｄｅｓｃｅｎｔ）が用いられてよい。しかし、重みの更新手法は、ＳＧＤに限定されない。

　重みの更新が終わると、学習用ＤＢから新たに取得される画像およびラベルに基づく重みの更新が行われる。そして、所定の回数の重み更新が終わった場合、学習処理が終了される。ここで、所定の回数は限定されない。例えば、所定の回数は、エポック単位（同じ入力画像を繰り返し学習処理に使った回数）で決められてもよいし、イテレーション単位（入力画像を更新した回数）で決められてもよい。あるいは、誤差の重み付き和が所定値以下になった場合に学習処理が終了されてもよい。

　（学習段階の流れ）
　続いて、図１２を参照しながら、本開示の第１の実施形態に係る学習段階の流れの例について説明する。図１２は、本開示の第１の実施形態に係る学習段階の流れの例を示すフローチャートである。なお、図１２に示したフローチャートは、本開示の第１の実施形態に係る学習段階の流れの一例を示しているに過ぎない。したがって、本開示の第１の実施形態に係る学習段階の流れは、図１２のフローチャートに示された例に限定されない。ここでは、説明を簡便にするため、画像が１枚であり、画像に写る人数が１人である場合を想定する。

　図１２に示されるように、ＣＮＮ学習部１１８は、学習用ＤＢから画像およびラベルを取得する。そして、ＣＮＮ学習部１１８は、パーツ単位の繰り返し処理（ｋ＝０～Ｋ－１）を開始する（Ｓ１０１）。ＣＮＮ学習部１１８は、画像に対する加工処理の例として、画像位置およびラベル位置のずらし処理と、画像の一部領域に対する隠蔽処理とを実行する（Ｓ１０２）。なお、上記したように、画像に対する加工処理が実行されない場合には、Ｓ１０２が実行されずにＳ１０４に動作が移行される。ＣＮＮ学習部１１８は、対象のパーツがラベルのないパーツである場合（Ｓ１０４において「ＹＥＳ」）、Ｓ１０３に動作を移行させる。一方、ＣＮＮ学習部１１８は、対象のパーツがラベルのあるパーツである場合（Ｓ１０４において「ＮＯ」）、Ｓ１０５に動作を移行させる。

　Ｓ１０５に動作が移行すると、ＣＮＮ学習部１１８は、加工処理が施された後の画像内にパーツ位置が存在するかを判定する（Ｓ１０５）。ＣＮＮ学習部１１８は、加工処理が施された後の画像内にパーツ位置が存在しない場合には（Ｓ１０５において「ＮＯ」）、Ｓ１０３に動作を移行させる。一方、ＣＮＮ学習部１１８は、加工処理が施された後の画像内にパーツ位置が存在する場合には（Ｓ１０５において「ＹＥＳ」）、Ｓ１０６に動作を移行させる

　Ｓ１０３に動作が移行すると、ＣＮＮ学習部１１８は、パーツの存否情報ｖに０を設定し（Ｓ１０３）、パーツ単位の繰り返し処理の終端（Ｓ１０７）に進む。一方、Ｓ１０６に動作が移行すると、ＣＮＮ学習部１１８は、パーツの存否情報ｖに１を設定し（Ｓ１０６）、パーツ単位の繰り返し処理の終端（Ｓ１０７）に進む。

　Ｓ１０７に動作が移行すると、ＣＮＮ学習部１１８は、パーツ単位の繰り返し処理がＫ回実行されていない場合には、パーツ単位の繰り返し処理の始端（Ｓ１０１）に戻る。一方、ＣＮＮ学習部１１８は、パーツ単位の繰り返し処理がＫ回実行された場合には、加工処理が施された後の画像と、変更後のラベルとに基づいて、学習処理を行う（Ｓ１０８）。学習処理によって学習結果ＣＮＮが生成され、記憶部１４０に記憶される。

　以上、本開示の第１の実施形態に係る情報処理システム１０によって実行される学習段階の詳細について説明した。

　［１．４．認識段階の詳細］
　続いて、図１３～図１５を参照しながら、本開示の第１の実施形態に係る情報処理システム１０によって実行される認識段階の詳細について説明する。

　（ＣＮＮ認識処理部１１２）
　ＣＮＮ認識処理部１１２は、認識段階において認識用画像（第２の画像データ）と学習結果ＣＮＮとを取得する取得部として機能する。

　ここで、本開示の第１の実施形態においては、ＣＮＮ認識処理部１１２が、センサ部１３０によって検出された画像を認識用画像として取得する場合を主に想定する。しかし、ＣＮＮ認識処理部１１２は、他の場所から認識用画像を取得してもよい。例えば、ＣＮＮ認識処理部１１２は、記憶部１４０にあらかじめ記憶された認識用画像を取得してもよいし、通信部１５０によって他の装置から受信された認識用画像を取得してもよい。

　また、学習結果ＣＮＮは、記憶部１４０から取得され得る。しかし、上記したように、学習装置と推論装置とが別のコンピュータによって実現されている場合などには、学習結果ＣＮＮは、学習装置から送信されて推論装置の通信部１５０によって受信された学習結果ＣＮＮが取得されてもよい。

　さらに、ＣＮＮ認識処理部１１２は、認識用画像と学習結果ＣＮＮとに基づいて、認識処理を行う。より詳細に、ＣＮＮ認識処理部１１２は、認識用画像に写る人体（第２の被写体）の中心位置Ｃ^ｎと、中心位置Ｃ^ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）と、認識用画像におけるそのパーツｋの存在確率の存否情報ｅ^ｎ _ｋとを得る推論部として機能する。ここで、認識処理の具体的な手法は限定されない。

　例えば、ＣＮＮ認識処理部１１２は、認識用画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ^ｎ、人体の中心位置Ｃ_ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）およびパーツｋの存在確率ｅ^ｎ _ｋを取得する。

　ここで、学習段階においてＣＮＮに入力された存否情報ｖ^ｎ _ｋは、０（存在しない）または１（存在する）の二値であることは上記した通りである。一方、認識段階において得られる存在確率ｅ^ｎ _ｋは、存否情報ｖ^ｎ _ｋに対応して学習結果ＣＮＮから出力される情報であり、０～１の値を取り得る。存在確率ｅ^ｎ _ｋの数値が高いほど、認識用画像にパーツｋが存在する可能性が高くなる。

　（後処理部１１４）
　後処理部１１４は、人体の中心位置Ｃ^ｎ、人体の中心位置Ｃ_ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）とに基づいて、人体ｎおよびパーツｋの各組み合わせに対応するパーツ位置を計算する。より詳細に、後処理部１１４は、人体ｎおよびパーツｋの各組み合わせについて、人体の中心位置Ｃと、人体の中心位置Ｃを基準としたパーツの相対位置（ｘ、ｙ）とを足し合わせることによって、人体ｎおよびパーツｋの各組み合わせに対応するパーツ位置を計算する。

　また、後処理部１１４は、パーツｋの存在確率ｅ^ｎ _ｋとあらかじめ定められた閾値ＴＨとを比較する。そして、後処理部１１４は、パーツｋの存在確率ｅ^ｎ _ｋと閾値ＴＨとの比較結果を出力部１１６に出力する。後処理部１１４は、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨより大きい場合には、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨより大きいことを示す情報を出力部１１６に出力する。一方、後処理部１１４は、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨ以下である場合には、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨ以下であることを示す情報を出力部１１６に出力する。

　なお、閾値ＴＨは、あらかじめ定められた値から変更できなくてもよいし、あらかじめ定められた値から変更可能であってもよい。例えば、後処理部１１４は、閾値変更のための操作オブジェクト（例えば、スライダなど）が提示部１６０によって提示される場合、操作部１２０によって受け付けられた当該操作オブジェクトに対するユーザの閾値変更操作に基づいて、閾値ＴＨを変更してもよい。

　（出力部１１６）
　出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋに応じた制御を行う。例えば、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋに応じた情報の提示部１６０による提示を制御してもよい。パーツｋの存在確率ｅ^ｎ _ｋに応じた情報としては、様々な情報が想定され得る。例えば、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋと閾値ＴＨとの比較結果に応じた情報の提示部１６０による提示を制御してもよい。

　一例として、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨより大きい場合には、そのパーツｋの位置の提示部１６０による提示を制御してもよい。一方、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋが閾値ＴＨ以下である場合には、そのパーツｋの位置の提示部１６０による提示を制御するとともに、そのパーツｋが見えないパーツであること（すなわち、パーツｋが認識用画像に存在する確率が閾値ＴＨよりも小さいこと）の提示部１６０による提示を制御してもよい。

　図１３は、パーツｋの存在確率ｅ^ｎ _ｋと閾値ＴＨとの比較結果に応じた情報の例を説明するための図である。図１３を参照すると、認識用画像Ｇ３０が提示部１６０によって表示されている。認識用画像Ｇ３０には、人体Ｂ１１と人体Ｂ１２とが写っている。そして、人体Ｂ１１および人体Ｂ１２それぞれの各パーツ位置が表示されている（図１３における各丸印）。例えば、人体Ｂ１２のパーツＡ１（左目）の位置およびパーツＡ２（右目）の位置が提示部１６０によって表示されている。

　そして、図１３を参照すると、存在確率ｅが閾値ＴＨより大きいパーツの位置は、白丸によって表示されている。一方、図１３を参照すると、存在確率ｅが閾値ＴＨ以下であるパーツの位置は、黒丸によって表示されている。すなわち、存在確率ｅが閾値ＴＨより大きいパーツ位置と存在確率ｅ^ｎ _ｋが閾値ＴＨ以下であるパーツ位置との表示態様（図１３に示された例では、色）が異なっている。このように、存在確率ｅ^ｎ _ｋが閾値ＴＨ以下である場合には、そのパーツｋが見えないパーツであることが表示されてもよい。なお、表示態様の変更は、色の違いでなくてもよく、サイズまたは形状の違いなどであってもよい。

　なお、存在確率ｅが閾値ＴＨより大きいパーツの位置の表示態様は、１種類でなくてもよく、パーツの場所ごとに異なってもよい。例えば、存在確率ｅが閾値ＴＨより大きい右肩パーツの色はオレンジ色であり、存在確率ｅが閾値ＴＨより大きい右肘パーツの色は黄色であってもよい。

　また、存在確率ｅが閾値ＴＨより大きいパーツ位置は提示部１６０によって表示される一方、存在確率ｅが閾値ＴＨ以下であるパーツの位置は、提示部１６０によって表示されなくてもよい。あるいは、パーツ位置の提示以外にパーツ位置および存在確率ｅが用いられる場合なども想定される。かかる場合には、存在確率ｅが閾値ＴＨより大きいか否かに関わらず、パーツ位置は表示されなくてもよい。

　また、図１３を参照すると、パーツ位置同士を接続する線分（以下、「接続線」とも言う。）も表示されている。この接続線の表示態様も、両端のパーツの存在確率ｅなどに応じて変更されてもよい。例えば、接続線の表示態様は、その接続線の両端のパーツのうちいずれか一方のパーツの表示態様に合わせられてもよい。ただし、パーツ位置同士を接続する接続線は、表示されなくてもよい。

　あるいは、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋを示す情報の提示部１６０による提示を制御してもよい。

　図１４は、パーツｋの存在確率ｅを示す情報の例を説明するための図である。図１４を参照すると、認識用画像Ｇ３０が提示部１６０によって表示されている。認識用画像Ｇ３０には、人体Ｂ１１と人体Ｂ１２とが写っている。そして、人体Ｂ１１および人体Ｂ１２それぞれの各パーツ位置が表示されている（図１４における各丸印）。そして、人体Ｂ１２の各パーツの存在確率を示す情報が示されている（例えば、左目パーツの存在確率が「ｌｅｙｅ　０．１」として示されている）。

　なお、図１４に示された例では、人体Ｂ１２の一部のパーツの存在確率を示す情報だけが表示されている。しかし、人体Ｂ１２の全部のパーツの存在確率を示す情報が表示されてもよい。また、人体Ｂ１２の一部または全部の存在確率を示す情報に加えて、人体Ｂ１１の一部または全部の存在確率を示す情報が表示されてもよい。

　（認識段階の流れ）
　続いて、図１５を参照しながら、本開示の第１の実施形態に係る認識段階の流れの例について説明する。図１５は、本開示の第１の実施形態に係る認識段階の流れの例を示すフローチャートである。なお、図１５に示したフローチャートは、本開示の第１の実施形態に係る認識段階の流れの一例を示しているに過ぎない。したがって、本開示の第１の実施形態に係る認識段階の流れは、図１５のフローチャートに示された例に限定されない。ここでは、説明を簡便にするため、画像が１枚であり、画像に写る人数が１人である場合を想定する。

　図１５に示されるように、ＣＮＮ認識処理部１１２は、センサ部１３０によって検出された画像を学習結果ＣＮＮに入力させる（Ｓ１１１）。そして、ＣＮＮ認識処理部１１２は、画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ、人体の中心位置Ｃを基準としたパーツｋの相対位置（ｘ_ｋ、ｙ_ｋ）およびパーツｋの存在確率ｅ_ｋを取得する。

　後処理部１１４は、パーツ単位の繰り返し処理（ｋ＝０～Ｋ－１）を開始する（Ｓ１１２）。後処理部１１４は、人体の中心位置Ｃと、人体の中心位置Ｃを基準としたパーツの相対位置（ｘ、ｙ）とを足し合わせることによって、パーツｋの位置を計算する。これによって、後処理部１１４は、パーツｋの位置を取得する。また、後処理部１１４は、ＣＮＮ認識処理部１１２からパーツｋの存在確率ｅを取得する（Ｓ１１３）。後処理部１１４は、パーツｋの存在確率ｅとあらかじめ定められた閾値ＴＨとを比較する（Ｓ１１４）。

　出力部１１６は、パーツｋの存在確率ｅが閾値ＴＨ以下である場合には（Ｓ１１４において「ＮＯ」）、そのパーツｋの位置を示す情報を提示部１６０に出力するとともに、そのパーツｋが見えないパーツであることを提示部１６０に出力する（Ｓ１１６）。提示部１６０は、出力部１１６による制御に従って、パーツｋの位置を示す情報を提示するとともに、そのパーツｋが見えないパーツであることを提示する。その後、パーツ単位の繰り返し処理の終端（Ｓ１１８）に動作が移行される。

　一方、出力部１１６は、パーツｋの存在確率ｅが閾値ＴＨより大きい場合には（Ｓ１１４において「ＹＥＳ」）、そのパーツｋの位置を示す情報を提示部１６０に出力する（Ｓ１１７）。提示部１６０は、出力部１１６による制御に従って、パーツｋの位置を示す情報を提示する。その後、パーツ単位の繰り返し処理の終端（Ｓ１１８）に動作が移行される。

　Ｓ１１８に動作が移行すると、パーツ単位の繰り返し処理がＫ回実行されていない場合には、パーツ単位の繰り返し処理の始端（Ｓ１１１）に動作が移行される。一方、パーツ単位の繰り返し処理がＫ回実行された場合には、認識段階が終了する。

　以上、本開示の第１の実施形態に係る情報処理システム１０によって実行される認識段階の詳細について説明した。

　［１．５．オートフォーカスの制御］
　上記のように、出力部１１６は、パーツｋの位置とパーツｋの存在確率ｅ^ｎ _ｋとに応じた制御を行う。ここで、出力部１１６による制御の対象は、情報の提示に限定されない。例えば、出力部１１６は、パーツｋの位置とパーツｋの存在確率ｅ^ｎ _ｋとに応じて、何らかの機能を制御してもよい。一例として、出力部１１６は、パーツｋの存在確率ｅ^ｎ _ｋに応じて、カメラが自動的にフォーカスを合わせる機能（所謂、オートフォーカス機能）を制御してもよい。以下では、図１６および図１７を参照しながら、出力部１１６が、存在確率に応じてオートフォーカスを制御する例について説明する。

　図１６は、存在確率がオートフォーカスに適用される例について説明するための図である。図１６を参照すると、認識用画像の例として画像Ｇ４０が示されている。また、画像Ｇ４０には、人体Ｂ１１および人体Ｂ１２が写っている。ここで、人体Ｂ１１は、人体Ｂ１２よりも画像に小さく写っているが、前面をカメラに向けているため、目が画像Ｇ４０に写っている。一方、人体Ｂ１２は、人体Ｂ１１よりも画像に大きく写っているが、背面をカメラに向けているため、目が画像Ｇ４０に写っていない。

　画像Ｇ４１は、画像により大きく写っている人体の右目パーツに対して優先的にフォーカスを合わせる一般的な技術が適用される例である。この例では、右目パーツが画像Ｇ４１に写っていない人体Ｂ１２にフォーカスＦ１が合わせられてしまっている。一方、画像Ｇ４２は、存在確率ｅがより大きい右目パーツに対して優先的にフォーカスを合わせる本開示の技術が適用される例である。この例では、出力部１１６は、人体Ｂ１１の右目パーツの存在確率ｅがより大きいため、人体Ｂ１１の右目パーツにフォーカスＦ１が合うようにカメラを制御している。

　より詳細には、人体Ｂ１１の右目パーツの存在確率ｅ^０ _０は、閾値ＴＨよりも大きいと判定されている。一方、人体Ｂ１２の右目パーツの存在確率ｅ^１ _０は、閾値ＴＨ以下であると判定されている。このとき、出力部１１６は、閾値ＴＨよりも右目パーツの存在確率が大きい人体Ｂ１１の右目パーツの位置（ｘ，ｙ）に基づいて、カメラのオートフォーカスを制御してよい。

　なお、閾値ＴＨよりも右目パーツの存在確率が大きい人体が複数存在する場合も想定される。かかる場合には、出力部１１６は、当該複数の人体のうちより大きく画像に写っている人体の右目パーツ（ｘ，ｙ）に基づいて、カメラのオートフォーカスを制御してもよい。フォーカスが合わせられるパーツは、右目パーツに限定されず、人体の他のパーツ（例えば、左目など）であってもよい。

　また、カメラのオートフォーカスの制御は、どのように実現されてもよい。例えば、出力部１１６は、人体Ｂ１１の右目パーツの位置（ｘ，ｙ）の被写体までのデプス値を取得し、取得したデプス値に基づいて、カメラのオートフォーカスを制御してよい。被写体までのデプス値は、赤外線または超音波などの照射によって計測されてもよい（所謂、アクティブ方式によって計測されてもよい）。あるいは、被写体までのデプス値は、カメラのレンズを通過した光によって計測されてもよい（所謂、パッシブ方式によって計測されてもよい）。

　続いて、図１７を参照しながら、オートフォーカスの制御の例について説明する。図１７は、オートフォーカスの制御例を示すフローチャートである。なお、図１７に示したフローチャートは、オートフォーカスの制御の一例を示しているに過ぎない。したがって、オートフォーカスの制御は、図１７のフローチャートに示された例に限定されない。ここでは、説明を簡便にするため、画像が１枚であり、右目パーツの存在確率を用いる場合を想定する。

　図１７に示されるように、ＣＮＮ認識処理部１１２は、センサ部１３０によって検出された画像を学習結果ＣＮＮに入力させる（Ｓ１２１）。そして、ＣＮＮ認識処理部１１２は、画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ^ｎ、人体の中心位置Ｃ^ｎを基準とした右目パーツの相対位置（ｘ^ｎ、ｙ^ｎ）および右目パーツの存在確率ｅ^ｎを取得する。

　後処理部１１４は、人単位の繰り返し処理（ｎ＝０～Ｎ－１）を開始する（Ｓ１２２）。後処理部１１４は、人体の中心位置Ｃ^ｎと、人体の中心位置Ｃ^ｎを基準とした右目パーツの相対位置（ｘ^ｎ、ｙ^ｎ）とを足し合わせることによって、右目パーツの位置を計算する。これによって、後処理部１１４は、右目パーツの位置を取得する。また、後処理部１１４は、ＣＮＮ認識処理部１１２から右目パーツの存在確率ｅ^ｎを取得する（Ｓ１２３）。後処理部１１４は、右目パーツの存在確率ｅ^ｎとあらかじめ定められた閾値ＴＨとを比較する（Ｓ１２４）。

　右目パーツの存在確率ｅ^ｎが閾値ＴＨ以下である場合には（Ｓ１２４において「ＮＯ」）、人単位の繰り返し処理の終端（Ｓ１２７）に動作が移行される。一方、出力部１１６は、右目パーツの存在確率ｅ^ｎが閾値ＴＨより大きい場合には（Ｓ１２４において「ＹＥＳ」）、探索済みの人の中で対象の人体が一番大きく画像に写っているか否かを判定する（Ｓ１２５）。

　出力部１１６は、探索済みの人の中で対象の人体が二番目以降に大きく画像に写っている場合には（Ｓ１２５において「ＮＯ」）、人単位の繰り返し処理の終端（Ｓ１２７）に動作が移行される。一方、出力部１１６は、探索済みの人の中で対象の人体が一番大きく画像に写っている場合には（Ｓ１２５において「ＹＥＳ）、右目パーツの位置を保存する（Ｓ１２６）。その後、人単位の繰り返し処理の終端（Ｓ１２７）に動作が移行される。

　Ｓ１２７に動作が移行すると、人単位の繰り返し処理がＮ回実行されていない場合には、人単位の繰り返し処理の始端（Ｓ１２２）に動作が移行される。一方、人単位の繰り返し処理がＮ回実行された場合には、認識段階が終了する。

　以上、本開示の第１の実施形態に係る情報処理システム１０によって実行されるオートフォーカスの制御の詳細について説明した。

　［１．６．第１の実施形態の効果］
　本開示の第１の実施形態によれば、人体のパーツの位置を推定するとともに、当該パーツが画像に写っている可能性を推定することが可能となる。例えば、本開示の第１の実施形態によれば、パーツの存在確率に応じた情報の提示が制御されることによって、画像にパーツが写っているか否かがユーザに把握され得る。

　あるいは、本開示の第１の実施形態によれば、パーツの存在確率に応じた機能の制御によって、画像に写っているパーツ位置のデプス値が取得され得る。あるいは、本開示の第１の実施形態によれば、パーツの存在確率に応じた機能の制御によって、画像に写っているパーツ位置に基づいて、オートフォーカスが高精度に制御され得る。

　さらに、本開示の第１の実施形態によれば、画像にパーツが存在するかを判断するために、パーツ位置ヒートマップからパーツ位置が推定されるか否かを用いなくても済む。

　［１．７．第１の実施形態の変形例］
　上記では、人体のパーツ位置を、人体の中心位置と人体の中心位置を基準としたパーツの相対位置とに分離して扱う場合を主に説明した。しかし、人体のパーツ位置は、人体の中心位置とパーツの相対位置とに分離して扱われなくてもよい。このとき、例えば、人体の中心位置とパーツの相対位置とを足し合わせることによって、パーツ位置を計算する処理などは省略され得る。また、ずらし処理におけるラベル位置の移動は、人体の中心位置の代わりに、パーツ位置に対して行われればよい。

　以上、本開示の第１の実施形態について説明した。

　＜２．第２の実施形態＞
　続いて、本開示の第２の実施形態について説明する。

　［２．１．背景］
　本開示の第１の実施形態と同様に、本開示の第２の実施形態においても、画像に写る被写体として、人体を例に挙げて説明する。しかし、画像に写る被写体は、人体に限定されない。また、本開示の第１の実施形態と同様に、本開示の第２の実施形態においても、被写体の所定の領域として、人体のパーツ（部位）を例に挙げて説明する。

　ここで、例えば、複数の人体の中心位置同士が近い場合または重なる場合など（例えば、複数の人が密集しやすいシーンなど）が想定される。例えば、複数の人が密集しやすいシーンの例としては、街頭シーン、スポーツシーン、群衆シーンなどが想定される。

　図１８は、中心位置が重なる例を説明するための図である。図１８を参照すると、画像Ｇ６１に写る一つ目の人体の中心位置ｃ１と、一つ目の人体を囲う矩形領域Ｒ６１が示されている。また、画像Ｇ６１に写る二つ目の人体の中心位置ｃ２と、二つ目の人体を囲う矩形領域Ｒ６２が示されている。画像Ｇ６１、画像Ｇ６２、画像Ｇ６３と時間が進むにつれて、中心位置ｃ１と中心位置ｃ２とが近づき重なってしまっている。

　この例のように、複数の人体の中心位置同士が近い場合または重なる場合などには、複数の人体それぞれのパーツの位置が離れていたとしても、複数の人体の中心位置同士があまり区別されないまま学習処理が行われてしまう。これによって、学習結果に基づく複数の人体のパーツ位置それぞれが分離して推定されずに、複数の人体のパーツ位置の推定精度が向上しないことが想定される。

　特に計算コスト削減のために、推定結果の解像度を低くしたいという要求があり得る。しかし、推定結果の解像度を低くするほど、中心位置同士が重なってしまう可能性が高くなると考えられる。

　そこで、画像に写る被写体を囲う矩形領域（バウンディングボックス）の中心位置とその矩形領域内に存在する点との距離を数値化したインデックス（センターネス）を学習処理に導入する技術（以下、「開示技術２」とも言う。）が開示されている。かかる開示技術２によれば、センターネスが導入された学習処理の結果に基づいて、被写体の中心位置が推定され得る。

　図１９を参照しながら、開示技術２について説明する。図１９は、開示技術２について説明するための図である。図１９を参照すると、画像Ｇ９２が示されている。また、図１９を参照すると、画像Ｇ９２に写る人体Ｂ９１を囲う矩形領域Ｒ９１（バウンディングボックス）が示されており、その矩形領域Ｒ９１内に存在する点から、矩形領域Ｒ９１までの上下左右の各距離が（ｔ，ｂ，ｌ，ｒ）として示されている。

　開示技術２においては、かかる距離（ｔ，ｂ，ｌ，ｒ）を数値化したインデックス（センターネス）が学習される。かかる開示技術２によれば、センターネスが導入された学習処理の結果に基づいてセンターネスが推定され、推定されたセンターネスに基づいて人体Ｂ９１の中心位置が推定される。しかし、開示技術２においては、人体Ｂ９１の中心位置の推定のために、センターネスを加重平均する必要がある。

　さらに、同様の手法によって、パーツの位置を推定することも考えられる。これによって、複数の人体の中心位置同士が近い場合または重なる場合などにおいても、学習結果に基づく人体のパーツの位置の推定精度が向上するとも考えられる。しかし、パーツの位置の推定のために、パーツの位置を加重平均する必要がある。したがって、パーツの位置を加重平均するための計算コストが大きくなってしまう。

　そこで、本開示の第２の実施形態においては、複数の人体の中心位置同士が近い場合または重なる場合などにおいても、計算コストを低減しながら、人体パーツの位置をより高精度に推定することが可能な技術について主に提案する。

　以上、本開示の第２の実施形態の背景について説明した。

　［２．２．学習段階の詳細］
　続いて、図２０～図２４を参照しながら、本開示の第２の実施形態に係る情報処理システム１０によって実行される学習段階の詳細について説明する。

　（学習用ＤＢ）
　学習用ＤＢには、入力画像とラベルとが対応付けられて格納されている。入力画像とラベルとは、学習処理に用いられる教師データに該当する。ラベルは、入力画像に写る人体の中心位置Ｃ^ｎ（ｎ＝０～Ｎ－１：ただし、Ｎは人数）と、人体の中心位置Ｃ_ｎを基準としたパーツｋ（ｋ＝０～Ｋ－１：ただし、Ｋはパーツ数）の相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）とが対応付けられてなる。

　図２０は、ＣＮＮ学習部１１８の機能について説明するための図である。図２０を参照すると、入力画像Ｇ５１が示されている。入力画像Ｇ５１には、被写体の例として人体Ｂ１１（第１の被写体）および人体Ｂ１２（第２の被写体）が写っている。このとき、ＣＮＮ学習部１１８は、入力画像Ｇ５１に対応するラベルとして、人体Ｂ１１に対応するラベルと、人体Ｂ１２に対応するラベルとを取得する。ここでは、パーツとして、右目を例に挙げて説明するが、パーツは、右目に限定されない。

　より詳細に、ＣＮＮ学習部１１８は、人体Ｂ１１に対応するラベルとして、人体Ｂ１１の中心位置ｃ１（ｃｘ１，ｃｙ１）と、人体Ｂ１１の中心位置ｃ１を基準とした右目パーツの相対位置Ｐ１（Ｐｘ１、Ｐｙ１）とを取得する。ここで、人体Ｂ１１の中心位置は、「第１の基準位置」の例に該当する。また、相対位置Ｐ１（Ｐｘ１、Ｐｙ１）は、「第１の相対位置」の例に該当する。

　また、ＣＮＮ学習部１１８は、人体Ｂ１２に対応するラベルとして、人体Ｂ１２の中心位置ｃ２（ｃｘ２，ｃｙ２）と、人体の中心位置ｃ２を基準とした右目パーツの相対位置Ｐ２（Ｐｘ２、Ｐｙ２）とを取得する。ここで、人体Ｂ１２の中心位置は、「第２の基準位置」の例に該当する。また、相対位置Ｐ２（Ｐｘ２、Ｐｙ２）は、「第２の相対位置」の例に該当する。

　続いて、ＣＮＮ学習部１１８は、人体Ｂ１１の中心位置ｃ１（ｃｘ１，ｃｙ１）と人体Ｂ１２の中心位置ｃ２（ｃｘ２，ｃｙ２）とを遠ざける処理（以下、「移動処理」とも言う。）を行う。これによって、人体Ｂ１１および人体Ｂ１２の元の中心位置同士が近い場合または重なる場合などにおいても、中心位置同士が区別された上で学習されるため、学習結果に基づく複数の人体のパーツ位置それぞれが分離して推定されるようになり、パーツの位置がより高精度に推定されることが期待される。

　図２０を参照すると、入力画像Ｇ５２が示されており、中心位置ｃ１（ｃｘ１，ｃｙ１）と中心位置ｃ２（ｃｘ２，ｃｙ２）とを遠ざける移動処理が行われた結果として、中心位置ｃ１’（ｃｘ１’，ｃｙ１’）と中心位置ｃ２’（ｃｘ２’，ｃｙ２’）とが示されている。中心位置ｃ１’（ｃｘ１’，ｃｙ１’）は、第３の基準位置の例に該当し、中心位置ｃ２’（ｃｘ２’，ｃｙ２’）は、第４の基準位置の例に該当する。

　なお、図２０に示された例では、中心位置ｃ１（ｃｘ１，ｃｙ１）の移動方向と中心位置ｃ２（ｃｘ２，ｃｙ２）の移動方向とは逆向きである。しかし、中心位置ｃ１（ｃｘ１，ｃｙ１）の移動方向と中心位置ｃ２（ｃｘ２，ｃｙ２）の移動方向とは逆向きでなくてもよい。さらに、図２０に示された例では、中心位置ｃ１（ｃｘ１，ｃｙ１）の移動距離と中心位置ｃ２（ｃｘ２，ｃｙ２）の移動距離とが同じである。しかし、中心位置ｃ１（ｃｘ１，ｃｙ１）の移動距離と中心位置ｃ２（ｃｘ２，ｃｙ２）の移動距離とは、同じでなくてもよい。

　ＣＮＮ学習部１１８は、中心位置ｃ１（ｃｘ１，ｃｙ１）と中心位置ｃ２（ｃｘ２，ｃｙ２）とを遠ざける移動処理に応じて、相対位置Ｐ１（Ｐｘ１、Ｐｙ１）を更新する。より詳細に、ＣＮＮ学習部１１８は、相対位置Ｐ１（Ｐｘ１、Ｐｙ１）から、中心位置ｃ１（ｃｘ１，ｃｙ１）の移動ベクトル（ｃｘ１’－ｃｘ１，ｃｙ１’－ｃｙ１）を引くことによって、更新後のＰ１’（Ｐｘ１＋ｃｘ１－ｃｘ１’，Ｐｙ１＋ｃｙ１－ｃｙ１’）を得る。なお、更新後の相対位置Ｐ１’は、第３の相対位置の例に該当する。

　ＣＮＮ学習部１１８は、中心位置ｃ１（ｃｘ１，ｃｙ１）と中心位置ｃ２（ｃｘ２，ｃｙ２）とを遠ざける移動処理に応じて、相対位置Ｐ２（Ｐｘ２、Ｐｙ２）を更新する。より詳細に、ＣＮＮ学習部１１８は、相対位置Ｐ２（Ｐｘ２、Ｐｙ２）から、中心位置ｃ２（ｃｘ２，ｃｙ２）の移動ベクトル（ｃｘ２’－ｃｘ２，ｃｘ２’－ｃｘ２）を引くことによって、更新後のＰ２’（Ｐｘ２＋ｃｘ２－ｃｘ２’，Ｐｙ２＋ｃｙ２－ｃｙ２’）を得る。なお、更新後の相対位置Ｐ２’は、第４の相対位置の例に該当する。

　また、本開示の第２の実施形態では、中心位置ｃ１（ｃｘ１，ｃｙ１）および中心位置ｃ２（ｃｘ２，ｃｙ２）の双方が移動する場合を主に想定する。しかし、中心位置ｃ１（ｃｘ１，ｃｙ１）が移動し、中心位置ｃ２（ｃｘ２，ｃｙ２）が移動しなくてもよい。このとき、移動後の中心位置ｃ１’（ｃｘ１’，ｃｙ１’）が、第３の基準位置の例に該当し、中心位置ｃ２（ｃｘ２，ｃｙ２）が、第４の基準位置の例に該当する。

　あるいは、中心位置ｃ２（ｃｘ２，ｃｙ２）が移動し、中心位置ｃ１（ｃｘ１，ｃｙ１）が移動しなくてもよい。このとき、中心位置ｃ１（ｃｘ１，ｃｙ１）が、第３の基準位置の例に該当し、移動後の中心位置ｃ２’（ｃｘ２’，ｃｙ２’）が、第４の基準位置の例に該当する。このように、本開示の第２の実施形態は、中心位置ｃ１（ｃｘ１，ｃｙ１）および中心位置ｃ２（ｃｘ２，ｃｙ２）のうちのいずれか一方のみが移動する場合にも適用される。

　図２１は、二つの人体の中心位置同士を遠ざける処理を模式的に示した図である。図２１を参照すると、画像Ｇ５１に写る二つの人体は図示が省略されているが、二つの人体それぞれを囲う矩形領域Ｒ１および矩形領域Ｒ２が示されている。また、一つ目の人体の中心位置Ｃ１および二つ目の人体の中心位置Ｃ２が示されている。中心位置Ｃ１と中心位置Ｃ２とを遠ざける処理が行われると、中心位置Ｃ１および中心位置Ｃ２は、それぞれ矢印が示す方向に移動する。

　図２２は、四つの人体の中心位置同士を遠ざける処理を模式的に示した図である。図２２を参照すると、画像Ｇ６１に写る四つの人体は図示が省略されているが、四つの人体の中心位置Ｃ１～Ｃ４が示されている。中心位置Ｃ１～Ｃ４を遠ざける処理が行われると、中心位置Ｃ１～Ｃ４それぞれは、それぞれ矢印が示す方向に移動する。なお、遠ざける処理が行われる中心位置の数は、複数であれば限定されない。

　ＣＮＮ学習部１１８は、学習用ＤＢから取得した画像と、変更後のラベルとに基づいて、学習処理を行う。ここで、学習処理の具体的な手法は限定されない。

　例えば、ＣＮＮ学習部１１８は、画像をＣＮＮに入力させたことに基づいてＣＮＮから出力される、人体の中心位置Ｃ^ｎ、および、人体の中心位置Ｃ_ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）と、対応するラベルとの誤差を算出し、算出した誤差の重み付き和を逆伝播（ｂａｃｋ　ｐｒｏｐａｇａｔｉｏｎ）させることによって（誤差逆伝播法を用いて）、ＣＮＮの重みを更新する。例えば、重みの更新手法としては、確率的勾配降下法（ＳＧＤ）が用いられてよい。しかし、重みの更新手法は、ＳＧＤに限定されない。

　重みの更新が終わると、学習用ＤＢから新たに取得される画像およびラベルに基づく重みの更新が行われる。そして、所定の回数の重み更新が終わった場合、学習処理が終了される。ここで、本開示の第１の実施形態と同様に、所定の回数は限定されない。

　（学習段階の流れ）
　続いて、図２３を参照しながら、本開示の第２の実施形態に係る学習段階の流れの例について説明する。図２３は、本開示の第２の実施形態に係る学習段階の流れの例を示すフローチャートである。なお、図２３に示したフローチャートは、本開示の第２の実施形態に係る学習段階の流れの一例を示しているに過ぎない。したがって、本開示の第２の実施形態に係る学習段階の流れは、図２３のフローチャートに示された例に限定されない。ここでは、説明を簡便にするため、画像が１枚であり、パーツが１つである場合を想定する。

　図２３に示されるように、ＣＮＮ学習部１１８は、学習用ＤＢから画像およびラベルを取得する（Ｓ２０１）。そして、ＣＮＮ学習部１１８は、画像に写る全員分の人体の中心位置ｃを計算し、中心位置ｃを新しい中心位置ｃ’に保存する（Ｓ２０２）。

　ＣＮＮ学習部１１８は、中心位置ｃ同士の距離が閾値よりも小さい組み合わせがあるか否かを判定する（Ｓ２０３）。ＣＮＮ学習部１１８は、中心位置ｃ同士の距離が閾値よりも小さい組み合わせがある場合には（Ｓ２０３において「ＹＥＳ」）、その組み合わせの中心位置ｃ同士を遠ざける移動処理を行って、新しい中心位置ｃ’を計算する（Ｓ２０４）。そして、Ｓ２０３に動作が移行される。一方、ＣＮＮ学習部１１８は、中心位置ｃ同士の距離が閾値よりも小さい組み合わせがない場合には（Ｓ２０３において「ＮＯ」）、画像に写る全員分の人体に関して、中心位置ｃ’を基準としたパーツの相対位置（ｘ’，ｙ’）を計算する（Ｓ２０５）。

　ＣＮＮ学習部１１８は、画像と、画像に写る全員分の人体の中心位置ｃ’およびパーツの相対位置（ｘ’，ｙ’）に基づいて、学習処理を行う。学習処理によって学習結果ＣＮＮが生成され、記憶部１４０に記憶される。

　（中心位置同士を遠ざける処理の具体例）
　続いて、図２４を参照しながら、複数の人体の中心位置同士を遠ざける処理の具体例について説明する。かかる具体例は、バネモデルおよびクーロン力を用いたモデルを使う例である。ここで、クーロン力は、中心位置同士に働く反発力に該当する。反発力は、中心位置同士が近くなりすぎないようにするために寄与する。バネモデルは、本来の中心位置と計算し直した中心位置との間に引き合う力に該当する。引き合う力は、中心位置が元の位置から遠くなりすぎないようにするために寄与する。

　図２４は、複数の人体の中心位置同士を遠ざける処理の具体例を示すフローチャートである。なお、図２４に示された例において、ｅｎｅｒｇｙ、ｆｏｒｃｅ、ｄ、ｄｃそれぞれは、値を格納可能な変数である。また、ｄｉｓｔは、２点間の距離を算出する関数である。ＥＮＤ＿ＥＮＥＲＧＹは、定数である。

　ＣＮＮ学習部１１８は、元の中心位置を保存する（Ｓ２２１）。すなわち、ＣＮＮ学習部１１８は、中心位置ｃ^０をＣ^０に保存し、…中心位置ｃ^Ｎ－１をＣ^Ｎ－１に保存する。ＣＮＮ学習部１１８は、ｅｎｅｒｇｙがＥＮＤ＿ＥＮＥＲＧＹよりも大きい場合に以降の処理を繰り返す（Ｓ２２３）。

　ＣＮＮ学習部１１８は、ｅｎｅｒｇｙに０を代入する（Ｓ２２４）。そして、ＣＮＮ学習部１１８は、人単位の繰り返し処理（ｎ＝０～Ｎ－１の場合）を開始する（Ｓ２２５）。まず、ＣＮＮ学習部１１８は、ｆｏｒｃｅに（０，０）を代入する（Ｓ２２６）。そして、ＣＮＮ学習部１１８は、人単位の繰り返し処理（ｍ＝０～Ｎ－１の場合）を開始する（Ｓ２３１）。ＣＮＮ学習部１１８は、ｍとｎが等しい場合には（Ｓ２３２において「ＮＯ」）、人単位の繰り返し処理（ｍ＝０～Ｎ－１の場合）の終端に動作を移行させる。

　一方、ＣＮＮ学習部１１８は、ｍとｎが等しくない場合には（Ｓ２３２において「ＹＥＳ」）、ｃ^ｎとｃ^ｍとの距離ｄｉｓｔ（ｃ^ｎ，ｃ^ｍ）を計算し、ｄに代入する（Ｓ２３３）。ＣＮＮ学習部１１８は、ｄに応じた斥力をｆｏｒｃｅに加算し（Ｓ２３５）、人単位の繰り返し処理（ｍ＝０～Ｎ－１の場合）の終端（Ｓ２３６）に動作を移行させる。

　人単位の繰り返し処理（ｍ＝０～Ｎ－１の場合）が終わると、ＣＮＮ学習部１１８は、ｃ^ｎとＣ^ｎとの距離ｄｉｓｔ（ｃ^ｎ，Ｃ^ｎ）を計算し、ｄｃに代入する（Ｓ２４１）。ＣＮＮ学習部１１８は、ｄｃに応じた引力をｆｏｒｃｅから減算する（Ｓ２４３）。ＣＮＮ学習部１１８は、ｆｏｒｃｅに基づいて中心位置ｃ^ｎを更新する（Ｓ２４５）。ＣＮＮ学習部１１８は、更新後の中心位置ｃ^ｎに基づいて、ｅｎｅｒｇｙを更新する（Ｓ２４６）。

　そして、ＣＮＮ学習部１１８は、人単位の繰り返し処理（ｎ＝０～Ｎ－１の場合）の終端（Ｓ２５１）に動作を移行させる。ＣＮＮ学習部１１８は、人単位の繰り返し処理（ｎ＝０～Ｎ－１の場合）が終わり、ｅｎｅｒｇｙがＥＮＤ＿ＥＮＥＲＧＹ以下となった場合に繰り返し処理を終了させる（Ｓ２５３）。

　以上、本開示の第２の実施形態に係る情報処理システム１０によって実行される学習段階の詳細について説明した。

　［２．３．認識段階の詳細］
　続いて、本開示の第２の実施形態に係る情報処理システム１０によって実行される認識段階の詳細について説明する。

　ここで、本開示の第２の実施形態においても、ＣＮＮ認識処理部１１２が、センサ部１３０によって検出された画像を認識用画像として取得する場合を主に想定する。しかし、本開示の第１の実施形態と同様に、ＣＮＮ認識処理部１１２は、他の場所から認識用画像を取得してもよい。また、学習結果ＣＮＮは、記憶部１４０から取得され得る。しかし、本開示の第１の実施形態と同様に、学習装置と推論装置とが別のコンピュータによって実現されている場合などには、学習結果ＣＮＮは、学習装置から送信されて推論装置の通信部１５０によって受信された学習結果ＣＮＮが取得されてもよい。

　さらに、ＣＮＮ認識処理部１１２は、認識用画像と学習結果ＣＮＮとに基づいて、認識処理を行う。より詳細に、ＣＮＮ認識処理部１１２は、認識用画像に写る人体（第２の被写体）の中心位置Ｃ^ｎ（第５の基準位置）と、中心位置Ｃ^ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）（第５の相対位置）とを得る推論部として機能する。ここで、認識処理の具体的な手法は限定されない。例えば、ＣＮＮ認識処理部１１２は、認識用画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ^ｎ、および、人体の中心位置Ｃ_ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）を取得する。

　（出力部１１６）
　出力部１１６は、後処理部１１４によって計算された各パーツ位置に応じた処理を行う。例えば、本開示の第１の実施形態と同様に、出力部１１６は、各パーツ位置の提示部１６０による表示を制御してもよい。

　あるいは、出力部１１６は、後処理部１１４によって計算された人体のパーツ位置が認識用画像における所定のラインを所定の方向に超えているか否かを判定してもよい。一例として、出力部１１６は、後処理部１１４によって計算された人体のパーツ位置がオフサイドラインをゴール方向に超えているか否かを判定してもよい。あるいは、出力部１１６は、後処理部１１４によって計算された複数の人体それぞれの中心位置の数をカウントしてもよい。

　（認識段階の流れ）
　続いて、図２５を参照しながら、本開示の第２の実施形態に係る認識段階の流れの例について説明する。図２５は、本開示の第２の実施形態に係る認識段階の流れの例を示すフローチャートである。なお、図２５に示したフローチャートは、本開示の第２の実施形態に係る認識段階の流れの一例を示しているに過ぎない。したがって、本開示の第１の実施形態に係る認識段階の流れは、図２５のフローチャートに示された例に限定されない。ここでは、説明を簡便にするため、画像が１枚であり、画像に写る人数が１人である場合を想定する。

　図２５に示されるように、ＣＮＮ認識処理部１１２は、センサ部１３０によって検出された画像を学習結果ＣＮＮに入力させる（Ｓ２１１）。そして、ＣＮＮ認識処理部１１２は、画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ、および、人体の中心位置Ｃを基準としたパーツｋの相対位置（ｘ_ｋ、ｙ_ｋ）を取得する。

　後処理部１１４は、人体の中心位置Ｃと、人体の中心位置Ｃを基準としたパーツの相対位置（ｘ、ｙ）とを足し合わせることによって、パーツｋの位置を計算する。これによって、後処理部１１４は、パーツｋの位置を取得する。一例として、出力部１１６は、パーツ位置の提示部１６０による表示を制御してもよい。

　以上、本開示の第２の実施形態に係る情報処理システム１０によって実行される認識段階の詳細について説明した。

　［２．４．適用例］
　本開示の第２の実施形態によれば、複数の人体の中心位置同士が近い場合または重なる場合などにおいて、パーツ位置の推定精度が向上することが期待される。したがって、推定されたパーツ位置を様々な場面に適用することが有用である。まず、推定されたパーツ位置がスポーツシーンに適用される例について説明する。

（スポーツシーンへの適用）
　図２６は、推定されたパーツ位置がスポーツシーンに適用される例を説明するための図である。図２６を参照すると、スポーツの例としてサッカープレイ中のシーンが撮像された画像Ｇ７０が示されている。「ゴール方向」と記載されている方向に、ゴールが設置されている。人体Ｂ１１は、ディフェンス側選手のうち最もゴール側の選手の人体である。また、人体Ｂ１２は、オフェンス側選手のうち最もゴール側の選手の人体である。ここでは、推定されたパーツ位置がオフサイドの判定に用いられる場合を想定する。

　図２７は、オフサイドラインについて説明するための図である。図２７を参照すると、ディフェンス側選手のうち最もゴール側の選手の人体Ｂ１１（図２６）の中心位置Ｃ１と人体Ｂ１１を囲う矩形領域Ｒ７１が示されている。矩形領域Ｒ７１のゴール側のラインＡがオフサイドラインである。また、オフェンス側選手のうち最もゴール側の選手の人体Ｂ１２（図２６）の中心位置Ｃ２と人体Ｂ１２を囲う矩形領域Ｒ７２が示されている。矩形領域Ｒ７２のゴール側のラインＢも示されている。ここでは、「ゴール方向」を「＋方向」とする。

　図２８は、推定されたパーツ位置がオフサイド判定に適用される例を示すフローチャートである。ここでは、説明を簡便にするため、画像が１枚である場合を想定する。図２８に示されるように、ＣＮＮ認識処理部１１２は、センサ部１３０によって検出された画像を学習結果ＣＮＮに入力させる（Ｓ２６１）。そして、ＣＮＮ認識処理部１１２は、画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ^ｎ、および、人体の中心位置Ｃ^ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）を取得する。

　後処理部１１４は、人体の中心位置Ｃ^ｎと、人体の中心位置Ｃ^ｎを基準としたパーツｋの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）とを足し合わせることによって、各人の全パーツｋの位置を計算する（Ｓ２６２）。これによって、後処理部１１４は、各人の全パーツの位置（Ｎ人それぞれのＫ個のパーツ）を取得する。出力部１１６は、画像に写る各人の人体の色などに基づいて、各人のチームを判定する（Ｓ２６３）。

　続いて、出力部１１６は、ディフェンス側選手のうち最もゴール側のパーツ位置Ａの＋方向における座標Ａ（オフサイドライン）を計算する（Ｓ２６４）。続いて、出力部１１６は、オフェンス側選手のうち最もゴール側のパーツ位置の＋方向における座標Ｂ（以下、「オフェンス側先頭ライン」とも言う。）を計算する（Ｓ２６５）。出力部１１６は、座標Ｂが座標Ａ（オフサイドライン）を＋方向に超えているかを判定する（Ｓ２６６）。

　出力部１１６は、座標Ｂ（オフェンス側先頭ライン）が座標Ａ（オフサイドライン）を＋方向に超えていないと判定された場合には（Ｓ２６６において「ＮＯ」）、オフサイドではないと判定する（Ｓ２６７）。一方、出力部１１６は、座標Ｂ（オフェンス側先頭ライン）が座標Ａ（オフサイドライン）を＋方向に超えていると判定された場合には（Ｓ２６６において「ＹＥＳ」）、オフサイドであると判定する（Ｓ２６８）。そして、出力部１１６は、審判の端末にアラートを送信するよう通信部１５０を制御する（Ｓ２６９）。

　なお、図２６～図２８に示された例では、オフェンス側先頭ラインがオフサイドラインをゴール方向に超えているか否かを判定する例を説明した。しかし、出力部１１６は、後処理部１１４によって計算された人体のパーツ位置が認識用画像におけるオフサイドライン以外のラインを所定の方向に超えているか否かを判定してもよい。例えば、出力部１１６は、認識用画像に写るラインを認識し、人体のパーツ位置がラインはみ出し（例えば、サッカーまたはバスケットボールなどにおけるラインはみ出し）をしたか否かを判定してもよい。

　続いて、推定されたパーツ位置が街頭シーンに適用される例について説明する。

（街頭シーンへの適用）
　図２９は、推定されたパーツ位置が街頭シーンに適用される例を説明するための図である。図２９を参照すると、街頭シーンが撮像された画像Ｇ８０が示されている。画像Ｇ８０の領域Ｒ８１および領域Ｒ８２などには、互いに重なり合う複数の人が写っている。例えば、出力部１１６は、後処理部１１４によって計算された複数の人体それぞれの中心位置の数（すなわち、人数）をカウントしてもよい。上記したように、本開示の第２の実施形態では、中心位置同士が遠ざかるように学習が行われるため、中心位置同士が近い場合または重なっている場合であっても、高精度に中心位置の数がカウントされると考えられる。

　［２．５．第２の実施形態の効果］
　本開示の第２の実施形態によれば、複数の人体の中心位置同士が近い場合または重なる場合などにおいても、中心位置同士が遠ざけられてから中心位置同士が区別された上で学習されるため、学習結果に基づく複数の人体のパーツ位置それぞれが分離して推定されるようになり、パーツの位置がより高精度に推定されることが期待される。これによって、推定結果の解像度が低い場合であってもパーツの位置がより高精度に推定され得る。

　さらに、パーツの位置がより高精度に推定されるため、推定結果の解像度を低くすることが可能となり、計算量を低減することができる。また、本開示の第２の実施形態によれば、中心位置とその中心位置を基準としたパーツの相対位置との足し合わせに基づいて、パーツ位置が簡易に求められるため、パーツ位置の推定に要する計算コストが低減される。

　以上、本開示の第２の実施形態について説明した。

　＜３．実施形態の組み合わせ＞
　上記では、本開示の第１の実施形態と本開示の第２の実施形態とを別々に説明した。しかし、本開示の第１の実施形態と本開示の第２の実施形態とは、必ずしも別々に実施されなくてはならない訳ではなく、適宜に組み合わされて実施されてよい。以下では、図３０および図３１を参照しながら、本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合における情報処理システム１０の動作の例について説明する。

（学習段階の流れ）
　図３０は、本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の学習段階の流れの例を示すフローチャートである。ここでは、説明を簡便にするため、画像が１枚である場合を想定する。

　図３０に示されるように、ＣＮＮ学習部１１８は、学習用ＤＢから入力画像Ｉを取得し、ラベルを取得する（Ｓ３００）。ラベルは、入力画像Ｉに写る人体の中心位置Ｃ^ｎ（ｎ＝０～Ｎ－１：ただし、Ｎは人数）と、人体の中心位置Ｃ_ｎを基準としたパーツｋ（ｋ＝０～Ｋ－１：ただし、Ｋはパーツ数）の相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）と、パーツｋの存否情報ｖ^ｎ _ｋとが対応付けられてなる。ＣＮＮ学習部１１８は、中心位置ｃを新しい中心位置ｃ’に保存する（Ｓ３０１）。

　そして、ＣＮＮ学習部１１８は、同一画像内の中心位置の組み合わせｃ^ｎ，ｃ^ｍについてｄｉｓｔａｎｃｅ（ｃ^ｎ，ｃ^ｍ）＜ＴＨ’となるケースがあるかを判定する（Ｓ３０２）。ＣＮＮ学習部１１８は、ｄｉｓｔａｎｃｅ（ｃ^ｎ，ｃ^ｍ）＜ＴＨ’となるケースがある場合（Ｓ３０２において「ＹＥＳ」）、ｃ^ｎとｃ^ｍとが遠ざかるように中心位置を移動し、新しい中心位置ｃ^’ｎ，ｃ^’ｍを計算する（Ｓ３０３）。そして、Ｓ３０２に動作が移行される。

　一方、ＣＮＮ学習部１１８は、ｄｉｓｔａｎｃｅ（ｃ^ｎ，ｃ^ｍ）＜ＴＨ’となるケースがない場合（Ｓ３０２において「ＮＯ」）、Ｓ３０４に動作を移行させる。ＣＮＮ学習部１１８は、新しいＣ^ｎに基づいて、相対位置（ｘ^’ｎ _ｋ，ｙ^’ｎ _ｋ）とパーツｋの存否情報ｖ^’ｎ _ｋとを計算する（Ｓ３０４）。

　続いて、ＣＮＮ学習部１１８は、画像Ｉに対して画像位置およびラベル位置のずらし処理と一部領域に対する隠蔽処理とによって画像Ｉ’を計算する（Ｓ３０５）。そして、ＣＮＮ学習部１１８は、ずらし処理と隠蔽処理とに基づいたｃ^’’ｎ，ｖ^’’ｎ _ｋを計算する（Ｓ３０６）。ＣＮＮ学習部１１８は、ずらし処理と隠蔽処理とが施された後の画像Ｉ’と、変更後のラベルである、ｘ^’ｎ _ｋ，ｙ^’ｎ _ｋ，ｃ^’’ｎ，ｖ^’’ｎ _ｋとに基づいて、学習処理を行う（Ｓ３０７）。学習処理によって学習結果ＣＮＮが生成され、記憶部１４０に記憶される。

　以上、本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の学習段階の流れについて説明した。

（認識段階の流れ）
　図３１は、本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の認識段階の流れの例を示すフローチャートである。ここでは、説明を簡便にするため、画像が１枚である場合を想定する。

　図３１に示されるように、ＣＮＮ認識処理部１１２は、センサ部１３０によって検出された画像を学習結果ＣＮＮに入力させる（Ｓ３２１）。そして、ＣＮＮ認識処理部１１２は、画像を学習結果ＣＮＮに入力させたことに基づいて学習結果ＣＮＮから出力される、人体の中心位置Ｃ^ｎを取得する（Ｓ３２２）。

　後処理部１１４は、人単位の繰り返し処理（ｎ＝０～Ｎ－１）を開始する（Ｓ３２３）。後処理部１１４は、中心位置Ｃ^ｎに紐づいたパーツの相対位置（ｘ^ｎ _ｋ、ｙ^ｎ _ｋ）と存在確率ｅ^ｎ _ｋを認識する（Ｓ３２４）。後処理部１１４は、人体の中心位置Ｃと、人体の中心位置Ｃを基準としたパーツの相対位置（ｘ、ｙ）とを足し合わせることによって、パーツｋの位置を計算する。後処理部１１４は、パーツｋの存在確率ｅとあらかじめ定められた閾値ＴＨとを比較する（Ｓ３２５）。

　出力部１１６は、パーツｋの存在確率ｅが閾値ＴＨ以下である場合には（Ｓ３２５において「ＮＯ」）、そのパーツｋの位置を示す情報を提示部１６０に出力するとともに、そのパーツｋが見えないパーツであることを提示部１６０に出力する（Ｓ３２７）。提示部１６０は、出力部１１６による制御に従って、パーツｋの位置を示す情報を提示するとともに、そのパーツｋが見えないパーツであることを提示する。その後、人単位の繰り返し処理の終端（Ｓ３２８）に動作が移行される。

　一方、出力部１１６は、パーツｋの存在確率ｅが閾値ＴＨより大きい場合には（Ｓ３２５において「ＹＥＳ」）、そのパーツｋの位置を示す情報を提示部１６０に出力する（Ｓ３２６）。提示部１６０は、出力部１１６による制御に従って、パーツｋの位置を示す情報を提示する。その後、人単位の繰り返し処理の終端（Ｓ３２８）に動作が移行される。

　Ｓ３２８に動作が移行すると、人単位の繰り返し処理がＮ回実行されていない場合には、人単位の繰り返し処理の始端（Ｓ３２３）に動作が移行される。一方、人単位の繰り返し処理がＮ回実行された場合には、認識段階が終了する。

　以上、本開示の第１の実施形態と本開示の第２の実施形態とを組み合わせた場合の認識段階の流れについて説明した。

　＜４．ハードウェア構成例＞
　次に、図３２を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成例について説明する。図３２は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。なお、情報処理システム１０は、必ずしも図３２に示したハードウェア構成の全部を有している必要はなく、情報処理システム１０の中に、図３２に示したハードウェア構成の一部は存在しなくてもよい。

　図３２に示すように、情報処理システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、ボタンなど、ユーザによって操作される装置である。入力装置９１５は、マウス、キーボード、タッチパネル、スイッチおよびレバーなどを含んでもよい。また、入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音出力装置などであり得る。また、出力装置９１７は、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、プロジェクタ、ホログラム、プリンタ装置などを含んでもよい。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続されるネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　＜５．むすび＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、
　を備える、推論装置。
（２）
　前記推論装置は、前記第２の被写体の所定の領域の位置と前記存在確率とに応じた制御を行う出力部を備える、
　前記（１）に記載の推論装置。
（３）
　前記出力部は、前記第２の被写体の所定の領域の位置と前記存在確率とに応じた情報の提示を制御する、
　前記（２）に記載の推論装置。
（４）
　前記出力部は、前記存在確率が閾値よりも大きい場合に、前記第２の被写体の所定の領域の位置を示す情報の提示を制御する、
　前記（３）に記載の推論装置。
（５）
　前記出力部は、前記存在確率が前記閾値以下である場合に、前記第２の被写体の所定の領域の位置を示す情報の提示を制御するとともに、前記第２の被写体の所定の領域が前記第２の画像データに存在しないことの提示を制御する、
　前記（４）に記載の推論装置。
（６）
　前記出力部は、前記閾値を変更するための操作オブジェクトの提示を制御する、
　前記（４）または（５）に記載の推論装置。
（７）
　前記出力部は、前記第２の被写体の所定の領域の位置を示す情報の提示を制御するとともに、前記存在確率を示す情報の提示を制御する、
　前記（３）に記載の推論装置。
（８）
　前記出力部は、前記第２の被写体の所定の領域の位置と前記存在確率とに基づいて所定の機能を制御する、
　前記（２）に記載の推論装置。
（９）
　前記出力部は、前記所定の機能としてオートフォーカスを制御する、
　前記（８）に記載の推論装置。
（１０）
　前記出力部は、前記第２の被写体の所定の領域の位置の被写体までのデプス値を取得し、前記デプス値に基づいて前記オートフォーカスを制御する、
　前記（９）に記載の推論装置。
（１１）
　前記取得部は、前記第１の画像データに対して所定の処理が施された後の第３の画像データと、前記第３の画像データに写る前記第１の被写体の所定の領域の位置と、前記第３の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、前記第２の画像データとを取得し、
　前記推論部は、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る前記第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の所定の領域の存在確率とを得る、
　前記（１）～（１０）のいずれか一項に記載の推論装置。
（１２）
　前記所定の処理は、前記第１の画像データを構成する複数の画素データを移動させる処理を含む、
　前記（１）～（１１）のいずれか一項に記載の推論装置。
（１３）
　前記所定の処理は、前記第１の画像データの一部の領域を所定の画像データに置換する処理を含む、
　前記（１）～（１２）のいずれか一項に記載の推論装置。
（１４）
　前記第１の被写体の所定の領域の位置は、前記第１の被写体の基準位置と、前記第１の被写体の基準位置を基準とした前記第１の被写体の所定の領域の相対位置とに分かれており、
　前記第２の被写体の所定の領域の位置は、前記第２の被写体の基準位置と、前記第２の被写体の基準位置を基準とした前記第２の被写体の所定の領域の相対位置とに分かれている、
　前記（１）～（１３）のいずれか一項に記載の推論装置。
（１５）
　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得することと、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得ることと、
　を備える、推論方法。
（１６）
　コンピュータを、
　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、
　を備える推論装置として機能させるプログラム。

　１０　　情報処理システム
　１１０　制御部
　１２０　操作部
　１３０　センサ部
　１４０　記憶部
　１５０　通信部
　１６０　提示部
　１１２　ＣＮＮ認識処理部
　１１４　後処理部
　１１６　出力部
　１１８　ＣＮＮ学習部

Claims

　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、
　を備える、推論装置。
　前記推論装置は、前記第２の被写体の所定の領域の位置と前記存在確率とに応じた制御を行う出力部を備える、
　請求項１に記載の推論装置。
　前記出力部は、前記第２の被写体の所定の領域の位置と前記存在確率とに応じた情報の提示を制御する、
　請求項２に記載の推論装置。
　前記出力部は、前記存在確率が閾値よりも大きい場合に、前記第２の被写体の所定の領域の位置を示す情報の提示を制御する、
　請求項３に記載の推論装置。
　前記出力部は、前記存在確率が前記閾値以下である場合に、前記第２の被写体の所定の領域の位置を示す情報の提示を制御するとともに、前記第２の被写体の所定の領域が前記第２の画像データに存在しないことの提示を制御する、
　請求項４に記載の推論装置。
　前記出力部は、前記閾値を変更するための操作オブジェクトの提示を制御する、
　請求項４に記載の推論装置。
　前記出力部は、前記第２の被写体の所定の領域の位置を示す情報の提示を制御するとともに、前記存在確率を示す情報の提示を制御する、
　請求項３に記載の推論装置。
　前記出力部は、前記第２の被写体の所定の領域の位置と前記存在確率とに基づいて所定の機能を制御する、
　請求項２に記載の推論装置。
　前記出力部は、前記所定の機能としてオートフォーカスを制御する、
　請求項８に記載の推論装置。
　前記出力部は、前記第２の被写体の所定の領域の位置の被写体までのデプス値を取得し、前記デプス値に基づいて前記オートフォーカスを制御する、
　請求項９に記載の推論装置。
　前記取得部は、前記第１の画像データに対して所定の処理が施された後の第３の画像データと、前記第３の画像データに写る前記第１の被写体の所定の領域の位置と、前記第３の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、前記第２の画像データとを取得し、
　前記推論部は、前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る前記第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の所定の領域の存在確率とを得る、
　請求項１に記載の推論装置。
　前記所定の処理は、前記第１の画像データを構成する複数の画素データを移動させる処理を含む、
　請求項１に記載の推論装置。
　前記所定の処理は、前記第１の画像データの一部の領域を所定の画像データに置換する処理を含む、
　請求項１に記載の推論装置。
　前記第１の被写体の所定の領域の位置は、前記第１の被写体の基準位置と、前記第１の被写体の基準位置を基準とした前記第１の被写体の所定の領域の相対位置とに分かれており、
　前記第２の被写体の所定の領域の位置は、前記第２の被写体の基準位置と、前記第２の被写体の基準位置を基準とした前記第２の被写体の所定の領域の相対位置とに分かれている、
　請求項１に記載の推論装置。
　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得することと、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得ることと、
　を備える、推論方法。
　コンピュータを、
　第１の画像データと、前記第１の画像データに写る第１の被写体の所定の領域の位置と、前記第１の画像データに前記第１の被写体の前記所定の領域が存在するか否かを示す存否情報とに基づいて得られた学習済みモデルと、第２の画像データとを取得する取得部と、
　前記学習済みモデルと前記第２の画像データとに基づいて、前記第２の画像データに写る第２の被写体の所定の領域の位置と、前記第２の画像データにおける前記第２の被写体の前記所定の領域の存在確率とを得る推論部と、
　を備える推論装置として機能させるプログラム。