WO2022269891A1

WO2022269891A1 - 画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム

Info

Publication number: WO2022269891A1
Application number: PCT/JP2021/024093
Authority: WO
Inventors: 俊明久保; 聡道籏
Original assignee: 三菱電機株式会社
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-12-29
Also published as: JPWO2022269891A1

Abstract

画像処理装置（１００）は、異なる地点に存在する複数のカメラ（２００＿１～２００＿６）が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部（１２０）と、複数の画像と対象物画像とを用いて、対象物に関する情報である対象情報を画像毎に検出する検出部（１３０）と、画像毎に検出された対象情報を用いて、複数のカメラ（２００＿１～２００＿６）の中から、対象物を含む、最適な画像を生成したカメラを特定する特定部（１４０）と、を有する。

Description

画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラム

　本開示は、画像処理装置、学習装置、画像処理システム、画像処理方法、生成方法、画像処理プログラム、及び生成プログラムに関する。

　複数のカメラが対象物を撮像する場合がある。複数のカメラが対象物を撮像することにより得られた複数の画像に基づいて、色々な方向から対象物を表示する技術が提案されている（特許文献１を参照）。

特許６５６８６７０号公報

　ところで、複数のカメラが生成した複数の画像の中から、ユーザが見たい画像である最適な画像を、ユーザが用いる端末装置に配信する方法が考えられる。当該方法により、ユーザは、当該端末装置を介して最適な画像を見ることができる。
　複数のカメラの中から、最適な画像を生成したカメラを特定したい場合がある。ここで、ユーザが見たい対象である対象物が移動する場合がある。対象物が移動する場合、１つのカメラが生成する画像が、常に最適な画像ではない。そのため、複数のカメラの中から、どのように、最適な画像を生成したカメラを特定するかが問題である。

　本開示の目的は、最適な画像を生成したカメラを特定することである。

　本開示の一態様に係る画像処理装置が提供される。画像処理装置は、異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する特定部と、を有する。

　本開示によれば、最適な画像を生成したカメラを特定することができる。

実施の形態１の画像処理システムを示す図である。実施の形態１のカメラの配置の例（その１）を示す図である。実施の形態１のカメラの配置の例（その２）を示す図である。実施の形態１の画像処理装置が有するハードウェアを示す図である。実施の形態１の画像処理装置の機能を示すブロック図である。実施の形態１の対象情報を説明する図（その１）を示す図である。（Ａ）～（Ｃ）は、実施の形態１の対象情報を説明する図（その２）を示す図である。実施の形態１の対象情報を説明する図（その３）を示す図である。実施の形態１の対象情報の例を示す図である。実施の形態１の特定情報の例を示す図である。実施の形態１の画像処理装置が実行する処理の例を示すフローチャートである。実施の形態１の画像処理システムで実行される処理の具体例を示す図である。実施の形態１の変形例の画像処理装置の機能を示すブロック図である。実施の形態２の画像処理装置の機能を示すブロック図である。実施の形態２の複数の学習済モデルが用いられる場合の例を示す図である。実施の形態２の１つの学習済モデルが用いられる場合の例を示す図である。実施の形態２のニューラルネットワークの例を示す図である。実施の形態２のランダムフォレストの例を示す図である。実施の形態２の学習装置の機能を示すブロック図である。実施の形態３の画像処理システムを示す図である。実施の形態３の情報処理装置の機能を示すブロック図である。実施の形態４の画像処理装置の機能を示すブロック図である。実施の形態４のイベント用の学習済モデルの例を示す図である。実施の形態５の情報処理装置の機能を示すブロック図である。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１の画像処理システムを示す図である。画像処理システムは、画像処理装置１００及びカメラ２００＿１～２００＿６を含む。画像処理システムは、端末装置３００を含んでもよい。
　画像処理装置１００、カメラ２００＿１～２００＿６、及び端末装置３００は、ネットワークを介して、接続する。なお、ネットワークは、有線ネットワークでもよいし、無線ネットワークでもよい。

　画像処理装置１００は、画像処理方法を実行する装置である。
　カメラ２００＿１は、カメラＡと呼ぶ。カメラ２００＿２は、カメラＢと呼ぶ。カメラ２００＿３は、カメラＣと呼ぶ。カメラ２００＿４は、カメラＤと呼ぶ。カメラ２００＿５は、カメラＥと呼ぶ。カメラ２００＿６は、カメラＦと呼ぶ。図１は、６つのカメラを例示している。カメラの数は、６つに限らない。なお、カメラは、撮像装置とも言う。

　カメラ２００＿１～２００＿６のそれぞれは、同一のイベントを撮影するために設置されたカメラであり、イベントの様子を撮影することが可能であり、かつ、異なる地点に存在する。例えば、カメラ２００＿１は、Ａ地点に存在する。また、カメラ２００＿２は、Ｂ地点に存在する。このように、カメラ２００＿１～２００＿６のそれぞれは、異なる地点に存在する。イベントは、例えば、ライブ、ボクシング、フットサルなどである。以下の説明では、イベントは、ライブとする。
　カメラ２００＿１～２００＿６は、イベントに登場する複数の女性を撮像する。複数の女性は、Ｗ、Ｘ、Ｙ、Ｚである。複数の女性は、歌を歌いながら、踊っている。そのため、複数の女性は、一定の位置に存在しない場合がある。

　以下の説明では、カメラ２００＿１～２００＿６のうちの少なくとも１つは、対象物を撮像するものとする。ここで、対象物は、人、動物、移動する機械などである。また、対象物は、イベントに登場し、イベント中に移動するものでもよい。例えば、対象物は、端末装置３００の画面に表示される、イベントの登場人物の一覧の中から、ユーザが指定した人物でもよい。以下の説明では、対象物は、Ｘとする。

　端末装置３００は、ユーザが用いる装置である。端末装置３００は、画像処理装置１００を介して、対象物Ｘを含む画像（詳細には映像）を取得する。ユーザは、端末装置３００を用いて、対象物Ｘを見ることができる。また、対象物Ｘを含む画像は、最適な画像である。言い換えれば、対象物Ｘを含む画像は、ユーザが見たい画像である。

　ここで、対象物Ｘは、移動する。そのため、１つのカメラが生成する画像が、常に最適な画像ではない。例えば、図１では、カメラＣの正面に対象物Ｘが存在するため、カメラＣが生成する画像が、最適な画像とも言える。しかし、対象物Ｘが移動するため、カメラＣが生成する画像は、常に最適な画像ではない。そこで、以下、画像処理装置１００が、複数のカメラの中から、最適な画像を生成したカメラを特定する方法を説明する。

　図１では、カメラ２００＿１～２００＿６がほぼ一列に配置されている場合を示している。複数のカメラは、次のように配置されてもよい。

　図２は、実施の形態１のカメラの配置の例（その１）を示す図である。図２では、複数のカメラが円形状に配置されていることを示している。なお、図２は、カメラ２００＿７，２００＿８を示している。カメラ２００＿７は、カメラＧとも言う。カメラ２００＿８は、カメラＨとも言う。

　図３は、実施の形態１のカメラの配置の例（その２）を示す図である。図３は、カメラ２００＿７とカメラ２００＿８とが遠方に配置されていることを示している。
　以下の説明では、図１の場合を用いて、説明する。すなわち、カメラＡ～Ｆがほぼ一列に配置されている場合を用いて、説明する。

　次に、画像処理装置１００が有するハードウェアを説明する。
　図４は、実施の形態１の画像処理装置が有するハードウェアを示す図である。画像処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、画像処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、画像処理装置１００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、画像処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、画像処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。

　次に、画像処理装置１００が有する機能を説明する。
　図５は、実施の形態１の画像処理装置の機能を示すブロック図である。画像処理装置１００は、記憶部１１０、取得部１２０、検出部１３０、特定部１４０、選択部１５０、及び出力制御部１６０を有する。

　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
　取得部１２０、検出部１３０、特定部１４０、選択部１５０、及び出力制御部１６０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、検出部１３０、特定部１４０、選択部１５０、及び出力制御部１６０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、画像処理プログラムとも言う。例えば、画像処理プログラムは、記録媒体に記録されている。

　取得部１２０は、カメラＡ～Ｆが生成した複数の画像を取得する。例えば、取得部１２０は、複数の画像をカメラＡ～Ｆから取得する。なお、複数の画像のうちの少なくとも１つには、対象物Ｘが含まれている。

　また、取得部１２０は、対象物画像を取得する。例えば、取得部１２０は、対象物画像を記憶部１１０から取得する。また、例えば、取得部１２０は、対象物画像を端末装置３００から取得する。なお、対象物画像は、対象物Ｘが含まれている画像である。対象物画像は、サンプル画像と呼んでもよい。また、取得部１２０は、対象物Ｘの名称情報を端末装置３００から取得し、当該名称情報に基づいて、対象物画像を記憶部１１０から取得してもよい。

　検出部１３０は、複数の画像と対象物画像とを用いて、対象情報を画像毎に検出する。例えば、検出部１３０は、カメラＡが生成した画像に基づいて対象情報を検出する。また、例えば、検出部１３０は、カメラＢが生成した画像に基づいて対象情報を検出する。このように、検出部１３０は、カメラＡ～Ｆが生成した６つの画像に基づいて６つの対象情報を検出する。また、対象情報には、画像を生成したカメラの識別子が含まれている。例えば、カメラＡが生成した画像に基づいて、検出された対象情報には、カメラＡの識別子が含まれている。

　対象情報とは、画像内における対象物に関する情報である。具体的には、対象情報は、対象物Ｘが画像に含まれているか否かを示す情報、画像内における対象物Ｘの大きさ、画像内における対象物Ｘの位置、対象物Ｘの向き、画像内の対象物Ｘがぼやけているか否かを示す情報、画像内における対象物Ｘの明るさを示す情報、及び対象物Ｘの骨格情報のうちの１つ以上である。しかし、対象情報は、上記の情報に限らない。対象情報は、画像内における対象物Ｘの写り具合に関する情報であれば、他の情報でもよい。

　具体的に、対象情報を説明する。また、以下の説明では、カメラＣが生成した画像に基づいて対象情報が検出される場合を説明する。

　図６は、実施の形態１の対象情報を説明する図（その１）を示す図である。図６の画像４００は、カメラＣが生成した画像である。
　検出部１３０は、画像４００と対象物画像とを用いて、対象物Ｘが画像４００に含まれているか否かを示す情報を作成する。詳細には、検出部１３０は、パターンマッチング、物体認識技術などを用いて、対象物Ｘが画像４００に含まれているか否かを示す情報を作成する。なお、例えば、物体認識技術は、特定物体認識技術である。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、画像４００内における対象物Ｘの大きさを検出する。図６は、対象物Ｘの大きさを、枠４０１で示している。例えば、対象物Ｘの大きさは、枠４０１の面積で示される。また、対象物Ｘの大きさは、基準の大きさよりも大きいか否かを示してもよい。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、画像内における対象物Ｘの位置を検出する。例えば、検出部１３０は、画像４００の中心線と枠４０１の中心線との距離を、対象物Ｘの位置として検出する。また、検出部１３０は、対象物Ｘが画像４００内でどこに存在しているかを検出してもよい。例えば、検出結果は、中央、左、右などである。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、対象物Ｘの向きを検出する。例えば、検出部１３０は、Ｈｅａｄ　Ｐｏｓｅ　Ｅｓｔｉｍａｔｉｏｎを用いて、対象物Ｘの向きを検出する。検出結果を例示する。

　図７（Ａ）～（Ｃ）は、実施の形態１の対象情報を説明する図（その２）を示す図である。図７（Ａ）～（Ｃ）は、検出結果を示している。図７（Ａ）は、対象物Ｘの向きが正面であることを示している。図７（Ａ）の検出結果は、０度を示してもよい。
　図７（Ｂ）は、対象物Ｘの向きが真横であることを示している。図７（Ｂ）の検出結果は、９０度を示してもよい。図７（Ｃ）は、対象物Ｘの向きが真後であることを示している。図７（Ｃ）の検出結果は、１８０度を示してもよい。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、画像４００内の対象物Ｘがぼやけているか否かを示す情報を作成する。例えば、検出部１３０は、画像４００におけるエッジ部分の輝度変化の急峻さ、画像４００における高周波成分の量などに基づいて、対象物Ｘがぼやけているか否かを示す情報を作成する。なお、対象物Ｘがぼやけているか否かを示す情報は、対象物Ｘにピントが合っているか否かを示す情報と表現してもよい。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、画像４００内における対象物Ｘの明るさを示す情報を作成する。例えば、検出部１３０は、画像４００内における対象物Ｘの領域の輝度又は明度を、対象物Ｘの明るさを示す情報として作成する。また、対象物Ｘの明るさを示す情報は、対象物Ｘを逆光で撮像することにより得られた画像であるか否かを示す情報と表現してもよい。

　検出部１３０は、対象物Ｘが画像４００に含まれている場合、対象物Ｘの骨格情報を検出する。例えば、検出部１３０は、Ｏｐｅｎ　Ｐｏｓｅを用いて、対象物Ｘの骨格情報を検出する。骨格情報を例示する。

　図８は、実施の形態１の対象情報を説明する図（その３）を示す図である。検出部１３０は、画像４００に基づいて、対象物Ｘの骨格情報４０２を検出する。また、検出部１３０は、骨格情報４０２に基づいて、全身が画像内に含まれているか、体の一部が画像内に含まれていないなどの情報を検出してもよい。
　このように、検出部１３０は、対象情報を画像毎に検出する。すなわち、検出部１３０は、６つの対象情報を検出する。６つの対象情報を例示する。

　図９は、実施の形態１の対象情報の例を示す図である。図９では、６つの対象情報が例示されている。検出部１３０は、このような、６つの対象情報を検出する。

　特定部１４０は、画像毎に検出された対象情報を用いて、カメラＡ～Ｆの中から、最適な画像を生成したカメラを特定する。なお、最適な画像を生成したカメラは、第１の撮像装置とも言う。また、最適な画像は、対象物Ｘを含む画像である。
　詳細には、特定部１４０は、画像毎に検出された対象情報と、特定情報とを用いて、最適な画像を生成したカメラを特定する。特定情報を例示する。

　図１０は、実施の形態１の特定情報の例を示す図である。特定情報１１１は、最適な画像を生成したカメラを特定するための情報である。
　特定情報１１１は、取得部１２０により取得される。例えば、取得部１２０は、特定情報１１１を記憶部１１０から取得する。また、例えば、取得部１２０は、特定情報１１１を外部装置（例えば、クラウドサーバ）から取得する。

　例えば、特定部１４０は、加点法を用いて、最適な画像を生成したカメラを特定する。具体的に加点法を説明する。図９では、カメラＣに対応する対象情報は、対象物Ｘが画像に含まれていることを示している。特定部１４０は、カメラＣに対応する対象情報が、特定情報１１１が示す条件“対象物が画像に含まれていること”を満たすことを特定する。そのため、特定部１４０は、カメラＣに対応する対象情報に、１点を与える。また、カメラＣに対応する対象情報は、対象物Ｘの大きさが大きいことを示している。特定部１４０は、カメラＣに対応する対象情報が、特定情報１１１が示す条件“対象物が大きいこと”を満たすことを特定する。そのため、特定部１４０は、カメラＣに対応する対象情報に、さらに、１点を与える。このように、特定部１４０は、条件を満たす場合、カメラＣに対応する対象情報に１点を与える。特定部１４０は、カメラＡ～Ｆに対応する対象情報に、同様の処理を行う。そして、特定部１４０は、カメラＡ～Ｆに対応する対象情報の中で、最も得点が高い対象情報に対応するカメラを、最適な画像を生成したカメラとして特定する。例えば、特定部１４０は、カメラＣを特定する。

　次に、図５に戻って、選択部１５０を説明する。
　選択部１５０は、複数の画像の中から、特定部１４０によって特定されたカメラが生成した画像を選択する。例えば、画像には、カメラの識別子が含まれている。また、例えば、画像には、カメラの識別子が付加されている。そのため、選択部１５０は、複数の画像の中から、特定部１４０によって特定されたカメラが生成した画像を選択できる。なお、選択された画像は、最適な画像である。

　出力制御部１６０は、選択された画像を出力する。例えば、出力制御部１６０は、選択された画像を端末装置３００に出力する。これにより、ユーザは、端末装置３００を介して、最適な画像を見ることができる。また、出力制御部１６０は、選択された画像を記憶部１１０に出力してもよい。

　次に、画像処理装置１００が実行する処理を、フローチャートを用いて、説明する。
　図１１は、実施の形態１の画像処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ１１）取得部１２０は、カメラＡ～Ｆが生成した複数の画像を取得する。
　（ステップＳ１２）取得部１２０は、対象物画像と特定情報とを取得する。
　（ステップＳ１３）検出部１３０は、複数の画像と対象物画像とを用いて、対象情報を画像毎に検出する。

　（ステップＳ１４）特定部１４０は、画像毎に検出された対象情報と、特定情報とを用いて、最適な画像を生成したカメラを特定する。
　（ステップＳ１５）選択部１５０は、複数の画像の中から、特定されたカメラが生成した画像を選択する。
　（ステップＳ１６）出力制御部１６０は、選択された画像を出力する。

　次に、画像処理システムで実行される処理を、具体例を用いて、説明する。
　図１２は、実施の形態１の画像処理システムで実行される処理の具体例を示す図である。図１２は、カメラＡ～Ｆが生成した画像を示している。例えば、画像“Ａ００１”は、カメラＡが時刻“１ｐ”に生成した画像である。

　画像処理装置１００は、端末装置３００から、対象物Ｘが含まれている対象物画像を取得する。画像処理装置１００は、最適な画像を生成したカメラＢを特定する。画像処理装置１００は、画像“Ａ００２”～画像“Ｆ００２”の中から、カメラＢが生成した画像“Ｂ００２”を選択する。画像処理装置１００は、画像“Ｂ００２”を端末装置３００に出力する。これにより、端末装置３００は、画像“Ｂ００２”を表示する。

　画像“Ｂ００２”が出力された後、画像処理装置１００は、最適な画像を生成したカメラＢを特定する。画像処理装置１００は、画像“Ａ００３”～画像“Ｆ００３”の中から、カメラＢが生成した画像“Ｂ００３”を選択する。画像処理装置１００は、画像“Ｂ００３”を端末装置３００に出力する。これにより、端末装置３００は、画像“Ｂ００３”を表示する。

　画像“Ｂ００３”が出力された後、画像処理装置１００は、最適な画像を生成したカメラＣを特定する。画像処理装置１００は、画像“Ａ００４”～画像“Ｆ００４”の中から、カメラＣが生成した画像“Ｃ００４”を選択する。画像処理装置１００は、画像“Ｃ００４”を端末装置３００に出力する。これにより、端末装置３００は、画像“Ｃ００４”を表示する。

　画像処理装置１００は、上記の処理を繰り返す。これにより、ユーザは、最適な画像を継続して見ることができる。

　実施の形態１によれば、画像処理装置１００は、上記で説明したように、最適な画像を生成したカメラを特定することができる。

実施の形態１の変形例．
　実施の形態１では、リアルタイムで画像が出力される場合を説明した。実施の形態１の変形例では、リアルタイムで画像が出力されない場合を説明する。

　図１３は、実施の形態１の変形例の画像処理装置の機能を示すブロック図である。取得部１２０は、複数の画像を記憶部１１０に格納する。取得部１２０は、所定のタイミングで、複数の画像を記憶部１１０から取得する。例えば、取得部１２０は、ユーザから処理実行指示を取得した場合、複数の画像を記憶部１１０から取得する。そして、検出部１３０、特定部１４０、及び選択部１５０は、処理を実行する。選択された画像（すなわち、最適な画像）は、記憶部１１０に格納される。

　出力制御部１６０は、所定のタイミングで、最適な画像を記憶部１１０から取得する。例えば、取得部１２０が、最適な画像（すなわち、対象物Ｘを含む画像）の送信指示を端末装置３００から取得した場合、出力制御部１６０は、最適な画像を記憶部１１０から取得する。出力制御部１６０は、取得された最適な画像を出力する。例えば、出力制御部１６０は、最適な画像を端末装置３００に出力する。

　実施の形態１の変形例によれば、画像処理装置１００は、所定のタイミングで、最適な画像を出力できる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。実施の形態２では、学習済モデルを用いて、検出及び特定の処理が行われる場合を説明する。

　図１４は、実施の形態２の画像処理装置の機能を示すブロック図である。画像処理装置１００ａは、取得部１２０ａ、検出部１３０ａ、及び特定部１４０ａを有する。
　取得部１２０ａの機能は、後で説明する。
　検出部１３０ａは、画像毎に対象情報を検出するまでの過程で、少なくとも１つの学習済モデルを用いる。具体例を用いて、学習済モデルが用いられる場合を説明する。

　図１５は、実施の形態２の複数の学習済モデルが用いられる場合の例を示す図である。図１５は、画像４１０と対象物画像４１１を示している。画像４１０は、カメラＣが生成した画像である。
　検出部１３０ａは、学習済モデルである人検出モデル１３１と画像４１０とを用いて、画像４１０内の人を検出する。これにより、Ｗ、Ｘ、及びＹが、検出される。

　検出部１３０ａは、学習済モデルである人特定モデル１３２と画像４１０と対象物画像４１１とを用いて、画像４１０内の対象物Ｘを特定する。また、検出部１３０ａは、人特定モデル１３２と画像４１０と対象物画像４１１とを用いて、画像４１０内における対象物Ｘの大きさ、及び画像４１０内における対象物Ｘの位置を検出する。

　検出部１３０ａは、学習済モデルである向き検出モデル１３３と画像４１０とを用いて、対象物Ｘの向きを検出する。
　検出部１３０ａは、学習済モデルであるピント検出モデル１３４と画像４１０とを用いて、画像４１０内の対象物Ｘがぼやけているか否かを検出する。
　検出部１３０ａは、学習済モデルである明るさ検出モデル１３５と画像４１０とを用いて、画像４１０内における対象物Ｘの明るさを検出する。
　検出部１３０ａは、学習済モデルである骨格検出モデル１３６と画像４１０とを用いて、対象物Ｘの骨格情報を検出する。

　なお、人検出モデル１３１、人特定モデル１３２、向き検出モデル１３３、ピント検出モデル１３４、明るさ検出モデル１３５、及び骨格検出モデル１３６は、取得部１２０ａによって取得される。例えば、取得部１２０ａは、これらの学習済モデルを記憶部１１０から取得する。また、例えば、取得部１２０ａは、これらの学習済モデルを外部装置から取得する。

　上記では、複数の学習済モデルが用いられる場合を説明した。検出部１３０ａは、１つの学習済モデル、画像４１０、及び対象物画像４１１を用いて、カメラＣに対応する対象情報を検出してもよい。１つの学習済モデルが用いられる場合を例示する。

　図１６は、実施の形態２の１つの学習済モデルが用いられる場合の例を示す図である。図１６は、当該学習済モデルがニューラルネットワークを構成していることを示している。検出部１３０ａは、当該学習済モデル、画像４１０、及び対象物画像４１１を用いて、カメラＣに対応する対象情報を検出する。

　なお、当該学習済モデルは、取得部１２０ａによって取得される。例えば、取得部１２０ａは、当該学習済モデルを記憶部１１０から取得する。また、例えば、取得部１２０ａは、当該学習済モデルを外部装置から取得する。

　図１４に戻って、特定部１４０ａを説明する。
　特定部１４０ａは、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。例えば、学習済モデルは、ニューラルネットワークで構成される。ニューラルネットワークを例示する。

　図１７は、実施の形態２のニューラルネットワークの例を示す図である。特定部１４０ａは、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。詳細には、画像毎に検出された対象情報が学習済モデルに入力することで、学習済モデルは、最適な画像を生成したカメラを出力する。特定部１４０ａは、最適な画像を生成したカメラが出力することで、最適な画像を生成したカメラを特定する。

　学習済モデルは、ランダムフォレストで構成されてもよい。ランダムフォレストを例示する。
　図１８は、実施の形態２のランダムフォレストの例を示す図である。特定部１４０ａは、ランダムフォレストを構成する学習済モデルを用いて、最適な画像を生成したカメラを特定してもよい。

　なお、ニューラルネットワーク又はランダムフォレストを構成する学習済モデルは、取得部１２０ａによって取得される。例えば、取得部１２０ａは、当該学習済モデルを記憶部１１０から取得する。また、例えば、取得部１２０ａは、当該学習済モデルを外部装置から取得する。

　実施の形態２によれば、画像処理装置１００は、学習済モデルを用いて、画像毎に対象情報を検出することができる。また、画像処理装置１００は、学習済モデルを用いて、最適な画像を生成したカメラを特定することができる。

　ここで、特定部１４０ａが用いる学習済モデルは、学習装置によって生成される。学習装置を説明する。
　図１９は、実施の形態２の学習装置の機能を示すブロック図である。学習装置５００は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。学習装置５００は、処理回路を有してもよい。

　学習装置５００は、生成方法を実行する装置である。学習装置５００は、取得部５１０と生成部５２０とを有する。取得部５１０と生成部５２０の一部又は全部は、学習装置５００が有する処理回路によって実現してもよい。また、取得部５１０と生成部５２０の一部又は全部は、学習装置５００が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。当該プログラムは、生成プログラムとも言う。例えば、生成プログラムは、記録媒体に記録されている。

　取得部５１０は、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を取得する。取得された複数の対象情報のうちの１つの対象情報には、最適な画像に基づいて作成された対象情報であることを示すラベルが付加される。このように、対象情報にラベルが付加されることで、学習装置５００は、教師あり学習を行うことができる。例えば、取得部５１０は、当該対象情報を外部装置から取得する。なお、対象情報は、ユーザが作成した情報でもよい。また、対象情報の中には、カメラの識別子が含まれている。

　生成部５２０は、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルを生成する。なお、最適な画像は、対象物を含む。また、当該カメラは、第１の撮像装置とも言う。

　学習装置５００が生成した学習済モデルが提供されることで、画像処理装置１００ａなどの装置は、最適な画像を生成したカメラを特定することができる。

実施の形態３．
　次に、実施の形態３を説明する。実施の形態３では、実施の形態１，２と相違する事項を主に説明する。そして、実施の形態３では、実施の形態１，２と共通する事項の説明を省略する。実施の形態３では、最適な画像を生成したカメラを特定する処理が、画像処理装置以外の装置で行われる場合を説明する。

　図２０は、実施の形態３の画像処理システムを示す図である。画像処理システムは、カメラ２００＿１～２００＿６、画像処理装置６００、及び情報処理装置７００を含む。画像処理システムは、端末装置３００を含んでもよい。

　画像処理装置６００及び情報処理装置７００は、ネットワークを介して、通信する。ネットワークは、有線ネットワークでもよいし、無線ネットワークでもよい。
　画像処理装置６００は、対象情報を検出する装置である。対象情報を検出する方法は、実施の形態１の対象情報を検出する方法と同じである。すなわち、画像処理装置６００は、カメラＡ～Ｆが生成した複数の画像と、対象物画像とを用いて、画像毎に対象情報を検出する。

　情報処理装置７００は、情報処理方法を実行する装置である。情報処理装置７００は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。情報処理装置７００は、処理回路を有してもよい。
　次に、情報処理装置７００の機能を説明する。

　図２１は、実施の形態３の情報処理装置の機能を示すブロック図である。情報処理装置７００は、記憶部７１０、取得部７２０、特定部７３０、及び出力部７４０を有する。
　記憶部７１０は、情報処理装置７００が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。

　取得部７２０、特定部７３０、及び出力部７４０の一部又は全部は、情報処理装置７００が有する処理回路によって実現してもよい。また、取得部７２０、特定部７３０、及び出力部７４０の一部又は全部は、情報処理装置７００が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。当該プログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。

　取得部７２０は、画像毎に検出された対象情報を取得する。例えば、取得部７２０は、画像毎に検出された対象情報を画像処理装置６００から取得する。
　特定部７３０は、画像毎に検出された対象情報を用いて、カメラＡ～Ｆの中から、最適な画像を生成したカメラを特定する。最適な画像は、対象物Ｘを含む。また、当該カメラは、第１の撮像装置とも言う。

　詳細に、最適な画像を生成したカメラを特定する方法を説明する。特定部７３０は、画像毎に検出された対象情報と、特定情報１１１とを用いて、最適な画像を生成したカメラを特定する。すなわち、特定部７３０は、特定部１４０と同じ処理を実行する。
　なお、特定情報１１１は、取得部７２０により取得される。例えば、取得部７２０は、特定情報１１１を記憶部７１０から取得する。また、例えば、取得部７２０は、特定情報１１１を外部装置から取得する。

　また、特定部７３０は、以下の方法で、最適な画像を生成したカメラを特定してもよい。特定部７３０は、画像毎に検出された対象情報と、学習済モデルとを用いて、最適な画像を生成したカメラを特定する。すなわち、特定部７３０は、特定部１４０ａと同じ処理を実行する。

　なお、学習済モデルは、取得部７２０によって取得される。例えば、取得部７２０は、当該学習済モデルを記憶部７１０から取得する。また、例えば、取得部７２０は、当該学習済モデルを外部装置から取得する。

　出力部７４０は、特定されたカメラを示す情報を画像処理装置６００に出力する。当該カメラは、カメラＣとする。画像処理装置６００は、複数の画像の中から、カメラＣが生成した画像を選択する。すなわち、画像処理装置６００は、選択部１５０と同じ処理を実行する。画像処理装置６００は、選択された画像を端末装置３００に出力する。すなわち、画像処理装置６００は、出力制御部１６０と同じ処理を実行する。

　実施の形態３によれば、情報処理装置７００は、最適な画像を生成したカメラを特定することができる。

実施の形態４．
　次に、実施の形態４を説明する。実施の形態４では、実施の形態１と相違する事項を主に説明する。そして、実施の形態４では、実施の形態１と共通する事項の説明を省略する。

　図２２は、実施の形態４の画像処理装置の機能を示すブロック図である。画像処理装置１００ｂは、取得部１２０ｂと特定部１４０ｂとを有する。

　取得部１２０ｂは、イベント情報を取得する。例えば、取得部１２０ｂは、イベント情報を端末装置３００から取得する。また、例えば、取得部１２０ｂは、ユーザによる入力操作により、イベント情報を取得する。また、例えば、取得部１２０ｂは、記憶部１１０から取得する。記憶部１１０には、現在、開催されているイベント（つまり、画像を配信中のイベント）に関するイベント情報が格納されていてもよい。なお、イベント情報は、イベントの種別を示す情報である。例えば、イベントは、ライブ、ボクシング、フットサルなどである。また、イベント情報には、イベントに登場する人物を示す情報が含まれてもよい。

　取得部１２０ｂは、イベント情報に基づいて、イベント用の学習済モデルを取得する。イベント用の学習済モデルを例示する。
　図２３は、実施の形態４のイベント用の学習済モデルの例を示す図である。図２３は、イベント用の学習済モデルとして、３つの学習済モデルを例示している。３つの学習済モデルは、ライブ用学習済モデル１１３ａ、フットサル用学習済モデル１１３ｂ、及びボクシング用学習済モデル１１３ｃである。ライブ用学習済モデル１１３ａ、フットサル用学習済モデル１１３ｂ、及びボクシング用学習済モデル１１３ｃは、記憶部１１０に格納されてもよいし、外部装置に格納されてもよい。

　ライブ用学習済モデル１１３ａは、ライブで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、ライブ用学習済モデル１１３ａは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、ライブ用学習済モデル１１３ａを生成するための学習で用いられる複数の対象情報は、過去のライブにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。

　フットサル用学習済モデル１１３ｂは、フットサルで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、フットサル用学習済モデル１１３ｂは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、フットサル用学習済モデル１１３ｂを生成するための学習で用いられる複数の対象情報は、過去のフットサルにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。

　ボクシング用学習済モデル１１３ｃは、ボクシングで重視するポイントを満たす画像を生成したカメラを特定するための学習により、生成された学習済モデルである。また、ボクシング用学習済モデル１１３ｃは、異なる地点に存在する複数のカメラが生成した複数の画像と、対象物画像とに基づいて、画像毎に作成された対象情報を用いて、複数のカメラの中から、最適な画像を生成したカメラを特定する学習済モデルである。なお、ボクシング用学習済モデル１１３ｃを生成するための学習で用いられる複数の対象情報は、過去のボクシングにおいて、異なる地点に存在する複数のカメラが生成した複数の画像に基づいて作成される。作成された複数の対象情報のうち、人が好ましいと判断して選ばれた画像に基づいて作成された対象情報には、ラベルが付加される。

　例えば、異なる地点に存在する２台のカメラは、全身が含まれているが、顔がやや横を向いている画像、又は顔が正面を向いているが、足の一部が隠れている画像を生成する場合がある。イベントがライブである場合、ユーザは、後者を好ましい画像として選択する。また、イベントがフットサルである場合、ユーザは、前者を好ましい画像として選択する。このように、イベントにより、ユーザが好ましいと判断するポイントは、異なる。そのため、各イベントに対応して生成された学習済モデルを用いて、最適な画像を生成したカメラを特定し、最適な画像をユーザに提供することが望ましい。そこで、取得部１２０ｂは、イベント情報に基づいて、イベント用の学習済モデルを取得する。例えば、イベント情報がフットサルを示している場合、取得部１２０ｂは、フットサル用学習済モデル１１３ｂを記憶部１１０から取得する。

　特定部１４０ｂは、画像毎に検出された対象情報と、イベント用の学習済モデルとを用いて、最適な画像を生成したカメラを特定する。例えば、特定部１４０ｂは、画像毎に検出された対象情報と、フットサル用学習済モデル１１３ｂとを用いて、最適な画像を生成したカメラを特定する。

　選択部１５０は、複数の画像の中から、特定されたカメラが生成した画像を選択する。これにより、例えば、イベント情報が、フットサルを示している場合、選択部１５０は、プレイヤーの足を含む画像を選択する。出力制御部１６０は、選択された画像を端末装置３００に出力する。これにより、ユーザは、端末装置３００を介して、プレイヤーの足を見ることができる。

　よって、実施の形態４によれば、画像処理装置１００ｂは、イベントに応じて最適な画像の基準を切り替えることができるので、イベントに応じた最適な画像を選択できる。

実施の形態５．
　次に、実施の形態５を説明する。実施の形態５では、実施の形態３，４と相違する事項を主に説明する。そして、実施の形態５では、実施の形態３，４と共通する事項の説明を省略する。実施の形態５では、情報処理装置が、実施の形態４の機能を有する場合を説明する。

　図２４は、実施の形態５の情報処理装置の機能を示すブロック図である。情報処理装置７００ａは、取得部７２０ａと特定部７３０ａとを有する。

　取得部７２０ａは、イベント情報を取得する。例えば、取得部７２０ａは、端末装置３００又は画像処理装置６００からイベント情報を取得する。また、例えば、取得部７２０ａは、ユーザによる入力操作により、イベント情報を取得する。
　取得部７２０ａは、イベント情報に基づいて、イベント用の学習済モデルを取得する。例えば、取得部７２０ａは、イベント用の学習済モデルを記憶部７１０から取得する。また、例えば、取得部７２０ａは、イベント用の学習済モデルを外部装置から取得する。

　特定部７３０ａは、画像毎に検出された対象情報と、イベント用の学習済モデルとを用いて、最適な画像を生成したカメラを特定する。このように、特定部７３０ａは、特定部１４０ｂと同じ機能を有する。

　実施の形態５によれば、情報処理装置７００ａは、イベントに応じた画像（すなわち、最適な画像）を生成したカメラを特定できる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１００，１００ａ，１００ｂ　画像処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１１１　特定情報、　１１１ａ　ライブ用特定情報、　１１１ｂ　フットサル用特定情報、　１１１ｃ　ボクシング用特定情報、　１１２　重視テーブル、　１１３ａ　ライブ用学習済モデル、　１１３ｂ　フットサル用学習済モデル、　１１３ｃ　ボクシング用学習済モデル、　１２０，１２０ａ，１２０ｂ　取得部、　１３０，１３０ａ　検出部、　１３１　人検出モデル、　１３２　人特定モデル、　１３３　向き検出モデル、　１３４　ピント検出モデル、　１３５　明るさ検出モデル、　１３６　骨格検出モデル、　１４０，１４０ａ，１４０ｂ　特定部、　１５０　選択部、　１６０　出力制御部、　２００＿１～２００＿６　カメラ、　３００　端末装置、　４００　画像、　４０１　枠、　４０２　骨格情報、　４１０　画像、　４１１　対象物画像、　５００　学習装置、　５１０　取得部、　５２０　生成部、　６００　画像処理装置、　７００，７００ａ　情報処理装置、　７１０　記憶部、　７２０，７２０ａ　取得部、　７３０，７３０ａ　特定部、　７４０　出力部。

Claims

　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、
　前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、
　画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する特定部と、
　を有する画像処理装置。
　前記取得部は、前記第１の撮像装置を特定するための情報である特定情報を取得し、
　前記特定部は、画像毎に検出された前記対象情報と、前記特定情報とを用いて、前記第１の撮像装置を特定する、
　請求項１に記載の画像処理装置。
　前記取得部は、学習済モデルを取得し、
　前記特定部は、画像毎に検出された前記対象情報と、前記学習済モデルとを用いて、前記第１の撮像装置を特定する、
　請求項１に記載の画像処理装置。
　前記取得部は、イベントの種別を示す情報であるイベント情報を取得し、前記イベント情報に基づいて、前記イベント用の学習済モデルを取得し、
　前記特定部は、画像毎に検出された前記対象情報と、前記イベント用の前記学習済モデルとを用いて、前記第１の撮像装置を特定する、
　請求項３に記載の画像処理装置。
　前記対象情報は、前記対象物が画像に含まれているか否かを示す情報、画像内における前記対象物の大きさ、画像内における前記対象物の位置、前記対象物の向き、画像内の前記対象物がぼやけているか否かを示す情報、画像内における前記対象物の明るさを示す情報、及び前記対象物の骨格情報のうちの１つ以上である、
　請求項１から４のいずれか１項に記載の画像処理装置。
　前記検出部は、画像毎に前記対象情報を検出するまでの過程で、少なくとも１つの学習済モデルを用い、
　前記取得部は、用いられる学習済モデルを取得する、
　請求項１から５のいずれか１項に記載の画像処理装置。
　前記複数の画像の中から、前記第１の撮像装置が生成した画像を選択する選択部と、
　選択された画像を出力する出力制御部と、
　をさらに有する、
　請求項１から６のいずれか１項に記載の画像処理装置。
　選択された画像を記憶する記憶部をさらに有し、
　前記出力制御部は、選択された画像を前記記憶部から取得し、取得された画像を出力する、
　請求項７に記載の画像処理装置。
　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得する取得部と、
　画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する学習済モデルを生成する生成部と、
　を有する学習装置。
　異なる地点に存在する複数の撮像装置と、
　画像処理装置と、
　を含み、
　前記画像処理装置は、
　前記複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得する取得部と、
　前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出する検出部と、
　画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する特定部と、
　を有する、
　画像処理システム。
　画像処理装置が、
　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得し、
　前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出し、
　画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する、
　画像処理方法。
　学習装置が、
　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得し、
　画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する学習済モデルを生成する、
　生成方法。
　画像処理装置に、
　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とを取得し、
　前記複数の画像と前記対象物画像とを用いて、前記対象物に関する情報である対象情報を画像毎に検出し、
　画像毎に検出された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する、
　処理を実行させる画像処理プログラム。
　学習装置に、
　異なる地点に存在する複数の撮像装置が生成した複数の画像と、対象物が含まれている画像である対象物画像とに基づいて、画像毎に作成された、前記対象物に関する情報である対象情報を取得し、
　画像毎に作成された前記対象情報を用いて、前記複数の撮像装置の中から、前記対象物を含む、最適な画像を生成した第１の撮像装置を特定する学習済モデルを生成する、
　処理を実行させる生成プログラム。