WO2021161513A1

WO2021161513A1 - 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム

Info

Publication number: WO2021161513A1
Application number: PCT/JP2020/005812
Authority: WO
Inventors: 寛之鵜澤; 周平吉田; 新田　高庸
Original assignee: 日本電信電話株式会社
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-08-19
Also published as: EP4105885A1; JP7239050B2; JPWO2021161513A1; US20230058896A1; EP4105885A4

Abstract

画像処理装置（１）は、入力画像Ｉ_ｉｎを分割して複数の分割画像を出力する分割部（１１１）と、分割画像の各々を物体検出モデルに入力として与えることで物体検出モデルの演算を行い、分割画像各々に含まれる物体の属性値と物体を囲う四角枠ＢＢ１とを含む属性情報の集合を、分割画像のメタデータＭＤ１として取得する第１処理部（１１０）と、入力画像Ｉ_ｉｎを縮小した全体画像を出力するスケーリング部（１２１）と、全体画像を物体検出モデルに入力として与えて物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と四角枠ＢＢ２とを含む属性情報の集合を、全体画像のメタデータＭＤ２として取得する第２処理部（１２０）と、メタデータＭＤ２の属性情報の集合と、メタデータＭＤ２とメタデータＭＤ１とで共通しない属性情報の集合とを合わせて、入力画像Ｉ_ｉｎのメタデータＭＤを生成する第３処理部（１３０）とを備える。

Description

画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム

　本発明は、画像処理装置、画像処理システム、画像処理方法、および画像処理プログラムに関し、特に物体検出に用いる画像処理技術に関する。

　近年、深層学習を用いて高速に物体を検出する技術が提案されている。一つのネットワークで領域抽出とカテゴリ識別を同時に高速に処理するＳｉｎｇｌｅ－ｓｔａｇｅ法を用いた代表的なモデルとして、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）や、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）が知られている（非特許文献１、非特許文献２参照）。このような物体検出技術は、監視カメラやエッジコンピューティングにおけるＡＩ画像処理などへの利用が検討されている。

　例えば、非特許文献１に記載されているＹＯＬＯｖ３による物体検出では、元画像のサイズを３２０（幅）×３２０（高さ）画素、４１６×４１６画素、または、６０８×６０８画素のいずれかにリサイズした入力画像が用いられる。

　例えば、元画像がフルＨＤや４Ｋなどの高精細画像である場合には、上記のような画像サイズの制約の下では、画像を縮小することが必要となる。高精細画像を縮小することで、画像に含まれる物体の特徴的な部位も縮小されるため、入力画像に対して比較的小さい物体の検出が困難となる場合がある。

　そこで、例えば、非特許文献３は、入力画像を複数の画像に分割して、分割された画像ごとに物体検出を行う技術を開示している。しかし、分割された画像を跨ぐような比較的大きい物体は、物体の特徴的な部位も分割されてしまうため、今度は大きい物体の検出が困難となる場合がある。

Joseph Redmon et.al, "YOLOv3: An Incremental Improvement", https://arxiv.org/abs/1804.02767 (https://arxiv.org/pdf/1804.02767.pdf) Wei Liu et.al, "SSD: Single Shot MultiBox Detector", https://arxiv.org/abs/1512.02325 (https://arxiv.org/pdf/1512.02325.pdf) Vit Ruzicka et.al, "Fast and accurate object detection in high resolution 4K and 8K video using GPUs", 2018 IEEE High Performance extreme Computing Conference (HPEC)

　従来の技術では、高精細画像を入力画像として用いた場合、深層学習に基づく物体検出モデルにより、入力画像に含まれる比較的大きな物体および比較的小さな物体の両方を検出することが困難であった。

　本発明は、上述した課題を解決するためになされたものであり、高精細画像を入力画像として用いた場合であっても、入力画像に含まれる比較的大きな物体および比較的小さな物体の両方を、深層学習に基づく物体検出モデルにより検出できる画像処理技術の実現を目的とする。

　上述した課題を解決するために、本発明に係る画像処理装置は、入力画像を分割して複数の第１画像を出力する分割部と、前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理部と、前記入力画像を縮小した第２画像を出力するスケーリング部と、前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理部と、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理部とを備え、前記第１領域は、前記入力画像における座標情報を有し、前記第２領域は、前記入力画像における座標情報を有することを特徴とする。

　上述した課題を解決するために、本発明に係る画像処理システムは、上記の画像処理装置と、分割部と、分割装置と、スケーリング装置と、第２処理装置と、合成処理装置とを備える画像処理システムであって、前記分割装置は、入力画像を分割して複数の第３画像を出力し、前記画像処理装置は複数設けられ、前記画像処理装置の各々は、前記複数の第３画像のうちのいずれか１つの第３画像を入力として用いて、前記第３画像の属性情報の集合を示す第４メタデータを生成し、前記画像処理装置の各々は、前記第３画像を分割して複数の第１画像を出力する前記分割部と、前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する前記第１処理部と、前記第３画像を縮小した第２画像を出力する前記スケーリング部と、前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する前記第２処理部と、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記第３画像の前記第４メタデータを生成する前記合成処理部とを備え、前記第１領域は、前記入力画像における座標情報を有し、前記第２領域は、前記入力画像における座標情報を有し、前記スケーリング装置は、前記入力画像を縮小した第５画像を出力し、前記第２処理装置は、前記第５画像を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第５画像に含まれる物体の属性値と、前記物体を囲う第３領域とを含む属性情報の集合を、前記第５画像の第５メタデータとして取得し、前記合成処理装置は、前記第５メタデータの属性情報の集合と、前記第５メタデータと前記第４メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第６メタデータを生成し、前記第３領域は、前記入力画像における座標情報を有することを特徴とする。

　上述した課題を解決するために、本発明に係る画像処理方法は、入力画像を分割して複数の第１画像を出力する分割ステップと、前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理ステップと、前記入力画像を縮小した第２画像を出力するスケーリングステップと、前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理ステップと、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理ステップとを備え、前記第１領域は、前記入力画像における座標情報を有し、前記第２領域は、前記入力画像における座標情報を有することを特徴とする。

　上述した課題を解決するために、本発明に係る画像処理プログラムは、コンピュータに、
　入力画像を分割して複数の第１画像を出力する分割ステップと、前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理ステップと、前記入力画像を縮小した第２画像を出力するスケーリングステップと、前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理ステップと、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理ステップとを実行させ、前記第１領域は、前記入力画像における座標情報を有し、前記第２領域は、前記入力画像における座標情報を有することを特徴とする。

　本発明によれば、入力画像を縮小した第２画像の第２メタデータの属性情報の集合と、入力画像を分割した複数の第１画像の第１メタデータとで共通しない属性情報の集合と第２メタデータの属性情報の集合とを合わせて、入力画像の第３メタデータを生成する。そのため、高精細画像の入力画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出モデルにより検出することができる。

図１は、本発明の第１の実施の形態に係る画像処理装置の機能構成を示すブロック図である。図２は、第１の実施の形態に係る画像処理装置の概要を示す説明図である。図３は、第１の実施の形態に係る画像処理装置を実現するコンピュータ構成の一例を示すブロック図である。図４は、第１の実施の形態に係る画像処理装置によって処理される分割画像を説明するための図である。図５は、第１の実施の形態に係る画像処理装置の動作を説明するためのフローチャートである。図６は、第１の実施の形態に係る画像処理装置による分割処理を説明するためのフローチャートである。図７は、第１の実施の形態に係る画像処理装置による全体処理を説明するためのフローチャートである。図８は、第１の実施の形態に係る画像処理装置による合成処理を説明するためのフローチャートである。図９は、第１の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。図１０は、第２の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。図１１は、第３の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。図１２は、第４の実施の形態に係る画像処理システムの構成を示すブロック図である。

　以下、本発明の好適な実施の形態について、図１から図１２を参照して詳細に説明する。

　［発明の概要］
　はじめに、本発明の実施の形態に係る画像処理装置１の概要について図２を参照して説明する。本実施の形態に係る画像処理装置１では、入力画像Ｉ_ｉｎを複数の画像に分割した、分割画像ごとに物体検出を行う分割処理と、入力画像Ｉ_ｉｎを縮小した全体画像の物体検出を行う全体処理とが実行される。

　分割処理では、図２に示すように、分割画像ごとに予め用意された物体検出モデルを用いて物体検出が行われ、物体検出の結果として、分割画像の属性情報の集合を含むメタデータＭＤ１（第１メタデータ）が取得される。一方において、全体処理では、全体画像に対して予め用意された物体検出モデルを用いて物体検出が行われ、物体検出の結果として、全体画像の属性情報の集合を含むメタデータＭＤ２（第２メタデータ）が取得される。

　画像処理装置１が、分割処理により生成する分割画像のメタデータＭＤ１の属性情報には、分割画像に含まれる物体の属性値（例えば、図２に示す「ｄｏｇ」）と、その物体を囲う四角枠（第１領域）とが含まれる。メタデータＭＤ１に含まれる物体を囲う四角枠には、入力画像Ｉ_ｉｎにおける座標情報が含まれる。

　同様に、全体画像のメタデータＭＤ２の属性情報には、全体画像に含まれる物体の属性値と、その物体を囲う四角枠（第２領域）とが含まれる。メタデータＭＤ２に含まれる物体を囲う四角枠には、物体の入力画像Ｉ_ｉｎにおける座標情報が含まれる。

　また、本実施の形態に係る画像処理装置１は、全体画像のメタデータＭＤ２の属性情報の集合と、分割画像のメタデータＭＤ１とで共通しない属性情報の集合とを合わせて、入力画像Ｉ_ｉｎのメタデータＭＤ（第３メタデータ）として生成する合成処理（第３処理）を実行する。画像データである入力画像Ｉ_ｉｎに付加されるメタデータＭＤは、分割画像と全体画像との間でメタデータの重複が排除された付加情報、つまり、全体画像のメタデータＭＤ２を分割画像のメタデータＭＤ１で補間した付加情報である。メタデータＭＤは、入力画像Ｉ_ｉｎの物体検出の最終的な結果である。

　このように、本実施の形態に係る画像処理装置１は、全体画像で検出できなかった物体が存在する全体画像のメタデータＭＤ２を、分割画像でのみ検出された物体を含むメタデータＭＤ１で補間する。本実施の形態に係る画像処理装置１は、入力画像Ｉ_ｉｎとして高精細画像が用いられた場合であっても、入力画像Ｉ_ｉｎに含まれる大小両方のサイズの物体を検出することができる。

　［第１の実施の形態］
　まず、本発明の第１の実施の形態に係る画像処理装置１の機能構成について図１のブロック図を参照して説明する。図１に示すように、画像処理装置１は、入力画像Ｉ_ｉｎを入力とし、分割処理（第１処理）、全体処理（第２処理）、および合成処理（第３処理）を行い、入力画像Ｉ_ｉｎのメタデータＭＤを生成し出力する。

　［画像処理装置の機能ブロック］
　画像処理装置１は、第１処理部１１０、第２処理部１２０、および第３処理部１３０を備える。

　第１処理部１１０は、分割部１１１、スケーリング部１１２、物体検出部１１３、およびメタデータ調整部１１４を備える。第１処理部１１０は、図２で説明した分割処理を実行する機能ブロックである。

　分割部１１１は、入力画像Ｉ_ｉｎとして入力される高精細画像の元画像を複数の分割画像（第１画像）に分割して出力する。例えば、入力画像Ｉ_ｉｎのサイズをＷ_ｉｎ（幅）×Ｈ_ｉｎ（高さ）とする。入力画像Ｉ_ｉｎの幅は、図２に示すように、紙面の左右方向に沿った長さをいい、入力画像Ｉ_ｉｎの高さは、紙面の上下方向の長さをいう。

　分割部１１１は、入力画像Ｉ_ｉｎの幅方向の分割数Ｎ_ｗ、高さ方向の分割数Ｎ_ｈとして、入力画像Ｉ_ｉｎを複数の分割画像に分割する。図２の「分割処理」、および図４に示す例では、入力画像Ｉ_ｉｎがＮ_ｗ＝２、Ｎ_ｈ＝２の、合計４つの分割画像に分割されている。

　スケーリング部１１２は、複数の分割画像の各々を、深層学習に基づく物体検出モデルに入力することができる指定の画像サイズに縮小するスケーリング処理を行う。スケーリング部１１２は、後述の物体検出部１１３が用いる物体検出モデルの入力画像のサイズに対応するように、各分割画像の幅と高さとの比などのパラメータ値を維持したまま画像サイズを縮小する。

　物体検出部１１３は、スケーリング部１１２で縮小された分割画像を入力として、所定の深層学習に基づく学習済みの物体検出モデルの演算を行い、分割画像に含まれる物体の属性値と、入力画像Ｉ_ｉｎにおける物体の座標情報を有するその物体を囲う四角い枠（第１領域）とを含む属性情報の集合を、分割画像のメタデータＭＤ１として取得する。このように、メタデータＭＤ１は、物体の属性値と四角枠ＢＢ１とからなる属性情報の集合である。

　物体検出部１１３によって取得されるメタデータＭＤ１に含まれる、分割画像で検出された物体を囲う四角い枠は、バウンディングボックスとも呼ばれ、例えば、検出された物体に外接して、その物体を囲うことが可能な最小の矩形の範囲を有する。以下において、メタデータＭＤ１に含まれる物体を囲う四角い枠を「四角枠ＢＢ１」と呼ぶ。

　ここで、図２に示す入力画像Ｉ_ｉｎには、犬と自転車と車とが含まれ、最も手前に犬が座っており、犬の背後には、自転車が壁に立てかけてあり、さらに道を挟んだ向こう側には、車が止まっている。例えば、物体の固有の姿、形、性質を表す物体検出の属性値として、「犬（ｄｏｇ）」、「自転車（ｂｉｃｙｃｌｅ）」、および「車（ｃａｒ）」を用いるものとする。

　図２の「分割処理」に示すように、入力画像Ｉ_ｉｎは、４つの分割画像に分割されている。また、各分割画像は、物体検出部１１３によって学習済みの物体検出モデルに入力されて、各分割画像に含まれる物体が検出され、検出された物体ごとに四角枠ＢＢ１が作成されている。例えば、図２の「分割処理」において、最も上段の分割画像には、自転車の上部と、犬の頭が含まれているが、物体検出部１１３は、物体の一部分に基づいてこれらの物体（図２に示す属性値「ｂｉｃｙｃｌｅ」、「ｄｏｇ」）を検出し、四角枠ＢＢ１を指定している。

　また、図２の「分割処理」に示す、上から３番目の分割画像では、車（図２の属性値「ｃａｒ」）が検出されて、四角枠ＢＢ１が指定されている。このように、図２の「分割処理」で、各分割画像で検出された物体（図２の属性値「ｄｏｇ」、「ｂｉｃｙｃｌｅ」、および「ｃａｒ」）それぞれの物体の一部あるいは全体の画像の境界を四角枠ＢＢ１で指定している。

　ここで、四角枠ＢＢ１には、少なくとも中心座標（Ｘ，Ｙ）、枠の高さ「Ｈ」、枠の幅「Ｗ」が含まれる。これらは、スケーリング部１１２によって縮小された入力画像Ｉ_ｉｎに対応する位置関係を示した、入力画像Ｉ_ｉｎにおける物体の位置情報である。

　物体検出部１１３は、例えば、事前に外部のサーバなどの演算装置で学習された畳み込みニューラルネットワーク（ＣＮＮ）を用いたＹＯＬＯなどの物体検出モデルを用いて、スケーリング部１１２で縮小された分割画像を入力として、分割画像に含まれる物体を検出し、分割画像のメタデータＭＤ１を求める。

　メタデータ調整部１１４は、物体検出部１１３によって検出された物体の四角枠ＢＢ１を分割前の元画像、つまり、入力画像Ｉ_ｉｎにマッピングするためのメタデータＭＤ１の調整処理を行う。

　ここで、入力画像Ｉ_ｉｎのサイズは前述したように、Ｗ_ｉｎ（幅）×Ｈ_ｉｎ（高さ）であり、予め用意された物体検出モデルに入力することができる指定の画像サイズを、Ｗ_ｄｅｔ（幅）×Ｈ_ｄｅｔ（高さ）とする。この場合、入力画像Ｉ_ｉｎの幅方向の分割数Ｎ_ｗ、高さ方向の分割数Ｎ_ｈは、以下の式（１）および（２）で与えられる。

　Ｎ_ｗ＝ｍｉｎ（Ｎ_{ｗ＿ｍａｘ}，ｃｅｉｌｉｎｇ（Ｗ_ｉｎ／Ｗ_ｄｅｔ））・・・（１）
　Ｎ_ｈ＝ｍｉｎ（Ｎ_{ｈ＿ｍａｘ}，ｃｅｉｌｉｎｇ（Ｈ_ｉｎ／Ｈ_ｄｅｔ））・・・（２）

　上式（１）および（２）において、Ｎ_{ｗ＿ｍａｘ}は入力画像Ｉ_ｉｎの幅方向の分割数の上限値、Ｎ_{ｈ＿ｍａｘ}は、入力画像Ｉ_ｉｎの高さ方向の分割数の上限値を示している。

　図４は、Ｎ_ｗが２、Ｎ_ｈが２の場合の分割画像の例を示している。図４の各分割画像の座標（ｘ’，ｙ’）は、いずれも０≦ｘ’≦ｆｌｏｏｒ（Ｗ_ｉｎ／Ｎ_ｗ）、０≦ｙ’≦ｆｌｏｏｒ（Ｈ_ｉｎ／Ｎ_ｈ）である。

　メタデータ調整部１１４は、分割画像で検出された物体を囲う四角枠ＢＢ１の座標を、元画像である入力画像Ｉ_ｉｎにマッピングする。より具体的には、分割画像［ｉ］［ｊ］（０≦ｉ≦Ｎ_ｗ－１，０≦ｊ≦Ｎ_ｈ－１）で検出された物体の四角枠ＢＢ１の中心座標（ｘ_{ｂｂ＿ｄｉｖ}，ｙ_{ｂｂ＿ｄｉｖ}）、幅ｗ_{ｂｂ＿ｄｉｖ}、高さｈ_{ｂｂ＿ｄｉｖ}とし、元画像の座標への調整後の四角枠ＢＢ１の中心座標を（ｘ_ｂｂ，ｙ_ｂｂ）、幅をｗ_ｂｂ、高さをｈ_ｂｂとする。メタデータ調整部１１４は、以下の各式に基づいて四角枠ＢＢ１を入力画像Ｉ_ｉｎへマッピングする。

　ｘ_ｂｂ＝ｘ_{ｂｂ＿ｄｉｖ}×ｆｌｏｏｒ（Ｗ_ｉｎ／Ｎ_ｗ）＋ｆｌｏｏｒ（Ｗ_ｉｎ／Ｎ_ｗ）×ｉ　　　・・・（３）
　ｙ_ｂｂ＝ｙ_{ｂｂ＿ｄｉｖ}×ｆｌｏｏｒ（Ｈ_ｉｎ／Ｎ_ｈ）＋ｆｌｏｏｒ（Ｈ_ｉｎ／Ｎ_ｈ）×ｊ　　　・・・（４）
　　ｗ_ｂｂ＝ｗ_{ｂｂ＿ｄｉｖ}×ｆｌｏｏｒ（Ｗ_ｉｎ／Ｎ_ｗ）　　　・・・（５）
　　ｈ_ｂｂ＝ｈ_{ｂｂ＿ｄｉｖ}×ｆｌｏｏｒ（Ｈ_ｉｎ／Ｎ_ｈ）　　　・・・（６）

　次に、第２処理部１２０について説明する。第２処理部１２０は、図２で説明した全体処理を実行する機能ブロックである。第２処理部１２０は、図１に示すように、スケーリング部１２１、物体検出部１２２、およびメタデータスケーリング部１２３を備える。

　スケーリング部１２１は、高精細画像の入力画像Ｉ_ｉｎを、所定の深層学習に基づく物体検出モデルに入力することができる指定の画像サイズに縮小し、縮小した全体画像（第２画像）を出力する。スケーリング部１２１は、例えば、入力画像Ｉ_ｉｎの幅および高さの比を維持したまま、画像サイズを縮小することができる。

　物体検出部１２２は、全体画像を予め用意された物体検出モデルに入力として与え、物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と、物体を囲う第２領域（以下、「四角枠ＢＢ２」という。）とを含む属性情報の集合を、全体画像のメタデータＭＤ２として生成する。四角枠ＢＢ２には、対応する物体の入力画像Ｉ_ｉｎにおける座標情報が含まれる。このように、メタデータＭＤ２は、物体の属性値と四角枠ＢＢ２とからなる属性情報の集合である。

　例えば、図２に示す「全体処理」において、全体画像で検出された物体の属性値「ｄｏｇ」、「ｂｉｃｙｃｌｅ」、および「ｃａｒ」のそれぞれの物体の画像の境界が四角枠ＢＢ２で指定されている。

　また、物体検出部１２２は、例えば、事前に外部のサーバなどの演算装置で学習された畳み込みニューラルネットワーク（ＣＮＮ）を用いたＹＯＬＯなどの物体検出モデルを用いる。物体検出部１２２は、スケーリング部１２１で縮小された全体画像を入力として、全体画像に含まれる物体を検出する。物体検出部１２２が用いる物体検出モデルは、第１処理部１１０で用いられる物体検出モデルと同様に、入力画像のサイズが予め指定されている。

　メタデータスケーリング部１２３は、物体検出部１２２によって生成された全体画像のメタデータＭＤ２に含まれる物体の四角枠ＢＢ２の領域を拡大するスケーリング処理を行う。メタデータスケーリング部１２３は、例えば、双線形補間法を用いて全体画像のメタデータＭＤ２に含まれる四角枠ＢＢ２のスケーリングを行う。

　例えば、元画像である入力画像Ｉ_ｉｎの幅がＷ_ｉｎ、高さがＨ_ｉｎであり、スケーリング部１２１で縮小された全体画像の幅がＷ_ｄｅｔ、高さがＨ_ｄｅｔであるとする。この場合、メタデータスケーリング部１２３は、四角枠ＢＢ２の中心座標（Ｘ_ｂｂ，Ｙ_ｂｂ）を（Ｘ_ｂｂ×Ｗ_ｉｎ／Ｗ_ｄｅｔ，Ｙ_ｂｂ×Ｈ_ｉｎ／Ｈ_ｄｅｔ）、四角枠ＢＢ２の幅Ｗ_ｂｂおよび高さＨ_ｂｂを、Ｗ_ｂｂ×Ｗ_ｉｎ／Ｗ_ｄｅｔ，Ｈ_ｂｂ×Ｈ_ｉｎ／Ｈ_ｄｅｔにスケーリングすることで元画像の入力画像Ｉ_ｉｎに四角枠ＢＢ２をマッピングする。

　次に、第３処理部１３０の構成について説明する。第３処理部１３０は、図２に示した全体画像のメタデータＭＤ２と分割画像のメタデータＭＤ１とで共通しない属性情報の集合を合わせて、入力画像Ｉ_ｉｎのメタデータＭＤ（第３メタデータ）として生成する。第３処理部１３０は、図１に示すように、選別部１３１、および合成部１３２を備える。また、選別部１３１は、算出部３１０と判定部３１１とを備える

　算出部３１０は、第２処理部１２０で生成された全体画像のメタデータＭＤ２に含まれる物体の属性値と、第１処理部１１０で生成された分割画像のメタデータＭＤ１に含まれる物体の属性値とが一致する場合に、メタデータＭＤ２の四角枠ＢＢ２とメタデータＭＤ１の四角枠ＢＢ１とで重複した面積を、メタデータＭＤ１の四角枠ＢＢ１の面積で除算して得られる重複度（第１の値）を求める。重複度は、メタデータの属性情報間の重複度合いを表す指標である。

　判定部３１１は、算出部３１０で求められた重複度が、予め設定された第１しきい値を上回るか否かを判定する。

　選別部１３１は、判定部３１１において、重複度が第１しきい値を上回ると判定された場合に、分割画像のメタデータＭＤ１の属性情報は全体画像のメタデータＭＤ２の属性情報と共通していると判断し、共通した属性情報をメタデータＭＤ１から除去する。

　合成部１３２は、選別部１３１によって共通するメタデータの属性情報が除去された分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とを合わせて、入力画像Ｉ_ｉｎのメタデータＭＤを生成する。つまり、合成部１３２は、重複する属性情報が排除された分割画像のメタデータＭＤ１で全体画像のメタデータＭＤ２を補間して、入力画像Ｉ_ｉｎのメタデータＭＤを生成する。

　［画像処理装置のハートウェア構成］
　次に、上述した機能を有する画像処理装置１を実現するコンピュータ構成の一例について、図３を参照して説明する。

　図３に示すように、画像処理装置１は、例えば、バス１０１を介して接続されるプロセッサ１０２、主記憶装置１０３、通信Ｉ／Ｆ１０４、補助記憶装置１０５、入出力Ｉ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。画像処理装置１は、例えば、外部に設けられた入力装置１０７と、表示装置１０８とがそれぞれバス１０１を介して接続されている。

　主記憶装置１０３には、プロセッサ１０２が各種制御や演算を行うためのプログラムが予め格納されている。主記憶装置１０３は、半導体メモリなどで構成される。プロセッサ１０２と主記憶装置１０３とによって、図１に示した第１処理部１１０、第２処理部１２０、第３処理部１３０を含む画像処理装置１の各機能が実現される。

　プロセッサ１０２は、ＧＰＵ、ＣＰＵ、ＦＰＧＡなど任意の論理回路を構成するものにより実現することができる。

　通信Ｉ／Ｆ１０４は、通信ネットワークＮＷを介して各種外部電子機器との通信を行うためのインターフェース回路である。例えば、通信Ｉ／Ｆ１０４から、図示されない外部のサーバなどで事前に学習された物体検出モデルを受信して、後述の補助記憶装置１０５に格納することができる。また、通信Ｉ／Ｆ１０４は、入力画像Ｉ_ｉｎや出力データであるメタデータＭＤを、予め設定された外部のサーバなどへ送出してもよい。

　通信Ｉ／Ｆ１０４としては、例えば、３Ｇ、４Ｇ、５Ｇ、無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線データ通信規格に対応した通信制御回路およびアンテナが用いられる。

　補助記憶装置１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

　補助記憶装置１０５は、画像処理装置１が分割処理、全体処理、合成処理を含む画像処理を行うための各種パラメータやプログラムを格納するプログラム格納領域を有する。また、補助記憶装置１０５には、画像処理装置１が物体検出処理に用いる深層学習に基づく学習済みの物体検出モデルが格納されている。上述した補助記憶装置１０５は、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。

　入出力Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりするＩ／Ｏ端子により構成される。

　入力装置１０７は、キーボードやタッチパネルなどで構成され、外部からの操作入力を受け付け、操作入力に応じた信号を生成する。

　表示装置１０８は、液晶ディスプレイなどによって実現される。表示装置１０８は、入力画像Ｉ_ｉｎや出力データであるメタデータＭＤなどを表示することができる。

　［画像処理装置の動作の概要］
　次に、上述した構成を有する画像処理装置１の動作について、図５から図９のフローチャートを参照して説明する。なお、以下において、補助記憶装置１０５には、学習済みの物体検出モデルが格納されているものとする。

　図５は、画像処理装置１の動作の概要を説明するためのフローチャートである。図５に示すように、まず、入力画像Ｉ_ｉｎが入力される（ステップＳ１）。例えば、図示されない外部のカメラなどで撮影された画像が通信Ｉ／Ｆ１０４で受信され、入力画像Ｉ_ｉｎとして画像処理装置１に入力される。また、入力画像Ｉ_ｉｎとしては、高精細画像などが用いられる。

　次に、第１処理部１１０は、入力画像Ｉ_ｉｎが分割された複数の分割画像の各々に対して分割処理を実行する（ステップＳ２）。次に、第２処理部１２０は、入力画像Ｉ_ｉｎが縮小された全体画像に対する全体処理を実行する（ステップＳ３）。

　その後、第３処理部１３０は、ステップＳ２での分割処理の結果とステップＳ３での全体処理の結果とに基づいて、メタデータの合成処理を行う（ステップＳ４）。その後、第３処理部１３０は、入力画像Ｉ_ｉｎのメタデータＭＤを出力する（ステップＳ５）。なお、ステップＳ２での分割処理とステップＳ３での全体処理とは、並列に実行されてもよく、また、ステップＳ２とステップＳ３とが実行される順番は逆であってもよい。

　［分割処理］
　次に、分割処理（図５のステップＳ２）について図６のフローチャートを用いてより詳細に説明する。

　まず、分割部１１１は、入力画像Ｉ_ｉｎを分割して複数の分割画像を出力する（ステップＳ２０）。例えば、分割部１１１は、画像サイズがＷ_ｉｎ（幅）×Ｈ_ｉｎ（高さ）の入力画像Ｉ_ｉｎを、図４に示すように、４つに分割し、４つの分割画像を生成することができる。

　次に、スケーリング部１１２は、各分割画像を予め設定された画像サイズにスケーリングする（ステップＳ２１）。より詳細には、スケーリング部１１２は、分割画像のサイズを、物体検出部１１３が用いる物体検出モデルの指定の入力画像のサイズに対応するように、各分割画像を縮小する。なお、入力画像Ｉ_ｉｎのサイズが、物体検出部１１３による物体検出処理で用いる画像サイズで割り切れる場合には、ステップＳ２１のスケーリング処理は省略される。

　次に、物体検出部１１３は、指定された画像サイズにスケーリングされた分割画像を入力として、補助記憶装置１０５に格納されている深層学習に基づく学習済みの物体検出モデルを読み出して、物体検出モデルの演算を行い、分割画像に含まれる物体を検出する（ステップＳ２２）。より詳細には、物体検出部１１３は、分割画像に含まれる物体の属性値と、その物体を囲う四角枠ＢＢ１とを含む属性情報の集合を、分割画像のメタデータＭＤ１として取得する。

　次に、メタデータ調整部１１４は、分割画像のメタデータＭＤ１に含まれる物体の四角枠ＢＢ１の座標を、上述した式（３）から（６）を用いて、元画像である入力画像Ｉ_ｉｎにマッピングする（ステップＳ２３）。

　その後、メタデータ調整部１１４は、分割画像のメタデータＭＤ１を出力する（ステップＳ２４）。各分割画像のメタデータＭＤ１は、第３処理部１３０に入力される。

　［全体処理］
　次に、第２処理部１２０によって実行される入力画像Ｉ_ｉｎに対する全体処理（図５のステップＳ３）について図７のフローチャートを参照してより詳細に説明する。

　図７に示すように、まず、スケーリング部１２１は、入力画像Ｉ_ｉｎを、指定の画像サイズに縮小する（ステップＳ３０）。より詳細には、スケーリング部１２１は、入力画像Ｉ_ｉｎを、物体検出部１２２によって用いられる物体検出モデルに入力することができる、指定の画像サイズに縮小し、縮小された全体画像を出力する。

　次に、物体検出部１２２は、補助記憶装置１０５に格納されている学習済みの物体検出モデルを読み出し、ステップＳ３０でスケーリングされた全体画像を入力として、物体検出モデルの演算を行い、全体画像に含まれる物体の属性とその物体の四角枠ＢＢ２とを含む属性情報の集合を、全体画像のメタデータＭＤ２として取得する（ステップＳ３１）。

　次に、メタデータスケーリング部１２３は、ステップＳ３１で生成された全体画像のメタデータＭＤ２に含まれる物体の四角枠ＢＢ２を拡張するスケーリングを行う（ステップＳ３２）。メタデータスケーリング部１２３は、例えば、双線形補間法を用いて四角枠ＢＢ２のスケーリングを行い、四角枠ＢＢ２を入力画像Ｉ_ｉｎにマッピングする。

　その後、メタデータスケーリング部１２３は、各四角枠ＢＢ２がスケーリングされ入力画像Ｉ_ｉｎにマッピングされたメタデータＭＤ２を出力する（ステップＳ３３）。メタデータＭＤ２は、第３処理部１３０へ入力される。

　［合成処理］
　次に、第３処理部１３０によって実行される合成処理（図５のステップＳ４）について、図８および図９のフローチャートを用いて説明する。

　図８に示すように、選別部１３１は、分割画像のメタデータＭＤ１と、全体画像のメタデータＭＤ２とに基づいて、分割画像ごとにメタデータの選別処理を実行する（ステップＳ４０）。

　ここで、ステップＳ４０の選別処理について、図９のフローチャートを参照してより詳細に説明する。なお、メタデータＭＤ１、ＭＤ２は、画像から検出された物体の属性値と、その物体を囲う四角枠ＢＢ１、ＢＢ２とを含む属性情報の集合である。例えば、メタデータＭＤ１、ＭＤ２に含まれる複数の属性情報の各々には、例えば、物体検出により画像から検出された各物体の属性値（例えば、「ｄｏｇ」）および検出された物体に対して作成された四角枠ＢＢ１、ＢＢ２の情報（座標およびサイズ）が含まれる。図９では、各分割画像の１つの属性情報ごとに選別処理が実行される場合を例に挙げて説明する。

　図９に示すように、まず、選別部１３１に、第２処理部１２０で生成された全体画像のメタデータＭＤ２が入力される（ステップＳ４００）。次に、選別部１３１には、第１処理部１１０で生成された複数の分割画像のうちの１枚の分割画像のメタデータＭＤ１が入力される（ステップＳ４０１）。

　次に、選別部１３１は、全体画像のメタデータＭＤ２の属性値が分割画像のメタデータＭＤ１の属性値と一致するか否かを判断する（ステップＳ４０２）。全体画像のメタデータＭＤ２の属性値が分割画像のメタデータＭＤ１の属性値と一致する場合には（ステップＳ４０２：ＹＥＳ）、算出部３１０が重複度を計算する（ステップＳ４０３）。より詳細には、算出部３１０は、全体画像のメタデータＭＤ２に含まれる四角枠ＢＢ２と、分割画像のメタデータＭＤ１に含まれる四角枠ＢＢ１とで重複した面積を、四角枠ＢＢ１の面積で除算して得られる重複度を算出する。

　なお、ステップＳ４０２において、全体画像のメタデータＭＤ２に含まれる属性値が分割画像のメタデータＭＤ１に含まれる属性値と一致しない場合には（ステップＳ４０２：ＮＯ）、処理はステップＳ４０１に移行し、同じ分割画像のメタデータＭＤ１に含まれる別の属性情報が入力される（ステップＳ４０１）。

　例えば、分割画像のメタデータＭＤ１に含まれる属性値と、全体画像のメタデータＭＤ２に含まれる属性値とが、例えば、「ｄｏｇ」、「ｂｉｃｙｃｌｅ」のように、互いに異なる場合が挙げられる。

　次に、判定部３１１は、ステップＳ４０３で算出された重複度が、予め設定された第１しきい値を上回る場合には（ステップＳ４０４：ＹＥＳ）、分割画像のメタデータＭＤ１の属性情報と、全体画像のメタデータＭＤ２の属性情報とは同一の属性情報であると判断し、同じ属性情報をメタデータＭＤ１から除去する（ステップＳ４０５）。つまり、分割画像と全体画像とで検出された物体の属性値が同じであり、かつ、その物体が入力画像Ｉ_ｉｎにおいて対応する位置関係にあるメタデータの属性情報が分割画像のメタデータＭＤ１から排除される。

　一方において、重複度が第１しきい値以下の場合には（ステップＳ４０４：ＮＯ）、処理は終了する。その後、全体画像のメタデータＭＤ２の属性情報について選別処理が行われ、分割画像と全体画像とで共通しているメタデータの属性情報が排除される（ステップＳ４００からステップＳ４０５）。また、選別部１３１は、複数の分割画像の各々について、メタデータの選別処理を実行する。

　その後、処理は、図８の合成処理のフローに戻され、合成部１３２により、複数の分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とが合成され、入力画像Ｉ_ｉｎのメタデータＭＤが生成される（ステップＳ４１）。分割画像のメタデータＭＤ１には、全体画像のメタデータＭＤ２に含まれていないような小さいサイズの物体に関する属性情報が含まれる。また、全体画像のメタデータＭＤ２には、分割画像のメタデータＭＤ１には含まれていない比較的大きいサイズの物体に関する属性情報が含まれている場合がある。

　その後、合成されて得られた入力画像Ｉ_ｉｎのメタデータＭＤは、入力画像Ｉ_ｉｎに付加されて画像ファイルとして表示装置１０８の表示画面に表示されることができる。

　以上説明したように、第１の実施の形態によれば、入力画像Ｉ_ｉｎを縮小した全体画像を用いて、深層学習に基づく物体検出を行い、かつ、入力画像Ｉ_ｉｎを分割した複数の分割画像の各々についても深層学習に基づく物体検出を行う。また、全体画像を用いた物体検出の結果と、複数の分割画像各々の物体検出の結果とに基づいて、全体画像と分割画像とで共通するメタデータの属性情報を除去した上で、全体画像のメタデータＭＤ２と複数の分割画像のメタデータＭＤ１とを合成し、入力画像Ｉ_ｉｎのメタデータＭＤを生成する。

　そのため、高精細画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出により検出することができる。

　［第２の実施の形態］
　次に、本発明の第２の実施の形態について説明する。なお、以下の説明では、上述した第１の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

　第１の実施の形態では、分割画像および全体画像のそれぞれでの物体検出の結果から、メタデータの重複度を計算し、重複度が第１しきい値を上回る場合に、分割画像のメタデータＭＤ１の属性情報と全体画像のメタデータＭＤ２の属性情報とは共通すると判断して、共通する属性情報を分割画像のメタデータＭＤ１から除去した。これに対して、第２の実施の形態では、２段階のしきい値判定に基づいてメタデータの重複を排除する。

　第２の実施の形態に係る画像処理装置１の構成は、第１の実施の形態（図１）と同様である。また、本実施の形態に係る画像処理装置１の動作については、メタデータの選別処理以外については第１の実施の形態と同様である（図２から図８）。以下、本実施の形態に係る画像処理装置１によって実行されるメタデータの選別処理について、図１０のフローチャートを参照して説明する。

　図１０に示すように、選別部１３１は、分割画像のメタデータＭＤ１と、全体画像のメタデータＭＤ２とに基づいて、分割画像ごとにメタデータの選別処理を実行する。

　なお、メタデータＭＤ１、ＭＤ２は、物体の属性値と、その物体を囲う四角枠ＢＢ１、ＢＢ２とを含む属性情報の集合である。例えば、メタデータＭＤ１、ＭＤ２の１つの属性情報には、物体検出により画像から検出された各物体の属性値（例えば、「ｄｏｇ」）および検出された物体に対して作成された四角枠ＢＢ１、ＢＢ２の情報（座標およびサイズ）が含まれる。図１０では、各分割画像の１つの属性情報ごとに選別処理が実行される場合を例に挙げて説明する。

　図１０に示すように、まず、選別部１３１に、第２処理部１２０で処理された全体画像のメタデータＭＤ２が入力される（ステップＳ４００）。次に、選別部１３１には、第１処理部１１０で処理された複数の分割画像のうちの１枚の分割画像のメタデータＭＤ１が入力される（ステップＳ４０１）。

　なお、ステップＳ４０２において、全体画像のメタデータＭＤ２の属性値が分割画像のメタデータＭＤ１の属性値と一致しない場合には（ステップＳ４０２：ＮＯ）、処理はステップＳ４０１に移行し、同じ分割画像のメタデータＭＤ１に含まれる別の属性情報が入力される（ステップＳ４０１）。

　次に、ステップＳ４０３で算出された重複度が、予め設定された第１しきい値を上回り（ステップＳ４０４：ＹＥＳ）、かつ、判定部３１１（第２判定部）において、分割画像のメタデータＭＤ１に含まれる四角枠ＢＢ１の面積と全体画像の四角枠ＢＢ２の面積比が、予め設定された第２しきい値を上回る（ステップＳ４０４Ａ：ＹＥＳ）と判定された場合、選別部１３１は、判定対象となっている属性情報をメタデータＭＤ１から除去する（ステップＳ４０５）。

　より詳細には、全体画像のメタデータＭＤ２に含まれる四角枠ＢＢ２の面積に対する分割画像のメタデータＭＤ１の四角枠ＢＢ１の面積が、予め設定された第２しきい値を上回る場合に、判定対象となっている属性情報を、合成部１３２による分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２との合成処理における補間対象から除去する。

　本実施の形態では、物体検出部１１３、１２２で検出される物体の入力画像Ｉ_ｉｎにおける位置情報は、四角枠ＢＢ１、ＢＢ２で表現されている。これに伴い、全体画像において検出された物体の大きさが、画像全体の面積に対して比較的大きい場合、物体の四角枠ＢＢ２の面積が大きくなり、分割画像において検出された物体の四角枠ＢＢ１を覆ってしまう場合がある。このような場合に、分割画像のメタデータＭＤ１の属性情報を誤って除去してしまうことを防止する。

　このように本実施の形態では、重複度と物体間の面積比とに基づいて、分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２との重複を排除する。

　一方において、重複度が第１しきい値以下となる場合には（ステップＳ４０４：ＮＯ）、処理は終了する。また、重複度が第１しきい値を上回る場合であっても（ステップＳ４０４：ＹＥＳ）、四角枠ＢＢ１、ＢＢ２間の面積比が第２しきい値以下の場合には（ステップＳ４０４Ａ：ＮＯ）、同様に処理は終了する。

　その後、全体画像のメタデータＭＤ２に含まれるすべての属性情報について選別処理が行われ、分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とで重複している属性情報が排除される（ステップＳ４００からステップＳ４０５）。また、選別部１３１は、複数の分割画像の各々について、メタデータの選別処理を実行する。

　その後、処理は、図８の合成処理のフローに戻され、合成部１３２により、複数の分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とが合成され、入力画像Ｉ_ｉｎのメタデータＭＤが生成される（図８のステップＳ４１）。

　以上説明したように、第２の実施の形態によれば、メタデータの選別処理において、選別部１３１は、重複度に加えて、物体間の面積比についても考慮し、２段階のしきい値処理により、分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とで共通する属性情報を補間対象から排除する。

　その結果として、画像処理装置１は、高精細画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出によって、より精度よく検出することができる。

　［第３の実施の形態］
　次に、本発明の第３の実施の形態について説明する。なお、以下の説明では、上述した第１および第２の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

　第２の実施の形態では、メタデータの選別処理において、２段階のしきい値処理を行い、重複度が第１しきい値以上であっても、分割画像のメタデータＭＤ１に含まれる四角枠ＢＢ１の面積と全体画像のメタデータＭＤ２に含まれる物体の四角枠ＢＢ２の面積との比が、第２しきい値以下となる場合には、分割画像のメタデータＭＤ１の属性情報と全体画像のメタデータＭＤ２の属性情報とは共通しないと判断し、合成部１３２による補間処理の対象とした。

　これに対して、第３の実施の形態では、メタデータの選別処理において、さらに、全体画像のメタデータＭＤ２に含まれる属性値のうちの、いずれの属性値とも一致しない属性値を有する属性情報が、分割画像のメタデータＭＤ１に含まれるか否かを判断する。一致しない属性値を有する属性情報がメタデータＭＤ１に含まれる場合、分割画像のメタデータＭＤ１に含まれる物体の四角枠ＢＢ１の面積と、その四角枠ＢＢ１に対応する入力画像Ｉ_ｉｎの領域の面積とが比較される。

　第３の実施の形態に係る画像処理装置１の構成は、第１の実施の形態（図１）と同様である。また、本実施の形態に係る画像処理装置１の動作については、メタデータの選別処理以外については第１の実施の形態と同様である（図２から図８）。また、メタデータの選別処理についても、第２の実施の形態に係るメタデータの選別処理（図１０）のステップＳ４００からステップＳ４０５までの処理は同様である。以下、本実施の形態に係る画像処理装置１によって実行されるメタデータの選別処理について、図１１のフローチャートを参照して説明する。

　図１１に示すように、選別部１３１は、分割画像のメタデータＭＤ１と、全体画像のメタデータＭＤ２とに基づいて、分割画像ごとにメタデータの選別処理を実行する。

　なお、メタデータＭＤ１、ＭＤ２は、物体の属性値と、その物体を囲う四角枠ＢＢ１、ＢＢ２とを含む属性情報の集合である。例えば、メタデータＭＤ１、ＭＤ２の属性情報には、各物体の属性値（例えば、「ｄｏｇ」）および検出された物体に対して作成された四角枠ＢＢ１、ＢＢ２の情報（座標およびサイズ）が含まれる。図１０では、各分割画像のメタデータＭＤ１に含まれる属性情報ごとに選別処理が実行される場合を例に挙げて説明する。

　図１１に示すように、まず、選別部１３１に、第２処理部１２０で生成された全体画像のメタデータＭＤ２が入力される（ステップＳ４００）。次に、選別部１３１には、第１処理部１１０で生成された複数の分割画像のうちの１枚の分割画像のメタデータＭＤ１が入力される（ステップＳ４０１）。

　次に、判定部３１１は、ステップＳ４０３で算出された重複度が、予め設定された第１しきい値以上であり（ステップＳ４０４：ＹＥＳ）、かつ、分割画像のメタデータＭＤ１の四角枠ＢＢ１の面積と全体画像のメタデータＭＤ２に係る四角枠ＢＢ２の面積比が第２しきい値を上回ると判定した場合（ステップＳ４０４Ａ：ＹＥＳ）、選別部１３１は、判定対象の属性情報をメタデータＭＤ１から除去する（ステップＳ４０５）。

　より詳細には、選別部１３１は、全体画像のメタデータＭＤ２に含まれる四角枠ＢＢ２の面積に対する分割画像のメタデータＭＤ１に含まれる四角枠ＢＢ１の面積が、予め設定された第２しきい値を上回る場合に、判定対象の属性情報を、合成部１３２による合成処理における補間対象から除去する。

　このように本実施の形態では、重複度と物体間の面積比とに基づいて、分割画像と全体画像とに含まれるメタデータの重複を排除する。

　一方において、重複度が第１しきい値以下となる場合には（ステップＳ４０４：ＮＯ）、ステップＳ４０６に移行する。また、重複度が第１しきい値を上回る場合であっても（ステップＳ４０４：ＹＥＳ）、面積比が第２しきい値以下となる場合には（ステップＳ４０４Ａ：ＮＯ）、同様に処理はステップＳ４０６に移行する。

　次に、選別部１３１は、全体画像のメタデータＭＤ２に含まれるすべての属性情報について、ステップＳ４０２からステップＳ４０４Ａまでの処理が完了するまで（ステップＳ４０６：ＮＯ）、ステップＳ４０４からステップＳ４０５までの処理を繰り返す。その後、全体画像のメタデータＭＤ２のすべての属性情報について、ステップＳ４０２からステップＳ４０４Ａまでの処理を完了すると（ステップＳ４０６：ＹＥＳ）、選別部１３１は、全体画像のメタデータＭＤ２の属性値と、分割画像のメタデータＭＤ１の属性値とを比較する（ステップＳ４０７）。

　より詳細には、選別部１３１は、全体画像のメタデータＭＤ２のすべての属性情報に含まれる属性値のいずれとも一致しない属性値を有する属性情報が、分割画像のメタデータＭＤ１に含まれる場合（ステップＳ４０７：ＹＥＳ）、その重複しない属性値に係る分割画像のメタデータＭＤ１の四角枠ＢＢ１の面積と、この四角枠ＢＢ１に対応する入力画像Ｉ_ｉｎの領域の面積とを比較する（ステップＳ４０８）。

　より具体的には、判定部３１１は、分割画像のメタデータＭＤ１に含まれる四角枠ＢＢ１の面積を、元画像である入力画像Ｉ_ｉｎの対応する領域の面積で除算して得られる値（第３の値）が、予め設定された第３しきい値を上回るか否かを判定する。四角枠ＢＢ１の面積を入力画像Ｉ_ｉｎの対応する領域の面積で除算した値が予め設定された第３しきい値を上回る場合には（ステップＳ４０８：ＹＥＳ）、比較対象となっている属性情報を分割画像のメタデータＭＤ１から除去する（ステップＳ４０９）。

　このように、全体画像で検出された物体群のいずれとも一致しない属性値を有する物体が、分割画像において検出された場合において、その一致しない属性値に対応する四角枠ＢＢ１の面積の元画像のサイズにおける割合が、第３しきい値を上回るか否かが判定される。第３しきい値を上回った場合、判定対象の属性情報は、第１処理部１１０による画像の分割処理の影響により、入力画像Ｉ_ｉｎに含まれる物体の特徴量が分割されたために誤検出された物体の属性情報であると判断される。

　選別部１３１は、第３しきい値に基づいて誤検出された物体に係る属性情報を分割画像のメタデータＭＤ１から除去し、分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２との合成処理における補間対象から事前に排除する。

　一方において、四角枠ＢＢ１の面積を入力画像Ｉ_ｉｎの対応する領域の面積で除算した値が第３しきい値以下である場合には（ステップＳ４０８：ＮＯ）、処理は終了する。また、全体画像のメタデータＭＤ２に含まれる属性値のいずれとも重複しない属性値を有する属性情報が、分割画像のメタデータＭＤ１に含まれていない場合にも（ステップＳ４０７：ＮＯ）、同様に処理は終了する。

　このように、ステップＳ４０８において、第３しきい値以下となる場合には、選別部１３１は、全体画像で検出された物体群の属性値のいずれとも一致しない属性値に係る分割画像のメタデータＭＤ１の属性情報は、第２処理部１２０における全体処理で検出できなかった比較的小さいサイズの物体に係る属性情報であると判断する。

　その後、選別部１３１は、複数の分割画像の各々について、メタデータの選別処理を実行する（ステップＳ４００からステップＳ４０９）。

　その後、処理は、図８の合成処理のフローに戻され、合成部１３２により、複数の分割画像のメタデータＭＤ１と全体画像のメタデータＭＤ２とが合成され、入力画像Ｉ_ｉｎのメタデータＭＤが生成されて出力される（図８のステップＳ４１）。

　以上説明したように、第３の実施の形態によれば、メタデータの選別処理において、全体画像のメタデータＭＤ２に含まれる物体群の属性値のいずれとも一致しない属性値を有する物体に係る分割画像のメタデータＭＤ１の属性情報がある場合には、さらにしきい値処理を行い、共通する属性情報をメタデータＭＤ１から排除する。

　そのため、第１処理部１１０によって入力画像Ｉ_ｉｎが分割されたことに伴う物体の誤検出に係るメタデータＭＤ１を排除することができる。また、第２処理部１２０が、入力画像Ｉ_ｉｎを縮小した全体画像で検出することができなかった、比較的小さいサイズの物体を、分割画像のメタデータＭＤ１に基づいて補間することができる。

　［第４の実施の形態］
　次に、本発明の第４の実施の形態について説明する。なお、以下の説明では、上述した第１から第３の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

　第１から第３の実施の形態では、画像処理装置１は、第１処理部１１０、第２処理部１２０、および第３処理部１３０をそれぞれ１つずつ備える場合について説明した。これに対し、第４の実施の形態では、画像処理システム１Ｂが複数の画像処理装置１Ａを備え、複数の画像処理装置１Ａにより、入力画像Ｉ_ｉｎに含まれる物体が検出される。

　図１２は、第４の実施の形態に係る画像処理システム１Ｂの構成を示すブロック図である。図１２に示すように、画像処理システム１Ｂは、複数の画像処理装置１Ａ、第２処理部（第２処理装置）１２０Ｂ、第３処理部（合成処理装置）１３０Ｂ、および分割部（分割装置）１４０を備える。

　本実施の形態では、画像処理システム１Ｂは、Ｍ個（Ｍ＞１）の画像処理装置１Ａを備える。それぞれの画像処理装置１Ａは、第１から第３の実施の形態と同様に、第１処理部１１０、第２処理部１２０、および第３処理部１３０を備える（図１、図１２）。

　また、第１処理部１１０、第２処理部１２０、１２０Ｂ、および第３処理部１３０、１３０Ｂのそれぞれの構成は、図１で説明した対応する構成と同様である。

　図１２に示すように、画像処理システム１Ｂは、複数の画像処理装置１Ａの前段に、分割部１４０を備える。分割部１４０は、画像処理システム１Ｂに入力される入力画像Ｉ_ｉｎをＭ－１個の画像に分割する。分割部１４０は、Ｍ個の分割画像（第３画像）を、Ｍ個の画像処理装置１Ａに入力する。

　Ｍ個の画像処理装置１Ａは、Ｍ個の分割画像を、さらにＭ’個（Ｍ’＞Ｍ）に分割する。Ｍ個の画像処理装置１Ａは、さらに分割されたＭ’個の分割画像ごとに物体検出を行う。例えば、図１２に示すように、分割部１４０は、入力画像Ｉ_ｉｎをＭ個の分割画像［０］，・・・，［Ｍ］に分割する。分割画像［０］は、画像処理装置１Ａに入力され、第１処理部１１０の分割部１１１で、複数の分割画像に分割される。各分割画像は、スケーリング部１１２で指定された画像サイズにスケーリングされ、物体検出部１１３に入力される。物体検出部１１３は、予め用意された学習済みの物体検出モデルを用いて、分割画像に含まれる物体を検出する。物体検出の結果には、検出された物体の属性値と、その物体を囲う四角枠ｂｂ１とが含まれる。

　物体検出の結果は、メタデータ調整部１１４に入力され、四角枠ｂｂ１の座標が元の分割画像［０］にマッピングされる。

　第２処理部１２０は、分割画像［０］を縮小した全体画像の物体検出を行う。より詳細には、スケーリング部１２１は、予め指定されている物体検出モデルに入力可能な画像サイズとなるように、分割画像［０］を縮小する。

　スケーリングされた分割画像［０］は、物体検出部１２２に入力され、物体検出モデルの演算により、分割画像［０］に含まれる物体が検出される。より詳細には、物体検出部１２２は、分割画像［０］に含まれる物体の属性値、および物体を囲う四角枠ｂｂ２を指定する。

　メタデータスケーリング部１２３は、物体検出部１２２によって検出された分割画像［０］の全体に含まれる物体の四角枠ｂｂ２の領域を拡大するスケーリング処理を行い、元画像の分割画像［０］に四角枠ｂｂ２をマッピングする。

　第３処理部１３０は、第１処理部１１０から出力される分割画像［０］をさらに分割した複数の分割画像のメタデータｍｄ１と、第２処理部１２０から出力される分割画像［０］のメタデータｍｄ２とに基づいて、メタデータｍｄ１とメタデータｍｄ２とを合成する。

　より詳細には、算出部３１０は、分割画像［０］をさらに分割した複数の分割画像のメタデータｍｄ１と分割画像［０］のメタデータｍｄ２との重複度を計算する。判定部３１１は、重複度が第１しきい値を上回る場合、判定対象の属性情報をメタデータｍｄ１から除去する。

　合成部１３２は、選別部１３１によってメタデータが選別され、分割画像［０］の分割画像と、分割画像［０］の全体とに含まれる重複するメタデータが排除されたメタデータｍｄ１とメタデータｍｄ２とを合わせた、分割画像［０］のメタデータｍｄ（第４メタデータ）を生成する。

　本実施の形態では、図１２に示すように、Ｍ個の画像処理装置１Ａを用いて、Ｍ個の分割画像の各々について、上記の処理が実行される。したがって、Ｍ個の画像処理装置１Ａの各々から合成された分割画像ごとの合計Ｍ個のメタデータｍｄが出力される。

　また、図１２に示すように、画像処理システム１Ｂには、第２処理部１２０Ｂおよび第３処理部１３０Ｂが含まれる。画像処理システム１Ｂは、Ｍ個の画像処理装置１Ａが備えるＭ個の第２処理部１２０およびＭ個の第３処理部１３０、ならびに第２処理部１２０Ｂおよび第３処理部１３０Ｂにより、合計Ｍ＋１個の第２処理部１２０、１２０ＢとＭ＋１個の第３処理部１３０、１３０Ｂとを備える。

　第２処理部１２０Ｂは、入力画像Ｉ_ｉｎの全体処理を実行する。第２処理部１２０Ｂは、スケーリング部１２１、物体検出部１２２、およびメタデータスケーリング部１２３を備える。

　スケーリング部１２１は、元画像である入力画像Ｉ_ｉｎを縮小した全体画像（第５画像）を出力する。物体検出部１２２は、スケーリングされた全体画像を入力として、学習済みの物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と、その物体を囲う四角枠ＢＢ２（第３領域）とを含む属性情報の集合を全体画像のメタデータＭＤ２（第５メタデータ）として取得する。四角枠ＢＢ２には、入力画像Ｉ_ｉｎにおける座標情報が含まれる。

　物体検出部１２２で生成された全体画像のメタデータＭＤ２は、メタデータスケーリング部１２３に入力されて、検出された物体の四角枠ＢＢ２の座標が入力画像Ｉ_ｉｎへマッピングされる。

　第３処理部１３０Ｂは、選別部１３１および合成部１３２を備える。また、選別部１３１は、算出部３１０および判定部３１１を備える。第３処理部１３０Ｂには、Ｍ個の画像処理装置１Ａで得られたＭ個のメタデータｍｄ、および第２処理部１２０Ｂで得られた、入力画像Ｉ_ｉｎが縮小された全体画像のメタデータＭＤ２が入力される。

　算出部３１０は、Ｍ個の画像処理装置１Ａで求められた分割画像［０］・・・［Ｍ］各々に対応するメタデータｍｄと、第２処理部１２０Ｂで得られた入力画像Ｉ_ｉｎが縮小された全体画像のメタデータＭＤ２との重複度を計算する。

　判定部３１１は、算出部３１０で算出された重複度が予め設定された第１しきい値を上回るか否かを判定する。

　選別部１３１は、判定部３１１が第１しきい値を上回ると判定した場合に、判定対象の属性情報をメタデータｍｄから除去する。

　合成部１３２は、選別部１３１によりメタデータが選別され、分割画像［０］・・・［Ｍ］と、入力画像Ｉ_ｉｎを縮小した全体画像とに含まれる重複するメタデータが排除されたメタデータｍｄとメタデータＭＤ２とを合わせて、入力画像Ｉ_ｉｎのメタデータＭＤ（第６メタデータ）を生成し、出力する。

　以上説明したように、第４の実施の形態によれば、画像処理システム１Ｂは、Ｍ個の第１処理部１１０、Ｍ＋１個の第２処理部１２０、１２０Ｂ、およびＭ＋１個の第３処理部１３０、１３０Ｂを備え、分割処理と合成処理とを階層的に実行する。そのため、入力画像Ｉ_ｉｎの分割数を増加した場合において、画像の分割に伴い画像に含まれる特徴的な部位が検出されないことを抑制できる。

　また、画像処理システム１Ｂは、複数の画像処理装置１Ａを備えるので、例えば、画像処理装置１Ａで分割できる画像の上限がＭ’個であったとしても、分割可能な画像の上限数を拡張できる。

　その結果として、深層学習に基づく物体検出モデルに入力可能な画像サイズを上回る高精細画像を入力画像Ｉ_ｉｎとして用いても、入力画像Ｉ_ｉｎに含まれる比較的大きいサイズの物体および比較的小さいサイズの物体の両方を検出することができる。

　なお、説明した実施の形態では、画像処理装置１、１Ａが備える各機能ブロックは、１つのコンピュータにより構成しても、ネットワークを介して接続された複数のコンピュータに分散することも可能である。同様に、画像処理システム１Ｂが備える各機能ブロックについても、１つのコンピュータにより実現する場合のほか、ネットワーク上の複数のコンピュータに分散した構成を採用することもできる。

　また、説明した実施の形態に係る画像処理装置１、および画像処理システム１Ｂは、コンピュータとプログラムによっても実現でき、プログラムを記憶媒体に記録することも、ネットワークを通じて提供することも可能である。

　また、説明した第１の実施の形態から第４の実施の形態に係る画像処理装置１は、それぞれ組み合わせて実現することも可能である。

　以上、本発明に係る画像処理装置、画像処理方法、画像処理システム、および画像処理プログラムにおける実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。例えば、画像処理方法の各ステップの順序は上記説明した順序に限られない。

１…画像処理装置、１１０…第１処理部、１１１…分割部、１１２、１２１…スケーリング部、１１３、１２２…物体検出部、１１４…メタデータ調整部、１２０…第２処理部、１２３…メタデータスケーリング部、１３０…第３処理部、１３１…選別部、１３２…合成部、３１０…算出部、３１１…判定部、１０１…バス、１０２…プロセッサ、１０３…主記憶装置、１０４…通信Ｉ／Ｆ、１０５…補助記憶装置、１０６…入出力Ｉ／Ｏ、１０７…入力装置、１０８…表示装置。

Claims

　入力画像を分割して複数の第１画像を出力する分割部と、
　前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理部と、
　前記入力画像を縮小した第２画像を出力するスケーリング部と、
　前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理部と、
　前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理部と
　を備え、
　前記第１領域は、前記入力画像における座標情報を有し、
　前記第２領域は、前記入力画像における座標情報を有する
　ことを特徴とする画像処理装置。
　請求項１に記載の画像処理装置において、
　前記合成処理部は、
　前記第２メタデータに含まれる物体の属性値と前記第１メタデータに含まれる物体の属性値とが一致する場合に、前記第２領域と前記第１領域とで重複した面積を、前記第１領域の面積で除算して得られるメタデータの属性情報間の重複度合いを表す第１の値を求める算出部と、
　前記算出部で算出された前記第１の値が、予め設定された第１しきい値を上回るか否かを判定する第１判定部と
　をさらに備え、
　前記合成処理部は、前記第１判定部が、前記第１の値が前記第１しきい値を上回ると判定した場合に、前記第１メタデータの属性情報は前記第２メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第１メタデータから排除して、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第３メタデータを生成する
　ことを特徴とする画像処理装置。
　請求項２に記載の画像処理装置において、
　前記合成処理部は、
　前記第１判定部によって前記第１の値が、前記第１しきい値を上回ると判定された場合に、前記第１メタデータの前記第１領域の面積を、前記第２領域の面積で除算して得られる第２の値が、予め設定された第２しきい値を上回るか否かを判定する第２判定部をさらに備え、
　前記合成処理部は、前記第１判定部によって前記第１の値が前記第１しきい値を上回ると判定され、かつ、前記第２判定部が、前記第２の値が前記第２しきい値を上回ると判定した場合に、前記第１メタデータの属性情報は、前記第２メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第１メタデータから排除して、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第３メタデータを生成する
　ことを特徴とする画像処理装置。
　請求項１から３のいずれか１項に記載の画像処理装置において、
　前記合成処理部は、
　前記第２メタデータに含まれる属性値のいずれとも一致しない属性値を有する物体が前記第１メタデータに含まれている場合、前記一致しない属性値に係る前記第１領域の面積を、前記第１領域に対応する前記入力画像の領域の面積で除算して得られる第３の値が、予め設定された第３しきい値を上回るか否かを判定する第３判定部をさらに備え、
　前記合成処理部は、前記第３判定部が、前記第３の値が前記第３しきい値を上回ると判定した場合に、前記第１メタデータの属性情報は、前記第２メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第１メタデータから排除して、前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第３メタデータを生成する
　ことを特徴とする画像処理装置。
　請求項１から４のいずれか１項に記載の画像処理装置と、分割装置と、スケーリング装置と、第２処理装置と、合成処理装置とを備える画像処理システムであって、
　前記分割装置は、入力画像を分割して複数の第３画像を出力し、
　前記画像処理装置は複数設けられ、前記画像処理装置の各々は、前記複数の第３画像のうちのいずれか１つの第３画像を入力として用いて、前記第３画像の属性情報の集合を示す第４メタデータを生成し、
　前記画像処理装置の各々は、
　前記第３画像を分割して複数の第１画像を出力する前記分割部と、
　前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する前記第１処理部と、
　前記第３画像を縮小した第２画像を出力する前記スケーリング部と、
　前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する前記第２処理部と、
　前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記第３画像の前記第４メタデータを生成する前記合成処理部と
　を備え、
　前記第１領域は、前記入力画像における座標情報を有し、
　前記第２領域は、前記入力画像における座標情報を有し、
　前記スケーリング装置は、前記入力画像を縮小した第５画像を出力し、
　前記第２処理装置は、前記第５画像を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第５画像に含まれる物体の属性値と、前記物体を囲う第３領域とを含む属性情報の集合を、前記第５画像の第５メタデータとして取得し、
　前記合成処理装置は、前記第５メタデータの属性情報の集合と、前記第５メタデータと前記第４メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第６メタデータを生成し、
　前記第３領域は、前記入力画像における座標情報を有する
　ことを特徴とする画像処理システム。
　入力画像を分割して複数の第１画像を出力する分割ステップと、
　前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理ステップと、
　前記入力画像を縮小した第２画像を出力するスケーリングステップと、
　前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理ステップと、
　前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理ステップと
　を備え、
　前記第１領域は、前記入力画像における座標情報を有し、
　前記第２領域は、前記入力画像における座標情報を有する
　ことを特徴とする画像処理方法。
　コンピュータに、
　入力画像を分割して複数の第１画像を出力する分割ステップと、
　前記複数の第１画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第１画像の各々に含まれる物体の属性値と、前記物体を囲う第１領域とを含む属性情報の集合を、第１画像の第１メタデータとして取得する第１処理ステップと、
　前記入力画像を縮小した第２画像を出力するスケーリングステップと、
　前記第２画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第２画像に含まれる物体の属性値と、前記物体を囲う第２領域とを含む属性情報の集合を、前記第２画像の第２メタデータとして取得する第２処理ステップと、
　前記第２メタデータの属性情報の集合と、前記第２メタデータと前記第１メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第３メタデータを生成する合成処理ステップと
　を実行させ、
　前記第１領域は、前記入力画像における座標情報を有し、
　前記第２領域は、前記入力画像における座標情報を有する
　ことを特徴とする画像処理プログラム。