WO2020202636A1

WO2020202636A1 - 情報処理方法、及び、情報処理システム

Info

Publication number: WO2020202636A1
Application number: PCT/JP2019/046123
Authority: WO
Inventors: 高橋　正樹; 石川　和史; 裕介塚本; 翔太大西
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2019-04-04
Filing date: 2019-11-26
Publication date: 2020-10-08
Also published as: EP3951704A1; US20210365731A1; JP7407427B2; JPWO2020202636A1; CN112955928A; US11977980B2; EP3951704A4

Abstract

情報処理方法は、コンピュータが、第１画像および第１画像に映る物体の物体データを取得し（Ｓ１０）、画像を入力として物体検出結果を出力する学習済みモデルに第１画像を入力することにより得られる物体検出結果と物体データとの差に対応する第１画像の部分を抽出し（Ｓ６０）、抽出された第１画像の部分に対応する物体データと同一の物体データに対応する部分を含む第２画像を取得し（Ｓ７０）、取得された第２画像における同一の物体データに対応する部分に、抽出された第１画像の部分に基づく画像を反映させる（Ｓ８０）ことにより、学習済みモデルのトレーニングデータを生成する（Ｓ９０）。

Description

情報処理方法、及び、情報処理システム

　本開示は、機械学習処理における訓練用データセットを生成するための情報処理方法、及び、情報処理システムに関する。より詳しくは、画像から一般物体を検出する物体検出装置における誤検出に対処するための機械学習処理に使用する訓練用データセットを生成する報処理方法、及び、情報処理システムに関する。

　近年、一般物体検出装置は、ディープラーニング技術の採用により、飛躍的に性能向上し、研究又は商品化が多数行われている。また、運転手の代わりに機械が運転する自動運転車（ロボットカー）においても、カメラ装置もしくは、レーダ、ステレオカメラ等の測距センサ装置等から転送される画像に対する一般物体検出装置は、自動運転車における要素機能の１つである。一般物体とは、歩行者、乗用車、道路標識、建物及び道路の領域等を示す。自動運転車は、一般物体検出装置からの検出情報に基づき、自動運転車本体を制御し、目的の場所へ安全に移動することが必須要件となる。

　よって、一般物体検出装置は、正確に物体検出を行う必要があるが、誤った検出（以降、誤検出）を引き起こすことも否定はできない。その場合の対処方法として、誤検出された画像データと検出データを正しく訂正し、それらを訓練用データとしてその物体検出装置に対して再学習処理する手法が存在する。この処理によって、その物体検出装置において同じような誤検出を起こし難くする効果がある。ニューラルネットワーク型検出器では、その再学習処理の手法として、転移学習やファインチューニングなどが存在する。

　そして、その再学習処理には、誤検出対策のための大量の訓練用データが必要となる。特許文献１には、認識対象が映る領域を幾何変換することにより認識対象を含む訓練用画像データを生成し、同じ背景部分の合成画像（只の背景）、異なる背景部分の合成画像（不自然）、異なる物体部分の合成画像（不自然）を生成し、認識器による認識対象を含まない訓練用画像データを生成する方法が示されている。

特開２０１２－８８７８７号公報

　しかし、特許文献１で開示される発明では、認識器（物体検出部）の認識性能が再学習において必ずしも向上するとは限らない。例えば、特許文献１では、幾何変換として、認識対象が映る領域をランダムにシフトしたり回転させたりするため、幾何変換後の認識対象が映る領域が元の画像において不自然となり、学習効果に悪影響を及ぼすおそれがある。

　そこで、本開示では、物体検出用の学習済みモデルの物体検出性能が再学習において向上する確実性を高めることができる情報処理方法、及び、情報処理システムを提供することを目的とする。

　本開示の一態様に係る情報処理方法は、コンピュータが、第１画像および前記第１画像に映る物体の物体データを取得し、画像を入力として物体検出結果を出力する学習済みモデルに前記第１画像を入力することにより得られる物体検出結果と前記物体データとの差に対応する前記第１画像の部分を抽出し、抽出された前記第１画像の部分に対応する物体データと同一の物体データに対応する部分を含む第２画像を取得し、取得された前記第２画像における前記同一の物体データに対応する部分に、抽出された前記第１画像の部分に基づく画像を反映させることにより、前記学習済みモデルのトレーニングデータを生成する。

　また、本開示の一態様に係る情報処理システムは、第１画像および前記第１画像に映る物体の物体データを取得する取得部と、画像を入力として物体検出結果を出力する学習済みモデルに前記第１画像を入力することにより得られる物体検出結果と前記物体データとの差に対応する前記第１画像の部分を抽出し、抽出された前記第１画像の部分に対応する物体データと同一の物体データに対応する部分を含む第２画像を取得し、取得された前記第２画像における前記同一の物体データに対応する部分に、抽出された前記第１画像の部分に基づく画像を反映させることにより、前記学習済みモデルのトレーニングデータを生成する生成部とを備える。

　なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る情報処理方法、及び、情報処理システムによれば、物体検出用の学習済みモデルの物体検出性能が再学習において向上する確実性を高めることができる。

図１は、実施の形態１に係る情報処理システムの機能構成を示すブロック図である。図２は、実施の形態１に係るサーバ装置の動作を示すフローチャートである。図３は、実施の形態１に係るサーバ装置が取得するログ情報の一例を示す構成図である。図４は、実施の形態１に係る判定用検出部に入力される画像の一例である。図５は、実施の形態１に係る判定用検出部の検出結果を示す図である。図６は、実施の形態１に係る切り出し画像の一例を示す図である。図７は、記憶部が格納する画像群の一例を示す図である。図８は、画像群に含まれる画像に対する判定用検出部の検出結果を示す図である。図９Ａは、訓練用データに含まれる画像群の一例を示す図である。図９Ｂは、訓練用データに含まれるアノテーション情報の一例を示す図である。図１０は、物体検出のカテゴリ構造の一例を示す図である。図１１Ａは、実施の形態１の変形例に係る生成部の動作の第１例を示すフローチャートである。図１１Ｂは、実施の形態１の変形例に係る生成部の動作の第２例を示すフローチャートである。図１１Ｃは、実施の形態１の変形例に係る生成部の動作の第３例を示すフローチャートである。図１１Ｄは、実施の形態１の変形例に係る生成部の動作の第４例を示すフローチャートである。図１１Ｅは、実施の形態１の変形例に係る生成部の動作の第５例を示すフローチャートである。図１１Ｆは、実施の形態１の変形例に係る生成部の動作の第６例を示すフローチャートである。図１２は、実施の形態２に係るサーバ装置の動作を示すフローチャートである。図１３は、実施の形態２に係るサーバ装置が取得するログ情報の一例を示す構成図である。図１４は、実施の形態２に係る判定用検出部に入力される画像の一例である。図１５は、訓練用データに含まれる画像群の一例を示す図である。

　（本開示の基礎となった知見）
　自動運転車を含む様々な工業製品の分野において、ニューラルネットワーク型物体検出装置を搭載し、その検出結果に基づき、自動的に制動を行う製品が市場に投入されている。

　しかしながら、ニューラルネットワーク型物体検出装置の学習処理においては、膨大な画像データの収集とアノテーション作業とを必要とする。また、アノテーション作業は手作業が一般的であり、非常にコストが掛かる作業となっている。

　そのため、様々な訓練用データを作成するための自動化手法が提案されている。しかし、物体検出装置の誤検出を効果的に対策するための訓練用データの自動生成における設計及び技術的な解決策に関しては、検討されていなかった。

　そこで、本願発明者らは、物体検出装置の誤検出を効果的に対策するための訓練用データの生成について鋭意検討を行い、以下に説明する情報処理方法及び情報処理システムを創案した。

　これにより、トレーニングデータ（訓練用データ）を自動で生成することができる。さらに、第２画像は、第１画像の部分（誤検出した物体）に対応する物体データ（例えば、物体クラス）と同一の物体データに対する部分を含む画像である。このような第２画像に、誤検出した物体が反映（例えば、重畳又は置換）されることにより生成される画像は、違和感の少ない自然な画像となる。つまり、訓練用データが不自然な画像となることで、学習効果に悪影響を及ぼすことが抑制される。

　よって、本開示の一態様に係る情報処理方法によれば、物体検出用の学習済みモデルの物体検出性能が再学習において向上する確実性を高めることができる。

　また、例えば、さらに、前記物体検出結果を取得し、取得された前記物体検出結果と前記物体データとを比較する。そして、比較結果に基づいて前記第１画像の部分を抽出する。

　これにより、コンピュータ（例えば、サーバ装置）において、一括して処理を行うことができる。言い換えると、訓練用データを生成する処理の全てを自動化することができるので、より低コストで訓練用データを生成することができる。

　また、例えば、前記第１画像の部分に基づく画像は、前記第１画像の部分を加工することにより得られた画像である。

　これにより、第１画像の部分に基づく画像を、当該第１画像から取得することができる。言い換えると、誤検知した物体（第１画像の部分）そのものに基づいて、訓練用データを生成することができるので、当該誤検知した物体に対して有効な訓練用データを生成することができる。

　また、例えば、前記第１画像の部分に基づく画像は、予め用意された画像から選択される、前記第１画像の部分と類似する画像である。

　これにより、第１画像の部分に基づく画像を、当該第１画像を加工することなく取得することができる。例えば、第１画像から当該第１画像の部分を切り出すことが困難である場合であっても、第１画像の部分と類似する画像を用いて訓練用データを生成することができる。また、選択された画像が３Ｄ画像である場合、当該３Ｄ画像の姿勢（例えば、傾きなど）を容易に変更することができる。よって、第２画像に当該選択された画像を反映するときに、より自然な画像を生成することができるので、さらに有効な訓練データを生成することができる。

　また、例えば、前記第２画像の取得では、撮像時の撮像装置の位置又は姿勢が、前記第１画像の撮像時の撮像装置の位置又は姿勢と同一又は類似である画像を前記第２画像として取得する。

　これにより、例えば、路線バス、タクシーなどの決まったコースを走行する乗用車向けの学習処理では効果的となる訓練用データを生成することができる。

　また、例えば、前記第２画像の取得では、撮像時の時間帯又は天候が、前記第１画像の撮像時の時間帯又は天候と同一又は類似である画像を前記第２画像として取得してもよい。また、例えば、前記第２画像の取得では、輝度又は撮像時の撮像方向の明るさが、前記第１画像の輝度又は第１画像の撮像時の撮像方向の明るさと同一又は類似である画像を前記第２画像として取得してもよい。また、例えば、前記第２画像の取得では、前記第１画像の部分に対応する物体データと同一の物体データに対応する部分の周囲の領域データが、前記第１画像の部分の周囲の領域データと同一又は類似である画像を前記第２画像として取得してもよい。

　これにより、第１画像を取得した環境により近い第２画像が選択を選択することができる。このような第２画像に、誤検出した物体が反映されることにより生成される画像は、第１画像が撮影された環境に類似した画像となる。例えば、ファインチューニングを行う場合、環境が類似した画像を用いて再学習することで、物体検出用の学習済みモデルの物体検出性能を向上させる確実性を高めることができる。よって、さらに有効な訓練用データを生成することができる。

　また、例えば、前記第２画像の取得では、前記第１画像の部分に対応する物体データと同一の物体データに対応する部分のサイズが、前記第１画像の部分のサイズと同一又は類似である画像を前記第２画像として取得する。

　これにより、より違和感の少ない自然な画像が生成されるので、さらに有効な訓練データを生成することができる。

　また、例えば、前記第１画像、及び、前記第２画像は、撮像画像であり、前記第２画像の取得では、撮像時の撮像装置の撮像パラメータが、前記第１画像の撮像時の撮像装置の撮像パラメータと同一又は類似である画像を前記第２画像として取得する。

　これにより、被写体（誤検出した物体）以外の情報に基づいて、第１画像が撮影された環境に類似した画像を含む訓練用データを生成することができる。

　これにより、コンピュータが、プログラムに従って、上記の情報処理方法を実行することができる。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。

　また、本明細書において、同じなどの要素間の関係性を示す用語、および、矩形などの要素の形状を示す用語、並びに、数値及び数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

　また、本明細書において、物体検出装置（物体検出部）の誤検出とは、未検出を含む。つまり、誤検出は、物体検出部が物体を正しく検出できていないこと、及び、物体を検出できなかったことを含む。また、実施の形態１では、物体を正しく検出できなかった場合について説明し、実施の形態２では、検出対象ではない物体を誤って検出した場合について説明する。

　（実施の形態１）
　以下、本実施の形態に係る情報処理方法、及び、情報処理システムついて、図１～図１０を参照しながら説明する。

　［１－１.情報処理システムの構成］
　まずは、本実施の形態に係るサーバ装置３０を含む情報処理システム１の構成について、図１を参照しながら説明する。図１は、本実施の形態に係る情報処理システム１の機能構成をブロック図である。

　図１に示すように、情報処理システム１は、移動体１０と、サーバ装置３０とを備える。

　移動体１０は、例えば、車両である。車両は、例えば、運転者の操作を必要とせずに、車両の運転を制御する自動運転車であるが、自動運転または手動運転の何れかに切り替えて走行することが可能な車両であってもよい。

　移動体１０は、物体検出部１１と通信部１２とを有する。また、移動体１０は、さらに、移動体１０の周囲を撮影した画像を生成するカメラ（図示しない）などの光センサを含む複数のセンサを有する。物体検出部１１は、光センサなどのセンサから取得した情報に基づいて、移動体１０の周囲に存在する物体を検出する。以下では、光センサがカメラであり、物体検出部１１は、当該カメラから画像を取得し、取得した画像に基づいて移動体１０の周囲に存在する物体を検出する場合を説明する。

　物体検出部１１は、入力されたセンサデータすなわち画像等に基づき物体を検出する。物体検出部１１は、物体検出モデル（学習済みモデル）に対する処理を制御する情報処理部であって、電気回路で構成される。物体検出モデルは、複数の層を有するニューラルネットワーク型の数理モデル（推論器）であって、物体検出処理を行うための数理モデルを含む。

　基本的に、物体検出モデルは、入力層、中間層及び出力層で構成される複数の処理層を有する。入力層には、物体検出処理の処理対象データが入力データ（入力情報）として入力される。そして、出力層から、物体検出処理の処理結果データが出力データ（出力情報）として出力される。入力層と出力層とは異なる処理層であって、入力層と出力層と間の処理層は、中間層と呼ばれる。物体検出モデルは、複数の中間層を有していてもよい。

　例えば、物体検出部１１の内部に、学習データを用いて学習された物体検出モデルが実装される。本実施の形態では、物体検出モデルは、入力データである画像に基づいて、「乗用車」及び「人物」の２つの物体クラスを検出可能に学習されているとする。

　また、物体検出部１１は、検出対象の画像及び検出結果などに基づいて、サーバ装置３０に送信するためのログ情報（図３を参照）を生成する。ログ情報については、後述するが、検出対象が映る画像及び物体検出部１１における検出結果が含まれる。

　通信部１２は、移動体１０がサーバ装置３０と通信を行うための通信回路（言い換えれば、通信モジュール）である。通信部１２は、ネットワーク２０を介してサーバ装置３０に物体検出部１１が生成したログ情報を転送するログ転送器として機能する。なお、通信部１２がログ情報を送信するタイミングは特に限定されず、ログ情報は、逐次送信されてもよいし、定期的に送信されてもよい。

　なお、移動体１０は、ログ情報を格納する記憶部（記憶装置）を備えていてもよい。

　ネットワーク２０は、インターネット等の広域ネットワーク（ＷＡＮ：Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）である。移動体１０とサーバ装置３０とは、ネットワーク２０を介して（具体的には、ネットワーク２０の末端に設けられた中継装置（図示しない）を介して）無線通信可能に接続されている。

　サーバ装置３０は、物体検出用の学習済みモデル（物体検出モデル）を再学習させるための訓練用データセットを生成する情報処理装置（訓練用データセット生成装置）である。サーバ装置３０は、例えば、移動体１０が備える物体検出部１１に実装されている物体検出モデルを作製した製造メーカ、その他の事業者等により運用される。

　サーバ装置３０は、通信部３１と、判定用検出部３２と、誤検出判定部３３と、生成部３４と、記憶部３５とを有する。

　通信部３１は、サーバ装置３０が移動体１０と通信を行うための通信回路（言い換えれば、通信モジュール）である。通信部３１は、ネットワーク２０を介して移動体１０からログ情報を受信するログ収集器として機能する。通信部３１は、受信したログ情報を判定用検出部３２及び誤検出判定部３３に出力する。なお、通信部３１は、取得部の一例である。

　判定用検出部３２は、ログ情報に含まれる画像に対して物体検出処理を行う処理部である。判定用検出部３２は、物体検出部１１より演算規模が大きく、より正確な物体検出を行うことができる。本実施の形態では、判定用検出部３２は、画像セグメンテーション（セマンティックセグメンテーション）を実行可能に学習された物体検出モデルを有し、当該物体検出モデルを用いて画像に対して画像セグメンテーションを実行する。画像セグメンテーションを実行するとは、画像が有する複数の画素のそれぞれに対して、当該画素が示す意味をラベル付けする処理を実行することである。これは、各画素がどのクラスのオブジェクト、つまりどのカテゴリに属しているのかをラベル付けすることに相当する。

　なお、判定用検出部３２は、物体検出部１１が検出可能な物体クラス（本実施の形態では、「乗用車」及び「人物」）を含み、かつ、当該物体クラスより多くの物体クラスを検出可能に学習された物体検出モデルを有し、当該学習済みモデルを用いて物体検出処理を実行してもよい。

　判定用検出部３２は、検出結果を誤検出判定部３３に出力する。本実施の形態では、判定用検出部３２は、画像セグメンテーションを実行した結果であるセグメンテーション結果（図８を参照）を誤検出判定部３３に出力する。

　誤検出判定部３３は、物体検出部１１から取得したログ情報と、判定用検出部３２の検出結果とに基づいて、物体検出部１１における検出結果が正しかったか否か（つまり、物体検出部１１の物体検出が誤検出であるか否か）を判定する処理部である。誤検出判定部３３は、例えば、物体検出部１１及び判定用検出部３２における検出結果に差があるか否かに基づいて、上記の判定を行う。誤検出判定部３３は、判定結果を生成部３４に出力する。

　生成部３４は、誤検出判定部３３の判定結果に基づいて、物体検出部１１が有する物体検出モデルを再学習させるための訓練用データを生成する処理部である。本実施の形態では、生成部３４における訓練用データの生成方法に特徴を有する。詳細は後述するが、生成部３４は、誤検出判定部３３が物体検出部１１の検出結果が正しくないと判定した物体が映る画像から当該物体を切り出す。そして、生成部３４は、当該物体と物体クラス（例えば、「乗用車」）が同じ物体が映る他の画像に、切り出した画像を重畳する又は置換することにより、有効な訓練用データを増やす（水増しする）処理を行う。なお、切り出すことは、抽出することの一例である。

　なお、訓練用データは、物体検出モデルを再学習するための入力データに用いられるデータであってもよいし、再学習された物体検出モデルの検出能力を検証するためのテスト用データであってもよい。

　記憶部３５は、訓練用データを水増しするための複数の画像を含む画像群（図７を参照）が格納された記憶装置である。画像群は、予め格納されていてもよい。また、記憶部３５は、誤検出判定部３３から取得したログ情報に含まれる画像を、画像群として、格納してもよい。この場合、当該画像と、当該画像における判定用検出部３２の検出結果とが対応付けられて格納される。

　なお、記憶部３５に格納される画像群に含まれる複数の画像のそれぞれは、後述する図３に示すログ情報に含まれる各種情報が、さらに対応付けられていてもよい。例えば、画像群に含まれる複数の画像のそれぞれは、当該画像を撮影した時刻（又は時間帯）、天候などの情報が対応付けられていてもよい。また、画像群に含まれる複数の画像のそれぞれは、当該画像を撮影したときのカメラの位置又は姿勢などの情報が対応付けられていてもよい。また、画像群に含まれる複数の画像のそれぞれは、当該画像における輝度（例えば、当該画像における物体の輝度）又は明るさ（例えば、当該物体における物体の明るさ）などの情報が対応付けられていてもよい。画像における明るさは、例えば、カメラ以外のセンサにより取得された情報であってもよい。

　ログ情報に含まれる画像を画像群として格納する場合、ログ情報（図３参照）そのものが格納されてもよい。この場合、ログ情報に含まれる検出情報は、判定用検出部３２による物体検出結果が適用される。言い換えると、記憶部３５には、物体検出部１１の物体検出結果は、格納されなくてもよい。

　また、記憶部３５は、サーバ装置３０が備える各処理部が実行するプログラム等を格納していてもよい。記憶部３５は、例えば、半導体メモリにより構成される。

　上記のように、サーバ装置３０は、例えば、誤検出シーンデータの画像に対して、強化対象である（再学習の対象である）物体検出部１１より精度面で高性能な判定用検出部３２を備える。そして、サーバ装置３０は、判定用検出部３２のセグメンテーション結果又は検出結果を使用して、誤検出された画像領域を切り出し、切り出し画像１２０を同一の物体クラスの物体が映る他の画像に反映することで、誤検出対策のための訓練用データを生成する。これにより、誤検出対策のための物体検出部１１に対する再学習処理の効果を高めることが可能となる。

　［１－２.サーバ装置の動作］
　次に、サーバ装置３０の動作、及び、生成する画像等について、図２～図１０を参照しながら説明する。図２は、本実施の形態に係るサーバ装置３０の動作を示すフローチャートである。

　図２に示すように、まず、サーバ装置３０は、移動体１０からログ情報を取得する（Ｓ１０）。具体的には、通信部３１は、移動体１０からログ情報を受信する。そして、通信部３１は、受信したログ情報を判定用検出部３２及び誤検出判定部３３に出力する。なお、判定用検出部３２には、ログ情報に含まれる各種データのうち画像のみが出力されてもよい。

　ここで、通信部３１が移動体１０から受信するログ情報、つまり移動体１０の物体検出部１１が生成するログ情報について、図３を参照しながら説明する。図３は、本実施の形態に係るサーバ装置３０が取得するログ情報１００の一例を示す構成図である。

　図３に示すように、ログ情報１００には、例えば、シーン画像、撮影機器情報、時刻情報、撮影位置情報、検出情報、撮像パラメータ等が含まれる。

　シーン画像（以降において、単に画像とも記載する）は、移動体１０が備えるカメラが撮像した画像１０１であり、物体検出処理を実行する対象の画像１０１である。画像１０１には、検出情報に対応する領域である物体領域１０１ａが対応付けられていてもよい。図３の例では、対象物体１１０が存在する領域が物体領域１０１ａである。

　撮影機器情報は、撮影したカメラに関する情報である。撮影機器情報は、例えば、画像１０１を撮影したカメラを特定するための情報であり、図３の例では、前方カメラである。

　時刻情報は、画像１０１が撮影された時刻を示す情報である。

　撮影位置情報は、画像１０１が撮影された位置及び方位を示す情報である。

　検出情報は、画像１０１に対する物体検出部１１の検出結果等を示す情報である。具体的には、検出情報には、検出結果及び当該検出結果に対応する物体領域１０１ａを示す情報が含まれる。図３では、「乗用車」である対象物体１１０に対する物体検出部１１の検出結果が「人物」である例について示している。つまり、図３に示すログ情報１００は、物体検出部１１が誤検出した場合のログ情報を示す。なお、物体領域１０１ａを矩形で示しているが、物体領域１０１ａの形状は一例であり、矩形以外であってもよい。

　撮像パラメータは、画像１０１を撮影したときのカメラの撮影条件を示す情報である。撮影条件は、例えば、ゲイン、ホワイトバランスなどである。

　図２を再び参照して、判定用検出部３２は、通信部３１から取得したログ情報１００に含まれる画像１０１を入力データとして、物体検出処理を実行する（Ｓ２０）。図４は、本実施の形態に係る判定用検出部３２に入力される画像２００の一例である。図５は、本実施の形態に係る判定用検出部３２の検出結果を示す図である。画像２００は、ログ情報１００に含まれる画像１０１と同一の画像である。なお、判定用検出部３２に入力される画像２００に、物体領域１０１ａは含まれない。

　図４に示す画像２００を判定用検出部３２に入力することで、図５に示すセグメンテーション結果３００が出力される。図５では、図４に示す対象物体１１０が「乗用車」であること判定されていることを示している。このように、判定用検出部３２は、移動体１０の物体検出部１１より正確に物体検出を行うことができるため、物体検出部１１では誤検出した物体を正確に検出することができる。

　判定用検出部３２は、検出結果（ここでは、セグメンテーション結果３００）を誤検出判定部３３に出力する。

　図２を再び参照して、次に、誤検出判定部３３は、判定用検出部３２から取得した検出結果と、ログ情報１００（つまり、移動体１０の物体検出部１１の検出結果）とに基づいて、物体検出部１１の検出に誤検出があるか否かを判定する（Ｓ３０）。誤検出判定部３３は、例えば、判定用検出部３２及び物体検出部１１の検出結果に差があるか否かにより上記の判定を行う。本実施の形態では、対象物体１１０に対し、判定用検出部３２の検出結果は「乗用車」（図５を参照）であるのに対し、移動体１０の物体検出部１１の検出結果は「人物」（図３を参照）である。

　このように、誤検出判定部３３は、判定用検出部３２の検出結果と物体検出部１１の検出結果とに差がある場合に、物体検出部１１の検出において、誤検出があると判定する。誤検出判定部３３は、誤検出があると判定する（Ｓ３０でＹｅｓ）と、当該画像に対応するログ情報１００を誤検出シーンデータとして収集する（Ｓ４０）。そして、誤検出判定部３３は、収集した誤検出シーンデータを生成部３４に出力する。例えば、誤検出判定部３３は、誤検出シーンデータ、及び、当該誤検出シーンデータに対するセグメンテーション結果３００を生成部３４に出力する。なお、誤検出された画像とは、誤検出された対象物体１１０が映っている画像を意味する。また、判定用検出部３２の検出結果と物体検出部１１の検出結果とに差があるとは、例えば、判定用検出部３２は物体を検出しているが物体検出部１１は当該物体を検出していない場合も含む。つまり、物体検出部１１が本来検出するべき物体を検出できていない場合も、物体検出部１１の誤検出に含まれる。

　また、誤検出判定部３３は、誤検出がないと判定する（Ｓ３０でＮｏ）と、処理を終了する。

　次に、生成部３４は、誤検出判定部３３から取得した誤検出シーンデータに対してアノテーションの処理を行う（Ｓ５０）。生成部３４は、誤検出シーンデータに対して、判定用検出部３２の検出結果に基づいたアノテーションの処理を行う。本実施の形態では、生成部３４は、誤検出シーンデータに対してセグメンテーション結果３００に基づいたアノテーションの処理を行う。具体的には、対象物体１１０に対する物体クラスを、「人物」から「乗用車」に変更する。アノテーションされた誤検出シーンデータ（つまり、検出結果が正しくなったログ情報）は、訓練用データとして用いられてもよい。

　ここで、物体検出部１１における誤検出を抑制する、つまり高精度の物体検出を可能にする物体検出モデルを生成するには、訓練用データが多いとよい。移動体１０からの複数のログ情報１００の中から訓練用データを抽出することも可能ではあるが、有効な訓練用データを抽出するには多くの時間及び人手を要する。そこで、生成部３４は、誤検出を抑制するための訓練用データを増やす処理（水増し処理）を行う。生成部３４は、物体検出部１１の誤検出を抑制するために有効な訓練用データを所定の規則に基づいて生成する。以下では、生成部３４における、有効な訓練用データを生成する処理について説明する。

　生成部３４は、誤検出シーンデータの画像１０１に対して、セグメンテーション結果３００に基づいて、誤検出した物体領域１０１ａを切り出した切り出し画像を生成する（Ｓ６０）。具体的には、図６に示すような対象物体１１０を切り出した切り出し画像１２０を生成する。図６は、本実施の形態に係る切り出し画像１２０の一例を示す図である。

　なお、生成部３４は、例えば、画像１０１に対象物体１１０の一部を隠している物体（例えば、移動体１０と対象物体１１０との間に位置しており、移動体１０から見て対象物体１１０と重なっている物体）が存在する場合、当該物体と対象物体１１０とを一体として切り出してもよい。例えば、切り出し対象の対象物体１１０と自車両（移動体１０）との間に、当該対象物体１１０を隠している別の物体が存在し、当該別の物体もセグメンテーション結果から事前に設定された表示面積閾値（例えば、切り出し画像の１２０大きさ）で切り出せるのであれば、一塊で切り出してもよい。例えば、対象物体１１０と別の物体とは、物体クラスが同じ物体（例えば、乗用車）であってもよい。一塊で切り出された切り出し画像を他の画像に反映させることで、より違和感の少ない自然な画像を訓練用データとして生成することができる。

　このように、他の画像に重畳又は置換される画像（第１画像の部分に基づく画像の一例）は、例えば、画像１０１の対象物体１１０（第１画像の部分の一例）を加工することにより得られた画像（例えば、切り出し画像１２０）であってもよい。なお、切り出し画像１２０に所定の画像処理が施されてもよい。

　図２を再び参照して、次に、生成部３４は、誤検出した物体（ここでは、対象物体１１０）と同じ物体クラス（例えば、乗用車）が存在する他の画像群の中から、切り出し画像１２０を反映可能な画像を選択する（Ｓ７０）。なお、反映は、重畳又は置換を含む。

　図７は、記憶部３５が格納する画像群４００の一例を示す図である。図８は、画像群４００に含まれる画像４０１に対する判定用検出部３２の検出結果を示す図である。具体的には、図８は、画像４０１に対するセグメンテーション結果５００を示す。

　図７に示すように、画像４０１には、対象物体４１０及び４２０が存在する。図８に示すように、対象物体４１０は、物体クラスが「乗用車」であり、対象物体４２０は、物体クラスが「標識」である。対象物体４１０は、画像１０１における対象物体１１０と物体クラスが同じである。生成部３４は、対象物体１１０及び４１０の物体クラスが同一であるか否かを、それぞれの対象物体における判定用検出部３２の検出結果に基づいて判定する。ここでは、対象物体１１０及び４１０の物体クラスは、「乗用車」である。

　このように、生成部３４は、事前に格納された画像群４００から、判定用検出部３２を使用したセグメンテーション結果３００及び５００に基づいて、誤検出した物体クラスと同じ物体クラスが存在する画像４０１を選び出す。誤検出した物体クラスと同じ物体クラスが存在する画像４０１は、切り出し画像１２０を反映可能な画像の一例である。

　なお、ステップＳ７０において、生成部３４は、画像群４００の中から対象物体１１０をそのままの大きさで反映可能な画像を優先して、反映可能な画像として選択してもよい。また、生成部３４は、対象物体１１０を所定の倍率内で拡大又は縮小して反映可能な画像を反映可能な画像として選択してもよい。

　図２を再び参照して、次に、生成部３４は、選択された画像群に対して切り出し画像１２０を反映する（Ｓ８０）。生成部３４は、例えば、画像群４００から選択された画像４０１に対して、図７のセグメンテーション結果５００の「乗用車」が存在する領域に切り出し画像１２０を反映する。

　図９Ａは、訓練用データに含まれる画像群６００の一例を示す図である。

　図９Ａに示すように、生成部３４は、例えば、図７に示す画像４０１の対象物体４１０に切り出し画像１２０が示す対象物体１１０を切り出した切り出し画像１２０を重畳することで、画像６０１を生成する。生成部３４は、画像４０１において「乗用車」が存在している位置に、対象物体１１０を重畳する。画像６０１は、対象物体１１０が現実に存在する位置（本実施の形態では、「乗用車」が存在する車道）に当該対象物体１１０が重畳された画像である。これにより、現実世界に近い画像を生成することができるので、汎用のニューラルネットワークを移動体１０専用のニューラルネットワークにファインチューニングするときに、より精度よく物体を検出することができるようにファインチューニングすることができる。

　なお、対象物体４１０に切り出し画像１２０を重畳する場合、重畳後の画像（例えば、図９Ａに示す画像６０１）において、対象物体４１０が見えないことが望ましい。そこで、生成部３４は、さらに、画像４０１に対して、図７のセグメンテーション結果５００の「乗用車」が存在する領域のサイズをもとにサイズ調整した切り出し画像１２０を重畳又は置換してもよい。サイズ調整には、拡大及び縮小が含まれる。

　切り出し画像１２０をサイズ調整する調整幅（調整割合の一例）は、予め設定されていてもよい。例えば、図６に示す切り出し画像１２０のサイズに対して、±２０％以内の拡大又は縮小であってもよい。なお、切り出し画像１２０のアスペクト比は一定のまま、拡大及び縮小する処理が実行される。また、切り出し画像１２０を重畳する場合、重畳後の画像６０１において、対象物体４１０が見えない又は見える領域が小さくなる（はみ出し面積が小さくなる）ように拡大率又は縮小率が決定されてもよい。

　また、生成部３４は、画像４０１に重畳した物体（例えば、切り出し画像１２０が示す乗用車）が当該画像４０１において相対的に大きな物体ばかりにならないようにするために、もとの画像（例えば、画像１０１）の対象物体１１０の周辺画素を使用して補間しながら重畳してもかまわない。

　また、図９Ｂに示すように、生成部３４は、図７に示す画像群４００に対応するアノテーション情報に基づいて、画像群６００に対応するアノテーション情報７００を生成する。図９Ｂに示すように、対象物体１１０に対して、「乗用車」がアノテーションされている。

　図２を再び参照して、生成部３４は、図９Ａに示す画像群６００と当該画像群６００に対応するアノテーション情報７００とにより、訓練用データを生成する（Ｓ９０）。

　なお、生成部３４は、生成された訓練用データの数が事前に設定した数を下回る場合、カテゴリが類似したアノテーション情報を持つ画像を用いて、追加で訓練用データを生成してもよい。例えば、図１０に示すように事前に物体クラスのカテゴリ構造が定められており、「乗用車」と同じ上位カテゴリ「車両」である「バス」又は「トラック」を使用する構成が考えられる。生成部３４は、画像群４００の中から、物体クラスが「バス」又は「トラック」である画像を選択し、選択した画像に対してステップＳ８０及びＳ９０の処理を実行してもよい。なお、図１０は、物体検出のカテゴリ構造の一例を示す図である。

　また、生成部３４は、ステップＳ７０で選択された画像の数が事前に設定した数を上回る場合、選択された画像の全てを用いて訓練用データを生成してもよいし、選択された画像の中から事前に設定した数の画像を抽出してもよい。例えば、生成部３４は、物体クラスの下位カテゴリを用いて、当該画像を抽出してもよい。例えば、図１０に示すようなカテゴリ構造において、「乗用車」の下位カテゴリ「セダン」及び「ＳＵＶ」を使用する構成が考えられる。生成部３４は、ステップＳ７０で反映可能な画像が事前に設定した数を上回る場合は、さらに、物体クラス「乗用車」である対象物体１１０における下位カテゴリ（例えば、「セダン」）と同一又は類似するカテゴリの物体が映る画像を優先的に選択し、選択した画像に対してステップＳ８０及びＳ９０の処理を実行してもよい。生成部３４は、例えば、「セダン」と同一視される物体が映る画像を優先的に選択する。

　なお、図１０に示すカテゴリ構造は、記憶部３５に格納されている。また、判定用検出部３２は、例えば、図１０に示すカテゴリ構造に含まれる物体クラスを検出可能である。

　上記では、生成部３４は、切り出し画像１２０を対象物体１１０と同一の物体クラスが存在する他の画像に重畳又は置換する処理を行う例について説明したが、これに限定されない。生成部３４は、例えば、切り出し画像１２０に類似した３Ｄモデル等のＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）画像をステップＳ７０で選択した画像に反映してもよい。生成部３４は、切り出し画像１２０に基づいてＣＧ画像を生成してもよいし、記憶部３５が対象物体のＣＧ画像を格納している場合は、切り出し画像１２０と特徴量が類似するＣＧ画像を選択してもよい。選択されるＣＧ画像は、切り出し画像１２０と最も特徴量が類似している画像であってもよいし、特徴量が所定量以上類似する複数のＣＧ画像であってもよい。

　このように、他の画像（ステップＳ７０で選択された画像）に重畳又は置換される画像（第１画像の部分に基づく画像の一例）は、例えば、予め用意された画像から選択される、対象物体１１０（第１画像の部分の一例）と類似する画像であってもよい。この場合、ＣＧ画像のサイズ及び傾き（例えば、回転角度）が調整されてもよい。ＣＧ画像のサイズ及び傾きの調整幅は、調整割合の一例である。なお、調整割合は、ＣＧ画像が画像として崩れない程度の割合であり、物体をその物体として検出可能な程度の割合に設定されるとよい。

　なお、判定用検出部３２、誤検出判定部３３、及び、生成部３４における処理を実行するタイミングは特に限定されない。例えば、通信部３１が物体検出部１１からログ情報１００を取得するたびに実行されてもよし、定期的に実行されてもよいし、所定数又は所定容量のログ情報１００が蓄積されたときに実行されてもよい。また、判定用検出部３２は、例えば、ログ情報１００に物体検出部１１における検出結果における信頼度が含まれている場合、当該信頼度に応じて物体検出処理を実行してもよい。判定用検出部３２は、例えば、検出結果の信頼度が所定以下である物体が含まれる画像を優先して物体検出処理を実行してもよいし、検出結果の信頼度が所定以下である物体が含まれる画像のみに対して物体検出処理を実行してもよい。これにより、サーバ装置３０は、より効率的に訓練用データを生成することができる。

　なお、上記では、誤検出判定部３３は、判定用検出部３２から検出結果を取得し、取得した検出結果（物体データの一例）とログ情報１００の検出情報（物体検出結果の一例）とを比較し、比較結果に基づいて対象物体１１０（第１画像の部分の一例）を抽出する例について説明したが、これに限定されない。例えば、サーバ装置３０は、ログ情報１００の検出情報を取得しなくてもよい。誤検出判定部３３は、例えば、判定用検出部３２及び物体検出部１１の検出結果の差に対応する情報（例えば、対象物体１１０に関する情報）を、サーバ装置３０を管理する管理者から取得してもよい。誤検出判定部３３は、管理者からの入力を受け付けるユーザインターフェースである受付部（図示しない）を介して、再学習する対象である対象物体１１０の指示を受け付け、当該指示を生成部３４に出力してもよい。対象物体１１０の指示とは、ログ情報１００に含まれる画像１０１における対象物体１１０の位置及び物体クラスを示す情報を含む。

　なお、上記では、サーバ装置３０は、移動体１０から検出情報を含むログ情報１００を受信する例について説明したが、これに限定されない。サーバ装置３０は、移動体１０から移動体１０が撮像した画像を取得してもよい。サーバ装置３０は、例えば、移動体１０が備える物体検出部１１と同じ学習済みモデルを有する物体検出部（図示しない）を備えていてもよい。そして、誤検出判定部３３は、当該物体検出部における検出結果と判定用検出部３２における検出結果とを比較することで、差があるか否か（つまり、当該物体検出部の検出結果が正しいか否か）を判定してもよい。

　以上のように、本実施の形態に係るサーバ装置３０における情報処理方法は、コンピュータが、画像１０１（第１画像の一例）および対象物体１１０（画像１０１に映る物体の一例）に関する物体クラス（物体データの一例）を取得し、画像１０１を入力として物体検出結果を出力する学習済みモデルに画像１０１を入力することにより得られる物体検出結果（例えば、セグメンテーション結果３００）と物体データとの差に対応する画像１０１の部分(例えば、対象物体１１０)を抽出し、抽出された画像１０１の部分に対応する物体データ（例えば、「乗用車」と同一の物体データに対応する部分を含む画像４０１（第２画像の一例）を取得し、取得された画像４０１における対象物体４１０（同一の物体データに対応する部分の一例）に、抽出された画像１０１の切り出し画像１２０（第１画像の部分に基づく画像の一例）を反映させることにより、学習済みモデルのトレーニングデータを生成する。

　これにより、現実世界に近づけた訓練用データを生成することができる。それにより、物体検出用の学習済みモデルの物体検出性能が再学習において向上する確実性を高めることができる。ひいては、ニューラルネットワーク型検出器の誤検出修正に有効な学習処理環境を低コストで実現できる。例えば、有効な訓練用データを自動的に水増し処理することができる。

　例えば、乗用車のデザインが大幅に変更となると、移動体１０の物体検出部１１では、当該乗用車を検出できないことが起こり得る。例えば、ニューラルネットワーク型の物体検出部１１の場合、当該ニューラルネットワークの再学習（追加学習）が行われるとよい。上記のような方法で、再学習のための訓練用データが生成されることで、デザインが大幅に変更となった乗用車を検出できる確実性を高めることができる。

　（実施の形態１の変形例）
　以下、本実施の形態の変形例に係るサーバ装置等について、図１１Ａ～図１１Ｆを参照しながら説明する。なお、本変形例に係るサーバ装置の構成は、実施の形態１に係るサーバ装置３０と同様であり、説明を省略する。また、実施の形態１のサーバ装置３０と同様の処理においては、説明を省略又は簡略化する場合がある。

　本変形例に係るサーバ装置は、図２に示すステップＳ７０で選択された画像の中から、さらに、以下の処理により訓練用データに用いる画像を優先的に選び出す。図１１Ａ～図１１Ｆに示される処理は、例えば、ステップＳ７０で選択された画像の数が生成する訓練用データの数を上回る場合に実行されてもよい。なお、以下に示す図１１Ａ～図１１Ｆの処理は、図２に示すステップＳ７０とＳ８０との間に実行される。

　図１１Ａは、本変形例に係る生成部３４の動作の第１例を示すフローチャートである。

　図１１Ａに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、撮像時の撮像装置の位置又は姿勢が同一又は類似しているか否かを判定してもよい（Ｓ１１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００に含まれる画像１０１を撮像したときの撮像装置（例えば、移動体１０が備えるカメラ）の位置又は姿勢と、ステップＳ７０で選択された画像を撮像したときの撮像装置（例えば、移動体１０とは異なる移動体が備えるカメラ）の位置又は姿勢とが同一又は類似であるか否かを判定する。

　そして、生成部３４は、位置又は姿勢が同一又は類似である場合（Ｓ１１０でＹｅｓ）、当該画像を反映可能な画像（第２画像の一例）に決定する（Ｓ１２０）。そして、生成部３４は、反映可能な画像に決定した画像が所定の数に達してか否かを判定する（Ｓ１３０）。生成部３４は、所定の数に達した場合（Ｓ１３０）、ステップＳ９０の処理に進む。また、生成部３４は、同一又は類似ではない場合（ステップＳ１１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ１１０に戻り、次の画像に対してステップＳ１１０の処理を実行する。

　なお、撮像装置の位置は、ＧＰＳ測位結果等により得られる当該撮像装置の位置であり、例えば、画像１０１を撮像したときの撮像装置の位置は、ログ情報１００に含まれる撮影位置情報から取得可能である。また、撮像装置の姿勢は、例えば、撮像装置の光軸の向けられた方向であり、例えば、画像１０１を撮像したときの撮像装置の姿勢は、ログ情報１００に含まれる撮影機器情報及び撮影位置情報から取得可能である。

　なお、ここでの類似とは、ログ情報１００に含まれる位置又は姿勢に対して、ステップＳ７０で選択された画像を撮像した撮像装置の位置又は姿勢が予め設定された所定範囲内であることを意味する。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、当該画像の撮影位置情報が事前に設定された所定範囲内で類似する画像（日時は異なる）が存在する場合は、当該画像が優先的に選択される。よって、路線バス、タクシーなどの決まったコースを走行する乗用車向けの学習処理では効果的となる訓練用データを生成することが可能となる。

　次に、図１１Ｂは、本変形例に係る生成部３４の動作の第２例を示すフローチャートである。

　図１１Ｂに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、撮像時の時間帯又は天候が同一又は類似しているか否かを判定してもよい（Ｓ２１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００に含まれる画像１０１を撮像したときの時間帯又は天候と、ステップＳ７０で選択された画像を撮像したときの時間帯又は天候とが同一又は類似であるか否かを判定する。

　そして、生成部３４は、時間帯又は天候が同一又は類似である場合（Ｓ２１０でＹｅｓ）、ステップＳ１２０以降の処理を実行する。また、生成部３４は、時間帯又は天候が同一又は類似ではない場合（ステップＳ２１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ２１０に戻り、次の画像に対してステップＳ２１０の処理を実行する。

　なお、撮像時の時間帯は、時刻等であってもよく、例えば、画像１０１の撮像時の時間帯は、ログ情報１００に含まれる時刻情報から取得可能である。また、撮像時の天候は、例えば、気温、湿度、風の状態（風向き又は風量）、雲の状態（くもり雲、きり雲など）、降水又は降雪の有無などの少なくとも１つを含む。例えば、画像１０１の撮像時の天候は、ログ情報１００に含まれる時刻情報、及び、撮影位置情報と、天候情報を格納したデータベースの情報とから取得可能である。

　なお、ここでの類似とは、ログ情報１００に含まれる時刻又は天候に対して、ステップＳ７０で選択された画像を撮像した撮像時の時間帯又は天候が予め設定された所定範囲内であることを意味する。天候が類似とは、例えば、天候の種類が同じ（所定範囲内の一例）であることを意味する。また、天候が類似とは、例えば、気温、湿度などが所定範囲内であることであってもよい。天候の種類とは、例えば、「快晴」、「晴れ」、「曇り」、「霧」、「雨」、「雷」などである。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、当該画像の撮影時間帯又は天候が事前に設定された所定範囲内で類似する画像が存在する場合は、当該画像が優先的に選択される。よって、対象物体１１０を誤検知したときの環境に近い画像を優先的に選ぶことができるので、対象物体１１０を誤検出した要因が対象物体１１０の周囲の環境に依存している場合などにおいて、特に有効な訓練用データを生成することが可能となる。

　次に、図１１Ｃは、本変形例に係る生成部３４の動作の第３例を示すフローチャートである。

　図１１Ｃに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、輝度又は撮像時の撮像方向の明るさが同一又は類似しているか否かを判定してもよい（Ｓ３１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００に含まれる画像１０１の輝度又は撮像時の撮像方向の明るさと、ステップＳ７０で選択された画像の輝度又は当該画像の撮像時の撮像方向の明るさとが同一又は類似であるか否かを判定する。

　そして、生成部３４は、輝度又は明るさが同一又は類似である場合（Ｓ３１０でＹｅｓ）、ステップＳ１２０以降の処理を実行する。また、生成部３４は、輝度又は明るさが同一又は類似ではない場合（ステップＳ３１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ３１０に戻り、次の画像に対してステップＳ３１０の処理を実行する。

　なお、撮像時の輝度は、画像上の輝度であり、例えば、画像１０１における撮像時の輝度は、ログ情報１００に含まれる画像１０１から取得可能である。輝度は、例えば、切り出し画像１２０の輝度であるが、これに限定されず、画像１０１全体の輝度であってもよい。また、輝度は、統計処理により算出されてもよい。輝度は、例えば、切り出し画像１２０における輝度の最大値、最小値、平均値、又は、中央値であってもよい。また、撮像時の撮像方向の明るさは、例えば、画像１０１を撮像した撮像装置以外のセンサ（例えば、検知範囲内に入射する光の量を検知するセンサ）から取得される明るさの情報である。明るさに関する情報は、例えば、ログ情報１００に含まれていてもよい。

　なお、ここでの類似とは、画像１０１の輝度又は画像１０１の撮像時の撮像方向の明るさに対して、ステップＳ７０で選択された画像を撮像した画像又は当該画像の撮像時の撮像方向の明るさが予め設定された所定範囲内であることを意味する。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、当該画像の輝度又は明るさが所定範囲内で類似する画像が存在する場合は、当該画像が優先的に選択される。よって、対象物体１１０を誤検知したときの環境に近い画像を優先的に選ぶことができるので、対象物体１１０を誤検出した要因が対象物体１１０の周囲の環境に依存している場合などにおいて、特に有効な訓練用データを生成することが可能となる。

　次に、図１１Ｄは、本変形例に係る生成部３４の動作の第４例を示すフローチャートである。

　図１１Ｄに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、物体データ（例えば、物体クラス）に対応する部分（例えば、対象物体１１０及び４１０）のサイズが同一又は類似しているか否かを判定してもよい（Ｓ４１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００の画像１０１に存在する対象物体１１０のサイズと、ステップＳ７０で選択された画像４０１に存在する対象物体４１０のサイズとが同一又は類似であるか否かを判定する。

　そして、生成部３４は、物体データに対応する部分のサイズが同一又は類似である場合（Ｓ４１０でＹｅｓ）、ステップＳ１２０以降の処理を実行する。また、生成部３４は、物体データに対応する部分のサイズが同一又は類似ではない場合（ステップＳ４１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ４１０に戻り、次の画像に対してステップＳ４１０の処理を実行する。

　なお、対象物体１１０のサイズは、画像上でのサイズであり、例えば、対象物体１１０のサイズは、ログ情報１００に含まれる画像１０１から取得可能である。また、対象物体４１０のサイズは、画像４０１から取得可能である。

　なお、ここでの類似とは、対象物体１１０に対して、ステップＳ７０で選択された画像に存在する対象物体４１０のサイズが予め設定された所定範囲内であることを意味する。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、対象物体４１０のサイズが所定範囲内で類似する画像が存在する場合は、当該画像が優先的に選択される。よって、生成部３４は、違和感の少ない自然な画像を含む訓練用データを生成することが可能となる。

　次に、図１１Ｅは、本変形例に係る生成部３４の動作の第５例を示すフローチャートである。

　図１１Ｅに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、物体データに対応する部分の周囲の領域データが同一又は類似しているか否かを判定してもよい（Ｓ５１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００に含まれる画像１０１のセグメンテーション結果３００(例えば、図５を参照)と、ステップＳ７０で選択された画像のセグメンテーション結果５００（例えば、図８を参照）とが同一又は類似であるか否かを判定する。

　そして、生成部３４は、物体データに対応する部分の周囲の領域データが同一又は類似である場合（Ｓ５１０でＹｅｓ）、ステップＳ１２０以降の処理を実行する。また、生成部３４は、物体データに対応する部分の周囲の領域データが同一又は類似ではない場合（ステップＳ５１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ５１０に戻り、次の画像に対してステップＳ５１０の処理を実行する。

　なお、物体データに対応する部分の周囲の領域データは、判定用検出部３２がセグメンテーション結果を出力可能であれば取得可能である。また、画像１０１における物体データに対応する部分（対象物体１１０）の周囲の領域データは、例えば、「車道」、「森林」等である。また、画像４０１における物体データに対応する部分（対象物体４１０）の周囲の領域データは、例えば、「車道」、「森林」等である。

　なお、ここでの類似とは、画像１０１の物体データに対応する部分の周囲の領域データに対して、ステップＳ７０で選択された画像の物体データに対応する部分の周囲の領域データが予め設定された所定範囲内であることを意味する。所定範囲は、同じカテゴリ（例えば、「車道」、「森林」など）の領域データの位置又はサイズの範囲であってもよい。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、当該画像の物体データに対応する部分の周囲の領域データが所定範囲内で類似する画像が存在する場合は、当該画像が優先的に選択される。よって、対象物体１１０を誤検知したときの環境に近い画像を優先的に選ぶことができるので、対象物体１１０を誤検出した要因が対象物体１１０の周囲の環境に依存している場合などにおいて、特に有効な訓練用データを生成することが可能となる。

　次に、図１１Ｆは、本変形例に係る生成部３４の動作の第６例を示すフローチャートである。

　図１１Ｆに示すように、生成部３４は、ステップＳ７０で選択した画像に対して、さらに、撮像時の撮像装置の撮像パラメータが同一又は類似しているか否かを判定してもよい（Ｓ６１０）。具体的には、生成部３４は、移動体１０から取得したログ情報１００に含まれる画像１０１の撮像時の撮像装置の撮像パラメータと、ステップＳ７０で選択された画像の撮像時の撮像装置の撮像パラメータとが同一又は類似であるか否かを判定する。

　そして、生成部３４は、撮像時の撮像装置の撮像パラメータが同一又は類似である場合（Ｓ６１０でＹｅｓ）、ステップＳ１２０以降の処理を実行する。また、生成部３４は、撮像時の撮像装置の撮像パラメータが同一又は類似ではない場合（ステップＳ６１０でＮｏ）、及び、所定の数に達していない場合（Ｓ１３０でＮｏ）は、ステップＳ６１０に戻り、次の画像に対してステップＳ６１０の処理を実行する。

　なお、撮像時の撮像装置の撮像パラメータは、撮像装置の設定条件であり、例えば、画像１０１の撮像時の撮像装置の撮像パラメータは、ログ情報１００に含まれる撮像パラメータから取得可能である。撮像パラメータは、例えば、ゲイン、又は、ホワイトバランスの設定であるが、これに限定されない。

　なお、ここでの類似とは、画像１０１の撮像時の撮像装置の撮像パラメータに対して、ステップＳ７０で選択された画像の撮像時の撮像装置の撮像パラメータが予め設定された所定範囲内であることを意味する。所定範囲は、予め記憶部３５に格納されていてもよい。

　これにより、ステップＳ７０で選択された画像のうち、当該画像の撮像時の撮像装置の撮像パラメータが所定範囲内で類似する画像が存在する場合は、当該画像を優先的に選択される。よって、被写体（例えば、対象物体１１０）以外の情報に基づいて、画像１０１が撮影された環境に類似した訓練用データを生成することができる。また、対象物体１１０を誤検出した要因が対象物体１１０等の被写体に依存していない場合などにおいて、例えば、撮像パラメータが要因である場合において、特に有効な訓練用データを生成することが可能となる。

　なお、ステップＳ７０とＳ８０との間において、ステップＳ１１０、Ｓ２１０、Ｓ３１０、Ｓ４１０、Ｓ５１０及びＳ６１０のうち２以上の処理が実行されてもよい。また、上記の所定範囲は、ログ情報１００に含まれる画像１０１に存在する対象物体１１０の物体クラスごとに設定されてもよい。

　なお、上記以外の処理がステップＳ７０とＳ８０との間において、実行されてもよい。例えば、画像６０１の対象物体４１０のはみ出し面積が小さい状態で重畳処理が可能なシーン画像が存在する場合は、優先的に選択されてもよい。

　（実施の形態２）
　以下、本実施の形態に係るサーバ装置等について、図１２～図１５を参照しながら説明する。なお、本実施の形態に係るサーバ装置の構成は、実施の形態１に係るサーバ装置３０と同様であり、説明を省略する。また、実施の形態１のサーバ装置３０と同様の処理においては、説明を省略又は簡略化する場合がある。

　本実施の形態では、物体検出部１１が検出対象ではない物体を誤検出した場合について説明する。なお、以下において、物体検出部１１は、「人物」のみを検出する検出部である例について説明する。

　図１２は、本実施の形態に係るサーバ装置の動作を示すフローチャートである。

　図１２に示すように、まず、サーバ装置３０は、移動体１０からログ情報を取得する（Ｓ１０１０）。具体的には、通信部３１は、移動体１０からログ情報を受信する。そして、通信部３１は、受信したログ情報を判定用検出部３２及び誤検出判定部３３に出力する。

　ここで、移動体１０から受信するログ情報、つまり移動体１０の物体検出部１１が生成するログ情報について、図１３を参照しながら説明する。図１３は、本実施の形態に係るサーバ装置３０が取得するログ情報８００の一例を示す構成図である。

　図１３に示すように、ログ情報８００には、ログ情報１００と同様、例えば、シーン画像、撮影機器情報、時刻情報、撮影位置情報、検出情報、撮像パラメータ等が含まれる。

　シーン画像に示すように、画像８０１には、対象物体８１０及び８２０が存在している。また、検出情報に示すように、物体検出部１１は、物体領域８０１ａで囲まれた領域内に存在する対象物体８２０を、「人物」と判定している。対象物体８２０の物体クラスは、「標識」である。物体検出部１１は、本来検出すべき対象ではない「標識」を「人物」と誤検出している。

　図１２を再び参照して、ステップＳ１０２０は、図２に示すステップＳ２０と同様の処理であり詳細な説明を省略するが、図１４に示す画像９００を判定用検出部３２に入力することで、セグメンテーション結果（例えば、図８参照）が出力される。図１４は、本実施の形態に係る判定用検出部３２に入力される画像９００の一例である。なお、画像９００は、画像４０１と同じ画像であるとする。言い換えると、画像９００のセグメンテーション結果は、図８に示すセグメンテーション結果５００と同一である。以下において、画像９００のセグメンテーション結果がセグメンテーション結果５００であるとして説明する。

　誤検出判定部３３は、判定用検出部３２から取得した検出結果（ここでは、セグメンテーション結果５００）と、ログ情報（つまり、移動体１０の物体検出部１１の検出結果）とに基づいて、物体検出部１１の検出に誤検出があるか否かを判定する（Ｓ１０３０）。例えば、誤検出判定部３３は、検出結果とログ情報（具体的には、物体検出結果である検出情報）との差があるか否かを判定する。本実施の形態では、対象物体８２０に対し、判定用検出部３２の検出結果は「標識」（図８を参照）であるのに対し、移動体１０の物体検出部１１の検出結果は「人物」（図１３を参照）である。

　このように、誤検出判定部３３は、判定用検出部３２の検出結果と物体検出部１１の検出結果とが異なる場合に、物体検出部１１の検出において、誤検出があると判定する。誤検出判定部３３は、誤検出があると判定する（Ｓ１０３０でＹｅｓ）と、ログ情報８００を誤検出シーンデータとして収集する（Ｓ１０４０）。そして、誤検出判定部３３は、収集した誤検出シーンデータを生成部３４に出力する。また、誤検出判定部３３は、誤検出がないと判定する（Ｓ１０３０でＮｏ）と処理を終了する。

　次に、生成部３４は、誤検出判定部３３から取得した誤検出シーンデータに対してアノテーションの処理を行う（Ｓ１０５０）。本実施の形態では、物体検出部１１は、「人物」のみを検出するので、物体検出部１１において「標識」という検出カテゴリ（物体クラス）は存在しない。このような場合、一般的には当該領域のアノテーションは行わないが、本実施の形態では、例えば、「背景」などの「人物」ではないことを示すアノテーションを実施する。

　ステップＳ１０６０～Ｓ１０９０の処理は、図２に示すＳ６０～Ｓ９０の処理と同様であり詳細な説明を省略する。生成部３４は、対象物体８２０を切り出した切り出し画像（図示しない）を生成し、生成した切り出し画像をステップＳ１０７０で選択された画像（第２画像の一例）に反映する（Ｓ１０８０）。これにより、生成部３４は、図１５に示すような画像１００１を含む画像群１０００を有する訓練用データを生成する（Ｓ１０９０）。つまり、生成部３４は、上記の処理により、訓練用データを量産する。なお、図１５は、訓練用データに含まれる画像群１０００の一例を示す図である。

　なお、再学習処理対象の物体検出器（例えば、物体検出部１１）に比べて検出カテゴリ数の多い演算規模の大きな物体検出器（例えば、判定用検出部３２）の検出結果を用いることにより、さらに効率的に誤検出対策のための訓練用データを量産できる。

　（その他の実施の形態）
　以上、本開示について実施の形態等に基づいて説明したが、本開示は、上記実施の形態等に限定されるものではない。

　例えば、上記実施の形態等では、移動体は、自動車（自動運転車）である例について説明したが、これに限定されない。物体検出部（物体検出装置）を備える移動体であれば、本開示は適用可能である。例えば、移動体は、飛行体（例えば、ドローンなど）又は船舶であってもよいし、周囲を撮像した画像に基づいて自律的に移動するロボット（例えば、自走式掃除機など）であってもよい。言い換えると、本開示に係るサーバ装置（訓練用データセット生成装置）は、自動運転車の分野だけではなく、ロボット及びドローンなどの異なる製品分野でも適用可能である。

　また、上記実施の形態における移動体が備える物体検出部は、検出結果としてセグメンテーション結果を出力可能であってもよい。

　また、上記実施の形態において説明された複数の処理の順序は一例である。複数の処理の順序は、変更されてもよいし、複数の処理は、並行して実行されてもよい。

　また、各実施の形態で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるＬＳＩとして実現されてもよい。これらは、個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅ　Ａｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行っても良い。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを１つの機能ブロックとして実現したり、１つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

　また、情報処理システムが備えるサーバ装置は、単一の装置として実現されてもよいし、複数の装置によって実現されてもよい。例えば、サーバ装置の各処理部は、２以上のサーバ装置で実現されてもよい。情報処理システムが複数のサーバ装置によって実現される場合、情報処理システムが備える構成要素は、複数のサーバ装置にどのように振り分けられてもよい。また、複数のサーバ装置間の通信方法は、特に限定されない。

　さらに、本開示の技術は上記プログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。例えば、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。

　本開示は、学習済みモデルを再学習するための訓練用データを生成する情報処理方法等に適用可能である。

　１　　情報処理システム
　１０　　移動体
　１１　　物体検出部
　１２　　通信部
　２０　　ネットワーク
　３０　　サーバ装置
　３１　　通信部（取得部）
　３２　　判定用検出部
　３３　　誤検出判定部
　３４　　生成部
　３５　　記憶部
　１００、８００　　ログ情報
　１０１、２００、４０１、６０１、８０１、９００、１００１　　画像
　１０１ａ、８０１ａ　　物体領域
　１１０、４１０、４２０、８１０、８２０　　対象物体
　１２０　　切り出し画像
　３００、５００　　セグメンテーション結果
　４００、６００、１０００　　画像群
　７００　　アノテーション情報

Claims

　コンピュータが、
　第１画像および前記第１画像に映る物体の物体データを取得し、
　画像を入力として物体検出結果を出力する学習済みモデルに前記第１画像を入力することにより得られる物体検出結果と前記物体データとの差に対応する前記第１画像の部分を抽出し、
　抽出された前記第１画像の部分に対応する物体データと同一の物体データに対応する部分を含む第２画像を取得し、
　取得された前記第２画像における前記同一の物体データに対応する部分に、抽出された前記第１画像の部分に基づく画像を反映させることにより、前記学習済みモデルのトレーニングデータを生成する
　情報処理方法。
　さらに、前記物体検出結果を取得し、取得された前記物体検出結果と前記物体データとを比較し、
　比較結果に基づいて前記第１画像の部分を抽出する
　請求項１に記載の情報処理方法。
　前記第１画像の部分に基づく画像は、前記第１画像の部分を加工することにより得られた画像である
　請求項１又は２に記載の情報処理方法。
　前記第１画像の部分に基づく画像は、予め用意された画像から選択される、前記第１画像の部分と類似する画像である
　請求項１又は２に記載の情報処理方法。
　前記第２画像の取得では、撮像時の撮像装置の位置又は姿勢が、前記第１画像の撮像時の撮像装置の位置又は姿勢と同一又は類似である画像を前記第２画像として取得する
　請求項１～４のいずれか１項に記載の情報処理方法。
　前記第２画像の取得では、撮像時の時間帯又は天候が、前記第１画像の撮像時の時間帯又は天候と同一又は類似である画像を前記第２画像として取得する
　請求項１～５のいずれか１項に記載の情報処理方法。
　前記第２画像の取得では、輝度又は撮像時の撮像方向の明るさが、前記第１画像の輝度又は第１画像の撮像時の撮像方向の明るさと同一又は類似である画像を前記第２画像として取得する
　請求項１～６のいずれか１項に記載の情報処理方法。
　前記第２画像の取得では、前記第１画像の部分に対応する物体データと同一の物体データに対応する部分のサイズが、前記第１画像の部分のサイズと同一又は類似である画像を前記第２画像として取得する
　請求項１～７のいずれか１項に記載の情報処理方法。
　前記第２画像の取得では、前記第１画像の部分に対応する物体データと同一の物体データに対応する部分の周囲の領域データが、前記第１画像の部分の周囲の領域データと同一又は類似である画像を前記第２画像として取得する
　請求項１～８のいずれか１項に記載の情報処理方法。
　前記第１画像、及び、前記第２画像は、撮像画像であり、
　前記第２画像の取得では、撮像時の撮像装置の撮像パラメータが、前記第１画像の撮像時の撮像装置の撮像パラメータと同一又は類似である画像を前記第２画像として取得する
　請求項１～９のいずれか１項に記載の情報処理方法。
　第１画像および前記第１画像に映る物体の物体データを取得する取得部と、
　画像を入力として物体検出結果を出力する学習済みモデルに前記第１画像を入力することにより得られる物体検出結果と前記物体データとの差に対応する前記第１画像の部分を抽出し、抽出された前記第１画像の部分に対応する物体データと同一の物体データに対応する部分を含む第２画像を取得し、取得された前記第２画像における前記同一の物体データに対応する部分に、抽出された前記第１画像の部分に基づく画像を反映させることにより、前記学習済みモデルのトレーニングデータを生成する生成部とを備える
　情報処理システム。