WO2023167146A1

WO2023167146A1 - 学習データ生成方法、学習データ生成装置及び記録媒体

Info

Publication number: WO2023167146A1
Application number: PCT/JP2023/007102
Authority: WO
Inventors: 育規石井; 和紀小塚; 弘亘藤吉; 隆義山下; 翼平川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-03-02
Filing date: 2023-02-27
Publication date: 2023-09-07

Abstract

画像データを入力とし、画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成方法であって、認識モデルの認識精度に基づいて、複数のクラスから第一クラスを選定し（Ｓ１０）、第一クラスと、複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出し（Ｓ２０）、クラス間距離に基づいて、２以上の他クラスの中から学習データを生成するための第二クラスを選定し（Ｓ３０）、選定された第一クラス及び第二クラスのそれぞれの画像データ及びラベルを混合することで学習データを生成する（Ｓ６０）。

Description

学習データ生成方法、学習データ生成装置及び記録媒体

　本開示は、学習データ生成方法、学習データ生成装置及び記録媒体に関する。

　機械学習を用いて学習した認識モデルを用いて画像データ（画像）に含まれる対象物を認識する認識技術が知られている。機械学習手法のうち教師あり機械学習では、このような認識モデルは、画像データ及び当該画像データに含まれる対象物のラベル（正解ラベル）を含む学習データを用いて学習される。認識モデルは、学習データが多いと認識精度が高くなる傾向があるので、データ拡張（データオウグメンテーション、Ｄａｔａ　Ａｕｇｍｅｎｔａｔｉｏｎ）と呼ばれる学習データを生成、水増しする技術が検討されている。非特許文献１には、２つの画像データ及びラベルを混合することで、学習データである合成画像データを生成する技術が開示されている。

ｍｉｘｕｐ：　Ｂｅｙｏｎｄ　Ｅｍｐｉｒｉｃａｌ　Ｒｉｓｋ　Ｍｉｎｉｍｉｚａｔｉｏｎ：ＩＣＬＲ２０１８

　しかしながら、非特許文献１では、ランダムな画像データを混合することで合成画像データを生成するので、数が少ないクラスの画像データを生成できるとは限らない。そのため、精度が低いクラスの性能を改善した認識モデルを効果的に学習させることが困難である。

　そこで、本開示は、認識モデルを効果的に学習させることができる学習データを生成する学習データ生成方法、学習データ生成装置及び記録媒体を提供する。

　本開示の一態様に係る学習データ生成方法は、画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成方法であって、前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定し、前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出し、前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定し、選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する。

　本開示の一態様に係る学習データ生成装置は、画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成装置であって、前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定する第一選定部と、前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出する算出部と、前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定する第二選定部と、選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する生成部とを備える。

　本開示の一態様に係る記録媒体は、上記の学習データ生成方法をコンピュータに実行させるためのプログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体である。

　本開示の一態様によれば、認識モデルを効果的に学習させることができる学習データを生成する学習データ生成方法等を実現することができる。

図１は、実施の形態に係る学習データ生成装置の機能構成を示すブロック図である。図２は、実施の形態に係る低頻度クラス選定部の機能構成を示すブロック図である。図３は、実施の形態に係る学習データ生成装置の動作を示すフローチャートである。図４は、図３に示すステップＳ１０の動作を詳細に示すフローチャートである。図５Ａは、実施の形態に係る低頻度クラスの選定方法の第一例を示す図である。図５Ｂは、実施の形態に係る低頻度クラスの選定方法の第二例を示す図である。図６は、図３に示すステップＳ２０の動作を詳細に示すフローチャートである。図７は、図３に示すステップＳ３０の動作を詳細に示すフローチャートである。図８Ａは、実施の形態に係る低頻度クラスと混合されるクラスの選定方法の第一例を示す図である。図８Ｂは、実施の形態に係る低頻度クラスと混合されるクラスの選定方法の第二例を示す図である。

　（本開示に至った経緯）
　認識モデルの学習時に学習データの収集が行われるが、全クラスのデータを均等に集めることは困難であり、そのような学習データを用いて学習された認識モデルは、クラスごとに認識率が異なることがある。例えば、学習データに含まれるデータ数が少ないクラスである低頻度クラスに対する認識性能が低下することがある。低頻度クラスのデータを追加で収集することも考えられるが、収集コストが大きくなる課題がある。なお、学習データは、画像データと当該画像データに含まれる対象物のクラスを示すラベルとの組のデータ（データセット）である。

　そこで、本願発明者らは、収集コストの増加を抑制しつつ、低頻度クラスの認識性能を向上可能な学習データを生成することができる学習データ生成方法等について鋭意検討を行い、以下に示す学習データ生成方法等を創案した。

　本開示の第１態様に係る学習データ生成方法は、画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成方法であって、前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定し、前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出し、前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定し、選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する。

　これにより、第一クラス及び第二クラスの画像データに含まれる対象物それぞれの特徴を有する画像データを含む学習データを生成することができるので、そのような画像データを用いて学習されることで認識モデルの認識性能を向上させることができる。例えば、第一クラスの認識精度が低い場合、認識精度が低いクラスの認識精度を効果的に向上させることができる学習データを生成することができる。よって、学習データ生成方法によれば、認識モデルを効果的に学習させることができる学習データを生成することができる。

　また、本開示の第２態様に係る学習データ生成方法は、第１態様に係る学習データ生成方法であって、例えば、前記複数のクラスのうち、前記認識精度が第一閾値以下であるクラス及び前記認識精度が前記第一閾値より高い第二閾値以上であるクラスの少なくとも一方を候補クラスとして抽出し、前記第一クラスは、前記候補クラスの中から選定されてもよい。

　これにより、認識精度が第一閾値以下又は第二閾値以上であるクラスの認識精度を効果的に向上させることができる学習データを生成することができる。

　また、本開示の第３態様に係る学習データ生成方法は、第２態様に係る学習データ生成方法であって、例えば、前記第一クラスは、前記候補クラスの中からランダムに選定されてもよい。

　これにより、ランダムに選定された第一クラスの認識精度を効果的に向上させることができる学習データを生成することができる。

　また、本開示の第４態様に係る学習データ生成方法は、第１態様～第３態様のいずれかに係る学習データ生成方法であって、例えば、前記クラス間距離は、前記認識モデルにより出力される前記複数のクラスそれぞれの尤度に基づいて算出されてもよい。

　これにより、第二クラスの選定に、認識モデルの認識結果である複数のクラスそれぞれの尤度を用いることができる。このように選定された第二クラスと第一クラスとの混合により生成される学習データは、第一クラスと第二クラスとの尤度の境界をより正確に学習させることができる学習データとなり得る。

　また、本開示の第５態様に係る学習データ生成方法は、第４態様に係る学習データ生成方法であって、例えば、前記認識精度の算出に用いられた評価データのうち前記第一クラスに対応する１以上の第一評価データそれぞれに対する前記尤度を取得し、前記１以上の第一評価データそれぞれの前記尤度の分散が第三閾値より大きいか否かを判定し、前記分散の判定結果に基づいて、前記クラス間距離の算出に用いる前記第一クラスの前記尤度を決定してもよい。

　これにより、分散の判定結果に応じて異なる尤度が取得されるので、分散の判定結果によらず尤度が取得される場合に比べて、認識モデルを効果的に学習させることができる学習データを生成することができる。

　また、本開示の第６態様に係る学習データ生成方法は、第５態様に係る学習データ生成方法であって、例えば、前記分散が前記第三閾値より大きい場合、前記１以上の第一評価データのうち認識結果が正解である評価データの前記尤度を用いて前記クラス間距離を算出し、前記分散が前記第三閾値以下である場合、前記１以上の第一評価データのうち認識結果が不正解である評価データの前記尤度を用いて前記クラス間距離を算出してもよい。

　これにより、第一クラスの尤度のばらつきが大きい場合、正解である評価データの尤度を用いるので、外れ値の影響を抑制することができる。また、第一クラスの尤度のばらつきが小さい場合、不正解である評価データの尤度を用いるので、他クラスに類似したデータを間違いにくくすることができる。

　また、本開示の第７態様に係る学習データ生成方法は、第４態様～第６態様のいずれかに係る学習データ生成方法であって、例えば、前記クラス間距離は、マハラノビス距離、ユークリッド距離、マンハッタン距離又はコサイン類似度であってもよい。

　これにより、マハラノビス距離、ユークリッド距離、マンハッタン距離及びコサイン類似度のいずれかをクラス間距離として用いることができる。

　また、本開示の第８態様に係る学習データ生成方法は、第１態様～第７態様のいずれかに係る学習データ生成方法であって、例えば、前記第一クラスに対する前記認識モデルの認識結果の正答率を算出し、算出された前記正答率と前記クラス間距離とに基づいて、前記２以上の他クラスから前記第二クラスを選定してもよい。

　これにより、第二クラスが第一クラスの正答率に基づいて選定されるので、例えば、第一クラスの正答率を向上可能な第二クラスを選定することが可能である。

　また、本開示の第９態様に係る学習データ生成方法は、第８態様に係る学習データ生成方法であって、例えば、前記第一クラスの前記正答率が第四閾値より大きい場合、前記２以上の他クラスのうち前記クラス間距離が近いクラスを前記第二クラスとして選定し、前記第一クラスの前記正答率が前記第四閾値以下である場合、前記２以上の他クラスのうち前記クラス間距離が遠いクラスを前記第二クラスとして選定してもよい。

　これにより、正答率に応じて異なるクラスが第二クラスとして選定されるので、正答率によらずに第二クラスが選定される場合に比べて、認識モデルを効果的に学習させることができる。

　また、本開示の第１０態様に係る学習データ生成方法は、第１態様～第９態様に係る学習データ生成方法であって、例えば、さらに、前記認識精度の算出に用いられた画像データ及びラベルを含む評価データの中から、前記第一クラスに対応する１以上の第一評価データ、及び、前記第二クラスに対応する１以上の第二評価データを取得し、取得された前記１以上の第一評価データ及び前記第二評価データを混合する混合率を取得し、取得された前記混合率に基づいて、前記１以上の第一評価データ及び前記第二評価データを混合することで前記学習データを生成してもよい。

　これにより、取得された混合率に応じた学習データを生成することができる。

　また、本開示の第１１態様に係る学習データ生成装置は、画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成装置であって、前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定する第一選定部と、前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出する算出部と、前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定する第二選定部と、選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する生成部とを備える。また、本開示の第１２態様に係る記録媒体は、第１態様～第１０態様のいずれかに係る学習データ生成方法をコンピュータに実行させるためのプログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体である。

　これにより、上記の学習データ生成方法と同様の効果を奏する。

　なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭなどの非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネットなどを含む広域通信網を介して記録媒体に供給されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。

　また、本明細書において、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度（あるいは、１０％程度）の差異をも含むことを意味する表現である。

　また、本明細書において、「第一」、「第二」などの序数詞は、特に断りの無い限り、構成要素の数又は順序を意味するものではなく、同種の構成要素の混同を避け、区別する目的で用いられている。

　（実施の形態）
　以下、本実施の形態に係る学習データ生成方法等について、図１～図８Ｂを参照しながら説明する。

　［１．学習データ生成装置の構成］
　まず、本実施の形態に係る学習データ生成装置の構成について、図１及び図２を参照しながら説明する。図１は、本実施の形態に係る学習データ生成装置１の機能構成を示すブロック図である。学習データ生成装置１は、認識モデルを学習する（例えば、再学習する）ための学習データを生成する情報処理装置である。具体的には、学習データ生成装置１は、学習データにおけるデータ数が少ない等により、認識モデルの認識性能が低いクラスの認識性能を向上させるための学習データを、既存の学習データから生成する情報処理装置である。

　図１に示すように、学習データ生成装置１は、低頻度クラス選定部１０と、クラス間距離算出部２０と、混合クラス選定部３０と、データ取得部４０と、記憶部５０と、混合率算出部６０と、データ混合部７０と、ラベル混合部８０と、学習データ出力部９０とを備える。学習データ生成装置１の機能ブロックの各々による処理は、通常、プロセッサ等のプログラム実行部が、ＲＯＭ等の記録媒体に記録されたソフトウェア（プログラム）を読み出して実行することで実現される。

　低頻度クラス選定部１０は、複数のクラスから認識モデルの認識精度（例えば、認識率）に基づいて低頻度クラスを選定する。低頻度クラス選定部１０は、例えば、事前に学習された認識モデルを用いて推論を行い、複数のクラスそれぞれの認識精度に基づいて低頻度クラスを選定する。低頻度クラスは、複数のクラスのうちうまく学習ができていないクラスであり、精度よく認識できないクラスである。認識モデルでは、低頻度クラスの対象物が他のクラスに誤認識されたり、他のクラスの対象物が低頻度クラスに誤認識されたりすることがある。

　低頻度クラス選定部１０は、第一選定部の一例であり、低頻度クラスは、第一クラスの一例である。また、また、事前学習の際に用いられた学習データは、例えば、クラスごとのサンプル数が異なる学習データである。学習データ生成装置１は、例えば、クラスごとのサンプル数が異なる学習データを用いた機械学習において学習された認識モデルを再学習するときの学習データを生成する。

　ここで、低頻度クラス選定部１０の構成について、図２を参照しながら説明する。図２は、本実施の形態に係る低頻度クラス選定部１０の機能構成を示すブロック図である。

　図２に示すように、低頻度クラス選定部１０は、学習パラメータ読込み部１１と、学習モデルパラメータデータベース１２と、評価用データ読込み部１３と、評価用データベース１４と、推論部１５と、クラス精度分析部１６と、クラス選定部１７とを有する。なお、各構成要素の処理の詳細は、図４等を用いて後述する。

　学習パラメータ読込み部１１は、認識モデルのパラメータを学習モデルパラメータデータベース１２から読み込む（読み出す）。

　認識モデルは、画像認識に用いられるモデルであり、学習モデルとも呼ばれる数理モデルである。認識モデルは、画像データに含まれる対象物が複数のクラスのうちのいずれのクラスに含まれるのかを識別できるように構成されている。識別モデルは、予め与えられたパラメータ（初期値）を有する認識モデルであってもよいし、予め用意した学習データを用いて機械学習することで、上述の予め与えられたパラメータを更新した新たなパラメータを有する認識モデル（学習済みの認識モデル）であってもよい。また、認識モデルは、画像データを入力とし、画像データに含まれる対象物が複数のクラスの何れに含まれるのかを出力するモデルである。また、認識モデルは、対象物における複数のクラスのそれぞれに対する尤度を要素とする１行Ｍ列（Ｍは複数のクラスの数）の行列の形式（ベクトルの形式）で出力可能である。認識モデルから出力される１行Ｍ列の行列（ベクトル）を、クラス確率または尤度ベクトルという。クラス確率の要素として含まれる複数のクラスのそれぞれに対する尤度は、対象物が当該クラスであることの確からしさを示す値である。認識モデルは、入力された画像データに対し出力される複数のクラスのそれぞれに対する尤度のうち最も大きい尤度のクラスが、上述の画像データに含まれる対象物のクラスであると認識する。認識モデルは、例えば、ニューラルネットワークモデルであるが、これに限定されない。

　また、認識モデルは、画素ごとにクラスを分類する画像セグメンテーション（Ｉｍａｇｅ　Ｓｅｇｍｅｎｔａｔｉｏｎ）モデルであってもよい。

　また、以下では、認識モデルは、画像データから対象物を認識する物体認識モデルである例について説明するが、例えば、画像データから文字を認識する文字認識モデルなどであってもよい。車両に搭載される物体認識モデルである場合、クラスは、例えば、車両、人、道路、歩道、建物、信号機などであり、文字認識モデルである場合、クラスは、例えば、文字そのものである。以下で示す学習データ及び評価データは、それぞれ、クラスに対応する対象物の少なくとも１つを含む画像データ及び当該対象物のラベル（正解ラベル）を含む。

　学習モデルパラメータデータベース１２は、１以上の認識モデルのパラメータを記憶する記憶装置である。当該パラメータは、例えば、認識モデルであるニューラルネットワークの各種パラメータである。学習モデルパラメータデータベース１２は、例えば、半導体メモリにより実現されるが、これに限定されない。

　評価用データ読込み部１３は、学習パラメータ読込み部１１が読み出した認識モデルに対して、低頻度クラスを選定するための推論を行わせるための評価用のデータ（評価データ）を評価用データベース１４から読み込む。本実施の形態では、評価用データとして画像データを例に説明をする。

　評価用データベース１４は、複数の評価データを記憶する記憶装置である。複数の評価データは、認識モデルが分類する複数のクラスを含む。評価用データベース１４は、例えば、半導体メモリにより実現されるが、これに限定されない。

　推論部１５は、学習パラメータ読込み部１１が読み込んだ認識モデルのパラメータを用いて評価用データ読込み部１３が読み込んだ評価用データの推論処理を実行する。推論部１５は、評価用データを識別モデルに入力することで得られる当該評価用データに含まれる対象物のクラスを推論処理の結果として取得する。また、推論部１５は、評価用データを識別モデルに入力することで、識別モデルから出力される当該評価用データに含まれる対象物が複数のクラスそれぞれであると判断する確からしさを示す尤度を要素とする行列の形式で出力した結果を推論処理の結果として取得してもよい。

　クラス精度分析部１６は、推論部１５の推論結果と正解ラベルとに基づいて、認識モデルの出力が正解であったか否かを判定し、同一クラスの判定結果から認識モデルにおける当該クラスの認識率（正答率とも記載する）を算出する。

　クラス選定部１７は、クラス精度分析部１６が算出した各クラスの認識率に基づいて、複数のクラスの中から低頻度クラスを選定する。

　図１を再び参照して、クラス間距離算出部２０は、複数のクラスのうち、低頻度クラスと、２以上の他クラスとのクラス間距離を算出する。クラス間距離は、例えば、評価用データを識別モデルに入力したとき、識別モデルから出力される複数のクラスの尤度から算出される距離を例に説明をするが、これに限定されない。例えば、識別モデルがニューラルネットワークである場合、ニューラルネットワークの中間層からの出力（特徴量）から算出される距離をクラス間距離としてもよい。本実施の形態では、クラス間距離は、より具体的には低頻度クラスの画像データに対して認識モデルが出力した尤度と、２以上の他クラスの画像データに対して認識モデルが出力した尤度と共分散行列とに基づいて算出される距離（例えば、相対距離）である。共分散行列の詳細、およびクラス間距離の算出については後述する。

　混合クラス選定部３０は、低頻度クラスと、２以上の他クラスそれぞれとのクラス間距離に基づいて、低頻度クラスと混合するクラスを１つ選定する。混合クラス選定部３０は、第二選定部の一例である。低頻度クラスと混合するクラスの選定については後述する。なお、混合クラス選定部３０により選定されたクラスは、第二クラスの一例である。また、以降において、混合クラス選定部３０により選定されたクラスを、混合対象クラスとも記載する。

　データ取得部４０は、低頻度クラス及び混合対象クラスの画像データ及びラベルを記憶部５０から読み出す。

　記憶部５０は、低頻度クラスの認識性能を向上させるための学習データを生成するためのデータ（画像データ及びラベル）を記憶する記憶装置である。記憶部５０は、評価用データベース１４により実現されてもよい。記憶部５０は、評価用データを記憶していてもよい。記憶部５０は、例えば、半導体メモリにより実現されるが、これに限定されない。

　混合率算出部６０は、低頻度クラスの第一画像データ及び当該第一画像データの正解ラベル（第一正解ラベル）と、混合対象クラスの第二画像データ及び当該第二画像データの正解ラベル（第二正解ラベル）とを混合するときの混合率（重み）を算出する。第一画像データ及び第二画像データを混合するときの混合率と、第一正解ラベル及び第二正解ラベルを混合するときの混合率とは、同一の混合率である。混合率算出部６０は、混合率をランダムに算出してもよい。混合率は、０～１までの値である。混合率算出部６０は、低頻度クラスの第一混合率を混合対象クラスの第二混合率より低い値としてもよいし、第一混合率及び第二混合率を同じ値（＝０．５）としてもよいし、第一混合率を第二混合率より高い値としてもよい。第一混合率と第二混合率との合計は、１となる。

　なお、第一正解ラベル及び第二正解ラベルは１つの正解クラスを表すラベルであってもよいし、複数のクラスに対する複数の尤度を表すラベルであってもよい。例えば、第一正解ラベルは、第一画像データに含まれる対象物の正しいクラスに対して１００％（つまり、１）の尤度を有し、他の各クラスに対して０％（つまり、０）の尤度を有していてもよい。また、第二正解ラベルは、第二画像データに含まれる対象物の正しいクラスに対して１００％（つまり、１）の尤度を有し、他の各クラスに対して０％（つまり、０）の尤度を有していてもよい。

　データ混合部７０は、第一画像データと第二画像データとを混合率算出部６０が算出した混合率で混合することで、学習のための追加の画像データ（合成画像データ）を生成する。データ混合部７０は、第一画像データと第二画像データとを合成して１つの合成画像データ（疑似データ）を生成するとも言える。データ混合部７０は、例えば、第一画像データ及び第二画像データの同一画素の画素値のそれぞれを重みづけ加算することで、合成画像データを生成する。例えば、合成画像データは、クラスが異なる２以上の対象物を含む。

　ラベル混合部８０は、第一正解ラベルと第二正解ラベルとを混合率算出部６０が算出した混合率（データ混合部７０で混合する画像データと同じ混合率）で混合することで、データ混合部７０が生成した合成画像データに対応する追加の正解ラベル（合成正解ラベル）を生成する。ラベル混合部８０は、第一正解ラベルと第二正解ラベルとを合成することで、合成正解ラベルを生成するとも言える。ラベル混合部８０は、第一正解ラベル及び第二正解ラベルの同一クラスの尤度を重みづけ加算することで、合成正解ラベルを生成する。例えば、合成正解ラベルは、合成画像データに含まれる対象物のクラスを含む複数のクラスそれぞれに対する尤度を含む。

　ここで、合成画像データ及び合成正解ラベルの一例について説明する。第一画像データには犬が映っており、第一正解ラベルは犬に対して１００％（つまり、１）の尤度を有し、第二画像データには猫が映っており、第二正解ラベルは猫に対して１００％（つまり、１）の尤度を有しており、これらを混合率０．５で混合する場合について説明する。なお、猫、犬は、クラスの一例である。

　合成画像データは、第一画像データ及び第二画像データを混合率算出部６０により決定された混合率で重みづけ加算することで生成された画像データであり、例えば、犬及び猫の両方が含まれる画像データ（例えば、犬及び猫の少なくとも一部が重畳した画像データ）である。

　合成正解ラベルは、第一画像データ及び第二画像データの合成に用いられる混合率と同じ混合率で第一正解ラベル及び第二正解ラベルを重み付け加算したラベルである。合成正解ラベルが（犬の尤度、猫の尤度）で示される場合、上記の例では、合成正解ラベルは、（０．５、０．５）となる。

　学習データ出力部９０は、データ混合部７０で混合された合成画像データと、ラベル混合部８０で混合された当該合成画像データに対応する合成正解ラベルとを含む学習データを、認識モデルを学習する学習装置等の情報処理装置に出力する。学習データ出力部９０は、通信回路（通信モジュール）を含んで構成される。

　このように生成された学習データを用いて認識モデルが学習（例えば、再学習）されることで、データ再収集などのコストを抑止しつつ、低頻度クラスの精度を効果的に向上させることができる。

　［２．学習データ生成装置の動作］
　続いて、上記のように構成される学習データ生成装置１の動作について、図３～図８Ｂを参照しながら説明する。図３は、本実施の形態に係る学習データ生成装置１の動作（学習データ生成方法）を示すフローチャートである。図４は、図３に示すステップＳ１０の動作（学習データ生成方法）を詳細に示すフローチャートである。

　図３に示すように、低頻度クラス選定部１０は、複数のクラスから認識モデルの認識精度に基づいて低頻度クラス（第一クラス）を選定する（Ｓ１０）。具体的には、低頻度クラス選定部１０は、認識モデルに評価データを入力して得られる認識モデルの出力である認識結果の認識精度に基づいて低頻度クラスを選定する。

　図４に示すように、ステップＳ１０は、ステップＳ１１～ステップＳ１９の処理を含む。

　まず、学習パラメータ読込み部１１は、学習モデルパラメータデータベース１２から推論を行う認識モデルのパラメータを読み込む（Ｓ１１）。学習パラメータ読込み部１１は、読み込んだ認識モデルのパラメータを推論部１５に出力する。

　次に、評価用データ読込み部１３は、評価用データベース１４からＮ番目（Ｎは１以上の自然数）の評価データを読み込む（Ｓ１２）。評価用データ読込み部１３は、読み込んだ評価データを推論部１５に出力する。

　次に、推論部１５は、推論処理を実行し、推論結果を記憶部（図示しない）に保存する（Ｓ１３）。推論部１５は、認識モデルに評価用の画像データを入力し、認識モデルの出力である評価用の画像データに含まれる対象物のクラスを推論結果として取得する。

　次に、評価用データ読込み部１３は、評価データの全データを処理したか否かを判定する（Ｓ１４）。評価用データ読込み部１３は、評価データの全データを評価用データベース１４から読み込んだか否かによりステップＳ１４の判定を行ってもよい。なお、ステップＳ１４は、所定数のデータが処理されたか否かにより判定が行われてもよい。つまり、評価データの全データを処理することに限定されない。ここでの処理とは、評価データを用いてステップＳ１３の処理を行うことを意味する。

　評価用データ読込み部１３は、評価データの全データを処理していないと判定した場合（Ｓ１４でＮｏ）、Ｎ＝Ｎ＋１とし（Ｓ１５）、次の評価データに対してステップＳ１２以降の処理が実行され、評価データの全データを処理したと判定した場合（Ｓ１４でＹｅｓ）、ステップＳ１６に進む。

　次に、クラス精度分析部１６は、クラスごとの認識率（認識精度の一例）を算出する（Ｓ１６）。クラス精度分析部１６は、評価データごとに、推論結果と、正解ラベルとが一致しているか否かにより正否を判定し、対象物のクラスごとに認識率（正答率）を算出する。

　説明を簡単にするため、認識モデルにより認識（または分類）されるべき対象物のクラスが３つである場合を例に説明する。この場合、認識されるべき対象物のクラスは、第一の対象物のクラス（第一クラスと称す）、第二の対象物のクラス（第二クラスと称す）、第三の対象物のクラス（第三クラスと称す）の３つを有する。この場合、評価データである画像データが認識モデルに入力されると、認識モデルは、この画像データに含まれる対象物が第一クラスであると判断される確からしさを示す値（第一クラスの尤度と称す）、対象物が第二の対象物のクラスであると判断される確からしさを示す値（第二クラスの尤度と称す）、対象物が第三クラスであると判断される確からしさを示す値（第三クラスの尤度と称す）をそれぞれ算出し、１行３列の行列の形式で出力する。つまり、認識モデルから推論結果として出力される１行３列の行列は、第一クラスの尤度、第二クラスの尤度、第三クラスの尤度を要素として含む。

　推論部１５は、推論結果に含まれる第一クラスの尤度、第二クラスの尤度および第三クラスの尤度のうちの最も大きい尤度のクラスの対象物が入力された画像データに含まれる対象物のクラスであると認識する。

　一方、対象物のクラスが３つである場合、評価データに対応する正解ラベルとは、例えば、評価データである画像データに実際に含まれる対象物に対応するクラスの尤度が１、それ以外（画像データに含まれない対象物）のクラスの尤度が０である１行３列の行列である。クラス精度分析部１６は、評価データである画像データごとに、推論結果に基づき認識した対象物のクラスと、この画像データに対応する正解ラベルにおいて、尤度が１に対応するクラスとが一致しているか否かを判定することにより、推論結果に基づき認識される対象物に対応するクラスと正解ラベルとが一致しているか否かを判定する。

　例えば、３つの対象物のクラスのうちの１つの対象物が「車両」のクラスであり、この「車両」のクラスに対する認識率を算出する場合、例えば、クラス精度分析部１６は、「車両」のクラスの尤度が１であり、残り２つの対象物のクラスの尤度が０である正解ラベルに対応する評価データに対する認識モデルの推論結果を抽出し、推論結果に基づき認識した対象物のクラスが車両であるものを正解とし、推論結果に基づき認識した対象物のクラスが車両以外であるものを不正解とする。クラス精度分析部１６は、例えば、認識モデルにより入力した評価データに含まれる対象物が「車両」に対応するクラスであると認識された評価データが１０枚あり、そのうち９枚が正解であり、残り１枚が不正解である場合、クラス「車両」に対する認識率を９０％と算出する。

　次に、クラス精度分析部１６は、認識率が低い順にクラスを並び替えるクラス昇順ソート処理を実行する（Ｓ１７）。

　図５Ａは、本実施の形態に係る低頻度クラスの選定方法の第一例を示す図である。

　図５Ａに示すように、クラス精度分析部１６は、認識率が低い低精度のクラスから順に認識率が高い高精度のクラスまでを認識率の順に並び替える。図５Ａでは、クラスＡの最も認識率が高く、クラスＤ、クラスＦの順に認識率が低いなる場合を図示している。

　なお、クラス精度分析部１６は、認識率が高い順にクラスを並び替えるクラス降順ソート処理を実行してもよい。

　図４を再び参照して、次に、クラス精度分析部１６は、先頭クラスの認識率からの精度差が閾値ｔｈ１以内の１以上のクラスを候補クラス集合Ｃ１として選定し、最後尾クラスの認識率からの精度差が閾値ｔｈ２以内の１以上のクラスを候補クラス集合Ｃ２として選定する（Ｓ１８）。

　低頻度クラスは、他クラスに比べ過度に低精度である場合（例えば、後述する図８Ａのクラスｐを参照）と、他クラスに比べ過度に高精度である場合（例えば、後述する図８Ｂのクラスｐを参照）とがあるので、ステップＳ１８では、低頻度クラスの候補として、候補クラス集合Ｃ１及びＣ２の両方を生成する。

　図５Ａを例に説明すると、クラス精度分析部１６は、まず最も高精度であるクラスＡの認識率を基準に、当該認識率との精度差が閾値ｔｈ１以内のクラスを特定する。クラス精度分析部１６は、クラスＤ、クラスＦ、・・・と順に、クラスＡの認識率と当該クラスの認識率との精度差が閾値ｔｈ１以内であるか否かを判定する。例えば、クラスＡの認識率とクラスＦの認識率との精度差が閾値ｔｈ１より大きい場合、候補クラス集合Ｃ１には、クラスＡ及びクラスＤのみが選定される。クラス精度分析部１６は、最後尾クラス（低精度のクラス）についても同様に閾値ｔｈ２を用いて候補クラス集合Ｃ２に含まれるクラスを選定する。

　図５Ｂは、本実施の形態に係る低頻度クラスの選定方法の第二例を示す図である。

　図５Ａは、候補クラス集合Ｃ１として、クラスＡ、クラスＤ及びクラスＦを含むＬ個（Ｌは１以上の自然数）のクラスが選択された例を示しており、図５Ｂは、候補クラス集合Ｃ２として、Ｍ個（Ｍは１以上の自然数）のクラスが選択された例を示している。

　なお、Ｌ個及びＭ個は、同数であってもよいし、互いに異なる個数であってもよい。また、上記では、閾値を用いて候補クラス集合Ｃ１及びＣ２を生成したが、予め定められた個数のクラスを抽出することで候補クラス集合Ｃ１及びＣ２に含まれるクラスが選定されてもよい。クラス精度分析部１６は、例えば、認識率の上位所定個数のクラスを候補クラス集合Ｃ１として選定し、認識率の下位所定個数のクラスを候補クラス集合Ｃ２として選定してもよい。

　図４を再び参照して、クラス選定部１７は、候補クラス集合Ｃ１及びＣ２からランダムに低頻度クラスを１つ選定し、出力する（Ｓ１９）。クラス選定部１７は、候補クラス集合Ｃ１及びＣ２からランダムにクラスを１つ選定し、選定されたクラスを低頻度クラスとしてクラス間距離算出部２０に出力する。ランダムに選定する方法は、特に限定されない。

　図３を再び参照して、次に、クラス間距離算出部２０は、クラス選定部１７により選定された低頻度クラスと２以上の他クラスとのクラス間距離を算出する（Ｓ２０）。クラス間距離算出部２０は、複数のクラスのうち低頻度クラスを除く全ての他クラスのそれぞれと、低頻度クラスとのクラス間距離を算出してもよいし、複数のクラスのうち２以上の所定個数の他クラスのそれぞれと、低頻度クラスとのクラス間距離を算出してもよい。

　クラス間距離の算出について、図６を参照しながら説明する。図６は、図３に示すステップＳ２０の動作（学習データ生成方法）を詳細に示すフローチャートである。

　図６に示すように、クラス間距離算出部２０は、低頻度クラスの評価データそれぞれに対する認識モデルの出力に含まれる複数のクラスそれぞれの尤度に基づいて、低頻度クラスのクラス確率分散を算出する（Ｓ２１）。クラス確率分散は、複数のクラスそれぞれの尤度のばらつきを示す。例えば、認識モデルにより認識されるべき対象物のクラスが３つである場合、認識モデルは３つのクラスそれぞれの尤度を要素として含む１行３列を出力する。認識モデルにより認識されるべき対象物のクラスが３つであるとした場合、認識モデルの出力に含まれるのは３つのクラスの尤度であり、３つのクラスの尤度のうちの１つは低頻度クラスの尤度であり、残りの２つのクラスは、低頻度クラスの尤度とは異なるクラスであり、これらを他クラスと称することにする。この２つの他クラスのうちの一方を第一他クラス、他方を第二他クラスと称することにする。

　例えば、認識モデルにより、評価データである画像データから認識された対象物のクラスが低頻度クラスである場合、この画像データを低頻度クラスに含まれる画像データ（評価データ）または低頻度クラスの画像データ（評価データ）と称することにする。

　また、低頻度クラスに含まれる画像データに対し、認識モデルにより出力される１行３列の行列を低頻度クラスに含まれる画像データのクラス確率と称することにする。低頻度クラスに含まれる画像データのクラス確率を、第一クラス確率ということもある。

　同様に、評価データである画像データから認識された対象物のクラスが、第一他クラス（または第二他クラス）である場合、この画像データを第一他クラス（または第二他クラス）に含まれる画像データ（評価データ）または第一他クラス（または第二他クラス）の画像データ（評価データ）と称することにする。

　また、第一他クラス（または第二他クラス）に含まれる画像データ（評価データ）に対し、認識モデルにより出力される１行３列の行列を第一他クラス（または第二他クラス）に含まれる画像データのクラス確率と称することにする。第一他クラス（または第二他クラス）に含まれる画像データのクラス確率を、第二クラス確率（または第三クラス確率）ということもある。

　クラス間距離算出部２０は、低頻度クラスの複数の評価データそれぞれの第一クラス確率に基づいてクラス確率分散を算出する。クラス確率分散とは、複数の第一クラス確率から算出される第一クラス確率の分散である。分散については統計学などで周知であるため、ここではその詳細な説明を省略する。

　次に、クラス間距離算出部２０は、ステップＳ２１で算出したクラス確率分散が閾値より大きいか否かを判定する（Ｓ２２）。クラス間距離算出部２０は、クラス確率分散が閾値より大きいと判定した場合（Ｓ２２でＹｅｓ）、低頻度クラスに含まれる画像データのうち推論結果が正解であった画像データ（正解データ）の集合を読み込む（Ｓ２３）。クラス間距離算出部２０は、ステップＳ２２でＹｅｓの場合、低頻度クラスに含まれる画像データの中から、正解データを抽出するとも言える。

　また、クラス間距離算出部２０は、クラス確率分散が閾値以下と判定した場合（Ｓ２２でＮｏ）、低頻度クラスに含まれる画像データのうち推論結果が不正解であった画像データ（不正解データ）の集合を読み込む（Ｓ２４）。クラス間距離算出部２０は、ステップＳ２２でＮｏの場合、低頻度クラスに含まれる画像データの中から、不正解データを抽出するとも言える。

　次に、クラス間距離算出部２０は、ステップＳ２２の判定の結果に基づき、（ｉ）ステップＳ２３により読み込まれた低頻度クラスに含まれる画像データ（正解データ）または、（ｉｉ）ステップＳ２４により読み込まれた低頻度クラスに含まれる画像データ（不正解データ）を低頻度クラスの評価データとし、この低頻度クラスの評価データのそれぞれに対する推論結果（低頻度クラスのクラス確率）と、２つ以上の他クラスそれぞれについて、各他クラスにおける評価データのそれぞれに対する推論結果（各他クラスのクラス確率）とに基づいて、共分散行列を算出する（Ｓ２５）。

　認識モデルにより認識されるべき対象物のクラスが３つである場合、クラス間距離算出部２０は、低頻度クラスの画像データ（ステップＳ２３またはステップＳ２４により読み込まれた複数の画像データ）それぞれに対する認識モデルの出力である複数の第一クラス確率の分散と、第一他クラスの複数の画像データそれぞれに対する認識モデルの出力である複数の第二クラス確率の分散と、第二他クラスの複数の画像データそれぞれに対する認識モデルの出力である複数の第三クラス確率の分散と、第一クラス確率及び第二クラス確率の共分散と、第一クラス確率及び第三クラス確率の共分散と、第二クラス確率及び第三クラス確率の共分散とに基づいて、３×３の共分散行列を算出する。なお共分散については、統計学などで周知であるため、ここではその詳細な説明を省略する。

　次に、クラス間距離算出部２０は、ステップＳ２５で算出した共分散行列で各クラス（上記の例では、３つのクラス）それぞれのクラス確率を正規化し、正規化されたクラス確率に基づいて、マハラノビス距離を算出する（Ｓ２６）。クラス間距離算出部２０は、正規化されたクラス確率に基づく２つのクラスそれぞれの中心間の距離をマハラノビス距離として算出する。上記の例では、クラス間距離算出部２０は、低頻度クラスと第一他クラスとの間のマハラノビス距離と、低頻度クラスと第二他クラスとの間のマハラノビス距離とを算出する。

　低頻度クラスと第一他クラスとの間のマハラノビス距離（第一マハラノビス距離）は、以下の（式１）により算出され、低頻度クラスと第二他クラスとの間のマハラノビス距離（第二マハラノビス距離）は、以下の（式２）により算出される。

　第一マハラノビス距離＝｛（第二クラス確率の平均値－第一クラス確率の平均値）＊共分散行列の逆行列＊（第二クラス確率の平均値－第一クラス確率の平均値）^ｔ｝^１／２　（式１）

　第二マハラノビス距離＝｛（第三クラス確率の平均値－第一クラス確率の平均値）＊共分散行列の逆行列＊（第三クラス確率の平均値－第一クラス確率の平均値）^ｔ｝^１／２　（式２）

　認識モデルにより認識されるべき対象物のクラスが３つである場合、第一クラス確率、第二クラス確率、第三クラス確率は、上述したように１行３列の行列であるため、（第二クラス確率の平均値－第一クラス確率の平均値）、（第三クラス確率の平均値－第一クラス確率の平均値）は、それぞれ、１行３列の行列である。

　また、（第二クラス確率の平均値－第一クラス確率の平均値）^ｔは、（第二クラス確率の平均値－第一クラス確率の平均値）の転置行列（３行１列の行列）であり、（第三クラス確率の平均値－第一クラス確率の平均値）^ｔは、（第三クラス確率の平均値－第一クラス確率の平均値）の転置行列（３行１列の行列）である。

　また、上述したように第一クラス確率は、ステップＳ２２の判定に基づき読み込まれた低頻度クラスの複数の画像データ（正解データまたは不正解データ）のそれぞれに対する第一クラス確率であるので、第一クラス確率の平均値は、複数の正解データまたは複数の不正解データに対する第一クラス確率の平均値である。

　マハラノビス距離では分布が正規化されるので、クラス確率の外れ値などの偏りが距離に与える影響を抑制することができる。マハラノビス距離は、クラス間距離の一例である。

　次に、クラス間距離算出部２０は、算出したマハラノビス距離（距離情報）を記憶部（図示しない）に保存する（Ｓ２７）。

　なお、上記では、クラス間距離算出部２０は、距離尺度としてマハラノビス距離を算出したがこれに限定されず、ユークリッド距離、マンハッタン距離、コサイン類似度などを算出してもよい。例えば、データの偏りが所定以下である場合、データの分散を考慮する必要がないので、クラス確率を直接用いたユークリッド距離などが算出されてもよい。

　また、上述の例では、認識モデルにより認識されるべき対象物のクラスが３つである場合におけるクラス間距離の算出について説明をしたが、これに限定されない。例えば、認識モデルにより認識されるべき対象物のクラスがＮ（Ｎ：４以上の整数）である場合、認識モデルから出力されるクラス確率として低頻度クラスの尤度および、残りの（Ｎ－１）個の他クラスの尤度を要素として含む１行Ｎ列の行列を用いて表現すればよい。つまり、認識モデルから出力される１行Ｎ列の行列であるクラス確率に含まれるＮ個の要素は、対象物におけるＮ個のクラスのそれぞれの尤度である。また、この場合、共分散行列はＮ行Ｎ列の行列を用いて表現される。Ｎ個のクラスのそれぞれの尤度、共分散行列を上述の（式１）、（式２）に適用することで、認識モデルにより認識されるべき対象物のクラスがＮ（Ｎ：４以上の整数）である場合におけるクラス間距離を算出することができる。

　図３を再び参照して、混合クラス選定部３０は、低頻度クラスと混合する対象となるクラスである１つの他クラス（第二クラス）を選定する（Ｓ３０）。

　第二クラスの選定について、図７を参照しながら説明する。図７は、図３に示すステップＳ３０の動作（学習データ生成方法）を詳細に示すフローチャートである。

　図７に示すように、混合クラス選定部３０は、低頻度クラスの正答率（認識率）が大きいか否かを判定する（Ｓ３１）。具体的には、混合クラス選定部３０は、低頻度クラスの正答率が閾値より大きいか否かを判定する。

　次に、混合クラス選定部３０は、低頻度クラスの正答率が大きいと判定した場合（Ｓ３１でＹｅｓ）、つまり低頻度クラスの正答率が閾値より大きい場合、複数のクラスのうち低頻度クラスとマハラノビス距離が近いクラスを、低頻度クラスと混合する対象となるクラスに選定し（Ｓ３２）、低頻度クラスの正答率が小さいと判定した場合（Ｓ３１でＮｏ）、つまり低頻度クラスの正答率が閾値以下である場合、複数のクラスのうち低頻度クラスとマハラノビス距離が遠いクラスを、低頻度クラスと混合する対象となるクラスに選定する（Ｓ３３）。マハラノビス距離が近いクラスとは、マハラノビス距離が最も近いクラスであってもよいし、マハラノビス距離が所定値以下のクラスからランダムに選定されたクラスであってもよい。また、マハラノビス距離が遠いクラスとは、ステップＳ３１でＹｅｓと判定された場合に選定されるクラスに比べて相対的にマハラノビス距離が遠いクラスであってもよいし、マハラノビス距離が最も遠いクラスであってもよい。

　なお、低頻度クラスの正答率が大きい場合とは、例えば、クラス確率の分散が小さい（例えば、閾値以下である）場合が想定され、低頻度クラスの正答率が小さい場合とは、例えば、クラス確率の分散が大きい（例えば、閾値より大きい）場合が想定される。

　低頻度クラスと混合されるクラスの選定について、図８Ａ及び図８Ｂを参照しながら説明する。図８Ａ及び図８Ｂは、本実施の形態に係る低頻度クラスと混合されるクラス（第二クラス）の選定方法の各例を示す図である。

　図８Ａ及び図８Ｂでは、３つのクラスｐ、ｑ及びｋがあり、それぞれのクラス確率を三角（△）、四角（□）及び丸（〇）で模式的に示した図である。認識モデルが出力する複数のクラスそれぞれのクラス確率は、複数のクラスの数をＸ（Ｘ：３以上の整数）とすると、Ｘ次元座標上の点として示される。図８Ａ及び図８Ｂの例では、クラスが３つであるので、三角（△）、四角（□）及び丸（〇）は、３次元座標上の点として模式的に示されている。なお、上記で説明したクラス間距離は、このようなＸ次元座標上の２点間の直線距離に基づく距離であり、例えば、ユークリッド距離は、当該直線距離そのものである。

　また、低頻度クラスをクラスｐ（第一クラス）とする。また、第一識別面及び第二識別面は、それぞれのクラスを識別するための境界である。第一識別面及び第二識別面は、学習の結果設定される境界である。

　図８Ａでは、クラスｐのクラス確率の分散つまり、三角（△）に対応するクラス確率の分散が大きいため、クラス確率ｐ１が第一識別面よりクラスｑ側に位置しており、クラス確率ｐ２が第二識別面よりクラスｋ側に位置している。つまり、クラス確率ｐ１に対応する対象物は、クラスｐと認識されるべき対象物であるが、認識モデルでは誤ってクラスｑと認識され、クラス確率ｐ２に対応する対象物は、クラスｐと認識されるべき対象物であるが、認識モデルでは誤ってクラスｋと認識されてしまう。また、クラスｑのクラス確率つまり、丸（〇）に対応するクラス確率は、全て第一識別面よりクラスｑ側に位置しており、認識モデルによりクラスｑのクラス確率に対応する対象物は全てクラスｑと認識され、クラスｋのクラス確率、つまり四角（□）に対応するクラス確率は、全て第二識別面よりクラスｋ側に位置しており、認識モデルによりクラスｋのクラス確率に対応する対象物は全てクラスｋと認識される。このように、クラスｐのクラス確率の分散が大きい場合、クラスｐ（低頻度クラス）と認識すべき対象物の認識精度は他クラスに比べ過度に低精度であり、認識モデルはクラスｐと認識すべき対象物を他クラスであると誤認識しやすくなる場合がある。

　これは、事前に学習された際に用いられた学習データにおいて、低頻度クラスと、低頻度クラスとマハラノビス距離が遠いクラスとの間の画像データが少なく第一識別面及び第二識別面（図８Ａの例では、特に第一識別面）が正確に学習されていないことが原因であると想定される。この場合、混合クラス選定部３０は、低頻度クラスとマハラノビス距離が遠いクラスを、低頻度クラスと混合する対象となるクラス（第二クラス）に選定する。

　また、図８Ｂでは、クラスｐのクラス確率の分散が小さく、クラス確率ｑ１及びｑ２が第一識別面よりクラスｐ側に位置しており、クラス確率ｋ１及びｋ２が第二識別面よりクラスｐ側に位置している。つまり、クラス確率ｑ１、ｑ２に対応する対象物は、クラスｑと認識されるべき対象物であるが、認識モデルでは誤ってクラスｐと認識され、クラス確率ｋ１及びｋ２に対応する対象物は、クラスｋと認識されるべき対象物であるが、認識モデルでは誤ってクラスｐと認識されてしまう。また、クラスｐのクラス確率は、全て第一識別面及び第二識別面の間に位置しており、クラスｐのクラス確率に対応する対象物は全てクラスｐと認識される。このように、クラスｐと認識すべき対象物のクラス確率の分散が小さい場合、クラスｐ（低頻度クラス）と認識すべき対象物の認識精度は他クラスに比べ過度に高精度であるが、認識モデルは他クラスと認識すべき対象物を低頻度クラスであると誤認識しやすくなる場合がある。

　これは、事前に学習された際に用いられた学習データにおいて、低頻度クラスの画像データが類似している画像データであるなどにより、認識モデルにより第一識別面及び第二識別面が正確に学習されていないことが原因であると想定される。この場合、混合クラス選定部３０は、低頻度クラスとマハラノビス距離が近いクラスを、低頻度クラスと混合する対象となるクラス（第二クラス）に選定する。

　図７を再び参照して、混合クラス選定部３０は、選定されたクラスをデータ取得部４０に出力する（Ｓ３４）。具体的には、混合クラス選定部３０は、低頻度クラスと、混合クラス選定部３０により選定された第二クラス（低頻度クラスと混合されるクラス）とをデータ取得部４０に出力する。

　図３を再び参照して、データ取得部４０は、低頻度クラス（第一クラス）及び１つの他クラス（第二クラス）それぞれからデータを抽出する（Ｓ４０）。データ取得部４０は、例えば、低頻度クラス及び１つの他クラスそれぞれの評価データを記憶部５０から読み込む。低頻度クラス及び１つの他クラスそれぞれのデータ数は同数であるが、異なる数であってもよい。

　次に、混合率算出部６０は、低頻度クラス及び１つの他クラスのデータを混合する混合率を決定する（Ｓ５０）。混合率算出部６０は、例えば、予め設定された混合率に決定してもよいし、ランダムに混合率を算出することで混合率を決定してもよい。また、混合率算出部６０は、１つの他クラスの評価データが複数ある場合、１つの他クラスの複数の評価データそれぞれで共通の混合率を決定してもよいし、互いに異なる混合率を決定してもよい。なお、混合率は予め設定されており、混合率算出部６０は、当該混合率を読み出すことで混合率を取得してもよい。

　次に、データ混合部７０及びラベル混合部８０は、データ（画像データ）及びラベルを混合することで学習データを生成する（Ｓ６０）。データ混合部７０は、低頻度クラス及び１つの他クラスそれぞれの画像データを、混合率算出部６０により決定された混合率で重み付け加算を行うことにより、合成画像データを生成する。また、ラベル混合部８０は、２つのラベル（正解ラベル）を、２つの画像データの合成に用いられる混合率と同じ混合率で重み付け加算を行うことにより、合成正解ラベルを生成する。

　データ混合部７０は、１つの他クラスの画像データのそれぞれと、低頻度クラスの画像データとを混合し、ラベル混合部８０は、１つの他クラスのラベルのそれぞれと、低頻度クラスのラベルとを混合することで、追加の学習データを生成する。

　生成された学習データは、学習データ出力部９０により、認識モデルを学習する学習装置等の情報処理装置に出力される。

　学習装置等の情報処理装置は、上記で生成された学習データを用いて認識モデルを再学習することで、認識モデルのパラメータが新たなパラメータに更新され、これにより認識モデルが更新される。これにより、例えば、低頻度クラスの分散が閾値以上である場合、事前の学習時に不足していたデータを補充することができるので、低頻度クラスと、低頻度クラスとマハラノビス距離が遠いクラスとの識別面を、より正確な位置に再設定することが可能となる。図８Ａの場合、マハラノビス距離が遠いクラスとしてクラスｑ（第二クラス）が選定されるので、クラスｐ及びｑの画像データを混合した合成画像データを用いた再学習により第一識別面をより正確な位置に再設定することができる。

　上述の例では、生成された学習データを学習装置等の情報処理装置に出力することを記載したが、これに限定されない。例えば、学習データ生成装置が認識モデルを学習する機能ブロックを有するのであれば、学習データ生成装置の上述の機能ブロックが生成された学習データを用いて認識モデルを再学習してもよい。

　また、例えば、低頻度クラスの分散が閾値未満である場合、再学習により、分離性能が高い識別面を再設定することが可能となる。図８Ｂの場合、マハラノビス距離が近いクラスとしてクラスｋ（第二クラス）が選定されるので、クラスｐ及びｋの画像データを混合した合成画像データを用いた再学習により、第二識別面をより分離性能が高い位置に再設定することができる。

　（その他の実施の形態）
　以上、一つ又は複数の態様に係る学習データ生成方法等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。

　例えば、上記実施の形態では、図４に示すステップＳ１１～Ｓ１５の処理を学習データ生成装置が実行する例について説明したがこれに限定されず、ステップＳ１１～Ｓ１５の処理は外部の装置により実行され、学習データ生成装置は当該外部の装置から推論結果及びそのときに用いた評価データを取得してもよい。

　また、上記実施の形態では、低頻度クラスと混合する対象のクラスが１つである例について説明したがこれに限定されず、例えば、クラス間距離に基づいて２つ以上のクラスが低頻度クラスと混合する対象のクラスとして選定されてもよい。つまり、合成画像データは低頻度クラスの画像データに対して、２つ以上の画像データを混合した画像データであってもよい。合成正解ラベルについても同様である。

　また、上記実施の形態では、図８Ａに示す分布の場合、混合クラス選定部は、低頻度クラスとマハラノビス距離が遠いクラスを、低頻度クラスと混合する対象となるクラスに選定する例について説明したがこれに限定されず、低頻度クラスとマハラノビス距離が近いクラスを、低頻度クラスと混合する対象となるクラスに選定してもよい。また、上記実施の形態では、図８Ｂに示す分布の場合、混合クラス選定部は、低頻度クラスとマハラノビス距離が近いクラスを、低頻度クラスと混合する対象となるクラスに選定する例について説明したがこれに限定されず、低頻度クラスとマハラノビス距離が遠いクラスを、低頻度クラスと混合する対象となるクラスに選定してもよい。

　また、上記実施の形態では、候補クラス集合Ｃ１及びＣ２の両方が生成される例について説明したがこれに限定されず、候補クラス集合Ｃ１及びＣ２の少なくとも一方が生成されればよい。

　また、上記実施の形態の各種閾値は、予め設定され、学習データ生成装置の記憶部（図示しない）に記憶されている。

　また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時（並列）に実行されてもよいし、上記ステップの一部は実行されなくてもよい。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

　また、上記実施の形態に係る学習データ生成装置は、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。学習データ生成装置が複数の装置によって実現される場合、当該学習データ生成装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。学習データ生成装置が複数の装置で実現される場合、当該複数の装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信及び有線通信が組み合わされてもよい。

　また、上記実施の形態で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるＬＳＩとして実現されてもよい。これらは、個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路（専用のプログラムを実行する汎用回路）又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又は、ＬＳＩ内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。

　システムＬＳＩは、複数の処理部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

　また、本開示の一態様は、図３、図４、図６及び図７のいずれかに示される学習データ生成方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。

　また、例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。

　本開示は、認識モデルでの学習に用いられる学習データを生成する装置等に有用である。

　１　　学習データ生成装置
　１０　　低頻度クラス選定部（第一選定部）
　１１　　学習パラメータ読込み部
　１２　　学習モデルパラメータデータベース
　１３　　評価用データ読込み部
　１４　　評価用データベース
　１５　　推論部
　１６　　クラス精度分析部
　１７　　クラス選定部
　２０　　クラス間距離算出部
　３０　　混合クラス選定部（第二選定部）
　４０　　データ取得部
　５０　　記憶部
　６０　　混合率算出部
　７０　　データ混合部
　８０　　ラベル混合部
　９０　　学習データ出力部

Claims

　画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成方法であって、
　前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定し、
　前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出し、
　前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定し、
　選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する
　学習データ生成方法。
　前記複数のクラスのうち、前記認識精度が第一閾値以下であるクラス及び前記認識精度が前記第一閾値より高い第二閾値以上であるクラスの少なくとも一方を候補クラスとして抽出し、
　前記第一クラスは、前記候補クラスの中から選定される
　請求項１に記載の学習データ生成方法。
　前記第一クラスは、前記候補クラスの中からランダムに選定される
　請求項２に記載の学習データ生成方法。
　前記クラス間距離は、前記認識モデルにより出力される前記複数のクラスそれぞれの尤度に基づいて算出される
　請求項１～３のいずれか１項に記載の学習データ生成方法。
　前記認識精度の算出に用いられた評価データのうち前記第一クラスに対応する１以上の第一評価データそれぞれに対する前記尤度を取得し、
　前記１以上の第一評価データそれぞれの前記尤度の分散が第三閾値より大きいか否かを判定し、
　前記分散の判定結果に基づいて、前記クラス間距離の算出に用いる前記第一クラスの前記尤度を決定する
　請求項４に記載の学習データ生成方法。
　前記分散が前記第三閾値より大きい場合、前記１以上の第一評価データのうち認識結果が正解である評価データの前記尤度を用いて前記クラス間距離を算出し、
　前記分散が前記第三閾値以下である場合、前記１以上の第一評価データのうち認識結果が不正解である評価データの前記尤度を用いて前記クラス間距離を算出する
　請求項５に記載の学習データ生成方法。
　前記クラス間距離は、マハラノビス距離、ユークリッド距離、マンハッタン距離又はコサイン類似度である
　請求項４に記載の学習データ生成方法。
　前記第一クラスに対する前記認識モデルの認識結果の正答率を算出し、
　算出された前記正答率と前記クラス間距離とに基づいて、前記２以上の他クラスから前記第二クラスを選定する
　請求項１～３のいずれか１項に記載の学習データ生成方法。
　前記第一クラスの前記正答率が第四閾値より大きい場合、前記２以上の他クラスのうち前記クラス間距離が近いクラスを前記第二クラスとして選定し、
　前記第一クラスの前記正答率が前記第四閾値以下である場合、前記２以上の他クラスのうち前記クラス間距離が遠いクラスを前記第二クラスとして選定する
　請求項８に記載の学習データ生成方法。
　さらに、
　前記認識精度の算出に用いられた画像データ及びラベルを含む評価データの中から、前記第一クラスに対応する１以上の第一評価データ、及び、前記第二クラスに対応する１以上の第二評価データを取得し、
　取得された前記１以上の第一評価データ及び前記第二評価データを混合する混合率を取得し、
　取得された前記混合率に基づいて、前記１以上の第一評価データ及び前記第二評価データを混合することで前記学習データを生成する
　請求項１～３のいずれか１項に記載の学習データ生成方法。
　画像データを入力とし、前記画像データに含まれる対象物のクラスとして複数のクラスのいずれかを出力する認識モデルを学習するための学習データを生成する学習データ生成装置であって、
　前記認識モデルの認識精度に基づいて、前記複数のクラスから第一クラスを選定する第一選定部と、
　前記第一クラスと、前記複数のクラスのうちの２以上の他クラスそれぞれとの距離であるクラス間距離を算出する算出部と、
　前記クラス間距離に基づいて、前記２以上の他クラスの中から前記学習データを生成するための第二クラスを選定する第二選定部と、
　選定された前記第一クラス及び前記第二クラスのそれぞれの画像データ及びラベルを混合することで前記学習データを生成する生成部とを備える
　学習データ生成装置。
　請求項１～３のいずれかに記載の学習データ生成方法をコンピュータに実行させるためのプログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体。