WO2020170803A1 - Augmentation device, augmentation method, and augmentation program - Google Patents

Augmentation device, augmentation method, and augmentation program Download PDF

Info

Publication number
WO2020170803A1
WO2020170803A1 PCT/JP2020/004113 JP2020004113W WO2020170803A1 WO 2020170803 A1 WO2020170803 A1 WO 2020170803A1 JP 2020004113 W JP2020004113 W JP 2020004113W WO 2020170803 A1 WO2020170803 A1 WO 2020170803A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
class
data set
generator
classifier
Prior art date
Application number
PCT/JP2020/004113
Other languages
French (fr)
Japanese (ja)
Inventor
真弥 山口
毅晴 江田
沙那恵 村松
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2020170803A1 publication Critical patent/WO2020170803A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

In the present invention, an augmentation device selects a prescribed dataset from an external dataset on the basis of a matrix calculated from the degree of similarity between a target dataset and the external dataset and from the degree of uniformity of the external dataset. The augmentation device performs learning of a generation model so that when a target class is designated for a generator, the generator generates data that is easily identified by an identifier as being genuine and that is calculated by a classifier so that the probability of belonging to a plurality of external classes is not zero and is uniform. The augmentation device designates a target class for the generator of the learned generation model, and generates data. The augmentation device extracts, from the generated data and as augmentation data, data identified as being fake by the identifier. The augmentation device affixes a target label to the extracted augmentation data.

Description

拡張装置、拡張方法及び拡張プログラムExpansion device, expansion method, and expansion program
 本発明は、拡張装置、拡張方法及び拡張プログラムに関する。 The present invention relates to an expansion device, an expansion method, and an expansion program.
 深層学習モデルにおける学習データの整備は、大きなコストを要する。学習データの整備には、学習データの収集だけでなく、学習データへのラベル等のアノテーションの付加が含まれる。 Preparation of learning data in the deep learning model requires a large cost. The preparation of learning data includes not only the collection of learning data but also the addition of annotations such as labels to the learning data.
 従来、学習データの整備のコストを軽減するための技術として、ルールベースのデータ拡張(Data Augmentation)が知られている。例えば、学習データとして用いられる画像に、反転、拡大縮小、ノイズ付加、回転等の特定のルールにしたがった変更を加えることで、別の学習データを生成する方法が知られている(例えば、非特許文献1又は2を参照)。また、学習データが音声やテキストである場合にも、同様のルールベースのデータ拡張が行われることがある。 Conventionally, rule-based data extension (Data Augmentation) has been known as a technique for reducing the cost of maintaining learning data. For example, a method is known in which another learning data is generated by adding changes to an image used as learning data according to a specific rule such as inversion, scaling, noise addition, rotation, etc. See Patent Document 1 or 2. Also, when the learning data is voice or text, similar rule-based data expansion may be performed.
 しかしながら、従来の技術には、モデルの精度を大きく改善するような高品質な学習データを、データ拡張により効率良く得ることが困難な場合があるという問題がある。具体的には、従来のルールベースのデータ拡張では、学習データの属性のバリエーションを増加させることが難しく、そのことがモデルの精度向上に限界を生じさせている。例えば、非特許文献1及び2に記載のルールベースのデータ拡張では、窓際にいる正面を向いた猫の画像の「窓際」、「猫」及び「正面」をいった属性を変更した画像を生成することは困難である。 However, the conventional technology has a problem that it may be difficult to efficiently obtain high-quality learning data that greatly improves the accuracy of the model by data expansion. Specifically, with conventional rule-based data expansion, it is difficult to increase variations in the attributes of learning data, which limits the improvement of model accuracy. For example, in the rule-based data expansion described in Non-Patent Documents 1 and 2, an image in which the attributes of “front of the window”, “cat”, and “front” of the image of a cat facing the front of the window are changed is generated. Is difficult to do.
 拡張の基になる目的データを大量に用意することは難しい場合が多い。一方で、限られた量の目的データから、なるべくモデルの精度向上に大きく貢献するようなデータを得られることが望ましいが、そのような方法は知られていない。 It is often difficult to prepare a large amount of target data that will be the basis of expansion. On the other hand, it is desirable to obtain data that greatly contributes to the accuracy improvement of the model from a limited amount of target data, but such a method is not known.
 上述した課題を解決し、目的を達成するために、拡張装置は、第1のクラスに属するデータの集合である第1のデータセット及び第2のクラスに属するデータの集合である第2のデータセットとの間の類似度と、前記第2のデータセットに含まれるデータの画一性の度合いとから計算されるメトリクスに基づき、前記第2のデータセットの中から、第3のクラスに属する第3のデータセットを選択する選択部と、指定されたクラスを基にデータを生成する生成器に前記第1のクラスが指定された際に、前記生成器が、識別器によって前記第1のデータセットのデータであると識別されやすく、分類器によって複数の前記第3のクラスに属する確率が0でなくかつ均等になるように計算されるデータを生成するように、前記生成器、前記識別器及び前記分類器を含む生成モデルの学習を行う学習部と、前記学習部による学習が行われた前記生成モデルの前記生成器に、前記第1のクラスを指定することでデータを生成する生成部と、前記生成部によって生成されたデータから、前記識別器によって前記第1のデータセットのデータであると識別されるデータを、拡張用データとして抽出する抽出部と、前記抽出部によって抽出された前記拡張用データに前記第1のクラスに属することを示すラベルを付与する付与部と、を有することを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the expansion device includes a first data set, which is a set of data belonging to a first class, and a second data, which is a set of data belonging to a second class. Belongs to a third class from the second data set based on a metric calculated from the similarity between the second data set and the degree of uniformity of data included in the second data set. When the first class is designated by the selecting unit that selects the third data set and the generator that generates data based on the designated class, the generator causes the first class to be determined by the classifier. The generator, the identifying so as to generate data that is likely to be identified as data of a data set and is calculated by the classifier such that the probabilities of belonging to the plurality of third classes are non-zero and equal. Generating a data by specifying the first class to a learning unit that learns a generative model including a generator and the classifier, and to the generator of the generative model that has been learned by the learning unit And an extraction unit that extracts, from the data generated by the generation unit, data identified as data of the first data set by the identifier as extension data, and an extraction unit that extracts the data. And a assigning unit that assigns a label indicating that the extension data belongs to the first class.
 本発明によれば、モデルの精度を大きく改善するような高品質な学習データを、データ拡張により効率良く得ることができる。 According to the present invention, high-quality learning data that greatly improves the accuracy of the model can be efficiently obtained by data expansion.
図1は、第1の実施形態に係る学習システムについて説明するための図である。FIG. 1 is a diagram for explaining the learning system according to the first embodiment. 図2は、第1の実施形態に係る拡張装置の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of the expansion device according to the first embodiment. 図3は、分類器としての機能を併せ持つ識別器について説明するための図である。FIG. 3 is a diagram for explaining a classifier that also has a function as a classifier. 図4は、外部データに対する学習処理を説明するための図である。FIG. 4 is a diagram for explaining a learning process for external data. 図5は、目的データに対する学習処理を説明するための図である。FIG. 5 is a diagram for explaining the learning process for the target data. 図6は、拡張用データの抽出について説明するための図である。FIG. 6 is a diagram for explaining extraction of extension data. 図7は、拡張済みデータセットについて説明するための図である。FIG. 7 is a diagram for explaining the expanded data set. 図8は、第1の実施形態に係る拡張装置の処理の流れを示すフローチャートである。FIG. 8 is a flowchart showing a processing flow of the expansion device according to the first embodiment. 図9は、第1の実施形態に係る拡張装置のパラメータの更新処理の流れを示すフローチャートである。FIG. 9 is a flowchart showing a flow of parameter update processing of the expansion device according to the first embodiment. 図10は、実験に使用したデータを示す図である。FIG. 10 is a diagram showing data used in the experiment. 図11は、実験の結果を示す図である。FIG. 11 is a diagram showing the results of the experiment. 図12は、実験の結果を示す図である。FIG. 12 is a diagram showing the results of the experiment. 図13は、実験の結果を示す図である。FIG. 13 is a diagram showing the results of the experiment. 図14は、追加実験の条件を示す図である。FIG. 14 is a diagram showing conditions of the additional experiment. 図15は、追加実験の結果を示す図である。FIG. 15 is a diagram showing the result of the additional experiment. 図16は、拡張プログラムを実行するコンピュータの一例を示す図である。FIG. 16 is a diagram illustrating an example of a computer that executes the extension program.
 以下に、本願に係る拡張装置、拡張方法及び拡張プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 Hereinafter, embodiments of the expansion device, the expansion method, and the expansion program according to the present application will be described in detail with reference to the drawings. The present invention is not limited to the embodiments described below.
[第1の実施形態の構成]
 まず、図1を用いて、学習システムについて説明する。図1は、第1の実施形態に係る学習システムについて説明するための図である。図1に示すように、学習システム1は、拡張装置10及び学習装置20を有する。
[Configuration of First Embodiment]
First, the learning system will be described with reference to FIG. FIG. 1 is a diagram for explaining the learning system according to the first embodiment. As shown in FIG. 1, the learning system 1 includes an expansion device 10 and a learning device 20.
 拡張装置10は、外部データセットSを用いて、目的データセットSのデータ拡張を行い、拡張済みデータセットS´genを出力する。また、学習装置20は、拡張済みデータセットS´genを用いて目的モデル21の学習を行う。目的モデル21は、機械学習を行う既知のモデルであってよい。例えば、目的モデル21は、Resnet-152等のクラス分類器である。 The expansion device 10 performs data expansion of the target data set S T using the external data set S O and outputs the expanded data set S′ gen . The learning device 20 also learns the target model 21 using the expanded data set S′ gen . The target model 21 may be a known model that performs machine learning. For example, the objective model 21 is a class classifier such as Resnet-152.
 また、図1の各データセットは、目的モデル21で用いられるラベル付きのデータである。つまり、各データセットは、データとデータが属するクラスを示すラベルとの組み合わせである。例えば、目的モデル21が画像認識のためのモデルである場合、各データセットは、画像データとラベルの組み合わせである。また、目的モデル21は、音声認識モデルであってもよいし、自然言語認識モデルであってもよい。その場合、各データセットは、ラベル付きの音声データやラベル付きのテキストデータである。 Moreover, each data set in FIG. 1 is labeled data used in the target model 21. That is, each data set is a combination of data and a label indicating the class to which the data belongs. For example, when the target model 21 is a model for image recognition, each data set is a combination of image data and a label. The target model 21 may be a voice recognition model or a natural language recognition model. In that case, each data set is voice data with a label or text data with a label.
 ここで、目的データセットSは、目的データXと目的データXに付与された目的ラベルyとの組み合わせであるものとする。また、外部データセットSは、外部データXと外部データXに付与された外部ラベルyとの組み合わせであるものとする。 Here, the target data set S T is assumed to be a combination of the target data X T and the target label y T attached to the target data X T. The external data set S O is assumed to be a combination of the external data X O and the external label y O attached to the external data X O.
 目的ラベルyは、目的モデル21の学習の対象のラベルである。例えば、目的モデル21が画像中の人物を認識するためのモデルである場合、目的ラベルyは、目的データの画像に映っている人物を識別するIDである。また、例えば、目的モデル21が音声からテキストを認識するモデルである場合、目的ラベルyは、目的データの音声を書き起こしたテキストである。 The target label y T is a label to be learned by the target model 21. For example, when the target model 21 is a model for recognizing a person in the image, the target label y T is an ID for identifying the person shown in the image of the target data. Further, for example, when the target model 21 is a model in which text is recognized from voice, the target label y T is a text in which the voice of the target data is transcribed.
 外部データセットSは、目的データセットSを拡張するためのデータセットである。外部データセットSは、目的データセットSと異なるドメインのデータセットであってもよい。ここで、ドメインとは、データセットに固有の特徴であって、データ、ラベル及び生成分布によって表される。例えば、データがX、ラベルがyであるデータセットのドメインは、(X,y,P(X,y))のように表される。 The external data set S O is a data set for extending the target data set S T. The external dataset S O may be a dataset in a domain different from that of the target dataset S T. Here, the domain is a characteristic peculiar to the data set, and is represented by the data, the label, and the generation distribution. For example, a domain of a data set whose data is X 0 and whose label is y 0 is represented as (X 0 , y 0 , P(X 0 , y 0 )).
 ここで、例として、目的モデル21が画像認識モデルであって、学習装置20は、画像からIDが「0002」である人物の画像を認識できるように目的モデル21の学習を行うものとする。この場合、目的データセットSは、ラベル「ID:0002」と、当該人物が映っていることが既知の画像との組み合わせである。また、外部データセットSは、「0002」以外のIDを示すラベルと、当該IDに対応する人物が映っていることが既知の画像との組み合わせである。 Here, as an example, it is assumed that the target model 21 is an image recognition model, and the learning device 20 learns the target model 21 so that the image of the person whose ID is “0002” can be recognized from the image. In this case, the target data set S T is a combination of the label “ID:0002” and an image in which the person is known to be reflected. The external data set S O is a combination of a label indicating an ID other than “0002” and an image in which it is known that the person corresponding to the ID is shown.
 拡張装置10は、目的データセットSのデータが有しない属性を外部データセットSから取り入れた拡張済みデータセットS´genを出力する。これにより、目的データセットSからだけでは得ることができなかったバリエーションのデータを得ることができる。例えば、拡張装置10によれば、目的データセットSに、ある人物の背面が映った画像のみが含まれている場合であっても、当該人物の正面が映った画像を得ることが可能になる。 The expansion device 10 outputs an expanded data set S′ gen in which an attribute that the data of the target data set S T does not have is taken in from the external data set S O. This makes it possible to obtain variation data that could not be obtained from the target data set S T alone. For example, according to the expansion device 10, even when the target data set S T includes only the image of the back of a certain person, it is possible to obtain the image of the front of the person. Become.
 以降、各データセットが画像データとラベルの組み合わせである場合の例を説明する。また、以降の説明では、画像をコンピュータで処理可能な形式で表したデータを、画像データ又は単に画像と呼ぶ。 Hereafter, an example when each data set is a combination of image data and label is explained. In the following description, data representing an image in a computer processable format is referred to as image data or simply an image.
 生成モデル121は、GAN(Generative Adversarial Networks)に基づくモデルである。例えば、生成器G及び識別器Dは、いずれもニューラルネットワークである。生成器Gは、目的クラスのラベルy又は外部クラスのラベルyがノイズzとともに指定されると、指定されたラベルに基づいて画像を生成する。目的クラスは、目的データXが属するクラスである。また、外部クラスは、外部データセットXが属するクラスである。 The generation model 121 is a model based on GAN (Generative Adversarial Networks). For example, both the generator G and the discriminator D are neural networks. When the target class label y T or the outer class label y O is specified together with the noise z, the generator G generates an image based on the specified label. The purpose class is a class to which the purpose data X T belongs. The external class is a class to which the external data set X O belongs.
 また、識別器Dは、生成器Gによって生成された画像が、本物(Real)であるか偽物(Fake)であるかを識別する。例えば、識別器Dには、生成器Gによって生成された画像Xgenと目的データセット及び外部データの画像XT+Oが入力され、2つの画像のうちどちらがXgen(偽物:Fake)であるか、及びどちらがXT+O(本物:Real)であるかを識別する。 The discriminator D discriminates whether the image generated by the generator G is a real product (Real) or a fake product (Fake). For example, the discriminator D receives the image X gen generated by the generator G and the image XT +O of the target data set and the external data, and which of the two images is X gen (fake), And which is XT+O (genuine: Real).
 なお、拡張装置10には、それぞれラベルが異なる複数の外部データセットが入力されてもよい。すなわち、拡張装置10には、外部データXkOとラベルykOを組み合わせた外部データセットSkO(ただし、kO=1,2,…,K)が入力されてもよい。 A plurality of external data sets having different labels may be input to the expansion device 10. That is, the expansion device 10 may be input with an external data set S kO (where kO=1, 2,..., K O ) that is a combination of the external data X kO and the label y kO .
 さらに、第1の実施形態では、識別器Dは分類器としての機能を併せ持つものとする。つまり、識別器Dは、画像が各クラスに属する確率を計算することができる。識別器Dの分類器としての機能の詳細については後述する。 Furthermore, in the first embodiment, the discriminator D also has a function as a classifier. That is, the classifier D can calculate the probability that the image belongs to each class. Details of the function of the discriminator D as a classifier will be described later.
 拡張装置10は、外部データセットSの中から選択した所定のデータセットを用いて生成モデル121の学習を行う。また、拡張装置10は、識別器Dが画像が本物であるか偽物であるかを識別する際の誤差(Adversarial Loss)及び、分類器としての機能に関する誤差(OLSR Loss)が小さくなるように、識別器Dのパラメータを更新することで学習を行う。なお、学習における各パラメータの更新は、例えば誤差逆伝播法(Backpropagation)によって行われる。 The expansion device 10 learns the generative model 121 using a predetermined data set selected from the external data set S O. Further, the expansion device 10 reduces the error (Adversarial Loss) when the discriminator D discriminates whether the image is a genuine image or a fake image, and the error (OLSR Loss) regarding the function as the classifier, Learning is performed by updating the parameters of the discriminator D. Note that updating of each parameter in learning is performed by, for example, an error back propagation method (Backpropagation).
 さらに、拡張装置10は、実際に拡張済みデータセットS´genを出力する際には、目的データセットSのラベルyに基づいて生成器Gが生成した生成データXgenではなく、生成データXgenから抽出したX´genを拡張済みデータセットS´genに含める。 Further, when the expansion device 10 actually outputs the expanded data set S′ gen , the expansion data is not the generation data X gen generated by the generator G based on the label y T of the target data set S T , but the generated data X gen. include X'gen extracted from the X gen to the extended set of data S'gen.
 図2を用いて、拡張装置10の構成を説明する。図2は、第1の実施形態に係る拡張装置の構成例を示す図である。図2に示すように、拡張装置10は、入出力部11、記憶部12及び制御部13を有する。入出力部11は、データの入力の受け付け及びデータの出力を行うためのインタフェースである。また、入出力部11は、外部の装置とデータの通信を行う通信モジュールであってもよい。 The configuration of the expansion device 10 will be described with reference to FIG. FIG. 2 is a diagram illustrating a configuration example of the expansion device according to the first embodiment. As shown in FIG. 2, the expansion device 10 includes an input/output unit 11, a storage unit 12, and a control unit 13. The input/output unit 11 is an interface for receiving data input and outputting data. The input/output unit 11 may be a communication module that communicates data with an external device.
 記憶部12は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部12は、拡張装置10で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部12は、プログラムの実行で用いられる各種情報を記憶する。また、記憶部12は、生成モデル121を記憶する。具体的には、記憶部12は、生成モデル121による各処理で用いられるパラメータを記憶する。 The storage unit 12 is a storage device such as an HDD (Hard Disk Drive), SSD (Solid State Drive), and optical disk. The storage unit 12 may be a rewritable semiconductor memory such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory). The storage unit 12 stores an OS (Operating System) and various programs executed by the expansion device 10. Further, the storage unit 12 stores various information used in executing the program. The storage unit 12 also stores the generation model 121. Specifically, the storage unit 12 stores parameters used in each process by the generative model 121.
 制御部13は、拡張装置10全体を制御する。制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部13は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部13は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部13は、選択部131、学習部132、生成部133、抽出部134及び付与部135を有する。 The control unit 13 controls the entire expansion device 10. The control unit 13 includes, for example, electronic circuits such as CPU (Central Processing Unit), MPU (Micro Processing Unit), and GPU (Graphics Processing Unit), ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array), and the like. It is an integrated circuit. Further, the control unit 13 has an internal memory for storing programs and control data defining various processing procedures, and executes each process using the internal memory. Further, the control unit 13 functions as various processing units by operating various programs. For example, the control unit 13 has a selection unit 131, a learning unit 132, a generation unit 133, an extraction unit 134, and an addition unit 135.
 選択部131は、目的クラスに属するデータの集合である目的データセット及び外部クラスに属するデータの集合である外部データセットとの間の類似度と、外部データセットに含まれるデータの画一性の度合いとから計算されるメトリクスに基づき、外部データセットの中から、所定のデータセットを選択する。なお、選択部131によって選択されたデータセットは第3のデータセットの一例である。また、選択部131によって選択されたデータセットのラベルは、第3のラベルの一例である。 The selection unit 131 determines the similarity between the target data set, which is a set of data belonging to the target class, and the external data set, which is a set of data belonging to the external class, and the uniformity of the data included in the external data set. A predetermined data set is selected from the external data sets based on a metric calculated from the degree. The data set selected by the selection unit 131 is an example of the third data set. The label of the data set selected by the selection unit 131 is an example of the third label.
 選択部131は、各データセットに含まれる画像データの輝度値の統計量を用いて計算された類似度と画一性の度合いとから計算されるメトリクスに基づき、外部データセットの中から選択済み外部データセットを選択することができる。例えば、選択部131は、(1)式によりメトリクスMを計算する。このとき、選択部131は、計算したメトリクスMが閾値以上であるデータセットを選択する。 The selection unit 131 has selected from the external data sets based on the metric calculated from the degree of similarity and the degree of uniformity calculated using the statistical value of the brightness value of the image data included in each data set. External datasets can be selected. For example, the selection unit 131 calculates the metric M by the equation (1). At this time, the selection unit 131 selects a data set whose calculated metric M is equal to or greater than the threshold value.
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
 また、(1)式のFIDは、類似度であり、(2)式により表される(参考:非特許文献9)。μXT及びμXOは、目的データセットに含まれる画像と外部データセットに含まれる画像の輝度値の平均値である。また、ΣXT及びΣXTは、目的データセットの画像と外部データセットの画像の輝度値を表す行列である。FIDは、目的データセットと外部データセットとの類似度が大きいほど小さくなる。 Further, the FID of the expression (1) is the degree of similarity and is represented by the expression (2) (reference: Non-Patent Document 9). μ XT and μ XO are average values of the luminance values of the image included in the target data set and the image included in the external data set. Further, Σ XT and Σ XT are matrices representing the brightness values of the image of the target data set and the image of the external data set. The FID decreases as the degree of similarity between the target data set and the external data set increases.
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 また、(1)式のMS-SSIMは画一性の度合いであり、(3)式により表される(参考:非特許文献10)。I(x,x)は、画像xと画像xの明るさの差が大きいほど大きくなる関数である。c(x,x)は、画像xと画像xのコントラストの差が大きいほど大きくなる関数である。s(x,x)は、画像xと画像xの構造の違いが大きいほど大きくなる関数である。 Further, the MS-SSIM of the formula (1) is the degree of uniformity and is represented by the formula (3) (reference: Non-Patent Document 10). I M (x 1 , x 2 ) is a function that increases as the difference in brightness between the images x 1 and x 2 increases. c M (x 1 , x 2 ) is a function that increases as the difference in contrast between the images x 1 and x 2 increases. s M (x 1 , x 2 ) is a function that increases as the difference in structure between the images x 1 and x 2 increases.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
 次に、学習部132について説明する。なお、学習部132の説明における外部データセット及び外部ラベルは、選択部131によって選択された外部データセット及び当該外部データのラベルを意味するものとする。 Next, the learning unit 132 will be described. Note that the external data set and the external label in the description of the learning unit 132 mean the external data set and the label of the external data selected by the selection unit 131.
 学習部132は、指定されたクラスを基にデータを生成する生成器Gに目的クラスが指定された際に、生成器Gが、識別器Dによって目的データセットのデータであると識別されやすくなるように学習を行う。 The learning unit 132 easily identifies the generator G as the data of the target data set by the classifier D when the target class is specified in the generator G that generates data based on the specified class. To learn.
 ここで、前述の通り、図3に示すように、識別器Dは、分類器としての機能を併せ持つ(参考:非特許文献17)。図3は、分類器としての機能を併せ持つ識別器について説明するための図である。以降の説明では、識別器Dが分類器として機能している場合、識別器Dを分類器Cと呼ぶ場合がある。図3のLAdv.は、識別器Dの識別結果の誤差である。一方、図3のLOLSRは、分類器Cの分類結果の誤差である。なお、OLSRは、Outer Label Smoothing Regularizationの略称である。 Here, as described above, as shown in FIG. 3, the discriminator D also has a function as a classifier (reference: Non-Patent Document 17). FIG. 3 is a diagram for explaining a classifier that also has a function as a classifier. In the following description, when the classifier D functions as a classifier, the classifier D may be referred to as the classifier C. L Adv. Is the error of the discrimination result of the discriminator D. On the other hand, L OLSR in FIG. 3 is an error of the classification result of the classifier C. OLSR is an abbreviation for Outer Label Smoothing Regularization.
 学習部132は、分類器Cによって複数の外部クラスに属する確率が0でなくかつ均等になるように計算されるデータを生成するように、生成器G、識別器D及び分類器Cを含む生成モデルの学習を行う。 The learning unit 132 includes a generator G, a classifier D, and a classifier C so as to generate data calculated by the classifier C such that the probabilities of belonging to a plurality of outer classes are non-zero and even. Train the model.
 図4及び5を用いて、学習部132による学習処理について説明する。図4は、外部データに対する学習処理を説明するための図である。また、図5は、目的データに対する学習処理を説明するための図である。 The learning process by the learning unit 132 will be described with reference to FIGS. 4 and 5. FIG. 4 is a diagram for explaining a learning process for external data. Further, FIG. 5 is a diagram for explaining the learning process for the target data.
 まず、外部データセットに対する学習処理を説明する。図4に示すように、生成器Gは、外部ラベルyがノイズzとともに指定されると、画像データXgenを生成する。また、外部データセットSには、画像データXが含まれる。識別器Dは、画像データXgen及び画像データXについて、本物であるか偽物であるかの識別を行う。そして、学習部132は、本物であるか偽物であるかの二値識別誤差が小さくなるように識別器Dのパラメータを更新し、逆に二値識別誤差が大きくなるように生成器Gのパラメータを更新する。 First, the learning process for an external data set will be described. As shown in FIG. 4, the generator G generates the image data X gen when the external label y O is specified together with the noise z. In addition, the external data set S O includes image data X O. The discriminator D discriminates whether the image data X gen and the image data X O are genuine or counterfeit. Then, the learning unit 132 updates the parameter of the discriminator D so that the binary discrimination error of whether it is a genuine article or a fake one becomes small, and conversely, the parameter of the generator G so that the binary discrimination error becomes large. To update.
 また、分類器Cは、外部ラベルyに含まれる各ラベルykO(k=1,2,…,K)ごとに、外部データXが属している確率を計算する。このとき、学習部132は、(4)式のZを0とおいた式により誤差を計算する。 Further, the classifier C calculates the probability that the external data X O belongs to each label y kO (k O =1, 2,..., K O ) included in the external label y O. At this time, the learning unit 132 calculates the error according to the equation (4) where Z is 0.
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 例えば、図4の例では、k=1がRetrieverクラスを表し、k=2がDachshundクラスを表し、k=KがTerrierクラスを表すものとする。また、画像Xは、Terrierクラス(k=K)の画像であるものとする。このとき、分類器Cは、画像XがRetrieverクラス(k=1)である確率を0.11、画像XがDachshundクラス(k=2)である確率を0.05、画像XがTerrierクラス(k=K)である確率を0.70と計算している。そして、学習部132は、例えば、次回画像Xが入力されたときに、Terrierクラス(k=K)である確率がより大きく計算されるように、生成器Gを含めた生成モデル121全体のパラメータを更新する。つまり、学習部132による学習処理によれば、分類器Cが、外部データセットのデータについては、当該データが属するクラスに属する確率が1になるように計算を行うようになる。 For example, in the example of FIG. 4, k O =1 represents the Retriever class, k O =2 represents the Dachshund class, and k O =K O represents the Terrier class. Further, it is assumed that the image X O is an image of the Terrier class (k O =K O ). At this time, the classifier C calculates the probability that the image X O is the Retriever class (k O =1) is 0.11, the probability that the image X O is the Dachshund class (k O =2) is 0.05, and the image X The probability that O is the Terrier class (k O =K O ) is calculated as 0.70. Then, the learning unit 132 includes, for example, the generation model 121 including the generator G so that the probability of being the Terrier class (k O =K O ) is calculated to be larger when the next image X O is input. Update the whole parameter. That is, according to the learning process performed by the learning unit 132, the classifier C calculates the data of the external data set so that the probability of belonging to the class to which the data belongs is 1.
 次に、目的データセットに対する学習処理を説明する。図5に示すように、生成器Gは、目的ラベルyがノイズzとともに指定されると、画像データXgenを生成する。また、目的データセットSには、画像データXが含まれる。識別器Dは、画像データXgen及び画像データXについて、本物であるか偽物であるかの識別を行う。そして、学習部132は、本物であるか偽物であるかの二値識別誤差が小さくなるように識別器Dのパラメータを更新し、逆に二値識別誤差が大きくなるように生成器Gを更新する。 Next, the learning process for the target data set will be described. As shown in FIG. 5, when the target label y T is specified together with the noise z, the generator G generates the image data X gen . Further, the target data set S T includes the image data X T. The discriminator D discriminates whether the image data X gen and the image data X T are genuine or counterfeit. Then, the learning unit 132 updates the parameter of the discriminator D so that the binary discrimination error between the genuine and the fake is small, and conversely updates the generator G so that the binary discrimination error is large. To do.
 また、分類器Cは、外部ラベルyに含まれる各ラベルykO(k=1,2,…,K)ごとに、外部データXが属している確率を計算する。このとき、学習部132は、(4)式のZを1とおいた式により誤差を計算する。 Further, the classifier C calculates the probability that the external data X T belongs to each label y kO (k O =1, 2,..., K O ) included in the external label y O. At this time, the learning unit 132 calculates the error according to the equation (4) where Z is 1.
 例えば、図5の例では、k=1がRetrieverクラスを表し、k=2がDachshundクラスを表し、k=KがTerrierクラスを表すものとする。また、画像Xは、k=1からKまでのいずれのクラスにも属さないものとする。このとき、分類器Cは、画像XがRetrieverクラス(k=1)である確率を0.2、画像XがDachshundクラス(k=2)である確率を0.14、画像XがTerrierクラス(k=K)である確率を0.11と計算している。 For example, in the example of FIG. 5, k O =1 represents the Retriever class, k O =2 represents the Dachshund class, and k O =K O represents the Terrier class. Further, the image X T does not belong to any class from k O =1 to K O. In this case, the classifier C, the image X T is Retriever class (k O = 1) 0.2 the probability is, the image X T is the probability that Dachshund class (k O = 2) 0.14, image X The probability that T is the Terrier class (k O =K O ) is calculated as 0.11.
 ここで、画像Xは、k=1からKまでのいずれのクラスにも属さないため、一般的な分類器では、計算される確率が0になるように学習が行われると考えられる。これに対し、学習部132は、例えば、次回画像Xが入力されたときに、k=1からKまでの各クラスである確率がいずれも1/Kと計算されるように、生成器Gを含めた生成モデル121全体のパラメータを更新する。つまり、学習部132による学習処理によれば、分類器Cが、目的データセットのデータについては、外部クラスのそれぞれに属する確率が、外部クラスに含まれるクラス数の逆数になるように計算を行うようになる。 Here, since the image X T does not belong to any class from k O =1 to K O , it is considered that a general classifier performs learning so that the calculated probability becomes 0. .. On the other hand, the learning unit 132 calculates, for example, that the probability that each class is from k O =1 to K O is 1/K O when the next image X T is input, The parameters of the entire generative model 121 including the generator G are updated. That is, according to the learning process performed by the learning unit 132, the classifier C calculates the data of the target data set so that the probability of belonging to each outer class is the reciprocal of the number of classes included in the outer class. Like
 ここで、生成器Gに指定されるラベルは各クラスの固有表現である。一方、ノイズはクラスに共通する共通表現である。例えば、ラベルが動物の種類を表す場合、画像に写る動物の種類はラベルによって決定され、画像の背景及び姿勢等はノイズにより決定されることが考えられる。このため、例えば、「犬」を表すラベル指定場合と「猫」を表すラベルを指定した場合とで、ノイズが共通であれば、それぞれの場合に生成器Gは、犬の画像と、当該犬の画像と背景及び姿勢が共通する猫の画像を生成することが考えられる。 Here, the label specified for the generator G is a unique expression of each class. On the other hand, noise is a common expression common to all classes. For example, when the label represents the type of animal, it is considered that the type of animal shown in the image is determined by the label, and the background and posture of the image are determined by noise. Therefore, for example, if noise is common between the case of specifying a label indicating "dog" and the case of specifying a label indicating "cat", in each case, the generator G determines the image of the dog and the dog. It is conceivable to generate an image of a cat having the same background and posture as the image of.
 しかしながら、実際には、生成器Gは、ノイズが共通であっても、例えば「屋外で左を向いて座っている犬の画像」と「屋内で左を向いて座っている猫の画像」とを生成する場合がある。これは、画像の背景が屋外であるか屋内であるかを決定する情報が、ノイズだけでなく、ラベルそのものにも含まれているためである。そこで、学習部132は、目的ラベルと異なるラベルからも、生成するデータの品質を上げるための有益な情報を得るために、上記のように分類器Cの学習を行う。 However, in reality, even if the generator G has common noise, for example, “an image of a dog sitting outdoors facing left” and “an image of a cat sitting indoors facing left””. May be generated. This is because the information that determines whether the background of the image is outdoors or indoors is included not only in the noise but also in the label itself. Therefore, the learning unit 132 performs the learning of the classifier C as described above in order to obtain useful information for improving the quality of generated data even from a label different from the target label.
 これにより、ノイズを変化させつつラベル「犬」を指定した場合に、生成器Gが、従来は生成できなかった「屋内で左を向いて座っている犬の画像」を生成できるようになることが考えられる。これにより、生成器Gは多様なデータを生成できるようになるため、拡張用データの品質が向上する。 As a result, when the label “dog” is designated while changing the noise, the generator G can generate “an image of a dog sitting facing left indoors” that could not be generated conventionally. Is possible. As a result, the generator G can generate various kinds of data, so that the quality of the extension data is improved.
 生成部133は、学習部132による学習が行われた生成モデルの生成器Gに、目的クラスを指定することでデータを生成する。このとき、生成部133は、目的クラスとともにノイズを指定する。例えば、ノイズは、N(0,1)の正規分布にしたがって生成される値であってもよい。 The generation unit 133 generates data by designating the target class in the generator G of the generation model learned by the learning unit 132. At this time, the generation unit 133 specifies noise together with the target class. For example, the noise may be a value generated according to a normal distribution of N(0,1).
 図6に示すように、抽出部134は、生成部133によって生成されたデータから、識別器Dによって目的データセットのデータ(Good)であると識別されるデータを、拡張用データX´genとして抽出する。図6は、拡張用データの抽出について説明するための図である。生成器Gは、学習済みであったとしても、識別器Dによって偽物である(Bad)と識別されるデータを生成することが考えられる。そこで、抽出部134は、例えばDRS(Discriminator Rejection Sampling)を使って拡張用データを抽出する(参考:非特許文献13)。 As illustrated in FIG. 6, the extraction unit 134 sets, as the extension data X′ gen , the data identified by the identifier D as the data (Good) of the target data set from the data generated by the generation unit 133. Extract. FIG. 6 is a diagram for explaining extraction of extension data. It is conceivable that the generator G may generate data that is discriminated as an imitation (Bad) by the discriminator D even if it has been learned. Therefore, the extraction unit 134 extracts the extension data by using, for example, DRS (Discriminator Rejection Sampling) (reference: Non-Patent Document 13).
 さらに、抽出部134は、さらに、拡張用データから、目的データセットからのユークリッド距離が所定値以上であるデータを除外する。例えば、抽出部134は、抽出した拡張用データの画像の特徴ベクトルと目的データセットの画像の特徴ベクトルとのユークリッド距離が閾値以上である場合に、当該拡張用データを除外する。 Further, the extraction unit 134 further excludes, from the extension data, data whose Euclidean distance from the target data set is a predetermined value or more. For example, when the Euclidean distance between the feature vector of the extracted image of the extension data and the feature vector of the image of the target data set is equal to or greater than the threshold value, the extraction unit 134 excludes the extension data.
 付与部135は、抽出部134によって抽出された拡張用データに目的クラスに属することを示すラベルを付与する。図7は、拡張済みデータセットについて説明するための図である。図7に示すように、拡張済みデータセットS´は、目的データXと拡張用データX´genに目的ラベルyを付したものである。 The assigning unit 135 assigns a label indicating that it belongs to the target class to the extension data extracted by the extracting unit 134. FIG. 7 is a diagram for explaining the expanded data set. As shown in FIG. 7, the expanded data set S′ T is obtained by adding a target label y T to the target data X T and the expansion data X′ gen .
[第1の実施形態の処理]
 図8を用いて、拡張装置10の処理の流れについて説明する。図8は、第1の実施形態に係る拡張装置の処理の流れを示すフローチャートである。図8に示すように、まず、拡張装置10は、目的データセット及び外部データセットの入力を受け付ける(ステップS11)。次に、拡張装置10は、データセット間の類似度と外部データセット内の画一性の度合いとに基づくメトリクスによって、外部データセットを評価し所定のデータセットを選択する(ステップS12)。
[Processing of First Embodiment]
The process flow of the expansion device 10 will be described with reference to FIG. FIG. 8 is a flowchart showing a processing flow of the expansion device according to the first embodiment. As shown in FIG. 8, first, the expansion device 10 receives an input of a target data set and an external data set (step S11). Next, the expansion device 10 evaluates the external data set by a metric based on the similarity between the data sets and the degree of uniformity within the external data set, and selects a predetermined data set (step S12).
 そして、拡張装置10は、生成モデルを用いて、目的データセット及び外部データセットから画像を生成する(ステップS13)。このとき、拡張装置10は、目的ラベルと外部ラベルをノイズとともに生成モデルに指定する。ここで、拡張装置10は、生成した画像を基に生成モデルのパラメータを更新する(ステップS14)。ステップS14のパラメータ更新処理(学習処理)については、後に図9を用いて説明する。 Then, the expansion device 10 uses the generation model to generate an image from the target data set and the external data set (step S13). At this time, the expansion device 10 specifies the target label and the external label together with noise in the generation model. Here, the expansion device 10 updates the parameters of the generation model based on the generated image (step S14). The parameter updating process (learning process) in step S14 will be described later with reference to FIG.
 その後、拡張装置10は、生成モデルに目的データセットのラベルを指定し(ステップS15)、指定したラベルを基に画像を生成する(ステップS16)。拡張装置10は、生成した画像から拡張用の画像を抽出する(ステップS17)。このとき、拡張装置10は、生成モデルの識別器の識別基準にしたがって拡張用の画像を抽出することができる。 After that, the expansion device 10 specifies the label of the target data set in the generation model (step S15), and generates an image based on the specified label (step S16). The expansion device 10 extracts an image for expansion from the generated image (step S17). At this time, the expansion device 10 can extract the image for expansion according to the identification criterion of the identifier of the generation model.
 そして、拡張装置10は、目的データセットの画像と拡張用画像を統合し、目的データセットのラベルを付与する(ステップS18)。さらに、拡張装置10は、目的ラベルを付与した拡張済みデータセットを出力し(ステップS19)、学習装置20に受け渡す。 Then, the expansion device 10 integrates the image of the target data set and the image for expansion and gives the label of the target data set (step S18). Further, the expansion device 10 outputs the expanded data set to which the target label has been added (step S19) and transfers it to the learning device 20.
 図9を用いて、ステップ14のパラメータの更新処理を説明する。図9は、第1の実施形態に係る拡張装置のパラメータの更新処理の流れを示すフローチャートである。図9に示すように、まず、拡張装置10は、二値判定誤差を基に生成モデル121のパラメータを更新する(ステップS141)。 The parameter updating process in step 14 will be described with reference to FIG. FIG. 9 is a flowchart showing a flow of parameter update processing of the expansion device according to the first embodiment. As shown in FIG. 9, the expansion device 10 first updates the parameters of the generative model 121 based on the binary determination error (step S141).
 次に、拡張装置10は、未選択のラベルを選択する(ステップS142)。拡張装置10は、選択したラベルが目的ラベルである場合(ステップS143、目的ラベル)、ラベルが平滑化されるようにパラメータを更新する(ステップS144)。つまり、拡張装置10は、分類器Cによって計算される確率であって、目的データが各外部クラスに分類される確率が、いずれも1/K(Kは外部クラス数)となるように生成モデル121のパラメータを更新する(ステップS144)。 Next, the expansion device 10 selects an unselected label (step S142). When the selected label is the target label (step S143, target label), the expansion device 10 updates the parameter so that the label is smoothed (step S144). That is, the expansion device 10 is a generation model such that the probability calculated by the classifier C and the probability that the target data is classified into each outer class is 1/K (K is the number of outer classes). The parameters of 121 are updated (step S144).
 一方、選択したラベルが外部ラベルである場合(ステップS143、外部ラベル)、外部クラスを正しく分類するように生成モデル121のパラメータを更新する(ステップS145)。 On the other hand, when the selected label is the external label (step S143, external label), the parameters of the generated model 121 are updated so that the external class is correctly classified (step S145).
 未選択のラベルがある場合(ステップS146、Yes)、拡張装置10は、ステップS142に戻り処理を繰り返す。一方、未選択のラベルがない場合(ステップS146、No)、拡張装置10はパラメータ更新処理を終了する。 If there is an unselected label (step S146, Yes), the expansion device 10 returns to step S142 and repeats the processing. On the other hand, when there is no unselected label (step S146, No), the expansion device 10 ends the parameter updating process.
[第1の実施形態の効果]
 これまで説明してきたように、拡張装置10は、目的クラスに属するデータの集合である目的データセット及び外部クラスに属するデータの集合である外部データセットとの間の類似度と、外部データセットに含まれるデータの画一性の度合いとから計算されるメトリクスに基づき、外部データセットの中から、所定のデータセットを選択する。拡張装置10は、指定されたクラスを基にデータを生成する生成器Gに目的クラスが指定された際に、生成器Gが、識別器Dによって目的データセットのデータであると識別されやすく、分類器Cによって複数の選択済み外部クラスに属する確率が0でなくかつ均等になるように計算されるデータを生成するように、生成器G、識別器D及び分類器Cを含む生成モデルの学習を行う。拡張装置10は、学習が行われた生成モデルの生成器Gに、目的クラスを指定することでデータを生成する。拡張装置10は、生成されたデータから、識別器Dによって目的データセットのデータであると識別されるデータを、拡張用データとして抽出する。拡張装置10は、抽出された拡張用データに目的クラスに属することを示すラベルを付与する。このように、拡張装置10は、入力される外部データセットを所定の基準であらかじめ選択し、外部データセットから得られる有益な情報が失われないように学習を行い、生成したデータを識別器の基準で抽出する。このため、第1の実施形態によれば、モデルの精度を大きく改善するような高品質な学習データを、データ拡張により効率良く得ることができる。
[Effects of First Embodiment]
As described above, the extension device 10 determines the similarity between the target data set, which is a set of data belonging to the target class, and the external data set, which is a set of data belonging to the external class, and the external data set. A predetermined data set is selected from the external data sets based on a metric calculated from the degree of uniformity of the included data. The extension device 10 easily identifies the generator G as the data of the target data set by the discriminator D when the target class is designated in the generator G that generates data based on the designated class. Learning a generation model including a generator G, a classifier D, and a classifier C so as to generate data calculated by the classifier C such that the probabilities of belonging to a plurality of selected outer classes are non-zero and equal. I do. The expansion device 10 generates data by designating a target class to the generator G of the learned generation model. The expansion device 10 extracts, from the generated data, the data identified as the data of the target data set by the identifier D as the extension data. The extension device 10 adds a label indicating that it belongs to the target class to the extracted extension data. In this way, the expansion device 10 preselects an input external data set according to a predetermined criterion, performs learning so that useful information obtained from the external data set is not lost, and generates the generated data of the discriminator. Extract by standard. Therefore, according to the first embodiment, it is possible to efficiently obtain high-quality learning data that greatly improves the accuracy of the model by data expansion.
 拡張装置10は、各データセットに含まれる画像データの輝度値の統計量を用いて計算された類似度と画一性の度合いとから計算されるメトリクスに基づき、外部データセットの中から選択済み外部データセットを選択する。これにより、学習データの品質向上に寄与しないデータをあらかじめ除外し、学習用データの品質を向上させることができる。 The expansion device 10 has already selected from the external data sets based on the metric calculated from the degree of similarity and the uniformity calculated using the statistic of the brightness value of the image data included in each data set. Select an external dataset. As a result, data that does not contribute to improving the quality of learning data can be excluded in advance, and the quality of learning data can be improved.
 拡張装置10は、分類器Cが、目的データセットのデータについては、選択した外部データセットの外部クラスのそれぞれに属する確率が、選択済み外部クラスに含まれるクラス数の逆数になるように計算を行い、外部データセットのデータについては、当該データが属するクラスに属する確率が1になるように計算を行う。これにより、ラベルに含まれる有益な情報を持つ学習データの生成が可能になる。 The expansion device 10 performs a calculation so that the classifier C, with respect to the data of the target data set, has the probability of belonging to each of the outer classes of the selected outer data set to be the reciprocal of the number of classes included in the selected outer class. Then, the data of the external data set is calculated so that the probability of belonging to the class to which the data belongs is 1. This makes it possible to generate learning data having useful information included in the label.
 拡張装置10は、さらに、拡張用データから、目的データセットからのユークリッド距離が所定値以上であるデータを除外する。これにより、拡張用データから外れ値を除外することができ、学習用データの品質を向上させることができる。 The extension device 10 further excludes, from the extension data, data whose Euclidean distance from the target data set is a predetermined value or more. As a result, outliers can be excluded from the extension data, and the quality of the learning data can be improved.
[実験結果]
 ここで、従来の技術と実施形態を比較するために行った実験について説明する。実験では、外部データセットとして、図10に示すデータセットのそれぞれから5000点ずつデータを取得したものを使用した。図10は、実験に使用したデータを示す図である。そして、選択部131が外部データセットを選択するメトリクスの閾値を変化させて、目的モデル21の精度(Top-1 Accuracy)と拡張済みデータセットのFIDを比較した。
[Experimental result]
Here, an experiment conducted to compare the conventional technique with the embodiment will be described. In the experiment, as the external data set, data obtained by collecting 5000 points from each of the data sets shown in FIG. 10 was used. FIG. 10 is a diagram showing data used in the experiment. Then, the selection unit 131 changed the threshold value of the metric for selecting the external data set, and compared the accuracy (Top-1 Accuracy) of the target model 21 with the FID of the expanded data set.
 その結果、図11に示すように、横軸に示すメトリクスの閾値を大きくするにしたがい、拡張済みデータセットのFIDは小さくなった。図11は、実験の結果を示す図である。つまり、メトリクスの閾値が大きくなるにしたがい、拡張済みデータセットと目的データセットとの類似度が大きくなった。このため、メトリクスによるデータの選択が学習用データの品質を向上させているといえる。 As a result, as shown in FIG. 11, the FID of the expanded data set decreased as the threshold value of the metrics on the horizontal axis increased. FIG. 11 is a diagram showing the results of the experiment. In other words, the similarity between the expanded data set and the target data set increased as the metric threshold increased. Therefore, it can be said that the selection of data by the metrics improves the quality of the learning data.
 また、図12に示すように、横軸に示すメトリクスの閾値を大きくするにしたがい、目的モデル21の精度(Acc.)が大きくなった。図12は、実験の結果を示す図である。このため、メトリクスによるデータの選択が、学習用データの品質を向上させ、その結果目的モデル21の精度を向上させているといえる。 Also, as shown in FIG. 12, the accuracy (Acc.) of the target model 21 increased as the threshold value of the metrics shown on the horizontal axis increased. FIG. 12 is a diagram showing the results of the experiment. Therefore, it can be said that the selection of the data by the metrics improves the quality of the learning data and, as a result, the accuracy of the target model 21.
 また、図13に示すように、学習部132による、分類器Cが計算する各外部クラスに属する確率の平滑化(OLSR)、及び抽出部134による識別器Dの基準を利用したデータ抽出(DRS)を取り入れるにしたがい、目的モデル21の精度と拡張済みデータセットのFIDは良くなっていった。図13は、実験の結果を示す図である。なお、Baselineは従来のルールベースのデータ拡張手法である。 As shown in FIG. 13, the learning unit 132 smoothes the probabilities belonging to each outer class calculated by the classifier C (OLSR), and the extraction unit 134 extracts data using the criterion of the discriminator D (DRS). ), the accuracy of the target model 21 and the FID of the expanded data set improved. FIG. 13 is a diagram showing the results of the experiment. Baseline is a conventional rule-based data extension method.
 また、追加実験として、目的データを1/10に削減してBaseline及び第1の実施形態の手法を適用した場合と、目的データを削減せずに従来手法を適用した場合の比較を行った。図14は、追加実験の条件を示す図である。 Further, as an additional experiment, a comparison was made between the case where the target data was reduced to 1/10 and the method of Baseline and the first embodiment was applied, and the case where the conventional method was applied without reducing the target data. FIG. 14 is a diagram showing conditions of the additional experiment.
 また、図15は、追加実験の結果を示す図である。図15に示すように、第1の実施形態の手法では、目的データを1/10に削減したとしても、目的データを削減しなかった場合の従来の手法に近い精度が得られた。 Further, FIG. 15 is a diagram showing the result of the additional experiment. As shown in FIG. 15, in the method of the first embodiment, even if the target data is reduced to 1/10, the accuracy close to that of the conventional method when the target data is not reduced is obtained.
[その他の実施形態]
 上記の実施形態では、目的モデル21の学習機能は、拡張装置10とは異なる学習装置20に備えられていた。一方で、拡張装置10に、拡張済みデータセットS´genを目的モデル21に学習させる目的モデル学習部が備えられていてもよい。これにより、拡張装置10は、装置間のデータ転送によるリソースの消費を抑え、データ拡張及び目的モデルの学習を、一連の処理として効率良く実行することができる。
[Other Embodiments]
In the above embodiment, the learning function of the objective model 21 is provided in the learning device 20 different from the expansion device 10. On the other hand, the extension device 10 may be provided with an objective model learning unit that causes the objective model 21 to learn the extended data set S′ gen . As a result, the expansion device 10 can suppress resource consumption due to data transfer between the devices, and efficiently execute data expansion and learning of the target model as a series of processes.
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
In addition, each constituent element of each illustrated device is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of the device may be functionally or physically distributed in arbitrary units according to various loads or usage conditions, or It can be integrated and configured. Furthermore, all or arbitrary parts of the processing functions performed by each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by a wired logic.
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the respective processes described in the present embodiment, all or part of the processes described as being automatically performed may be manually performed, or the processes described as being manually performed may be performed. All or part of the process can be automatically performed by a known method. In addition, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above-mentioned documents and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
 一実施形態として、拡張装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のデータ拡張を実行する拡張プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の拡張プログラムを情報処理装置に実行させることにより、情報処理装置を拡張装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
As an embodiment, the expansion device 10 can be implemented by installing an expansion program for executing the above data expansion as package software or online software in a desired computer. For example, the information processing apparatus can be caused to function as the expansion apparatus 10 by causing the information processing apparatus to execute the above-described expansion program. The information processing device includes a desktop or notebook personal computer. Further, in addition to the above, the information processing apparatus includes in its category a mobile communication terminal such as a smartphone, a mobile phone or a PHS (Personal Handyphone System), and a slate terminal such as a PDA (Personal Digital Assistant).
 また、拡張装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のデータ拡張に関するサービスを提供する拡張サーバ装置として実装することもできる。例えば、拡張サーバ装置は、目的データを入力とし、拡張済みデータを出力とする拡張サービスを提供するサーバ装置として実装される。この場合、拡張サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のデータ拡張に関するサービスを提供するクラウドとして実装することとしてもかまわない。 Also, the expansion device 10 can be implemented as a terminal device used by a user as a client and as an expansion server device that provides the client with the service related to the above data expansion. For example, the extended server device is implemented as a server device that provides an extended service in which target data is input and extended data is output. In this case, the expansion server device may be implemented as a Web server, or may be implemented as a cloud that provides the above-mentioned service related to data expansion by outsourcing.
 図16は、拡張プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 16 is a diagram illustrating an example of a computer that executes an extension program. The computer 1000 has, for example, a memory 1010 and a CPU 1020. The computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. The disk drive interface 1040 is connected to the disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120. The video adapter 1060 is connected to the display 1130, for example.
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、拡張装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、拡張装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。 The hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the program that defines each process of the expansion device 10 is implemented as the program module 1093 in which the code executable by the computer is described. The program module 1093 is stored in the hard disk drive 1090, for example. For example, a program module 1093 for executing the same processing as the functional configuration of the expansion device 10 is stored in the hard disk drive 1090. The hard disk drive 1090 may be replaced by SSD.
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。 Further, the setting data used in the processing of the above-described embodiment is stored as the program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 or the hard disk drive 1090 into the RAM 1012 as necessary, and executes the processing of the above-described embodiment.
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
 10 拡張装置
 11 入出力部
 12 記憶部
 13 制御部
 20 学習装置
 21 目的モデル
 121 生成モデル
 131 選択部
 132 学習部
 133 生成部
 134 抽出部
 135 付与部
10 expansion device 11 input/output unit 12 storage unit 13 control unit 20 learning device 21 target model 121 generation model 131 selection unit 132 learning unit 133 generation unit 134 extraction unit 135 addition unit

Claims (6)

  1.  第1のクラスに属するデータの集合である第1のデータセット及び第2のクラスに属するデータの集合である第2のデータセットとの間の類似度と、前記第2のデータセットに含まれるデータの画一性の度合いとから計算されるメトリクスに基づき、前記第2のデータセットの中から、第3のクラスに属する第3のデータセットを選択する選択部と、
     指定されたクラスを基にデータを生成する生成器に前記第1のクラスが指定された際に、前記生成器が、識別器によって前記第1のデータセットのデータであると識別されやすく、分類器によって複数の前記第3のクラスに属する確率が0でなくかつ均等になるように計算されるデータを生成するように、前記生成器、前記識別器及び前記分類器を含む生成モデルの学習を行う学習部と、
     前記学習部による学習が行われた前記生成モデルの前記生成器に、前記第1のクラスを指定することでデータを生成する生成部と、
     前記生成部によって生成されたデータから、前記識別器によって前記第1のデータセットのデータであると識別されるデータを、拡張用データとして抽出する抽出部と、
     前記抽出部によって抽出された前記拡張用データに前記第1のクラスに属することを示すラベルを付与する付与部と、
     を有することを特徴とする拡張装置。
    The similarity between a first data set, which is a set of data belonging to the first class, and a second data set, which is a set of data belonging to the second class, and the second data set are included. A selection unit that selects a third data set belonging to a third class from the second data set based on a metric calculated from the uniformity of the data;
    When the first class is specified to the generator that generates data based on the specified class, the generator is likely to be identified as the data of the first data set by the classifier, and is classified. Training a generative model including the generator, the classifier, and the classifier so as to generate data in which the probability that the probability of belonging to the plurality of third classes is non-zero and equal A learning department to do,
    A generator that generates data by designating the first class to the generator of the generative model that has been learned by the learning unit;
    An extraction unit that extracts, from the data generated by the generation unit, data identified as data of the first data set by the identifier as extension data;
    An assigning unit that assigns a label indicating that the extension data extracted by the extracting unit belongs to the first class,
    An expansion device comprising:
  2.  前記選択部は、各データセットに含まれる画像データの輝度値の統計量を用いて計算された前記類似度と前記画一性の度合いとから計算されるメトリクスに基づき、前記第2のデータセットの中から前記第3のデータセットを選択することを特徴とする請求項1に記載の拡張装置。 The selection unit may include the second data set based on a metric calculated from the degree of similarity and the degree of uniformity calculated using a statistic of luminance values of image data included in each data set. The expansion device according to claim 1, wherein the third data set is selected from among the following.
  3.  前記学習部は、
     前記分類器が、前記第1のデータセットのデータについては、前記第3のクラスのそれぞれに属する確率が、前記第3のクラスに含まれるクラス数の逆数になるように計算を行い、前記第3のデータセットのデータについては、当該データが属するクラスに属する確率が1になるように計算を行う、
     ように前記生成モデルの学習を行うことを特徴とする請求項1に記載の拡張装置。
    The learning unit is
    For the data of the first data set, the classifier performs a calculation such that the probability of belonging to each of the third classes is the reciprocal of the number of classes included in the third class, For the data of the data set of 3, the calculation is performed so that the probability of belonging to the class to which the data belongs is 1.
    The expansion device according to claim 1, wherein the generative model is learned as described above.
  4.  前記抽出部は、さらに、前記拡張用データから、前記第1のデータセットからのユークリッド距離が所定値以上であるデータを除外することを特徴とする請求項1に記載の拡張装置。 The expansion device according to claim 1, wherein the extraction unit further excludes, from the expansion data, data whose Euclidean distance from the first data set is a predetermined value or more.
  5.  コンピュータによって実行される拡張方法であって、
     第1のクラスに属するデータの集合である第1のデータセット及び第2のクラスに属するデータの集合である第2のデータセットとの間の類似度と、前記第2のデータセットに含まれるデータの画一性の度合いとから計算されるメトリクスに基づき、前記第2のデータセットの中から、第3のクラスに属する第3のデータセットを選択する選択工程と、
     指定されたクラスを基にデータを生成する生成器に前記第1のクラスが指定された際に、前記生成器が、識別器によって前記第1のデータセットのデータであると識別されやすく、分類器によって複数の前記第3のクラスに属する確率が0でなくかつ均等になるように計算されるデータを生成するように、前記生成器、前記識別器及び前記分類器を含む生成モデルの学習を行う学習工程と、
     前記学習工程による学習が行われた前記生成モデルの前記生成器に、前記第1のクラスを指定することでデータを生成する生成工程と、
     前記生成工程によって生成されたデータから、前記識別器によって前記第1のデータセットのデータであると識別されるデータを、拡張用データとして抽出する抽出工程と、
     前記抽出工程によって抽出された前記拡張用データに前記第1のクラスに属することを示すラベルを付与する付与工程と、
     を含むことを特徴とする拡張方法。
    An expansion method performed by a computer,
    The similarity between a first data set, which is a set of data belonging to the first class, and a second data set, which is a set of data belonging to the second class, and the second data set are included. A selection step of selecting a third data set belonging to a third class from the second data set based on a metric calculated from the uniformity of the data;
    When the first class is specified to the generator that generates data based on the specified class, the generator is likely to be identified as the data of the first data set by the classifier, and is classified. Training a generative model including the generator, the classifier, and the classifier so as to generate data calculated so that the probabilities belonging to the plurality of third classes are non-zero and equal by the classifier. The learning process to perform,
    A generation step of generating data by designating the first class to the generator of the generation model that has been learned by the learning step;
    An extracting step of extracting, from the data generated by the generating step, the data identified as the data of the first data set by the identifier as extension data;
    An assigning step of assigning a label indicating that it belongs to the first class to the extension data extracted by the extracting step;
    An expansion method comprising:
  6.  コンピュータを、請求項1から4のいずれか1項に記載の拡張装置として機能させるための拡張プログラム。 An expansion program for causing a computer to function as the expansion device according to any one of claims 1 to 4.
PCT/JP2020/004113 2019-02-20 2020-02-04 Augmentation device, augmentation method, and augmentation program WO2020170803A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019028851A JP2020135485A (en) 2019-02-20 2019-02-20 Expansion apparatus, expansion method, and expansion program
JP2019-028851 2019-02-20

Publications (1)

Publication Number Publication Date
WO2020170803A1 true WO2020170803A1 (en) 2020-08-27

Family

ID=72144650

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004113 WO2020170803A1 (en) 2019-02-20 2020-02-04 Augmentation device, augmentation method, and augmentation program

Country Status (2)

Country Link
JP (1) JP2020135485A (en)
WO (1) WO2020170803A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464301A (en) * 2017-08-07 2017-12-12 青岛松立软件信息技术股份有限公司 A kind of EXIT toll collection system and its charge management method
WO2022249415A1 (en) * 2021-05-27 2022-12-01 日本電信電話株式会社 Information provision device, information provision method, and information provision program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KONO, YOHEI ET AL.: "Data Expansion Using GAN", IPSJ SIG TECHNICAL REPORT, 3 May 2017 (2017-05-03), pages 2 - 5, ISSN: 2188-8701, Retrieved from the Internet <URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=178747&file_id=1&file_no=1> [retrieved on 20200313] *
YAMAGUCHI, SHINYA ET AL.: "Study of Data Expansion Methods by GAN Using Multiple Data Sets", IBIS2018 DISCUSSION TRACK, 6 November 2018 (2018-11-06), Retrieved from the Internet <URL:http://ibisml.org/ibis2018/discussion> [retrieved on 20200313] *
YAMAGUCHI, SHINYA: "Data Expansion by Antagonistic Generation Network Multiple Data Set Simultaneous Learning", DEIM 2019 FINAL PROCEEDINGS, 4 March 2019 (2019-03-04), Retrieved from the Internet <URL:https://db-event.jpn.org/deim2019/post/papers/20.pdf> [retrieved on 20200313] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464301A (en) * 2017-08-07 2017-12-12 青岛松立软件信息技术股份有限公司 A kind of EXIT toll collection system and its charge management method
WO2022249415A1 (en) * 2021-05-27 2022-12-01 日本電信電話株式会社 Information provision device, information provision method, and information provision program

Also Published As

Publication number Publication date
JP2020135485A (en) 2020-08-31

Similar Documents

Publication Publication Date Title
WO2020045236A1 (en) Augmentation device, augmentation method, and augmentation program
CN110362677B (en) Text data category identification method and device, storage medium and computer equipment
JP7266674B2 (en) Image classification model training method, image processing method and apparatus
JP5214760B2 (en) Learning apparatus, method and program
JP2019028839A (en) Classifier, method for learning of classifier, and method for classification by classifier
JP6158882B2 (en) Generating device, generating method, and generating program
US11551080B2 (en) Learning dataset generation method, new learning dataset generation device and learning method using generated learning dataset
WO2020170803A1 (en) Augmentation device, augmentation method, and augmentation program
WO2020045313A1 (en) Mask estimation device, mask estimation method, and mask estimation program
CN111783873A (en) Incremental naive Bayes model-based user portrait method and device
US10832036B2 (en) Meta-learning for facial recognition
WO2023088174A1 (en) Target detection method and apparatus
JP6535134B2 (en) Creation device, creation program, and creation method
Ahmed Wrapper feature selection approach based on binary firefly algorithm for spam e-mail filtering
JP2010009517A (en) Learning equipment, learning method and program for pattern detection device
CN112801186A (en) Verification image generation method, device and equipment
JP5909943B2 (en) Information processing apparatus, estimator generation method, and program
JP6214073B2 (en) Generating device, generating method, and generating program
JP5491430B2 (en) Class classification device, class classification method, and class classification program
Esmaeili et al. Transduction with matrix completion using smoothed rank function
JPWO2018151124A1 (en) Parameter calculation device, parameter calculation method, and parameter calculation program
CN114912540A (en) Transfer learning method, device, equipment and storage medium
JP7047664B2 (en) Learning device, learning method and prediction system
CN113822112A (en) Method and apparatus for determining label weights
JP2020071737A (en) Learning method, learning program and learning device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20758783

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20758783

Country of ref document: EP

Kind code of ref document: A1