WO2023139755A1 - モデル学習装置、モデル学習方法、プログラム - Google Patents

モデル学習装置、モデル学習方法、プログラム Download PDF

Info

Publication number
WO2023139755A1
WO2023139755A1 PCT/JP2022/002210 JP2022002210W WO2023139755A1 WO 2023139755 A1 WO2023139755 A1 WO 2023139755A1 JP 2022002210 W JP2022002210 W JP 2022002210W WO 2023139755 A1 WO2023139755 A1 WO 2023139755A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
data
labels
label
classification risk
Prior art date
Application number
PCT/JP2022/002210
Other languages
English (en)
French (fr)
Inventor
圭吾 若山
翔一郎 齊藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023575002A priority Critical patent/JPWO2023139755A1/ja
Priority to PCT/JP2022/002210 priority patent/WO2023139755A1/ja
Publication of WO2023139755A1 publication Critical patent/WO2023139755A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to machine learning technology.
  • machine learning has been used in fields such as acoustic event detection, image segmentation, and image recognition.
  • the general procedure of machine learning is as follows. (1) One or more labels indicating the class to which the data belongs (called a correct label) are assigned to one piece of data, and data to which the correct label is assigned is generated. By performing this work on a large amount of data, a set of data to which correct labels are assigned is generated. (2) A model is trained using a set of data to which correct labels have been assigned. (3) Using the learned model, the class (correct class) to which the input data belongs is estimated.
  • class estimation when there is one correct class for one piece of data is called multi-class classification.
  • Class estimation in the case where there can be multiple correct classes for one data is called multi-label classification.
  • multi-class classification one correct label is given to one data
  • multi-label classification one or more correct labels are given to one data.
  • Non-Patent Document 1 proposes the following procedure as machine learning for multi-label classification.
  • One or more labels indicating classes to which the data does not belong are assigned to one piece of data to generate data to which the complementary labels are assigned.
  • the complementary label is a label indicating that it is not the correct class.
  • Learning a model using a set of data to which complementary labels have been assigned is estimated.
  • step (2) above the data to which two or more complementary labels have been assigned is converted into data to which one complementary label has been assigned, and then used for learning. Therefore, there is a problem that the fact that two or more complementary labels are assigned to one piece of data during learning cannot be fully utilized.
  • an object of the present invention is to provide a model learning technique for multi-label classification using data to which one or more complementary labels have been assigned.
  • One aspect of the present invention is a model learning device including: a classification risk calculator that calculates the classification risk R(f) of a model f using a batch that is a subset of a set of data to which one or more complementary labels are assigned; and a model updater that updates the model f using the classification risk R(f), wherein x is input data to the model f, - Y is a set of complementary labels given to the input data x, f(x) k is the value of the model f(x) for label k, and classification risk R(f). becomes smaller as the value f(x) k of model f(x) for label k that is not an element of set - Y becomes larger.
  • One aspect of the present invention is a model learning device comprising: a candidate-labeled data set generation unit that generates a data set to which one or more candidate labels are assigned (hereinafter referred to as a candidate-labeled data set) from a data set to which one or more complementary labels are assigned; a classification risk calculation unit that calculates the classification risk R(f) of a model f using a batch that is a subset of the candidate-labeled data set; and a model updating unit that updates the model f using the classification risk R(f): input data to , Y is the set of candidate labels given to input data x, f(x) k be the value of model f(x) for label k, and the classification risk R(f) is the value f(x) of model f(x) for label k that is an element of set Y k The larger the value, the smaller the value.
  • model learning for multi-label classification using data with one or more complementary labels is possible.
  • FIG. 1 is a block diagram showing the configuration of a model learning device 100;
  • FIG. 4 is a flow chart showing the operation of the model learning device 100;
  • 2 is a block diagram showing the configuration of a model learning device 200;
  • FIG. 4 is a flow chart showing the operation of the model learning device 200.
  • FIG. It is a figure which shows an example of the functional structure of the computer which implement
  • ⁇ (caret) represents a superscript.
  • x y ⁇ z means that y z is a superscript to x
  • x y ⁇ z means that y z is a subscript to x
  • _ (underscore) represents a subscript.
  • x y_z means that y z is a superscript to x
  • x y_z means that y z is a subscript to x.
  • Embodiments of the present invention use data to which one or more complementary labels have been assigned to learn a model for a multi-label classification problem.
  • K be the number of classes for classifying data
  • a correct label is a label indicating belonging to class 1, .
  • Complementary labels are labels indicating that they do not belong to class 1, .
  • the label indicating not belonging to class k can be rephrased as a label indicating belonging to class other than class k.
  • the probability p k is expressed as f(x) k .
  • complementary label learning refers to learning the model f using a set of data to which one or more complementary labels are assigned
  • candidate label learning refers to learning the model f using a set of data to which one or more candidate labels are assigned.
  • N is the batch size
  • the classification risk R(f) of the model f is calculated by the following formula.
  • N is the batch size
  • the classification risk R(f) of the model f is calculated by the following formula.
  • the model learning device 100 learns the model f using a set of data to which one or more complementary labels are assigned (hereinafter referred to as a set of complementary labeled data).
  • the model f can be constructed as a Deep Neural Network (DNN) with a self-attention mechanism described in Non-Patent Document 1.
  • DNN Deep Neural Network
  • the DNN can be, for example, a neural network including a convolutional neural network (CNN) whose input is a logmel spectrogram, which is a time-frequency representation of an acoustic signal, and a transformer encoder. Also, when learning a model for image segmentation, the model f can be constructed as a DNN with a class activation map as described in [2]. (Reference Non-Patent Document 1: Q.
  • FIG. 1 is a block diagram showing the configuration of the model learning device 100.
  • FIG. 2 is a flow chart showing the operation of the model learning device 100.
  • model learning device 100 includes initialization unit 110 , classification risk calculation unit 120 , model update unit 130 , termination condition determination unit 140 , and recording unit 190 .
  • the recording unit 190 is a component that appropriately records information necessary for processing of the model learning device 100 .
  • the recording unit 190 records, for example, the complementary labeled data set in advance.
  • model learning device 100 The operation of the model learning device 100 will be described according to FIG.
  • the initialization unit 110 sets the initial value of the model f.
  • the initialization unit 110 sets, for example, initial values of DNN parameters that constitute the model f.
  • the classification risk calculator 120 calculates the classification risk R(f) of the model f using batches that are subsets of complementary labeled data sets recorded in the recording unit 190 .
  • the classification risk calculation unit 120 calculates the classification risk R(f), for example, using equations (1) and (2) or using equations (1') and (2).
  • the classification risk R(f) is calculated using a function where x is the input data to the model f, -Y is the set of complementary labels given to the input data x, f(x ) k is the value of the model f(x) for the label k, and the value f(x) k of the model f(x) for the label k that is not an element of the set Y increases, the value decreases.
  • the model updating unit 130 updates the model f using the classification risk R(f) calculated at S120.
  • the model updating unit 130 updates the DNN parameters that make up the model f, for example, so that the classification risk R(f) becomes smaller.
  • the termination condition determination unit 140 terminates the process with the model f obtained in the process of S130 as a learned model, otherwise returns to the process of S120.
  • the end condition for example, it is possible to use the condition of whether or not the upper limit of the number of model updates has been reached.
  • model learning for multi-label classification using data to which one or more complementary labels have been assigned becomes possible. Learning using data to which one or more complementary labels are assigned as it is without converting it into data to which one complementary label is assigned enables multi-label classification with higher accuracy.
  • the model learning device 200 learns the model f using a set of data to which one or more complementary labels are assigned (hereinafter referred to as a set of complementary labeled data).
  • model learning device 200 will be described below with reference to FIGS.
  • FIG. 3 is a block diagram showing the configuration of the model learning device 200.
  • FIG. 4 is a flow chart showing the operation of the model learning device 200.
  • model learning device 200 includes candidate-labeled data set generation unit 205 , initialization unit 110 , classification risk calculation unit 220 , model update unit 130 , termination condition determination unit 140 , and recording unit 190 .
  • the recording unit 190 is a component that appropriately records information necessary for processing of the model learning device 200 .
  • model learning device 200 The operation of the model learning device 200 will be described according to FIG.
  • the candidate-labeled data set generation unit 205 generates a set of data to which one or more candidate labels are assigned (hereinafter referred to as a candidate-labeled data set) from the complementary labeled data sets recorded in the recording unit 190.
  • the initialization unit 110 sets the initial value of the model f.
  • the classification risk calculator 220 calculates the classification risk R(f) of the model f using batches that are subsets of the candidate labeled data sets generated in S205.
  • the classification risk calculation unit 220 calculates the classification risk R(f) by, for example, Equation (3) or Equation (3').
  • the classification risk R(f) is calculated using a function in which x is the input data to the model f, Y is the set of candidate labels assigned to the input data x, f(x) k is the value of the model f(x) for the label k, and the value f(x) k of the model f(x) for the label k, which is an element of the set Y, becomes smaller as the value f(x) k increases.
  • the model updating unit 130 updates the model f using the classification risk R(f) calculated at S220.
  • the termination condition determination unit 140 terminates the process with the model f obtained in the process of S130 as a learned model, otherwise returns to the process of S220.
  • FIG. 5 is a diagram showing an example of a functional configuration of a computer that implements each device (ie, each node) described above.
  • the processing in each device described above can be performed by causing the recording unit 2020 to read a program for causing the computer to function as each device described above, and causing the control unit 2010, the input unit 2030, the output unit 2040, and the like to operate.
  • the device of the present invention includes, as a single hardware entity, an input section to which a keyboard or the like can be connected, an output section to which a liquid crystal display or the like can be connected, a communication section to which a communication device (for example, a communication cable) that can communicate outside the hardware entity can be connected, a CPU (Central Processing Unit, which may include a cache memory, a register, etc.), RAM and ROM that are memories, an external storage device that is a hard disk, and a bus that connects these input sections, output sections, communication sections, CPU, RAM, ROM, and external storage devices so that data can be exchanged.
  • the hardware entity may be provided with a device (drive) capable of reading and writing a recording medium such as a CD-ROM.
  • a physical entity with such hardware resources includes a general purpose computer.
  • the external storage device of the hardware entity stores the programs necessary for realizing the functions described above and the data required for the processing of these programs (not limited to the external storage device, for example, the program may be stored in ROM, which is a read-only storage device). Data obtained by processing these programs are appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in an external storage device or ROM, etc.
  • the data necessary for processing each program are read into memory as necessary, and interpreted, executed, and processed by the CPU as appropriate.
  • the CPU realizes a predetermined function (each structural unit represented by the above, . . . unit, . . . means, etc.).
  • a program that describes this process can be recorded on a computer-readable recording medium.
  • Any computer-readable recording medium may be used, for example, a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, or the like.
  • hard disk devices, flexible disks, magnetic tapes, etc. as magnetic recording devices, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable) etc. as optical discs, MO (Magneto-Optical disc) etc. as magneto-optical recording media, EEP-ROM (Electronically Erasable) as semiconductor memory. and Programmable-Read Only Memory) can be used.
  • this program is carried out, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded.
  • the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.
  • a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from the server computer once in its own storage device. When executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program. As another execution form of this program, the computer may directly read the program from the portable recording medium and execute the process according to the program, and furthermore, each time the program is transferred from the server computer to this computer, the process according to the received program may be sequentially executed. Also, the above processing may be performed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, and realizes the processing function only by the execution instruction and result acquisition.
  • ASP Application Service Provider
  • the program in this embodiment includes information that is used for processing by a computer and that conforms to the program (data that is not a direct instruction to the computer but has the property of prescribing the processing of the computer, etc.).
  • a hardware entity is configured by executing a predetermined program on a computer, but at least part of these processing contents may be implemented by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1以上の補ラベルが付与されたデータを用いるマルチラベル分類に対するモデル学習技術を提供する。1以上の補ラベルが付与されたデータの集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算部と、分類リスクR(f)を用いて、モデルfを更新するモデル更新部と、を含むモデル学習装置であって、xをモデルfへの入力データ、-Yを入力データxに付与された補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、分類リスクR(f)は、集合-Yの要素でないラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる。

Description

モデル学習装置、モデル学習方法、プログラム
 本発明は、機械学習技術に関する。
 近年、音響イベント検知、画像セグメンテーション、画像認識などの分野において、機械学習が用いられている。機械学習の一般的な手順は以下の通りである。
(1)1つのデータに対してそのデータが属するクラスを示すラベル(正解ラベルという)を1以上付与し、正解ラベルが付与されたデータを生成する。この作業を多くのデータに対して行うことにより、正解ラベルが付与されたデータの集合を生成する。
(2)正解ラベルが付与されたデータの集合を用いてモデルを学習する。
(3)学習済モデルを用いて、入力されたデータに対して当該データが属するクラス(正解クラスという)を推定する。
 ここで、1つのデータに対する正解クラスが1つである場合におけるクラスの推定を多クラス分類という。また、1つのデータに対する正解クラスが複数ありうる場合におけるクラスの推定をマルチラベル分類という。多クラス分類では1つのデータに対して1つの正解ラベルが付与され、マルチラベル分類では1つのデータに対して1以上の正解ラベルが付与される。
 上記手順に従い生成した学習済モデルを用いた正解クラスの推定において、推定精度を高めようとする場合、より多くの正解ラベルが付与されたデータが必要になる。しかし、推定対象となるクラスの数が増加すると、類似するクラスが出てくることに伴い、正解ラベルが付与されたデータを大量かつ正確に生成するのが困難になる。
 そこで、非特許文献1では、マルチラベル分類を対象とする機械学習として以下の手順を提案している。
(1)1つのデータに対してそのデータが属さないクラスを示すラベル(補ラベルという)を1以上付与し、補ラベルが付与されたデータを生成する。この作業を多くのデータに対して行うことにより、補ラベルが付与されたデータの集合を生成する。定義からわかるように、補ラベルは、正解クラスでないことを示すラベルである。
(2)補ラベルが付与されたデータの集合を用いてモデルを学習する。
(3)学習済モデルを用いて、入力されたデータに対して正解クラスを推定する。
 一般にあるデータに正解ラベルを付与するよりも補ラベルを付与する方が容易であるため、より多くのラベルが付与されたデータを簡便に生成することができる。
若山圭吾, 齋藤翔一郎, "補ラベル学習に基づく音響イベント検知," 信学技報EA2021-17, pp.77-82, 2021.
 非特許文献1の技術では、上記(2)のステップにおいて2以上の補ラベルが付与されたデータを1つの補ラベルが付与されたデータに変換したうえで学習に用いる。そのため、学習に際して1つのデータに対して補ラベルが2以上付与されているという点を活かしきれていないという問題があった。
 そこで本発明では、1以上の補ラベルが付与されたデータを用いるマルチラベル分類に対するモデル学習技術を提供することを目的とする。
 本発明の一態様は、1以上の補ラベルが付与されたデータの集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算部と、分類リスクR(f)を用いて、モデルfを更新するモデル更新部と、を含むモデル学習装置であって、xをモデルfへの入力データ、-Yを入力データxに付与された補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、分類リスクR(f)は、集合-Yの要素でないラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる。
 本発明の一態様は、1以上の補ラベルが付与されたデータの集合から、1以上の候補ラベルが付与されたデータの集合(以下、候補ラベル付きデータ集合という)を生成する候補ラベル付きデータ集合生成部と、前記候補ラベル付きデータ集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算部と、分類リスクR(f)を用いて、モデルfを更新するモデル更新部と、を含むモデル学習装置であって、xをモデルfへの入力データ、Yを入力データxに付与された候補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、分類リスクR(f)は、集合Yの要素であるラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる。
 本発明によれば、1以上の補ラベルが付与されたデータを用いるマルチラベル分類に対するモデル学習が可能となる。
モデル学習装置100の構成を示すブロック図である。 モデル学習装置100の動作を示すフローチャートである。 モデル学習装置200の構成を示すブロック図である。 モデル学習装置200の動作を示すフローチャートである。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 各実施形態の説明に先立って、この明細書における表記方法について説明する。
 ^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
 ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<技術的背景>
 本発明の実施形態では、1以上の補ラベルが付与されたデータを用いてマルチラベル分類問題に対するモデルを学習する。
 データを分類するクラスの数をKとし、[K]={1, …, K}でラベルの集合を表す。正解ラベルとは、クラス1に属すことを示すラベル、…、クラスKに属すことを示すラベルのことであり、集合Sが正解ラベルの集合であるとは、集合Sが集合[K]の部分集合であり、集合Sの要素であるラベルは正解ラベルであることをいう。また、補ラベルとは、クラス1に属さないことを示すラベル、…、クラスKに属さないことを示すラベルのことであり、集合-Tが補ラベルの集合であるとは、集合-Tが集合[K]の部分集合であり、集合-Tの要素であるラベルは補ラベルであることをいう。ここで、クラスkに属さないことを示すラベルとは、クラスk以外に属することを示すラベルであると換言できる。さらに、補ラベルの集合-Tの補集合T=[K]--Tを候補ラベルの集合という。集合Tの要素であることは、正解候補ラベルであることを意味する。例えば、K=6のとき、データxの正解ラベルの集合SがS={1, 3}であることはデータxがクラス1、クラス3に属することを表す。同様に、データxの補ラベルの集合-Tが-T={2, 4, 6}であることはデータxがクラス2、クラス4、クラス6以外に属することを表し、データxの候補ラベルの集合TがT=[K]--T={1, 3, 5}であることはデータxがクラス1、クラス3、クラス5に属する可能性があることを表す。
 学習対象であるモデルfは、入力データxに対してラベルk∈[K]が正解である確率pk(k=1, …, K)を第k要素とするK次元ベクトルを出力する関数である。以下、確率pkをf(x)kと表すことにする。
 以下、補ラベル学習、候補ラベル学習について説明する。ここで、補ラベル学習とは、1つ以上の補ラベルが付与されたデータの集合を用いてモデルfを学習することをいい、候補ラベル学習とは、1つ以上の候補ラベルが付与されたデータの集合を用いてモデルfを学習することをいう。
[補ラベル学習]
 補ラベル学習では、Nをバッチのサイズ、xn (n=1, …, N)をバッチに含まれるn番目のデータ、-Yn(n=1, …, N)をデータxnに付与された補ラベルの集合として、モデルfの分類リスクR(f)を次式により計算する。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 なお、式(1)の代わりに、次式を用いるようにしてもよい。
Figure JPOXMLDOC01-appb-M000006
(ただし、εは所定の定数)
 そして、補ラベル学習では、分類リスクR(f)が小さくなるようにモデルfを更新する。なお、式(1’)の分類リスクR(f)を用いると、式(1)の分類リスクR(f)を用いる場合に比べて学習が安定する。
[候補ラベル学習]
 候補ラベル学習では、Nをバッチのサイズ、xn (n=1, …, N)をバッチに含まれるn番目のデータ、Yn (n=1, …, N)をデータxnに付与された候補ラベルの集合、Zn (n=1, …, N)をデータxnの正解ラベルの集合として、モデルfの分類リスクR(f)を次式により計算する。
Figure JPOXMLDOC01-appb-M000007
 なお、式(3)の代わりに、次式を用いるようにしてもよい。
Figure JPOXMLDOC01-appb-M000008
(ただし、εは所定の定数)
 なお、集合Zn (n=1, …, N)は正確に知ることはできないため、所定の方法で推定して得られる集合を集合Znとして用いる。
 そして、候補ラベル学習では、分類リスクR(f)が小さくなるようにモデルfを更新する。なお、式(3’)の分類リスクR(f)を用いると、式(3)の分類リスクR(f)を用いる場合に比べて学習が安定する。
<第1実施形態>
 モデル学習装置100は、1以上の補ラベルが付与されたデータの集合(以下、補ラベル付きデータ集合という)を用いて、モデルfを学習する。音響イベント検知に用いるモデルを学習する場合、モデルfは参考非特許文献1に記載の自己注意機構を備えた深層ニューラルネットワーク(Deep Neural Network: DNN)として構成することができる。DNNとして、例えば、音響信号の時間周波数表現であるログメルスペクトログラムを入力とする畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)とトランスフォーマ(Transformer)のエンコーダとを含むニューラルネットワークとすることができる。また、画像セグメンテーションに用いるモデルを学習する場合、モデルfは参考非特許文献2に記載のクラスアクティベーションマップを備えたDNNとして構成することができる。
(参考非特許文献1:Q. Kong et al., “Sound Event Detection of Weakly Labelled Data with CNN-Transformer and Automatic Threshold Optimization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.28, pp.2450-2460, 2020.)
(参考非特許文献2:Y. Wang et al., “Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation,” CVPR 2020, pp.12275-12284, 2020.)
 以下、図1~図2を参照してモデル学習装置100について説明する。図1は、モデル学習装置100の構成を示すブロック図である。図2は、モデル学習装置100の動作を示すフローチャートである。図1に示すようにモデル学習装置100は、初期化部110と、分類リスク計算部120と、モデル更新部130と、終了条件判定部140と、記録部190を含む。記録部190は、モデル学習装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、事前に補ラベル付きデータ集合を記録しておく。
 図2に従いモデル学習装置100の動作について説明する。
 S110において、初期化部110は、モデルfの初期値を設定する。初期化部110は、例えば、モデルfを構成するDNNのパラメータの初期値を設定する。
 S120において、分類リスク計算部120は、記録部190に記録した補ラベル付きデータ集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する。分類リスク計算部120は、例えば、式(1)と式(2)により、または、式(1’)と式(2)により分類リスクR(f)を計算する。つまり、分類リスクR(f)は、xをモデルfへの入力データ、-Yを入力データxに付与された補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、集合-Yの要素でないラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる関数を用いて計算する。
 S130において、モデル更新部130は、S120で計算した分類リスクR(f)を用いて、モデルfを更新する。モデル更新部130は、例えば、分類リスクR(f)が小さくなるように、モデルfを構成するDNNのパラメータを更新する。
 S140において、終了条件判定部140は、所定の終了条件が満たされる場合には、S130の処理で得られたモデルfを学習済みモデルとして処理を終了し、それ以外の場合には、S120の処理に戻る。終了条件には、例えば、モデル更新回数の上限に達したか否かという条件を用いることができる。
 本発明の実施形態によれば、1以上の補ラベルが付与されたデータを用いるマルチラベル分類に対するモデル学習が可能となる。1つの補ラベルが付与されたデータに変換することなく1以上の補ラベルが付与されたデータをそのまま用いて学習することにより、より精度の高いマルチラベル分類が可能となる。
<第2実施形態>
 モデル学習装置200は、1以上の補ラベルが付与されたデータの集合(以下、補ラベル付きデータ集合という)を用いて、モデルfを学習する。
 以下、図3~図4を参照してモデル学習装置200について説明する。図3は、モデル学習装置200の構成を示すブロック図である。図4は、モデル学習装置200の動作を示すフローチャートである。図3に示すようにモデル学習装置200は、候補ラベル付きデータ集合生成部205と、初期化部110と、分類リスク計算部220と、モデル更新部130と、終了条件判定部140と、記録部190を含む。記録部190は、モデル学習装置200の処理に必要な情報を適宜記録する構成部である。
 図4に従いモデル学習装置200の動作について説明する。
 S205において、候補ラベル付きデータ集合生成部205は、記録部190に記録した補ラベル付きデータ集合から、1以上の候補ラベルが付与されたデータの集合(以下、候補ラベル付きデータ集合という)を生成する。
 S110において、初期化部110は、モデルfの初期値を設定する。
 S220において、分類リスク計算部220は、S205で生成した候補ラベル付きデータ集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する。分類リスク計算部220は、例えば、式(3)により、または、式(3’)により分類リスクR(f)を計算する。つまり、分類リスクR(f)は、xをモデルfへの入力データ、Yを入力データxに付与された候補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、集合Yの要素であるラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる関数を用いて計算する。
 S130において、モデル更新部130は、S220で計算した分類リスクR(f)を用いて、モデルfを更新する。
 S140において、終了条件判定部140は、所定の終了条件が満たされる場合には、S130の処理で得られたモデルfを学習済みモデルとして処理を終了し、それ以外の場合には、S220の処理に戻る。
 本発明の実施形態によれば、1以上の補ラベルが付与されたデータを用いるマルチラベル分類に対するモデル学習が可能となる。1以上の補ラベルが付与されたデータを1以上の候補ラベルが付与されたデータに変換したうえでそのまま用いて学習することにより、より精度の高いマルチラベル分類が可能となる。
<補記>
 図5は、上述の各装置(つまり、各ノード)を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (7)

  1.  1以上の補ラベルが付与されたデータの集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算部と、
     分類リスクR(f)を用いて、モデルfを更新するモデル更新部と、
     を含むモデル学習装置であって、
     xをモデルfへの入力データ、-Yを入力データxに付与された補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、
     分類リスクR(f)は、集合-Yの要素でないラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる
     モデル学習装置。
  2.  請求項1に記載のモデル学習装置であって、
     Nをバッチのサイズ、xn(n=1, …, N)をバッチに含まれるn番目のデータ、-Yn (n=1, …, N)をデータxnに付与された補ラベルの集合、Kをラベルの数とし、
     分類リスクR(f)は、次式により計算される
    Figure JPOXMLDOC01-appb-M000001

    Figure JPOXMLDOC01-appb-M000002

     ことを特徴とするモデル学習装置。
  3.  1以上の補ラベルが付与されたデータの集合から、1以上の候補ラベルが付与されたデータの集合(以下、候補ラベル付きデータ集合という)を生成する候補ラベル付きデータ集合生成部と、
     前記候補ラベル付きデータ集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算部と、
     分類リスクR(f)を用いて、モデルfを更新するモデル更新部と、
     を含むモデル学習装置であって、
     xをモデルfへの入力データ、Yを入力データxに付与された候補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、
     分類リスクR(f)は、集合Yの要素であるラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる
     モデル学習装置。
  4.  請求項3に記載のモデル学習装置であって、
     Nをバッチのサイズ、xn(n=1, …, N)をバッチに含まれるn番目のデータ、Yn (n=1, …, N)をデータxnに付与された候補ラベルの集合、Zn(n=1, …, N)をデータxnの正解ラベルの集合とし、
     分類リスクR(f)は、次式により計算される
    Figure JPOXMLDOC01-appb-M000003

     ことを特徴とするモデル学習装置。
  5.  モデル学習装置が、1以上の補ラベルが付与されたデータの集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算ステップと、
     前記モデル学習装置が、分類リスクR(f)を用いて、モデルfを更新するモデル更新ステップと、
     を含むモデル学習方法であって、
     xをモデルfへの入力データ、-Yを入力データxに付与された補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、
     分類リスクR(f)は、集合-Yの要素でないラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる
     モデル学習方法。
  6.  モデル学習装置が、1以上の補ラベルが付与されたデータの集合から、1以上の候補ラベルが付与されたデータの集合(以下、候補ラベル付きデータ集合という)を生成する候補ラベル付きデータ集合生成ステップと、
     前記モデル学習装置が、前記候補ラベル付きデータ集合の部分集合であるバッチを用いて、モデルfの分類リスクR(f)を計算する分類リスク計算ステップと、
     前記モデル学習装置が、分類リスクR(f)を用いて、モデルfを更新するモデル更新ステップと、
     を含むモデル学習方法であって、
     xをモデルfへの入力データ、Yを入力データxに付与された候補ラベルの集合、f(x)kをラベルkに対するモデルf(x)の値とし、
     分類リスクR(f)は、集合Yの要素であるラベルkに対するモデルf(x)の値f(x)kが大きくなるほどその値が小さくなる
     モデル学習方法。
  7.  請求項1ないし4のいずれか1項に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2022/002210 2022-01-21 2022-01-21 モデル学習装置、モデル学習方法、プログラム WO2023139755A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023575002A JPWO2023139755A1 (ja) 2022-01-21 2022-01-21
PCT/JP2022/002210 WO2023139755A1 (ja) 2022-01-21 2022-01-21 モデル学習装置、モデル学習方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/002210 WO2023139755A1 (ja) 2022-01-21 2022-01-21 モデル学習装置、モデル学習方法、プログラム

Publications (1)

Publication Number Publication Date
WO2023139755A1 true WO2023139755A1 (ja) 2023-07-27

Family

ID=87348451

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002210 WO2023139755A1 (ja) 2022-01-21 2022-01-21 モデル学習装置、モデル学習方法、プログラム

Country Status (2)

Country Link
JP (1) JPWO2023139755A1 (ja)
WO (1) WO2023139755A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEI FENG; TAKUO KANEKO; BO HAN; GANG NIU; BO AN; MASASHI SUGIYAMA: "Learning with Multiple Complementary Labels", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 July 2020 (2020-07-07), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081705058 *
ZHENGUO WU; MASASHI SUGIYAMA: "Learning with Proper Partial Labels", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 23 December 2021 (2021-12-23), 201 Olin Library Cornell University Ithaca, NY 14853, XP091122160 *

Also Published As

Publication number Publication date
JPWO2023139755A1 (ja) 2023-07-27

Similar Documents

Publication Publication Date Title
US20190354810A1 (en) Active learning to reduce noise in labels
Tsuboi et al. Direct density ratio estimation for large-scale covariate shift adaptation
US20190130249A1 (en) Sequence-to-sequence prediction using a neural network model
US11048870B2 (en) Domain concept discovery and clustering using word embedding in dialogue design
JP5734503B2 (ja) 語義推定装置、方法及びプログラム
US11494689B2 (en) Method and device for improved classification
JP7304488B2 (ja) 強化学習ベースの局所解釈可能モデル
JP7342242B2 (ja) 学習を転移させるための学習のためのフレームワーク
GB2572239A (en) Online dictionary extension of word vectors
US20210357704A1 (en) Semi-supervised learning with group constraints
CN113837370A (zh) 用于训练基于对比学习的模型的方法和装置
CN116644755A (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
US11037073B1 (en) Data analysis system using artificial intelligence
US20240346808A1 (en) Machine learning training dataset optimization
WO2019208564A1 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
CN117541853A (zh) 一种基于类别解耦的分类知识蒸馏模型训练方法和装置
WO2023139755A1 (ja) モデル学習装置、モデル学習方法、プログラム
US20230267175A1 (en) Systems and methods for sample efficient training of machine learning models
JP7540595B2 (ja) モデル学習装置、モデル学習方法、プログラム
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
CN113111638B (zh) 自然语言生成模型的训练方法和装置
JP2023181819A (ja) 言語処理装置、機械学習方法、推定方法及びプログラム
JP7231027B2 (ja) 異常度推定装置、異常度推定方法、プログラム
JP2009047929A (ja) 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体
KR20230131651A (ko) 지식 그래프 임베딩 모델의 성능 향상을 위한 프레임워크 시스템 및 이의 학습 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22921912

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023575002

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE