WO2022219686A1 - 密度比推定装置、密度比推定方法および密度比推定プログラム - Google Patents

密度比推定装置、密度比推定方法および密度比推定プログラム Download PDF

Info

Publication number
WO2022219686A1
WO2022219686A1 PCT/JP2021/015224 JP2021015224W WO2022219686A1 WO 2022219686 A1 WO2022219686 A1 WO 2022219686A1 JP 2021015224 W JP2021015224 W JP 2021015224W WO 2022219686 A1 WO2022219686 A1 WO 2022219686A1
Authority
WO
WIPO (PCT)
Prior art keywords
density ratio
data
ratio estimation
learning
pseudo
Prior art date
Application number
PCT/JP2021/015224
Other languages
English (en)
French (fr)
Inventor
充敏 熊谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023514197A priority Critical patent/JP7556457B2/ja
Priority to PCT/JP2021/015224 priority patent/WO2022219686A1/ja
Publication of WO2022219686A1 publication Critical patent/WO2022219686A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a density ratio estimation device, a density ratio estimation method, and a density ratio estimation program.
  • the density ratio is a quantity that appears in various machine learning applications such as transfer learning, anomaly detection, two-sample testing, change point detection, feature selection, clustering, and generative adversarial networks (GANs). It is The most naive approach is to estimate each density function individually from the data and then take the ratio to estimate the density ratio.
  • Non-Patent Documents 1 and 2 it is known that estimating the density function is extremely difficult, and it is difficult to estimate it accurately. Therefore, taking the ratio of the estimators of the density function including the error magnifies the error. Therefore, instead of estimating the density and then calculating the ratio, a technique has been disclosed in which the density ratio is modeled and the density ratio is directly estimated from two data sets (see Non-Patent Documents 1 and 2).
  • the present invention has been made in view of the above, and an object of the present invention is to perform density ratio estimation with high accuracy without requiring a large amount of data.
  • a density ratio estimation apparatus provides a plurality of density ratio estimation processing target data and feature amounts having the same configuration and different feature amount values. and the related data selected from each of the two related data sets acquired as pseudo-learning data or pseudo-test data, and the two pseudo-learning data as a model. and a learning unit that trains the model using the pseudo-learning data and the pseudo-testing data so as to accurately estimate the density ratio between the two related data sets when input. and
  • FIG. 1 is a diagram for explaining an outline of a density ratio estimation device.
  • FIG. 2 is a schematic diagram illustrating a schematic configuration of the density ratio estimation device.
  • FIG. 3 is a diagram for explaining the processing of the density ratio estimation model learning unit.
  • FIG. 4 is a flow chart showing the learning processing procedure.
  • FIG. 5 is a flowchart showing an estimation processing procedure.
  • FIG. 6 is a diagram illustrating a computer that executes a density ratio estimation program.
  • FIG. 1 is a diagram for explaining the outline of the density ratio estimation device.
  • the density ratio estimation device performs density ratio estimation for estimating the ratio r(x) of two probability density functions P nu (x) and P de (x) shown in the following equation (1).
  • the density ratio estimation device of the present embodiment uses a small amount of data as a target data set for which the density ratio is to be estimated, and utilizes a plurality of related data sets to accurately estimate the density ratio from the target data set. Specifically, as shown in FIG. 1, in the learning phase, the density ratio estimator accurately estimates the density ratio from two data sets consisting of a small amount of data using only the data of the related data set. learn the model. That is, the density ratio estimator explicitly learns so that when two data sets consisting of a small amount of data are input to a model that performs density ratio estimation, the density ratio can be estimated accurately even with other data. I do.
  • the density ratio estimation device performs (relative) density ratio estimation of the target dataset by inputting the target dataset into the learned model.
  • the related data set is, for example, an image of the same subject with different colors, which has the same feature amount (name) as the target data set, but has different conditions and a distribution of the value of each feature amount. Means different datasets.
  • FIG. 2 is a schematic diagram illustrating a schematic configuration of the density ratio estimation device.
  • a density ratio estimation apparatus 1 according to this embodiment is realized by a general-purpose computer such as a workstation or a personal computer, and executes density ratio estimation processing to be described later.
  • the density ratio estimation device 1 of this embodiment has a learning unit 10 that performs learning processing and an estimation unit 20 that performs estimation processing.
  • the learning unit 10 learns the density ratio estimation model 14a using a plurality of related data sets.
  • the estimation unit 20 uses the density ratio estimation model 14a learned by the learning unit 10 to perform appropriate density ratio estimation from two target data sets consisting of a small amount of data.
  • the estimation unit 20 may be implemented in the same hardware as the learning unit 10, or may be implemented in different hardware.
  • the learning unit 10 has a learning data input unit 11 , a feature extraction unit 12 , a density ratio estimation model learning unit 13 and a storage unit 14 .
  • the learning data input unit 11 is implemented using input devices such as a keyboard and a mouse, and inputs various instruction information to the control unit in response to input operations by the operator.
  • the learning data input unit 11 functions as an acquisition unit, and consists of a plurality of related data having the same configuration of feature amounts as the target data to be processed for density ratio estimation but different feature amount values. Get related datasets.
  • the related data set may be input to the learning unit 10 from an external server device or the like via a communication control unit (not shown) realized by a NIC (Network Interface Card) or the like.
  • a communication control unit not shown
  • NIC Network Interface Card
  • the control unit is implemented using a CPU (Central Processing Unit) or the like that executes a processing program, and functions as the feature extraction unit 12 and the density ratio estimation model learning unit 13.
  • CPU Central Processing Unit
  • the control unit is implemented using a CPU (Central Processing Unit) or the like that executes a processing program, and functions as the feature extraction unit 12 and the density ratio estimation model learning unit 13.
  • the feature extraction unit 12 converts each sample of the acquired related data set into a feature vector in preparation for processing in the density ratio estimation model learning unit 13, which will be described later.
  • the feature vector is an n-dimensional numerical vector representing the features of the necessary data.
  • the feature extraction unit 12 uses a technique commonly used in machine learning to perform conversion into feature vectors. For example, when the data is text, the feature extraction unit 12 can apply a method using morphological analysis, a method using n-grams, a method using delimiters, and the like.
  • the density ratio estimation model learning unit 13 functions as a learning unit. That is, the density ratio estimation model learning unit 13 inputs the two pseudo learning data to the density ratio estimation model 14a, with the related data selected from each of the two sets of acquired related data sets as the pseudo learning data or the pseudo test data.
  • the pseudo-learning data and pseudo-testing data are used to train the density ratio estimation model 14a so as to accurately estimate the density ratio between the two sets of related data sets.
  • the density ratio estimation model learning unit 13 uses the data from which the feature extraction unit 12 has extracted the features, from a small amount of data that is a subset of the two data sets, to a pair of the data sets. A density ratio estimation model 14a that performs appropriate density ratio estimation is learned. That is, the density ratio estimation model learning unit 13 selects a small amount of pseudo learning data and pseudo test data from each of the two randomly selected data sets. Then, the density ratio estimation model learning unit 13 performs learning so that when the density ratio is estimated with the pseudo learning data, the density ratio is accurately estimated with the pseudo test data as well.
  • FIG. 3 is a diagram for explaining the processing of the density ratio estimation model learning unit.
  • FIG. 3 illustrates pseudo code of the processing of the density ratio estimation model learning unit 13 .
  • X d be the dth data set.
  • x dn ⁇ X d represents the M-dimensional feature vector of the nth sample of the dth data set. It is also assumed that the dimension M of feature vectors is the same for all datasets.
  • the density ratio estimating apparatus 1 is given two targets given in the following formula (3) given in the test (estimation) phase when D related data sets given in the following formula (2)
  • the density ratio estimation model 14a is trained so as to accurately estimate the density ratio of the data set.
  • the density ratio estimation model 14a estimates the density ratio of two data sets S nu and S de that consist of small amounts of data.
  • the density ratio estimation model 14a estimates the relative density ratio by expanding the density ratio. That is, the density ratio estimation model learning unit 13 learns the density ratio estimation model 14a for estimating the relative density ratio between two related data sets.
  • a relative density ratio of the probability density functions p nu (x) and p de (x) of the two data sets is defined by the following equation (4).
  • the estimator of the relative density ratio of the two data sets obtained here is defined as shown in the following equation (8) using vectors z nu and z de representing the data sets.
  • h is any feedforward neural network that returns non-negative outputs and w is a non-negative parameter vector.
  • w is a non-negative parameter vector.
  • the estimator of this relative density ratio depends on the dataset vectors z nu , z de , by properly training the neural networks f, g, h, the appropriate density for the two datasets S nu , S de It is expected that a ratio estimation model 14a can be obtained.
  • the density ratio estimation model learning unit 13 learns the density ratio estimation model 14a so as to minimize the square error between the true relative density ratio and the estimated relative density ratio.
  • the density ratio estimation model learning unit 13 estimates the parameter vector w by minimizing the squared error between the true relative density ratio and the estimated relative density ratio shown in the following equation (9).
  • the term including ⁇ in the above equation (10) is a regularization term for preventing overfitting.
  • K is defined as shown in the following equation (11), and k is defined as shown in the following equation (12).
  • the density ratio estimation model learning unit 13 uses the objective function shown in the following equation (15) to learn the neural networks f, g, and h and the regularization parameter ⁇ .
  • the density ratio estimation model 14a trained to estimate the relative density ratio from a small amount of data set S is accurate even in other large amounts of data Q. to estimate the relative density ratio.
  • error function is not limited to the squared error described above, and may be, for example, the KL divergence.
  • the storage unit 14 is implemented by a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • a learned density ratio estimation model 14a is stored in the storage unit 14 of the present embodiment.
  • the estimation unit 20 has a data input unit 21 , a feature extraction unit 22 , a density ratio estimation unit 23 and a result output unit 24 .
  • the data input unit 21 is realized using an input device such as a keyboard and a mouse, and inputs various instruction information to the control unit in response to the input operation by the operator, and inputs the target of the density ratio estimation process. accept datasets.
  • the target data set may be input to the estimation unit 20 from an external server device or the like via a communication control unit (not shown) realized by a NIC or the like.
  • the data input unit 21 may be the same hardware as the learning data input unit 11 .
  • the control unit is implemented using a CPU or the like that executes a processing program, and has a feature extraction unit 22 and a density ratio estimation unit 23.
  • the feature extraction unit 22 converts each sample of the acquired target data set into a feature vector in preparation for processing in the density ratio estimation unit 23.
  • the density ratio estimating unit 23 functions as an estimating unit and uses the learned density ratio estimating model 14a to estimate the density ratio between the two target data sets to be processed for density ratio estimation.
  • the result output unit 24 is realized by a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, etc., and outputs the result of the density ratio estimation processing to the operator. For example, it outputs the (relative) density ratio estimated from the input target data set.
  • the density ratio estimation processing of the density ratio estimation device 1 includes learning processing by the learning section 10 and estimation processing by the estimation section 20 .
  • FIG. 4 is a flowchart illustrating a learning processing procedure. The flowchart of FIG. 4 is started, for example, at the timing when the user inputs an instruction to start the learning process.
  • the learning data input unit 11 receives an input of a related data set consisting of a plurality of related data having the same configuration of feature values as the target data to be processed for density ratio estimation and different values of the feature values (step S1). ).
  • the feature extraction unit 12 converts each sample of the received related data set into a feature vector (step S2).
  • the density ratio estimation model learning unit 13 uses the related data selected from each of the two input related data sets as pseudo learning data or pseudo test data, and converts the two pseudo learning data into the density ratio estimation model 14a.
  • the density ratio estimation model 14a is trained using the pseudo-learning data and the pseudo-test data so as to accurately estimate the density ratio between the two sets of related data sets (step S3).
  • the density ratio estimation model learning unit 13 learns the density ratio estimation model 14a that estimates the relative density ratio between two related data sets.
  • the density ratio estimation model learning unit 13 stores the learned density ratio estimation model 14 a in the storage unit 14 .
  • FIG. 5 is a flowchart illustrating an estimation processing procedure.
  • the flowchart of FIG. 5 is started, for example, at the timing when the user inputs an instruction to start the estimation process.
  • the data input unit 21 receives two small target data sets to be processed (step S11), and the feature extraction unit 22 converts each sample of the received target data sets into a feature vector (step S12).
  • the density ratio estimation unit 23 estimates the density ratio between the two target data sets using the learned density ratio estimation model 14a (step S13). Then, the result output unit 24 outputs the density ratio estimation result, that is, the estimated density ratio (step S14).
  • the learning data input unit 11 inputs a plurality of related data having the same configuration of feature amounts as the data to be processed for density ratio estimation but different values of the feature amounts. Get a related dataset consisting of .
  • the density ratio estimation model learning unit 13 sets the related data selected from each of the acquired two sets of related data sets as pseudo learning data or pseudo test data, and inputs the two pseudo learning data to the density ratio estimation model 14a.
  • the pseudo-learning data and pseudo-testing data are used to train the density ratio estimation model 14a so as to accurately estimate the density ratio between the two sets of related data sets, if any.
  • the density ratio estimating apparatus 1 learns using the related data sets, and can accurately estimate the density ratio without performing re-learning that requires high-cost calculations for any target data set. It is possible to estimate That is, the density ratio estimating device 1 can utilize the useful information of the related datasets to achieve highly accurate density ratio estimation for a small number of target datasets. Therefore, even if only a small amount of data is available, it is possible to estimate the density ratio accurately at low cost. Therefore, it is possible to improve the performance of transfer learning, anomaly detection, two-sample testing, change point detection, feature selection, clustering, GANs, etc. for small amounts of data.
  • the density ratio estimation model learning unit 13 learns the density ratio estimation model 14a for estimating the relative density ratio between two related data sets. In this way, by applying the relative density ratio bounded above, the density ratio estimating device 1 can estimate the density ratio while suppressing the calculation cost.
  • the density ratio estimation model learning unit 13 learns the density ratio estimation model 14a so as to minimize the square error between the true relative density ratio and the estimated relative density ratio. This enables the density ratio estimation device 1 to estimate the density ratio with high accuracy.
  • the density ratio estimation unit 23 uses the learned density ratio estimation model 14a to estimate the density ratio between the two target data sets to be processed for density ratio estimation. As a result, even when only a small amount of data is available, density ratio estimation can be performed at low cost and with high accuracy.
  • the density ratio estimating apparatus 1 can be implemented by installing a density ratio estimating program for executing the density ratio estimating process as package software or online software in a desired computer.
  • the information processing device can function as the density ratio estimation device 1 by causing the information processing device to execute the density ratio estimation program.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the functions of the density ratio estimation device 1 may be implemented in a cloud server.
  • FIG. 6 is a diagram showing an example of a computer that executes a density ratio estimation program.
  • Computer 1000 includes, for example, memory 1010 , CPU 1020 , hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1031 .
  • Disk drive interface 1040 is connected to disk drive 1041 .
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example.
  • a display 1061 is connected to the video adapter 1060 .
  • the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Each piece of information described in the above embodiment is stored in the hard disk drive 1031 or the memory 1010, for example.
  • the density ratio estimation program is stored in the hard disk drive 1031 as a program module 1093 in which instructions executed by the computer 1000 are described, for example.
  • the hard disk drive 1031 stores a program module 1093 that describes each process executed by the density ratio estimation apparatus 1 described in the above embodiment.
  • Data used for information processing by the density ratio estimation program is stored as program data 1094 in the hard disk drive 1031, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure described above.
  • program module 1093 and program data 1094 relating to the density ratio estimation program are not limited to being stored in the hard disk drive 1031.
  • they may be stored in a removable storage medium and processed by the CPU 1020 via the disk drive 1041 or the like. may be read out.
  • the program module 1093 and program data 1094 related to the density ratio estimation program are stored in another computer connected via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and the network interface 1070 is may be read by CPU 1020 via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and the network interface 1070 is may be read by CPU 1020 via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and the network interface 1070 is may be read by CPU 1020 via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and the network interface 1070 is may be read by CPU 1020 via a network such as LAN (Local

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

学習データ入力部(11)が、密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する。密度比推定モデル学習部(13)が、取得された2セットの関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データを密度比推定モデル(14a)に入力した場合に、2セットの関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、密度比推定モデル(14a)を学習する。

Description

密度比推定装置、密度比推定方法および密度比推定プログラム
 本発明は、密度比推定装置、密度比推定方法および密度比推定プログラムに関する。
 近年、転移学習、異常検知、2標本検定、変化点検知、特徴選択、クラスタリング、Generative Adversarial Networks(GANs)等の様々な機械学習の応用において現れる量である密度比を精度よく推定する技術が期待されている。もっともナイーブなアプローチとして、各密度関数をそれぞれにデータから推定した後にその比をとって密度比を推定する。
 しかしながら、密度関数の推定は非常に困難であることが知られており、精度よく推定することは困難である。したがって、誤差を含む密度関数の推定量の比をとるとその誤差が増長されてしまう。そこで、密度を推定した後に比をとるかわりに、密度比をモデル化して、2つのデータセットから直接に密度比を推定する技術が開示されている(非特許文献1,2参照)。
Kanamori T., Hido S., Sugiyama M., "A Least-squares Approach to Direct Importance Estimation" The Journal of Machine Learning Research 10,2009年, pp.1391-1445 Sugiyama M., Nakajima S., Kashima H., Buenau P., Kawanabe M.,"Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation", In NeurIPS, 2007年
 しかしながら、従来の技術は大量のデータを必要とするものの、大量のデータを用意することが困難な場合がある。例えば、新規ユーザや新規システム等の新しいデータソースから得られるデータセットで密度比を推定したい場合には、直ちに大量のデータを用意することは困難である。また、治験において薬の効果を確認するための2標本検定や、衝突試験において車の構造変化の効果を確認するための2標本検定等に用いるために密度比を推定したい場合には、コストが高いために大量のデータを用意することは困難である。
 本発明は、上記に鑑みてなされたものであって、大量のデータを必要とせずに、高精度に密度比推定を行うことを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る密度比推定装置は、密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する取得部と、取得された2つの前記関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データをモデルに入力した場合に、2つの前記関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、を有することを特徴とする。
 本発明によれば、大量のデータを必要とせずに、高精度に密度比推定を行うことが可能となる。
図1は、密度比推定装置の概要を説明するための図である。 図2は、密度比推定装置の概略構成を例示する模式図である。 図3は、密度比推定モデル学習部の処理を説明するための図である。 図4は、学習処理手順を示すフローチャートである。 図5は、推定処理手順を示すフローチャートである。 図6は、密度比推定プログラムを実行するコンピュータを例示する図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[密度比推定装置の概要]
 まず、図1は、密度比推定装置の概要を説明するための図である。密度比推定装置は、次式(1)に示す、2つの確率密度関数Pnu(x)、Pde(x)の比r(x)を推定する密度比推定を行う。
Figure JPOXMLDOC01-appb-M000001
 本実施形態の密度比推定装置は、少量のデータを、密度比を推定したい目標データセットとして、複数の関連するデータセットを活用して、目標データセットから精度よく密度比推定を行う。具体的には、図1に示すように、密度比推定装置は、学習フェーズにおいて、関連データセットのデータのみを用いて、少量のデータから成る2つのデータセットから、精度よく密度比推定を行うモデルを学習する。すなわち、密度比推定装置は、少量のデータからなる2つのデータセットを、密度比推定を行うモデルに入力した場合に、それ以外のデータでも精度よく密度比推定をできるように、明示的に学習を行う。
 また、密度比推定装置は、テスト(推定)フェーズにおいて、学習されたモデルに目標データセットを入力することにより、目標データセットの(相対)密度比推定を行う。
 なお、関連データセットとは、例えば、同一の被写体についての色味の異なる画像等、目標データセットと構成する特徴量(名)が同一であって、条件が異なり各特徴量の値の分布が異なるデータセットを意味する。
[密度比推定装置の構成]
 次に、図2は、密度比推定装置の概略構成を例示する模式図である。本実施形態に係る密度比推定装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、後述する密度比推定処理を実行する。
 本実施形態の密度比推定装置1は、図2に示すように、学習処理を行う学習部10と、推定処理を行う推定部20とを有する。学習部10は、複数の関連データセットを用いて、密度比推定モデル14aを学習する。推定部20は、学習部10により学習された密度比推定モデル14aを用いて、少量のデータからなる2つの目標データセットから、適切な密度比推定を行う。推定部20は、学習部10と同一のハードウェアに実装されてもよいし、異なるハードウェアに実装されてもよい。
[学習部]
 学習部10は、学習データ入力部11、特徴抽出部12、密度比推定モデル学習部13、および格納部14を有する。
 学習データ入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力する。本実施形態において、学習データ入力部11は、取得部として機能して、密度比推定の処理対象の目標データと特徴量の構成が同一であって特徴量の値が異なる複数の関連データからなる関連データセットを取得する。
 なお、関連データセットは、NIC(Network Interface Card)等で実現される図示しない通信制御部を介して、外部のサーバ装置等から学習部10に入力されてもよい。
 制御部は、処理プログラムを実行するCPU(Central Processing Unit)等を用いて実現され、特徴抽出部12、密度比推定モデル学習部13として機能する。
 特徴抽出部12は、後述する密度比推定モデル学習部13における処理の準備として、取得された関連データセットの各サンプルを特徴ベクトルに変換する。ここで、特徴ベクトルとは、必要なデータの特徴をn次元の数ベクトルで表記したものである。特徴抽出部12は、機械学習で一般的に用いられている手法を利用して、特徴ベクトルへの変換を行う。例えば、特徴抽出部12は、データがテキストである場合には、形態素解析による手法、n-gramによる手法、区切り文字による手法等を適用可能である。
 密度比推定モデル学習部13は、学習部として機能する。つまり、密度比推定モデル学習部13は、取得された2セットの関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの疑似学習データを密度比推定モデル14aに入力した場合に、2セットの関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、密度比推定モデル14aを学習する。
 具体的には、密度比推定モデル学習部13は、特徴抽出部12が特徴を抽出した後のデータを用いて、2つのデータセットの部分集合である少量のデータから、当該データセットのペアに適切な密度比推定を行う密度比推定モデル14aを学習する。つまり、密度比推定モデル学習部13は、ランダムに選択された2つのデータセットのそれぞれから、少量の疑似学習データと、疑似テストデータとを選択する。そして、密度比推定モデル学習部13は、疑似学習データで密度比推定を行った際に、疑似テストデータでも正確に密度比推定を行うように学習を行う。
 密度比推定モデル14aとしては、目的関数が微分可能な形式で表される任意の密度比推定手法が適用される。
 ここで、図3は、密度比推定モデル学習部の処理を説明するための図である。図3には、密度比推定モデル学習部13の処理の疑似コードが例示されている。
 まず、Xをd番目のデータセットとする。ここで、xdn∈Xはd番目のデータセットのn番目のサンプルのM次元特徴ベクトルを表す。また、すべてのデータセットで特徴ベクトルの次元Mは同一と仮定する。
 密度比推定装置1は、学習フェーズにおいて、次式(2)に示すD個の関連データセットが与えられた場合に、テスト(推定)フェーズに与えられた次式(3)に示す2つの目標データセットの密度比を精度よく推定するように、密度比推定モデル14aの学習を行う。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 具体的には、密度比推定モデル14aは、少量のデータから成る2つのデータセットSnuとSdeとの密度比を推定する。
 本実施形態では、密度比推定モデル14aは、密度比を拡張した相対密度比の推定を行う。すなわち、密度比推定モデル学習部13は、2つの関連データセット間の相対密度比を推定する密度比推定モデル14aを学習する。
 2つのデータセットの確率密度関数pnu(x)、pde(x)の相対密度比は次式(4)で定義される。
Figure JPOXMLDOC01-appb-M000004
 ここで、αはハイパーパラメータであり、α=0のときに、相対密度比が密度比に一致する。すなわち、本発明は通常の密度比推定に用いることも可能である。相対密度比は、次式(5)に示すように、密度比とは異なり上に有界であるため、密度比推定モデル14aの推定が容易に可能となる。
Figure JPOXMLDOC01-appb-M000005
 まず、2つのデータセットトSnu、Sdeを、次式(6)、(7)に示す置換不変ニューラルネットワークを用いて、固定長ベクトルznu、zdeに変換する。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 ここで、f、gは任意のフィードフォワードニューラルネットワークである。式(6)、(7)は、途中平均をとる操作を挟むことにより、各データセット内のサンプルの順番が変わっても出力は変わらない。すなわち、この置換不変ニューラルネットワークは、データセットを入力として受け取ることができる。
 ここで得られた2つのデータセットの相対密度比の推定量は、当該データセットを表すベクトルznu、zdeを用いて、次式(8)に示すように定義する。
Figure JPOXMLDOC01-appb-M000008
 ここで、hは非負のアウトプットを返す任意のフィードフォワードニューラルネットワークであり、wは非負のパラメタベクトルである。上記式(8)において、hとwとが非負であることから、相対密度比の非負性が保証される。この相対密度比の推定量は、データセットベクトルznu、zdeに依存するため、ニューラルネットワークf、g、hを適切に学習することで、2つのデータセットSnu、Sdeに適した密度比推定モデル14aを得られるものと期待される。
 密度比推定モデル学習部13は、真の相対密度比と推定した相対密度比との2乗誤差を最小化するように、密度比推定モデル14aを学習する。まず、密度比推定モデル学習部13は、次式(9)に示す真の相対密度比と推定した相対密度比との2乗誤差を最小化することで、パラメタベクトルwを推定する。
Figure JPOXMLDOC01-appb-M000009
 この2乗誤差をデータセットSnu、Sdeで近似して、いったんwの非負制約を外すことで、次式(10)に示す目的関数が得られる。
Figure JPOXMLDOC01-appb-M000010
 ここで、上記式(10)のλを含む項は、オーバーフィットを防ぐための正則化項である。また、Kは次式(11)に示すように定義され、kは次式(12)に示すように定義される。
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 この目的関数の大域的最適解は、次式(13)に示す閉形式で得られる。
Figure JPOXMLDOC01-appb-M000013
 wの次元Tが大きくない場合には、この計算は高速に実行可能である。なお、上記式(13)は、非負制約を満たさない可能性がある。そのため、相対密度比は、最終的には次式(14)によって推定される。
Figure JPOXMLDOC01-appb-M000014
 密度比推定モデル学習部13は、次式(15)に示す目的関数を用いて、ニューラルネットワークf、g、hおよび正則化パラメタλを学習対象とする。
Figure JPOXMLDOC01-appb-M000015
 ここで、S、Qは関連データセット{1,…,D}からランダムに選んだ2つのデータセットXnu,Xdeから選択されるデータセットであり、S=(Snu,Sde)、Q=(Qnu,Qde)である。また、Sを使って推定した相対密度比と真の相対密度比との2乗誤差を、データQを使って評価した場合の誤差は、次式(16)で表される。
Figure JPOXMLDOC01-appb-M000016
 上記式(16)で表された量を最小化することで、少量のデータセットSから相対密度比を推定するように学習された密度比推定モデル14aが、その他の大量のデータQにおいても正確に相対密度比を推定するようになる。
 このように、目標データセットと関連がある様々な関連データセットに対して学習することにより、関連データセットの学習により得た有用な知識を転用して、目標データセットからも正確に密度比推定を行えることが期待される。
 なお、誤差関数は、上記の2乗誤差に限定されず、例えば、KLダイバージェンス等でもよい。
 図2の説明に戻る。格納部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。本実施形態の格納部14には、学習された密度比推定モデル14aが格納される。
[推定部]
 推定部20は、データ入力部21、特徴抽出部22、密度比推定部23、および結果出力部24を有する。
 データ入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力したり、密度比推定処理の対象の目標データセットを受け付けたりする。
 なお、目標データセットは、NIC等で実現される図示しない通信制御部を介して、外部のサーバ装置等から推定部20に入力されてもよい。また、データ入力部21は、学習データ入力部11と同一のハードウェアでもよい。
 制御部は、処理プログラムを実行するCPU等を用いて実現され、特徴抽出部22と密度比推定部23とを有する。
 特徴抽出部22は、学習部10の特徴抽出部12と同様に、密度比推定部23における処理の準備として、取得された目標データセットの各サンプルを特徴ベクトルに変換する。
 密度比推定部23は、推定部として機能して、学習された密度比推定モデル14aを用いて、密度比推定の処理対象の2つの目標データセット間の密度比を推定する。
 結果出力部24は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、密度比推定処理の結果を操作者に対して出力する。例えば、入力された目標データセットから推定された(相対)密度比を出力する。
[密度比推定処理]
 次に、図4および図5を参照して、密度比推定装置1による密度比推定処理について説明する。密度比推定装置1の密度比推定処理は、学習部10による学習処理と、推定部20による推定処理とを含む。
[学習処理]
 図4は、学習処理手順を例示するフローチャートである。図4のフローチャートは、例えば、ユーザによる学習処理の開始を指示する操作入力があったタイミングで開始される。
 まず、学習データ入力部11が、密度比推定の処理対象の目標データと特徴量の構成が同一であって特徴量の値が異なる複数の関連データからなる関連データセットの入力を受け付ける(ステップS1)。次に、特徴抽出部12が、受け付けた関連データセットの各サンプルを特徴ベクトルに変換する(ステップS2)。
 次に、密度比推定モデル学習部13が、入力された2セットの関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データを密度比推定モデル14aに入力した場合に、2セットの関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、密度比推定モデル14aを学習する(ステップS3)。例えば、密度比推定モデル学習部13は、2つの関連データセット間の相対密度比を推定する密度比推定モデル14aを学習する。
 また、密度比推定モデル学習部13は、学習した密度比推定モデル14aを格納部14に格納する。
[推定処理]
 次に図5は、推定処理手順を例示するフローチャートである。図5のフローチャートは、例えば、ユーザによる推定処理の開始を指示する操作入力があったタイミングで開始される。
 まず、データ入力部21が、処理対象の2つの少量の目標データセットを受け付け(ステップS11)、特徴抽出部22が、受け付けた目標データセットの各サンプルを特徴ベクトルに変換する(ステップS12)。
 次に、密度比推定部23が、学習された密度比推定モデル14aを用いて2つの目標データセット間の密度比を推定する(ステップS13)。そして、結果出力部24が、密度比推定結果の出力すなわち推定された密度比の出力を行う(ステップS14)。
 以上、説明したように、密度比推定装置1において、学習データ入力部11が、密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する。密度比推定モデル学習部13が、取得された2セットの関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データを密度比推定モデル14aに入力した場合に、2セットの関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、密度比推定モデル14aを学習する。
 このように、密度比推定装置1は、関連データセットを用いて学習することにより、任意の目標データセットに対して高コストな計算を要する再学習を行わなくても、高精度に密度比を推定することが可能となる。つまり、密度比推定装置1は、関連データセットの有用な情報を活用して、少ない目標データセットの密度比推定を高精度に実現することが可能となる。したがって、データが少量しか得られない場合にも、低コストに精度よく密度比の推定が可能となる。そのため、少量のデータを対象とした転移学習、異常検知、2標本検定、変化点検知、特徴選択、クラスタリング、GANs等の性能向上が可能となる。
 また、密度比推定モデル学習部13は、2つの関連データセット間の相対密度比を推定する密度比推定モデル14aを学習する。このように、上に有界である相対密度比を適用することにより、密度比推定装置1は、計算コストを抑えて密度比推定を行うことが可能となる。
 また、密度比推定モデル学習部13は、真の相対密度比と推定した相対密度比との2乗誤差を最小化するように、密度比推定モデル14aを学習する。これにより、密度比推定装置1は、高精度に密度比を推定することが可能となる。
 また、密度比推定部23が、学習された密度比推定モデル14aを用いて、密度比推定の処理対象の2つの目標データセット間の密度比を推定する。これにより、データが少量しか得られない場合にも、低コストに精度よく密度比推定が可能となる。
[プログラム]
 上記実施形態に係る密度比推定装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、密度比推定装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の密度比推定処理を実行する密度比推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の密度比推定プログラムを情報処理装置に実行させることにより、情報処理装置を密度比推定装置1として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、密度比推定装置1の機能を、クラウドサーバに実装してもよい。
 図6は、密度比推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、密度比推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した密度比推定装置1が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、密度比推定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、密度比推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、密度比推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 1 密度比推定装置
 10 学習部
 11 学習データ入力部
 12 特徴抽出部
 13 密度比推定モデル学習部
 14 格納部
 14a 密度比推定モデル
 20 推定部
 21 データ入力部
 22 特徴抽出部
 23 密度比推定部
 24 結果出力部

Claims (6)

  1.  密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する取得部と、
     取得された2つの前記関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データをモデルに入力した場合に、2つの前記関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、
     を有することを特徴とする密度比推定装置。
  2.  前記学習部は、2つの前記関連データセット間の相対密度比を推定する前記モデルを学習することを特徴とする請求項1に記載の密度比推定装置。
  3.  前記学習部は、真の相対密度比と推定した相対密度比との2乗誤差を最小化するように、前記モデルを学習することを特徴とする請求項2に記載の密度比推定装置。
  4.  学習された前記モデルを用いて、密度比推定の処理対象の複数のデータからなるデータセット間の密度比を推定する推定部を、さらに有することを特徴とする請求項1に記載の密度比推定装置。
  5.  密度比推定装置が実行する密度比推定方法であって、
     密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する取得工程と、
     取得された2つの前記関連データセットのそれぞれから選択した2つの関連データを疑似学習データおよび疑似テストデータとして、2つの該疑似学習データをモデルに入力した場合に、2つの前記関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習工程と、
     を含んだことを特徴とする密度比推定方法。
  6.  コンピュータに、
     密度比推定の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる複数の関連データからなる関連データセットを取得する取得ステップと、
     取得された2つの前記関連データセットのそれぞれから選択した関連データを疑似学習データまたは疑似テストデータとして、2つの該疑似学習データをモデルに入力した場合に、2つの前記関連データセット間の密度比を正確に推定するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習ステップと、
    を実行させることを特徴とする密度比推定プログラム。
PCT/JP2021/015224 2021-04-12 2021-04-12 密度比推定装置、密度比推定方法および密度比推定プログラム WO2022219686A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023514197A JP7556457B2 (ja) 2021-04-12 2021-04-12 密度比推定装置、密度比推定方法および密度比推定プログラム
PCT/JP2021/015224 WO2022219686A1 (ja) 2021-04-12 2021-04-12 密度比推定装置、密度比推定方法および密度比推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015224 WO2022219686A1 (ja) 2021-04-12 2021-04-12 密度比推定装置、密度比推定方法および密度比推定プログラム

Publications (1)

Publication Number Publication Date
WO2022219686A1 true WO2022219686A1 (ja) 2022-10-20

Family

ID=83639844

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015224 WO2022219686A1 (ja) 2021-04-12 2021-04-12 密度比推定装置、密度比推定方法および密度比推定プログラム

Country Status (2)

Country Link
JP (1) JP7556457B2 (ja)
WO (1) WO2022219686A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013160937A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
JP2017076289A (ja) * 2015-10-15 2017-04-20 キヤノン株式会社 パラメータ決定装置、パラメータ決定方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013160937A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
JP2017076289A (ja) * 2015-10-15 2017-04-20 キヤノン株式会社 パラメータ決定装置、パラメータ決定方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAMADA MAKOTO, SUZUKI TAIJI, KANAMORI TAKAFUMI, HACHIYA HIROTAKA, SUGIYAMA MASASHI: "Relative Density-Ratio Estimation for Robust Distribution Comparison", NEURAL COMPUTATION, vol. 25, no. 5, 1 March 2013 (2013-03-01), US , pages 1324 - 1370, XP009540293, ISSN: 0899-7667, DOI: 10.1162/NECO_a_00442 *

Also Published As

Publication number Publication date
JPWO2022219686A1 (ja) 2022-10-20
JP7556457B2 (ja) 2024-09-26

Similar Documents

Publication Publication Date Title
US11443190B2 (en) Processing cell images using neural networks
Rudy et al. Deep learning of dynamics and signal-noise decomposition with time-stepping constraints
US20210089964A1 (en) Robust training in the presence of label noise
CN110969250B (zh) 一种神经网络训练方法及装置
JP7178513B2 (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
US11030246B2 (en) Fast and accurate graphlet estimation
KR20160041856A (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
EP3745309A1 (en) Training a generative adversarial network
JP6867276B2 (ja) モデル学習装置、モデル学習方法、および、予測システム
CN113963165B (zh) 一种基于自监督学习的小样本图像分类方法及系统
JP6535134B2 (ja) 作成装置、作成プログラム、および作成方法
JP2021022367A (ja) 画像処理方法及び情報処理装置
CN108229522A (zh) 神经网络的训练方法、属性检测方法、装置及电子设备
JPWO2019171416A1 (ja) 画像分類システム、画像分類方法および画像分類プログラム
US20180018538A1 (en) Feature transformation device, recognition device, feature transformation method and computer readable recording medium
Cowen et al. Lsalsa: accelerated source separation via learned sparse coding
WO2022219686A1 (ja) 密度比推定装置、密度比推定方法および密度比推定プログラム
US11756319B2 (en) Shift invariant loss for deep learning based image segmentation
CN114462581A (zh) 网络结构搜索方法和装置
CN113569960B (zh) 基于域适应的小样本图像分类方法及系统
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
CN114944204A (zh) 用于管理分子预测的方法、装置、设备和介质
US20230222319A1 (en) Learning method, learning apparatus and program
WO2022219685A1 (ja) 特徴選択装置、特徴選択方法および特徴選択プログラム
CN114187487A (zh) 一种大规模点云数据的处理方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21936889

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514197

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21936889

Country of ref document: EP

Kind code of ref document: A1