WO2022219685A1 - 特徴選択装置、特徴選択方法および特徴選択プログラム - Google Patents

特徴選択装置、特徴選択方法および特徴選択プログラム Download PDF

Info

Publication number
WO2022219685A1
WO2022219685A1 PCT/JP2021/015223 JP2021015223W WO2022219685A1 WO 2022219685 A1 WO2022219685 A1 WO 2022219685A1 JP 2021015223 W JP2021015223 W JP 2021015223W WO 2022219685 A1 WO2022219685 A1 WO 2022219685A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
data
feature selection
pseudo
learning
Prior art date
Application number
PCT/JP2021/015223
Other languages
English (en)
French (fr)
Inventor
充敏 熊谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023514196A priority Critical patent/JPWO2022219685A1/ja
Priority to PCT/JP2021/015223 priority patent/WO2022219685A1/ja
Publication of WO2022219685A1 publication Critical patent/WO2022219685A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a feature selection device, a feature selection method, and a feature selection program.
  • Non-Patent Documents 1 and 2 In recent years, unsupervised feature extraction techniques for extracting important feature quantities from unlabeled data have been disclosed (see Non-Patent Documents 1 and 2). As a result, by extracting important feature values, the interpretability of data analysis can be improved, and in clustering and post-clustering processing, only the extracted feature values can be used to speed up processing. becomes possible.
  • the conventional technology requires a large amount of unlabeled data, it may be difficult to prepare a large amount of data. For example, when analyzing user behavior from data such as user purchasing behavior, it is difficult to obtain a large amount of data on new users and users with low usage frequency. Similarly, it is difficult to obtain a large amount of new device data, even if one wants to analyze the characteristics of the device from the data of the new device.
  • the present invention has been made in view of the above, and aims to extract important features from a small amount of unlabeled data.
  • a feature selection apparatus selects related data having the same configuration of feature amounts as data to be processed for feature selection but different values of the feature amounts. and an acquiring unit that acquires the related data selected from the acquired related data as pseudo-learning data or pseudo-test data, and when the pseudo-learning data is input to the model, a feature amount that satisfies a predetermined condition is selected.
  • a learning unit that learns the model using the pseudo learning data and the pseudo test data
  • FIG. 1 is a diagram for explaining the outline of a feature selection device.
  • FIG. 2 is a diagram for explaining the outline of the feature selection device.
  • FIG. 3 is a schematic diagram illustrating a schematic configuration of the feature selection device.
  • FIG. 4 is a diagram for explaining the feature selection model.
  • FIG. 5 is a diagram for explaining the processing of the feature selection model learning unit.
  • FIG. 6 is a flow chart showing the learning processing procedure.
  • FIG. 7 is a flow chart showing the selection processing procedure.
  • FIG. 8 is a diagram illustrating a computer executing a feature selection program.
  • FIGS. 1 and 2 are diagrams for explaining the outline of the feature selection device.
  • the feature selection device uses unsupervised machine learning to select only important feature amounts from the feature amounts of unlabeled data (hereinafter also referred to as unsupervised feature selection).
  • the feature selection device of the present embodiment uses a small amount of unlabeled data as a target dataset from which feature quantities are to be selected, and utilizes unlabeled data, which are a plurality of related datasets, to accurately select important data from the target dataset. Perform feature selection. Specifically, as shown in FIG. 2, in the learning phase, the feature selection device learns a model that accurately selects important features from a small amount of unlabeled data using only the data of the relevant dataset. That is, for each relevant data set, the feature selection device performs learning so that, when feature selection is performed from a small number of samples, accuracy is explicitly improved for other samples.
  • the feature selection device performs feature selection of the target dataset by inputting the target dataset into the learned model.
  • the related data set is, for example, an image of the same subject with different colors, which has the same feature amount (name) as the target data set, but has different conditions and a distribution of the value of each feature amount. Means different datasets.
  • FIG. 3 is a schematic diagram illustrating a schematic configuration of the feature selection device.
  • a feature selection device 1 according to the present embodiment is implemented by a general-purpose computer such as a workstation or a personal computer, and executes feature selection processing, which will be described later.
  • the feature selection device 1 of this embodiment has a learning unit 10 that performs learning processing and a selection unit 20 that performs selection processing.
  • the learning unit 10 uses a plurality of related data sets (unlabeled data) to learn the feature selection model 14a.
  • the selection unit 20 uses the feature selection model 14a learned by the learning unit 10 to perform selection processing for selecting important feature amounts of the target data set.
  • the selection unit 20 may be implemented in the same hardware as the learning unit 10, or may be implemented in different hardware.
  • the learning unit 10 has a learning data input unit 11 , a feature extraction unit 12 , a feature selection model learning unit 13 and a storage unit 14 .
  • the learning data input unit 11 is implemented using input devices such as a keyboard and a mouse, and inputs various instruction information to the control unit in response to input operations by the operator.
  • the learning data input unit 11 functions as an acquisition unit, and is a related data set (unlabeled data).
  • the related data set may be input to the learning unit 10 from an external server device or the like via a communication control unit (not shown) realized by a NIC (Network Interface Card) or the like.
  • a communication control unit not shown
  • NIC Network Interface Card
  • the control unit is implemented using a CPU (Central Processing Unit) or the like that executes a processing program, and functions as the feature extraction unit 12 and the feature selection model learning unit 13.
  • a CPU Central Processing Unit
  • the control unit is implemented using a CPU (Central Processing Unit) or the like that executes a processing program, and functions as the feature extraction unit 12 and the feature selection model learning unit 13.
  • the feature extraction unit 12 converts each sample of the acquired related data set into a feature vector in preparation for processing in the feature selection model learning unit 13, which will be described later.
  • the feature vector is an n-dimensional numerical vector representing the features of the necessary data.
  • the feature extraction unit 12 uses a technique commonly used in machine learning to perform conversion into feature vectors. For example, when the data is text, the feature extraction unit 12 can apply a method using morphological analysis, a method using n-grams, a method using delimiters, and the like.
  • the feature selection model learning unit 13 functions as a learning unit. In other words, the feature selection model learning unit 13 sets the related data selected from the acquired related data set as the pseudo learning data or the pseudo test data, and when the pseudo learning data is input to the feature selection model 14a, the predetermined condition is set.
  • the pseudo-learning data and pseudo-testing data are used to train the feature selection model 14a so as to select satisfying feature quantities.
  • the feature selection model learning unit 13 uses the data after the feature extraction unit 12 has extracted the features, from each data set, a small amount of samples for pseudo learning (pseudo learning data), Randomly select samples (pseudo test data). Then, the feature selection model learning unit 13 performs explicit learning so that the selected feature satisfies a predetermined condition even in the pseudo test sample when performing feature selection on the pseudo learning sample.
  • the predetermined conditions are conditions for selecting important feature quantities, such as the ability to restore the original sample or the ability to restore the relationship between the original samples. That is, the feature selection model learning unit 13 determines that the pseudo test sample can be restored or the relationship between the pseudo test samples can be restored by inversely transforming the feature quantity selected from the pseudo learning samples. , the feature selection model 14a is learned.
  • NN Neurons
  • Any NN (Neural Networks)-based model such as a concrete autoencoder is applied as the feature selection model 14a.
  • X d be the dataset of the d th unlabeled data.
  • xn ⁇ Xd represents the M-dimensional feature vector of the nth sample of the dth data set. It is also assumed that the dimension M of feature vectors is the same for all datasets.
  • the feature selection device 1 converts the target data set given by the following formula (2) in the test (selection) phase to The feature selection model 14a is trained to select at most K suitable features.
  • the feature selection model 14a includes a selector that selects a feature amount when data is input, and restores the data input to the selector when the data in which the feature amount is selected is input. and a decoder.
  • FIG. 4 is a diagram for explaining the feature selection model.
  • the feature selection model 14a is composed of two components, a Feature selector and a Decoder.
  • a feature selector receives as input a small amount of unlabeled data (hereinafter referred to as support set) randomly selected from each data set and selects features.
  • the Decoder is also trained to take as input a feature-selected test sample u selected from the same dataset and recover the original sample x.
  • the fact that the entire feature quantity can be restored from a part of the feature quantity means that the non-selected feature quantity can be expressed by non-linear transformation of the selected feature quantity.
  • feature amounts that are not selected can be said to be redundant feature amounts.
  • the k-th selected feature amount (hereinafter also referred to as the selected feature) is given by the following formula: (3).
  • the Concrete random variable is a continuous approximation version of the samples from the categorical distribution, which in the limit ⁇ 0 agrees with the samples from the categorical distribution.
  • z (k) (S) in the above equation (3) approaches a uniform vector in which all components in the vector have the same value.
  • is sufficiently small, it approaches a one-hot vector where only one component is 1 and the others are 0. That is, when ⁇ is sufficiently small, the value of x corresponding to 1 is entered in u (k) , and one feature amount is selected.
  • the feature selector selects a feature amount corresponding to each k. Therefore, considering the case of duplicate selection, at most K feature quantities are selected by the feature selector.
  • ⁇ (k) (S) the larger the component in the vector, the more likely it is to be selected, and which feature quantity is likely to be selected depends on the parameter ⁇ (k) (S).
  • ⁇ (k) (S) depends on the support set S, so appropriate learning allows the parameter ⁇ (k) (S) suitable for S according to the support set S is output, i.e. the appropriate feature is expected to be selected.
  • the parameter ⁇ (k) (S) is modeled by a permutation invariant neural network shown in the following equation (4).
  • f, g are arbitrary feedforward neural networks and ⁇ (k) ⁇ R T is a parameter defined for each k.
  • RT is the number of dimensions, and T is an arbitrary number set by the user.
  • the Decoder approximates the transformation from the selected feature u(x;S) to the original full feature x by nonlinear transformation, as shown in the following equation (5).
  • r(S) is a quantity modeled by a permutation-invariant neural network. Since r(S) depends on the support set S, equation (5) above represents a decoder specific to the dataset.
  • FIG. 5 is a diagram for explaining the processing of the feature selection model learning unit.
  • FIG. 5 illustrates pseudo code for the processing of the feature selection model learning unit 13 .
  • the objective function for learning the feature selection model 14a is represented by the following equation (6).
  • the useful knowledge obtained by learning on the related datasets can be applied to properly extract important features from the target dataset as well. You are expected to be able to make choices. Note that the number of related data sets may be one.
  • the storage unit 14 is implemented by a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • a learned feature selection model 14a is stored in the storage unit 14 of the present embodiment.
  • the selection unit 20 has a data input unit 21 , a feature extraction unit 22 , a feature selection unit 23 and a result output unit 24 .
  • the data input unit 21 is implemented using an input device such as a keyboard and a mouse, and inputs various instruction information to the control unit in response to input operations by the operator, and inputs target data to be subjected to feature selection processing. Accept the set.
  • the target data set may be input to the selection unit 20 from an external server device or the like via a communication control unit (not shown) realized by a NIC or the like.
  • the data input unit 21 may be the same hardware as the learning data input unit 11 .
  • the control unit is implemented using a CPU or the like that executes a processing program, and has a feature extraction unit 22 and a feature selection unit 23 .
  • the feature extraction unit 22 converts each sample of the acquired target data set into a feature vector in preparation for processing in the feature selection unit 23.
  • the feature selection unit 23 functions as a selection unit, and selects important feature amounts from the target data set, which is data to be processed for feature selection, using the learned feature selection model 14a. Specifically, the feature selection unit 23 selects the K-th feature amount from the target data set Xd' as shown in the following equation (7).
  • the result output unit 24 is realized by a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, etc., and outputs the result of the feature selection process to the operator. For example, it outputs important features selected from an input target dataset.
  • FIG. Feature selection processing of the feature selection device 1 includes learning processing by the learning unit 10 and selection processing by the selection unit 20 .
  • FIG. 6 is a flowchart illustrating a learning processing procedure. The flowchart of FIG. 6 is started, for example, at the timing when the user inputs an instruction to start the learning process.
  • the learning data input unit 11 receives an input of a related data set (unlabeled data) having the same configuration of feature values as the target data set to be processed for feature selection, but different values of the feature values (step S1). .
  • the feature extraction unit 12 converts each sample of the received related data set into a feature vector (step S2).
  • the feature selection model learning unit 13 uses a pseudo learning sample and a pseudo test sample selected from the acquired related data set and inputs the pseudo test sample to the feature selection model 14a
  • the pseudo-learning sample is used to learn the feature selection model 14a so as to select a feature amount that satisfies a predetermined condition (step S3).
  • the feature selection model learning unit 13 can restore the pseudo-learning sample or restore the relationship between the pseudo-learning samples by inversely transforming the feature quantity selected from the pseudo-learning samples. , the feature selection model 14a is learned.
  • the feature selection model learning unit 13 stores the learned feature selection model 14 a in the storage unit 14 .
  • FIG. 7 is a flowchart illustrating a selection processing procedure.
  • the flowchart of FIG. 7 is started, for example, at the timing when the user inputs an instruction to start the selection process.
  • the data input unit 21 receives a target data set (a small amount of unlabeled data) to be processed (step S11), and the feature extraction unit 22 converts each sample of the received target data set into a feature vector (step S11). S12).
  • the feature selection unit 23 selects feature quantities from the target data set using the learned feature selection model 14a (step S13). Then, the result output unit 24 outputs the feature selection result, that is, outputs the selected important feature quantity (step S14).
  • the learning data input unit 11 acquires a related data set that has the same configuration of feature amounts as the target data set to be processed for feature selection, but different values of feature amounts. do.
  • the feature selection model learning unit 13 inputs the related data selected from the acquired related data set as the pseudo learning data or the pseudo test data to the feature selection model 14a
  • the feature selection model 14a receives the The pseudo-learning data and pseudo-testing data are used to train a feature selection model 14a to select a quantity.
  • the feature selection device 1 learns using the related datasets, so that the important feature values can be obtained with high accuracy without performing re-learning, which requires high-cost calculations, on any target dataset. can be selected.
  • the feature selection device 1 can utilize useful information of related data sets to select important feature amounts of a small number of target data sets with high accuracy. Therefore, even if only a small amount of unlabeled data set is obtained, it is possible to select important feature quantities with high accuracy at low cost. This improves the performance of data analysis on small unlabeled datasets.
  • the feature selection model learning unit 13 can restore the pseudo test data or restore the relationship between the pseudo test data by inversely transforming the feature amount selected from the pseudo learning data. , learns the feature selection model 14a. As a result, the feature selection device 1 can eliminate redundant feature amounts and select only important feature amounts.
  • the feature selection model 14a has a selector that selects a feature amount when data is input, and a decoder that restores the data input to the selector when the data whose feature amount is selected is input. .
  • the feature selection device 1 can eliminate redundant feature amounts and select only important feature amounts.
  • the feature selection unit 23 selects feature amounts from the target data set to be processed for feature selection using the learned feature selection model 14a. As a result, even if only a small amount of unlabeled data set is available, it is possible to select important features with high accuracy at low cost.
  • the feature selection device 1 can be implemented by installing a feature selection program for executing the feature selection process as package software or online software in a desired computer.
  • the information processing device can function as the feature selection device 1 by causing the information processing device to execute the above feature selection program.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the functions of the feature selection device 1 may be implemented in a cloud server.
  • FIG. 8 is a diagram showing an example of a computer that executes a feature selection program.
  • Computer 1000 includes, for example, memory 1010 , CPU 1020 , hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1031 .
  • Disk drive interface 1040 is connected to disk drive 1041 .
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example.
  • a display 1061 is connected to the video adapter 1060 .
  • the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Each piece of information described in the above embodiment is stored in the hard disk drive 1031 or the memory 1010, for example.
  • the feature selection program is stored in the hard disk drive 1031, for example, as a program module 1093 in which commands to be executed by the computer 1000 are described.
  • the hard disk drive 1031 stores a program module 1093 that describes each process executed by the feature selection device 1 described in the above embodiment.
  • Data used for information processing by the feature selection program is stored as program data 1094 in the hard disk drive 1031, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure described above.
  • program module 1093 and program data 1094 related to the feature selection program are not limited to being stored in the hard disk drive 1031.
  • they may be stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. may be issued.
  • the program module 1093 and program data 1094 related to the feature selection program are stored in another computer connected via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and via network interface 1070 may be read by the CPU 1020 at the same time.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

学習データ入力部(11)が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって目標データセットとは異なる関連データセットを取得する。特徴選択モデル学習部(13)が、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル(14a)に入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、特徴選択モデル(14a)を学習する。

Description

特徴選択装置、特徴選択方法および特徴選択プログラム
 本発明は、特徴選択装置、特徴選択方法および特徴選択プログラムに関する。
 近年、ラベルなしデータから重要な特徴量を抽出する教師なし特徴抽出の技術が開示されている(非特許文献1,2参照)。これにより、重要な特徴量を抽出することにより、データ分析において解釈性が向上したり、クラスタリングやクラスタリングの後処理において、抽出された特徴量のみを対象にすることにより処理を高速化したりすることが可能となる。
Abubakar Abid, Muhammed Fatih Balin, James Zou, "Concrete Autoencoders: Differentiable Feature Selection and Reconstruction" International Conference on Machine Learning. PMLR, 2019年, pp.444-453 Xiaofei He, Deng Cai, Partha Niyogi, "Laplacian Score for Feature Selection" Advances in neural information processing systems 18 (2005), pp.507-514
 しかしながら、従来の技術は大量のラベルなしデータを必要とするものの、大量のデータを用意することが困難な場合がある。例えば、ユーザの購買行動等のデータから利用ユーザの行動を分析する場合に、新規ユーザや利用頻度の低いユーザのデータを大量に得ることは困難である。同様に、新しい機器のデータから機器の特性を分析したくても、新しい機器のデータを大量に得ることは困難である。
 本発明は、上記に鑑みてなされたものであって、少量のラベルなしデータから重要な特徴量を抽出することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る特徴選択装置は、特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得部と、取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、を有することを特徴とする。
 本発明によれば、少量のラベルなしデータから重要な特徴量を抽出することが可能となる。
図1は、特徴選択装置の概要を説明するための図である。 図2は、特徴選択装置の概要を説明するための図である。 図3は、特徴選択装置の概略構成を例示する模式図である。 図4は、特徴選択モデルを説明するための図である。 図5は、特徴選択モデル学習部の処理を説明するための図である。 図6は、学習処理手順を示すフローチャートである。 図7は、選択処理手順を示すフローチャートである。 図8は、特徴選択プログラムを実行するコンピュータを例示する図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[特徴選択装置の概要]
 まず、図1および図2は、特徴選択装置の概要を説明するための図である。図1に示すように、特徴選択装置は、教師なし機械学習により、ラベルなしデータの特徴量のうち、重要な特徴量のみを選択(以下、教師なし特徴選択とも記す)する。
 本実施形態の特徴選択装置は、少量のラベルなしデータを、特徴量を選択したい目標データセットとして、複数の関連するデータセットであるラベルなしデータを活用して、目標データセットから精度よく重要な特徴選択を行う。具体的には、図2に示すように、特徴選択装置は、学習フェーズにおいて、関連データセットのデータのみを用いて、少量のラベルなしデータから精度よく重要な特徴選択を行うモデルを学習する。すなわち、特徴選択装置は、各関連データセットについて、少量のサンプルから特徴選択を行った場合に、それ以外のサンプルで精度が明示的に向上するように学習を行う。
 また、特徴選択装置は、テスト(選択)フェーズにおいて、学習されたモデルに目標データセットを入力することにより、目標データセットの特徴選択を行う。
 なお、関連データセットとは、例えば、同一の被写体についての色味の異なる画像等、目標データセットと構成する特徴量(名)が同一であって、条件が異なり各特徴量の値の分布が異なるデータセットを意味する。
[特徴選択装置の構成]
 次に、図3は、特徴選択装置の概略構成を例示する模式図である。本実施形態に係る特徴選択装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、後述する特徴選択処理を実行する。
 本実施形態の特徴選択装置1は、図3に示すように、学習処理を行う学習部10と、選択処理を行う選択部20とを有する。学習部10は、複数の関連データセット(ラベルなしデータ)を用いて、特徴選択モデル14aを学習する。選択部20は、学習部10により学習された特徴選択モデル14aを用いて目標データセットの重要な特徴量を選択する選択処理を行う。選択部20は、学習部10と同一のハードウェアに実装されてもよいし、異なるハードウェアに実装されてもよい。
[学習部]
 学習部10は、学習データ入力部11、特徴抽出部12、特徴選択モデル学習部13、および格納部14を有する。
 学習データ入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力する。本実施形態において、学習データ入力部11は、取得部として機能して、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセット(ラベルなしデータ)を取得する。
 なお、関連データセットは、NIC(Network Interface Card)等で実現される図示しない通信制御部を介して、外部のサーバ装置等から学習部10に入力されてもよい。
 制御部は、処理プログラムを実行するCPU(Central Processing Unit)等を用いて実現され、特徴抽出部12、特徴選択モデル学習部13として機能する。
 特徴抽出部12は、後述する特徴選択モデル学習部13における処理の準備として、取得された関連データセットの各サンプルを特徴ベクトルに変換する。ここで、特徴ベクトルとは、必要なデータの特徴をn次元の数ベクトルで表記したものである。特徴抽出部12は、機械学習で一般的に用いられている手法を利用して、特徴ベクトルへの変換を行う。例えば、特徴抽出部12は、データがテキストである場合には、形態素解析による手法、n-gramによる手法、区切り文字による手法等を適用可能である。
 特徴選択モデル学習部13は、学習部として機能する。つまり、特徴選択モデル学習部13は、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル14aに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータを用いて、特徴選択モデル14aを学習する。
 具体的には、特徴選択モデル学習部13は、特徴抽出部12が特徴を抽出した後のデータを用いて、各データセットから、少量の疑似学習用サンプル(疑似学習データ)と、疑似テスト用サンプル(疑似テストデータ)とをランダムに選択する。そして、特徴選択モデル学習部13は、疑似学習用サンプルで特徴選択を実行した際に、その選択特徴が疑似テスト用サンプルでも所定の条件を満たすように、明示的に学習を行う。
 ここで、所定の条件とは、例えば、元のサンプルを復元できる、あるいは元のサンプル間の関係性を復元できる等の、重要な特徴量を選択するための条件である。つまり、特徴選択モデル学習部13は、疑似学習用サンプルから選択した特徴量を逆変換することにより、該疑似テスト用サンプルを復元できること、または該疑似テスト用サンプル間の関係性を復元できることを所定の条件として、特徴選択モデル14aを学習する。
 特徴選択モデル14aとしては、コンクリートオートエンコーダ等の任意のNN(Neural Networks)ベースのモデルが適用される。
 まず、Xをd番目のラベルなしデータのデータセットとする。ここで、x∈Xはd番目のデータセットのn番目のサンプルのM次元特徴ベクトルを表す。また、すべてのデータセットで特徴ベクトルの次元Mは同一と仮定する。
 特徴選択装置1は、学習フェーズにおいて、次式(1)に示すD個の関連データセットが与えられた場合に、テスト(選択)フェーズに与えられた次式(2)に示す目標データセットに適した高々K個の特徴を選択するように、特徴選択モデル14aの学習を行う。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 具体的には、特徴選択モデル14aは、データを入力した場合に特徴量を選択するセレクタ(selector)と、該特徴量が選択されたデータを入力した場合にしたセレクタに入力されたデータを復元するデコーダ(decoder)とを有する。
 ここで、図4は、特徴選択モデルを説明するための図である。図4に示すように、特徴選択モデル14aは、Feature selectorとDecoderとの2つのコンポーネントで構成される。
 Feature selectorは、各データセットからランダムに選択された少量のラベルなしデータ(以下、サポートセットと記す)を入力として受け取り、特徴量を選択する。また、Decoderは、同じデータセットから選択された、特徴量が選択済みのテストサンプルuを入力として受け取り、元のサンプルxを復元するように学習される。
 この場合に、一部の特徴量から全体の特徴量を復元できるということは、選択されなかった特徴量は選択された特徴量の非線形変換により表現できることを意味する。すなわち、選択されなかった特徴量は、冗長な特徴量といえる。
 具体的には、Feature selectorにおいて、あるデータセットからサポートセット(少量のラベルなしデータ)Sが与えられた場合に、k番目の選択された特徴量(以下、選択特徴とも記す)は、次式(3)で表される。
Figure JPOXMLDOC01-appb-M000003
 ここで、Concrete random variableは、カテゴリカル分布からのサンプルの連続近似版であり、τ→0の極限では、カテゴリカル分布からのサンプルと一致する。また、τが大きい場合には、上記式(3)のz(k)(S)は、ベクトル中のすべての成分が同一の値をとる一様ベクトルに近づく。また、τが十分に小さい場合には、1つの成分のみが1でそれ以外が0であるone-hotベクトルに近づく。つまり、τが十分に小さい場合には、u(k)には1に対応するxの値が入り、特徴量が1つ選択されることになる。
 このようにして、Feature selectorにより、各kに対応して、特徴量が選択される。したがって、重複して選択される場合を考慮して、Feature selectorにより、高々K個の特徴量が選択される。
 また、Feature selectorのz(k)(S)において、ベクトル中の大きい成分ほど選択されやすく、どの特徴量が選択されやすいかは、パラメタα(k)(S)に依存する。上記式(3)において、α(k)(S)は、サポートセットSに依存しているため、適切な学習により、サポートセットSに応じて、Sに適したパラメタα(k)(S)が出力されること、すなわち、適切な特徴が選択されることが期待される。
 そこで、パラメタα(k)(S)を次式(4)に示す置換不変ニューラルネットワークでモデル化する。ここで、f、gは任意のフィードフォワードニューラルネットワークであり、π(k)∈Rは、k毎に定義されるパラメタである。また、Rは次元数、Tはユーザが設定する任意の数である。
Figure JPOXMLDOC01-appb-M000004
 π(k)がk毎に違う値をとる場合に、α(k)(S)の値をk毎に変えることができ、k毎に異なる特徴量を選択することができる。上記式(4)では、途中のサンメンションΣにより、サポートセットS内のサンプルの順番に依らず、常に同じ値が出力される。なお、上記式(4)において、π(k)がない場合には、すべてのkに対して同じ値が出力されるため、すべてのkで同じ特徴量が選択されることになる。
 次に、Decoderは、次式(5)に示すように、選択特徴u(x;S)から元の全特徴xへの変換を非線形変換で近似する。
Figure JPOXMLDOC01-appb-M000005
 ここで、r(S)は、置換不変ニューラルネットワークでモデル化される量である。r(S)はサポートセットSに依存していることから、上記式(5)は、データセットに固有のデコーダを表現している。
 次に、図5は、特徴選択モデル学習部の処理を説明するための図である。図5には、特徴選択モデル学習部13の処理の疑似コードが例示されている。ここで、特徴選択モデル14aの学習の際の目的関数は、次式(6)で表される。
Figure JPOXMLDOC01-appb-M000006
 上記式(6)の目的関数では、各関連データセットで、少量のラベルなしデータSを選択してモデルに入力した場合に、同一データセット内の別のサンプル集合Qに対して、Q内の各サンプルがうまく復元できるように学習される。これは、少量のラベルなしデータSからテストデータでうまく動作するような良い特徴選択を明示的に学習することを意味する。
 このように、目標データセットと関連がある様々な関連データセットに対して学習することにより、関連データセットの学習により得た有用な知識を転用して、目標データセットからも適切に重要な特徴選択を行えることが期待される。なお、関連データセットは1つであってもよい。
 図3の説明に戻る。格納部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。本実施形態の格納部14には、学習された特徴選択モデル14aが格納される。
[選択部]
 選択部20は、データ入力部21、特徴抽出部22、特徴選択部23、および結果出力部24を有する。
 データ入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力したり、特徴選択処理の対象の目標データセットを受け付けたりする。
 なお、目標データセットは、NIC等で実現される図示しない通信制御部を介して、外部のサーバ装置等から選択部20に入力されてもよい。また、データ入力部21は、学習データ入力部11と同一のハードウェアでもよい。
 制御部は、処理プログラムを実行するCPU等を用いて実現され、特徴抽出部22と特徴選択部23とを有する。
 特徴抽出部22は、学習部10の特徴抽出部12と同様に、特徴選択部23における処理の準備として、取得された目標データセットの各サンプルを特徴ベクトルに変換する。
 特徴選択部23は、選択部として機能して、特徴選択の処理対象のデータである目標データセットから、学習された特徴選択モデル14aを用いて重要な特徴量を選択する。具体的には、特徴選択部23は、次式(7)に示すように、目標データセットXd’からK番目の特徴量を選択する。
Figure JPOXMLDOC01-appb-M000007
 結果出力部24は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、特徴選択処理の結果を操作者に対して出力する。例えば、入力された目標データセットから選択された重要な特徴量を出力する。
[特徴選択処理]
 次に、図6および図7を参照して、特徴選択装置1による特徴選択処理について説明する。特徴選択装置1の特徴選択処理は、学習部10による学習処理と、選択部20による選択処理とを含む。
[学習処理]
 図6は、学習処理手順を例示するフローチャートである。図6のフローチャートは、例えば、ユーザによる学習処理の開始を指示する操作入力があったタイミングで開始される。
 まず、学習データ入力部11が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセット(ラベルなしデータ)の入力を受け付ける(ステップS1)。次に、特徴抽出部12が、受け付けた関連データセットの各サンプルを特徴ベクトルに変換する(ステップS2)。
 次に、特徴選択モデル学習部13が、取得された関連データセットから選択した疑似学習用サンプルと疑似テスト用サンプルとを用いて、該疑似テスト用サンプルを特徴選択モデル14aに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習用サンプルを用いて、特徴選択モデル14aを学習する(ステップS3)。
 例えば、特徴選択モデル学習部13は、疑似学習用サンプルから選択した特徴量を逆変換することにより、該疑似学習用サンプルを復元できること、または該疑似学習用サンプル間の関係性を復元できることを所定の条件として、特徴選択モデル14aを学習する。
 また、特徴選択モデル学習部13は、学習した特徴選択モデル14aを格納部14に格納する。
[選択処理]
 次に図7は、選択処理手順を例示するフローチャートである。図7のフローチャートは、例えば、ユーザによる選択処理の開始を指示する操作入力があったタイミングで開始される。
 まず、データ入力部21が、処理対象の目標データセット(少量のラベルなしデータ)を受け付け(ステップS11)、特徴抽出部22が、受け付けた目標データセットの各サンプルを特徴ベクトルに変換する(ステップS12)。
 次に、特徴選択部23が、目標データセットから、学習された特徴選択モデル14aを用いて特徴量を選択する(ステップS13)。そして、結果出力部24が、特徴選択結果の出力すなわち選択された重要な特徴量の出力を行う(ステップS14)。
 以上、説明したように、特徴選択装置1において、学習データ入力部11が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセットを取得する。特徴選択モデル学習部13が、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル14aに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、特徴選択モデル14aを学習する。
 このように、特徴選択装置1は、関連データセットを用いて学習することにより、任意の目標データセットに対して高コストな計算を要する再学習を行わなくても、高精度に重要な特徴量を選択することが可能となる。つまり、特徴選択装置1は、関連データセットの有用な情報を活用して、少ない目標データセットの重要な特徴量の選択を高精度に実現することが可能となる。したがって、ラベルなしデータセットが少量しか得られない場合にも、低コストに精度よく重要な特徴量の選択が可能となる。そのため、少量のラベルなしデータセットを対象としたデータ分析の性能が向上する。
 また、特徴選択モデル学習部13は、疑似学習データから選択した特徴量を逆変換することにより、該疑似テストデータを復元できること、または該疑似テストデータ間の関係性を復元できることを所定の条件として、特徴選択モデル14aを学習する。これにより、特徴選択装置1は、冗長な特徴量を排除して重要な特徴量のみを選択することが可能となる。
 また、特徴選択モデル14aは、データを入力した場合に特徴量を選択するセレクタと、該特徴量が選択されたデータを入力した場合にした前記セレクタに入力されたデータを復元するデコーダとを有する。これにより、特徴選択装置1は、冗長な特徴量を排除して重要な特徴量のみを選択することが可能となる。
 また、特徴選択部23が、特徴選択の処理対象の目標データセットから、学習された特徴選択モデル14aを用いて特徴量を選択する。これにより、ラベルなしデータセットが少量しか得られない場合にも、低コストに精度よく重要な特徴量の選択が可能となる。
[プログラム]
 上記実施形態に係る特徴選択装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、特徴選択装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の特徴選択処理を実行する特徴選択プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の特徴選択プログラムを情報処理装置に実行させることにより、情報処理装置を特徴選択装置1として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、特徴選択装置1の機能を、クラウドサーバに実装してもよい。
 図8は、特徴選択プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
 また、特徴選択プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した特徴選択装置1が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、特徴選択プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、特徴選択プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、特徴選択プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
 1 特徴選択装置
 10 学習部
 11 学習データ入力部
 12 特徴抽出部
 13 特徴選択モデル学習部
 14 格納部
 14a 特徴選択モデル
 20 選択部
 21 データ入力部
 22 特徴抽出部
 23 特徴選択部
 24 結果出力部

Claims (6)

  1.  特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得部と、
     取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、
     を有することを特徴とする特徴選択装置。
  2.  前記学習部は、前記疑似学習データから選択した特徴量を逆変換することにより、該疑似テストデータを復元できること、または該疑似テストデータ間の関係性を復元できることを前記所定の条件として、前記モデルを学習することを特徴とする請求項1に記載の特徴選択装置。
  3.  前記モデルは、データを入力した場合に特徴量を選択するセレクタと、該特徴量が選択されたデータを入力した場合にした前記セレクタに入力されたデータを復元するデコーダとを有することを特徴とする請求項1に記載の特徴選択装置。
  4.  前記特徴選択の処理対象のデータから、学習された前記モデルを用いて特徴量を選択する選択部を、さらに有することを特徴とする請求項1に記載の特徴選択装置。
  5.  特徴選択装置が実行する特徴選択方法であって、
     特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得工程と、
     取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習工程と、
     を含んだことを特徴とする特徴選択方法。
  6.  コンピュータに、
     特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得ステップと、
     取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習ステップと、
     を実行させることを特徴とする特徴選択プログラム。
PCT/JP2021/015223 2021-04-12 2021-04-12 特徴選択装置、特徴選択方法および特徴選択プログラム WO2022219685A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023514196A JPWO2022219685A1 (ja) 2021-04-12 2021-04-12
PCT/JP2021/015223 WO2022219685A1 (ja) 2021-04-12 2021-04-12 特徴選択装置、特徴選択方法および特徴選択プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015223 WO2022219685A1 (ja) 2021-04-12 2021-04-12 特徴選択装置、特徴選択方法および特徴選択プログラム

Publications (1)

Publication Number Publication Date
WO2022219685A1 true WO2022219685A1 (ja) 2022-10-20

Family

ID=83639826

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015223 WO2022219685A1 (ja) 2021-04-12 2021-04-12 特徴選択装置、特徴選択方法および特徴選択プログラム

Country Status (2)

Country Link
JP (1) JPWO2022219685A1 (ja)
WO (1) WO2022219685A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213153A1 (en) * 2016-01-22 2017-07-27 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for embedded unsupervised feature selection
JP2018185794A (ja) * 2017-03-09 2018-11-22 ゼネラル・エレクトリック・カンパニイ 送電網におけるサイバー脅威を検出するための複数モデル複数領域の特徴発見
WO2019107315A1 (ja) * 2017-11-28 2019-06-06 国立研究開発法人産業技術総合研究所 モニタリング対象機器の異常発生予兆検知方法及びシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213153A1 (en) * 2016-01-22 2017-07-27 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for embedded unsupervised feature selection
JP2018185794A (ja) * 2017-03-09 2018-11-22 ゼネラル・エレクトリック・カンパニイ 送電網におけるサイバー脅威を検出するための複数モデル複数領域の特徴発見
WO2019107315A1 (ja) * 2017-11-28 2019-06-06 国立研究開発法人産業技術総合研究所 モニタリング対象機器の異常発生予兆検知方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAGUSHI, YOSHIHIRO: "Principal Component Analysis based unsupervised Feature Extraction applied to Bioinformatics", IEICE TECHNICAL REPORT, IBISML, vol. 116, no. 300 (IBISML2016-47), 16 November 2016 (2016-11-16), pages 17 - 24, XP009540528 *

Also Published As

Publication number Publication date
JPWO2022219685A1 (ja) 2022-10-20

Similar Documents

Publication Publication Date Title
US20190258925A1 (en) Performing attribute-aware based tasks via an attention-controlled neural network
CN109919252B (zh) 利用少数标注图像生成分类器的方法
JP7178513B2 (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
US12002289B2 (en) Expression recognition method and apparatus, computer device, and readable storage medium
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
WO2021059388A1 (ja) 学習装置、画像処理装置、学習方法及び学習プログラム
JP6867276B2 (ja) モデル学習装置、モデル学習方法、および、予測システム
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN116543388B (zh) 一种基于语义引导信息的条件式图像生成方法及相关装置
CN114067119A (zh) 全景分割模型的训练方法、全景分割方法及装置
CN113011531A (zh) 分类模型训练方法、装置、终端设备及存储介质
CN115659175A (zh) 一种面向微服务资源的多模态数据分析方法、装置及介质
CN113688955B (zh) 文本识别方法、装置、设备及介质
CN113850298A (zh) 一种图像识别方法、装置及相关设备
Cowen et al. Lsalsa: accelerated source separation via learned sparse coding
WO2022219685A1 (ja) 特徴選択装置、特徴選択方法および特徴選択プログラム
US20230154069A1 (en) Magnetic Resource Imaging Method Using Score-based Diffusion Model And Apparatus thereof
CN108364067B (zh) 基于数据分割的深度学习方法以及机器人系统
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
Rodin et al. Document image quality assessment via explicit blur and text size estimation
CN113569960A (zh) 基于域适应的小样本图像分类方法及系统
Huang et al. A Novel Face Super‐Resolution Method Based on Parallel Imaging and OpenVINO
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21936888

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514196

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21936888

Country of ref document: EP

Kind code of ref document: A1