WO2018235568A1 - 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム - Google Patents

特徴量選択装置、特徴量選択方法及び特徴量選択プログラム Download PDF

Info

Publication number
WO2018235568A1
WO2018235568A1 PCT/JP2018/021253 JP2018021253W WO2018235568A1 WO 2018235568 A1 WO2018235568 A1 WO 2018235568A1 JP 2018021253 W JP2018021253 W JP 2018021253W WO 2018235568 A1 WO2018235568 A1 WO 2018235568A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
binary variable
objective function
value
term
Prior art date
Application number
PCT/JP2018/021253
Other languages
English (en)
French (fr)
Inventor
耕太郎 棚橋
慎一 高柳
宗 田中
Original Assignee
株式会社リクルートコミュニケーションズ
学校法人早稲田大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社リクルートコミュニケーションズ, 学校法人早稲田大学 filed Critical 株式会社リクルートコミュニケーションズ
Priority to JP2019525319A priority Critical patent/JP7068299B2/ja
Publication of WO2018235568A1 publication Critical patent/WO2018235568A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena

Definitions

  • the present invention relates to a feature amount selection device, a feature amount selection method, and a feature amount selection program.
  • the feature amount is diverse, such as the profile of the user, the type of browser, the type of user terminal, the type of OS (Operating System) and the time stamp.
  • the number of feature quantities is, for example, 100
  • the number of feature quantity combinations is approximately 10 30 and it is virtually impossible to find the optimum combination of feature quantities by a simple search. Therefore, conventionally, there are cases where the number of feature amounts is reduced by L1 regularization, or an optimal combination of feature amounts is approximately searched by the random forest method.
  • w i is defined to minimize the objective function including the sum of the squared error of the binary classification and the L 0 regularization term of w i .
  • such a w i it is determined by the quantum annealing machine.
  • Non-Patent Document 1 an optimal combination of weak learners is determined using a quantum annealing machine, which is a type of Ising machine that stochastically determines the value of a binary variable that minimizes or maximizes an objective function.
  • the objective function which is used in non-patent document 1 includes L0 regularization term, while reducing the number of w i to take the value of 1, w i that minimizes the square error of the binary classification Seeking.
  • Non-Patent Document 1 uses the number of feature quantities used by the strong learner. Is not necessarily small, and redundant feature quantities may not be excluded.
  • a feature amount selection device capable of selecting a feature amount that improves analysis accuracy of a strong learning device while reducing the number of feature amounts to be selected using an Ising machine, feature amount selection Provided are a method and a feature amount selection program.
  • a feature quantity selection apparatus is a feature that selects a feature quantity using an Ising machine that stochastically obtains a value of a binary variable that minimizes or maximizes an objective function having a binary variable as an argument.
  • a quantity selecting apparatus which is a strong integrated output of one or more weak learners selected by a first binary variable among a plurality of weak learners which receive all or part of a plurality of feature quantities.
  • a first setting unit that sets a term representing an error of the output of the learning device as an objective function; a second setting unit that sets a first regularization term representing the number of one or more weak learners as an objective function;
  • a third setting unit configured to set, as an objective function, a second regularization term representing a number excluding one or more duplicate feature amounts input to one or more weak learners among the feature amounts of Get the value of the first binary variable that minimizes or maximizes the objective function It comprises an acquisition unit, based on the value of the first binary variable, a selector for selecting one or more features from a plurality of feature amount.
  • the j-th weak learning when referring to vessels h j (x) is the i-th 0 when no inputs the feature quantity x i and becomes the matrix and the F ij
  • F ij w j May include a term represented by
  • the second regularization term a value obtained by ORing binary values representing whether or not a plurality of feature quantities are input to a weak learning device over a plurality of weak learning devices.
  • the number excluding the duplication of one or more feature quantities input to one or more weak learners is obtained.
  • a value obtained by ORing binary values representing whether or not a plurality of feature quantities are input to a weak learning device over a plurality of weak learning devices is rewritten into a negative conjunction according to De Morgan's law.
  • the second regularization term can be represented by a bit-flip polynomial of the first binary variable, and can be an expression suitable for implementation on the Ising machine.
  • the second regularization term may include a term that represents a first constraint that constrains the bit flip of the first binary variable to be equal to the second binary variable.
  • bit flip of the first binary variable can be replaced with the second binary variable
  • second regularization term is represented by a polynomial of the second binary variable, which is suitable for implementation on the Ising machine Can be expressed as
  • the third setting unit sets the product of bit flips of the two first binary variables to 1 It may be replaced with the third binary variable of
  • the degree of the binary variable included in the objective function can be set to 2 or less
  • the second regularization term is a quadratic equation of the bit flip of the first binary variable and the third binary variable. It can be a table expression that is suitable for implementation on the Ising machine.
  • the second regularization term constrains so that the product of bit flips of the two first binary variables replaced by the third setting unit is equal to the third binary variable of one. It may include a term representing a condition.
  • the product of bit flips of two first binary variables can be replaced with the third binary variable
  • the second regularization term can be replaced by the bit flip of the first binary variable
  • the third binary variable Can be represented by a quadratic expression of to be an expression suitable for implementation on the Ising machine.
  • the second constraint condition is ⁇ [( ⁇ w j ) ( ⁇ w k ) -2 It includes a term expressed by ( ⁇ w j + ⁇ w k) u l + 3u l], sum, j where substitutions were made by the third setting unit, k, may be performed for the set of l.
  • a feature selection method selects a feature using an Ising machine that stochastically obtains the value of a binary variable that minimizes or maximizes an objective function that takes a binary variable as an argument.
  • a feature quantity selection method which integrates the outputs of one or more weak learners selected by a first binary variable among a plurality of weak learners that receive all or part of a plurality of feature quantities.
  • a feature quantity selection program selects a feature quantity using an Ising machine that stochastically obtains the value of a binary variable that minimizes or maximizes an objective function whose argument is a binary variable.
  • An output of one or a plurality of weak learners selected by a first binary variable among a plurality of weak learners which receive all or part of a plurality of feature quantities as a computer provided in the feature quantity selection device A first setting unit that sets, as an objective function, a term that represents an error in the output of the strong learning device obtained by integrating the first and second setting units that sets, as an objective function, a first regularization term that represents the number of one or more weak learners
  • a third setting unit which sets, as an objective function, a second regularization term representing a number excluding one or more duplicate feature amounts input to one or more weak learners among a plurality of feature amounts The first two to minimize or maximize the objective function determined by the machine Acquisition unit for acquiring the value of a variable, and based on the value of the first binary variable, selector for
  • a feature quantity selection device capable of selecting a feature quantity that improves analysis accuracy of a strong learning device while reducing the number of feature quantities to be selected using an Ising machine, feature quantity selection A method and feature amount selection program are provided.
  • the present embodiment an embodiment according to one aspect of the present invention (hereinafter referred to as “the present embodiment”) will be described based on the drawings.
  • symbol in each figure has the same or same structure.
  • FIG. 1 is a diagram showing an outline of a feature selection system 100 according to an embodiment of the present invention.
  • the feature quantity selection system 100 includes a feature quantity selection device 10, an Ising machine 20, and a database 40.
  • the feature quantity selection device 10, the Ising machine 20, and the database 40 are connected to one another via the communication network N.
  • the configuration shown in the figure is an example of the feature quantity selection system 100, and the feature quantity selection apparatus 10, the Ising machine 20, and the database 40 do not necessarily have to be separate apparatuses, and some of them are apparatuses May be configured by
  • the feature quantity selection device 10 selects a feature quantity using the Ising machine 20 which stochastically obtains the value of a binary variable that minimizes or maximizes an objective function having a binary variable as an argument.
  • the feature selection device 10 may be configured by a conventional computer, that is, a Neumann-type computer. In the present specification, a case will be described in which the feature amount selection device 10 sets the Ising machine 20 for stochastically obtaining the value of a binary variable that minimizes an objective function having a binary variable as an argument. However, if the sign of the entire objective function is reversed, it is also possible to set the Ising machine 20 which stochastically obtains the value of the binary variable maximizing the objective function having the binary variable as an argument.
  • the Ising machine 20 may be a device for stochastically obtaining a value of a binary variable which minimizes or maximizes an objective function having a binary variable as an argument, and the binary variable is realized by classical bits or qubits. You may The Ising machine 20 may be a non-Neumann-type computer, or may be a computer that executes Natural computing.
  • the Ising machine 20 may be configured by a quantum annealing machine, a field-programmable gate array (FPGA), a complementary metal oxide semiconductor (CMOS), an application specific integrated circuit (ASIC) or the like, and an objective function using a binary variable as an argument Any hardware may be used as long as it stochastically determines the value of the binary variable to be minimized or maximized, and the quantum phenomenon is used in the process of determining the minimum or maximum of the objective function It may or may not be used.
  • the objective function may include a linear function and a quadratic function of a binary variable, and the feature quantity selection device 10 may set the coefficient of the linear function and the coefficient of the quadratic function according to the application.
  • the database 40 stores a plurality of feature quantities to be selected by the feature quantity selection device 10.
  • the plurality of feature quantities may be arbitrary data.
  • the profile of the user, the type of browser, the type of user terminal, the type of OS, time It may include data such as stamp, access area, type of Internet advertisement, content of Internet advertisement, purchase price, and name of purchase item.
  • a plurality of feature amounts are user profile, browser type, user terminal type, OS type, time stamp, access area, internet advertisement May include data such as the type of Internet advertisement, the content of the advertisement, the amount of accommodation, and the name of the accommodation facility.
  • FIG. 2 is a diagram showing functional blocks of the feature quantity selection device 10 according to the present embodiment.
  • the feature amount selection device 10 includes a first setting unit 11, a second setting unit 12, a third setting unit 13, an acquisition unit 14, and a selection unit 15.
  • the first setting unit 11 combines the outputs of one or more weak learners selected by the first binary variable among a plurality of weak learners that receive all or part of a plurality of feature quantities.
  • the term representing the error of the output of the learning device is set in the objective function of the Ising machine 20.
  • the database 40 may store S set of data (x (s) , t (s) ) as learning data.
  • the second setting unit 12 sets, as an objective function of the Ising machine 20, a first regularization term representing the number of one or more weak learners selected by the first binary variable.
  • the number of one or more weak learners selected by the first binary variable can be expressed by counting up the number of first binary variables taking a value of one. That is, the first regularization term may be ⁇
  • the term s 1S h j (x (s) ) t (s) ) may be included.
  • the third setting unit 13 is a second that represents the number of the plurality of feature amounts excluding the duplication of the one or more feature amounts input to the one or more weak learners selected by the first binary variable.
  • the regularization term is set to the objective function of the Ising machine 20. More specifically, it becomes 1 when the j-th weak learning device h j (x) receives the i-th feature quantity x i , and the j-th weak learning device h j (x) has the i-th feature
  • the second regularization term may include a term expressed as
  • ⁇ j 1 N F ij w j
  • the second regularization term can be used to obtain a value obtained by ORing the first binary variable indicating whether or not a plurality of feature quantities are input to a weak learning device over a plurality of weak learning devices. Thereby, the number excluding the duplication of one or more feature quantities input to one or more weak learners is obtained.
  • ⁇ j 1 N F ij w j
  • ⁇ 1 is an undetermined multiplier.
  • the acquisition unit 14 acquires the value of the first binary variable which is obtained by the Ising machine 20 and minimizes or maximizes the objective function.
  • the Ising machine 20 may obtain, for example, the value of the first binary variable that minimizes the objective function including the term representing the error of the output of the strong learning device, the first regularization term, and the second regularization term, and obtains
  • the unit 14 may obtain the value of the first binary variable which is obtained by the Ising machine 20 and which minimizes the objective function.
  • the selection unit 15 selects one or more feature amounts from the plurality of feature amounts based on the acquired value of the first binary variable.
  • One or more feature quantities may be selected.
  • the objective function set in the Ising machine 20 includes the second regularization term representing the number of feature amounts used by the strong learning device, the number of the feature amounts used by the strong learning device decreases. The value of the binary variable will be determined.
  • the second regularization term in the objective function weak learners using redundant feature quantities can be excluded, and redundant feature quantities can not be used by the strong learner. Therefore, using the Ising machine 20, it is possible to select a feature amount that improves the analysis accuracy of the strong learning device while reducing the number of feature amounts to be selected.
  • the second regularization term can be represented by a bit-flip polynomial of the first binary variable, and can be a formula suitable for implementation on the Ising machine 20.
  • the second regularization term may include a term that represents a first constraint that constrains the bit flip of the first binary variable to be equal to the second binary variable.
  • the bit flip of the first binary variable can be replaced with the second binary variable
  • the second regularization term is represented by the polynomial of the second binary variable, and a expression suitable for implementation on the Ising machine It can be done.
  • the Ising machine 20 obtains the value of the first binary variable and the value of the second binary variable that minimize or maximize the objective function.
  • is an undetermined multiplier
  • the first constraint makes the bit flip of the first binary variable equal to the second binary variable, and is selected even if the second regularization term is represented by the second binary variable. Feature While reducing the number of, it is possible to select a feature quantity such as to improve the accuracy of analysis of the strong learner.
  • the third setting unit 13 sets the product of bit flips of the two first binary variables to the third one of the first regular variables. It may be replaced by a binary variable.
  • the degree of the binary variable included in the objective function can be made 2 or less
  • the second regularization term is expressed by the bit flip of the first binary variable and the quadratic equation of the third binary variable, Ising It can be a table suitable for implementation on the machine 20. In this case, the Ising machine 20 obtains the value of the first binary variable, the value of the second binary variable, and the value of the third binary variable that minimize or maximize the objective function.
  • the second regularization term is constrained so that the product of bit flips of the two first binary variables replaced by the third setting unit 13 and the third binary variable of one become equal.
  • a term representing a second constraint may be included. This makes it possible to replace the product of bit flips of the two first binary variables with the third binary variable, and to convert the second regularization term into the bit flip of the first binary variable and the second order of the third binary variable.
  • the expression can be represented as an expression suitable for implementation on the Ising machine 20.
  • the second constraint condition is ⁇ [( ⁇ w j ) ( ⁇ w k ) -2 ( A term represented by ⁇ w j + ⁇ w k ) u 1 + 3u 1 ] may be included.
  • the sum is performed on the set of j, k, and l which has been substituted by the third setting unit 13.
  • the product of bit flips of the two first binary variables becomes equal to the third binary variable, and the feature value to be selected even when the second regularization term is represented by the third binary variable It is possible to select a feature quantity that improves the analysis accuracy of the strong learning device while reducing the number of.
  • the process of replacing the bit-flip product of two first binary variables with the third binary variable of one will be described in more detail using FIG.
  • is an undetermined multiplier
  • ⁇ (j, k, l) is j, k, l for
  • FIG. 3 is a diagram showing the physical configuration of the feature quantity selection device 10 according to the present embodiment.
  • the feature amount selection device 10 may be configured by a Neumann-type computer, and includes a central processing unit (CPU) 10a corresponding to a calculation unit, a random access memory (RAM) 10b corresponding to a storage unit, and a ROM corresponding to a storage unit. (Read only Memory) 10 c, communication unit 10 d, input unit 10 e, and display unit 10 f. Each of these configurations is mutually connected so as to be able to transmit and receive data via a bus.
  • the feature quantity selection device 10 may be realized by combining a plurality of computers.
  • the configuration illustrated in FIG. 2 is an example, and the feature quantity selection device 10 may have a configuration other than these, or may not have a part of these configurations.
  • the CPU 10a is a control unit that performs control related to the execution of a program stored in the RAM 10b or the ROM 10c, and performs calculation and processing of data.
  • the CPU 10 a is an operation unit that executes a program (feature amount selection program) for selecting a feature amount using the Ising machine 20.
  • the CPU 10a receives various data from the input unit 10e and the communication unit 10d, and displays the calculation result of the data on the display unit 10f or stores it in the RAM 10b or the ROM 10c.
  • the RAM 10 b is a storage unit in which data can be rewritten, and may be formed of, for example, a semiconductor storage element.
  • the RAM 10 b may store data such as a feature selection program executed by the CPU 10 a. Note that these are only examples, and data other than these may be stored in the RAM 10 b, or some of these may not be stored.
  • the ROM 10 c is one of storage units capable of reading data, and may be configured of, for example, a semiconductor storage element.
  • the ROM 10 c may store, for example, a feature selection program or data for which rewriting is not performed.
  • the communication unit 10 d is an interface that connects the feature quantity selection device 10 to another device.
  • the communication unit 10 d may be connected to the Ising machine 20 and the database 40 by wired or wireless communication to transmit and receive various data.
  • the communication unit 10 d may be connected to a communication network N such as the Internet.
  • the input unit 10 e receives an input of data from the user, and may include, for example, a keyboard and a touch panel.
  • the display unit 10 f visually displays the calculation result by the CPU 10 a, and may be configured of, for example, an LCD (Liquid Crystal Display).
  • the display unit 10 f may display, for example, information related to the objective function set in the Ising machine 20 or the selected feature amount.
  • the feature amount selection program may be stored in a computer-readable storage medium such as the RAM 10 b or the ROM 10 c and provided, or may be provided via the communication network N connected by the communication unit 10 d.
  • the CPU 10a executes the feature quantity selection program to realize various operations described using FIG. Note that these physical configurations are exemplifications and may not necessarily be independent configurations.
  • the feature quantity selection device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a, the RAM 10b, and the ROM 10c are integrated.
  • FIG. 4 is a view showing an example of the relationship between the weak learning device and the feature amount F handled by the feature amount selection device 10 according to the present embodiment.
  • the weak learning device h 1 (x) uses x 1 (s) , x 3 (s) and x 4 (s) among these feature quantities.
  • the weak learning device h 2 (x) uses x 1 (s) and x 4 (s) .
  • the weak learning device h 3 (x) uses x 2 (s) , x 3 (s) and x 4 (s) .
  • the second regularization term is (1- ( ⁇ w 1 ) ( ⁇ w 2 )) + (1- ( ⁇ w 3 )) + (1- ( ⁇ w 1 ) ( ⁇ w 3 )) + It is expressed as (1- ( ⁇ w 1 ) ( ⁇ w 2 ) ( ⁇ w 3 )).
  • the third setting unit 13 includes the third-order product of bit flips of the first binary variable in the term (1- (1w 1 ) ( ⁇ w 2 ) ( ⁇ w 3 ))
  • the third setting unit 13 Replace the bit-flip product of one binary variable with the third binary variable of one.
  • the third setting unit 13 may replace, for example, ( ⁇ w 1 ) ( ⁇ w 2 ) with u 1 .
  • the second regularization term is added with the second constraint condition, and (1- ( ⁇ w 1 ) ( ⁇ w 2 )) + (1- ( ⁇ w 3 )) + (1 ⁇ ( ⁇ w 1) ) ( ⁇ w 3 )) + (1-u 1 ( ⁇ w 3 )) + ⁇ [( ⁇ w 1 ) ( ⁇ w 2 ) -2 ( ⁇ w 1 + ⁇ w 2 ) u 1 + 3u 1 ] Ru.
  • FIG. 5 is a flowchart of the feature amount selection process executed by the feature amount selection device 10 according to the present embodiment.
  • the feature quantity selection device 10 sets a term representing an error of the output of the strong learning device as an objective function (S10). Also, the feature quantity selection device 10 sets the first regularization term as the objective function (S11). Then, the feature quantity selection device 10 sets the second regularization term as an objective function (S12).
  • the term representing the error of the output of the strong learning device and the first regularization term are functions of the first binary variable, and the second regularization term includes the first constraint and the second constraint. It may well be a function of the first binary variable, the second binary variable and the third binary variable.
  • the objective function having the binary variable set in the Ising machine 20 by the feature quantity selection device 10 as an argument may not be differentiable with respect to the binary variable.
  • the conventional objective function usually needs to be differentiable because the minimum or the maximum is usually obtained by a stochastic gradient descent method or the like, but the objective function to be set in the Ising machine 20 needs to be such. There is no restriction, and more flexible objective function settings can be made.
  • the feature quantity selection device 10 acquires the value of the first binary variable for minimizing the objective function, which is obtained by the Ising machine 20 (S13). Then, the feature quantity selecting device 10 selects one or more feature quantities from the plurality of feature quantities based on the acquired value of the first binary variable (S14). Thus, the feature amount selection process ends.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる特徴量選択装置等を提供する。特徴量選択装置は、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択装置であって、複数の特徴量のうち、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を目的関数に設定する第3設定部と、イジングマシンにより求められた第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択する選択部と、を備える。

Description

特徴量選択装置、特徴量選択方法及び特徴量選択プログラム
 本発明は、特徴量選択装置、特徴量選択方法及び特徴量選択プログラムに関する。
 従来、多数の特徴量を用いて学習モデルによる分析を行う場合に、冗長な特徴量を除外し、一部の特徴量を選択することで、学習モデルの分析精度を向上させる研究が行われている。例えば、ウェブサイトのアクセス履歴から購買動向等を分析する場合、特徴量は、ユーザのプロフィール、ブラウザの種類、ユーザ端末の種類、OS(Operating System)の種類及びタイムスタンプ等、多岐にわたる。
 特徴量の数が例えば100である場合、特徴量の組み合わせの数はおおよそ1030となり、単純な全探索によって最適な特徴量の組み合わせを見つけることは事実上不可能である。そのため、従来、L1正則化により特徴量の数を減らしたり、ランダムフォレスト法により最適な特徴量の組み合わせを近似的に探索したりする場合がある。
 下記非特許文献1には、M次元の入力データをxと表し、入力データxに関する二値分類をy(y=1又は-1)と表し、それぞれが分類器である弱学習器をh(x)(i=1~N)と表し、いずれの弱学習器を採用するか表す二値変数をw(w=0又は1)と表し、強学習器をH(x)と表すとき、y=H(x)=sign(Σi=1 (x))によって入力データxに関する二値分類を行う技術が記載されている。ここで、wは、二値分類の二乗誤差とwのL0正則化項の和を含む目的関数を最小化するように定められる。非特許文献1では、そのようなwを、量子アニーリングマシンによって求めている。
H.Neven,他5名, "NIPS 2009 Demonstration: Binary Classification using Hardware Implementation of Quantum Annealing", 2009, Advances in Neural Information Processing Systems 22 (NIPS 2009)
 非特許文献1では、目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシンの一種である量子アニーリングマシンを用いて、弱学習器の最適な組み合わせを求めている。ここで、非特許文献1で用いられている目的関数は、L0正則化項を含み、1の値を取るwの数を減らしつつ、二値分類の二乗誤差を最小化するようなwを求めている。
 しかしながら、弱学習器は、M次元の入力データx(M種類の特徴量)の全部又は一部を用いるものであり、非特許文献1の目的関数では、強学習器により用いられる特徴量の数が必ずしも少なくならず、冗長な特徴量が除外されない場合がある。
 そこで、本発明は、イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる特徴量選択装置、特徴量選択方法及び特徴量選択プログラムを提供する。
 本発明の一態様に係る特徴量選択装置は、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択装置であって、複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を目的関数に設定する第1設定部と、1又は複数の弱学習器の数を表す第1正則化項を目的関数に設定する第2設定部と、複数の特徴量のうち、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を目的関数に設定する第3設定部と、イジングマシンにより求められた、目的関数を最小化又は最大化する第1二値変数の値を取得する取得部と、第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択する選択部と、を備える。
 この態様によれば、目的関数に第2正則化項を設定することで、冗長な特徴量を用いる弱学習器が除外され、強学習器により冗長な特徴量が用いられないようにすることができる。そのため、イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 上記態様において、複数の特徴量をx(i=1~M)と表し、複数の弱学習器をh(x)(j=1~N)と表し、第1二値変数をw(j=1~N、w=0又は1)と表し、j番目の弱学習器h(x)がi番目の特徴量xを入力とする場合に1となり、j番目の弱学習器h(x)がi番目の特徴量xを入力としない場合に0となる行列をFijと表すとき、第2正則化項は、Σj=1 ijのL0ノルムにより表される項を含んでもよい。
 この態様によれば、第2正則化項によって、複数の特徴量が弱学習器に入力されるか否かを表す二値を複数の弱学習器にわたって論理和した値を求めることができる。これにより、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数が求められる。
 上記態様において、第1二値変数wのビットフリップを¬wにより表すとき、第2正則化項は、Σi=1 [1-Πj=1 (¬wFij]により表される項を含んでもよい。
 この態様によれば、複数の特徴量が弱学習器に入力されるか否かを表す二値を複数の弱学習器にわたって論理和した値を、ド・モルガンの法則により否定の論理積に書き換えることで、第2正則化項を第1二値変数のビットフリップの多項式で表すことができ、イジングマシンへの実装に適した表式とすることができる。
 上記態様において、第2正則化項は、第1二値変数のビットフリップが第2二値変数に等しくなるように拘束する第1拘束条件を表す項を含んでもよい。
 この態様によれば、第1二値変数のビットフリップを第2二値変数に置き換えることができ、第2正則化項を第2二値変数の多項式によって表して、イジングマシンへの実装に適した表式とすることができる。
 上記態様において、第2二値変数をv(j=1~N、v=0又は1)と表すとき、第1拘束条件は、Σj=1 [(v-(1-w)]により表される項を含んでもよい。
 この態様によれば、第1二値変数のビットフリップが第2二値変数と等しくなり、第2正則化項を第2二値変数によって表した場合であっても、選択される特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 上記態様において、第3設定部は、第2正則化項に第1二値変数のビットフリップの3次以上の積が含まれる場合に、2の第1二値変数のビットフリップの積を1の第3二値変数に置換してもよい。
 この態様によれば、目的関数に含まれる二値変数の次数を2以下とすることができ、第2正則化項を第1二値変数のビットフリップと第3二値変数の二次式で表し、イジングマシンへの実装に適した表式とすることができる。
 上記態様において、第2正則化項は、第3設定部により置換された2の第1二値変数のビットフリップの積と1の第3二値変数とが等しくなるように拘束する第2拘束条件を表す項を含んでもよい。
 この態様によれば、2の第1二値変数のビットフリップの積を第3二値変数に置き換えることができ、第2正則化項を第1二値変数のビットフリップと第3二値変数の2次式によって表して、イジングマシンへの実装に適した表式とすることができる。
 上記態様において、第3二値変数をu(l=1~L、u=0又は1)と表すとき、第2拘束条件は、Σ[(¬w)(¬w)-2(¬w+¬w)u+3u]により表される項を含み、和は、第3設定部により置換が行われたj,k,lの組について行われてもよい。
 この態様によれば、2の第1二値変数のビットフリップの積が第3二値変数と等しくなり、第2正則化項を第3二値変数によって表した場合であっても、選択される特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 本発明の他の態様に係る特徴量選択方法は、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択方法であって、複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を目的関数に設定することと、1又は複数の弱学習器の数を表す第1正則化項を目的関数に設定することと、複数の特徴量のうち、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を目的関数に設定することと、イジングマシンにより求められた目的関数を最小化又は最大化する第1二値変数の値を取得することと、第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択することと、を含む。
 この態様によれば、目的関数に第2正則化項を設定することで、冗長な特徴量を用いる弱学習器が除外され、強学習器により冗長な特徴量が用いられないようにすることができる。そのため、イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 本発明の他の態様に係る特徴量選択プログラムは、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択装置に備えられたコンピュータを、複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を目的関数に設定する第1設定部、1又は複数の弱学習器の数を表す第1正則化項を目的関数に設定する第2設定部、複数の特徴量のうち、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を目的関数に設定する第3設定部、イジングマシンにより求められた目的関数を最小化又は最大化する第1二値変数の値を取得する取得部、及び第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択する選択部、として機能させる。
 この態様によれば、目的関数に第2正則化項を設定することで、冗長な特徴量を用いる弱学習器が除外され、強学習器により冗長な特徴量が用いられないようにすることができる。そのため、イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 本発明によれば、イジングマシンを用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる特徴量選択装置、特徴量選択方法及び特徴量選択プログラムが提供される。
本発明の実施形態に係る特徴量選択システムの概要を示す図である。 本実施形態に係る特徴量選択装置の機能ブロックを示す図である。 本実施形態に係る特徴量選択装置の物理的構成を示す図である。 本実施形態に係る特徴量選択装置により扱われる弱学習器と特徴量の関係の一例を示す図である。 本実施形態に係る特徴量選択装置により実行される特徴量選択処理のフローチャートである。
 以下、本発明の一側面に係る実施の形態(以下、「本実施形態」と表記する。)を、図面に基づいて説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
 図1は、本発明の実施形態に係る特徴量選択システム100の概要を示す図である。特徴量選択システム100は、特徴量選択装置10と、イジングマシン20と、データベース40とを備える。特徴量選択装置10、イジングマシン20及びデータベース40は、互いに通信ネットワークNを介して接続される。なお、同図に示す構成は特徴量選択システム100の一例であり、特徴量選択装置10、イジングマシン20及びデータベース40は必ずしも別体の装置でなくてもよく、これらの一部が1つの装置により構成されてもよい。
 特徴量選択装置10は、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるイジングマシン20を用いて特徴量を選択する。特徴量選択装置10は、従来のコンピュータ、すなわちノイマン型コンピュータで構成されてよい。本明細書では、特徴量選択装置10によって、二値変数を引数とする目的関数を最小化する二値変数の値を確率的に求めるイジングマシン20を設定する場合について説明する。しかしながら、目的関数全体の符号を逆にすれば、二値変数を引数とする目的関数を最大化する二値変数の値を確率的に求めるイジングマシン20を設定することもできる。
 イジングマシン20は、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求める装置であってよく、二値変数は、古典ビットや量子ビットで実現されてよい。イジングマシン20は、非ノイマン型コンピュータであってよく、自然計算(Natural computing)を実行する計算機であってもよい。イジングマシン20は、量子アニーリングマシンやFPGA(Field-Programmable Gate Array)、CMOS(Complementary Metal Oxide Semiconductor)、ASIC(Application Specific Integrated Circuit)等によって構成されてよく、二値変数を引数とする目的関数を最小化又は最大化する二値変数の値を確率的に求めるものであればどのようなハードウェアによって構成されるものであってもよく、目的関数の最小又は最大を求める過程において量子現象を利用していてもよいし、利用していなくてもよい。目的関数は、二値変数の1次関数と2次関数とを含んでよく、特徴量選択装置10は、用途に応じて1次関数の係数と2次関数の係数とを設定してよい。
 データベース40は、特徴量選択装置10による選択の対象となる複数の特徴量を記憶する。複数の特徴量は、任意のデータであってよいが、例えば、ウェブサイトを通じた電子商取引の特徴を表す特徴量の場合、ユーザのプロフィール、ブラウザの種類、ユーザ端末の種類、OSの種類、タイムスタンプ、アクセス地域、インターネット広告の種類、インターネット広告の内容、購入金額及び購入商品名等のデータを含んでよい。また、複数の特徴量は、例えば、ウェブサイトを通じた宿泊予約の特徴を表す特徴量の場合、ユーザのプロフィール、ブラウザの種類、ユーザ端末の種類、OSの種類、タイムスタンプ、アクセス地域、インターネット広告の種類、インターネット広告の内容、宿泊金額及び宿泊施設名等のデータを含んでよい。
 図2は、本実施形態に係る特徴量選択装置10の機能ブロックを示す図である。特徴量選択装置10は、第1設定部11、第2設定部12、第3設定部13、取得部14及び選択部15を備える。
 第1設定部11は、複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を、イジングマシン20の目的関数に設定する。より具体的には、複数の特徴量をx(i=1~M)と表し、複数の弱学習器をh(x)(j=1~N)と表し、第1二値変数をw(j=1~N、w=0又は1)と表すとき、例えば二値分類を行う強学習器H(x)の出力は、y=H(x)=sign(Σj=1 (x))と定義されてよい。強学習器H(x)の出力は、Σj=1 (x)の関数であってよく、多値分類や回帰を行うものであってもよい。強学習器の出力の誤差を表す項は、M次元ベクトルである特徴量xが合計Sセット用意された学習用データを用いる場合、Σs=1 (N-1Σj=1 (x(s))-t(s)で表される項であってよい。ここで、t(s)(s=1~S)は、強学習器が出力すべき値を表す。データベース40は、学習用データとして、(x(s),t(s))というデータをSセット記憶していてよい。
 第2設定部12は、第1二値変数により選択される1又は複数の弱学習器の数を表す第1正則化項をイジングマシン20の目的関数に設定する。第1二値変数により選択される1又は複数の弱学習器の数は、1の値をとる第1二値変数の数を数え上げることで表すことができる。すなわち、第1正則化項は、λ||w||であってよい。ここで、||・||はL0ノルムを表し、λは未定乗数を表す。より具体的には、成分が全て1であるN次元ベクトルをI(j=1~N)と表すとき、第1正則化項は、λΣj=1 によって表される項であってよい。
 強学習器の出力の誤差を表す項が、上記のように二乗誤差の形式で表され、第1正則化項が、上記のようにL0ノルムによって表される場合、目的関数は、N-2Σs=1 Σj=1 Σk=1 (x(s))w(x(s))+Σj=1 (λI-2N-1Σs=1 (x(s))t(s))という項を含んでよい。ここで、強学習器の出力の誤差を表す項のうち、第1二値変数の最小化又は最大化に関係しない定数項(Σs=1 (t(s))は除外している。
 第3設定部13は、複数の特徴量のうち、第1二値変数により選択される1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を、イジングマシン20の目的関数に設定する。より具体的には、j番目の弱学習器h(x)がi番目の特徴量xを入力とする場合に1となり、j番目の弱学習器h(x)がi番目の特徴量xを入力としない場合に0となる行列をFijと表すとき、第2正則化項は、||Σj=1 ij||と表される項を含んでよい。ここで、Σj=1 ijはM次元のベクトルであり、i番目の特徴量が、第1二値変数により選択される1又は複数の弱学習器によって何度用いられるかを表す。そして、Σj=1 ijのL0ノルムは、第1二値変数により選択される1又は複数の弱学習器により用いられる1又は複数の特徴量の重複を除いた数を表す。このように、第2正則化項によって、複数の特徴量が弱学習器に入力されるか否かを表す第1二値変数を複数の弱学習器にわたって論理和した値を求めることができる。これにより、1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数が求められる。
 強学習器の出力の誤差を表す項、第1正則化項及び第2正則化項を含む目的関数は、N-2Σs=1 Σj=1 Σk=1 (x(s))w(x(s))+Σj=1 (λI-2N-1Σs=1 (x(s))t(s))+λ||Σj=1 ij||によって表されてよい。ここで、λは未定乗数である。
 取得部14は、イジングマシン20により求められた、目的関数を最小化又は最大化する第1二値変数の値を取得する。イジングマシン20は、例えば、強学習器の出力の誤差を表す項、第1正則化項及び第2正則化項を含む目的関数を最小化する第1二値変数の値を求めてよく、取得部14は、イジングマシン20により求められた、目的関数を最小化する第1二値変数の値を取得してよい。
 選択部15は、取得された第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択する。選択部15は、イジングマシン20により求められた目的関数を最小化する第1二値変数の値wに基づいて、w=1となるjについて弱学習器h(x)に入力される1又は複数の特徴量を選択してよい。反対に、選択部15は、イジングマシン20により求められた目的関数を最小化する第1二値変数の値wに基づいて、w=0となるjについて弱学習器h(x)に入力される1又は複数の特徴量を選択しないこととしてよい。イジングマシン20に設定された目的関数は、強学習器により用いられる特徴量の数を表す第2正則化項を含むため、強学習器により用いられる特徴量の数が少なくなるような、第1二値変数の値を求めることになる。このように、目的関数に第2正則化項を設定することで、冗長な特徴量を用いる弱学習器が除外され、強学習器により冗長な特徴量が用いられないようにすることができる。そのため、イジングマシン20を用いて、選択する特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 第1二値変数wのビットフリップを¬wにより表すとき、第2正則化項は、Σi=1 [1-Πj=1 (¬wFij]により表される項を含んでよい。ここで、第1二値変数wのビットフリップを¬wは、¬w=1-wであってよい。このように、複数の特徴量が弱学習器に入力されるか否かを表す二値を複数の弱学習器にわたって論理和した値を、ド・モルガンの法則により否定の論理積に書き換えることで、第2正則化項を第1二値変数のビットフリップの多項式で表すことができ、イジングマシン20への実装に適した表式とすることができる。
 ここで、第2正則化項は、第1二値変数のビットフリップが第2二値変数に等しくなるように拘束する第1拘束条件を表す項を含んでよい。これにより、第1二値変数のビットフリップを第2二値変数に置き換えることができ、第2正則化項を第2二値変数の多項式によって表して、イジングマシンへの実装に適した表式とすることができる。この場合、イジングマシン20は、目的関数を最小化又は最大化する第1二値変数の値及び第2二値変数の値を求める。
 より具体的には、第2二値変数をv(j=1~N、v=0又は1)と表すとき、第1拘束条件は、Σj=1 [(v-(1-w)]により表される項を含んでよい。このとき、目的関数は、N-2Σs=1 Σj=1 Σk=1 (x(s))w(x(s))+Σj=1 (λI-2N-1Σs=1 (x(s))t(s))+λΣi=1 [1-Πj=1 (¬wFij]+αΣj=1 [(v-(1-w)]によって表される関数であってよい。ここで、αは未定乗数である。第1拘束条件によって、第1二値変数のビットフリップが第2二値変数と等しくなり、第2正則化項を第2二値変数によって表した場合であっても、選択される特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。
 第3設定部13は、第2正則化項に第1二値変数のビットフリップの3次以上の積が含まれる場合に、2の第1二値変数のビットフリップの積を1の第3二値変数に置換してもよい。これにより、目的関数に含まれる二値変数の次数を2以下とすることができ、第2正則化項を第1二値変数のビットフリップと第3二値変数の二次式で表し、イジングマシン20への実装に適した表式とすることができる。この場合、イジングマシン20は、目的関数を最小化又は最大化する第1二値変数の値、第2二値変数の値及び第3二値変数の値を求める。
 より具体的には、第2正則化項は、第3設定部13により置換された2の第1二値変数のビットフリップの積と1の第3二値変数とが等しくなるように拘束する第2拘束条件を表す項を含んでよい。これにより、2の第1二値変数のビットフリップの積を第3二値変数に置き換えることができ、第2正則化項を第1二値変数のビットフリップと第3二値変数の2次式によって表して、イジングマシン20への実装に適した表式とすることができる。ここで、第3二値変数をu(l=1~L、u=0又は1)と表すとき、第2拘束条件は、Σ[(¬w)(¬w)-2(¬w+¬w)u+3u]により表される項を含んでよい。和は、第3設定部13により置換が行われたj,k,lの組について行われる。これにより、2の第1二値変数のビットフリップの積が第3二値変数と等しくなり、第2正則化項を第3二値変数によって表した場合であっても、選択される特徴量の数を少なくしつつ、強学習器の分析精度を向上させるような特徴量を選択することができる。2の第1二値変数のビットフリップの積を1の第3二値変数に置換する処理については、図4を用いてより詳細に説明する。
 目的関数は、N-2Σs=1 Σj=1 Σk=1 (x(s))w(x(s))+Σj=1 (λI-2N-1Σs=1 (x(s))t(s))+λΣi=1 [1-Πj=1 (¬wFij]+α{Σj=1 [(v-(1-w)]+Σ(j,k,l)[(¬w)(¬w)-2(¬w+¬w)u+3u]}によって表される関数であってよい。ここで、αは未定乗数である。また、Σ(j,k,l)は、第3設定部13により置換が行われたj,k,lの組に関する和を表す。
 図3は、本実施形態に係る特徴量選択装置10の物理的構成を示す図である。特徴量選択装置10は、ノイマン型コンピュータで構成されてよく、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では特徴量選択装置10が一台のコンピュータで構成される場合について説明するが、特徴量選択装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、特徴量選択装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
 CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、イジングマシン20を用いて特徴量を選択するプログラム(特徴量選択プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。
 RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行する特徴量選択プログラム等のデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
 ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば特徴量選択プログラムや、書き換えが行われないデータを記憶してよい。
 通信部10dは、特徴量選択装置10を他の機器に接続するインターフェースである。通信部10dは、イジングマシン20及びデータベース40と有線又は無線通信により接続されて、種々のデータを送受信してよい。また、通信部10dは、インターネット等の通信ネットワークNに接続されてもよい。
 入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
 表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、例えばイジングマシン20に設定する目的関数や選択された特徴量に関する情報を表示したりしてよい。
 特徴量選択プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークNを介して提供されてもよい。特徴量選択装置10では、CPU10aが特徴量選択プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、特徴量選択装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
 図4は、本実施形態に係る特徴量選択装置10により扱われる弱学習器と特徴量Fの関係の一例を示す図である。本例では、簡単のため、特徴量の次元が4(M=4)であり、データセットの数が3(S=3)であり、弱学習器の数が3(N=3)である場合について説明する。
 特徴量Fは、第1ユーザ(User 1)、第2ユーザ(User 2)及び第3ユーザ(User 3)についてそれぞれ1つずつ記憶されており、その値はx (s),x (s),x (s),x (s)(s=1~3)である。弱学習器h(x)は、これらの特徴量のうち、x (s),x (s),x (s)を用いる。また、弱学習器h(x)は、x (s),x (s)を用いる。また、弱学習器h(x)は、x (s),x (s),x (s)を用いる。
 この場合、行列Fijは、例えばF1j=(1,1,0)である。すなわち、特徴量x (s)は、1番目の弱学習器h(x)と1番目の弱学習器h(x)とに入力され、3番目の弱学習器h(x)に入力されない。同様に、F2j=(0,0,1)、F3j=(1,0,1)、F4j=(1,1,1)である。
 この場合、第2正則化項は、(1-(¬w)(¬w))+(1-(¬w))+(1-(¬w)(¬w))+(1-(¬w)(¬w)(¬w))と表される。第3設定部13は、(1-(¬w)(¬w)(¬w))という項に第1二値変数のビットフリップの3次の積が含まれるため、2の第1二値変数のビットフリップの積を1の第3二値変数に置換する。第3設定部13は、例えば、(¬w)(¬w)をuに置換してよい。これにより、第2正則化項は、第2拘束条件を加えて、(1-(¬w)(¬w))+(1-(¬w))+(1-(¬w)(¬w))+(1-u(¬w))+α[(¬w)(¬w)-2(¬w+¬w)u+3u]と表される。さらに、第1二値変数のビットフリップが第2二値変数に等しくなるように拘束する第1拘束条件を加えて、第2正則化項は、(1-v)+(1-v)+(1-v)+(1-u)+α{Σj=1 [(v-(1-w)]+[(¬w)(¬w)-2(¬w+¬w)u+3u]}と表される。なお、[(¬w)(¬w)-2(¬w+¬w)u+3u]という項は、[(1-w)(1-w)-2(2-w-w)u+3u]と表してもよいし、[v-2(v+v)u+3u]と表してもよい。
 図5は、本実施形態に係る特徴量選択装置10により実行される特徴量選択処理のフローチャートである。特徴量選択装置10は、はじめに、強学習器の出力の誤差を表す項を目的関数に設定する(S10)。また、特徴量選択装置10は、第1正則化項を目的関数に設定する(S11)。そして、特徴量選択装置10は、第2正則化項を目的関数に設定する(S12)。ここで、強学習器の出力の誤差を表す項及び第1正則化項は、第1二値変数の関数であり、第2正則化項は、第1拘束条件及び第2拘束条件を含んでよく、第1二値変数、第2二値変数及び第3二値変数の関数であってよい。また、特徴量選択装置10によりイジングマシン20に設定される二値変数を引数とする目的関数は、二値変数について微分可能でなくてもよい。従来の目的関数は、確率的勾配降下法等によって最小又は最大を求めることが通常であるため、目的関数が微分可能である必要があったが、イジングマシン20に設定する目的関数についてそのような制約はなく、より柔軟な目的関数の設定が行える。
 その後、特徴量選択装置10は、イジングマシン20により求められた、目的関数を最小化する第1二値変数の値を取得する(S13)。そして、特徴量選択装置10は、取得した第1二値変数の値に基づいて、複数の特徴量から1又は複数の特徴量を選択する(S14)。以上により、特徴量選択処理が終了する。
 以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
 10…特徴量選択装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…第1設定部、12…第2設定部、13…第3設定部、20…イジングマシン、30…ユーザ端末、40…データベース、100…特徴量選択システム

Claims (10)

  1.  二値変数を引数とする目的関数を最小化又は最大化する前記二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択装置であって、
     複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を前記目的関数に設定する第1設定部と、
     前記1又は複数の弱学習器の数を表す第1正則化項を前記目的関数に設定する第2設定部と、
     前記複数の特徴量のうち、前記1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を前記目的関数に設定する第3設定部と、
     前記イジングマシンにより求められた、前記目的関数を最小化又は最大化する前記第1二値変数の値を取得する取得部と、
     前記第1二値変数の値に基づいて、前記複数の特徴量から1又は複数の特徴量を選択する選択部と、
     を備える特徴量選択装置。
  2.  前記複数の特徴量をx(i=1~M)と表し、前記複数の弱学習器をh(x)(j=1~N)と表し、前記第1二値変数をw(j=1~N)と表し、j番目の弱学習器h(x)がi番目の特徴量xを入力とする場合に1となり、j番目の弱学習器h(x)がi番目の特徴量xを入力としない場合に0となる行列をFijと表すとき、
     前記第2正則化項は、Σj=1 ijのL0ノルムにより表される項を含む、
     請求項1に記載の特徴量選択装置。
  3.  前記第1二値変数wのビットフリップを¬wにより表すとき、
     前記第2正則化項は、Σi=1 [1-Πj=1 (¬wFij]により表される項を含む、
     請求項2に記載の特徴量選択装置。
  4.  前記第2正則化項は、前記第1二値変数のビットフリップが第2二値変数に等しくなるように拘束する第1拘束条件を表す項を含む、
     請求項3に記載の特徴量選択装置。
  5.  前記第2二値変数をv(j=1~N)と表すとき、
     前記第1拘束条件は、Σj=1 [(v-(1-w)]により表される項を含む、
     請求項4に記載の特徴量選択装置。
  6.  前記第3設定部は、前記第2正則化項に前記第1二値変数のビットフリップの3次以上の積が含まれる場合に、2の前記第1二値変数のビットフリップの積を1の第3二値変数に置換する、
     請求項3から5のいずれか1項に記載の特徴量選択装置。
  7.  前記第2正則化項は、前記第3設定部により置換された2の前記第1二値変数のビットフリップの積と1の前記第3二値変数とが等しくなるように拘束する第2拘束条件を表す項を含む、
     請求項6に記載の特徴量選択装置。
  8.  前記第3二値変数をu(l=1~L)と表すとき、
     前記第2拘束条件は、Σ[(¬w)(¬w)-2(¬w+¬w)u+3u]により表される項を含み、
     和は、前記第3設定部により置換が行われたj,k,lの組について行われる、
     請求項7に記載の特徴量選択装置。
  9.  二値変数を引数とする目的関数を最小化又は最大化する前記二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択方法であって、
     複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を前記目的関数に設定することと、
     前記1又は複数の弱学習器の数を表す第1正則化項を前記目的関数に設定することと、
     前記複数の特徴量のうち、前記1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を前記目的関数に設定することと、
     前記イジングマシンにより求められた前記目的関数を最小化又は最大化する前記第1二値変数の値を取得することと、
     前記第1二値変数の値に基づいて、前記複数の特徴量から1又は複数の特徴量を選択することと、
     を含む特徴量選択方法。
  10.  二値変数を引数とする目的関数を最小化又は最大化する前記二値変数の値を確率的に求めるイジングマシンを用いて特徴量を選択する特徴量選択装置に備えられたコンピュータを、
     複数の特徴量の全部又は一部を入力とする複数の弱学習器のうち、第1二値変数により選択される1又は複数の弱学習器の出力を統合した強学習器の出力の誤差を表す項を前記目的関数に設定する第1設定部、
     前記1又は複数の弱学習器の数を表す第1正則化項を前記目的関数に設定する第2設定部、
     前記複数の特徴量のうち、前記1又は複数の弱学習器に入力される1又は複数の特徴量の重複を除いた数を表す第2正則化項を前記目的関数に設定する第3設定部、
     前記イジングマシンにより求められた前記目的関数を最小化又は最大化する前記第1二値変数の値を取得する取得部、及び
     前記第1二値変数の値に基づいて、前記複数の特徴量から1又は複数の特徴量を選択する選択部、
     として機能させる特徴量選択プログラム。
PCT/JP2018/021253 2017-06-23 2018-06-01 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム WO2018235568A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019525319A JP7068299B2 (ja) 2017-06-23 2018-06-01 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762524321P 2017-06-23 2017-06-23
US62/524,321 2017-06-23

Publications (1)

Publication Number Publication Date
WO2018235568A1 true WO2018235568A1 (ja) 2018-12-27

Family

ID=64737718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/021253 WO2018235568A1 (ja) 2017-06-23 2018-06-01 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム

Country Status (2)

Country Link
JP (1) JP7068299B2 (ja)
WO (1) WO2018235568A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009558A (ja) * 2019-07-01 2021-01-28 株式会社リクルートコミュニケーションズ 広告配信装置、広告配信方法及び広告配信プログラム
EP3787229A1 (de) 2019-09-02 2021-03-03 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
WO2022065216A1 (ja) * 2020-09-23 2022-03-31 富士フイルム株式会社 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット
EP4160460A1 (en) * 2021-10-01 2023-04-05 Denso Corporation Optimization of a vehicle circuit board structure for resonance avoidance by use of ising machine

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059071A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 最適化装置、最適化方法および最適化プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059071A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 最適化装置、最適化方法および最適化プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NEVEN, H. ET AL.: "QBoost: Large scale classifier training with adiabatic quantum optimization, Proceedings of Asian Conference on Machine Learning", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 25, 6 November 2012 (2012-11-06), pages 333 - 348, XP055344107, Retrieved from the Internet <URL:http://proceedings.mlr.press/v25/nevenl2/nevenl2.pdf> [retrieved on 20180713] *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009558A (ja) * 2019-07-01 2021-01-28 株式会社リクルートコミュニケーションズ 広告配信装置、広告配信方法及び広告配信プログラム
EP3787229A1 (de) 2019-09-02 2021-03-03 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
WO2021043570A1 (de) 2019-09-02 2021-03-11 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
WO2022065216A1 (ja) * 2020-09-23 2022-03-31 富士フイルム株式会社 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット
EP4160460A1 (en) * 2021-10-01 2023-04-05 Denso Corporation Optimization of a vehicle circuit board structure for resonance avoidance by use of ising machine

Also Published As

Publication number Publication date
JP7068299B2 (ja) 2022-05-16
JPWO2018235568A1 (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
WO2018235568A1 (ja) 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム
Erdogan Prediction of bankruptcy using support vector machines: an application to bank bankruptcy
Hu A multivariate grey prediction model with grey relational analysis for bankruptcy prediction problems
Chen et al. Propensity score-integrated composite likelihood approach for augmenting the control arm of a randomized controlled trial by incorporating real-world data
Abbas et al. On quantum ensembles of quantum classifiers
Dimitrova et al. Graphlets in multiplex networks
JP2024516656A (ja) 産業特定機械学習アプリケーション
Li et al. Topic modeling on triage notes with semiorthogonal nonnegative matrix factorization
Ewertowski et al. The use of machine learning techniques for assessing the potential of organizational resilience
Bachoc et al. Explaining machine learning models using entropic variable projection
Falangis et al. Heuristics for feature selection in mathematical programming discriminant analysis models
Cottrell et al. Neural networks for complex data
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
JP2021092834A (ja) 情報処理装置、情報処理方法、及びプログラム
Garzon et al. Dimensionality Reduction in Data Science
Torres-Berru et al. Data and text mining for the detection of fraud in public contracts: A case study of Ecuador’s official public procurement system
US20220277735A1 (en) Methods and apparatuses for discriminative pre-training for low resource title compression
Liu et al. A new feature selection method for text categorization of customer reviews
Goyal Intracerebral hemorrhage detection in computed tomography scans through cost-sensitive machine learning
Chiong et al. Estimation of graphical models using the L 1, 2 norm
Duboue Feature Engineering: Human-in-the-Loop Machine Learning
Rana et al. A systematic review on data mining rules generation optimizing via genetic algorithm
Alshammari et al. Stock market prediction by applying big data mining
Mangasarian et al. Chunking for massive nonlinear kernel classification
Qin et al. Efficient Graph Encoder Embedding for Large Sparse Graphs in Python

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18820028

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019525319

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18820028

Country of ref document: EP

Kind code of ref document: A1