WO2020209086A1 - データ分析装置、データ分析方法及びデータ分析プログラム - Google Patents
データ分析装置、データ分析方法及びデータ分析プログラム Download PDFInfo
- Publication number
- WO2020209086A1 WO2020209086A1 PCT/JP2020/013688 JP2020013688W WO2020209086A1 WO 2020209086 A1 WO2020209086 A1 WO 2020209086A1 JP 2020013688 W JP2020013688 W JP 2020013688W WO 2020209086 A1 WO2020209086 A1 WO 2020209086A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- group
- calculation
- data
- score
- norm
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention relates to a data analyzer, a data analysis method and a data analysis program.
- Feature extraction is a group of methods for extracting important features from data, and is widely used for explaining data in data mining.
- data features often have a group structure.
- the weather data for each region can be regarded as data in which each region corresponds to each group and features such as "temperature”, “humidity”, “weather”, and “wind direction” are included in each group.
- the data may be explained not only by extracting important features but also by extracting a group of important features (for example, a group corresponding to a region).
- Sparse Group Lasso is a typical method for extracting groups with this feature.
- Sparse Group Lasso is a method based on linear regression (see, for example, Non-Patent Document 1). Specifically, Sparse Group Lasso can handle group features by imposing group constraints on the coefficients of the linear regression model. In Sparse Group Lasso, Block Coordinate Descent is used as standard in learning the coefficients of the linear regression model.
- Block Coordinate Descent is an algorithm that independently updates and learns the coefficients of Sparse Group Lasso for each group.
- the update calculation can be roughly divided into the following two steps.
- the first step is to check whether all the coefficients in the group are zero.
- the second step is a step of updating the coefficients in the group when all the coefficients in the group do not become zero.
- Block Coordinate Descent repeats these first and second steps until all the coefficients have converged.
- the group with zero coefficients is the group of insignificant features
- the group with non-zero coefficients is the group of important features.
- Block Coordinate Descent has the problem that the calculation is slow for large-scale data. This is because the calculation in the first step requires a calculation order proportional to the total number of features. As a result, it is difficult to apply Sparse Group Lasso to large-scale data.
- Safe screening is a method of identifying and deleting a group whose coefficient becomes zero before learning the coefficient with Block Coordinate Descent.
- the present invention has been made in view of the above, and an object of the present invention is to provide a data analysis device, a data analysis method, and a data analysis program capable of accelerating Block Coordinate Descent.
- the data analyzer is a data analyzer that extracts a group of important features from multidimensional data by using Sparse Group Lasso.
- the first calculation unit that calculates the norm of the gram matrix of the obtained data
- the second calculation unit that calculates the score for the group to be calculated among the data groups based on the norm
- the second calculation unit calculate A judgment unit that determines whether to omit the calculation for the calculation target group based on the score obtained, and a Sparse Group for the calculation target group when the judgment unit determines that the calculation for the calculation target group is not omitted. It is characterized by having an application part to which the calculation process of Block Coordinate Descent used when Lasso solves the optimization problem is applied.
- the data analysis method is a data analysis method executed by a data analyzer that extracts a group of important features from multidimensional data by using Sparse Group Lasso, and is a gram matrix of given data.
- the process of applying the Block Coordinate Descent calculation process used by Sparse Group Lasso to solve the optimization problem to the calculation target group. It is characterized by including.
- the data analysis program includes a step of calculating the norm of a gram matrix of given multidimensional data, a step of calculating a score for a group of data to be calculated based on the norm, and a score. If it is determined not to omit the calculation for the calculation target group in the step of determining whether to omit the calculation for the calculation target group and the determination step based on the above, the Sparse Group is applied to the calculation target group. It is characterized by having a computer execute a step of applying the calculation process of Block Coordinate Descent used when Lasso solves an optimization problem.
- Block Coordinate Descent can be speeded up.
- FIG. 1 is a block diagram showing an example of the configuration of the data analyzer according to the embodiment.
- FIG. 2 is a diagram showing an algorithm used by the data analyzer shown in FIG.
- FIG. 3 is a flowchart showing a processing procedure of the data analysis processing according to the embodiment.
- FIG. 4 is a diagram showing an example of a computer in which a data analyzer is realized by executing a program.
- n be the number of data, and each data is represented by a p-dimensional feature quantity. This allows the data to be represented by a matrix of X ⁇ R n ⁇ p . Since linear regression is a problem of predicting the response for each data, the response can be expressed as a vector y ⁇ R n in several dimensions of the data. Since linear regression makes predictions by calculating the inner product of the data and the coefficient vector, this coefficient vector is expressed as ⁇ ⁇ R p .
- X (g) ⁇ R n ⁇ pg is a submatrix of the matrix X
- p g is the size of the feature quantity of g-th group.
- ⁇ (g) is the coefficient of the g-th group.
- G represents the number of all groups. ⁇ ⁇ [0,1] and ⁇ are hyperparameters and are subject to manual tuning.
- Block Coordinate Descent is an algorithm for solving the optimization problems shown in equations (1) and (2). Specifically, it is an algorithm composed of the following two steps.
- the first step is to check whether all the coefficients in the group are zero.
- the equations used for the check in the first step are the following inequalities (3) and (4).
- the second step is the step of updating the coefficients in the group.
- the coefficient update in the second step is performed using the following equations (6) and (7).
- t is the update width.
- the algorithm repeats the first and second steps until the entire coefficient converges.
- O (pp g + p g 2) the calculation of the first step is required
- O (p g) is required for the calculation of the second step. Therefore, in Block Coordinate Descent, the first step becomes a bottleneck.
- the amount of calculation is reduced by approximating the inequality (3) used in the first step.
- This approximation is made by checking whether the inequality holds or not using the upper limit U (g) of the terms
- ⁇ ⁇ ( ⁇ g) and ⁇ ⁇ (l) are values corresponding to ⁇ ( ⁇ g) and ⁇ (l) , respectively. These values are updated at regular intervals within the Block Coordinate Descent iteration.
- the i-th element of ⁇ K (g) [l] ⁇ R pg is the L2 norm of the i-th row, where K (g, l) ⁇ R pg ⁇ pl is a submatrix of K
- the initial value of the upper limit value equation (10) is calculated according to the formulation. However, after that, only when ⁇ (g) is updated, the calculation shown in the following equation (12) is performed. As a result, in the present embodiment, the upper limit value can be updated with a small amount of calculation.
- ⁇ (g) ′ is the updated ⁇ (g) .
- the original Block Coordinate Descent equation (3) requires the amount of calculation of O (pp g + pg 2 ), whereas the amount of calculation of the inequality (9) is sufficiently small as O ( pg ). .. Therefore, in the present embodiment, the calculation of the first step, which is a bottleneck in the conventional algorithm, can be approximated at high speed.
- the coefficient is not erroneously set to zero. Therefore, if the initial value of the coefficient and the update order are the same, the same solution as the original Block Coordinate Descent can be obtained.
- the data analyzer is a learning device of a linear regression model that extracts a group of important features from multidimensional data by using Sparse Group Lasso.
- FIG. 1 is a block diagram showing an example of the configuration of the data analyzer according to the embodiment.
- the data analyzer 10 includes a matrix norm calculation unit 11 (first calculation unit), a score calculation unit 12 (second calculation unit), and an omission determination unit 13 (determination). Unit), a solver application unit 14 (application unit), a score update unit 15, and a convergence determination unit 16.
- a predetermined program is read into a computer or the like including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), etc., and the CPU executes the predetermined program. It will be realized by.
- the matrix norm calculation unit 11 calculates the norm of the Gram matrix of the given data. In the present embodiment, it is necessary to calculate the upper limit value U (g) based on the equations (10) and (11). Here,
- the matrix norm calculation unit 11 has a function of calculating this
- 2 is the norm of the Gram matrix K as described above.
- the score calculation unit 12 calculates the score for the group to be calculated among the data groups based on the norm calculated by the matrix norm calculation unit 11.
- the score is a value used to determine whether or not to omit the calculation of the group to be calculated.
- the score calculation unit 12 calculates the upper limit value U (g) represented by the equation (10 ) for all groups.
- the score is defined as the upper limit value U (g) . That is, the score is the upper limit value U (g) itself when the terms
- the omission determination unit 13 determines whether or not to omit the calculation of the calculation target group based on the score calculated by the score calculation unit 12.
- the omission determination unit 13 determines whether or not the inequality (9) is satisfied by using the score (upper limit value U (g) ) obtained by the score calculation unit 12.
- the omission determination unit 13 sets the term in the inequality (3) used when checking whether or not all the coefficients in the group become zero to the upper limit value U (g ) of the term. ) Is used for the evaluation (inequality (9)).
- the omission determination unit 13 sets all the coefficients in this group to 0. Therefore, the omission determination unit 13 determines that the normal Block Coordinate Descent (solver) calculation process is omitted for this group when the inequality (9) is satisfied.
- the solver application unit 14 determines that the convergence test unit 13 does not omit the calculation for the group to be calculated, the solver application unit 14 executes a normal Block Coordinate Descent (solver) calculation process. That is, the solver application unit 14 executes the solver calculation process when the inequality (9) is not satisfied. That is, the solver application unit 14 performs the first step of checking whether or not all the coefficients in the loop become zero by using the inequality (3). When the inequality (3) is satisfied, the solver application unit 14 sets all the coefficients of this group to 0. On the other hand, when the inequality equation (3) does not hold, the solver application unit 14 executes the second step of updating the coefficients in the group using the equations (6) and (7).
- solvent Block Coordinate Descent
- the score update unit 15 updates the score for the group to be calculated.
- the score updating unit 15 updates the score (upper limit value U (g) ) for this group by using the equation (12).
- the data analyzer 10 applies the processing by the abbreviated calculation unit 13 to all the groups, and applies the calculation processing by the solver application unit 14 when the inequality (9) is not satisfied.
- the convergence test unit 16 applies the processing by the abbreviated calculation unit 13 to all the groups, applies the calculation processing by the solver application unit 14 when the inequality of the equation (9) is not established, and then the coefficients converge. Judge whether or not. If the coefficients are converged, the convergence determination unit 16 returns the converged coefficients. If the coefficients have not converged, the convergence test unit 16 returns to the processing by the score calculation unit 12 and repeats the processing until it converges.
- FIG. 2 is a diagram showing an algorithm used by the data analyzer 10 shown in FIG.
- FIG. 3 is a flowchart showing a processing procedure of the data analysis method according to the embodiment.
- the matrix norm calculation unit 11 calculates the norm of the Gram matrix of the given data (lines 1 to 3 of FIG. 2 and step S1 of FIG. 3).
- the score calculation unit 12 calculates the upper limit value U (g ) represented by the formula (10) as a score for the group in all the groups using the formula (10) and the formula (11) (FIG. Lines 5 to 7 of 2 and step S2) of FIG.
- the omission determination unit 13 determines whether or not the group calculation can be omitted from the score. Specifically, the omission determination unit 13 determines whether or not the inequality (9) is satisfied by using the score (upper limit value U (g) ) obtained by the score calculation unit 12 (step S3 in FIG. 3). ).
- the solver application unit 14 has a normal Block Coordinate Descent ( The calculation process of the solver) is executed (lines 12 to 17 in FIG. 2 and step S5 in FIG. 3). Specifically, the solver application unit 14 performs the first step of checking whether or not all the coefficients in the loop become zero by using the inequality (3), and when the inequality (3) is satisfied (FIG. 2). 12th line), all the coefficients of this group are set to 0 (13th line in FIG. 2). On the other hand, when the inequality (3) does not hold (line 14 of FIG. 2), the solver application unit 14 performs the second step of updating the coefficients in the group using the equations (6) and (7). Execute (lines 15 to 17 in FIG. 2).
- step S6 Yes
- the score updating unit 15 updates the score (upper limit value U (g) ) for the group by using the equation (12) (FIG. The 18th line of 2 and step S7 of FIG. 3).
- step S8 No in FIG. 3
- the data analyzer 10 proceeds to the next group (step S9) and executes the processes after step S3. .. Further, when steps S3 to S7 are applied to all the groups (lines 8 to 18 in FIG. 2 and step S8: Yes in FIG. 3), the convergence test unit 16 determines whether or not the coefficients have converged. (Line 19 in FIG. 2 and step S10 in FIG. 3).
- step S10 Yes in FIG. 3
- the related convergence determination unit 16 returns the converged coefficients and ends the process.
- the convergence test unit 16 returns to the process of step S2 and repeats the processes of steps S2 to S10 until it converges.
- the data analysis device 10 is a learning device of a linear regression model that extracts a group of important features from multidimensional data by using Sparse Group Lasso. Then, the data analyzer 10 calculates the norm of the Gram matrix of the given data, and the data analyzer 10 calculates the score for the group to be calculated among the groups of data. Subsequently, the data analyzer 10 determines whether or not to omit the calculation for the group to be calculated based on the score.
- the data analyzer 10 determines that the calculation for the calculation target group is not omitted, the data analyzer 10 applies the Block Coordinate Descent calculation process used when the Sparse Group Lasso solves the optimization problem to the calculation target group. .. Therefore, since the data analysis device 10 does not apply the block coordinate descent calculation process to all the groups, the block coordinate descent can be speeded up.
- the data analyzer 10 approximates the term in the inequality used when checking whether or not all the coefficients in the group become zero in the calculation process of Block Coordinate Descent with the upper limit value of the term. Evaluate using an approximate expression. In other words, the data analyzer 10 replaces the inequality used when checking whether all the coefficients in the group are zero with an approximate expression with a smaller amount of calculation. Therefore, the data analyzer 10 can reduce the weight of the calculation of the first step of determining whether the coefficient of the group is zero or non-zero, which is the bottleneck of Block Coordinate Descent using the inequality (3), and makes Block Coordinate Descent. It can be speeded up.
- Block Coordinate Descent by speeding up Block Coordinate Descent, it is possible to speed up the feature group extraction process by Sparse Group Lasso. Further, in the present embodiment, the Block Coordinate Descent is speeded up by introducing the above approximation, but the learning result is guaranteed to match the original Block Coordinate Descent. Therefore, according to the present embodiment, the feature group by Sparse Group Lasso can be accurately extracted.
- Each component of the data analyzer 10 shown in FIG. 1 is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution and integration of the functions of the data analyzer 10 is not limited to the one shown in the figure, and all or part of the data analyzer 10 may be functionally or physically in an arbitrary unit according to various loads and usage conditions. Can be configured in a distributed or integrated manner.
- each process performed by the data analysis device 10 may be realized by a CPU and a program in which an arbitrary part is analyzed and executed by the CPU. Further, each process performed by the data analyzer 10 may be realized as hardware by wired logic.
- FIG. 4 is a diagram showing an example of a computer in which the data analyzer 10 is realized by executing a program.
- the computer 1000 has, for example, a memory 1010 and a CPU 1020.
- the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
- Memory 1010 includes ROM 1011 and RAM 1012.
- the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
- BIOS Basic Input Output System
- the hard disk drive interface 1030 is connected to the hard disk drive 1090.
- the disk drive interface 1040 is connected to the disk drive 1100.
- a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
- the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
- the video adapter 1060 is connected to, for example, the display 1130.
- the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094. That is, the program that defines each process of the data analyzer 10 is implemented as a program module 1093 in which a code that can be executed by the computer 1000 is described.
- the program module 1093 is stored in, for example, the hard disk drive 1090.
- a program module 1093 for executing a process similar to the functional configuration in the data analyzer 10 is stored in the hard disk drive 1090.
- the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
- the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
- the program module 1093 and the program data 1094 are not limited to the case where they are stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
- LAN Local Area Network
- WAN Wide Area Network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
データ分析装置(10)は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出するデータ分析装置であって、与えられたデータのグラム行列のノルムを計算する行列ノルム計算部(11)と、ノルムを基にデータのグループのうち計算対象のグループに対するスコアを計算するスコア計算部(12)と、スコアを基に計算対象のグループに対する計算を省略するか否かを判定する省略判定部(13)と、省略判定部(13)が計算対象のグループに対する計算を省略しないと判定した場合、計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用するソルバ適用部(14)と、を有する。
Description
本発明は、データ分析装置、データ分析方法及びデータ分析プログラムに関する。
特徴抽出は、データから重要な特徴を抽出する手法群であり、データマイニングにおいてデータの説明のために広く使われている。データマイニングでは、しばしばデータの特徴がグループ構造を持っていることがある。
例えば、地域毎の天候データは、各地域が各グループに対応し、それぞれのグループ内に「気温」「湿度」「天候」「風向き」などの特徴が入ったデータと見なすことができる。このようなグループ構造を持ったデータにおいては、重要な特徴を抽出するだけでなく、重要な特徴のグループ(例えば、地域に相当するグループ)を抽出することでデータを説明する場合がある。Sparse Group Lassoは、この特徴のグループの抽出における代表的な手法である。
Sparse Group Lassoは、線形回帰に基づく手法である(例えば、非特許文献1参照)。具体的には、Sparse Group Lassoは、線形回帰モデルの係数にグループ制約を課すことによって、グループ特徴を扱うことができる。Sparse Group Lassoでは、線形回帰モデルの係数の学習において、Block Coordinate Descentが標準的に使われている。
Block Coordinate Descentは、Sparse Group Lassoの係数をグループ毎に独立して更新し学習するアルゴリズムである。その更新計算は、大きく次のような2ステップに分けられる。
第1ステップは、グループ内の係数が全てゼロになるか否かをチェックするステップである。第2ステップは、グループ内の係数が全てゼロにならない場合はグループ内の係数を更新するステップである。
Block Coordinate Descentは、この第1ステップ及び第2ステップを、全ての係数が収束するまで繰り返す。最終的に、係数がゼロとなるグループは、重要でない特徴のグループであり、係数が非ゼロとなるグループは重要な特徴のグループと言える。
しかしながら、Block Coordinate Descentは、大規模データに対して計算が遅いという課題がある。これは、第1ステップの計算において、全体の特徴の数に比例する計算オーダーが必要となるためである。この結果、Sparse Group Lassoを大規模データに適用することが困難になっている。
ここで、Sparse Group Lassoを大規模データに適用するために、safe screening (非特許文献2参照)という手法が広く用いられている。Safe screeningは、Block Coordinate Descentで係数を学習する前に、係数がゼロとなるようなグループを特定して削除する手法である。
N. Simon, J. Friedman, T. Hastie, and R. Tibshirani, "A SPARSE-GROUP LASSO", Journal of Computational and Graphical Statistics, 22(2), 231-245, 2013.
E. Ndiaye, O. Fercoq, A. Gramfort, and J. Salmon, "Gap Safe Screening Rules for Sparse-Group Lasso", In Advances in Neural Information Processing Systems, pp. 388-396, 2016.
しかしながら、safe screeningにおいて、削除できるグループの数が少ない場合には、Block Coordinate Descentは、高速化されない。特に、safe screeningでは、係数の初期値が最適な係数から遠い場合、グループが削除しづらいことが理論的に知られている。
本発明は、上記に鑑みてなされたものであって、Block Coordinate Descentを高速化することができるデータ分析装置、データ分析方法及びデータ分析プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係るデータ分析装置は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出するデータ分析装置であって、与えられたデータのグラム行列のノルムを計算する第1の計算部と、ノルムを基にデータのグループのうち計算対象のグループに対するスコアを計算する第2の計算部と、第2の計算部が計算したスコアを基に計算対象のグループに対する計算を省略するか否かを判定する判定部と、判定部が計算対象のグループに対する計算を省略しないと判定した場合、計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用する適用部と、を有することを特徴とする。
また、本発明に係るデータ分析方法は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出するデータ分析装置が実行するデータ分析方法であって、与えられたデータのグラム行列のノルムを計算する工程と、ノルムを基にデータのグループのうち計算対象のグループに対するスコアを計算する工程と、スコアを基に計算対象のグループに対する計算を省略するか否かを判定する工程と、判定する工程において、計算対象のグループに対する計算を省略しないと判定された場合、計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用する工程と、を含んだことを特徴とする。
また、本発明に係るデータ分析プログラムは、与えられた多次元データのグラム行列のノルムを計算するステップと、ノルムを基にデータのグループのうち計算対象のグループに対するスコアを計算するステップと、スコアを基に計算対象のグループに対する計算を省略するか否かを判定するステップと、判定するステップにおいて、計算対象のグループに対する計算を省略しないと判定された場合、計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用するステップと、をコンピュータに実行させることを特徴とする。
本発明によれば、Block Coordinate Descentを高速化することができる。
以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
なお、以下ではベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同等であるとする。また、ベクトル又は行列であるAに対し、ATはAの転置を表す。
[従来の数理的背景]
まず、以降の説明において必要となる背景知識として、Sparse Group Lasso及びBlock Coordinate Descentについて説明する。
まず、以降の説明において必要となる背景知識として、Sparse Group Lasso及びBlock Coordinate Descentについて説明する。
Sparse Group Lassoのベースは線形回帰モデルであるため、線形回帰問題を考える。nをデータ数とし、それぞれのデータは、p次元の特徴量で表現されるとする。これによって、データは、X∈Rn×pの行列で表現できる。線形回帰は、各データに対して応答を予測する問題であるため、応答は、データ数次元のベクトルy∈Rnとして表現できる。線形回帰は、データと係数ベクトルとの内積を計算することによって予測を行うため、この係数ベクトルは、β∈Rpと表現される。
上記の設定のもと、Sparse Group Lassoは、次の式(1)及び式(2)に示す最適化問題を解くことで、重要な特徴及び、重要な特徴のグループを抽出する。
式(1)及び式(2)において、X(g)∈Rn×pgは、行列Xの部分行列であり、pgは、g番目のグループの特徴量のサイズである。同様に、β(g)は、g番目のグループの係数である。Gは、全グループの数を表す。α∈[0,1]及びλは、ハイパーパラメータであり、人手でチューニングする対象となる。
Block Coordinate Descentは、式(1)及び式(2)に示す最適化問題を解くためのアルゴリズムである。具体的には、以下の2ステップから構成されるアルゴリズムである。
第1ステップは、グループ内の係数がすべてゼロになるか否かをチェックするステップである。第1ステップのチェックに用いられる式は、以下の不等式(3)及び式(4)である。
ここで、関数S(・,・)は、引数z,γに対し、式(5)のように計算される。
不等式(3)が成立するとき、g番目のグループの係数は、全てゼロになる。この場合、アルゴリズムは、次のグループに処理が移り、再び第1ステップの計算を行う。一方、不等式(3)が成立しないとき、係数は非ゼロであると判断され、アルゴリズムは、次の第2ステップを実行する。
第2ステップは、グループ内の係数を更新するステップである。第2ステップにおける係数の更新は、以下の式(6)及び式(7)を用いて実行される。式(6)及び式(7)において、tは、更新幅である。
アルゴリズムは、第1ステップ及び第2ステップを係数全体が収束するまで繰り返す。このアルゴリズムでは、第1ステップの計算にO(ppg+pg
2)が必要となり、第2ステップの計算にO(pg)が必要となる。したがって、Block Coordinate Descentでは、第1ステップがボトルネックとなる。
[本実施の形態の数理的背景]
続いて、本実施の形態の数理的背景について説明する。本実施の形態は、Block Coordinate Descentのボトルネックである第1ステップの計算量を小さくすることによって、高速化を行う。
続いて、本実施の形態の数理的背景について説明する。本実施の形態は、Block Coordinate Descentのボトルネックである第1ステップの計算量を小さくすることによって、高速化を行う。
具体的には、本実施の形態では、第1ステップにおいて使用される不等式(3)を近似することによって、計算量を小さくする。この近似は、不等式(3)内の||S(X(g)Tγ(-g),αλ||の項の上限値U(g)を用いて不等式の成立の可否をチェックすることで実現される。すなわち、第1ステップにおいて、不等式(8)となるようなU(g)を近似値として使い、計算量の大きい不等式(3)に代えて、不等式(9)をチェックする。
U(g)は、データのグラム行列をK=XTX∈Rp×pとしたとき、次のように式(10)及び式(11)のように計算される。
式(10)及び式(11)において、~γ(-g)及び~β(l)は、それぞれγ(-g)及びβ(l)に対応する値である。これらの値は、Block Coordinate Descentのイテレーションの中において、一定間隔で更新される。
^K(g)[l]∈Rpgのi番目の要素は、K(g,l)∈Rpg×plをKの部分行列としたとき、そのi番目の行のL2ノルム||K(g,l)[i;]||2として計算される。
上限値の式(10)の初期値は、定式化通り計算を行う。ただし、その後は、β(g)が更新された場合だけ、以下の式(12)に示す計算を行う。この結果、本実施の形態では、小さな計算量で上限値を更新することができる。
β(g)´は、更新後のβ(g)である。これにより、元のBlock Coordinate Descentの式(3)がO(ppg+pg
2)の計算量を要するのに対し、不等式(9)の計算量は、O(pg)と十分に小さくなる。このため、本実施の形態では、従来のアルゴリズムにおいてボトルネックであった第1ステップの計算を、高速に近似計算することができる。
不等式(9)が成り立つ場合、そのグループgの係数は、全てゼロとなる。この場合、||S(X(g)Tγ(-g),αλ||≦U(g)の関係が成り立つため、誤って係数をゼロとすることはなく、安全に係数をゼロとすることができる。これに対し、不等式(9)が成り立たなかった場合、通常のBlock Coordinate Descentの第1ステップ及び第2ステップを実行する。
本実施の形態は、上記したように、誤って係数をゼロにすることはないため、係数の初期値と更新順序とが同じ場合は、元のBlock Coordinate Descentと同じ解を得ることができる。
[本実施の形態]
そこで、本実施の形態にデータ分析装置について説明する。本実施の形態に係るデータ分析装置は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出する線形回帰モデルの学習装置である。
そこで、本実施の形態にデータ分析装置について説明する。本実施の形態に係るデータ分析装置は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出する線形回帰モデルの学習装置である。
図1は、実施の形態に係るデータ分析装置の構成の一例を示すブロック図である。図1に示すように、本実施の形態に係るデータ分析装置10は、行列ノルム計算部11(第1の計算部)、スコア計算部12(第2の計算部)、省略判定部13(判定部)、ソルバ適用部14(適用部)、スコア更新部15及び収束判定部16を有する。データ分析装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
行列ノルム計算部11は、与えられたデータのグラム行列のノルムを計算する。本実施の形態では、式(10)及び式(11)を基に上限値U(g)を計算する必要がある。ここで、式(11)の||^K(g)[l]||2は、データが与えられた時点で事前計算が可能であり、アルゴリズム中で変更されることはない。行列ノルム計算部11は、この||^K(g)[l]||2を計算する機能を有する。||^K(g)[l]||2は、上述の通りグラム行列Kのノルムである。
スコア計算部12は、行列ノルム計算部11が計算したノルムを基に、データのグループのうち計算対象のグループに対するスコアを計算する。スコアは、計算対象のグループの計算を省略するか否かを判定するために使用する値である。スコア計算部12は、式(10)で表される上限値U(g)を全グループで計算する。本実施の形態では、スコアを、上限値U(g)と定める。すなわち、スコアは、不等式(3)内の||S(X(g)Tγ(-g),αλ||の項を近似した際の上限値U(g)そのものである。
省略判定部13は、スコア計算部12が計算したスコアを基に、計算対象のグループの計算を省略するか否かを判定する。省略判定部13は、スコア計算部12が求めたスコア(上限値U(g))を用いて、不等式(9)が成立するか否かを判定する。省略判定部13は、Block Coordinate Descentの計算処理のうち、グループ内の係数がすべてゼロになるか否かをチェックする場合に使用する不等式(3)内の項を該項の上限値U(g)で近似した近似式(不等式(9))を用いて評価を行う。省略判定部13は、不等式(9)が成立する場合には、このグループ内の係数を全て0とする。したがって、省略判定部13は、不等式(9)が成立する場合、このグループについて、通常のBlock Coordinate Descent(ソルバ)の計算処理を省略すると判定する。
ソルバ適用部14は、収束判定部13が計算対象のグループに対する計算を省略しないと判定した場合、通常のBlock Coordinate Descent(ソルバ)の計算処理を実行する。すなわち、ソルバ適用部14は、不等式(9)が成立しなかった場合、ソルバの計算処理を実行する。つまり、ソルバ適用部14は、不等式(3)を用いてループ内の係数がすべてゼロになるか否かをチェックする第1ステップを行う。ソルバ適用部14は、不等式(3)が成立した場合、このグループの係数を全て0にする。これに対し、ソルバ適用部14は、不等式(3)が成立しない場合には、式(6)及び式(7)を用いてグループ内の係数を更新する第2ステップを実行する。
スコア更新部15は、計算対象のグループに対するスコアを更新する。スコア更新部15は、ソルバ適用部14によって係数が更新された場合に、式(12)を用いて、このグループに対するスコア(上限値U(g))を更新する。データ分析装置10は、全グループに対し、省略計算部13による処理を適用し、不等式(9)が成立しなかった場合にソルバ適用部14による計算処理を適用する。
収束判定部16は、全グループに対し、省略計算部13による処理を適用し、式(9)の不等式が成立しなかった場合にソルバ適用部14による計算処理を適用した後、係数が収束したか否かを判定する。収束判定部16は、係数が収束している場合には、収束した係数を返す。収束判定部16は、係数が収束していない場合には、スコア計算部12による処理に戻り、収束するまで処理を繰り返す。
[処理の流れ]
次に、データ分析装置10が使用するアルゴリズム、及び、データ分析装置10が実行する処理の流れについて説明する。図2は、図1に示すデータ分析装置10が使用するアルゴリズムを示す図である。図3は、実施の形態に係るデータ分析方法の処理手順を示すフローチャートである。
次に、データ分析装置10が使用するアルゴリズム、及び、データ分析装置10が実行する処理の流れについて説明する。図2は、図1に示すデータ分析装置10が使用するアルゴリズムを示す図である。図3は、実施の形態に係るデータ分析方法の処理手順を示すフローチャートである。
図2のアルゴリズム及び図3のフローチャートに示すように、行列ノルム計算部11は、与えられたデータのグラム行列のノルムを計算する(図2の1~3行目及び図3のステップS1)。
続いて、スコア計算部12は、式(10)及び式(11)を用いて、式(10)で表される上限値U(g)を、グループに対するスコアとして、全グループで計算する(図2の5~7行目及び図3のステップS2)。
省略判定部13は、スコアからグループの計算の省略可否を判定する。具体的には、省略判定部13は、スコア計算部12が求めたスコア(上限値U(g))を用いて、不等式(9)が成立するか否かを判定する(図3のステップS3)。
そして、省略判定部13は、不等式(9)が成立すると判定した場合(図2の9行目及び図3のステップS3:Yes)、このグループ内の係数は全て0とする(図2の10行目及び図3のステップS4)。
これに対し、省略判定部13が、不等式(9)が成立しないと判定した場合(図2の12行目及び図3のステップS3:No)、ソルバ適用部14は、通常のBlock Coordinate Descent(ソルバ)の計算処理を実行する(図2の12~17行目及び図3のステップS5)。具体的には、ソルバ適用部14は、不等式(3)を用いてループ内の係数がすべてゼロになるか否かをチェックする第1ステップを行い、不等式(3)が成立した場合(図2の12行目)、このグループの係数を全て0にする(図2の13行目)。これに対し、ソルバ適用部14は、不等式(3)が成立しない場合(図2の14行目)、式(6)及び式(7)を用いてグループ内の係数を更新する第2ステップを実行する(図2の15~17行目)。
そして、スコア更新部15は、ソルバ適用部14によって係数が更新された場合(ステップS6:Yes)、式(12)を用いて、グループに対するスコア(上限値U(g))を更新する(図2の18行目及び図3のステップS7)。
データ分析装置10は、全グループに対してステップS3~ステップS7を適用していない場合(図3のステップS8:No)、次のグループに進み(ステップS9)、ステップS3以降の処理を実行する。また、全グループに対してステップS3~ステップS7を適用した場合(図2の8~18行目及び図3のステップS8:Yes)、収束判定部16は、係数が収束したか否かを判定する(図2の19行目及び図3のステップS10)。
係収束判定部16は、係数が収束していると判定した場合(図3のステップS10:Yes)、収束した係数を返して、処理を終了する。収束判定部16は、係数が収束していないと判定した場合(図3のステップS10:No)、ステップS2の処理に戻り、収束するまで、ステップS2~ステップS10の処理を繰り返す。
[実施の形態の効果]
このように、本実施の形態に係るデータ分析装置10は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出する線形回帰モデルの学習装置である。そして、データ分析装置10は、与えられたデータのグラム行列のノルムを計算し、データ分析装置10は、データのグループのうち計算対象のグループに対するスコアを計算する。続いて、データ分析装置10は、スコアを基に、計算対象のグループに対する計算を省略するか否かを判定する。
このように、本実施の形態に係るデータ分析装置10は、Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出する線形回帰モデルの学習装置である。そして、データ分析装置10は、与えられたデータのグラム行列のノルムを計算し、データ分析装置10は、データのグループのうち計算対象のグループに対するスコアを計算する。続いて、データ分析装置10は、スコアを基に、計算対象のグループに対する計算を省略するか否かを判定する。
そして、データ分析装置10は、計算対象のグループに対する計算を省略しないと判定した場合、計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用する。このため、データ分析装置10は、全てのグループに対してBlock Coordinate Descentの計算処理を適用しないため、Block Coordinate Descentを高速化することができる。
この際、データ分析装置10は、Block Coordinate Descentの計算処理のうち、グループ内の係数がすべてゼロになるか否かをチェックする場合に使用する不等式内の項を該項の上限値で近似した近似式を用いて評価を行う。言い換えると、データ分析装置10は、グループ内の係数がすべてゼロになるか否かをチェックする場合に使用する不等式を、より計算量の小さい近似式に置き換える。このため、データ分析装置10は、不等式(3)を用いるBlock Coordinate Descentのボトルネックである、グループの係数がゼロか非ゼロかを判定する第1ステップの計算を軽量化でき、Block Coordinate Descentを高速化することができる。
この結果、本実施の形態によれば、Block Coordinate Descentが高速化されることによって、Sparse Group Lassoによる特徴のグループ抽出処理を高速化することができる。また、本実施の形態では、上述の近似を導入することによってBlock Coordinate Descentを高速化するが、その学習結果は、元のBlock Coordinate Descentと一致することを保証する。このため、本実施の形態によれば、正確にSparse Group Lassoによる特徴グループを抽出することができる。
[実施形態のシステム構成について]
図1に示したデータ分析装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、データ分析装置10の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
図1に示したデータ分析装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、データ分析装置10の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、データ分析装置10においておこなわれる各処理は、全部または任意の一部が、CPUおよびCPUにより解析実行されるプログラムにて実現されてもよい。また、データ分析装置10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
図4は、プログラムが実行されることにより、データ分析装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
図4は、プログラムが実行されることにより、データ分析装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、データ分析装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、データ分析装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10 データ分析装置
11 行列ノルム計算部
12 スコア計算部
13 省略判定部
14 ソルバ適用部
15 スコア更新部
16 収束判定部
11 行列ノルム計算部
12 スコア計算部
13 省略判定部
14 ソルバ適用部
15 スコア更新部
16 収束判定部
Claims (4)
- Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出するデータ分析装置であって、
与えられたデータのグラム行列のノルムを計算する第1の計算部と、
前記ノルムを基に前記データのグループのうち計算対象のグループに対するスコアを計算する第2の計算部と、
前記第2の計算部が計算したスコアを基に前記計算対象のグループに対する計算を省略するか否かを判定する判定部と、
前記判定部が前記計算対象のグループに対する計算を省略しないと判定した場合、前記計算対象のグループに対し、前記Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用する適用部と、
を有することを特徴とするデータ分析装置。 - 前記判定部は、前記Block Coordinate Descentの計算処理のうち、グループ内の係数がすべてゼロになるか否かをチェックする場合に使用する不等式内の項を該項の上限値で近似した近似式を用いて評価を行うことを特徴とする請求項1に記載のデータ分析装置。
- Sparse Group Lassoを用いて、多次元データから重要な特徴のグループを抽出するデータ分析装置が実行するデータ分析方法であって、
与えられたデータのグラム行列のノルムを計算する工程と、
前記ノルムを基に前記データのグループのうち計算対象のグループに対するスコアを計算する工程と、
前記スコアを基に前記計算対象のグループに対する計算を省略するか否かを判定する工程と、
前記判定する工程において、前記計算対象のグループに対する計算を省略しないと判定された場合、前記計算対象のグループに対し、前記Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用する工程と、
を含んだことを特徴とするデータ分析方法。 - 与えられた多次元データのグラム行列のノルムを計算するステップと、
前記ノルムを基に前記多次元データのグループのうち計算対象のグループに対するスコアを計算するステップと、
前記スコアを基に前記計算対象のグループに対する計算を省略するか否かを判定するステップと、
前記判定するステップにおいて、前記計算対象のグループに対する計算を省略しないと判定された場合、前記計算対象のグループに対し、Sparse Group Lassoが最適化問題を解く場合に用いるBlock Coordinate Descentの計算処理を適用するステップと、
をコンピュータに実行させることを特徴とするデータ分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/438,475 US20220147537A1 (en) | 2019-04-11 | 2020-03-26 | Data analysis device, data analysis method, and data analysis program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-075952 | 2019-04-11 | ||
JP2019075952A JP7172816B2 (ja) | 2019-04-11 | 2019-04-11 | データ分析装置、データ分析方法及びデータ分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020209086A1 true WO2020209086A1 (ja) | 2020-10-15 |
Family
ID=72751095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/013688 WO2020209086A1 (ja) | 2019-04-11 | 2020-03-26 | データ分析装置、データ分析方法及びデータ分析プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220147537A1 (ja) |
JP (1) | JP7172816B2 (ja) |
WO (1) | WO2020209086A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029020A1 (ja) * | 2022-08-04 | 2024-02-08 | 日本電信電話株式会社 | データ分析装置、データ分析方法及びデータ分析プログラム |
CN117370975B (zh) * | 2023-12-08 | 2024-03-26 | 国任财产保险股份有限公司 | 一种基于深度学习的sql注入检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140309122A1 (en) * | 2013-04-11 | 2014-10-16 | Nec Laboratories America, Inc. | Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction |
JP2016071684A (ja) * | 2014-09-30 | 2016-05-09 | 日本電気株式会社 | パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム |
-
2019
- 2019-04-11 JP JP2019075952A patent/JP7172816B2/ja active Active
-
2020
- 2020-03-26 US US17/438,475 patent/US20220147537A1/en active Pending
- 2020-03-26 WO PCT/JP2020/013688 patent/WO2020209086A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140309122A1 (en) * | 2013-04-11 | 2014-10-16 | Nec Laboratories America, Inc. | Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction |
JP2016071684A (ja) * | 2014-09-30 | 2016-05-09 | 日本電気株式会社 | パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム |
Non-Patent Citations (1)
Title |
---|
KARASUYAMA, MASAYUKI ET AL.: "A study on minimizing size of sparse model optimization problem: exploiting safe rules for keeping and removing variables", IEICE TECHNICAL REPORT, vol. 116, no. 500, 27 February 2017 (2017-02-27), pages 57 - 62, ISSN: 0913-5685 * |
Also Published As
Publication number | Publication date |
---|---|
JP7172816B2 (ja) | 2022-11-16 |
JP2020173674A (ja) | 2020-10-22 |
US20220147537A1 (en) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Predictive analytics with gradient boosting in clinical medicine | |
TWI444844B (zh) | 模擬參數校正技術 | |
CN104869126B (zh) | 一种网络入侵异常检测方法 | |
WO2020209086A1 (ja) | データ分析装置、データ分析方法及びデータ分析プログラム | |
CN112232407B (zh) | 病理图像样本的神经网络模型训练方法、装置 | |
US20190087744A1 (en) | Automatic Selection of Variables for a Machine-Learning Model | |
KR20210032140A (ko) | 뉴럴 네트워크에 대한 프루닝을 수행하는 방법 및 장치 | |
CN106980623A (zh) | 一种数据模型的确定方法及装置 | |
WO2020116211A1 (ja) | 推定装置、最適化装置、推定方法、最適化方法、及びプログラム | |
CN113283524A (zh) | 一种基于对抗攻击的深度神经网络近似模型分析方法 | |
CN117153297A (zh) | 一种水泥混凝土抗压强度检测方法、系统及电子设备 | |
CN108694232A (zh) | 一种基于信任关系特征学习的社会化推荐方法 | |
Li et al. | A scalable surrogate L0 sparse regression method for generalized linear models with applications to large scale data | |
CN116303100B (zh) | 一种基于大数据平台的文件集成测试方法及系统 | |
JP6662754B2 (ja) | L1グラフ計算装置、l1グラフ計算方法及びl1グラフ計算プログラム | |
Fort et al. | Stochastic proximal-gradient algorithms for penalized mixed models | |
CN116150658A (zh) | 信创环境下实现风险数据识别处理的方法、装置、处理器及其计算机可读存储介质 | |
CN112698977B (zh) | 服务器故障定位方法方法、装置、设备及介质 | |
Aubard et al. | Modeling and simulation of damage in elastomer structures at high strains | |
KR100552639B1 (ko) | 미분 방정식 시스템에서 불일치에 관한 에러 정보를제공하는 방법 | |
WO2024029020A1 (ja) | データ分析装置、データ分析方法及びデータ分析プログラム | |
US20210326705A1 (en) | Learning device, learning method, and learning program | |
JP7384279B2 (ja) | データ処理方法、データ処理装置及びデータ処理プログラム | |
WO2022038722A1 (ja) | 重要度計算装置、重要度計算方法及び重要度計算プログラム | |
Rong et al. | Kernel Cox partially linear regression: Building predictive models for cancer patients' survival |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20788597 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20788597 Country of ref document: EP Kind code of ref document: A1 |