WO2016067548A1 - 領域線形モデル最適化システム、方法およびプログラム - Google Patents

領域線形モデル最適化システム、方法およびプログラム Download PDF

Info

Publication number
WO2016067548A1
WO2016067548A1 PCT/JP2015/005243 JP2015005243W WO2016067548A1 WO 2016067548 A1 WO2016067548 A1 WO 2016067548A1 JP 2015005243 W JP2015005243 W JP 2015005243W WO 2016067548 A1 WO2016067548 A1 WO 2016067548A1
Authority
WO
WIPO (PCT)
Prior art keywords
linear model
region
model
partition
linear
Prior art date
Application number
PCT/JP2015/005243
Other languages
English (en)
French (fr)
Inventor
遼平 藤巻
秀和 大岩
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2016556196A priority Critical patent/JP6669075B2/ja
Priority to EP15853680.5A priority patent/EP3214584A4/en
Priority to US15/731,172 priority patent/US10558888B2/en
Publication of WO2016067548A1 publication Critical patent/WO2016067548A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Definitions

  • the present invention relates to a region linear model optimization system, a region linear model optimization method, and a region linear model optimization program for optimizing a region linear model.
  • the domain linear model is widely used in real devices as a model expression with high interpretability.
  • the input space is first divided into several partial spaces (hereinafter sometimes referred to as regions), and a simple model is set for each region.
  • regions partial spaces
  • a simple model is set for each region.
  • the structure model using the region has excellent prediction performance even with respect to the non-linear property of a plurality of partitions, and the data can be easily interpreted.
  • Non-Patent Document 1 describes a method of learning a prediction model of each region by adaptively dividing the feature space into different regions. Each model optimizes an objective function for a prediction model in each region divided and each divided region.
  • Non-Patent Document 1 Since the division of the region and the optimization of the prediction model of each divided region are interdependent, the problem of learning a region linear model such as the decision tree model or the model described in Non-Patent Document 1 is non-convex. It comes down to the problem. Therefore, when trying to optimize such a non-convex problem, there arises a problem that depends on an initial value and a generalization error cannot be sufficiently analyzed.
  • an object of the present invention is to provide a domain linear model optimization system, a domain linear model optimization method, and a domain linear model optimization program that can generate a more optimal domain linear model while avoiding the non-convex problem. To do.
  • the domain linear model optimization system is a domain linear model optimization system that optimizes a domain linear model, and is divided into partitions that are instruction functions that divide an input space into two parts.
  • a linear model setting unit that sets a linear model to be applied to one of the regions that represent the subspace, and a region that represents the model of each region in the region linear model as a linear combination of the linear models applied to each region And a model calculation unit.
  • a region linear model optimization method is a region linear model optimization method that optimizes a region linear model, and is divided into partitions that are instruction functions that divide an input space into two parts.
  • a linear model to be applied to one of the regions indicating the subspace is set, and a model of each region in the region linear model is represented by a linear combination of the linear models applied to each region.
  • a domain linear model optimization program is a domain linear model optimization program applied to a computer that optimizes a domain linear model, and is a partition that is an instruction function for dividing an input space into two parts.
  • a linear model setting process for setting a linear model to be applied to one of the regions indicating the subspace divided by the partition, and a model for each region in the region linear model are applied to each region.
  • a non-convex problem can be avoided and a more optimal area linear model can be generated.
  • FIG. FIG. 1 is a block diagram showing a configuration example of a first embodiment of a region linear model optimization system according to the present invention.
  • the regional linear model optimization system 10 of this embodiment optimizes the regional linear model for the input data 111 and outputs an optimized model 112.
  • a linear model based on a partition method partition-wise linear models; hereinafter referred to as the present linear model
  • the present linear model divides a space where data exists (hereinafter referred to as an input space) using a set of partitions.
  • a partition corresponds to an indicator function that divides the input space into two parts.
  • a partial space obtained by dividing the input space is referred to as a region.
  • the areas do not cross each other, and the input space is covered by all areas.
  • Each partition has a linear model that is applied to one of the two divided areas.
  • the linear model include linear regression, logistic regression, Poisson regression, and logarithmic linear model.
  • the prediction variable of the region is expressed by a linear combination of all linear models applied to each region. By expressing the prediction variable in this way, it is possible to generate a convex objective function.
  • the linear model is optimized by learning the local relationship between the input vector and the output value. In other words, the position of the partition is given first, and what kind of linear model should be given to each partition is determined by learning.
  • the region linear model optimization system 10 of the present embodiment includes a data input device 11, a partition setting unit 12, a linear model setting unit 13, a region model calculation unit 14, and model optimization.
  • the data input device 11 is a device for inputting input data 111.
  • the data input device 11 simultaneously inputs parameters necessary for model optimization.
  • the partition setting unit 12 sets a partition in the input space. If the number of partitions is P, setting P partitions in the input space essentially corresponds to specifying 2 P areas in the input space.
  • the method of setting the partition is arbitrary. Since the number of sample data is limited, the partition setting unit 12 may set a partition to be divided for each sample, for example. However, in order to suppress an increase in calculation amount due to an increase in the number of partitions, the partition setting unit 12 may set a predetermined number of partitions at random. Further, the partition setting unit 12 may set a suitable partition by partially using the method used in the decision tree model, or may set a partition that divides the dimension axis at equal intervals.
  • the partition setting unit 12 may first set a coarse-grained partition, and again set a finer-grained partition for an area determined to have a large error as a result of optimization described later. Good.
  • the linear model setting unit 13 sets, for the partition set by the partition setting unit 12, a linear model that is applied to one of the partial spaces (that is, regions) divided by the partition.
  • f p (x) an active function (activeness function) indicating whether or not ap is used for prediction of data x
  • f p (x) an active function indicating whether or not ap is used for prediction of data x
  • f p (x) 1, ap is used for prediction of data x.
  • f p (x) satisfies the condition of Equation 1 shown below.
  • FIG. 2 is an explanatory diagram illustrating an example of a prediction variable in each region.
  • the linear model setting unit 13 with respect to the partition p 1
  • the region model calculation unit 14 represents the prediction variable (linear model) of each region in the region linear model by a linear combination of the linear models applied to each region.
  • This linear model is set for each partition that divides a region. That is, by setting a linear model for each partition by the linear model setting unit 13, the prediction variable of each region can be expressed by a linear combination of all the linear models applied to each region.
  • the prediction variable of the region on the right side of the partition p 1 and the right side of the partition p 3 can be expressed by a linear combination (a 1 + a 3 ) of the linear models a 1 and a 3 (see FIG. 2). 2). Since the prediction variable of each region is represented by a linear combination of all the linear models applied to each region, the prediction variable is represented as a linear model as a result.
  • Equation 2 the linear model of the present application is defined as follows.
  • the given P effective functions f 1 ,..., F P are expressed in a vector format as shown in Equation 2 below.
  • Equation 2 the p-th element f p (x) (where f p (x) ⁇ ⁇ 0, 1 ⁇ ) indicates whether or not the linear model ap is applied to the data x.
  • the effective function f (•) represents at most 2 P areas, and f (x) represents the area to which the data x belongs.
  • the model optimization unit 15 optimizes the region linear model.
  • the weight matrix A is defined as shown in Equation 4 below.
  • D represents the number of dimensions of dimension d.
  • Equation 5 the prediction function g (•) can be defined as shown in Equation 5 below. That is, the linear model of the present application is expressed as shown in Equation 5 below.
  • Equation 5 shown above can be transformed into the following equation 6. That is, it is shown that the present linear model behaves as a linear model related to the weight matrix A. Further, according to Equation 6 shown below, it can be said that the prediction function g (x) is a linear predictor for each data point x and is a local linear predictor as a whole.
  • the linear model of the present application as a whole exhibits the property of nonlinearity.
  • Such a non-linear property is caused by the effective function f p , and this effective function is an essential component in the present linear model.
  • the model optimization unit 15 expresses the objective function of the present invention as a convex optimization problem expressed by the following equation 7 by introducing a convex loss function l (•, •).
  • convex loss functions include square loss in regression, square hinge loss or logistic loss in classification.
  • the optimization problem of the present linear model results in a convex optimization problem as shown in Equation 7.
  • the model optimization unit 15 optimizes the weight matrix A (that is, the linear model set for each partition) by solving the convex optimization problem shown in Equation 7, and as a result, optimizes the region linear model.
  • the model optimization unit 15 optimizes the region linear model having convexity. Therefore, it is possible to generate a more optimal area linear model by avoiding the non-convex problem that is difficult to optimize.
  • the model output device 16 outputs an optimized area linear model.
  • the partition setting unit 12, the linear model setting unit 13, the region model calculation unit 14, and the model optimization unit 15 are realized by a CPU of a computer that operates according to a program (region linear model optimization program).
  • the program is stored in a storage unit (not shown) of the region linear model optimization system 10, and the CPU reads the program, and according to the program, the partition setting unit 12, the linear model setting unit 13, the region model calculation unit 14 and the model optimization unit 15 may operate.
  • each of the partition setting unit 12, the linear model setting unit 13, the region model calculation unit 14, and the model optimization unit 15 may be realized by dedicated hardware.
  • the region linear model optimization system according to the present invention may be configured by connecting two or more physically separated devices in a wired or wireless manner.
  • FIG. 3 is a flowchart showing an operation example of the region linear model optimization system of the present embodiment.
  • 4 to 7 are explanatory diagrams showing the relationship between the partition set in the input space and the linear model.
  • the data input device 11 inputs the input data 111 (step S11).
  • input data 111 shown in two dimensions is input.
  • black circles and white circles indicate individual samples (data), and the samples indicated by black circles and the samples indicated by white circles are data having common properties.
  • the partition setting unit 12 sets a partition (step S12).
  • a partition As illustrated in FIG. 5, three partitions (p 1 to p 3 ) perpendicular to the x 1 axis direction, three partitions (p 4 to p 6 ) perpendicular to the x 2 axis direction, respectively. Assume that it is set as a partition.
  • the partition setting unit 12 sets a partition perpendicular to the dimension axis of the input space, but the set partition is not limited to one perpendicular to each dimension axis.
  • the partition setting unit 12 may set, for example, a concentric or concentric elliptical partition, a partition oblique to the axis, or a partition indicated by two or more separated circles or ellipses.
  • the linear model setting unit 13 sets a linear model for the partition set by the partition setting unit 12 (step S13).
  • the linear models a 1 to a 6 applied to the region on the right side of the partition are set to the partitions p 1 to p 6 , respectively.
  • the linear model setting unit 13 also defines effective functions f 1 to f 6 for indicating that the linear model is applied to one of the regions divided by the partition (here, the right region). To do.
  • the linear model setting unit 13 When the partition setting unit 12 sets a concentric (concentric ellipse) -like partition, the linear model setting unit 13 is applied to, for example, one of the regions inside or outside the concentric circle (concentric ellipse). May be set. In addition, when the partition setting unit 12 sets an oblique partition on the dimension axis, the linear model setting unit 13 sets a linear model to be applied to a region in an increasing direction of the dimension axis that is arbitrarily determined, for example. Also good. When the partition setting unit 12 sets a partition indicated by two or more separated circles (ellipses), the linear model setting unit 13 is applied to, for example, one of the regions inside or outside the circle (ellipse). A linear model may be set.
  • the area model calculation unit 14 represents the linear model of each area divided by the partition by linear combination of the linear models applied to each area (step S14).
  • the region r 1 illustrated in FIG. 7 is a region on the right side of the partition p 1 , the partition p 4, and the partition p 5 . Therefore, the region model calculation unit 14 represents the linear model of the region r 1 as a linear combination a 1 + a 4 + a 5 of the linear model a 1 , the linear model a 4, and the linear model a 5 set in these partitions. .
  • the model optimization unit 15 optimizes the region linear model based on the linear model of each region represented by the region model calculation unit 14 (step S15). For example, the model optimization unit 15 optimizes the region linear model by optimizing the convex loss function expressed by the above-described Expression 7.
  • the model output device 16 outputs the optimized area linear model (step S16).
  • the linear model setting unit 13 divides an input function including data into an instruction function (partition) that divides the input space into two parts (partial space) divided by the partition.
  • a linear model to be applied to one of the regions is set.
  • the region model calculation unit 14 represents the model of each region in the region linear model by linear combination of the linear models applied to each region.
  • the target region linear model has convexity. Therefore, according to the present embodiment, since the model optimization unit 15 optimizes the region linear model based on the linear model of each region represented by the region model calculation unit 14, the non-convex problem can be avoided and more An optimal domain linear model can be generated.
  • the position of the partition and the linear model set in the area divided by the partition are simultaneously optimized. Therefore, the optimization problem of the domain linear model becomes a non-convex problem and is difficult to optimize.
  • a partition is set at a position where it is determined that the input space can be appropriately divided, and the process of further dividing the divided input space is repeated.
  • a linear model is set for a partition set in advance, and an area linear model is represented by the positional relationship of the partitions.
  • Embodiment 2 the method in which the model optimization unit 15 optimizes the linear model set in the partition has been described.
  • a method for optimizing an area by selecting an effective partition from set partition candidates will be described.
  • FIG. 8 is a block diagram showing a configuration example of the second embodiment of the region linear model optimization system according to the present invention.
  • the region linear model optimization system 20 of the present embodiment includes a data input device 11, a partition candidate setting unit 22, a linear model setting unit 13, a region model calculation unit 14, a model optimization unit 25, and a model output device. 16.
  • the contents of the data input device 11, the linear model setting unit 13, the region model calculation unit 14, and the model output device 16 are the same as those in the first embodiment.
  • the partition candidate setting unit 22 sets partition candidates. Note that the partition candidate setting method is the same as the method in which the partition setting unit 12 of the first embodiment sets a partition.
  • the model optimization unit 25 optimizes the region linear model by optimizing the partition candidate to be selected and optimizing the linear model set in the partition.
  • a regularization term ⁇ (g (•)) for evaluating the appropriateness of the structure of the prediction function is used.
  • the model optimization unit 25 optimizes the region linear model by obtaining a prediction function g (•) that minimizes the sum of the loss function and the regularization term.
  • the model optimizing unit 25 sums the loss function l (•, •) for evaluating the domain linear model and the regularization term ⁇ (g (•)) for making the partition structure sparse. Based on the above, the region linear model is optimized.
  • Making the partition structure sparse includes both meanings of selecting an appropriate partition from among the partition candidates and making the area divided by the partition sparse.
  • Equation 8 The equation for obtaining the prediction function g (•) that minimizes the sum of the loss function and the regularization term can be defined as Equation 8 below.
  • any regularization term can be used as the regularization term ⁇ (g (•)) as long as it has an effect of making the domain linear model sparse.
  • Which regularization term is used is determined by the user or the like according to the structure of the partition to be optimized.
  • the model optimization unit 25 may perform optimization of the region linear model by calculating Expression 9 shown below.
  • Equation 9 ⁇ (A) is a regularization term, and ⁇ p and ⁇ 0 each represent a regularization weight value.
  • the right side indicating the condition of ⁇ (A) indicates group regularization.
  • the first term is a term for reducing the number of partitions, and the second term is a term for making the final linear model sparse.
  • Equation 9 represented by the sum of the loss function and the regularization term having convexity also results in a convex optimization problem.
  • the initial value dependency can be eliminated and a more optimal region linear model can be generated.
  • the infinite norm is used for the regularization term, but the structure used for the regularization term is not limited to the infinite norm.
  • L1 regularization may be used for the regularization term in order to increase the interpretability of the partition for the purpose of expressing the final model with a small amount of features.
  • Group Fused Lasso can be used as a regularization term, or all valid partitions can be detected.
  • Elastic Net ⁇ may be used for the regularization term. Since L1 regularization, Group Fused Lasso, and Elastic Net all have convexity, the same effects as described above can be obtained.
  • the reason that any regularization term can be used is that the loss function minimization problem for evaluating the prediction performance is a convex optimization problem. Since a general domain linear model has non-convexity, an efficient solution method with an arbitrary regularization term is generally not known, and it is difficult to say that the interpretability of the model becomes easy. On the other hand, in this embodiment, since the problem of optimizing the region linear model becomes a convex optimization problem, it is possible to incorporate regularization terms of various structures while maintaining the interpretability of the region linear model.
  • the partition candidate setting unit 22, the linear model setting unit 13, the region model calculation unit 14, and the model optimization unit 25 are realized by a CPU of a computer that operates according to a program (region linear model optimization program). .
  • the operation of the region linear model optimization system 20 of the present embodiment is the same as that of the region linear model optimization system 10 of the first embodiment.
  • the present embodiment is different from the first embodiment in that the model optimization unit 25 optimizes including the regularization term.
  • the model optimization unit 25 optimizes the region linear model based on the linear model of each region represented by the region model calculation unit 14. Specifically, the model optimization unit 25 of the present embodiment optimizes the region linear model based on the sum of the loss function and the regularization term.
  • the linear model of each region is represented by the content illustrated in FIG. 7 by the region model calculation unit 14.
  • a result of the optimization if a 1 is applied to each region becomes all 0, it means that a 1 was not used. Therefore, when the linear model a 1 is 0, it is indicated that the partition p 1 is also unnecessary. By excluding unnecessary partitions, the relationship between the regions becomes sparse, so that a linear model with higher interpretability can be expressed.
  • FIG. 9 is an explanatory diagram illustrating an example of a result of selecting an appropriate partition from the partition candidates.
  • the linear models other than the linear model a 2 are all 0 as a result of optimization.
  • partition p 2 except partitions are excluded.
  • the model optimization unit 25 optimizes the region linear model based on the sum of the loss function and the regularization term for making the partition structure sparse. Therefore, in addition to the effects of the first embodiment, an appropriate partition can be selected, so that the interpretability of the model can be improved.
  • the linear model setting unit 13 of the present embodiment sets a linear model for the partition candidates set by the partition candidate setting unit 22, and assigns all the regions to the partitions associated with all the regions of the input space. Set the linear model to apply.
  • FIG. 10 is an explanatory diagram illustrating an example in which the input area is divided.
  • the linear model a 2 is applied to the region r 12 on the right side of the partition p 2 .
  • the left side of the region r 11 of the partition p 2 there is no partition to apply a linear model. Therefore, in this state, it is impossible to predict the data of the left region r 11 of the partition p 2.
  • FIG. 11 is an explanatory diagram showing that a linear model a 0 applied to all data is set for the partition p 0 associated with all regions of the input space. Note that the linear model a 0 is a linear model applied to all regions, and thus can be said to be an all-applied linear model.
  • a linear model a By introducing such a linear model a 0, it is possible to capture the local model changes in detail. Specifically, a prediction model common to all data is learned using the linear model a 0, and a characteristic peculiar to some data is a partition (specifically, a linear model set in each partition). It becomes possible to learn with.
  • Model optimization unit 25 while maintaining the effectiveness of the linear model a 0, to optimize the domain linear model. That is, the model optimization unit 25 optimizes the domain linear model so that the linear model a 0 always valid vector.
  • the above-described Group Lasso can be used to automatically select a valid partition.
  • the linear model a 0 is necessarily an effective vector, so that the group regularization is not applied to the linear model a 0 .
  • L0 regularization can be used to maintain the interpretability of each partition.
  • a weight matrix A including the linear model a 0 is defined as shown in Equation 10 below. Also, since you want to linear model a 0 is always enabled, the enable function f ( ⁇ ), defined by the equation 11 below.
  • the optimization problem of the domain linear model can be defined as a submodular optimization problem as shown in Equation 12 below.
  • the model optimization unit 25 optimizes the region linear model while maintaining the effectiveness of the linear model a 0 by solving the optimization problem of Equation 12 shown above.
  • the method of optimizing Equation 12 shown above is arbitrary.
  • the model optimization unit 25 may perform convex relaxation by Lovazz expansion on the regularization term.
  • the model optimization unit 25 may use submodular optimization or Group OMP (Orthogonal Matching Pursuit) as an optimization method.
  • the model optimization unit 25 may perform optimization using the proximity gradient method and the network flow.
  • model optimization unit 25 may use a generalization bound (Generalization Bound) for optimization of the region linear model.
  • Generalization Bound a generalization bound
  • the data (x n , y n ) follow the same probability distribution independently sampled from the specific data distribution D.
  • the loss function l ( ⁇ , ⁇ ) is an L-Llipsitz function with respect to the norm
  • the following expression 13 (inequality) is at least a probability. 1 ⁇ holds.
  • Equation 13 ⁇ is a weight set satisfying group (A) ⁇ 1, and ⁇ group (A) is defined in Chapter 2.5 of the following reference.
  • P o (exp (N))
  • the difference between the expected loss and the experience loss converges to 0 as the number of data increases, so the value of the experience loss may be minimized.
  • the linear model setting unit 13 sets the linear model a 0 in the partition p 0 , and the model optimization unit 25 is based on the sum of the loss function and the regularization term. while maintaining the effectiveness of the linear model a 0, to optimize the domain linear model. Therefore, in addition to the effects of the above embodiment, it is possible to capture a local model change in detail.
  • FIG. 12 is a block diagram showing an outline of a region linear model optimization system according to the present invention.
  • a domain linear model optimization system according to the present invention is a domain linear model optimization system (for example, domain linear model optimization system 10, domain linear model optimization system 20) that optimizes a domain linear model, and includes an input space (
  • a linear model for example, linear
  • a partition that is an instruction function that divides a space in which the input data 111 is present into two parts, to one of the regions that indicate the partial space divided by the partition.
  • Linear model setting unit 81 for example, linear model setting unit 13 for setting regression, logistic regression, Poisson regression, and the like, and a linear combination of linear models applied to each region in the region linear model.
  • an area model calculation unit 82 for example, the area model calculation unit 14).
  • the domain linear model optimization system has a loss function (e.g., g (•)) for evaluating the domain linear model and a regularization term (e.g., ⁇ (g (•))) for making the partition structure sparse. ) And a model optimization unit (for example, the model optimization unit 25) that optimizes the region linear model (for example, using Equation 8 shown above).
  • a loss function e.g., g (•)
  • a regularization term e.g., ⁇ (g (•)
  • the number of partitions to be set can be suppressed to an appropriate number, so that it is possible to improve the interpretability of the model.
  • the linear model setting unit 81 applies all applied linear models (for example, the linear model a 0 ) that are linear models to be applied to all the regions (for example, the partition p 0 ) indicating all the regions of the input space. May be set. Then, the model optimization unit optimizes the region linear model based on the sum of the loss function and the regularization term while maintaining the effectiveness of the entire applied linear model (for example, using Equation 12 shown above). May be used.
  • all applied linear models for example, the linear model a 0
  • the model optimization unit optimizes the region linear model based on the sum of the loss function and the regularization term while maintaining the effectiveness of the entire applied linear model (for example, using Equation 12 shown above). May be used.
  • the model optimization unit may optimize the region linear model based on the sum of the loss function and the regularization term having convexity. According to such a configuration, the optimization problem of the sum of the loss function and the regularization term also results in a convex optimization problem, so it is possible to eliminate the initial value dependency and converge to a global optimal solution Become.
  • the domain linear model optimization system includes a partition perpendicular to the dimensional axis of the input space, a partition oblique to the dimensional axis, a concentric or concentric elliptical partition, and two or more separated circles or You may provide the partition setting part (for example, partition setting part 12) which sets at least 1 partition of ellipse to input space.
  • the linear model setting unit 81 may set a linear model to be applied to the partition set by the partition setting unit. According to such a configuration, it is possible to use a partition having an arbitrary shape.
  • FIG. 13 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the above-described domain linear model optimization system is implemented in each computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (regional linear model optimization program).
  • the CPU 1001 reads out the program from the auxiliary storage device 1003, expands it in the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a tangible medium that is not temporary.
  • Other examples of the non-temporary tangible medium include a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, and a semiconductor memory connected via the interface 1004.
  • this program is distributed to the computer 1000 via a communication line, the computer 1000 that has received the distribution may develop the program in the main storage device 1002 and execute the above processing.
  • the program may be for realizing a part of the functions described above. Further, the program may be a so-called difference file (difference program) that realizes the above-described function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • the present invention is preferably applied to a region linear model optimization system that optimizes a region linear model by, for example, machine learning.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

 領域線形モデルを最適化する領域線形モデル最適化システムであって、入力空間を2つの部分に分割する指示関数であるパーティションに、そのパーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定する線形モデル設定部81と、領域線形モデルにおける各領域のモデルを、その各領域に適用される線形モデルの線形結合で表す領域モデル計算部82とを備えている。

Description

領域線形モデル最適化システム、方法およびプログラム
 本発明は、領域線形モデルを最適化する領域線形モデル最適化システム、領域線形モデル最適化方法および領域線形モデル最適化プログラムに関する。
 領域線形モデルは、解釈容易性の高いモデル表現として実装置に幅広く利用されている。このようなモデルでは、まず入力空間が幾つかの部分空間(以下、領域と記すこともある。)に分割され、各領域に対して単純なモデルが設定される。このように、領域を用いた構造のモデルは、複数のパーティションによる非線形な性質に対しても優れた予測性能を有し、データの解釈も容易になる。
 領域を分割するモデルとして、決定木モデルや、非特許文献1に記載されたモデルが知られている。非特許文献1には、特徴空間を異なる複数の領域に適応的に分割して、各領域の予測モデルを学習する方法が記載されている。いずれのモデルも、領域分割及び分割された各領域における予測モデルについての目的関数を最適化するものである。
Joseph Wang and Venkatesh Saligrama, "Local supervised learning through space partitioning.", In NIPS, pp.91?99, 2012.
 領域の分割と分割された個々の領域の予測モデルの最適化とは相互依存するため、決定木モデルや非特許文献1に記載されたモデルのような領域線形モデルを学習する問題は、非凸問題に帰着する。そのため、このような非凸問題を最適化しようとする場合、初期値依存の問題や、汎化誤差の解析を十分に行うことができないという問題が発生する。
 そこで、本発明は、非凸問題を回避して、より最適な領域線形モデルを生成できる領域線形モデル最適化システム、領域線形モデル最適化方法および領域線形モデル最適化プログラムを提供することを目的とする。
 本発明による領域線形モデル最適化システムは、領域線形モデルを最適化する領域線形モデル最適化システムであって、入力空間を2つの部分に分割する指示関数であるパーティションに、そのパーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定する線形モデル設定部と、領域線形モデルにおける各領域のモデルを、その各領域に適用される線形モデルの線形結合で表す領域モデル計算部とを備えたことを特徴とする。
 本発明による領域線形モデル最適化方法は、領域線形モデルを最適化する領域線形モデル最適化方法であって、入力空間を2つの部分に分割する指示関数であるパーティションに、そのパーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定し、領域線形モデルにおける各領域のモデルを、その各領域に適用される線形モデルの線形結合で表すことを特徴とする。
 本発明による領域線形モデル最適化プログラムは、領域線形モデルを最適化するコンピュータに適用される領域線形モデル最適化プログラムであって、コンピュータに、入力空間を2つの部分に分割する指示関数であるパーティションに、そのパーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定する線形モデル設定処理、および、領域線形モデルにおける各領域のモデルを、その各領域に適用される線形モデルの線形結合で表す領域モデル計算処理を実行させるを備えたことを特徴とする。
 本発明によれば、非凸問題を回避して、より最適な領域線形モデルを生成できる。
本発明による領域線形モデル最適化システムの第1の実施形態の構成例を示すブロック図である。 各領域の予測変数の例を示す説明図である。 第1の実施形態の領域線形モデル最適化システムの動作例を示すフローチャートである。 パーティションと線形モデルの関係を示す説明図である。 パーティションと線形モデルの関係を示す説明図である。 パーティションと線形モデルの関係を示す説明図である。 パーティションと線形モデルの関係を示す説明図である。 本発明による領域線形モデル最適化システムの第2の実施形態の構成例を示すブロック図である。 パーティションを選択した結果の例を示す説明図である。 入力領域を分割した例を示す説明図である。 全データに適用される線形モデルが設定されていることを示す説明図である。 本発明による領域線形モデル最適化システムの概要を示すブロック図である。 コンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明による領域線形モデル最適化システムの第1の実施形態の構成例を示すブロック図である。本実施形態の領域線形モデル最適化システム10は、入力データ111が入力されると、その入力データ111に対して領域線形モデルを最適化し、最適化したモデル112を出力する。
 まず、本発明で用いられるモデルの概要を説明する。本発明では、領域線形モデルの新しい種類として、パーティション方式による線形モデル(partition-wise linear models。以下、本願線形モデルと記す。)が用いられる。
 本願線形モデルは、パーティションの集合を用いて、データの存在する空間(以下、入力空間と記す。)を分割する。パーティションは、入力空間を2つの部分に分割する指示関数に対応する。また、以下の説明では、入力空間を分割した部分空間のことを領域と記す。本発明では、各領域はお互い交わらず、全ての領域によって入力空間を網羅するものとする。
 各パーティションは、2つに分割された領域のいずれか一方に適用される線形モデルを有する。線形モデルとして、例えば、線形回帰、ロジスティック回帰、ポワソン回帰、対数線形モデルなどが挙げられる。そして、領域の予測変数は、各領域に適用される全ての線形モデルの線形結合で表される。このように予測変数を表すことで、凸目的関数を生成することが可能になる。
 線形モデルは、入力ベクトルと出力値の局所的な関係を学習することで最適化される。言い換えると、最初にパーティションの位置が与えられ、各パーティションにどのような線形モデルを与えればよいかが学習により決定される。
 本実施形態の領域線形モデル最適化システム10は、図1に例示するように、データ入力装置11と、パーティション設定部12と、線形モデル設定部13と、領域モデル計算部14と、モデル最適化部15と、モデル出力装置16とを備えている。
 データ入力装置11は、入力データ111を入力するための装置である。データ入力装置11は、入力データ111を入力する際、モデルの最適化に必要なパラメータを同時に入力する。
 パーティション設定部12は、入力空間にパーティションを設定する。なお、パーティションの個数をPとすると、入力空間にP個のパーティションを設定することは、本質的には入力空間において2個の領域を特定することに相当する。
 パーティションを設定する方法は任意である。サンプルとなるデータの数は有限個であるため、パーティション設定部12は、例えば、サンプルごとに分割するパーティションを設定してもよい。ただし、パーティション数の増加による計算量増加を抑制するため、パーティション設定部12は、予め定めた数のパーティションをランダムに設定してもよい。また、パーティション設定部12は、決定木モデルで用いられる方法を一部利用して、好適なパーティションを設定してもよいし、次元軸を等間隔で分割するパーティションを設定してもよい。
 また、パーティション設定部12は、初めに粗い粒度のパーティションを設定し、後述する最適化の結果、誤差が大きいと判定された領域に対して、より粒度の細かいパーティションを改めて設定するようにしてもよい。
 線形モデル設定部13は、パーティション設定部12が設定したパーティションに対し、そのパーティションによって分割される部分空間(すなわち、領域)の一方に対して適用される線形モデルを設定する。
 以下、p個目のパーティションに設定される線形モデルをaと記す。また、データxの予測にaを用いるか否かを示す有効関数(activeness function )をf(x)と記し、f(x)=1の場合に、データxの予測にaを用いると定義する。ここで、f(x)は、以下に示す式1の条件を満たす。
 f(x)∈{0,1}  (式1)
 図2は、各領域の予測変数の例を示す説明図である。図2に示す例では、線形モデル設定部13が、パーティションpに対して、パーティションpの右側に適用される線形モデルaを設定していることを示す。例えば、データxがパーティションpの右側に存在する場合、図2に示す例では、対応する有効関数は、f(x)=1となる。すなわち、この有効関数が、パーティションに対応付けられる指示関数に相当し、領域の一方に対して線形モデルを適用することを示す。
 領域モデル計算部14は、領域線形モデルにおける各領域の予測変数(線形モデル)を、各領域に適用される線形モデルの線形結合で表す。この線形モデルは、領域を分割する各パーティションに設定されたものである。すなわち、線形モデル設定部13によって各パーティションに線形モデルが設定されることにより、各領域の予測変数は、各領域に適用される全ての線形モデルの線形結合で表すことができる。
 例えば、図2に示す例において、パーティションpの右側およびパーティションpの右側における領域の予測変数は、線形モデルaとaの線形結合(a+a)で表すことができる(図2における点線の矩形参照)。各領域の予測変数は、各領域に適用される全ての線形モデルの線形結合で表されるため、結果として線形モデルで表されることになる。
 ここで、本願線形モデルを以下のように定義する。与えられるP個の有効関数f,…,fを、以下に示す式2のようにベクトル形式で表現する。
Figure JPOXMLDOC01-appb-M000001
 式2において、p番目の要素f(x)(ただし、f(x)∈{0,1})は、線形モデルaがデータxに適用されるか否かを示す。有効関数f(・)は、多くとも2個の領域を表し、f(x)は、データxが属する領域を示す。このように定義した場合、個々の領域の予測変数は、以下に示す式3のように表現される。
Figure JPOXMLDOC01-appb-M000002
 モデル最適化部15は、領域線形モデルを最適化する。ここで、重み行列Aを以下に示す式4のように定義する。式4において、Dは次元dの次元数を表す。
Figure JPOXMLDOC01-appb-M000003
 このとき、予測関数g(・)は、以下に示す式5のように定義できる。すなわち、本願線形モデルは、以下に示す式5のように表現される。
Figure JPOXMLDOC01-appb-M000004
 また、上記に示す式5は、以下に示す式6のように変形できる。つまり、本願線形モデルは、重み行列Aに関する線形モデルとして振る舞うことが示される。また、以下に示す式6によれば、予測関数g(x)は、各データ点xに関しては線形予測器であり、全体としては局所線形予測器であると言える。
Figure JPOXMLDOC01-appb-M000005
 一方、個々の領域は、異なる線形モデルを使用することから、本願線形モデルは、全体として非線形性の性質を示す。このような非線形性の性質は、有効関数fにより生ずるが、この有効関数が本願線形モデルにおいて本質的に重要なコンポーネントである。
 モデル最適化部15は、凸損失関数l(・,・)を導入することにより、本願発明の目的関数を以下の式7に示す凸最適化問題として表現する。凸損失関数として、例えば、回帰における二乗損失、分類における二乗ヒンジ損失またはロジスティック損失が挙げられる。
Figure JPOXMLDOC01-appb-M000006
 このように本願線形モデルの最適化問題は、式7に示すような凸最適化問題に帰着する。モデル最適化部15は、式7に示す凸最適化問題を解くことにより、重み行列A(すなわち、各パーティションに設定される線形モデル)を最適化し、結果として領域線形モデルを最適化する。
 以上のように本願線形モデルを表現することにより、モデル最適化部15は、凸性を有する領域線形モデルを最適化する。そのため、最適化が困難な非凸問題を回避して、より最適な領域線形モデルを生成できる。
 モデル出力装置16は、最適化した領域線形モデルを出力する。
 パーティション設定部12と、線形モデル設定部13と、領域モデル計算部14と、モデル最適化部15とは、プログラム(領域線形モデル最適化プログラム)に従って動作するコンピュータのCPUによって実現される。
 例えば、プログラムは、領域線形モデル最適化システム10の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、パーティション設定部12、線形モデル設定部13、領域モデル計算部14およびモデル最適化部15として動作してもよい。
 また、パーティション設定部12と、線形モデル設定部13と、領域モデル計算部14と、モデル最適化部15とは、それぞれが専用のハードウェアで実現されていてもよい。また、本発明による領域線形モデル最適化システムは、2つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。
 次に、本実施形態の領域線形モデル最適化システムの動作を具体例を用いて説明する。図3は、本実施形態の領域線形モデル最適化システムの動作例を示すフローチャートである。また、図4から図7は、入力空間に設定されるパーティションと線形モデルの関係を示す説明図である。
 まず、データ入力装置11は、入力データ111を入力する(ステップS11)。ここでは、図4に例示するように、2次元で示される入力データ111が入力されたものとする。図4において、黒丸と白丸は、個々のサンプル(データ)を示し、黒丸で示されるサンプルと、白丸で示されるサンプルは、それぞれ共通の性質を有するデータであるとする。
 パーティション設定部12は、パーティションを設定する(ステップS12)。ここでは、図5に例示するように、x軸方向に垂直なパーティションが3個(p~p)、x軸方向に垂直なパーティションが3個(p~p)、それぞれパーティションとして設定されたものとする。
 なお、図5に示す例では、パーティション設定部12が入力空間の次元軸に対して垂直なパーティションを設定しているが、設定されるパーティションは、各次元軸に垂直なものに限定されない。パーティション設定部12は、例えば、同心円または同心楕円状のパーティションや、軸に斜めなパーティション、分離した2以上の円または楕円で示されるパーティションを設定してもよい。
 次に、線形モデル設定部13は、パーティション設定部12によって設定されたパーティションに対して線形モデルを設定する(ステップS13)。ここでは、図6に例示するように、パーティションの右側の領域に対して適用される線形モデルa~aが、それぞれパーティションp~pに設定される。また、線形モデル設定部13は、パーティションで分割される領域の一方(ここでは、右側の領域)に対して線形モデルが適用されることを示すための有効関数f~fも併せて定義する。
 なお、パーティション設定部12が同心円(同心楕円)状のパーティションを設定した場合、線形モデル設定部13は、例えば、同心円(同心楕円)の内側または外側の領域の一方に対して適用される線形モデルを設定してもよい。また、パーティション設定部12が次元軸に斜めなパーティションを設定した場合、線形モデル設定部13は、例えば、任意に定めた次元軸の増加方向の領域に対して適用される線形モデルを設定してもよい。また、パーティション設定部12が分離した2以上の円(楕円)で示されるパーティションを設定した場合、線形モデル設定部13は、例えば、円(楕円)の内側または外側の領域の一方に対して適用される線形モデルを設定してもよい。
 領域モデル計算部14は、パーティションにより分割された各領域の線形モデルを、各領域に適用される線形モデルの線形結合で表す(ステップS14)。例えば、図7に例示する領域rは、パーティションp、パーティションpおよびパーティションpの右側の領域である。そこで、領域モデル計算部14は、領域rの線形モデルを、これらのパーティションに設定されている線形モデルa、線形モデルaおよび線形モデルaの線形結合a+a+aで表す。領域rおよび領域rについても同様である。
 モデル最適化部15は、領域モデル計算部14によって表された各領域の線形モデルに基づいて、領域線形モデルを最適化する(ステップS15)。モデル最適化部15は、例えば、上記の式7で示される凸損失関数を最適化することにより、領域線形モデルを最適化する。
 モデル出力装置16は、最適化した領域線形モデルを出力する(ステップS16)。
 以上のように、本実施形態によれば、線形モデル設定部13が、データの含まれる入力空間を2つの部分に分割する指示関数(パーティション)に、そのパーティションによって分割された領域(部分空間)の一方の領域に対して適用する線形モデルを設定する。そして、領域モデル計算部14が、領域線形モデルにおける各領域のモデルを、各領域に適用される線形モデルの線形結合で表す。
 このように各領域のモデルを表すことで、対象とする領域線形モデルは凸性を有する。そのため、本実施形態によれば、モデル最適化部15が領域モデル計算部14によって表された各領域の線形モデルに基づいて領域線形モデルを最適化するため、非凸問題を回避して、より最適な領域線形モデルを生成できる。
 例えば、一般的な領域線形モデルでは、パーティションの位置とそのパーティションによって分割される領域に設定される線形モデルとを同時に最適化する。そのため、領域線形モデルの最適化問題が非凸問題になり、最適化が困難である。
 また、例えば、一般的な決定木モデルでは、入力空間を適切に分割できると判定される位置にパーティションを設定し、分割された入力空間をさらに分割する処理を繰り返す。しかし、例えば、図4に例示するような入力空間が初めに与えられた場合、一般的な決定木モデルでは、どの位置にパーティションを設定しても適切に入力空間を分割することは困難である。
 一方、本願線形モデルでは、事前に設定されるパーティションに対して線形モデルが設定され、パーティションの位置関係によって領域線形モデルが表される。このように領域線形モデルを表すことにより、領域線形モデルの最適化問題を、凸最適化問題で解くことができるため、初期値依存性を解消し、大域的最適解へ収束させることが可能になる。
実施形態2.
 第1の実施形態では、モデル最適化部15がパーティションに設定される線形モデルを最適化する方法を説明した。本実施形態では、第1の実施形態の方法に加え、設定されたパーティション候補の中から効果的なパーティションを選択して、領域を最適化する方法を説明する。
 図8は、本発明による領域線形モデル最適化システムの第2の実施形態の構成例を示すブロック図である。本実施形態の領域線形モデル最適化システム20は、データ入力装置11と、パーティション候補設定部22と、線形モデル設定部13と、領域モデル計算部14と、モデル最適化部25と、モデル出力装置16とを備えている。データ入力装置11、線形モデル設定部13、領域モデル計算部14およびモデル出力装置16の内容は、第1の実施形態と同様である。
 パーティション候補設定部22は、パーティション候補を設定する。なお、パーティション候補の設定方法は、第1の実施形態のパーティション設定部12がパーティションを設定する方法と同様である。
 モデル最適化部25は、選択するパーティション候補の最適化と、パーティションに設定された線形モデルの最適化とを行うことにより、領域線形モデルを最適化する。
 本実施形態では、パーティション候補の中から最適なパーティションを選択するため、予測関数の構造の適切さを評価するための正則化項Ω(g(・))が利用される。モデル最適化部25は、損失関数と正則化項の和を最小化する予測関数g(・)を求めることで、領域線形モデルの最適化を行う。
 具体的には、モデル最適化部25は、領域線形モデルを評価する損失関数l(・,・)と、パーティションの構造を疎にするための正則化項Ω(g(・))との和に基づいて、領域線形モデルを最適化する。パーティションの構造を疎にするとは、パーティション候補の中から適切なパーティションを選択すること、および、パーティションによって分割される領域を疎にすることのいずれの意味も含む。
 損失関数と正則化項の和を最小化する予測関数g(・)を求めるための式は、以下に示す式8のように定義できる。
Figure JPOXMLDOC01-appb-M000007
 ここで、正則化項Ω(g(・))には、領域線形モデルを疎にする効果を有するものであれば、任意の正則化項を用いることが可能である。どのような正則化項を利用するかは、最適化するパーティションの構造に応じて、ユーザ等により決定される。モデル最適化部25は、例えば、以下に示す式9を計算することで、領域線形モデルの最適化を行ってもよい。
Figure JPOXMLDOC01-appb-M000008
 式9において、Ω(A)が正則化項であり、λ、λは、それぞれ正則化の重み値を示す。また、Ω(A)の条件を示す右辺は、グループ正則化を示す。Ω(A)の条件の右辺について、第1項はパーティションの数を減少させるための項であり、第2項は最終的な線形モデルを疎にするための項である。
 無限大ノルムは、凸性を有するため、損失関数と凸性を有する正則化項との和で示される式9の最適化問題は、やはり凸最適化問題に帰着する。このように、凸性を有する正則化項を用いてパーティション候補の選択を最適化することにより、初期値依存性を解消し、より最適な領域線形モデルを生成できる。
 なお、上記説明では、正則化項に無限大ノルムを利用しているが、正則化項に利用される構造は、無限大ノルムに限定されない。例えば、最終的なモデルを少ない特徴量で表すことを目的として、パーティションの解釈性を増加させるため、正則化項にL1正則化を利用してもよい。
 また、他にも、似たような重みを持たせることを目的として、類似するパーティションを検出するため、正則化項にGroup Fused Lasso を利用してもよいし、有効なパーティションを全検出するため、正則化項にElastic Net を利用してもよい。L1正則化、Group Fused Lasso およびElastic Netはいずれも凸性を有するため、上記と同様の効果を得ることができる。
 なお、上記説明では、凸性を有する正則化項を利用する場合を例示したが、正則化項に利用する構造は、凸性を有さなくてもよい。例えば、非凸性を有するL0正則化や、グループL0などが正則化項に利用されてもよい。このようなケースであっても、損失関数lが滑らかな凸性を有する場合には、Orthogonal Matching Pursuit 法やForward Backward Greedy 法など、貪欲探索アルゴリズムによる効率解法を適用する事が可能である。
 このように、任意の正則化項を利用できる理由は、予測性能を評価する損失関数の最小化問題が凸最適化問題であることに起因する。一般的な領域線形モデルは、非凸性を有するため、任意の正則化項を入れた場合の効率解法は一般に知られておらず、またモデルの解釈性が容易になるとは言い難い。一方、本実施形態では、領域線形モデルを最適化する問題が凸最適化問題になるため、領域線形モデルの解釈性を維持しつつ、様々な構造の正則化項を組み込むことが可能になる。
 なお、パーティション候補設定部22と、線形モデル設定部13と、領域モデル計算部14と、モデル最適化部25とは、プログラム(領域線形モデル最適化プログラム)に従って動作するコンピュータのCPUによって実現される。
 次に、本実施形態の領域線形モデル最適化システムの動作を具体例を用いて説明する。なお、本実施形態の領域線形モデル最適化システム20の動作は、第1の実施形態の領域線形モデル最適化システム10と同様である。ただし、本実施形態では、モデル最適化部25が正則化項も含めて最適化する点において、第1の実施形態と異なる。
 モデル最適化部25は、領域モデル計算部14によって表された各領域の線形モデルに基づいて、領域線形モデルを最適化する。具体的には、本実施形態のモデル最適化部25は、損失関数と正則化項との和に基づいて、領域線形モデルを最適化する。
 例えば、領域モデル計算部14によって、各領域の線形モデルが図7に例示する内容で表されたとする。ここで、最適化の結果、各領域に適用されるaが全て0になった場合、aは使われなかったことを意味する。したがって、線形モデルaが0の場合、パーティションpも不要であることが示される。不要なパーティションを除外することにより、各領域の関係も疎になるため、より解釈性の高い領域線形モデルを表現できるようになる。
 図9は、パーティション候補から適切なパーティションを選択した結果の例を示す説明図である。図9に示す例では、最適化の結果、線形モデルa以外の線形モデルが全て0になったことを示す。この場合、パーティションp以外のパーティションが除外される。
 以上のように、本実施形態によれば、モデル最適化部25が損失関数とパーティションの構造を疎にするための正則化項との和に基づいて、領域線形モデルを最適化する。よって、第1の実施形態の効果に加え、適切なパーティションを選択できることから、モデルの解釈性を向上させることが可能になる。
 次に、本実施形態の変形例を説明する。本変形例では、パーティションを最適化した結果、線形モデルが適用されず予測できなくなるデータが生ずることを避けるため、全データに有効な線形モデルaを導入する場合について説明する。
 本実施形態の線形モデル設定部13は、パーティション候補設定部22によって設定されたパーティション候補に対して線形モデルを設定するとともに、入力空間の全ての領域に対応付けられるパーティションに、その全ての領域に適用する線形モデルを設定する。
 図10は、入力領域を分割した例を示す説明図である。図10に示す例では、パーティションpの右側の領域r12に線形モデルaが適用されている。一方、パーティションpの左側の領域r11には線形モデルを適用するためのパーティションが存在しない。したがって、この状態では、パーティションpの左側の領域r11のデータを予測することはできない。
 そこで、本変形例では、全データに有効な線形モデルaを導入する。図11は、入力空間の全ての領域に対応付けられるパーティションpに対して、全データに適用される線形モデルaが設定されていることを示す説明図である。なお、線形モデルaは、全ての領域に適用される線形モデルであるため、全適用線形モデルと言うことができる。
 全データに適用される線形モデルaを導入した結果、領域モデル計算部14は、パーティションpの左側の領域r11の線形モデルをaと計算し、パーティションpの右側の領域r12の線形モデルをa+aと計算する。例えば、線形モデルa=(0,-2.0)と設定されている場合に線形モデルa=(0,1.0)が導入されたとする。この場合、領域モデル計算部14は、例えば、パーティションpの右側の領域r12の線形モデルを、a+a=(0,-1.0)と計算する。
 このような線形モデルaを導入することで、局所的なモデル変化を詳細に捉えることが可能になる。具体的には、全データに共通の予測モデルは、線形モデルaを用いて学習し、一部のデータに特有の性質は、パーティション(具体的には、各パーティションに設定される線形モデル)で学習することが可能になる。
 モデル最適化部25は、線形モデルaの有効性を維持しつつ、領域線形モデルを最適化する。すなわち、モデル最適化部25は、線形モデルaを必ず有効なベクトルになるように領域線形モデルを最適化する。
 例えば、有効なパーティションを自動選択するために、上述するGroup Lasso を用いることが可能である。ただし、本変形例では、線形モデルaは必ず有効なベクトルとしたいため、線形モデルaにはGroup 正則化は適用しないようにする。また、各パーティションの解釈性を保持するため、L0正則化を用いることが可能である。
 ここで、線形モデルaを含む重み行列Aを、以下に示す式10のように定義する。また、線形モデルaは常に有効にしたいため、有効関数f(・)を、以下に示す式11のように定義する。
Figure JPOXMLDOC01-appb-M000009
 このとき、領域線形モデルの最適化問題は、以下に示す式12のように、劣モジュラ最適化問題として定義できる。
Figure JPOXMLDOC01-appb-M000010
 モデル最適化部25は、上記に示す式12の最適化問題を解くことにより、線形モデルaの有効性を維持しつつ、領域線形モデルを最適化する。上記に示す式12を最適化する方法は任意である。モデル最適化部25は、例えば、正則化項に対してLovasz拡張による凸緩和を行ってもよい。また、モデル最適化部25は、最適化の方法として、劣モジュラ最適化や、Group OMP(Orthogonal Matching Pursuit )を用いてもよい。他にも、モデル最適化部25は、近接勾配法およびネットワークフローを利用して、最適化を行ってもよい。
 また、モデル最適化部25は、領域線形モデルの最適化に汎化バウンド(Generalization Bound )を利用してもよい。汎化バウンドを利用することで、経験損失を用いて期待損失の上限を求めることが可能になる。
 ここで、データ(x,y)が、特定のデータ分布Dからサンプリングされた独立に同一の確率分布に従うものとする。また、損失関数l(・,・)が、ノルム||・||に関するL-リプシッツ関数であるとする。このとき、δ∈(0,1)を満たすどのような定数に対しても、また、A∈Αを満たすどのような重み行列に対しても、以下に示す式13(不等式)は、少なくとも確率1-δで成立する。
Figure JPOXMLDOC01-appb-M000011
 式13において、Αは、group(A)≦1を満たす重み集合であり、Ωgroup(A)は、以下の参考文献の2.5章で定義される。P=o(exp(N))のとき、データ数の増加に応じて期待損失と経験損失の差は0に収束するため、経験損失の値を最小化すればよい。
<参考文献>
 Andreas Maurer and Massimiliano Pontil, “Structured sparsity and generalization.”, Journal of Machine Learning Research 13, pp.671-690, 2012.
 以上のように、本変形例によれば、線形モデル設定部13が、パーティションpに線形モデルaを設定し、モデル最適化部25が、損失関数と正則化項との和に基づいて線形モデルaの有効性を維持したまま、領域線形モデルを最適化する。そのため、上記実施形態の効果に加え、局所的なモデル変化を詳細に捉えることが可能になる。
 次に、本発明の概要を説明する。図12は、本発明による領域線形モデル最適化システムの概要を示すブロック図である。本発明による領域線形モデル最適化システムは、領域線形モデルを最適化する領域線形モデル最適化システム(例えば、領域線形モデル最適化システム10、領域線形モデル最適化システム20)であって、入力空間(例えば、入力データ111が存在する空間)を2つの部分に分割する指示関数であるパーティションに、そのパーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデル(例えば、線形回帰、ロジスティック回帰、ポアソン回帰など)を設定する線形モデル設定部81(例えば、線形モデル設定部13)と、領域線形モデルにおける各領域のモデルを、その各領域に適用される線形モデルの線形結合で表す領域モデル計算部82(例えば、領域モデル計算部14)とを備えている。
 そのような構成により、非凸問題を回避して、より最適な領域線形モデルを生成できる。具体的には、本願線形モデルが示す線形領域モデルが凸性を有するため、領域線形モデルの最適化問題が、凸最適化問題に帰着する。そのため、本願線形モデルを用いることにより、初期値依存性を解消し、大域的最適解へ収束させることが可能になる。
 また、領域線形モデル最適化システムは、領域線形モデルを評価する損失関数(例えば、g(・))と、パーティションの構造を疎にするための正則化項(例えば、Ω(g(・)))との和に基づいて、領域線形モデルを最適化する(例えば、上記に示す式8を用いて)モデル最適化部(例えば、モデル最適化部25)を備えていてもよい。
 そのような構成によれば、設定するパーティションを適切な数に抑制できるため、モデルの解釈容易性を向上させることが可能になる。
 また、線形モデル設定部81は、入力空間の全ての領域を示すパーティション(例えば、パーティションp)に、その全ての領域に適用する線形モデルである全適用線形モデル(例えば、線形モデルa)を設定してもよい。そして、モデル最適化部は、損失関数と正則化項との和に基づいて、全適用線形モデルの有効性を維持したまま(例えば、上記に示す式12を用いて)、領域線形モデルを最適化してもよい。
 そのような構成によれば、局所的なモデル変化を詳細に捉えることが可能になる。
 また、モデル最適化部は、損失関数と、凸性を有する正則化項との和に基づいて、領域線形モデルを最適化してもよい。そのような構成によれば、損失関数と正則化項の和の最適化問題も、凸最適化問題に帰着するため、初期値依存性を解消し、大域的最適解へ収束させることが可能になる。
 また、領域線形モデル最適化システムは、入力空間の次元軸に対して垂直なパーティション、次元軸に対して斜め方向のパーティション、同心円または同心楕円状のパーティション、および、離れた二つ以上の円または楕円状の少なくとも1つのパーティションを入力空間に設定するパーティション設定部(例えば、パーティション設定部12)を備えていてもよい。そして、線形モデル設定部81は、パーティション設定部によって設定されたパーティションに対して適用する線形モデルを設定してもよい。そのような構成によれば、任意の形状のパーティションを利用することが可能になる。
 図13は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の領域線形モデル最適化システムは、それぞれコンピュータ1000に実装される。なお、そして、上述した各処理部の動作は、プログラム(領域線形モデル最適化プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2014年10月28日に出願された米国仮出願第62/069,381号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、領域線形モデルを、例えば、機械学習により最適化する領域線形モデル最適化システムに好適に適用される。
 10,20 領域線形モデル最適化システム
 11 データ入力装置
 12 パーティション設定部
 13 線形モデル設定部
 14 領域モデル計算部
 15,25 モデル最適化部
 22 パーティション候補設定部
 p~p パーティション
 r~r,r11,r12 領域

Claims (9)

  1.  領域線形モデルを最適化する領域線形モデル最適化システムであって、
     入力空間を2つの部分に分割する指示関数であるパーティションに、当該パーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定する線形モデル設定部と、
     前記領域線形モデルにおける各領域のモデルを、当該各領域に適用される前記線形モデルの線形結合で表す領域モデル計算部とを備えた
     ことを特徴とする領域線形モデル最適化システム。
  2.  領域線形モデルを評価する損失関数と、パーティションの構造を疎にするための正則化項との和に基づいて、領域線形モデルを最適化するモデル最適化部を備えた
     請求項1記載の領域線形モデル最適化システム。
  3.  線形モデル設定部は、入力空間の全ての領域を示すパーティションに、当該全ての領域に適用する線形モデルである全適用線形モデルを設定し、
     モデル最適化部は、損失関数と正則化項との和に基づいて、前記全適用線形モデルの有効性を維持したまま、領域線形モデルを最適化する
     請求項2記載の領域線形モデル最適化システム。
  4.  モデル最適化部は、損失関数と、凸性を有する正則化項との和に基づいて、領域線形モデルを最適化する
     請求項2または請求項3記載の領域線形モデル最適化システム。
  5.  入力空間の次元軸に対して垂直なパーティション、前記次元軸に対して斜め方向のパーティション、同心円または同心楕円状のパーティション、および、離れた二つ以上の円または楕円状の少なくとも1つのパーティションを入力空間に設定するパーティション設定部を備え、
     線形モデル設定部は、前記パーティション設定部によって設定されたパーティションに対して適用する線形モデルを設定する
     請求項1から請求項4のうちのいずれか1項に記載の領域線形モデル最適化システム。
  6.  領域線形モデルを最適化する領域線形モデル最適化方法であって、
     入力空間を2つの部分に分割する指示関数であるパーティションに、当該パーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定し、
     前記領域線形モデルにおける各領域のモデルを、当該各領域に適用される前記線形モデルの線形結合で表す
     ことを特徴とする領域線形モデル最適化方法。
  7.  領域線形モデルを評価する損失関数と、パーティションの構造を疎にするための正則化項との和に基づいて、領域線形モデルを最適化する
     請求項6記載の領域線形モデル最適化方法。
  8.  領域線形モデルを最適化するコンピュータに適用される領域線形モデル最適化プログラムであって、
     前記コンピュータに、
     入力空間を2つの部分に分割する指示関数であるパーティションに、当該パーティションによって分割された部分空間を示す領域の一方の領域に対して適用する線形モデルを設定する線形モデル設定処理、および、
     前記領域線形モデルにおける各領域のモデルを、当該各領域に適用される前記線形モデルの線形結合で表す領域モデル計算処理
     を実行させるための領域線形モデル最適化プログラム。
  9.  コンピュータに、
     領域線形モデルを評価する損失関数と、パーティションの構造を疎にするための正則化項との和に基づいて、領域線形モデルを最適化するモデル最適化処理を実行させる
     請求項8記載の領域線形モデル最適化プログラム。
PCT/JP2015/005243 2014-10-28 2015-10-16 領域線形モデル最適化システム、方法およびプログラム WO2016067548A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016556196A JP6669075B2 (ja) 2014-10-28 2015-10-16 領域線形モデル最適化システム、方法およびプログラム
EP15853680.5A EP3214584A4 (en) 2014-10-28 2015-10-16 Region linear model optimization system, method, and program
US15/731,172 US10558888B2 (en) 2014-10-28 2015-10-16 Region linear model optimization system, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462069381P 2014-10-28 2014-10-28
US62/069,381 2014-10-28

Publications (1)

Publication Number Publication Date
WO2016067548A1 true WO2016067548A1 (ja) 2016-05-06

Family

ID=55856915

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/005243 WO2016067548A1 (ja) 2014-10-28 2015-10-16 領域線形モデル最適化システム、方法およびプログラム

Country Status (4)

Country Link
US (1) US10558888B2 (ja)
EP (1) EP3214584A4 (ja)
JP (1) JP6669075B2 (ja)
WO (1) WO2016067548A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020129222A (ja) * 2019-02-07 2020-08-27 富士通株式会社 モデル出力プログラム、モデル出力方法及びモデル出力装置
JP2020530607A (ja) * 2018-03-13 2020-10-22 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 非線形モデルをトレーニングする方法およびシステム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020227298A1 (en) * 2019-05-06 2020-11-12 Verint Americas Inc. Systems and methods for combining model interpreters
JP7256766B2 (ja) * 2020-03-04 2023-04-12 株式会社日立製作所 推測根拠分析装置及び推測根拠分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155557A (ja) * 2004-11-05 2006-06-15 Nippon Steel Corp 製造プロセスにおける操業と品質の関連解析装置、方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2012137813A (ja) * 2010-12-24 2012-07-19 Nippon Steel Corp 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850806B2 (en) * 1999-04-16 2005-02-01 Siemens Energy & Automation, Inc. Method and apparatus for determining calibration options in a motion control system
US20060015302A1 (en) * 2004-07-19 2006-01-19 Fang Gang P Method for generating and evaluating a table model for circuit simulation
US8204925B2 (en) * 2008-05-22 2012-06-19 National Instruments Corporation Controlling or analyzing a process by solving a system of linear equations in real-time
WO2011108632A1 (ja) * 2010-03-03 2011-09-09 日本電気株式会社 モデル選択装置、モデル選択方法及びモデル選択プログラム
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US9477926B2 (en) * 2012-11-20 2016-10-25 Qualcomm Incorporated Piecewise linear neuron modeling
CN103559294A (zh) 2013-11-12 2014-02-05 中国石油大学(北京) 支持向量机分类器的构造方法及装置、分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155557A (ja) * 2004-11-05 2006-06-15 Nippon Steel Corp 製造プロセスにおける操業と品質の関連解析装置、方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2012137813A (ja) * 2010-12-24 2012-07-19 Nippon Steel Corp 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3214584A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020530607A (ja) * 2018-03-13 2020-10-22 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 非線形モデルをトレーニングする方法およびシステム
JP2020129222A (ja) * 2019-02-07 2020-08-27 富士通株式会社 モデル出力プログラム、モデル出力方法及びモデル出力装置
JP7225874B2 (ja) 2019-02-07 2023-02-21 富士通株式会社 モデル出力プログラム、モデル出力方法及びモデル出力装置

Also Published As

Publication number Publication date
US20180349738A1 (en) 2018-12-06
JPWO2016067548A1 (ja) 2017-09-14
JP6669075B2 (ja) 2020-03-18
EP3214584A4 (en) 2018-07-25
EP3214584A1 (en) 2017-09-06
US10558888B2 (en) 2020-02-11

Similar Documents

Publication Publication Date Title
US10031945B2 (en) Automated outlier detection
ur Rehman et al. Efficient Kriging-based robust optimization of unconstrained problems
Yao et al. A surrogate-based optimization method with RBF neural network enhanced by linear interpolation and hybrid infill strategy
WO2016067548A1 (ja) 領域線形モデル最適化システム、方法およびプログラム
US20210124860A1 (en) High-throughput computational material simulation optimisation method and apparatus based on time prediction
EP2881874B1 (en) System and method for searching for new material
WO2023045149A1 (zh) 图像融合方法、装置、电子设备和存储介质
Li et al. A modified hypervolume based expected improvement for multi-objective efficient global optimization method
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
Trivodaliev et al. Exploring function prediction in protein interaction networks via clustering methods
Wu et al. Asymptotic properties of a generalized cross-entropy optimization algorithm
US20230051237A1 (en) Determining material properties based on machine learning models
Tamada et al. Sign: large-scale gene network estimation environment for high performance computing
KR102452206B1 (ko) 빅데이터 분석을 위한 인공지능 기반의 클라우드 최적화 장치 및 방법
JP6743902B2 (ja) マルチタスク関係学習システム、方法およびプログラム
JPWO2016174725A1 (ja) 計算機及びニューラルネットワークを用いた演算方法
JP2017220001A (ja) 予測装置、予測方法及びプログラム
KR102559605B1 (ko) 함수 최적화 방법 및 장치
Jeannot et al. High-performance Computing on Complex Environments
Ovalle et al. Distributed Cache Strategies for Machine Learning Classification Tasks over Cluster Computing Resources
EP4036811A1 (en) Combining compression, partitioning and quantization of dl models for fitment in hardware processors
JP7085521B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Kołodziej et al. Advances in Intelligent Modelling and Simulation
Lin et al. Within network learning on big graphs using secondary memory-based random walk kernels
Sebastian et al. Augmenting Scalability in ARACNe and CLR for Inferring Large Gene Regulatory Networks from Expression Profiles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15853680

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016556196

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015853680

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE