WO2023062763A1 - Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program - Google Patents

Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program Download PDF

Info

Publication number
WO2023062763A1
WO2023062763A1 PCT/JP2021/037975 JP2021037975W WO2023062763A1 WO 2023062763 A1 WO2023062763 A1 WO 2023062763A1 JP 2021037975 W JP2021037975 W JP 2021037975W WO 2023062763 A1 WO2023062763 A1 WO 2023062763A1
Authority
WO
WIPO (PCT)
Prior art keywords
machine learning
layer
boosting
model
data
Prior art date
Application number
PCT/JP2021/037975
Other languages
French (fr)
Japanese (ja)
Inventor
知之 藤野
啓一郎 柏木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/037975 priority Critical patent/WO2023062763A1/en
Publication of WO2023062763A1 publication Critical patent/WO2023062763A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present disclosure relates to a machine learning device, a feature quantity extraction device, a machine learning method, a feature quantity extraction method, a machine learning program, and a feature quantity extraction program.
  • Ensemble learning is a machine learning method that combines multiple classifiers. There are various methods of ensemble learning. One method is Boosting.
  • Boosting is an algorithm that creates a strong classifier by stringing together weak classifiers. Specifically, boosting is a learning method in which a new classifier is added based on the output of a certain classifier, and this new classifier is optimized so that the sum of the classifier outputs reduces the error. is.
  • a commonly used boosting algorithm is Gradient Boosting.
  • Gradient boosting is a group of algorithms that use the gradient method to boost so that the objective function is minimized.
  • AdaBoost Adaptive Boosting
  • AdaBoost Adaptive Boosting
  • the present disclosure proposes a machine learning device, a feature quantity extraction device, a machine learning method, a feature quantity extraction method, a machine learning program, and a feature quantity extraction program capable of acquiring feature quantities with high inference performance.
  • a machine learning device is a multi-layer model having a plurality of layers connected in series, each layer obtaining a multi-layer model including a plurality of gradient boosting machines; a machine learning executor for performing machine learning using the model as a machine learning model to extract features from data given to at least one of the input layer or the intermediate layer of the multi-layer model.
  • a machine learning device can acquire feature quantities with high inference performance.
  • FIG. 1 is a block diagram of an example environment for machine learning.
  • FIG. 2 is a block diagram of an example configuration of a feature extraction device according to the present disclosure.
  • FIG. 3 shows an example of graphical representation of GBDTs (Gradient Boosting Decision Trees).
  • FIG. 4A shows an example graphical representation of a GBDT in accordance with this disclosure.
  • FIG. 4B shows an example graphical representation of a GBDT in accordance with this disclosure.
  • FIG. 5 illustrates an example of gradient computation according to this disclosure.
  • FIG. 6 is a flowchart illustrating an example of processing for learning a plurality of discriminators in the boosting machine.
  • FIG. 7 is a flowchart illustrating an example of inference processing using boosting machines.
  • FIG. 8 shows an example of the hardware configuration of a computer.
  • GBDTs Gradient-boosted decision trees
  • GBDTs are used for various tasks such as classification, while deep learning is used for classification of high-dimensional data such as video, image and audio. Due to its algorithmic structure, GBDT has been inferior to deep learning in accuracy for tasks such as classification of high-dimensional data.
  • the structure of GBDT is extended. The concept of backpropagation is then introduced into the structure-extended GBDT.
  • the GBDT according to the present disclosure has a feature extraction layer and can extract features with high inference performance. Therefore, the GBDT according to the present disclosure can handle high-dimensional data with high accuracy.
  • Gradient boosting like deep learning, is a popular machine learning technique. Gradient boosting successively adds weak discriminators such that the objective function is minimized.
  • Gradient boosting that uses decision trees as weak classifiers is called Gradient Boosting Decision Trees (GBDT).
  • GBDT is a general-purpose supervised learning algorithm. GBDT is used in various applications such as regression and classification using IoT (Internet of Things) sensor data. Examples of GBDT-based models include XGBoost and LightGBM.
  • GBDT deep learning is becoming mainstream in the classification of media data such as videos, images, natural language, and audio.
  • media data such as videos, images, natural language, and audio.
  • GBDT is generally inferior to deep learning in accuracy.
  • a possible reason is that GBDT does not perform feature acquisition that deep learning does.
  • features are determined by dividing the input space into subspaces.
  • the partitioning method is generally determined by performing a grid search on the dimensions and data points.
  • the bifurcation points are grid-searched for each dimension using the gain values of the dataset. Specifically, the set of data points involved in the branch are sorted in all dimensions. Gain values for the left and right data sets after the split are calculated for each possible split point. Then, the branch position that has the greatest increase over the current gain value is searched. As a result of such grid search, the best branch point is selected.
  • GBDT treats the dimensions of the input data independently and does not consider the correlation between the dimensions.
  • Feature extraction is a process that captures the correlation information between the dimensions of the input data and maps the input data into a feature space that is easy to classify. Since the conventional GBDT treats the dimensions independently, the conventional GBDT is not expected to acquire features more suitable for the task.
  • the feature extraction device performs one or more boosting processes described below.
  • Figure 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200, and a user device 300.
  • FIG. 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200, and a user device 300.
  • FIG. 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200, and a user device 300.
  • FIG. 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200, and a user device 300.
  • FIG. 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200
  • the feature extraction device 100 is a device that performs one or more boosting processes.
  • One or more boosting processes include a process of generating a strong classifier by connecting a plurality of weak classifiers, and an inference process using the generated strong classifiers. Details of the boosting process according to the present disclosure are described in Section 4.
  • the feature quantity extraction device 100 is an example of a machine learning device.
  • the feature quantity extraction device 100 is a data processing device such as a server. An example of the configuration of the feature quantity extraction device 100 will be described in Section 3.
  • the network 200 is, for example, a LAN (Local Area Network), a WAN (Wide Area Network), or the Internet.
  • a network 200 connects the feature extraction device 100 and the user device 300 .
  • the user device 300 is a data processing device such as a client device.
  • a user is, for example, a data scientist.
  • the user device 300 sends a request to the feature quantity extraction device 100 to acquire a generated strong discriminator.
  • the user device 300 may send a request to the feature quantity extraction device 100 to execute inference processing using the generated strong discriminator.
  • the user device 300 also sends data, which is the target of inference processing, to the feature quantity extraction device 100 .
  • FIG. 2 is a block diagram of the feature quantity extraction device 100, which is an example of the configuration of the feature quantity extraction device according to the present disclosure.
  • feature quantity extraction device 100 includes communication unit 110 , control unit 120 and storage unit 130 .
  • the feature quantity extraction device 100 may include an input unit (for example, keyboard, mouse) that receives input from an administrator of the feature quantity extraction device 100 .
  • the feature quantity extraction device 100 may also include an output unit (for example, a liquid crystal display, an organic EL (Electro Luminescence) display) that displays information to the administrator of the feature quantity extraction device 100 .
  • the communication unit 110 is implemented by, for example, a NIC (Network Interface Card). Communication unit 110 is connected to network 200 by wire or wirelessly. The communication unit 110 can transmit and receive information to and from the user device 300 via the network 200 .
  • NIC Network Interface Card
  • the control unit 120 is a controller.
  • the control unit 120 uses a RAM (Random Access Memory) as a work area, and includes one or more processors (for example, a CPU (Central Processing Unit)) that execute various programs stored in the storage device of the feature extraction device 100.
  • MPU Micro Processing Unit
  • the control unit 120 may be implemented by an integrated circuit such as an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or a GPGPU (General Purpose Graphic Processing Unit).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • GPGPU General Purpose Graphic Processing Unit
  • the control unit 120 includes a receiving unit 121, an acquiring unit 122, a learning unit 123, an inference unit 124 and a providing unit 125.
  • One or more processors of the feature extraction device 100 can implement each controller by executing instructions stored in one or more memories of the feature extraction device 100 .
  • the data processing performed by each control unit is an example, and each control unit (e.g., learning unit 123) may perform data processing described in relation to other control units (e.g., reasoning unit 124). .
  • the receiving unit 121 receives various data. Also, the receiving unit 121 stores the received data in the storage unit 130 . For example, the receiving unit 121 receives data regarding various machine learning algorithms from the administrator of the feature quantity extraction device 100 . The receiving unit 121 also receives training data for machine learning from the administrator.
  • Acquisition unit 122 acquires various data from storage unit 130 .
  • the acquisition unit 122 acquires data related to various machine learning algorithms and training data for machine learning.
  • the learning unit 123 uses various data acquired by the acquisition unit 122 to perform machine learning. For example, the learning unit 123 uses training data to train a machine learning algorithm, thereby generating a learned model. For example, a trained model is a generated strong classifier. Learning unit 123 stores the trained model in storage unit 130 .
  • the learning unit 123 is an example of a machine learning execution unit.
  • the inference unit 124 receives data to be subjected to inference processing from the user device 300 . Also, the inference unit 124 acquires a trained model from the storage unit 130 . The inference unit 124 performs inference processing by applying the received data to the trained model.
  • the inference unit 124 is an example of an acquisition unit and an extraction unit.
  • the providing unit 125 provides various information. For example, the providing unit 125 provides the generated strong classifier to the user device 300 . When the inference unit 124 performs inference processing using the data received from the user device 300 , the provision unit 125 provides the result of the inference processing to the user device 300 .
  • the storage unit 130 is implemented by, for example, a semiconductor memory device such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 130 stores various data.
  • the storage unit 130 stores data related to various machine learning algorithms, training data for machine learning, learned models, and the like.
  • FIG. 3 shows a graphical representation 10, which is an example of a graphical representation of GBDT.
  • the graphical representation 10 is a graphical representation of a conventional boosting process.
  • Graphical representation 10 is a standard GBDT graphical representation.
  • variable x from x1 to xD is the input data. "D" is the dimension of the input data. Input data is entered into each boosting machine.
  • a boosting machine is a multi-input, single-output discriminator represented as a linear sum of multiple weak discriminators that are sequentially learned according to a boosting algorithm so as to reduce output errors.
  • the boosting machine is a function of multiple inputs and one output.
  • a boosting machine is a set of weak classifiers.
  • weak classifiers are decision trees.
  • the graphical representation 10 includes boosting machines F 1 through F C .
  • the variables x 1 through x D are input to the boosting machine F 1 .
  • boosting machine F 1 outputs the value "y 1 ".
  • the variables x1 through xD are also input to the boosting machine F2 .
  • the boosting machine F2 outputs the value " y2 ".
  • the output value indicates the probability that the input data belongs to a particular output class.
  • the graphical representation 10 does not take into account correlations between dimensions of the input data. In order to obtain accuracy comparable to deep learning, it is necessary to consider the correlation between dimensions.
  • the feature quantity extraction device 100 of FIG. 1 executes the boosting process according to the present disclosure in order to realize GBDT considering the correlation between dimensions of input data.
  • the feature quantity extraction device 100 in FIG. 1 handles multi-class high-dimensional input data in GBDT, as in the case of deep learning. Then, the feature quantity extraction device 100 performs optimization similar to error backpropagation on the GBDT. This enables classification and regression considering correlations between dimensions of high-dimensional input data.
  • GBDT using error backpropagation for high-dimensional input data will be described with reference to FIGS. 4A, 4B and 5.
  • FIG. In this specification, GBDT using backpropagation is called BP Boost (Back Propagation Boosting).
  • FIG. 4A and 4B show graphical representation 20, which is an example graphical representation of a GBDT according to the present disclosure.
  • a graph representation 20 is an example of a BP Boost graph representation.
  • BP Boost is executed, for example, by the learning unit 123 of the feature quantity extraction device 100 in FIG.
  • graph representation 20 the conventional GBDT is extended to a multistage model. As shown in FIG. 4A, graphical representation 20 includes boosting machine 21a, boosting machine 21b, boosting machine 22a and boosting machine 22b.
  • Variables x 1 through x 3 are the input data contained in the training data.
  • the input data includes values 23a, 23b and 23c.
  • the set of values 23a, 23b and 23c are input to boosting machine 21a and boosting machine 21b corresponding respectively to Equations 1 and 2 below.
  • the boosting machine 21a outputs a value 24a corresponding to y1 .
  • the boosting machine 21b also outputs a value 24b corresponding to y2 .
  • the set of values 24a and 24b are input to boosting machine 22a and boosting machine 22b corresponding respectively to Equations 3 and 4 below.
  • the boosting machine 22a outputs a value 25a corresponding to z1 .
  • Boosting machine 22b also outputs a value 25b corresponding to z2 .
  • Values 25a and 25b are values output from the multistage model.
  • the feature quantity extraction device 100 acquires feature quantities by the boosting machine 21a and the boosting machine 21b, which are boosting machines in the preceding stage.
  • the variables up to t 1 and t 2 are the correct labels. Correct labels are included in the training data and associated with the input data.
  • Deep learning calculates gradients and uses gradient descent to optimize parameters.
  • BP Boost optimizes parameters by adding trees through boosting.
  • BP Boost is to optimize boosting machines cascaded by boosting.
  • Cascading boosting machines means connecting boosting machines in series.
  • BP Boost propagates gradient information from the output side to the input side. BP Boost then adds a weak classifier to each boosting machine to perform global optimization of the classifier using Newton's method.
  • the multistage boosting machine is configured by boosting machine 21a, boosting machine 21b, boosting machine 22a and boosting machine 22b.
  • the boosting machines in the front stage are the boosting machine 21a and the boosting machine 21b, and the boosting machines in the rear stage are the boosting machine 22a and the boosting machine 22b.
  • the normal boosting learning algorithm can be applied to the subsequent boosting machine. Therefore, the learning of the boosting machine in the former stage will be explained.
  • the objective function L (M) has a nested structure.
  • l c is the loss function.
  • the l c variables are a function of the output of the boosting machine and the training data afterward.
  • c is a number that distinguishes the latter boosting machine.
  • i is a number that distinguishes a sample of training data.
  • N is the number of samples.
  • Equation 7 is obtained by performing a first-order Taylor expansion on Equation 5 above inside the nest.
  • Equation 8 was used. This y1 does not include the contribution of Equation 5 above. Also, the abbreviation for Equation 9 below was used.
  • Equation 9 above represents the gradient for the input of the boosting machine.
  • Equation 10 is obtained by performing a second-order Taylor expansion on the second term of Equation 7 above.
  • g i,c and hi ,c are the following Formulas 11 and 12.
  • Equation 13 The general GBDT objective function L (M) is given by Equation 13 below (see, for example, Jerome Friedman, Trevor Hastie, and Robert Tibshirani, “Additive logistic regression: a statistical view of boosting,” The Annals of Statistics , Vol. 28, No. 2, pp. 337-407, 2000.”).
  • g i and hi are the following Formulas 14 and 15.
  • Equation 10 above is Equation 13 above with g i and h i placed in “g i and h i multiplied by the gradient of Equation 9 above”. From this, the gradient and the backpropagation measure of the second derivative are obtained (equations 16 and 17 below).
  • the gain value of the boosting machine in the latter stage is calculated using the gradient of the latter boosting machine and the second derivative value, as in the case of the normal boosting learning algorithm. Then, the gradient and the second derivative of the former boosting machine are obtained from the gradient and the second derivative of the latter boosting machine by using Equations 16 and 17 above. As a result, the gain value of the previous boosting machine is calculated using the gradient of the previous boosting machine and the second derivative. A global optimization of the discriminator is performed using these calculated gain values.
  • the feature quantity extraction device 100 can perform machine learning using the BP Boost machine learning algorithm described above. Boosting processing based on BP Boost will be described below. Boosting processing based on BP Boost is executed by each control unit of the feature quantity extraction device 100 .
  • the acquisition unit 122 of the feature extraction device 100 acquires a multi-layer model having multiple layers connected in series from the storage unit 130 .
  • a multilayer model for example, has a structure similar to the graphical representation 20 of FIGS. 4A and 4B.
  • Each layer contains multiple boosting machines (eg, multiple decision trees).
  • These multiple layers include, for example, an input layer, an intermediate layer and an output layer. If the multiple layers include only input and output layers, the input layer corresponds to the previous boosting machine of FIGS. 4A and 4B. Also, the output layer corresponds to the latter boosting machine in FIGS. 4A and 4B.
  • the learning unit 123 of the feature quantity extraction device 100 uses the multi-layer model acquired by the acquisition unit 122 to perform machine learning so as to extract feature quantities from the data given the input layer and the intermediate layer. do. For example, the learning unit 123 propagates the information about the gradient determined by using Equation 9 above from the output layer of the multi-layer model to the input layer of the multi-layer model. Thus, the learning unit 123 updates the multi-layer model. The learning unit 123 stores the updated multilayer model in the storage unit 130 .
  • the inference unit 124 of the feature quantity extraction device 100 acquires the updated multi-layer model from the storage unit 130.
  • the inference unit 124 applies the inference data to the updated multi-layer model. In this way, the inference unit 124 extracts feature amounts from the inference data.
  • processing begins by setting the output value to '0' and calculating the initial state slope.
  • the initial gradient can be calculated in the latter boosting machine (that is, the final layer), as in normal boosting. However, if the output value is set to '0', then all inputs to the next stage boosting machine will be '0'. With such settings, learning will not start.
  • the feature quantity extraction device 100 sets an initial output value for each boosting machine.
  • the feature quantity extraction device 100 can add an initial weak discriminator (for example, a decision tree) based on a plurality of set initial output values.
  • the output value of the latter boosting machine (that is, the final layer) is set to "0". Then, the feature amount extraction apparatus 100 initializes the gradient information of stages other than the latter stage with uniform random numbers in the interval [ ⁇ 1, 1].
  • random initial gradients are set in stages other than the latter stage (that is, layers other than the final layer). This allows the feature extraction device 100 to add a random tree structure to the boosting machine, thereby starting learning of the multistage boosting machine.
  • a boosting machine is a set of weak classifiers.
  • the set of weak classifiers is the sum of decision trees, which is not a differentiable function. That is, the gradient cannot be determined analytically.
  • the feature quantity extraction device 100 approximately calculates the gradient.
  • the feature quantity extraction device 100 can employ linear approximation.
  • FIG. 5 shows gradient calculation 30, which is an example of gradient calculation according to the present disclosure.
  • the boosting machine is a sum of decision trees.
  • the branches of the decision tree are shaped like the sum of squares, as shown in FIG.
  • the shape of the function is a step function in the vicinity of the data points.
  • the data points in FIG. 5 correspond to specific branch points in the decision tree.
  • the feature quantity extraction device 100 calculates the slope of the straight line connecting the branch point on the left of a specific branch point and the data point. Also, the feature quantity extraction apparatus 100 calculates the slope of the straight line connecting the right branch point of the specific branch point and the data point. The feature quantity extraction device 100 determines the larger slope of the two calculated slopes as the slope for the data points.
  • the left slope is the difference between the weight of the branch point of the data point and the weight of the left branch point (Left Weight).
  • the right slope is the difference between the branch point weight of the data point and the right branch point weight (Right Weight).
  • the slope approximation is the left slope.
  • the feature quantity extraction device 100 may set upper and lower limits for the gradient to avoid large gradients.
  • the upper and lower limits may be, for example, the interval [-1, 1].
  • weak classifiers included in the boosting machine are described as decision trees, but weak classifiers are not limited to decision trees.
  • Weak classifiers may be other machine learning algorithms such as SVM (Support Vector Machine).
  • FIG. Examples of boosting processing include processing for training multiple classifiers in a boosting machine. Processing for performing this learning is performed by, for example, the feature quantity extraction device 100 in FIG.
  • FIG. 6 is a flowchart showing process P100, which is an example of the process for learning a plurality of discriminators in the boosting machine.
  • the learning unit 123 of the feature extraction device 100 adds a boosting machine to the model (step S101).
  • This model is, for example, the multi-layer model described above before training is performed.
  • the learning unit 123 sets the input/output connection relationship of the boosting machine (step S102).
  • learner 123 may construct a structure such as graphical representation 20 of FIGS. 4A and 4B.
  • the learning unit 123 determines whether to add a boosting machine (step S103). For example, this determination is based on the class of interest for data analysis.
  • step S103 determines to add a boosting machine
  • step S101 executes step S101 again.
  • step S104 the learning unit 123 sets an initial gradient for each boosting machine. For example, uniform random numbers are used to set the initial gradient.
  • the learning unit 123 adds an initial discriminator to each boosting machine (step S105). As a result, an initialized model is generated.
  • step S106 the learning unit 123 executes inference processing. For the first time, the learning unit 123 performs inference processing using the initialization model. From the second time onwards, inference processing is executed using the updated model.
  • the learning unit 123 uses the learning data included in the learning data set to calculate the error between the inference result and the learning label (step S107).
  • the learning unit 123 determines whether the error has converged (step S108).
  • step S108 Yes
  • the process P100 ends.
  • step S108 When it is determined that the error has not converged (step S108: No), the learning unit 123 calculates the gradient information of each boosting machine based on backpropagation (step S109).
  • the learning unit 123 adds a discriminator to each boosting machine based on the gradient information (step S110). The result is an updated model. Then, the learning unit 123 executes step S106 again using the updated model.
  • FIG. 7 is a flowchart showing step S106, which is an example of inference processing using the boosting machine group.
  • Step S106 includes sub-step S106a, sub-step S106b, sub-step S106c and sub-step S106d.
  • the inference unit 124 of the feature quantity extraction device 100 acquires a model and inputs the inference data to the boosting machine (step S106a).
  • the inference unit 124 determines whether there is an unprocessed boosting machine with all inputs (step S106b).
  • step S106 ends.
  • step S106b When it is determined that there is no unprocessed boosting machine with all inputs (step S106b: Yes), the inference unit 124 calculates the output value of the boosting machine (step S106c). That is, the inference unit 124 calculates the sum of weak discriminators.
  • the inference unit 124 determines whether the boosting machine has a subsequent connection (step S106d).
  • step S106d When it is determined that the boosting machine does not have a subsequent connection (step S106d: No), the inference unit 124 outputs the inference result, and step S106 ends.
  • step S106d When it is determined that the boosting machine has a subsequent connection (step S106d: Yes), the inference unit 124 executes step S106a again.
  • the feature extraction apparatus 100 cascades multiple layers of parallel boosting machines. Thereby, the feature quantity extraction device 100 can generate a multi-layered boosting model.
  • the feature quantity extraction device 100 can extract feature quantities with high inference performance from the middle layer of the trained multi-layer boosting model. Also, the multi-layer boosting model uses a combination of weak discriminators (ie, simple models with weak discriminative power) for inference processing. Therefore, the feature quantity extraction device 100 can perform inference processing at a lower computational cost than a neural network.
  • weak discriminators ie, simple models with weak discriminative power
  • the illustrated components of the device conceptually indicate the functions of the device. Components are not necessarily physically arranged as shown in the drawings. In other words, the specific form of the distributed or integrated apparatus is not limited to the form of the system and apparatus shown in the figures. All or part of the devices may be functionally or physically distributed or integrated according to various loads and usage conditions.
  • FIG. 8 is a diagram showing a computer 1000 as an example of the hardware configuration of a computer.
  • the systems and methods described herein may be implemented, for example, by computer 1000 shown in FIG.
  • FIG. 8 shows an example of a computer in which the feature quantity extraction device 100 is implemented by executing a program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the feature quantity extraction apparatus 100 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the feature quantity extraction apparatus 100 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the hard disk drive 1090 can store a machine learning program for boosting processing and a feature extraction program for boosting processing. Also, the machine learning program and the feature quantity extraction program can be created as program products. The program product, when executed, performs one or more methods, such as those described above.
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program modules 1093 and program data 1094 may be stored in other computers connected through a network (LAN, WAN, etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • the feature quantity extraction device 100 includes the acquisition unit 122 and the learning unit 123.
  • the acquisition unit 122 acquires a multi-layer model having multiple layers connected in series. Each layer contains multiple boosting machines.
  • the learning unit 123 uses the multi-layered model obtained by the obtaining unit 122 as a machine learning model such that at least one of the input layer or the intermediate layer of the multi-layered model is Execute machine learning to extract features.
  • the learning unit 123 transfers information about gradients of multiple boosting machines included in the output layer of the multi-layer model from the output layer of the multi-layer model to the input layer of the multi-layer model as machine learning is performed. Update multi-tier models by propagating.
  • the learning unit 123 sets an initial output value for each boosting machine as execution of machine learning, and based on the set multiple initial output values, sets an initial output value for each boosting machine. Add a discriminator.
  • the feature quantity extraction device 100 includes the inference unit 124.
  • the reasoner 124 obtains a trained multi-layer model having multiple layers connected in series. Each layer contains multiple boosting machines.
  • the inference unit 124 extracts features from the data by applying this data to a trained multi-layer model.
  • a communication module, a control module, and a storage module can be read as a communication unit, a control unit, and a storage unit, respectively.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

This feature extraction device comprises an acquisition unit and a learning unit. The acquisition unit acquires a multi-layer model having a plurality of layers connected in series. Each layer includes a plurality of boosting machines. The learning unit uses the multi-layer model acquired by the acquisition unit as a machine learning model to execute machine learning such that at least one of the input layer and middle layer of the multi-layer model extracts a feature from given data.

Description

機械学習装置、特徴量抽出装置、機械学習方法、特徴量抽出方法、機械学習プログラム及び特徴量抽出プログラムMachine learning device, feature quantity extraction device, machine learning method, feature quantity extraction method, machine learning program and feature quantity extraction program
 本開示は、機械学習装置、特徴量抽出装置、機械学習方法、特徴量抽出方法、機械学習プログラム及び特徴量抽出プログラムに関する。 The present disclosure relates to a machine learning device, a feature quantity extraction device, a machine learning method, a feature quantity extraction method, a machine learning program, and a feature quantity extraction program.
 アンサンブル学習は、複数の識別器を組み合わせる機械学習の手法である。アンサンブル学習には、様々な方法がある。1つの方法は、ブースティング(Boosting)である。 Ensemble learning is a machine learning method that combines multiple classifiers. There are various methods of ensemble learning. One method is Boosting.
 ブースティングは、弱い識別器を数珠繋ぎにすることで強い識別器を作るアルゴリズムである。具体的には、ブースティングは、ある識別器の出力を基に、新たな識別器を追加し、識別器の出力の和が誤差を小さくするよう、この新たな識別器を最適化する学習方法である。よく使われるブースティングアルゴリズムは、勾配ブースティングである(Gradient Boosting)。勾配ブースティングは、勾配法を用いて、目的関数が最小化されるようにブースティングを行うアルゴリズム群である。有名なアダブースト(AdaBoost:Adaptive Boosting)も、勾配ブースティングの1つとみなされ得る。 Boosting is an algorithm that creates a strong classifier by stringing together weak classifiers. Specifically, boosting is a learning method in which a new classifier is added based on the output of a certain classifier, and this new classifier is optimized so that the sum of the classifier outputs reduces the error. is. A commonly used boosting algorithm is Gradient Boosting. Gradient boosting is a group of algorithms that use the gradient method to boost so that the objective function is minimized. The famous AdaBoost (Adaptive Boosting) can also be considered as one of gradient boosting.
 しかしながら、上記の先行技術では、推論性能の高い特徴量を獲得することが難しい場合がある。 However, with the above prior art, it may be difficult to acquire feature quantities with high inference performance.
 そこで、本開示は、推論性能の高い特徴量を獲得することができる機械学習装置、特徴量抽出装置、機械学習方法、特徴量抽出方法、機械学習プログラム及び特徴量抽出プログラムを提案する。 Therefore, the present disclosure proposes a machine learning device, a feature quantity extraction device, a machine learning method, a feature quantity extraction method, a machine learning program, and a feature quantity extraction program capable of acquiring feature quantities with high inference performance.
 本開示の一態様では、機械学習装置は、直列に接続された複数の層を有する多層モデルであって、各層が、複数の勾配ブースティングマシンを含む多層モデルを取得する取得部と、前記多層モデルを機械学習モデルとして使用して、前記多層モデルの入力層又は中間層のうちの少なくとも1つが与えられたデータから特徴量を抽出するように、機械学習を実行する機械学習実行部とを備える。 In one aspect of the present disclosure, a machine learning device is a multi-layer model having a plurality of layers connected in series, each layer obtaining a multi-layer model including a plurality of gradient boosting machines; a machine learning executor for performing machine learning using the model as a machine learning model to extract features from data given to at least one of the input layer or the intermediate layer of the multi-layer model. .
 本開示の1つまたは複数の実施形態に係る機械学習装置は、推論性能の高い特徴量を獲得することができる。 A machine learning device according to one or more embodiments of the present disclosure can acquire feature quantities with high inference performance.
図1は、機械学習のための環境の例のブロック図である。FIG. 1 is a block diagram of an example environment for machine learning. 図2は、本開示に係る特徴量抽出装置の構成の例のブロック図である。FIG. 2 is a block diagram of an example configuration of a feature extraction device according to the present disclosure. 図3は、GBDT(Gradient Boosting Decision Trees)のグラフ表現の例を示す。FIG. 3 shows an example of graphical representation of GBDTs (Gradient Boosting Decision Trees). 図4Aは、本開示に係るGBDTのグラフ表現の例を示す。FIG. 4A shows an example graphical representation of a GBDT in accordance with this disclosure. 図4Bは、本開示に係るGBDTのグラフ表現の例を示す。FIG. 4B shows an example graphical representation of a GBDT in accordance with this disclosure. 図5は、本開示に係る勾配計算の例を示す。FIG. 5 illustrates an example of gradient computation according to this disclosure. 図6は、ブースティングマシン内の複数の識別器についての学習を行うための処理の例を示すフローチャートである。FIG. 6 is a flowchart illustrating an example of processing for learning a plurality of discriminators in the boosting machine. 図7は、ブースティングマシン群を使用した推論処理の例を示すフローチャートである。FIG. 7 is a flowchart illustrating an example of inference processing using boosting machines. 図8は、コンピュータのハードウェア構成の例を示す。FIG. 8 shows an example of the hardware configuration of a computer.
 複数の実施形態を、図面を参照して、以下で詳細に説明する。なお、本発明は、これらの複数の実施形態によって限定されるものではない。様々な実施形態の複数の特徴は、これらの複数の特徴が互いに矛盾しないという条件で、様々なやり方で組み合わされ得る。同一の要素は、同一の符号で示され、重複する説明は、省略される。 A number of embodiments are described in detail below with reference to the drawings. However, the present invention is not limited by these multiple embodiments. Features of various embodiments may be combined in various ways provided the features are not mutually exclusive. Identical elements are denoted by identical reference numerals, and duplicate descriptions are omitted.
 次の段落は、本開示に係る技術の概要を説明するものである。なお、この概要は、本発明や、以下の節で説明される複数の実施形態を限定することを意図するものではない。 The next paragraph explains the outline of the technology according to the present disclosure. However, this summary is not intended to limit the invention or the embodiments described in the following sections.
〔概要〕
 勾配ブースティング決定木(GBDT)は、分類などの様々なタスクに用いられている一方で、深層学習が、映像、画像、音声といった高次元のデータの分類に用いられている。アルゴリズム的な構造のため、GBDTは、高次元のデータの分類などのタスクに関しては、精度で深層学習より劣っていた。本開示では、GBDTの構造が拡張される。そして、誤差逆伝播法の考え方が、構造が拡張されたGBDTに導入される。本開示に係るGBDTは、特徴量抽出層を有し、推論性能の高い特徴量を抽出することができる。このため、本開示に係るGBDTは、高次元のデータを高精度に扱うことができる。
〔overview〕
Gradient-boosted decision trees (GBDTs) are used for various tasks such as classification, while deep learning is used for classification of high-dimensional data such as video, image and audio. Due to its algorithmic structure, GBDT has been inferior to deep learning in accuracy for tasks such as classification of high-dimensional data. In this disclosure, the structure of GBDT is extended. The concept of backpropagation is then introduced into the structure-extended GBDT. The GBDT according to the present disclosure has a feature extraction layer and can extract features with high inference performance. Therefore, the GBDT according to the present disclosure can handle high-dimensional data with high accuracy.
 以下の説明は、9節で構成されている:1.はじめに、2.機械学習のための環境、3.特徴量抽出装置の構成、4.ブースティング処理、5.ブースティング処理のフローチャート、6.効果、7.その他、8.ハードウェア構成、および9.実施形態のまとめ。 The following description consists of 9 sections: 1. First, 2. environment for machine learning;3. 4. Configuration of feature quantity extraction device; 4. Boosting processing; 5. Flowchart of boosting process; effect;7. Others,8. hardware configuration; and9. Summary of embodiments.
〔1.はじめに〕
 勾配ブースティングは、深層学習と同様に、広く普及している機械学習技術である。勾配ブースティングは、目的関数が最小化されるように、弱い識別器を、逐次的に追加していくものである。
[1. Introduction]
Gradient boosting, like deep learning, is a popular machine learning technique. Gradient boosting successively adds weak discriminators such that the objective function is minimized.
 弱い識別器として決定木を用いる勾配ブースティングは、勾配ブースティング決定木(Gradient Boosting Decision Trees:GBDT)と呼ばれる。GBDTは、汎用な教師あり学習アルゴリズムである。GBDTは、IoT(Internet of Things)のセンサデータを用いた回帰や分類といった、様々な用途で用いられている。GBDTに基づくモデルの例としては、XGBoostや、LightGBMなどが挙げられる。 Gradient boosting that uses decision trees as weak classifiers is called Gradient Boosting Decision Trees (GBDT). GBDT is a general-purpose supervised learning algorithm. GBDT is used in various applications such as regression and classification using IoT (Internet of Things) sensor data. Examples of GBDT-based models include XGBoost and LightGBM.
 その一方で、深層学習が、映像、画像、自然言語、音声といったメディアデータの分類で、主流になってきている。このようなタスクでは、GBDTは、一般的に、精度で深層学習に劣る。考えられる理由は、GBDTは、深層学習が行えている特徴量獲得を行えていない、ということである。 On the other hand, deep learning is becoming mainstream in the classification of media data such as videos, images, natural language, and audio. For such tasks, GBDT is generally inferior to deep learning in accuracy. A possible reason is that GBDT does not perform feature acquisition that deep learning does.
 従来のGBDTでは、特徴量は、入力空間を部分空間に分割することによって決定される。分割の仕方は、一般的には、次元とデータ点に対してグリッドサーチを行うことによって決定される。 In conventional GBDT, features are determined by dividing the input space into subspaces. The partitioning method is generally determined by performing a grid search on the dimensions and data points.
 入力空間を分割するために、分岐点が、データ集合のゲイン値を使って、次元ごとにグリッドサーチされる。具体的には、分岐に含まれるデータ点の集合が、全ての次元でソートされる。分岐後の左右のデータ集合のゲイン値が、可能な分岐点ごとに、計算される。そして、現在のゲイン値を上回る最も大きな分岐位置が、探索される。このようなグリッドサーチの結果、最も良い分岐点が選択される。  In order to divide the input space, the bifurcation points are grid-searched for each dimension using the gain values of the dataset. Specifically, the set of data points involved in the branch are sorted in all dimensions. Gain values for the left and right data sets after the split are calculated for each possible split point. Then, the branch position that has the greatest increase over the current gain value is searched. As a result of such grid search, the best branch point is selected.
 このように、グリッドサーチが行われる際、全ての次元は、独立に探索されている。そして、最もゲイン値が高い1つの次元が、選択される。 In this way, all dimensions are searched independently when a grid search is performed. Then the one dimension with the highest gain value is selected.
 しかしながら、入力次元のこのような取り扱いは、GBDTが、入力空間における次元間の相関性を掴むのを難しくしている。GBDTは、入力データの次元を、独立に扱っており、その次元間の相関を考慮していない。 However, such treatment of input dimensions makes it difficult for GBDT to grasp the correlation between dimensions in the input space. GBDT treats the dimensions of the input data independently and does not consider the correlation between the dimensions.
 特徴量抽出は、入力データの次元間の相関情報を汲み取り、入力データを分類しやすい特徴量空間にマッピングする処理である。従来のGBDTは次元を独立に扱っているため、従来のGBDTは、タスクにより適した特徴量の獲得が見込めない。  Feature extraction is a process that captures the correlation information between the dimensions of the input data and maps the input data into a feature space that is easy to classify. Since the conventional GBDT treats the dimensions independently, the conventional GBDT is not expected to acquire features more suitable for the task.
 上記の課題を解決するために、本開示の1つまたは複数の実施形態に係る特徴量抽出装置は、以下に説明される1つまたは複数のブースティング処理を行う。 In order to solve the above problems, the feature extraction device according to one or more embodiments of the present disclosure performs one or more boosting processes described below.
〔2.機械学習のための環境〕
 まず、図1を参照して、本開示に係る機械学習のための環境について説明する。
[2. environment for machine learning]
First, an environment for machine learning according to the present disclosure will be described with reference to FIG.
 図1は、機械学習のための環境の例である環境1のブロック図である。図1に示されるように、環境1は、特徴量抽出装置100と、ネットワーク200と、ユーザ装置300とを含む。 Figure 1 is a block diagram of environment 1, which is an example of an environment for machine learning. As shown in FIG. 1, the environment 1 includes a feature extraction device 100, a network 200, and a user device 300. FIG.
 特徴量抽出装置100は、1つまたは複数のブースティング処理を行う装置である。1つまたは複数のブースティング処理は、複数の弱い識別器を繋ぐことによって強い識別機を生成する処理や、生成済みの強い識別器を使用した推論処理を含む。本開示に係るブースティング処理の詳細は、4節で説明される。特徴量抽出装置100は、機械学習装置の一例である。 The feature extraction device 100 is a device that performs one or more boosting processes. One or more boosting processes include a process of generating a strong classifier by connecting a plurality of weak classifiers, and an inference process using the generated strong classifiers. Details of the boosting process according to the present disclosure are described in Section 4. The feature quantity extraction device 100 is an example of a machine learning device.
 特徴量抽出装置100は、サーバ等のデータ処理装置である。特徴量抽出装置100の構成の例は、3節で説明される。 The feature quantity extraction device 100 is a data processing device such as a server. An example of the configuration of the feature quantity extraction device 100 will be described in Section 3.
 ネットワーク200は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等のネットワークである。ネットワーク200は、特徴量抽出装置100およびユーザ装置300を接続する。 The network 200 is, for example, a LAN (Local Area Network), a WAN (Wide Area Network), or the Internet. A network 200 connects the feature extraction device 100 and the user device 300 .
 ユーザ装置300は、クライアント装置等のデータ処理装置である。ユーザは、例えば、データサイエンティストである。例えば、ユーザ装置300は、生成済みの強い識別器を取得するためのリクエストを、特徴量抽出装置100に送る。ユーザ装置300は、生成済みの強い識別器を使用した推論処理を実行するためのリクエストを、特徴量抽出装置100に送ってもよい。この場合、ユーザ装置300は、推論処理の対象であるデータも、特徴量抽出装置100に送る。 The user device 300 is a data processing device such as a client device. A user is, for example, a data scientist. For example, the user device 300 sends a request to the feature quantity extraction device 100 to acquire a generated strong discriminator. The user device 300 may send a request to the feature quantity extraction device 100 to execute inference processing using the generated strong discriminator. In this case, the user device 300 also sends data, which is the target of inference processing, to the feature quantity extraction device 100 .
〔3.特徴量抽出装置の構成〕
 次に、図2を参照して、特徴量抽出装置100の構成の例について説明する。
[3. Configuration of Feature Amount Extraction Device]
Next, an example of the configuration of the feature quantity extraction device 100 will be described with reference to FIG.
 図2は、本開示に係る特徴量抽出装置の構成の例である特徴量抽出装置100のブロック図である。図2に示されるように、特徴量抽出装置100は、通信部110、制御部120および記憶部130を含む。特徴量抽出装置100は、特徴量抽出装置100の管理者から入力を受け付ける入力部(例えば、キーボード、マウス)を含んでもよい。また、特徴量抽出装置100は、特徴量抽出装置100の管理者に情報を表示する出力部(例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ)を含んでもよい。 FIG. 2 is a block diagram of the feature quantity extraction device 100, which is an example of the configuration of the feature quantity extraction device according to the present disclosure. As shown in FIG. 2 , feature quantity extraction device 100 includes communication unit 110 , control unit 120 and storage unit 130 . The feature quantity extraction device 100 may include an input unit (for example, keyboard, mouse) that receives input from an administrator of the feature quantity extraction device 100 . The feature quantity extraction device 100 may also include an output unit (for example, a liquid crystal display, an organic EL (Electro Luminescence) display) that displays information to the administrator of the feature quantity extraction device 100 .
〔3-1.通信部110〕
 通信部110は、例えば、NIC(Network Interface Card)によって実装される。通信部110は、有線または無線によりネットワーク200と接続される。通信部110は、ネットワーク200を介して、ユーザ装置300との間で、情報の送受信を行うことができる。
[3-1. Communication unit 110]
The communication unit 110 is implemented by, for example, a NIC (Network Interface Card). Communication unit 110 is connected to network 200 by wire or wirelessly. The communication unit 110 can transmit and receive information to and from the user device 300 via the network 200 .
〔3-2.制御部120〕
 制御部120は、コントローラ(controller)である。制御部120は、RAM(Random Access Memory)を作業領域として使用し、特徴量抽出装置100の記憶装置に記憶された各種プログラムを実行する1つまたは複数のプロセッサ(例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit))によって実装される。また、制御部120は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPGPU(General Purpose Graphic Processing Unit)等の、集積回路により実装されてもよい。
[3-2. control unit 120]
The control unit 120 is a controller. The control unit 120 uses a RAM (Random Access Memory) as a work area, and includes one or more processors (for example, a CPU (Central Processing Unit)) that execute various programs stored in the storage device of the feature extraction device 100. , MPU (Micro Processing Unit). Also, the control unit 120 may be implemented by an integrated circuit such as an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or a GPGPU (General Purpose Graphic Processing Unit).
 図2に示されるように、制御部120は、受信部121、取得部122、学習部123、推論部124および提供部125を含む。特徴量抽出装置100の1つまたは複数のプロセッサは、特徴量抽出装置100の1つまたは複数のメモリに記憶された命令を実行することによって、各制御部を実装することができる。各制御部によって行われるデータ処理は例であり、各制御部(例えば、学習部123)は、他の制御部(例えば、推論部124)に関連して説明されるデータ処理を行ってもよい。 As shown in FIG. 2, the control unit 120 includes a receiving unit 121, an acquiring unit 122, a learning unit 123, an inference unit 124 and a providing unit 125. One or more processors of the feature extraction device 100 can implement each controller by executing instructions stored in one or more memories of the feature extraction device 100 . The data processing performed by each control unit is an example, and each control unit (e.g., learning unit 123) may perform data processing described in relation to other control units (e.g., reasoning unit 124). .
〔3-2-1.受信部121〕
 受信部121は、各種データを受信する。また、受信部121は、受信されたデータを、記憶部130に格納する。例えば、受信部121は、特徴量抽出装置100の管理者から、各種機械学習アルゴリズムに関するデータを受信する。また、受信部121は、管理者から、機械学習のための訓練データを受信する。
[3-2-1. Receiving unit 121]
The receiving unit 121 receives various data. Also, the receiving unit 121 stores the received data in the storage unit 130 . For example, the receiving unit 121 receives data regarding various machine learning algorithms from the administrator of the feature quantity extraction device 100 . The receiving unit 121 also receives training data for machine learning from the administrator.
〔3-2-2.取得部122〕
 取得部122は、記憶部130から、各種データを取得する。例えば、取得部122は、各種機械学習アルゴリズムに関するデータや、機械学習のための訓練データを取得する。
[3-2-2. Acquisition unit 122]
Acquisition unit 122 acquires various data from storage unit 130 . For example, the acquisition unit 122 acquires data related to various machine learning algorithms and training data for machine learning.
〔3-2-3.学習部123〕
 学習部123は、取得部122によって取得された各種データを使用して、機械学習を行う。例えば、学習部123は、訓練データを使用して、機械学習アルゴリズムを訓練し、それによって、学習済みモデルを生成する。例えば、学習済みモデルは、生成済みの強い識別器である。学習部123は、学習済みモデルを、記憶部130に格納する。
[3-2-3. learning unit 123]
The learning unit 123 uses various data acquired by the acquisition unit 122 to perform machine learning. For example, the learning unit 123 uses training data to train a machine learning algorithm, thereby generating a learned model. For example, a trained model is a generated strong classifier. Learning unit 123 stores the trained model in storage unit 130 .
 学習部123は、機械学習実行部の一例である。 The learning unit 123 is an example of a machine learning execution unit.
〔3-2-4.推論部124〕
 推論部124は、推論処理の対象であるデータを、ユーザ装置300から受信する。また、推論部124は、記憶部130から、学習済みモデルを取得する。推論部124は、受信されたデータを学習済みモデルに適用することによって、推論処理を行う。
[3-2-4. reasoning unit 124]
The inference unit 124 receives data to be subjected to inference processing from the user device 300 . Also, the inference unit 124 acquires a trained model from the storage unit 130 . The inference unit 124 performs inference processing by applying the received data to the trained model.
 推論部124は、取得部および抽出部の一例である。 The inference unit 124 is an example of an acquisition unit and an extraction unit.
〔3-2-5.提供部125〕
 提供部125は、各種情報を提供する。例えば、提供部125は、生成済みの強い識別器を、ユーザ装置300に提供する。推論部124がユーザ装置300から受信されたデータを使って推論処理を行った場合には、提供部125は、推論処理の結果を、ユーザ装置300に提供する。
[3-2-5. providing unit 125]
The providing unit 125 provides various information. For example, the providing unit 125 provides the generated strong classifier to the user device 300 . When the inference unit 124 performs inference processing using the data received from the user device 300 , the provision unit 125 provides the result of the inference processing to the user device 300 .
〔3-3.記憶部130〕
 記憶部130は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実装される。記憶部130は、各種データを記憶する。例えば、記憶部130は、各種機械学習アルゴリズムに関するデータ、機械学習のための訓練データ、学習済みモデルなどを記憶する。
[3-3. Storage unit 130]
The storage unit 130 is implemented by, for example, a semiconductor memory device such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. The storage unit 130 stores various data. For example, the storage unit 130 stores data related to various machine learning algorithms, training data for machine learning, learned models, and the like.
〔4.ブースティング処理〕
 次に、図3、図4A、図4Bおよび図5を参照して、本開示に係るブースティング処理について説明する。
[4. Boosting processing]
Next, boosting processing according to the present disclosure will be described with reference to FIGS. 3, 4A, 4B and 5. FIG.
 まず、本開示に係るブースティング処理と、従来のブースティング処理とを比較するために、従来のブースティング処理について説明する。 First, conventional boosting processing will be described in order to compare the boosting processing according to the present disclosure with conventional boosting processing.
 図3は、GBDTのグラフ表現の例であるグラフ表現10を示す。グラフ表現10は、従来のブースティング処理をグラフで表現するものである。グラフ表現10は、標準的なGBDTのグラフ表現である。 FIG. 3 shows a graphical representation 10, which is an example of a graphical representation of GBDT. The graphical representation 10 is a graphical representation of a conventional boosting process. Graphical representation 10 is a standard GBDT graphical representation.
 xからxまでの変数xは、入力データである。「D」は、入力データの次元である。入力データは、各ブースティングマシンに入力される。 The variable x from x1 to xD is the input data. "D" is the dimension of the input data. Input data is entered into each boosting machine.
 ブースティングマシンは、出力の誤差を小さくするようにブースティングアルゴリズムに則して逐次的に学習された複数の弱い識別器の線形和として表される多入力1出力の識別器である。 A boosting machine is a multi-input, single-output discriminator represented as a linear sum of multiple weak discriminators that are sequentially learned according to a boosting algorithm so as to reduce output errors.
 図3の例では、ブースティングマシンは、多入力-1出力の関数である。ブースティングマシンは、弱い識別器の集合である。例えば、弱い識別器は、決定木である。 In the example of Figure 3, the boosting machine is a function of multiple inputs and one output. A boosting machine is a set of weak classifiers. For example, weak classifiers are decision trees.
 GBDTが、多クラス分類問題を解くために使われる場合には、ブースティングマシンは、一般的には、出力クラスの数だけ生成される。図3の例では、出力クラスの数は、「C」である。このため、グラフ表現10は、FからFまでのブースティングマシンを含む。 When GBDT is used to solve a multi-class classification problem, boosting machines are typically generated for the number of output classes. In the example of FIG. 3, the number of output classes is "C". Thus, the graphical representation 10 includes boosting machines F 1 through F C .
 図3の例では、xからxまでの変数が、ブースティングマシンFに入力される。この場合、ブースティングマシンFは、値「y」を出力する。同様に、xからxまでの変数が、ブースティングマシンFにも入力される。この場合、ブースティングマシンFは、値「y」を出力する。例えば、出力された値は、入力データが特定の出力クラスに属する確率を示す。 In the example of FIG. 3, the variables x 1 through x D are input to the boosting machine F 1 . In this case, boosting machine F 1 outputs the value "y 1 ". Similarly, the variables x1 through xD are also input to the boosting machine F2 . In this case, the boosting machine F2 outputs the value " y2 ". For example, the output value indicates the probability that the input data belongs to a particular output class.
 しかしながら、これらのブースティングマシンは、互いに独立している。したがって、グラフ表現10は、入力データの次元間の相関を考慮するものではない。深層学習並みの精度を得るためには、次元間の相関を考慮することが必要とされる。 However, these boosting machines are independent of each other. Accordingly, the graphical representation 10 does not take into account correlations between dimensions of the input data. In order to obtain accuracy comparable to deep learning, it is necessary to consider the correlation between dimensions.
 そこで、図1の特徴量抽出装置100は、入力データの次元間の相関を考慮したGBDTを実現するために、本開示に係るブースティング処理を実行する。 Therefore, the feature quantity extraction device 100 of FIG. 1 executes the boosting process according to the present disclosure in order to realize GBDT considering the correlation between dimensions of input data.
 図1の特徴量抽出装置100は、深層学習の場合と同様に、GBDTにおいて多クラスの高次元入力データを扱う。そして、特徴量抽出装置100は、GBDTに対して、誤差逆伝播に似た最適化を行う。このことは、高次元入力データの次元間の相関関係を考慮した分類や回帰を可能にする。 The feature quantity extraction device 100 in FIG. 1 handles multi-class high-dimensional input data in GBDT, as in the case of deep learning. Then, the feature quantity extraction device 100 performs optimization similar to error backpropagation on the GBDT. This enables classification and regression considering correlations between dimensions of high-dimensional input data.
 以下では、図4A、図4Bおよび図5を参照して、高次元入力データのための誤差逆伝播を用いたGBDTを説明する。本明細書では、誤差逆伝播を用いたGBDTを、BP Boost(Back Propagated Boosting、誤差逆伝播ブースティング法)と呼ぶ。 In the following, GBDT using error backpropagation for high-dimensional input data will be described with reference to FIGS. 4A, 4B and 5. FIG. In this specification, GBDT using backpropagation is called BP Boost (Back Propagation Boosting).
 図4Aおよび図4Bは、本開示に係るGBDTのグラフ表現の例であるグラフ表現20を示す。グラフ表現20は、BP Boostのグラフ表現の一例である。BP Boostは、例えば、図1の特徴量抽出装置100の学習部123によって実行される。 4A and 4B show graphical representation 20, which is an example graphical representation of a GBDT according to the present disclosure. A graph representation 20 is an example of a BP Boost graph representation. BP Boost is executed, for example, by the learning unit 123 of the feature quantity extraction device 100 in FIG.
 グラフ表現20では、従来のGBDTが、多段のモデルへと拡張されている。図4Aに示されるように、グラフ表現20は、ブースティングマシン21a、ブースティングマシン21b、ブースティングマシン22aおよびブースティングマシン22bを含む。 In graph representation 20, the conventional GBDT is extended to a multistage model. As shown in FIG. 4A, graphical representation 20 includes boosting machine 21a, boosting machine 21b, boosting machine 22a and boosting machine 22b.
 xからxまでの変数は、訓練データに含まれる入力データである。入力データは、値23a、値23bおよび値23cを含む。値23a、値23bおよび値23cのセットは、下記の数式1および数式2にそれぞれ対応するブースティングマシン21aおよびブースティングマシン21bに入力される。 Variables x 1 through x 3 are the input data contained in the training data. The input data includes values 23a, 23b and 23c. The set of values 23a, 23b and 23c are input to boosting machine 21a and boosting machine 21b corresponding respectively to Equations 1 and 2 below.
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 ブースティングマシン21aは、yに対応する値24aを出力する。また、ブースティングマシン21bは、yに対応する値24bを出力する。 The boosting machine 21a outputs a value 24a corresponding to y1 . The boosting machine 21b also outputs a value 24b corresponding to y2 .
 値24aおよび値24bのセットは、下記の数式3および数式4にそれぞれ対応するブースティングマシン22aおよびブースティングマシン22bに入力される。 The set of values 24a and 24b are input to boosting machine 22a and boosting machine 22b corresponding respectively to Equations 3 and 4 below.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 ブースティングマシン22aは、zに対応する値25aを出力する。また、ブースティングマシン22bは、zに対応する値25bを出力する。値25aおよび値25bが、多段のモデルから出力される値である。 The boosting machine 22a outputs a value 25a corresponding to z1 . Boosting machine 22b also outputs a value 25b corresponding to z2 . Values 25a and 25b are values output from the multistage model.
 特徴量抽出装置100は、前段のブースティングマシンであるブースティングマシン21aおよびブースティングマシン21bによって、特徴量獲得を行う。 The feature quantity extraction device 100 acquires feature quantities by the boosting machine 21a and the boosting machine 21b, which are boosting machines in the preceding stage.
 図4Bを参照すると、tおよびtまでの変数は、正解ラベルである。正解ラベルは、訓練データに含まれ、入力データに関連付けられている。 Referring to FIG. 4B, the variables up to t 1 and t 2 are the correct labels. Correct labels are included in the training data and associated with the input data.
 深層学習は、勾配を計算し、勾配降下法で、パラメータの最適化を行うものである。一方、図4Bに示されるように、BP Boostは、ブースティングによる木の追加により、パラメータの最適化を行う。 Deep learning calculates gradients and uses gradient descent to optimize parameters. On the other hand, as shown in FIG. 4B, BP Boost optimizes parameters by adding trees through boosting.
〔4-1.BP Boostの学習〕
 以下では、BP Boostの学習の技術的詳細を説明する。
[4-1. Learning BP Boost]
In the following, the technical details of BP Boost training are described.
 従来の勾配ブースティングは、勾配情報を用いて、弱い識別器を訓練データにフィットさせている。このフィッティングは、ニュートン法による識別器の最適化である。 Conventional gradient boosting uses gradient information to fit a weak discriminator to the training data. This fitting is optimization of the classifier by Newton's method.
 一方、BP Boostのコンセプトは、ブースティングによりカスケードされたブースティングマシンの最適化を行うことである。ブースティングマシンをカスケードすることは、ブースティングマシンを直列に接続することを意味する。 On the other hand, the concept of BP Boost is to optimize boosting machines cascaded by boosting. Cascading boosting machines means connecting boosting machines in series.
 BP Boostは、出力側から入力側へ勾配情報を伝播させる。そして、BP Boostは、各ブースティングマシンに弱い識別器を追加することで、ニュートン法による識別器の全体的最適化を行う。 BP Boost propagates gradient information from the output side to the input side. BP Boost then adds a weak classifier to each boosting machine to perform global optimization of the classifier using Newton's method.
 図4Bのグラフ表現20では、多段ブースティングマシンが、ブースティングマシン21a、ブースティングマシン21b、ブースティングマシン22aおよびブースティングマシン22bによって構成されている。前段のブースティングマシンが、ブースティングマシン21aおよびブースティングマシン21bであり、後段のブースティングマシンが、ブースティングマシン22aおよびブースティングマシン22bである。 In the graphical representation 20 of FIG. 4B, the multistage boosting machine is configured by boosting machine 21a, boosting machine 21b, boosting machine 22a and boosting machine 22b. The boosting machines in the front stage are the boosting machine 21a and the boosting machine 21b, and the boosting machines in the rear stage are the boosting machine 22a and the boosting machine 22b.
 まず、M-1個の弱い識別器が、各ブースティングマシンにおいて既に学習されている、と仮定する。 First, assume that M-1 weak classifiers have already been learned in each boosting machine.
 もし、値24aおよび値24bのセットが決定されれば、通常のブースティングの学習アルゴリズムが、後段のブースティングマシンに適用され得る。そこで、前段のブースティングマシンの学習について説明する。 If the set of values 24a and 24b is determined, the normal boosting learning algorithm can be applied to the subsequent boosting machine. Therefore, the learning of the boosting machine in the former stage will be explained.
 M個目の決定木(以下の数式5)が、図4Bのブースティングマシン21aに、新たに加えられると仮定する。 Assume that the Mth decision tree (Equation 5 below) is newly added to the boosting machine 21a in FIG. 4B.
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
 すると、目的関数L(M)は、以下の数式6で与えられる。 Then, the objective function L (M) is given by Equation 6 below.
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000006
 このように、目的関数L(M)は、入れ子構造を有する。 Thus, the objective function L (M) has a nested structure.
 lは、ロス関数である。lの変数は、後段のブースティングマシンの出力および訓練データの関数である。cは、後段のブースティングマシンを区別する番号である。iは、訓練データのサンプルを区別する番号である。Nは、サンプルの数である。 l c is the loss function. The l c variables are a function of the output of the boosting machine and the training data afterward. c is a number that distinguishes the latter boosting machine. i is a number that distinguishes a sample of training data. N is the number of samples.
 まず、入れ子の内側において、上記の数式5について1次のテイラー展開をすることによって、以下の数式7が得られる。 First, the following Equation 7 is obtained by performing a first-order Taylor expansion on Equation 5 above inside the nest.
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000007
 ただし、以下の数式8が用いられた。このyは、上記の数式5の寄与を含んでいない。また、以下の数式9の略記が用いられた。 However, Equation 8 below was used. This y1 does not include the contribution of Equation 5 above. Also, the abbreviation for Equation 9 below was used.
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000009
 なお、上記の数式9は、ブースティングマシの入力に対する勾配を表す。 It should be noted that Equation 9 above represents the gradient for the input of the boosting machine.
 上記の数式7は、上記の数式6に代入される。入れ子の外側において、上記の数式7の第2項について2次のテイラー展開をすることによって、以下の数式10が得られる。 Formula 7 above is substituted into Formula 6 above. Outside the nesting, the following Equation 10 is obtained by performing a second-order Taylor expansion on the second term of Equation 7 above.
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000010
 ただし、gi,cおよびhi,cは、以下の数式11および数式12である。 However, g i,c and hi ,c are the following Formulas 11 and 12.
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000012
 一般的なGBDTの目的関数L(M)は、以下の数式13で与えられる(例えば、「Jerome Friedman, Trevor Hastie, and Robert Tibshirani、“Additive logistic regression: a statistical view of boosting”、The Annals of Statistics, Vol. 28, No. 2, pp. 337-407, 2000.」を参照)。 The general GBDT objective function L (M) is given by Equation 13 below (see, for example, Jerome Friedman, Trevor Hastie, and Robert Tibshirani, “Additive logistic regression: a statistical view of boosting,” The Annals of Statistics , Vol. 28, No. 2, pp. 337-407, 2000.”).
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000013
 ただし、gおよびhは、以下の数式14および数式15である。 However, g i and hi are the following Formulas 14 and 15.
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000015
 上記の数式10は、gおよびhが「上記の数式9の勾配が乗ぜられたgおよびh」に置きられた上記の数式13である。ここから、勾配と2階微分値の逆伝播測が得られる(下記の数式16および数式17)。 Equation 10 above is Equation 13 above with g i and h i placed in “g i and h i multiplied by the gradient of Equation 9 above”. From this, the gradient and the backpropagation measure of the second derivative are obtained (equations 16 and 17 below).
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000017
 後段のブースティングマシンのゲイン値は、通常のブースティングの学習アルゴリズムの場合と同様に、後段のブースティングマシンの勾配と2階微分値を用いて算出される。そして、前段のブースティングマシンの勾配と2階微分値は、上記の数式16および数式17を用いることによって、後段のブースティングマシンの勾配と2階微分値から得られる。その結果、前段のブースティングマシンのゲイン値が、前段のブースティングマシンの勾配と2階微分値を用いて算出される。識別器の全体的最適化は、算出されたこれらのゲイン値を用いて行われる。 The gain value of the boosting machine in the latter stage is calculated using the gradient of the latter boosting machine and the second derivative value, as in the case of the normal boosting learning algorithm. Then, the gradient and the second derivative of the former boosting machine are obtained from the gradient and the second derivative of the latter boosting machine by using Equations 16 and 17 above. As a result, the gain value of the previous boosting machine is calculated using the gradient of the previous boosting machine and the second derivative. A global optimization of the discriminator is performed using these calculated gain values.
 特徴量抽出装置100は、上述のBP Boostの機械学習アルゴリズムを用いて、機械学習を実行することができる。以下では、BP Boostに基づくブースティング処理を説明する。BP Boostに基づくブースティング処理は、特徴量抽出装置100の各制御部によって実行される。 The feature quantity extraction device 100 can perform machine learning using the BP Boost machine learning algorithm described above. Boosting processing based on BP Boost will be described below. Boosting processing based on BP Boost is executed by each control unit of the feature quantity extraction device 100 .
 はじめに、特徴量抽出装置100の取得部122は、記憶部130から、直列に接続された複数の層を有する多層モデルを取得する。多層モデルは、例えば、図4Aおよび図4Bのグラフ表現20に類似する構造を有する。各層は、複数のブースティングマシン(例えば、複数の決定木)を含む。 First, the acquisition unit 122 of the feature extraction device 100 acquires a multi-layer model having multiple layers connected in series from the storage unit 130 . A multilayer model, for example, has a structure similar to the graphical representation 20 of FIGS. 4A and 4B. Each layer contains multiple boosting machines (eg, multiple decision trees).
 これらの複数の層は、例えば、入力層、中間層および出力層を含む。複数の層が、入力層および出力層のみを含む場合には、入力層は、図4Aおよび図4Bの前段のブースティングマシンに対応する。また、出力層は、図4Aおよび図4Bの後段のブースティングマシンに対応する。 These multiple layers include, for example, an input layer, an intermediate layer and an output layer. If the multiple layers include only input and output layers, the input layer corresponds to the previous boosting machine of FIGS. 4A and 4B. Also, the output layer corresponds to the latter boosting machine in FIGS. 4A and 4B.
 次いで、特徴量抽出装置100の学習部123は、取得部122によって取得された多層モデルを使用して、入力層や中間層が与えられたデータから特徴量を抽出するように、機械学習を実行する。例えば、学習部123は、上記の数式9を使うことによって決定される勾配に関する情報を、多層モデルの出力層から多層モデルの入力層へと伝播させる。このようにして、学習部123は、多層モデルを更新する。学習部123は、更新済みの多層モデルを、記憶部130に格納する。 Next, the learning unit 123 of the feature quantity extraction device 100 uses the multi-layer model acquired by the acquisition unit 122 to perform machine learning so as to extract feature quantities from the data given the input layer and the intermediate layer. do. For example, the learning unit 123 propagates the information about the gradient determined by using Equation 9 above from the output layer of the multi-layer model to the input layer of the multi-layer model. Thus, the learning unit 123 updates the multi-layer model. The learning unit 123 stores the updated multilayer model in the storage unit 130 .
 その後、特徴量抽出装置100の推論部124は、更新済みの多層モデルを、記憶部130から取得する。推論部124は、推論データを更新済みの多層モデルに適用する。このようにして、推論部124は、推論データから特徴量を抽出する。 After that, the inference unit 124 of the feature quantity extraction device 100 acquires the updated multi-layer model from the storage unit 130. The inference unit 124 applies the inference data to the updated multi-layer model. In this way, the inference unit 124 extracts feature amounts from the inference data.
〔4-2.初期値の設定〕
 この節では、ブースティングマシンの初期状態の設定について説明する。
[4-2. Initial value setting]
This section describes setting the initial state of the boosting machine.
 上記の数式16および数式17を用いて図4Bの多段ブースティングマシンの学習処理を行うためには、後段のブースティングマシンの出力が必要とされる。したがって、はじめに、値23a、値23bおよび値23cが、後段のブースティングマシンの出力を得るために、順伝播される。 In order to perform the learning process of the multi-stage boosting machine in FIG. 4B using the above Equations 16 and 17, the output of the boosting machine in the latter stage is required. Therefore, first the values 23a, 23b and 23c are forward propagated to obtain the output of the subsequent boosting machine.
 しかしながら、初期状態では、各段の入出力値が定まらない。この場合、勾配が計算されない。通常のGBDTでは、処理は、出力値を「0」に設定し、初期状態の勾配を計算することによって、開始される。 However, in the initial state, the input/output values of each stage are not determined. In this case no gradient is calculated. In a normal GBDT, processing begins by setting the output value to '0' and calculating the initial state slope.
 BP Boostでは、通常のブースティングの場合と同様に、後段のブースティングマシン(すなわち、最終層)では初期勾配を計算することができる。しかし、もし、出力値が「0」に設定されると、次の段のブースティングマシンの全ての入力が、「0」になる。このような設定では、学習が開始されない。 In BP Boost, the initial gradient can be calculated in the latter boosting machine (that is, the final layer), as in normal boosting. However, if the output value is set to '0', then all inputs to the next stage boosting machine will be '0'. With such settings, learning will not start.
 そこで、特徴量抽出装置100は、各段のブースティングマシンに、初期出力値を設定する。特徴量抽出装置100は、設定された複数の初期出力値に基づいて、初期の弱い識別器(例えば、決定木)を追加することができる。 Therefore, the feature quantity extraction device 100 sets an initial output value for each boosting machine. The feature quantity extraction device 100 can add an initial weak discriminator (for example, a decision tree) based on a plurality of set initial output values.
 まず、後段のブースティングマシン(すなわち、最終層)の出力値を、「0」に設定する。そして、特徴量抽出装置100は、後段以外の段の勾配情報を、区間[-1,1]の一様乱数によって初期化する。 First, the output value of the latter boosting machine (that is, the final layer) is set to "0". Then, the feature amount extraction apparatus 100 initializes the gradient information of stages other than the latter stage with uniform random numbers in the interval [−1, 1].
 その結果、ランダムな初期勾配が、後段以外の段(すなわち、最終層以外の層)に設定される。これにより、特徴量抽出装置100は、ランダムな木構造を、ブースティングマシンに追加することができ、それによって、多段ブースティングマシンの学習の開始する。 As a result, random initial gradients are set in stages other than the latter stage (that is, layers other than the final layer). This allows the feature extraction device 100 to add a random tree structure to the boosting machine, thereby starting learning of the multistage boosting machine.
〔4-3.勾配の計算〕
 ブースティングマシンの勾配は、上記の数式9によって与えられる。しがたって、勾配の計算は、ブースティングマシンの入力に対する偏微分を必要とする。
[4-3. Gradient calculation]
The gradient of the boosting machine is given by Equation 9 above. Calculation of the gradient therefore requires a partial derivative with respect to the input of the boosting machine.
 しかし、ブースティングマシンは、弱い識別器の集合である。例えば、弱い識別器の集合は、決定木の和であり、この和は、微分可能な関数ではない。すなわち、勾配は、解析的には求められない。 However, a boosting machine is a set of weak classifiers. For example, the set of weak classifiers is the sum of decision trees, which is not a differentiable function. That is, the gradient cannot be determined analytically.
 そこで、特徴量抽出装置100は、近似的に勾配を計算する。例えば、特徴量抽出装置100は、線形近似を採用することができる。 Therefore, the feature quantity extraction device 100 approximately calculates the gradient. For example, the feature quantity extraction device 100 can employ linear approximation.
 図5は、本開示に係る勾配計算の例である勾配計算30を示す。勾配計算30では、ブースティングマシンは、決定木の和である。入力データの次元が2である場合に、決定木の分岐は、図5に示されるような、四角形の足し合わせのような形状をしている。 FIG. 5 shows gradient calculation 30, which is an example of gradient calculation according to the present disclosure. In gradient computation 30, the boosting machine is a sum of decision trees. When the dimension of the input data is 2, the branches of the decision tree are shaped like the sum of squares, as shown in FIG.
 図5に示されるように、データ点の近傍では、関数の形状は、階段関数である。図5のデータ点は、決定木の特定の分岐点に対応する。特徴量抽出装置100は、特定の分岐点の左の分岐点とデータ点とを結ぶ直線の傾きを計算する。また、特徴量抽出装置100は、特定の分岐点の右の分岐点とデータ点とを結ぶ直線の傾きを計算する。特徴量抽出装置100は、算出された2つの傾きのうちのより大きい傾きを、データ点に対する勾配として決定する。 As shown in FIG. 5, the shape of the function is a step function in the vicinity of the data points. The data points in FIG. 5 correspond to specific branch points in the decision tree. The feature quantity extraction device 100 calculates the slope of the straight line connecting the branch point on the left of a specific branch point and the data point. Also, the feature quantity extraction apparatus 100 calculates the slope of the straight line connecting the right branch point of the specific branch point and the data point. The feature quantity extraction device 100 determines the larger slope of the two calculated slopes as the slope for the data points.
 図5の例では、左の傾きは、データ点の分岐点の重みと、左の分岐点の重み(Left Weight)との差である。右の傾きは、データ点の分岐点の重みと、右の分岐点の重み(Right Weight)との差である。この例では、勾配の近似値は、左の傾きである。 In the example of FIG. 5, the left slope is the difference between the weight of the branch point of the data point and the weight of the left branch point (Left Weight). The right slope is the difference between the branch point weight of the data point and the right branch point weight (Right Weight). In this example, the slope approximation is the left slope.
 ただし、分岐点とデータ点に近づくと、傾きが、無限大に近づく。特徴量抽出装置100は、大きな勾配を避けるために、勾配に、上限値および下限値を設定してもよい。上限値および下限値は、例えば、区間[-1,1]であってもよい。 However, when approaching the branch point and data point, the slope approaches infinity. The feature quantity extraction device 100 may set upper and lower limits for the gradient to avoid large gradients. The upper and lower limits may be, for example, the interval [-1, 1].
〔4-4.その他の実施形態〕
 この小節では、その他の実施形態について説明する。
[4-4. Other embodiments]
Other embodiments are described in this subsection.
〔4-4-1.弱い識別器〕
 上記の実施形態では、ブースティングマシンに含まれる弱い識別器が、決定木として説明されいるが、弱い識別器は、決定木に限定されるものではない。弱い識別器は、SVM(Support Vector Machine)などの他の機械学習アルゴリズムであってもよい。
[4-4-1. weak discriminator]
In the above embodiments, weak classifiers included in the boosting machine are described as decision trees, but weak classifiers are not limited to decision trees. Weak classifiers may be other machine learning algorithms such as SVM (Support Vector Machine).
〔5.ブースティング処理のフローチャート〕
 次に、図6および図7を参照して、本開示に係るブースティング処理の例のフローチャートについて説明する。ブースティング処理の例は、ブースティングマシン内の複数の識別器についての学習を行うための処理を含む。この学習を行うための処理は、例えば、図1の特徴量抽出装置100によって行われる。
[5. Flowchart of Boosting Processing]
Next, a flowchart of an example of boosting processing according to the present disclosure will be described with reference to FIGS. 6 and 7. FIG. Examples of boosting processing include processing for training multiple classifiers in a boosting machine. Processing for performing this learning is performed by, for example, the feature quantity extraction device 100 in FIG.
 図6は、ブースティングマシン内の複数の識別器についての学習を行うための処理の例である処理P100を示すフローチャートである。 FIG. 6 is a flowchart showing process P100, which is an example of the process for learning a plurality of discriminators in the boosting machine.
 図6に示されるように、はじめに、特徴量抽出装置100の学習部123は、ブースティングマシンを、モデルに追加する(ステップS101)。このモデルは、例えば、学習が行われる前の上述の多層モデルである。 As shown in FIG. 6, first, the learning unit 123 of the feature extraction device 100 adds a boosting machine to the model (step S101). This model is, for example, the multi-layer model described above before training is performed.
 次いで、学習部123は、ブースティングマシンの入出力接続関係を設定する(ステップS102)。例えば、学習部123は、図4Aおよび図4Bのグラフ表現20のような構造を構築することができる。 Next, the learning unit 123 sets the input/output connection relationship of the boosting machine (step S102). For example, learner 123 may construct a structure such as graphical representation 20 of FIGS. 4A and 4B.
 次いで、学習部123は、ブースティングマシンを追加するかを決定する(ステップS103)。例えば、この決定は、データ分析の対象のクラスに基づく。 Next, the learning unit 123 determines whether to add a boosting machine (step S103). For example, this determination is based on the class of interest for data analysis.
 学習部123がブースティングマシンを追加すると決定した場合に(ステップS103:Yes)、学習部123は、再度ステップS101を実行する。 When the learning unit 123 determines to add a boosting machine (step S103: Yes), the learning unit 123 executes step S101 again.
 学習部123がブースティングマシンを追加しないと決定した場合に(ステップS103:No)、学習部123は、各ブースティングマシンに初期勾配を設定する(ステップS104)。例えば、一様乱数が、初期勾配の設定に使われる。 When the learning unit 123 determines not to add a boosting machine (step S103: No), the learning unit 123 sets an initial gradient for each boosting machine (step S104). For example, uniform random numbers are used to set the initial gradient.
 次いで、学習部123は、各ブースティングマシンに初期識別機を追加する(ステップS105)。その結果、初期化モデルが生成される。 Next, the learning unit 123 adds an initial discriminator to each boosting machine (step S105). As a result, an initialized model is generated.
 次いで、学習部123は、推論処理を実行する(ステップS106)。初回には、学習部123は、初期化モデルを使って推論処理を実行する。2回目以降は、更新済みモデルを使って推論処理を実行する。 Next, the learning unit 123 executes inference processing (step S106). For the first time, the learning unit 123 performs inference processing using the initialization model. From the second time onwards, inference processing is executed using the updated model.
 推論処理は、図7を参照して以下で詳述される。 The inference process is detailed below with reference to FIG.
 次いで、学習部123は、学習データセットに含まれる学習データを使って、推論結果と学習ラベルの誤差を計算する(ステップS107)。 Next, the learning unit 123 uses the learning data included in the learning data set to calculate the error between the inference result and the learning label (step S107).
 次いで、学習部123は、誤差は収束しているかを判定する(ステップS108)。 Next, the learning unit 123 determines whether the error has converged (step S108).
 誤差が収束していると判定された場合に(ステップS108:Yes)、処理P100は終了する。 If it is determined that the error has converged (step S108: Yes), the process P100 ends.
 誤差が収束していないと判定された場合に(ステップS108:No)、学習部123は、逆伝搬測に基づいて、各ブースティングマシンの勾配情報を計算する(ステップS109)。 When it is determined that the error has not converged (step S108: No), the learning unit 123 calculates the gradient information of each boosting machine based on backpropagation (step S109).
 次いで、学習部123は、勾配情報に基づいて、各ブースティングマシンに識別機を追加する(ステップS110)。その結果、更新済みモデルが生成される。そして、学習部123は、更新済みモデルを使って、再度ステップS106を実行する。 Next, the learning unit 123 adds a discriminator to each boosting machine based on the gradient information (step S110). The result is an updated model. Then, the learning unit 123 executes step S106 again using the updated model.
 図7は、ブースティングマシン群を使用した推論処理の例であるステップS106を示すフローチャートである。ステップS106は、サブステップS106a、サブステップS106b、サブステップS106cおよびサブステップS106dを含む。 FIG. 7 is a flowchart showing step S106, which is an example of inference processing using the boosting machine group. Step S106 includes sub-step S106a, sub-step S106b, sub-step S106c and sub-step S106d.
 図7に示されるように、はじめに、特徴量抽出装置100の推論部124は、モデルを取得し、推論データをブースティングマシンに入力する(ステップS106a)。 As shown in FIG. 7, first, the inference unit 124 of the feature quantity extraction device 100 acquires a model and inputs the inference data to the boosting machine (step S106a).
 次いで、推論部124は、入力がそろっている未処理のブースティングマシンはあるかを判定する(ステップS106b)。 Next, the inference unit 124 determines whether there is an unprocessed boosting machine with all inputs (step S106b).
 入力がそろっている未処理のブースティングマシンはないと判定された場合に(ステップS106b:No)、ステップS106は終了する。 If it is determined that there is no unprocessed boosting machine with all inputs (step S106b: No), step S106 ends.
 入力がそろっている未処理のブースティングマシンはないと判定された場合に(ステップS106b:Yes)、推論部124は、ブースティングマシンの出力値を計算する(ステップS106c)。すなわち、推論部124は、弱い識別機の総和を計算する。 When it is determined that there is no unprocessed boosting machine with all inputs (step S106b: Yes), the inference unit 124 calculates the output value of the boosting machine (step S106c). That is, the inference unit 124 calculates the sum of weak discriminators.
 次いで、推論部124は、ブースティングマシンに後段の接続はあるかを判定する(ステップS106d)。 Next, the inference unit 124 determines whether the boosting machine has a subsequent connection (step S106d).
 ブースティングマシンに後段の接続がないと判定された場合に(ステップS106d:No)、推論部124は、推論結果を出力し、ステップS106は終了する。 When it is determined that the boosting machine does not have a subsequent connection (step S106d: No), the inference unit 124 outputs the inference result, and step S106 ends.
 ブースティングマシンに後段の接続があると判定された場合に(ステップS106d:Yes)、推論部124は、再度ステップS106aを実行する。 When it is determined that the boosting machine has a subsequent connection (step S106d: Yes), the inference unit 124 executes step S106a again.
〔6.効果〕
 上述のように、特徴量抽出装置100は、複数のブースティングマシンが並列された複数の層をカスケードする。これにより、特徴量抽出装置100は、多層のブースティングモデルを生成することができる。
[6. effect〕
As described above, the feature extraction apparatus 100 cascades multiple layers of parallel boosting machines. Thereby, the feature quantity extraction device 100 can generate a multi-layered boosting model.
 特徴量抽出装置100は、学習済みの多層のブースティングモデルの中間層から、推論性能の高い特徴量を抽出することができる。また、多層のブースティングモデルは、弱い識別器(すなわち、識別力の弱い単純なモデル)の組み合わせを、推論処理に使っている。このため、特徴量抽出装置100は、ニューラルネットワークと比較して少ない計算コストで、推論処理を行うことができる。 The feature quantity extraction device 100 can extract feature quantities with high inference performance from the middle layer of the trained multi-layer boosting model. Also, the multi-layer boosting model uses a combination of weak discriminators (ie, simple models with weak discriminative power) for inference processing. Therefore, the feature quantity extraction device 100 can perform inference processing at a lower computational cost than a neural network.
〔7.その他〕
 自動的に行われる処理として述べられた処理の一部は、手動的に行われ得る。あるいは、手動的に行われる処理として述べられた処理の全部または一部は、公知の方法で、自動的に行われ得る。さらに、本明細書や図面中で示された処理の手順、具体的名称、各種のデータやパラメータを含む情報は、特に明記しない限り、任意に変更され得る。例えば、各図に示された各種情報は、図示された情報に限られない。
[7. others〕
Some of the processes described as being performed automatically may be performed manually. Alternatively, all or part of the processes described as being performed manually may be performed automatically in known manner. Furthermore, information including processing procedures, specific names, various data and parameters shown in this specification and drawings may be arbitrarily changed unless otherwise specified. For example, various information shown in each drawing is not limited to the illustrated information.
 図示された装置の構成要素は、装置の機能を、概念的に示すものである。構成要素は、必ずしも、図面に示されたように物理的に構成されているとは限らない。言い換えると、分散または統合された装置の具体的形態は、図面に示されたシステムおよび装置の形態に限られない。装置の全部または一部は、各種の負荷や使用状況に応じて、機能的または物理的に分散または統合され得る。 The illustrated components of the device conceptually indicate the functions of the device. Components are not necessarily physically arranged as shown in the drawings. In other words, the specific form of the distributed or integrated apparatus is not limited to the form of the system and apparatus shown in the figures. All or part of the devices may be functionally or physically distributed or integrated according to various loads and usage conditions.
〔8.ハードウェア構成〕
 図8は、コンピュータのハードウェア構成の例であるコンピュータ1000を示す図である。本明細書で説明されたシステムや方法は、例えば、図8に示されたコンピュータ1000よって実装される。
[8. Hardware configuration]
FIG. 8 is a diagram showing a computer 1000 as an example of the hardware configuration of a computer. The systems and methods described herein may be implemented, for example, by computer 1000 shown in FIG.
 図8は、プログラムが実行されることにより、特徴量抽出装置100が実装されるコンピュータの一例を示している。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 8 shows an example of a computer in which the feature quantity extraction device 100 is implemented by executing a program. The computer 1000 has a memory 1010 and a CPU 1020, for example. Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090 . A disk drive interface 1040 is connected to the disk drive 1100 . A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 . Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example. Video adapter 1060 is connected to display 1130, for example.
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、特徴量抽出装置100の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、特徴量抽出装置100における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。 The hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the feature quantity extraction apparatus 100 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 . For example, the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the feature quantity extraction apparatus 100 . The hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
 ハードディスクドライブ1090は、ブースティング処理のための機械学習プログラムや、ブースティング処理のための特徴量抽出プログラムを記憶することができる。また、機械学習プログラムおよび特徴量抽出プログラムは、プログラムプロダクトとして作成され得る。プログラムプロダクトは、実行された場合に、上述したような、1つまたは複数の方法を実行する。 The hard disk drive 1090 can store a machine learning program for boosting processing and a feature extraction program for boosting processing. Also, the machine learning program and the feature quantity extraction program can be created as program products. The program product, when executed, performs one or more methods, such as those described above.
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。 Also, the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program modules 1093 and program data 1094 may be stored in other computers connected through a network (LAN, WAN, etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
〔9.実施形態のまとめ〕
 上述のように、本開示に係る特徴量抽出装置100は、取得部122および学習部123を含む。少なくとも1つの実施形態では、取得部122は、直列に接続された複数の層を有する多層モデルを取得する。各層は、複数のブースティングマシンを含む。少なくとも1つの実施形態では、学習部123は、取得部122によって取得された多層モデルを機械学習モデルとして使用して、この多層モデルの入力層または中間層のうちの少なくとも1つが与えられたデータから特徴量を抽出するように、機械学習を実行する。
[9. Summary of Embodiments]
As described above, the feature quantity extraction device 100 according to the present disclosure includes the acquisition unit 122 and the learning unit 123. In at least one embodiment, the acquisition unit 122 acquires a multi-layer model having multiple layers connected in series. Each layer contains multiple boosting machines. In at least one embodiment, the learning unit 123 uses the multi-layered model obtained by the obtaining unit 122 as a machine learning model such that at least one of the input layer or the intermediate layer of the multi-layered model is Execute machine learning to extract features.
 いくつかの実施形態では、学習部123は、機械学習の実行として、多層モデルの出力層に含まれる複数のブースティングマシンの勾配に関する情報を、多層モデルの出力層から多層モデルの入力層へと伝播させることによって、多層モデルを更新する。 In some embodiments, the learning unit 123 transfers information about gradients of multiple boosting machines included in the output layer of the multi-layer model from the output layer of the multi-layer model to the input layer of the multi-layer model as machine learning is performed. Update multi-tier models by propagating.
 いくつかの実施形態では、学習部123は、機械学習の実行として、各ブースティングマシンに、初期出力値を設定し、設定された複数の初期出力値に基づいて、各ブースティングマシンに、初期識別器を追加する。 In some embodiments, the learning unit 123 sets an initial output value for each boosting machine as execution of machine learning, and based on the set multiple initial output values, sets an initial output value for each boosting machine. Add a discriminator.
 上述のように、本開示に係る特徴量抽出装置100は、推論部124を含む。少なくとも1つの実施形態では、推論部124は、直列に接続された複数の層を有する学習済みの多層モデルを取得する。各層は、複数のブースティングマシンを含む。推論部124は、データから特徴を、このデータを学習済みの多層モデルに適用することによって抽出する。 As described above, the feature quantity extraction device 100 according to the present disclosure includes the inference unit 124. In at least one embodiment, the reasoner 124 obtains a trained multi-layer model having multiple layers connected in series. Each layer contains multiple boosting machines. The inference unit 124 extracts features from the data by applying this data to a trained multi-layer model.
 様々な実施形態を、図面を参照して、本明細書で詳細に説明したが、これらの複数の実施形態は例であり、本発明をこれらの複数の実施形態に限定することを意図するものではない。本明細書に記載された特徴は、当業者の知識に基づく様々な変形や改良を含む、様々な方法によって実現され得る。 While various embodiments have been described in detail herein with reference to the drawings, these embodiments are examples and are intended to limit the invention to these embodiments. isn't it. The features described herein can be implemented in various ways, including various modifications and improvements based on the knowledge of those skilled in the art.
 また、上述した「部(module、-er接尾辞、-or接尾辞)」は、ユニット、手段、回路などに読み替えることができる。例えば、通信部(communication module)、制御部(control module)および記憶部(storage module)は、それぞれ、通信ユニット、制御ユニットおよび記憶ユニットに読み替えることができる。 Also, the above "parts (module, -er suffix, -or suffix)" can be read as units, means, circuits, etc. For example, a communication module, a control module, and a storage module can be read as a communication unit, a control unit, and a storage unit, respectively.
   1 環境
 100 特徴量抽出装置
 110 通信部
 120 制御部
 121 受信部
 122 取得部
 123 学習部
 124 推論部
 125 提供部
 130 記憶部
 200 ネットワーク
 300 ユーザ装置
1 environment 100 feature extraction device 110 communication unit 120 control unit 121 reception unit 122 acquisition unit 123 learning unit 124 inference unit 125 provision unit 130 storage unit 200 network 300 user device

Claims (8)

  1.  直列に接続された複数の層を有する多層モデルであって、各層が、複数のブースティングマシンを含む多層モデルを取得する取得部と、
     前記多層モデルを機械学習モデルとして使用して、前記多層モデルの入力層又は中間層のうちの少なくとも1つが与えられたデータから特徴量を抽出するように、機械学習を実行する機械学習実行部と
     を備える機械学習装置。
    a multi-layer model having multiple layers connected in series, each layer including multiple boosting machines;
    a machine learning execution unit that performs machine learning using the multi-layer model as a machine learning model so that at least one of an input layer or an intermediate layer of the multi-layer model extracts features from given data; A machine learning device with
  2.  前記機械学習実行部は、前記機械学習の実行として、前記多層モデルの出力層に含まれる複数のブースティングマシンの勾配に関する情報を、前記多層モデルの出力層から前記多層モデルの入力層へと伝播させることによって、前記多層モデルを更新する
     請求項1に記載の機械学習装置。
    The machine learning execution unit propagates information about gradients of a plurality of boosting machines included in the output layer of the multilayer model from the output layer of the multilayer model to the input layer of the multilayer model as the execution of the machine learning. The machine learning device according to claim 1, wherein the multi-layer model is updated by causing
  3.  前記機械学習実行部は、前記機械学習の実行として、各ブースティングマシンに、初期出力値を設定し、設定された複数の初期出力値に基づいて、各ブースティングマシンに、初期識別器を追加する
     請求項1又は2に記載の機械学習装置。
    The machine learning execution unit sets an initial output value to each boosting machine to perform the machine learning, and adds an initial classifier to each boosting machine based on the set multiple initial output values. The machine learning device according to claim 1 or 2.
  4.  直列に接続された複数の層を有する学習済みの多層モデルであって、各層が、複数のブースティングマシンを含む学習済みの多層モデルを取得する取得部と、
     データから特徴量を、前記データを前記学習済みの多層モデルに適用することによって抽出する抽出部と
     を備える特徴量抽出装置。
    a trained multi-layer model having multiple layers connected in series, each layer including multiple boosting machines;
    An extraction unit that extracts a feature amount from data by applying the data to the trained multi-layer model.
  5.  コンピュータが実行する機械学習方法であって、
     直列に接続された複数の層を有する多層モデルであって、各層が、複数のブースティングマシンを含む多層モデルを取得する取得部と、
     前記多層モデルを機械学習モデルとして使用して、前記多層モデルの入力層又は中間層のうちの少なくとも1つが与えられたデータから特徴量を抽出するように、機械学習を実行する機械学習実行部と
     を含む機械学習方法。
    A computer implemented machine learning method comprising:
    a multi-layer model having multiple layers connected in series, each layer including multiple boosting machines;
    a machine learning execution unit that performs machine learning using the multi-layer model as a machine learning model so that at least one of an input layer or an intermediate layer of the multi-layer model extracts features from given data; Machine learning methods, including
  6.  コンピュータが実行する特徴量抽出方法であって、
     直列に接続された複数の層を有する学習済みの多層モデルであって、各層が、複数のブースティングマシンを含む学習済みの多層モデルを取得する取得工程と、
     データから特徴量を、前記データを前記学習済みの多層モデルに適用することによって抽出する抽出工程と
     を含む特徴量抽出方法。
    A computer-executed feature extraction method comprising:
    obtaining a trained multi-layer model having multiple layers connected in series, each layer including multiple boosting machines;
    An extraction step of extracting a feature from data by applying the data to the trained multi-layer model.
  7.  コンピュータを、請求項1~3のうちいずれか1つに記載の機械学習装置として機能させるための機械学習プログラム。 A machine learning program for causing a computer to function as the machine learning device according to any one of claims 1 to 3.
  8.  直列に接続された複数の層を有する学習済みの多層モデルであって、各層が、複数のブースティングマシンを含む学習済みの多層モデルを取得する取得手順と、
     データから特徴量を、前記データを前記学習済みの多層モデルに適用することによって抽出する抽出手順と
     をコンピュータに実行させる特徴量抽出プログラム。
    a trained multi-layer model having multiple layers connected in series, each layer including multiple boosting machines;
    A feature quantity extraction program for causing a computer to execute an extraction procedure for extracting a feature quantity from data by applying said data to said trained multi-layer model.
PCT/JP2021/037975 2021-10-13 2021-10-13 Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program WO2023062763A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/037975 WO2023062763A1 (en) 2021-10-13 2021-10-13 Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/037975 WO2023062763A1 (en) 2021-10-13 2021-10-13 Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program

Publications (1)

Publication Number Publication Date
WO2023062763A1 true WO2023062763A1 (en) 2023-04-20

Family

ID=85987647

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/037975 WO2023062763A1 (en) 2021-10-13 2021-10-13 Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program

Country Status (1)

Country Link
WO (1) WO2023062763A1 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SARKHAN BADIRLI; XUANQING LIU; ZHENGMING XING; AVRADEEP BHOWMIK; KHOA DOAN; SATHIYA S. KEERTHI: "Gradient Boosting Neural Networks: GrowNet", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 June 2020 (2020-06-15), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081686373 *
TANNOR PHILIP, ROKACH LIOR: "AugBoost: Gradient Boosting Enhanced with Step-Wise Feature Augmentation", PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, INTERNATIONAL JOINT CONFERENCES ON ARTIFICIAL INTELLIGENCE ORGANIZATION, CALIFORNIA, 1 August 2019 (2019-08-01) - 16 August 2019 (2019-08-16), California , pages 3555 - 3561, XP093057400, ISBN: 978-0-9992411-4-1, DOI: 10.24963/ijcai.2019/493 *

Similar Documents

Publication Publication Date Title
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
Scardapane et al. Distributed learning for random vector functional-link networks
EP3340129B1 (en) Artificial neural network class-based pruning
US20200097810A1 (en) Automated window based feature generation for time-series forecasting and anomaly detection
JP2023060820A (en) Deep Neural Network Optimization System for Machine Learning Model Scaling
JP6610278B2 (en) Machine learning apparatus, machine learning method, and machine learning program
US20200401891A1 (en) Methods and apparatus for hardware-aware machine learning model training
US20220147877A1 (en) System and method for automatic building of learning machines using learning machines
US20180129930A1 (en) Learning method based on deep learning model having non-consecutive stochastic neuron and knowledge transfer, and system thereof
CN103235974A (en) Method for improving processing efficiency of massive spatial data
WO2022105108A1 (en) Network data classification method, apparatus, and device, and readable storage medium
US11010514B2 (en) Grouping of Pauli strings using entangled measurements
WO2021030899A1 (en) Automated image retrieval with graph neural network
Abd Elrahman et al. D-smartml: A distributed automated machine learning framework
WO2019180314A1 (en) Artificial neural networks
WO2023062763A1 (en) Machine learning device, feature extraction device, machine learning method, feature extraction method, machine learning program, and feature extraction program
JP6662754B2 (en) L1 graph calculation device, L1 graph calculation method, and L1 graph calculation program
WO2018087814A1 (en) Multi-task relationship learning system, method, and program
Zerrouk et al. Evolutionary algorithm for optimized CNN architecture search applied to real-time boat detection in aerial images
CN115544307A (en) Directed graph data feature extraction and expression method and system based on incidence matrix
Ram et al. Scalable hyperparameter optimization with lazy Gaussian processes
CN111027709B (en) Information recommendation method and device, server and storage medium
WO2020040007A1 (en) Learning device, learning method, and learning program
Lee et al. Development of a simulation result management and prediction system using machine learning techniques
Martinovic et al. Effective clustering algorithm for high-dimensional sparse data based on SOM

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960621

Country of ref document: EP

Kind code of ref document: A1