WO2018163790A1 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- WO2018163790A1 WO2018163790A1 PCT/JP2018/005828 JP2018005828W WO2018163790A1 WO 2018163790 A1 WO2018163790 A1 WO 2018163790A1 JP 2018005828 W JP2018005828 W JP 2018005828W WO 2018163790 A1 WO2018163790 A1 WO 2018163790A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- layer
- convolution
- binary
- map
- kernel
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
Definitions
- the present technology relates to an information processing apparatus, and more particularly, to an information processing apparatus that can reduce the amount of calculation and the number of parameters of a neural network, for example.
- a detection device that detects whether or not a predetermined object appears in an image by using a difference between pixel values of two pixels of pixels constituting the image (see, for example, Patent Document 1).
- an estimated value indicating whether or not a predetermined object appears in the image is obtained according to the difference between the pixel values of the two pixels of the image. Then, weighted addition of the estimated values of each of the plurality of weak classifiers is performed, and it is determined whether or not a predetermined object appears in the image according to the weighted addition value obtained as a result.
- the weak classifier and the learning of the weight used for weighted addition are performed by boosting such as AdaBoost.
- CNN Convolutional Neural Network
- NN Neurological Network
- the number of NN parameters increases and the amount of calculation also increases.
- the present technology has been made in view of such a situation, and is intended to reduce the amount of calculation and the number of parameters of the NN.
- the first information processing apparatus of the present technology constitutes a layer of a neural network, performs a binary operation using two values of layer input data input to the layer, and obtains the result of the binary operation as follows: An information processing apparatus that outputs as layer output data output from the layer.
- a layer of a neural network is configured, and a binary operation using binary values of layer input data input to the layer is performed, and the binary The result of the operation is output as layer output data output from the layer.
- the second information processing apparatus of the present technology performs a binary operation using two values of the layer input data input to the layer, and outputs the result of the binary operation as layer output data output from the layer It is an information processing apparatus provided with the production
- a binary operation is performed using two values of the layer input data input to the layer, and the result of the binary operation is output from the layer.
- a neural network including a binary calculation layer that is the layer to be output as output data is generated.
- the first and second information processing apparatuses can be realized by causing a computer to execute a program.
- a program can be distributed by being transmitted via a transmission medium or by being recorded on a recording medium.
- This technology can reduce the amount of NN calculations and the number of parameters.
- FIG. 3 is a block diagram illustrating a hardware configuration example of a PC (Personal Computer) that functions as an NN to which the present technology is applied.
- 2 is a block diagram illustrating a first configuration example of an NN realized by a PC 10.
- FIG. 6 is a diagram illustrating an example of a process of convolution of a convolution layer 104.
- It is a block diagram which shows the 2nd structural example of NN implement
- FIG. 1 is a block diagram illustrating a hardware configuration example of a PC (Personal Computer) functioning as an NN to which the present technology is applied.
- PC Personal Computer
- the PC 10 may be a stand-alone computer, or a server or client of a server client system.
- the PC 10 includes a CPU (Central Processing Unit) 12, and an input / output interface 20 is connected to the CPU 12 via the bus 11.
- CPU Central Processing Unit
- the CPU 12 executes a program stored in a ROM (Read Only Memory) 13 when a command is input by operating the input unit 17 by a user or the like via the input / output interface 20. To do. Alternatively, the CPU 12 loads a program stored in the hard disk 15 to a RAM (Random Access Memory) 14 and executes it.
- ROM Read Only Memory
- RAM Random Access Memory
- the CPU 12 performs various processes and causes the PC 10 to function as a device having a predetermined function. Then, the CPU 12 outputs the processing results of various processes as necessary, for example, via the input / output interface 20, output from the output unit 16, or transmitted from the communication unit 18, and further recorded on the hard disk 15.
- the input unit 17 includes a keyboard, a mouse, a microphone, and the like.
- the output unit 16 includes an LCD (Liquid Crystal Display), a speaker, and the like.
- the program executed by the CPU 12 can be recorded in advance on a hard disk 15 or a ROM 13 as a recording medium built in the PC 10.
- the program can be stored (recorded) in the removable recording medium 21.
- a removable recording medium 21 can be provided as so-called package software.
- examples of the removable recording medium 21 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
- the program can be downloaded from the removable recording medium 21 as described above to the PC 10, downloaded to the PC 10 via a communication network or a broadcast network, and installed in the built-in hard disk 15. That is, for example, the program is wirelessly transferred from the download site to the PC 10 via a digital satellite broadcasting artificial satellite, or to the PC 10 via a network such as a LAN (Local Area Network) or the Internet. be able to.
- a network such as a LAN (Local Area Network) or the Internet.
- the CPU 12 causes the PC 10 to function as a device having a predetermined function by executing a program.
- the CPU 12 causes the PC 10 to function as an information processing apparatus that performs processing of NNs (each layer constituting the NN) and generation of NNs.
- the PC 10 functions as an NN or an NN generation device that generates an NN.
- each layer of the NN can be configured by general-purpose hardware such as the CPU 12 or GPU, or by dedicated hardware. In this case, for example, binary calculations and other calculations described later performed in each layer of the NN are performed by dedicated hardware that configures the layers.
- the input data to the NN is an image (still image) that is two-dimensional data of one channel or more is described as an example for the NN realized by the PC 10. Do.
- a predetermined target can be detected (recognized) at high speed from the image, or pixel level labeling (semantic segmentation) can be performed.
- two-dimensional data such as images, one-dimensional data, two-dimensional data, and other four-dimensional or higher-dimensional data can be used.
- FIG. 2 is a block diagram showing a first configuration example of the NN realized by the PC 10.
- NN 100 is a CNN, and includes an input layer 101, NN 102, a hidden layer 103, a convolution layer 104, a hidden layer 105, NN 106, and an output layer 107.
- the NN is configured by appropriately combining a plurality of layers (units corresponding to neurons) including an input layer and an output layer.
- the layer on the input layer side is also referred to as a lower layer
- the layer on the output layer side is also referred to as an upper layer as viewed from a certain target layer.
- the propagation of information (data) from the input layer side to the output layer side is also referred to as forward propagation, and the propagation of information from the output layer side to the input layer side is also referred to as reverse propagation.
- the input layer 101 is supplied with, for example, three-channel images of R, G, and B as input data for the NN 100.
- the input layer 101 stores input data for the NN 100 and supplies it to the upper layer NN 102.
- NN102 is an NN as a subset of NN100, and is composed of one or more layers (not shown).
- the NN 102 as a subset can include hidden layers 103 and 105, a convolutional layer 104, and other layers similar to those described later.
- each layer (unit) of the NN 102 for example, a weighted addition value (including addition of a so-called bias term if necessary) of data from a lower layer immediately before that layer is calculated, and the weighted addition value is used as an argument.
- a weighted addition value including addition of a so-called bias term if necessary
- an activation function such as a normalized linear function is calculated.
- the calculation result of the activation function is stored and output to the immediately higher layer.
- a connection weight for connecting layers (between units) is used for the weighted addition value.
- the two-dimensional image output by the layers from the input layer 101 to the output layer 107 is called a map.
- the hidden layer 103 stores a map as data from the uppermost layer side of the NN 102 and outputs the map to the convolution layer 104.
- the hidden layer 103 for example, similarly to the layer of the NN 102, obtains the calculation result of the activation function using the weighted addition value of the data from the uppermost layer side of the NN 102 as an argument, and stores it as a map. Output to the convolutional layer 104.
- the map stored in the hidden layer 103 is also referred to as an input map. If the data input to the NN layer is referred to as layer input data, the input map stored in the hidden layer 103 is layer input data for the convolutional layer 103. If the data output from the NN layer is referred to as layer output data, the input map stored in the hidden layer 103 is also layer output data of the hidden layer 103.
- the input map stored in the hidden layer 103 is, for example, 32 ⁇ 32 (pixels) in length ⁇ width and has 64 channels.
- the convolution layer 104 applies a convolution kernel to the (64, 32, 32) input map from the hidden layer 103, and performs convolution for the (64, 32, 32) input map.
- the convolution kernel is a filter that performs convolution.
- the convolution kernel of the convolution layer 104 is configured, for example, in a size of 3 ⁇ 3 ⁇ 64 in length ⁇ width ⁇ channel.
- the size of the convolution kernel is less than or equal to the size of the input map, and the number of channels (size in the channel direction) of the convolution kernel is the same as the number of channels in the input map.
- a convolution kernel having a size of vertical ⁇ horizontal ⁇ channel of a ⁇ b ⁇ c is also referred to as a convolution kernel of a ⁇ b ⁇ c or an a ⁇ b convolution kernel ignoring a channel.
- the convolution performed by applying the a ⁇ b ⁇ c convolution kernel is also referred to as a ⁇ b ⁇ c convolution or a ⁇ b convolution.
- the convolution layer 104 performs 3 ⁇ 3 convolution of the input map by sliding and applying a 3 ⁇ 3 ⁇ 64 convolution kernel to the input map of (64, 32, 32).
- pixels (groups) at the same position (spatially) in all channels in the input map (64, 32, 32) are sequentially set as the pixel of interest (group), ( 64, 32, 32) in the input map, a predetermined position based on the target pixel, that is, for example, a rectangular parallelepiped range of 3 ⁇ 3 ⁇ 64 vertical ⁇ horizontal ⁇ channel centered on the position of the target pixel (The same (size) range as the vertical ⁇ horizontal ⁇ channel of the convolution kernel) is set as a convolution processing target.
- each 3 ⁇ 3 ⁇ 64 data (pixel value) within the processing target of convolution and the filter coefficient of the filter as a 3 ⁇ 3 ⁇ 64 convolution kernel The product-sum operation is performed, and the result of the product-sum operation is obtained as the convolution result for the pixel of interest.
- the convolution layer 104 a pixel that has not yet been set as the target pixel is newly set as the target pixel, and the same processing is repeated, so that the convolution kernel is slid according to the setting of the target pixel. While applied to the input map.
- a map as an image having a pixel value as a result of convolution in the convolution layer 104 is also referred to as a convolution map.
- the vertical ⁇ horizontal size of the convolution map is 32 ⁇ 32 (pixels), which is the same as the vertical ⁇ horizontal size of the input map.
- the vertical x horizontal of the convolution map Is smaller than the vertical x horizontal size of the input map. In this case, pooling can be performed.
- the convolution layer 104 has the same type of convolution kernel as the number of channels in the convolution map stored in the hidden layer 105, which is an upper layer immediately after the convolution layer 104.
- the hidden layer 105 stores (128, 32, 32) convolution maps (vertical x horizontal 32 ⁇ 32, 128-channel convolution maps).
- the convolution layer 104 has 128 types of 3 ⁇ 3 ⁇ 64 convolution kernels.
- the convolution layer 104 obtains a convolution map of (128, 32, 32) by applying each of 128 kinds of 3 ⁇ 3 ⁇ 64 convolution kernels to the input map of (64, 32, 32), Output as layer output data of the convolutional layer 104.
- the convolution layer 104 can output, as layer output data, the result of the activation function obtained by calculating the convolution result obtained by applying the convolution kernel to the input map as an argument.
- the hidden layer 105 stores the (128, 32, 32) convolution map from the convolution layer 104 and outputs it to the NN 106.
- the hidden layer 105 obtains the calculation result of the activation function using, for example, the weighted addition value of the data constituting the (128, 32, 32) convolution map from the convolution layer 104, and is configured by the calculation result.
- the map to be stored is stored and output to the NN 106.
- the NN 106 is a NN as a subset of the NN 100, and is composed of one or more layers, like the NN 102. Similar to the NN 102, the NN 106 as a subset can include hidden layers 103 and 105, a convolutional layer 104, and other layers similar to those described later.
- each layer of the NN 106 for example, similarly to the NN 102, a weighted addition value of data from a lower layer immediately before the layer is calculated, and an activation function is calculated using the weighted addition value as an argument. In each layer, the calculation result of the activation function is stored and output to the immediately higher layer.
- the output layer 107 calculates, for example, a weighted addition value of data from the lower layer, and calculates an activation function using the weighted addition value as an argument. Then, the output layer 107 outputs, for example, the calculation result of the activation function as output data of the NN 100.
- the above processing of the input layer 101 to the output layer 107 is a process at the time of forward propagation for detecting an object or the like. However, at the time of back propagation for learning, the input layer 101 to the output layer 107 has a previous lower layer.
- the error information related to the error of the output data that propagates backward is obtained using the error information from the immediately higher layer, and is propagated back to the immediately lower layer. Further, in the input layer 101 to the output layer 107, the connection weight and the filter coefficient of the convolution kernel are updated using the error information from the upper layer as necessary.
- FIG. 3 is a diagram for explaining an example of the convolution process of the convolution layer 104.
- the layer input data and layer output data for the layer of NN are represented as x and y, respectively.
- the layer input data and the layer output data are an input map and a convolution map, respectively.
- a map (input map) x as layer input data x for the convolution layer 104 is a map of (c (in), M, N), that is, c (in) whose vertical ⁇ horizontal is M ⁇ N. It is an image of the channel.
- map x (c) as a predetermined position, for example, the vertical and horizontal positions with the upper left position of the map x (c) as a reference (origin, etc.) are represented by i and j, respectively.
- Data (pixel value) at the position (i, j) of the map x (c ) is represented as x ij (c) .
- the map (convolution map) y as the layer output data y output from the convolutional layer 104 is a map of (k (out), M, N), that is, the k (out) channel of vertical ⁇ horizontal is M ⁇ N. It is an image.
- map y (k) for example, the vertical and horizontal positions with reference to the upper left position of the map y (k) are represented by i and j, respectively, and the map y (k ) Data (pixel value) at position (i, j ) is represented as y ij (k) .
- the k + 1-th convolution kernel F that is, the convolution kernel F used to generate the map y (k) of channel #k is defined as F (k) It expresses.
- the convolution kernel F (k) is the c (in) channel convolution applied to the c (in) channel map x (0) , x (1) , ..., x (c (in) -1) respectively. It consists of kernels F (k, 0) , F (k, 1) , ..., F (k, c (in) -1) .
- the m ⁇ n ⁇ c (in) convolution kernel F (k) is applied to the map x of (c (in), M, N) while sliding, so that m of the map x Xn convolution is performed, and a map y (k) of channel #k is generated as a result of the convolution.
- Map position y (k) (i, j ) data y ij (k) of, m ⁇ n ⁇ c convolution kernel F of (in) (k) is, for example, the position of the pixel of interest map x (c) This is a convolution result when a vertical ⁇ horizontal ⁇ channel direction centered at (i, j) is applied to a range of m ⁇ n ⁇ c (in).
- the m ⁇ n convolution kernel F (k) and the m ⁇ n convolution kernel F (k) to which the map x to which the m ⁇ n convolution kernel F (k) is applied have a height ⁇ width of m ⁇
- the vertical and horizontal positions with respect to the upper left position of the m ⁇ n range as the predetermined positions are represented by s and t, respectively.
- s and t respectively.
- the convolution kernel F (k) of m ⁇ n ⁇ c (in) is vertical ⁇ horizontal ⁇ channel direction is m ⁇ n ⁇ c centered on the position (i, j) of the pixel of interest in the map x (c)
- the convolution kernel F (k) protrudes outside the map x, and the convolution kernel It occurs that there is no data of map x to which F (k) is applied.
- the convolution kernel F has convolution kernels F (0) , F (1) , and F (2) that are used to generate y (0) , y (1) , and y (2) .
- the convolution kernel F (k) is the convolution kernel F (k, 0) , F (k, 1) applied to the map x (0) , x (1) , x (2) of channel # 0,1,2 , F (k, 2) .
- the forward propagation for obtaining the map y by applying the convolution kernel F to the map x is expressed by Expression (1).
- E represents an error (representing an error function) of output data of NN (here, NN100, for example).
- ⁇ E / ⁇ w st (k, c) in equation (2) is an error (E) for updating the filter coefficient w st (k, c) of the convolution kernel F (k, c) by the gradient descent method.
- the slope of, at the time of learning of the NN100, the filter coefficients w st (k, c) of the convolution kernel F (k, c) is the error gradient ⁇ E / ⁇ w st (k in equation (2), c ) To update.
- Equation (3) is error information that propagates back to the lower layer immediately before the convolutional layer 104 during learning of the NN 100.
- the layer output data y ij (k) of the convolution layer 104 becomes the layer input data x ij (c) of the hidden layer 105, which is an upper layer immediately after the convolution layer 104.
- Equation (2) represents the partial differentiation of the error E in the layer output data y ij (k) of the convolutional layer 104, but is obtained in the hidden layer 105.
- the error information is equal to E / Ex ij (c) and is propagated back from the hidden layer 105 to the convolutional layer 104.
- ⁇ E / ⁇ w st (k, c) in the equation (2) is obtained from the error information ⁇ E / ⁇ y ij (k) (obtained in the hidden layer 105 ) from the hidden layer 105 which is an upper layer. ⁇ E / ⁇ x ij (c) ).
- Equation (3) the error information ⁇ E / ⁇ x ij (c) is obtained by substituting the error information ⁇ E / ⁇ y (i + ps) (j + qt) (k) from the hidden layer 105 as the upper layer. It is calculated using.
- CNNs have been proposed in which a 1 ⁇ 1 convolution and a 3 ⁇ 3 convolution layer are stacked in multiple layers.
- AlexNet, GoogleNet, VGG, ResNet, etc. are known as CNNs that have learned using an ImageNet data set.
- a filter of the convolution kernel F (k) of m ⁇ n ⁇ c (in ) that is, the convolution kernel F (k) having a thickness corresponding to the number of channels c (in) of the map x.
- the coefficient w st (k, c) is learned.
- the convolution layer, the bond between the map x and map y (k) is for one data y ij map y (k) (k), maps x of m ⁇ n ⁇ c (in) pieces of data All x ij (c) are combined using m ⁇ n ⁇ c (in) filter coefficients w st (k, c) of the convolution kernel F (k ) as the connection weight, so to speak, a dense combination It has become.
- the term such as the filter coefficients w st (k, c) is reduced, including the error function E, the convolution kernel F (k) (filter coefficients w st (k, c)) is performed learning,
- the bond between the map y (k) and x is so thin.
- the filter coefficient w st (k, c) as the connection weight between the data x ij (c) that does not have (almost) information to be extracted by the convolution kernel F (k) and the data y ij (k ) is zero.
- the data x ij (c) combined with one piece of data y ij (k) becomes sparse, becoming a small value close to each other.
- the binary calculation layer performs a binary calculation using two of the layer input data input to the binary calculation layer, and outputs the binary calculation result from the binary calculation layer. Output as data.
- the binary calculation layer has the same processing target as the convolution calculation, and there is an effect of regularization by using a kernel with a small number of learning target parameters, and avoids overlearning by suppressing the number of parameters larger than necessary. In addition, performance improvement can be expected.
- NN For NN, many examples have been reported in which a layer having a new mathematical characteristic is defined, and learning is performed with a network configuration NN including the layer, so that performance such as recognition is improved. For example, in a layer called Batch Normalization of Google, it is possible to stably learn deep NNs (NNs with a large number of layers) by normalizing the average and variance of the input and propagating them to the subsequent stage (upper layer) It is possible.
- an arbitrary A ⁇ B (> 1) convolution such as a 3 ⁇ 3 convolution can be approximated using a binary operation layer.
- the A ⁇ B (> 1) convolution can be approximated by, for example, a 1 ⁇ 1 convolution and a binary operation.
- FIG. 5 is a diagram for explaining A ⁇ B (> 1) convolution.
- map x (c) is assumed to be a 3 ⁇ 3 map for the sake of simplicity.
- the upper left filter coefficient is +1 and the lower right filter coefficient is ⁇ 1 by learning.
- the other filter coefficients are (almost) zero.
- a convolution kernel F (k, c) having the above filter coefficients is obtained by learning.
- the upper left data in the range of the map x (c) to which the convolution kernel F (k, c) is applied is A # c
- the lower right data is B # c.
- FIG. 6 is a diagram for explaining 1 ⁇ 1 convolution.
- FIG. 6 shows that the 3 channel convolution kernels F (k, 0) , F (k, 1) , F (k, 2) , and the convolution kernel F (k, c) are applied.
- An example of k) is shown.
- the map x (c) is configured in the same manner as in FIG.
- the map y (k) is a 3 ⁇ 3 map, similar to the map x (c) .
- a convolution kernel F (k, c) that performs 1 ⁇ 1 convolution has one filter coefficient w 00 (k, c) .
- the subject map y (k) obtained 1 ⁇ 1 the convolution result, and the map y (k) of the upper left data y 00 (k), the difference between the data y 22 in the lower right (k)
- the binary operation y 00 (k) ⁇ y 22 (k) (A0 + A1 + A2) ⁇ (B0 + B1 + B2)
- the 3 ⁇ 3 convolution kernel F (k, c ) in FIG. )
- the A ⁇ B (> 1) convolution can be approximated by a 1 ⁇ 1 convolution and a binary operation.
- the product is calculated using one filter coefficient as a parameter.
- a binary operation for obtaining a binary difference a product-sum operation using +1 and ⁇ 1 as filter coefficients, that is, a product-sum operation using two filter coefficients is performed.
- the number of filter coefficients as the number of parameters and the amount of calculation can be reduced as compared with the convolution of A ⁇ B (> 1).
- FIG. 7 is a block diagram showing a second configuration example of the NN realized by the PC 10.
- NN 110 is an NN including a binary operation layer 112, and includes an input layer 101, NN 102, a hidden layer 103, a hidden layer 105, NN 106, an output layer 107, a convolution layer 111, and a binary operation layer 112. .
- the NN 110 is common to the NN 100 in FIG. 2 in that the NN 110 includes the input layer 101, the NN 102, the hidden layer 103, the hidden layer 105, the NN 106, and the output layer 107.
- the NN 110 is different from the NN 100 in FIG. 2 in that it has a convolution layer 111 and a binary operation layer 112 instead of the convolution layer 104.
- the convolution layer 111 and the binary operation layer 112 can perform processing for approximating the 3 ⁇ 3 convolution performed in the convolution layer 104 of FIG.
- the convolutional layer 111 is supplied with (64, 32, 32) maps from the hidden layer 103 as layer input data.
- the convolution layer 111 applies a convolution kernel to the (64,32,32) map as the layer input data from the hidden layer 103, and the (64,32, Perform convolution for the map in 32).
- the convolution layer 104 in FIG. 2 performs 3 ⁇ 3 convolution using a 3 ⁇ 3 convolution kernel
- the convolution layer 111 has more filter coefficients than the 3 ⁇ 3 convolution kernel of the convolution layer 104.
- a 1 ⁇ 1 convolution is performed using a 1 ⁇ 1 convolution kernel.
- the convolution layer 111 by applying a 1 ⁇ 1 ⁇ 64 convolution kernel to the (64, 32, 32) map as layer input data while sliding, (64, 32, 32) Perform a 1x1 convolution of the map.
- pixels at the same position in all channels in the map of (64, 32, 32) as layer input data are sequentially set as the target pixel, (64, 32, 32) in a predetermined position relative to the target pixel, that is, for example, a rectangular parallelepiped range (vertical ⁇ horizontal ⁇ channel 1 ⁇ 1 ⁇ 64) centered on the position of the target pixel (vertical of the convolution kernel) (The same range as x horizontal x channel) is set as a convolution processing target.
- each 1 ⁇ 1 ⁇ 64 data (pixel value) within the convolution processing target and the filter coefficient of the filter as a 1 ⁇ 1 ⁇ 64 convolution kernel Product-sum operation is performed, and the result of the product-sum operation is obtained as the result of convolution of the pixel of interest.
- the convolution layer 111 a pixel that has not yet been set as the pixel of interest is newly set as the pixel of interest, and the same processing is repeated, whereby the convolution kernel is slid according to the setting of the pixel of interest. However, it is applied to the map as layer input data.
- the convolution layer 111 has only 128 types of 1 ⁇ 1 ⁇ 64 convolution kernels, for example, similar to the convolution layer 104 in FIG. 2, and 128 types for the (64, 32, 32) map.
- a map (convolution map) of (128, 32, 32) is obtained and output as layer output data of the convolution layer 104.
- the calculation result of the activation function obtained by calculating the convolution result obtained by applying the convolution kernel as an argument can be output as the layer output data.
- the binary calculation layer 112 sequentially sets pixels at the same position in all channels in the map (128, 32, 32) output from the convolution layer 111 as the target pixel, and (128, 32, 32).
- a predetermined position with reference to the pixel of interest that is, for example, a rectangular parallelepiped range of vertical ⁇ horizontal ⁇ channel A ⁇ B ⁇ C centered on the position of the pixel of interest Set the target.
- the vertical x horizontal size of the rectangular parallelepiped range as the processing target of the binary calculation for example, the vertical x horizontal of the convolution kernel of the convolution layer 104 approximated using the binary calculation layer 112 (convolution The same size as the processing target (vertical ⁇ horizontal), that is, 3 ⁇ 3 can be adopted here.
- the size in the channel direction of the rectangular parallelepiped range as the processing target of the binary calculation is the number of layers of the layer input data for the binary calculation layer 112, that is, the convolution layer 111 here outputs (128, 32, 128, which is the number of channels in the map of 32), is adopted.
- the binary calculation processing target for the target pixel is, for example, a rectangular parallelepiped of (128,32,32) map, for example, vertical ⁇ horizontal ⁇ channel 3 ⁇ 3 ⁇ 128 centered on the position of the target pixel. It is a range.
- the binary operation layer 112 uses the two data in the processing target set for the pixel of interest in the (128, 32, 32) map (convolution map) from the convolution layer 111 to obtain a binary value. The calculation is performed, and the result of the binary calculation is output to the upper hidden layer 105 as layer output data.
- the difference calculation for obtaining the difference between the two pieces of data d1 and d2 as a binary calculation is a kernel having the same size as the processing target of the binary calculation and having a length ⁇ width ⁇ channel of 3 ⁇ 3 ⁇ 128, and data d1 Applying a kernel having only two filter coefficients with a filter coefficient of +1 applied to +1 and a filter coefficient of -1 applied to data d2 to a binary operation target, + 1 ⁇ d1 + ( ⁇ 1) ⁇ d2).
- a kernel (filter) used by the binary calculation layer 112 to perform a binary calculation is also referred to as a binary calculation kernel.
- the binary operation kernel is regarded as a kernel having two filter coefficients, in which the filter coefficient applied to the data d1 is +1 and the filter coefficient applied to the data d2 is -1.
- a kernel of 3 ⁇ 3 ⁇ 128 with the same size as the processing target of the binary operation and 3 ⁇ 3 ⁇ 128 channels, and the filter coefficients applied to the data d1 and d2 are +1 and ⁇ 1, respectively.
- It can also be regarded as a kernel having a filter coefficient of the same size as that of a binary calculation processing target with a filter coefficient of 0 applied to other data.
- the binary calculation layer 112 corresponds to the map of (128, 32, 32) as the layer input data from the convolution layer 111.
- a binary computation kernel of 3 ⁇ 3 ⁇ 128 is applied while sliding.
- the binary calculation layer 112 sequentially sets pixels at the same position in all channels in the map of (128, 32, 32) output from the convolution layer 111 as the target pixel, and (128, 32, 32) in a predetermined position with reference to the target pixel, that is, for example, a rectangular parallelepiped range (vertical ⁇ horizontal ⁇ channel 3 ⁇ 3 ⁇ 128) centered on the position of the target pixel (binary operation kernel) (The same range as vertical ⁇ horizontal ⁇ channel)) is set as a binary calculation processing target.
- each piece of 3 ⁇ 3 ⁇ 128 data (pixel value) within the processing target of binary calculation and a filter as a binary calculation kernel of 3 ⁇ 3 ⁇ 128 The product-sum operation with the filter coefficient is performed, and the result of the product-sum operation is obtained as the result of the binary operation on the pixel of interest.
- a pixel that has not yet been set as the target pixel is newly set as the target pixel, and the same processing is repeated, whereby the binary calculation kernel sets the target pixel. It is applied to the map as layer input data while being slid accordingly.
- the binary calculation layer 112 has, for example, only 128 types of binary calculation kernels, and 128 (128, 32, 32) maps (convolution maps) from the convolution layer 111 are 128.
- 128 (128, 32, 32) maps maps (convolution maps) from the convolution layer 111 are 128.
- a map of (128, 32, 32) is obtained and output to the hidden layer 105 as layer output data of the binary operation layer 112.
- the number of channels of the map to be subjected to the binary calculation and the number of channels of the map obtained as a result of the binary calculation are the same 128 channels.
- the number of channels in the map obtained as a result of the binary operation need not be the same.
- the binary computation kernels from the convolutional layer 111 (128)
- the number of channels of the map as a binary calculation result obtained by applying to the map of (32, 32) is 256 channels equal to the number of types of binary calculation kernels.
- the difference is adopted as the binary operation, but different types of binary operations can be adopted in different types of binary operation kernels.
- a processing target in which a certain pixel is set as a target pixel and a processing target in which another pixel is set as a target pixel have binary values (data) at the same position in the processing target. It can be a target of binary calculation, or binary values at different positions can be a target of binary calculation.
- the binary of the positions P1 and P2 in the processing target is set as a target for binary calculation, and a processing target that is set with another pixel as a target pixel is also used.
- the binary values of the positions P1 and P2 in the processing target can be the target of the binary calculation.
- a processing target in which a certain pixel is set as a target pixel for a processing target in which a certain pixel is set as a target pixel, for a processing target in which the binary of the positions P1 and P2 in the processing target is set as a target for binary calculation and another pixel is set as a target pixel.
- the binary of the positions P1 ′ and P2 ′ of the pair different from the pair of the positions P1 and P2 in the processing target can be the target of the binary calculation.
- the binary position that is the target of the binary calculation of the binary calculation kernel applied while sliding changes in the processing target.
- the result of the binary calculation is as follows.
- the vertical ⁇ horizontal size of this map is 32 ⁇ 32 (pixels), which is the same as the vertical ⁇ horizontal size of the binary calculation target map.
- the pixel of the map of each channel targeted for binary calculation is set as the pixel of interest every other pixel, that is, the pixel not set as the pixel of interest in the map of each channel targeted for binary calculation.
- the vertical x horizontal size of the map as a result of the binary calculation is smaller than the vertical x horizontal size of the map to be subjected to the binary calculation (pooling is performed).
- the size of the binary calculation kernel (the binary calculation processing target) in the vertical ⁇ horizontal size is approximated using the binary calculation layer 112 of the convolution kernel 104 (FIG. 2).
- the binary computation kernel is slid.
- the present invention can be applied to the entire map subject to binary calculation.
- the map obtained by applying one kind of binary computation kernel is composed of one value obtained as a result of the binary computation.
- the processes of the convolution layer 111 and the binary calculation layer 112 described above are the processes at the time of forward propagation for detecting an object or the like, but at the time of back propagation for learning, at the convolution layer 111 and the binary calculation layer 112, Error information related to the error in the output data that propagates back to the immediately preceding lower layer is obtained using the error information from the immediately higher layer, and is propagated back to the immediately preceding lower layer.
- the filter coefficient of the convolution kernel is updated using the error information from the upper layer (here, the binary operation layer 112).
- FIG. 8 is a diagram illustrating an example of binary calculation processing of the binary calculation layer 112.
- a map x is layer input data x for the binary operation layer 112.
- the map x is a map of (c (in), M, N), that is, an image of a c (in) channel with vertical ⁇ horizontal M ⁇ N, and c ( in) channel map x (0) , x (1) , ..., x (c (in) -1) .
- a map y is layer output data y output from the binary operation layer 112.
- the map y is a map of (k (out), M, N), that is, an image of a k (out) channel in which vertical ⁇ horizontal is M ⁇ N, and k ( out) Consists of channel maps y (0) , y (1) , ..., y (k (out) -1) .
- the binary calculation layer 112 has only k (out) binary calculation kernels G of vertical ⁇ horizontal ⁇ channel m ⁇ n ⁇ c (in).
- G binary calculation kernels G of vertical ⁇ horizontal ⁇ channel m ⁇ n ⁇ c (in).
- 1 ⁇ m ⁇ n ⁇ M ⁇ N.
- the binary operation layer 112 applies the (k + 1) -th binary operation kernel G (k) among the k (out) binary operation kernels G to the map x, and maps the map # ( k) .
- the binary calculation layer 112 sequentially sets pixels at the same position in all channels of the map x as the target pixel, and in the map x, for example, vertical ⁇ horizontal ⁇ channel centered on the position of the target pixel
- a rectangular parallelepiped range with m ⁇ n ⁇ c (in) is set as a binary calculation processing target.
- the binary calculation layer 112 applies the (k + 1) -th binary calculation kernel G (k) to the processing target set for the target pixel in the map x.
- a difference calculation as a binary calculation using two pieces of data (binary) is performed, and a difference between the two pieces of data is obtained.
- the difference obtained by applying the binary calculation kernel G (k) Is the data (pixel value) y ij (k) of the position (i, j) of the map y (k) of channel #k.
- FIG. 9 is a diagram illustrating a state in which the binary operation kernel G (k) is applied to the processing target.
- the binary calculation layer 112 has only k (out) binary calculation kernels G of length ⁇ width ⁇ channel m ⁇ n ⁇ c (in).
- k (out) binary arithmetic kernels G are represented as G (0) , G (1) ,..., G (k (out) ⁇ 1) .
- the binary operation kernel G (k) is applied to the c (in) channel map x (0) , x (1) , ..., x (c (in) -1) respectively.
- the binary calculation layer 112 by sliding the m ⁇ n ⁇ c (in) binary calculation kernel G (k) to the map x of (c (in), M, N), In the map x, the binary calculation kernel G (k) is applied, and the binary difference calculation in the processing object of vertical x horizontal x channel is m x n x c (in) is performed. A map y (k) of channel #k composed of the obtained binary difference is generated.
- the direction of j) in the range of vertical and horizontal m ⁇ n for example, the vertical and horizontal positions based on the upper left position of the m ⁇ n range, respectively. Represented by s and t.
- the map x is padded.
- the data padded in the vertical direction from the boundary of the map x The number is represented as p, and the number of data padded in the horizontal direction is represented as q.
- the difference calculation for obtaining the difference between the two data d1 and d2 as the binary calculation is applied to the data d2, for example, when the filter coefficient applied to the data d1 is +1.
- the channel direction, vertical and horizontal positions in the processing target of the data d1 in which the filter coefficient +1 of the binary arithmetic kernel G (k) is integrated are represented by (c, s, t), (c0 (k ), s0 (k), t0 (k)), and the channel direction, vertical and horizontal positions of the data d2 in which the filter coefficient -1 of the binary operation kernel G (k) is accumulated is processed.
- the binary calculation kernel G is applied to the map x, the difference calculation as the binary calculation is performed, and the forward propagation for obtaining the map y is expressed by Expression (4).
- ⁇ E / ⁇ x ij (c) in Expression (5) is error information that propagates back to the lower layer immediately before the binary operation layer 112, that is, the convolution layer 111 in FIG.
- the layer output data y ij (k) of the binary operation layer 112 becomes the layer input data x ij (c) of the hidden layer 105, which is an upper layer immediately after the binary operation layer 112.
- ⁇ E / ⁇ y (i + p-s0 (k)) (j + q-t0 (k)) (k ) on the right side of Expression (5) is the layer output of the binary operation layer 112 of the error E Data y (i + p-s0 (k)) (j + q-t0 (k)) Represents partial differential in (k) , but is equivalent to ⁇ E / ⁇ x ij (c) obtained in hidden layer 105 And error information that is back-propagated from the hidden layer 105 to the binary calculation layer 112.
- equation (5) error information ⁇ E / ⁇ x ij of (c), the error information ⁇ E / ⁇ x ij from the hidden layer 105 which is the upper layer (c), error information ⁇ E / ⁇ y (i + p-s0 (k)) (j + q-t0 (k)) (k) .
- k0 (c) that defines the range of the summation ( ⁇ ) is data x at the position (c0 (k), s0 (k), t0 (k)) in the processing target of the map x. It represents a set of k of data y ij (k) of map y (k) obtained using s0 (k) t0 (k) (c0 (k)) .
- each layer unit is connected to all lower layer units (affine layers) and the position where the kernel is applied to the layer input data.
- LCL Longcally Connected Layer
- LCL is a subset of all connected layers
- convolutional layer is a subset of LCL.
- the binary calculation layer 112 that performs the difference calculation as a binary calculation can be regarded as a subset of the convolution layer.
- the forward propagation and the back propagation of the binary operation layer 112 are expressed by the equations (4) and (5).
- equations (1) and (3) representing forward propagation and back propagation of the convolutional layer.
- the binary calculation kernel of the binary calculation layer 112 has the filter coefficients applied to the two pieces of data d1 and d2 being +1 and ⁇ 1, respectively, and is applied to other data.
- the equations (1) and (3) are filters that are applied to other data with the filter coefficients w st (k, c) applied to the two data d1 and d2 being +1 and ⁇ 1, respectively.
- the coefficient w st (k, c) By setting the coefficient w st (k, c) to 0, forward propagation and back propagation of the binary operation layer 112 are represented.
- the binary operation layer 112 is a subset of the convolutional layer, a subset of the LCL, and a subset of all the connection layers. Therefore, the forward propagation and back propagation of the binary operation layer 112 include expressions (1) and (3) representing forward propagation and back propagation of the convolution layer, expressions representing forward propagation and back propagation of LCL, It can also be expressed using equations representing forward and back propagation of the coupling layer.
- the expressions (1) to (5) do not include a bias term
- the forward propagation and the reverse propagation of the binary operation layer 112 can be represented by expressions including a bias term.
- a 1 ⁇ 1 convolution is performed in the convolution layer 111, and a binary operation kernel of m ⁇ n in the vertical ⁇ horizontal direction is compared with a map obtained as a result of the convolution. Applied.
- the 1 ⁇ 1 convolution According to the combination of the convolution layer 111 that performs 1 ⁇ 1 convolution as described above and the binary operation layer 112 that applies the binary operation kernel whose vertical and horizontal are m ⁇ n, the 1 ⁇ 1 convolution
- the interaction between the channels of the layer input data with respect to the convolution layer 111 is maintained, and the information on the spatial direction (i and j directions) of the layer input data with respect to the convolution layer 111 is expressed as binary by the subsequent binary operation. It is transmitted to the upper layer (in FIG. 7, hidden layer 105) in the form of a difference or the like.
- connection weight for learning is only the filter coefficient w 00 (k, c) of the convolution kernel F used for 1 ⁇ 1 convolution.
- the concatenation of the layer input data of the convolution layer 111 and the layer output data of the binary operation layer 112 is a layer of a convolution layer that performs convolution with a spread of m ⁇ n similar to the vertical ⁇ horizontal size of the binary operation kernel. The configuration approximates the coupling between the input data and the layer output data.
- the convolution that covers the range of m ⁇ n in the vertical and horizontal directions ie, m ⁇ Convolution with the same performance as the convolution of n can be performed by reducing the number of filter coefficients w 00 (k, c) of the convolution kernel F as the number of parameters and the calculation amount to 1 / (m ⁇ n). it can.
- the size in the spatial direction of the binary operation kernel that is, the m ′ ⁇ n ′ convolution kernel in which the vertical ⁇ horizontal is smaller than m ⁇ n, m ′ ⁇ n Can be convolved.
- m ′ ⁇ m
- n ′ ⁇ n
- the number of filter coefficients w 00 (k, c) of the convolution kernel F as the number of parameters and the amount of calculation are the m ⁇ n convolution ( m ′ ⁇ n ′) / (m ⁇ n).
- the convolution performed in the convolution layer 111 can be performed in a plurality of layers. By performing the convolution performed in the convolution layer 111 in a plurality of layers, the number of filter coefficients w 00 (k, c) of the convolution kernel F and the amount of calculation can be reduced.
- the 1 ⁇ 1 convolution of the convolution layer 111 is, for example, 64
- the first convolution layer that performs 1 ⁇ 1 convolution on the channel map and generates a 16-channel map, and the 1 ⁇ 1 convolution on the 16-channel map, and the 128-channel map This can be done separately for the second convolutional layer that generates
- the number of filter coefficients of the convolution kernel is 64 ⁇ 128.
- the number of filter coefficients of the convolution kernel of the first convolution layer that performs 1 ⁇ 1 convolution and generates a 16-channel map for a 64-channel map is 64 ⁇ 16.
- the number of filter coefficients of the convolution kernel of the second convolution layer that performs 1 ⁇ 1 convolution and generates a map of 128 channels is 16 ⁇ 128.
- the number of filter coefficients can be reduced from 64 ⁇ 128 to 64 ⁇ 16 + 16 ⁇ 128. The same applies to the calculation amount.
- FIG. 10 is a diagram illustrating an example of a selection method for selecting a binary to be subjected to binary calculation of the binary calculation layer 112.
- the binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) to be subjected to the binary calculation are random projections. (Random Projection) Can be selected randomly by any other method.
- the binary operation Map x (c) of channel #c not combined with map y as layer output data of binary operation layer 112 in map x as layer input data of layer 112, that is, map not used for binary operation x (c) can occur.
- the map x (c) of each channel #c is combined with the map y (k) of one or more channels so that the map x (c) that is not used for binary calculation does not occur.
- Constraints that is, from the map x (c) of each channel #c, the position (c0 (k), s0 (k), t0 (k)) or (c1 (k), s1 (k), t1 (k) ) Can be imposed such that one or more positions (c, s, t) are selected.
- the map x that is not used for binary calculation can be performed in a lower layer immediately before the binary calculation layer 112.
- the convolution layer 111 that performs m ′ ⁇ n ′ ( ⁇ m ⁇ n) convolution and the range in which the vertical ⁇ horizontal ⁇ channel direction of the map x is m ⁇ n ⁇ c (in) are processed.
- the binary calculation layer 112 that performs binary calculation as an object, m ⁇ n convolution can be approximated. Therefore, the expansion in the spatial direction of the vertical x horizontal m ⁇ n processing target of the binary operation is the spatial expansion of the convolution kernel that performs the m ⁇ n convolution, and consequently the map that is the target of the m ⁇ n convolution. Corresponds to the spatial expansion of x.
- map x When convolution is performed on a wide range of map x in the spatial direction, low frequency components of map x can be extracted, and when convolution is performed on a narrow range of map x in the spatial direction The high frequency component of the map x can be extracted.
- the binary position for the entire processing target of 9 ⁇ 9 ⁇ c (in) (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) can be selected.
- the spatial direction is 5 ⁇ 5 centered on the pixel of interest among the processing target of 9 ⁇ 9 ⁇ c (in).
- binary positions c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) can be selected.
- the spatial direction is 3 ⁇ 3 centered on the pixel of interest among the processing target of 9 ⁇ 9 ⁇ c (in).
- Binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) can be selected for a narrower range .
- the binary position (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 ( Various frequency components can be extracted from the map x by changing the range in the spatial direction when selecting k) and t1 (k)) according to the channel #k of the map y (k) .
- the binary calculation layer 112 it is possible to employ a binary calculation kernel G (k, c) having a different size in the spatial direction depending on the channel #C of the map x (c) .
- an image showing a person's face has many lateral edges, and orientations corresponding to such lateral edges frequently appear. Therefore, when detecting whether or not a human face appears in the image as input data, a binary calculation is performed so that the sensitivity to the horizontal edge is increased according to the orientation corresponding to the horizontal edge. Pattern of binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) selected from the processing target Can be adjusted.
- the processing target channel direction is ignored and attention is paid to the spatial direction
- the binary position from the processing target The selection of (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) is performed at the center of the processing target, e.g., vertical x horizontal is 3
- the frequency is higher than the area around the processing target (the area other than the 3 ⁇ 3 area at the center of the processing target) than the ⁇ 3 area. This is because the area around the processing target is larger than the 3 ⁇ 3 area at the center of the processing target.
- the binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) are from the 3 ⁇ 3 area at the center of the processing target. In some cases, it may be better to select, or in other cases, it may be better to select from a region around the processing target.
- the processing target Binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) are selected from the range in which the spatial direction of is circular Constraints can be imposed. In this case, it is possible to perform a process corresponding to a process performed by a circular filter (a filter whose filter coefficient is applied to a circular range).
- FIG. 10 illustrates binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k) performed using a learning-based method. ) Shows an example of selecting a set.
- a of FIG. 10 is a binary that performs binary calculation using a binary calculation kernel using learning results of a plurality of weak classifiers that calculate differences between pixel values of two pixels of an image described in Patent Document 1. This shows a method of selecting the positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)).
- FIG. 10B shows binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k) where binary calculation is performed by the binary calculation kernel using the learning result of CNN. ), s1 (k), t1 (k)).
- the binary operation kernel based on the filter coefficient of the convolution kernel F of the convolution layer obtained as a result of the learning of the CNN having the convolutional layer that performs convolution whose vertical and horizontal sizes are larger than 1 ⁇ 1, the binary operation kernel The binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) for performing the binary calculation are selected.
- the positions of the maximum value and the minimum value of the filter coefficient of the convolution kernel F are expressed as binary positions (c0 (k), s0 (k), t0 (k)) and (c1 (k), s1 (k), t1 (k)) can be selected respectively.
- the filter coefficient distribution of the convolution kernel F is regarded as a probability distribution, and in the probability distribution, two positions in descending order of probability are expressed as binary positions (c0 (k), s0 (k), t0). (k)) and (c1 (k), s1 (k), t1 (k)).
- FIG. 11 is a flowchart for explaining an example of processing at the time of forward propagation and back propagation of the convolution layer 111 and the binary operation layer 112 of the NN 110 of FIG.
- step S11 the convolution layer 111 acquires a map x as layer input data for the convolution layer 111 from the hidden layer 103 of the lower layer, and the process proceeds to step S12.
- step S12 the convolution layer 111 applies the convolution kernel F to the map x, performs 1 ⁇ 1 convolution, obtains the map y as the layer output data of the convolution layer 111, and the process proceeds to step S13. move on.
- step S12 the convolution process in step S12 is expressed by equation (1).
- step S13 the binary calculation layer 112 acquires the layer output data of the convolution layer 111 as a map x as layer input data for the binary calculation layer 112, and the process proceeds to step S14.
- step S ⁇ b> 14 the binary calculation layer 112 applies a binary calculation kernel G to the map x from the convolution layer 111 to perform a binary calculation, and uses the map y as the layer output data of the binary calculation layer 112. The forward propagation processing of the convolution layer 111 and the binary operation layer 112 is completed.
- step S14 the binary calculation in step S14 is expressed by, for example, Expression (4).
- step S21 the binary operation layer 112 uses the right side ⁇ E / ⁇ y (i + p-s0 (k)) ( 5) as error information from the hidden layer 105, which is the upper layer. j + q-t0 (k)) (k) is acquired, and the process proceeds to step S22.
- step S22 the binary calculation layer 112 calculates ⁇ E / ⁇ y (i + p ⁇ s0 (k)) (j + q ⁇ on the right side of the equation (5) as error information from the hidden layer 105, which is the upper layer.
- ⁇ E / ⁇ x ij (c) of Equation (5) is obtained as error information that propagates back to the convolutional layer 111, which is the lower layer.
- the binary calculation layer 112 back-propagates ⁇ E / ⁇ x ij (c) of the equation (5) as the error information to the convolutional layer 111 which is a lower layer, and the processing proceeds from step S22 to step S23. move on.
- step S23 the convolution layer 111 acquires ⁇ E / ⁇ x ij (c) of equation (5) as error information from the binary calculation layer 112, which is the upper layer, and the process proceeds to step S24.
- step S24 the convolution layer 111 uses ⁇ E / ⁇ x ij (c) in equation (5) as error information from the binary operation layer 112, and error information ⁇ E / ⁇ y ij on the right side of equation (2).
- (k) the error gradient ⁇ E / ⁇ w st (k, c) in equation (2 ) is obtained, and the process proceeds to step S25.
- step S25 the convolution layer 111 uses the error gradient ⁇ E / ⁇ w st (k, c) to perform the filter coefficient w 00 (k, c) of the convolution kernel F (k, c) that performs 1 ⁇ 1 convolution . c) is updated, and the process proceeds to step S26.
- step S26 the convolution layer 111 uses ⁇ E / ⁇ x ij (c) in equation (5) as error information from the binary operation layer 112, and error information ⁇ E / ⁇ y ij on the right side of equation (3).
- (k) ( ⁇ E / ⁇ y (i + ps) (j + qt) (k) ) is used as error information that propagates back to the hidden layer 103, which is the lower layer, as ⁇ E / in equation (3) Find ⁇ x ij (c) .
- the convolution layer 111 back-propagates ⁇ E / ⁇ x ij (c) of the equation (3) as error information to the hidden layer 103 which is a lower layer, and reverses the convolution layer 111 and the binary operation layer 112. The propagation process ends.
- the convolution layer 111, the binary operation layer 112, and the NN 110 (FIG. 7) including the convolution layer 111 and the binary operation layer 112 are in the form of software including a library or the like. It can be provided in the form of hardware.
- the convolution layer 111 and the binary operation layer 112 are provided in the form of functions included in a library, for example, and can be used by calling functions as the convolution layer 111 and the binary operation layer 112 in an arbitrary program. Can do.
- operations in the convolution layer 111, the binary operation layer 112, and the like can be performed with an arbitrary precision of 1 bit, 2 bits, and other 3 bits or more.
- any type of floating point type, fixed point type, integer type, and other numerical values can be adopted.
- FIG. 12 is a diagram showing a simulation result of a simulation performed on the binary calculation layer.
- One of the two NNs is a convolution layer that performs 5 ⁇ 5 ⁇ 32 (vertical ⁇ horizontal ⁇ channel) convolution, another convolution layer that performs 5 ⁇ 5 ⁇ 32 convolution, and 5 ⁇ 5 ⁇ 64
- This is a CNN having a total of five convolutional layers: a convolutional layer that performs convolution, another convolutional layer that performs convolution of 5 ⁇ 5 ⁇ 64, and a convolutional layer that performs convolution of 3 ⁇ 3 ⁇ 128.
- a normalized linear function was adopted as the activation function of each convolution layer.
- the other NN replaces each of the five convolution layers of CNN, which is one NN, with a convolution layer 111 that performs 1 ⁇ 1 convolution and a binary operation layer 112 that obtains a binary difference.
- NN hereinafter also referred to as replacement NN.
- FIG. 12 shows the error rate er1 of the CNN and the error rate er2 of the replacement NN as simulation results.
- the neuron (corresponding unit) equivalent to or more than the convolutional layer of the CNN is realized with fewer parameters than the CNN.
- FIG. 13 is a block diagram showing a third configuration example of the NN realized by the PC 10.
- NN 120 is an NN including a binary operation layer 112 and a value maintenance layer 121, and includes an input layer 101, NN 102, hidden layer 103, hidden layer 105, NN 106, output layer 107, convolution layer 111, binary operation.
- a layer 112 and a value maintaining layer 121 are included.
- the NN 120 is common to the NN 110 in FIG. 7 in that it includes the input layer 101, NN 102, hidden layer 103, hidden layer 105, NN 106, output layer 107, convolution layer 111, and binary operation layer 112.
- the NN 120 is different from the NN 110 in FIG. 7 in that a value maintaining layer 121 is newly provided.
- the value maintaining layer 121 is arranged in parallel with the binary operation layer 112 as an upper layer immediately after the convolution layer 111.
- the value maintaining layer 121 maintains the absolute value of a part of the data constituting the map of (128, 32, 32), for example, which is output as the layer output data by the convolution layer 111 which is the immediately preceding lower layer. , And output to the hidden layer 105, which is the immediately higher layer.
- the value maintaining layer 121 is the same for all channels in the map of (128, 32, 32) that the convolution layer 111 outputs by applying 128 types (pieces) of 1 ⁇ 1 ⁇ 64 convolution kernels, for example.
- the pixel at the position is sequentially set as the pixel of interest, and in the map of (128, 32, 32), a predetermined position based on the pixel of interest, for example, vertical x horizontal, centered on the position of the pixel of interest
- the range of the rectangular parallelepiped shape in which the ⁇ channel is A ⁇ B ⁇ C is set as a value maintenance processing target that maintains an absolute value.
- the vertical x horizontal size of the rectangular parallelepiped range as the value maintenance processing target is, for example, the same size as the vertical x horizontal size of the binary calculation kernel G of the binary calculation layer 112, that is, 3 x 3 Can be adopted.
- a size different from the vertical x horizontal size of the binary computation kernel G can be adopted.
- the number of channels of layer input data for the value maintenance layer 121 that is, the convolution layer 111 here outputs (128, 32, 32). 128, which is the number of channels in the map, is adopted.
- the processing target of value maintenance for the target pixel is a rectangular parallelepiped range of (128, 32, 32) map, for example, vertical x horizontal x channel is 3 x 3 x 128 centered on the position of the target pixel It is.
- the value maintenance layer 121 selects one piece of data in the processing target set for the target pixel from the (128, 32, 32) map from the convolution layer 111 by, for example, random projection or the like.
- the absolute value of the data is maintained and output to the hidden layer 105 of the upper layer as layer output data.
- maintaining the absolute value of the data means not only maintaining the data value as it is, but also when performing operations such as subtraction of a fixed value, addition, integration, division, etc. on the data value, In addition, it includes a case where an operation that reflects information on an absolute value of data is performed.
- the difference calculation of the values of the two data in the binary calculation processing target is performed. Therefore, the difference information of the two data values is propagated to the subsequent layer. However, information on the absolute value of the data is not propagated.
- the value maintenance layer 121 since the absolute value of one piece of data in the value maintenance processing target is maintained and output, information on the absolute value of the data is stored in the subsequent layer. Propagated to.
- the information on the absolute value of the data is propagated to the subsequent layer in addition to the information on the difference between the two data values. It has been confirmed that the detection performance for detecting an object is improved.
- the value maintenance process in which the value maintenance layer 121 maintains and outputs the absolute value of one piece of data in the value maintenance process target is, for example, vertical ⁇ horizontal of the same size as the value maintenance process target.
- ⁇ A channel with a 3 ⁇ 3 ⁇ 128 kernel and a filter coefficient that is applied to one data d1 is +1.
- the kernel (filter) used by the value maintenance layer 121 to maintain the value is also referred to as a value maintenance kernel.
- the value maintenance kernel is regarded as a kernel having one filter coefficient whose filter coefficient applied to the data d1 is +1.
- ⁇ Horizontal ⁇ Channel is a 3 ⁇ 3 ⁇ 128 kernel, the filter coefficient applied to data d1 is +1, and the filter coefficient applied to other data is 0, the same size as the value maintenance target It can also be regarded as a kernel having a filter coefficient of.
- the value maintenance process is regarded as application of the value maintenance kernel
- the map of (128, 32, 32) as the layer input data from the convolution layer 111 is used.
- a 3 ⁇ 3 ⁇ 128 value-maintaining kernel is applied while sliding.
- the value maintaining layer 121 sequentially sets, for example, pixels at the same position in all channels in the map (128, 32, 32) output from the convolution layer 111 as the target pixel, and (128, 32, 32).
- a predetermined position with respect to the target pixel that is, for example, a rectangular parallelepiped range (length ⁇ width ⁇ channel 3 ⁇ 3 ⁇ 128) centered on the position of the target pixel (the vertical axis of the value maintaining kernel).
- X horizontal x the same range as the channel is set as a value maintenance process target.
- each of the 3 ⁇ 3 ⁇ 128 data (pixel value) in the value maintenance processing target and the filter of the filter as a 3 ⁇ 3 ⁇ 128 value maintenance kernel A product operation or a product-sum operation with a coefficient is performed, and a result of the product operation or product-sum operation is obtained as a value maintenance result for the pixel of interest.
- the value maintaining layer 121 a pixel that has not yet been set as the target pixel is newly set as the target pixel, and the same processing is repeated, whereby the value maintaining kernel is set according to the setting of the target pixel. While being slid, it is applied to the map as layer input data.
- the number (number of types) of binary calculation kernels G included in the binary calculation layer 112 As the number of value maintenance kernels included in the value maintenance layer 121, the added value of the number of binary computation kernels G and the number of value maintenance kernels is received as layer input data by the hidden layer 105, which is the immediately higher layer. A number equal to the number of channels in the map is employed.
- the hidden layer 105 accepts a map of (128, 32, 32) as layer input data
- the number of binary operation kernels G included in the binary operation layer 112 is 1 or more and less than 128 L types.
- the maintenance layer 121 has 128-L types of value maintenance kernels.
- the 128-L channel map obtained by applying the 128-L value maintaining kernel of the value maintaining layer 121 is a map of a part of the maps of (128, 32, 32) received by the hidden layer 105.
- the data is output to the hidden layer 105 as (layer input data to the hidden layer 105).
- the L channel map obtained by applying the L type binary operation kernel G of the binary operation layer 112 is hidden as a map of the remaining channels of the (128, 32, 32) map received by the hidden layer 105. Output to layer 105.
- the binary calculation residual layer 112 and the value maintenance layer 121 can output maps having the same size in the vertical and horizontal directions.
- the processing target in which a certain pixel is set as a target pixel and the processing target in which another pixel is set as a target pixel have values (data) at the same position in the processing target. It can be set as an object of maintenance, and values at different positions can be set as targets of value maintenance.
- the value of the position P1 in the processing target is set as a target for maintaining the value
- the processing target The value of the position P1 at can be set as a value maintenance target.
- the value of the position P1 in the processing target is set as a value maintenance target, and for a processing target set with another pixel as a target pixel, the processing target A value at a position P2 that is different from the position P1 in FIG.
- the range to which the binary calculation kernel G is applied in the map output from the convolution layer 111 is the processing target of the binary calculation, and in the value maintenance layer 121, the convolution layer 111 outputs.
- a range to which the value maintenance kernel is applied is a value maintenance process target.
- the vertical and horizontal size of the rectangular parallelepiped range as the value maintenance processing target is the same size as the vertical and horizontal size of the binary calculation kernel G of the binary calculation layer 112 or a different size.
- FIG. 14 is a diagram for explaining an example of value maintenance processing of the value maintenance layer 121.
- a map x is layer input data x for the value maintenance layer 121.
- the map x is a map of (c (in), M, N), that is, an image of a c (in) channel with vertical ⁇ horizontal M ⁇ N, and c ( in) channel map x (0) , x (1) , ..., x (c (in) -1) .
- a map y is layer output data y output from the value maintaining layer 121.
- the map y is a map of (k (out), M, N), that is, an image of a k (out) channel in which vertical ⁇ horizontal is M ⁇ N, and k ( out) Consists of channel maps y (0) , y (1) , ..., y (k (out) -1) .
- the value maintaining layer 121 has only k (out) value maintaining kernels H of vertical ⁇ horizontal ⁇ channels of m ⁇ n ⁇ c (in).
- 1 ⁇ m ⁇ n ⁇ M ⁇ N.
- the value maintaining layer 121 applies the (k + 1) th value maintaining kernel H (k) of the k (out) value maintaining kernels H to the map x, and the map y (k) of the channel #k is applied.
- the value maintaining layer 121 sequentially sets pixels at the same position of all channels in the map x as the target pixel.
- the vertical x horizontal x channel centered on the position of the target pixel is A rectangular parallelepiped range of m ⁇ n ⁇ c (in) is set as a value maintenance process target.
- the value maintenance layer 121 applies the (k + 1) th value maintenance kernel H (k) to the processing target set for the target pixel in the map x, so that one of the processing targets is included. Get the data value of.
- the value obtained by applying the value maintenance kernel H (k) is This is the data (pixel value) y ij (k) of the position (i, j) of the map y (k) of channel #k.
- FIG. 15 is a diagram illustrating a state in which the value maintenance kernel H (k) is applied to the processing target.
- the value maintaining layer 121 has only k (out) value maintaining kernels H of vertical ⁇ horizontal ⁇ channels of m ⁇ n ⁇ c (in).
- k (out) value maintaining kernels H are represented as H (0) , H (1) ,..., H (k (out) ⁇ 1) .
- the value-maintaining kernel H (k) is the c (in) channel's map applied to the c (in) channel map x (0) , x (1) , ..., x (c (in) -1) respectively. It is composed of value maintaining kernels H (k, 0) , H (k, 1) , ..., H (k, c (in) -1) .
- the map x of (c (in), M, N) is applied by sliding the value maintenance kernel H (k) of m ⁇ n ⁇ c (in) while sliding the map x.
- the value maintenance kernel H (k) is applied, and the value of one data in the processing target of vertical ⁇ horizontal ⁇ channel is m ⁇ n ⁇ c (in) is acquired, and from the acquired value A map y (k) of the channel #k is generated.
- the value maintaining kernel H (k) of m ⁇ n ⁇ c (in) and the spatial direction (i and j ) of the map x to which the value maintaining kernel H (k) is applied For the range of vertical ⁇ horizontal in the direction of m ⁇ n, for example, the vertical and horizontal positions based on the upper left position of the m ⁇ n range are defined as s and Represented by t.
- the map x is padded.
- the number of data padded in the vertical direction from the boundary of the map x Is expressed as p, and the number of data padded in the horizontal direction is expressed as q.
- the value maintaining process is performed by, for example, replacing a value maintaining kernel having only one filter coefficient whose filter coefficient applied to one data d1 is +1 with a value maintaining kernel. It can be understood that this is a process of applying a product (+ 1 ⁇ d1) by applying to a processing target.
- the channel direction, vertical and horizontal position in the processing target of the data d1 in which the filter coefficient +1 of the value maintaining kernel H (k) is integrated is set to (c, s, t), (c0 (k) , s0 (k), t0 (k)).
- the value maintenance kernel H is applied to the map x, the value maintenance process is performed, and the forward propagation for obtaining the map y is expressed by Expression (6).
- ⁇ E / ⁇ x ij (c) in Expression (7) is error information that propagates back to the lower layer immediately before the value maintaining layer 121, that is, the convolution layer 111 in FIG.
- the layer output data y ij (k) of the value maintaining layer 121 becomes the layer input data x ij (c) of the hidden layer 105, which is an upper layer immediately after the value maintaining layer 121.
- Equation (7) ⁇ E / ⁇ y (i + p-s0 (k)) (j + q-t0 (k)) (k ) on the right side of Equation (7) is the layer output data of the value maintaining layer 121 with the error E y (i + p-s0 (k)) (j + q-t0 (k))
- E y (i + p-s0 (k)) (j + q-t0 (k)) This represents the partial differential in (k) , but is equivalent to ⁇ E / ⁇ x ij (c) obtained in the hidden layer 105 Yes, it is error information that is back-propagated from the hidden layer 105 to the value maintaining layer 121.
- the error information ⁇ E / ⁇ x ij (c) in the equation (7) is converted from the error information ⁇ E // x ij (c) from the hidden layer 105, which is an upper layer, to the error information ⁇ E / ⁇ y (i + p-s0 (k)) (j + q-t0 (k)) (k) .
- k0 (c) that defines the range of the summation ( ⁇ ) is data x at the position (c0 (k), s0 (k), t0 (k)) in the processing target of the map x. It represents a set of k of data y ij (k) of map y (k) obtained using s0 (k) t0 (k) (c0 (k)) .
- forward propagation and back propagation of the value maintenance layer 121 can be expressed by Expression (6) and Expression (7). Further, it can also be expressed by Expression (1) and Expression (3) representing forward propagation and back propagation of the convolutional layer.
- the value maintaining kernel of the value maintaining layer 121 has a value in which the filter coefficient applied to one piece of data d1 is +1 and the filter coefficient applied to other data is 0, as described in FIG. It can be understood that the kernel has a filter coefficient of the same size as that of the maintenance target.
- equation (1) and (3) the filter coefficients w st applied to one data d1 to (k, c) and +1, the filter coefficients are applied to other data w st (k, By setting c) to 0, forward propagation and back propagation of the value maintaining layer 121 are represented.
- forward propagation and back propagation of the value maintaining layer 121 include expressions (1) and (3) representing forward propagation and back propagation of the convolution layer, expressions representing forward propagation and back propagation of LCL, and full coupling. It can also be expressed using equations representing forward and back propagation of layers.
- Equation (6) and Equation (7) do not include a bias term
- forward propagation and back propagation of the value maintaining layer 121 can be expressed by equations including a bias term.
- a 1 ⁇ 1 convolution is performed in the convolution layer 111, and a binary operation kernel having a height ⁇ width of m ⁇ n is generated in the binary operation layer 112 with respect to the map obtained as a result of the convolution.
- a value maintenance kernel of length ⁇ width is m ⁇ n is applied.
- the number and the calculation amount can be reduced to 1 / (m ⁇ n).
- the information on the difference between the two data values and the information on the absolute value of the data are propagated to the subsequent layer of the binary calculation layer 112 and the value maintaining layer 121, and as a result.
- the detection performance and the like for detecting the object can be improved.
- the binary operation layer 112 and the value maintaining layer 121 are provided in parallel.
- a convolution layer and a binary operation layer 112 are provided in parallel, or a convolution layer and 2 are provided.
- the value calculation layer 112 and the value maintenance layer 121 can be provided in parallel.
- FIG. 16 is a block diagram illustrating a configuration example of an NN generation device that generates an NN to which the present technology is applied.
- the 16 can be functionally realized by, for example, the PC 10 in FIG. 1 executing a program as the NN generation device.
- the NN generation device includes a library acquisition unit 201, a generation unit 202, and a user I / F (Interface) 203.
- the library acquisition unit 201 acquires a function library of functions that function as various layers of the NN from, for example, the Internet or other storage.
- the generation unit 202 operates as an NN layer from the function library acquired by the library acquisition unit 201 according to the operation of the user I / F 203, that is, the operation signal corresponding to the user operation supplied from the user I / F 203. Is obtained, and an NN composed of the layers is generated.
- the user I / F 203 is configured with a touch panel or the like, and displays the NN generated by the generation unit 202 in a graph structure. In addition, it accepts a user operation and supplies a corresponding operation signal to the generation unit 202.
- the generation unit 202 uses a function library as a layer of NN acquired by the library acquisition unit 201 in response to an operation of the user I / F 203, for example, a binary operation layer NN including 112 etc. is generated.
- NN generated by the generation unit 202 is displayed by the user I / F 203 in the form of a graph structure.
- FIG. 17 is a diagram showing a display example of the user I / F 203.
- a layer selection unit 211 and a graph structure display unit 212 are displayed.
- the layer selection unit 211 displays a layer icon that is an icon representing a layer that can be selected as a layer constituting the NN.
- layer icons such as an input layer, an output layer, a convolution layer, a binary operation layer, and a value maintenance layer are displayed.
- the NN generated by the generation unit 202 is displayed in a graph structure.
- the user selects a layer icon of a desired layer such as a binary operation layer from the layer selection unit 211, and combines the layer icon with another layer icon already displayed in the graph structure display unit 212.
- the generation unit 202 generates an NN that combines the layer represented by the layer icon selected by the user and the layer represented by the other layer icon, and displays it in the graph structure display unit 212. Display.
- the generation unit 202 when the user I / F 203 is operated, for example, to delete or move the layer icon displayed on the graph structure display unit 212, combine the layer icons, release the combination, or the like, the generation unit 202 In accordance with the operation of the user I / F 203, the NN after the deletion and movement of the layer icon, the combination of the layer icons, the release of the combination, etc. is generated again and displayed again on the graph structure display unit 212.
- the user can easily configure NNs having various network configurations.
- the layer selection unit 211 displays layer icons of a convolution layer, a binary operation layer, and a value maintenance layer. Therefore, the NN 100 including such a convolution layer, a binary operation layer, and a value maintenance layer is displayed.
- NNs such as NN110 and NN120 can be easily configured.
- the entity of the NN generated by the generation unit 202 is, for example, a program that can be executed by the PC 10 in FIG. 1.
- the PC 10 By causing the PC 10 to execute the program, the PC 10 is changed to an NN such as NN100, NN110, or NN120. Can function.
- the user I / F 203 includes an icon for designating an activation function, a binary computation kernel, an icon for designating the vertical and horizontal sizes of the kernel, and a binary subject to binary computation. It is possible to display an icon for selecting a position selection method, an icon for selecting a method for selecting a position of a value to be subjected to value maintenance processing, an icon for assisting the user in configuring the NN, and the like.
- FIG. 18 is a diagram illustrating an example of a program as an NN entity generated by the generation unit 202.
- x in the first row represents layer output data output from the input layer.
- kernel (1,1)
- Rp_ratio 0.1 represents that 10% of the 128 channels are output from the value maintenance layer and the rest are output from the binary operation layer.
- the NNs 110 and 120 are configured to include both the convolution layer 111 and the binary operation layer 112. However, the NNs 110 and 120 are configured not to include the convolution layer 111. Can do. That is, the binary operation layer 112 is a layer having new mathematical characteristics as an NN layer, and can be used alone as an NN layer without being combined with the convolutional layer 111.
- the processing performed by the computer (PC 10) according to the program does not necessarily have to be performed in time series in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing).
- the program may be processed by one computer (processor), or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
- the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
- the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
- each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
- the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
- a layer of a neural network is configured, a binary operation is performed using two of the layer input data input to the layer, and the result of the binary operation is output as layer output data output from the layer Information processing device.
- the binary calculation is performed on the layer input data by applying a binary calculation kernel that performs the binary calculation.
- the binary calculation is performed by sliding the binary calculation kernel on the layer input data.
- the binary operation kernel having different spatial sizes is applied when obtaining layer output data of one channel and when obtaining layer output data of another channel.
- ⁇ 5> Obtain error information about the error of the output data output from the output layer of the neural network, which is back-propagated from the upper layer, The information processing apparatus according to any one of ⁇ 1> to ⁇ 4>, wherein error information that propagates back to a lower layer is obtained using the error information from the upper layer, and is propagated back to the lower layer.
- ⁇ 6> The information processing apparatus according to any one of ⁇ 1> to ⁇ 5>, wherein the binary calculation is a binary difference.
- ⁇ 7> The information processing according to any one of ⁇ 1> to ⁇ 6>, wherein the information processing is arranged in an upper layer immediately after a convolution layer that performs convolution with a convolution kernel having a smaller size in a spatial direction than a binary operation kernel that performs the binary operation.
- apparatus. ⁇ 8> The convolution layer performs 1 ⁇ 1 convolution applying the convolution kernel of 1 ⁇ 1 in length ⁇ width,
- the binary operation kernel that performs the binary operation for obtaining a binary difference is applied to an output of the convolution layer.
- ⁇ 9> Arranged in parallel with the value maintenance layer that maintains and outputs the absolute value of the lower layer output, The output of the value maintenance layer is output to the upper layer as layer input data of some channels among the layer input data of a plurality of channels to the upper layer,
- the information processing apparatus according to any one of ⁇ 1> to ⁇ 8>, wherein the result of the binary operation is output to the upper layer as layer input data of the remaining channel.
- a binary operation layer that is a layer that performs a binary operation using two of the layer input data input to the layer and outputs the result of the binary operation as layer output data output from the layer
- An information processing apparatus comprising a generation unit that generates a neural network including ⁇ 12>
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本技術は、ニューラルネットワークの計算量及びパラメータ数を削減することができるようにする情報処理装置に関する。 2値演算層は、ニューラルネットワークの層を構成し、層入力データのうちの2値を用いた2値演算を行い、その2値演算の結果を、層出力データとして出力する。 本技術は、ニューラルネットワークに適用することができる。
Description
本技術は、情報処理装置に関し、特に、例えば、ニューラルネットワークの計算量及びパラメータ数を削減することができるようにする情報処理装置に関する。
例えば、画像を構成する画素のうちの2画素それぞれの画素値の差分を用いて、画像に、所定の対象物が映るかどうかを検出する検出装置がある(例えば、特許文献1を参照)。
かかる検出装置では、複数の弱識別器それぞれにおいて、画像の2画素それぞれの画素値の差分に応じて、画像に、所定の対象物が映るかどうかを表す推定値が求められる。そして、複数の弱識別器それぞれの推定値の重み付け加算が行われ、その結果得られる重み付け加算値に応じて、画像に、所定の対象物が映るかどうかが判定される。
弱識別器、及び、重み付け加算に用いられる重みの学習は、アダブースト(AdaBoost)等のブースティングにより行われる。
近年、画像のクラスタリング等について、畳み込み層を有するCNN(Convolutional Neural Network)が注目されている。
しかしながら、CNN等のNN(Neural Network)の性能を高めるためには、NNのパラメータ数が大になり、計算量も大になる。
本技術は、このような状況に鑑みてなされたものであり、NNの計算量及びパラメータ数を削減することができるようにするものである。
本技術の第1の情報処理装置は、ニューラルネットワークの層を構成し、前記層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する情報処理装置である。
以上のような第1の情報処理装置においては、ニューラルネットワークの層を構成しており、前記層に入力される層入力データのうちの2値を用いた2値演算が行われ、前記2値演算の結果が、前記層から出力される層出力データとして出力される。
本技術の第2の情報処理装置は、層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する前記層である2値演算層を含むニューラルネットワークを生成する生成部を備える情報処理装置である。
以上のような第2の情報処理装置においては、層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する前記層である2値演算層を含むニューラルネットワークが生成される。
なお、第1及び第2の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。かかるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、頒布することができる。
本技術によれば、NNの計算量及びパラメータ数を削減することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
<PCのハードウェアの構成例>
図1は、本技術を適用したNN等として機能するPC(Personal Computer)のハードウェアの構成例を示すブロック図である。
図1において、PC10は、スタンドアロンのコンピュータであっても良いし、サーバクライアントシステムのサーバ、又は、クライアントであっても良い。
PC10は、CPU(Central Processing Unit)12を内蔵しており、CPU12には、バス11を介して、入出力インタフェース20が接続されている。
CPU12は、入出力インタフェース20を介して、ユーザ等によって、入力部17が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)13に格納されているプログラムを実行する。あるいは、CPU12は、ハードディスク15に格納されたプログラムを、RAM(Random Access Memory)14にロードして実行する。
これにより、CPU12は、各種の処理を行い、PC10を所定の機能を有する装置として機能させる。そして、CPU12は、各種の処理の処理結果を、必要に応じて、例えば、入出力インタフェース20を介して、出力部16から出力、あるいは、通信部18から送信、さらには、ハードディスク15に記録等させる。
なお、入力部17は、キーボードや、マウス、マイク等で構成される。また、出力部16は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
また、CPU12が実行するプログラムは、PC10に内蔵されている記録媒体としてのハードディスク15やROM13に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体21に格納(記録)しておくことができる。このようなリムーバブル記録媒体21は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体21としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
また、プログラムは、上述したようなリムーバブル記録媒体21からPC10にインストールする他、通信網や放送網を介して、PC10にダウンロードし、内蔵するハードディスク15にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、PC10に無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、PC10に有線で転送することができる。
CPU12は、上述したように、プログラムを実行することにより、PC10を所定の機能を有する装置として機能させる。
例えば、CPU12は、PC10を、NN(を構成する各層)の処理や、NNの生成を行う情報処理装置として機能させる。この場合、PC10は、NNや、NNを生成するNN生成装置として機能する。なお、NNの各層は、CPU12やGPU等の汎用のハードウェアで構成する他、専用のハードウェアで構成することができる。この場合、NNの各層で行われる、例えば、後述する2値演算その他の演算は、層を構成する専用のハードウェアが行う。
ここで、以下では、説明を分かりやすくするため、PC10により実現されるNNについて、NNに対する入力データが、1チャネル以上の2次元のデータである画像(静止画)である場合を例に説明を行う。
NNに対する入力データが画像である場合には、その画像から、所定の対象物を高速に検出(認識)することや、ピクセルレベルのラベリング(セマンティックセグメンテーション)等を行うことができる。
なお、NNに対する入力データとしては、画像等の2次元のデータの他、1次元のデータや、2次元のデータ、その他、4次元以上の次元のデータを採用することができる。
<CNNの構成例>
図2は、PC10により実現されるNNの第1の構成例を示すブロック図である。
図2において、NN100は、CNNであり、入力層101、NN102、隠れ層103、畳み込み層104、隠れ層105、NN106、及び、出力層107を有する。
ここで、NNは、入力層及び出力層を含む複数の層(を構成する、ニューロンに相当するユニット)が、適宜結合されて構成される。NNにおいて、ある注目する層から見て、入力層側の層を、下位層ともいい、出力層側の層を、上位層ともいう。
また、NNにおいて、入力層側から出力層側に向かう情報(データ)の伝播を、順伝播ともいい、出力層側から入力層側に向かう情報の伝播を、逆伝播ともいう。
入力層101には、NN100に対する入力データとしての、例えば、R,G,Bの3チャネルの画像が供給される。入力層101は、NN100に対する入力データを記憶し、上位層のNN102に供給する。
NN102は、NN100のサブセットとしてのNNであり、1以上の層(図示せず)で構成される。サブセットとしてのNN102には、隠れ層103及び105や、畳み込み層104、その他、後述する層と同様の層を含めることができる。
NN102の各層(のユニット)では、例えば、その層の直前の下位層からのデータの重み付け加算値(必要に応じて、いわゆるバイアス項の加算を含む)が演算され、その重み付け加算値を引数として、例えば、正規化線形関数(Rectified Linear function)等の活性化関数が演算される。そして、各層では、活性化関数の演算結果が記憶され、直後の上位層に出力される。重み付け加算値の演算には、層どうし(のユニット間)を結合する結合重みが用いられる。
ここで、入力データが2次元の画像である場合、入力層101から出力層107までの間の層が出力する2次元の画像は、マップと呼ばれる。
隠れ層103は、NN102の最も上位層側の層からのデータとしてのマップを記憶し、畳み込み層104に出力する。又は、隠れ層103は、例えば、NN102の層と同様にして、NN102の最も上位層側の層からのデータの重み付け加算値を引数とする活性化関数の演算結果を求め、マップとして記憶し、畳み込み層104に出力する。
ここで、隠れ層103が記憶するマップを、特に、入力マップともいう。NNの層に入力されるデータを、層入力データということとすると、隠れ層103が記憶する入力マップは、畳み込み層103に対する層入力データである。また、NNの層から出力されるデータを、層出力データということとすると、隠れ層103が記憶する入力マップは、隠れ層103の層出力データでもある。
本実施の形態では、隠れ層103が記憶する入力マップは、例えば、縦×横が32×32(画素)で構成され、64チャネルを有することとする。以上のように、縦×横が32×32で、64チャネルの入力マップを、以下、(64,32,32)(=(チャネル,縦,横))の入力マップともいう。
畳み込み層104は、隠れ層103からの(64,32,32)の入力マップに対して、畳み込みカーネルを適用し、その(64,32,32)の入力マップを対象とする畳み込みを行う。
畳み込みカーネルは、畳み込みを行うフィルタであり、本実施の形態では、畳み込み層104の畳み込みカーネルは、例えば、縦×横×チャネルが3×3×64のサイズで構成される。畳み込みカーネルの縦×横のサイズは、入力マップの縦×横のサイズ以下のサイズが採用され、畳み込みカーネルのチャネル数(チャネル方向のサイズ)は、入力マップのチャネル数と同一の値が採用される。
ここで、縦×横×チャネルがa×b×cのサイズの畳み込みカーネルを、a×b×cの畳み込みカーネル、又は、チャネルを無視して、a×bの畳み込みカーネルともいう。さらに、a×b×cの畳み込みカーネルを適用して行われる畳み込みを、a×b×cの畳み込み、又は、a×bの畳み込みともいう。
畳み込み層104では、(64,32,32)の入力マップに対して、3×3×64の畳み込みカーネルをスライドしながら適用することにより、入力マップの3×3の畳み込みを行う。
すなわち、畳み込み層104では、例えば、(64,32,32)の入力マップの、全チャネルの(空間的に)同一位置の画素(群)が、順次、注目画素(群)に設定され、(64,32,32)の入力マップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルが3×3×64の直方体状の範囲(畳み込みカーネルの縦×横×チャネルと同一の(大きさの)範囲)が、畳み込みの処理対象に設定される。
そして、(64,32,32)の入力マップのうちの、畳み込みの処理対象内の3×3×64の各データ(画素値)と、3×3×64の畳み込みカーネルとしてのフィルタのフィルタ係数との積和演算が行われ、その積和演算の結果が、注目画素についての畳み込みの結果として求められる。
畳み込み層104では、その後、まだ注目画素に設定されていない画素を、注目画素に新たに設定して、同様の処理が繰り返され、これにより、畳み込みカーネルが、注目画素の設定に応じてスライドされながら、入力マップに適用される。
ここで、畳み込み層104での畳み込みの結果を画素値とする画像としてのマップを、畳み込みマップともいう。
各チャネルの入力マップの全画素が、注目画素に設定される場合、畳み込みマップの縦×横のサイズは、入力マップの縦×横のサイズと同一の32×32(画素)となる。
また、各チャネルの入力マップの画素が、1画素以上おきに注目画素に設定される場合、すなわち、各チャネルの入力マップにおいて、注目画素に設定されない画素が存在する場合、畳み込みマップの縦×横のサイズは、入力マップの縦×横のサイズよりも小さくなる。この場合、プーリング(pooling)を行うことができる。
畳み込み層104は、畳み込みカーネルを、畳み込み層104の直後の上位層である隠れ層105が記憶する畳み込みマップのチャネル数と同一種類の畳み込みカーネルを有する。
図2において、隠れ層105は、(128,32,32)の畳み込みマップ(縦×横が32×32で、128チャネルの畳み込みマップ)を記憶する。
したがって、畳み込み層104は、128種類の3×3×64の畳み込みカーネルを有する。
畳み込み層104は、(64,32,32)の入力マップに対して、128種類の3×3×64の畳み込みカーネルそれぞれを適用することにより、(128,32,32)の畳み込みマップを求め、畳み込み層104の層出力データとして出力する。
なお、畳み込み層104では、入力マップに畳み込みカーネルを適用することにより得られる畳み込み結果を引数として演算した活性化関数の演算結果を、層出力データとして出力することができる。
隠れ層105は、畳み込み層104からの(128,32,32)の畳み込みマップを記憶し、NN106に出力する。又は、隠れ層105は、例えば、畳み込み層104からの(128,32,32)の畳み込みマップを構成するデータの重み付け加算値を引数とする活性化関数の演算結果を求め、その演算結果で構成されるマップを記憶し、NN106に出力する。
NN106は、NN102と同様に、NN100のサブセットとしてのNNであり、1以上の層で構成される。サブセットとしてのNN106には、NN102と同様に、隠れ層103及び105や、畳み込み層104、その他、後述する層と同様の層を含めることができる。
NN106の各層では、例えば、NN102と同様に、その層の直前の下位層からのデータの重み付け加算値が演算され、その重み付け加算値を引数として、活性化関数が演算される。そして、各層では、活性化関数の演算結果が記憶され、直後の上位層に出力される。
出力層107は、例えば、下位層からのデータの重み付け加算値を演算し、その重み付け加算値を引数として、活性化関数を演算する。そして、出力層107は、例えば、活性化関数の演算結果を、NN100の出力データとして出力する。
以上の入力層101ないし出力層107の処理は、対象物の検出等を行う順伝播時の処理であるが、学習を行う逆伝播時では、入力層101ないし出力層107において、直前の下位層に逆伝播する、出力データの誤差に関する誤差情報が、直後の上位層からの誤差情報を用いて求められ、直前の下位層に逆伝播される。また、入力層101ないし出力層107では、必要に応じて、結合重みや、畳み込みカーネルのフィルタ係数が、上位層からの誤差情報を用いて更新される。
<畳み込み層104の処理>
図3は、畳み込み層104の畳み込みの処理の例を説明する図である。
ここで、NNの層に対する層入力データ及び層出力データを、それぞれ、x及びyと表す。
畳み込み層104については、層入力データ及び層出力データは、それぞれ、入力マップ及び畳み込みマップである。
図3において、畳み込み層104に対する層入力データxとしてのマップ(入力マップ)xは、(c(in),M,N)のマップ、すなわち、縦×横がM×Nの、c(in)チャネルの画像になっている。
ここで、(c(in),M,N)のマップxのうちの、c+1番目(c=0,1,...,c(in)-1)のチャネル#cのマップxを、x(c)と表す。
また、マップx(c)において、所定の位置としての、例えば、マップx(c)の左上の位置を基準(原点等)とする縦方向及び横方向の位置を、それぞれi及びjで表し、マップx(c)の位置(i,j)のデータ(画素値)を、xij
(c)と表す。
畳み込み層104が出力する層出力データyとしてのマップ(畳み込みマップ)yは、(k(out),M,N)のマップ、すなわち、縦×横がM×Nの、k(out)チャネルの画像になっている。
ここで、(k(out),M,N)のマップyのうちの、k+1番目(k=0,1,...,k(out)-1)のチャネル#kのマップyを、y(k)と表す。
また、マップy(k)において、所定の位置としての、例えば、マップy(k)の左上の位置を基準とする縦方向及び横方向の位置を、それぞれi及びjで表し、マップy(k)の位置(i,j)のデータ(画素値)を、yij
(k)と表す。
畳み込み層104は、縦×横×チャネルがm×n×c(in)の畳み込みカーネルFを、k(out)個だけ有する。なお、1<=m<=M、及び、1<=n<=Nである。
ここで、k(out)個の畳み込みカーネルFのうちの、k+1番目の畳み込みカーネルF、すなわち、チャネル#kのマップy(k)の生成に用いられる畳み込みカーネルFを、F(k)と表す。
畳み込みカーネルF(k)は、c(in)チャネルのマップx(0),x(1),...,x(c(in)-1)にそれぞれ適用されるc(in)チャネルの畳み込みカーネルF(k,0),F(k,1),...,F(k,c(in)-1)から構成される。
畳み込み層104では、(c(in),M,N)のマップxに対して、m×n×c(in)の畳み込みカーネルF(k)をスライドしながら適用することにより、マップxのm×nの畳み込みが行われ、その畳み込み結果としてのチャネル#kのマップy(k)が生成される。
マップy(k)の位置(i,j)のデータyij
(k)は、m×n×c(in)の畳み込みカーネルF(k)が、例えば、マップx(c)の注目画素の位置(i,j)を中心とする縦×横×チャネル方向がm×n×c(in)の範囲に適用されたときの畳み込み結果である。
ここで、m×nの畳み込みカーネルF(k)、及び、そのm×nの畳み込みカーネルF(k)が適用されるマップxの空間方向(i及びjの方向)の縦×横がm×nの範囲については、所定の位置としての、例えば、そのm×nの範囲の左上の位置を基準とする縦方向及び横方向の位置を、それぞれs及びtで表す。例えば、0<=s<=m-1、及び、0<=t<=n-1である。
また、m×n×c(in)の畳み込みカーネルF(k)が、マップx(c)の注目画素の位置(i,j)を中心とする縦×横×チャネル方向がm×n×c(in)の範囲に適用される場合、注目画素が、マップxの左上の画素等の周辺部の画素である場合には、畳み込みカーネルF(k)が、マップxの外側にはみ出し、畳み込みカーネルF(k)を適用するマップxのデータが存在しないことが生じる。
そこで、畳み込みカーネルF(k)の適用にあたっては、畳み込みカーネルF(k)を適用するマップxのデータが存在しないことが生じることを防止するために、マップxの周囲に、ゼロ等の所定のデータをパディングすることができる。マップxの境界から縦方向にパディングされるデータの数をpと表すとともに、横方向にパディングされるデータの数をqと表すこととする。
図4は、3チャネルのマップy=y(0),y(1),y(2)の生成に用いられるm×n×c(in)=3×3×3の畳み込みカーネルFを示す図である。
畳み込みカーネルFは、y(0),y(1),y(2)の生成に用いられる畳み込みカーネルF(0),F(1),F(2)を有する。
畳み込みカーネルF(k)は、チャネル#0,1,2のマップx(0),x(1),x(2)に適用される畳み込みカーネルF(k,0),F(k,1),F(k,2)を有する。
チャネル#cのマップx(c)に適用される畳み込みカーネルF(k,c)は、m×n=3×3の畳み込みカーネルであり、3×3のフィルタ係数で構成される。
ここで、畳み込みカーネルF(k,c)の位置(s,t)のフィルタ係数を、wst
(k,c)と表す。
以上のような畳み込み層104において、マップxに畳み込みカーネルFを適用して、マップyを求める順伝播は、式(1)で表される。
また、逆伝播は、式(2)及び式(3)で表される。
ここで、Eは、NN(ここでは、例えば、NN100)の出力データの誤差(を表す誤差関数)を表す。
式(2)の∂E/∂wst
(k,c)は、勾配降下法により、畳み込みカーネルF(k,c)のフィルタ係数wst
(k,c)を更新するための誤差(E)の勾配であり、NN100の学習時においては、畳み込みカーネルF(k,c)のフィルタ係数wst
(k,c)が、式(2)の誤差の勾配∂E/∂wst
(k,c)を用いて更新される。
また、式(3)の∂E/∂xij
(c)は、NN100の学習時に、畳み込み層104の直前の下位層に逆伝播する誤差情報である。
ここで、畳み込み層104の層出力データyij
(k)は、畳み込み層104の直後の上位層である隠れ層105の層入力データxij
(c)となる。
したがって、式(2)右辺の∂E/∂yij
(k)は、誤差Eの、畳み込み層104の層出力データyij
(k)での偏微分を表すが、隠れ層105で得られる∂E/∂xij
(c)に等しく、隠れ層105から畳み込み層104に逆伝播されてくる誤差情報である。
畳み込み層104において、式(2)の∂E/∂wst
(k,c)は、上位層である隠れ層105からの誤差情報∂E/∂yij
(k)(隠れ層105で得られる∂E/∂xij
(c))を用いて求められる。
同様に、式(3)右辺の∂E/∂y(i+p-s)(j+q-t)
(k)も、隠れ層105から畳み込み層104に逆伝播されてくる誤差情報であり、畳み込み層104において、式(3)の誤差情報∂E/∂xij
(c)は、上位層である隠れ層105からの誤差情報∂E/∂y(i+p-s)(j+q-t)
(k)を用いて求められる。
ところで、NNについては、NN100のようなCNNのネットワーク設計が、NNの進化の観点から注目されている。
近年では、1×1の畳み込みや、3×3の畳み込みを行う畳み込み層を、多層に重ねたCNNが多数提案されている。例えば、ImageNetのデータセットを用いて学習を行ったCNNとして、AlexNetや、GoogleNet,VGG,ResNet等が知られている。
CNNの学習では、畳み込み層については、m×n×c(in)の畳み込みカーネルF(k)、すなわち、マップxのチャネル数c(in)だけの厚みを有する畳み込みカーネルF(k)のフィルタ係数wst
(k,c)が学習される。
畳み込み層では、マップy(k)とマップxとの結合は、マップy(k)の1個のデータyij
(k)に対して、マップxのm×n×c(in)個のデータxij
(c)すべてが、畳み込みカーネルF(k)のm×n×c(in)個のフィルタ係数wst
(k,c)を結合重みとして結合される、いわば高密度な(dense)結合になっている。
ところで、フィルタ係数wst
(k,c)が小さくなるような項を、誤差関数Eに含めて、畳み込みカーネルF(k)(のフィルタ係数wst
(k,c))の学習を行うと、マップy(k)とxとの結合が、いわば薄くなる。
すなわち、畳み込みカーネルF(k)によって抽出したい情報が(ほぼ)ないデータxij
(c)と、データyij
(k)との結合重みとしてのフィルタ係数wst
(k,c)は、ゼロに近い小さい値になり、実質的に、1個のデータyij
(k)と結合するデータxij
(c)は疎になる。
このことは、畳み込みカーネルF(k)のm×n×c(in)個のフィルタ係数wst
(k,c)が冗長性を有すること、さらには、畳み込みカーネルF(k)よりもフィルタ係数を(実際に、又は、実質的に)少なくした、いわば、畳み込みカーネルF(k)を近似する近似カーネルを用いて、畳み込みカーネルF(k)を用いる場合と同様の認識(検出)等を行うことができること、すなわち、認識等の性能を(ほぼ)維持したまま、NNの計算量及びパラメータ数としてのフィルタ係数(結合重み)の数を削減することができることを意味する。
本明細書では、以上のような知見に基づき、新しい数学的な特性を有するNNの層としての2値演算層を提案する。
2値演算層は、その2値演算層に入力される層入力データのうちの2値を用いた2値演算を行い、その2値演算の結果を、2値演算層から出力される層出力データとして出力する。2値演算層では、畳み込み演算と同様の処理対象をもち、学習対象のパラメータ数が少ないカーネルを利用することで正則化の効果もあり、必要以上に大きいパラメータ数を抑えることで過学習を回避し、性能向上も期待できる。
なお、NNについては、新しい数学的な特性を有する層を定義し、その層を含むネットワーク構成のNNで学習を行うことによって、認識等の性能が向上する例が、多数報告されている。例えば、Google社のBatch Normalizationと呼ばれる層では、入力の平均と分散を正規化して後段(上位層)に伝播することで、深いNN(層の数が多いNN)を安定して学習させることを可能にしている。
以下、2値演算層について説明する。
例えば、3×3の畳み込み等の、任意のA×B(>1)の畳み込みは、2値演算層を利用して近似することができる。
すなわち、A×B(>1)の畳み込みは、例えば、1×1の畳み込みと2値演算とで近似することができる。
<2値演算層を利用したA×Bの畳み込みの近似>
図5及び図6を参照して、2値演算層を利用したA×B(>1)の畳み込みの近似、すなわち、1×1の畳み込みと2値演算とによるA×B(>1)の畳み込みの近似について説明する。
図5は、A×B(>1)の畳み込みを説明する図である。
すなわち、図5は、A×B=3×3の畳み込みを行う3チャネルの畳み込みカーネルF(k,0),F(k,1),F(k,2)と、その畳み込みカーネルF(k,c)が適用される3チャネルのマップx(0),x(1),x(2)との例を示している。
なお、図5では、説明を簡単にするため、マップx(c)は、3×3のマップであることとする。
畳み込みカーネルF(k,c)の3×3のフィルタ係数については、学習により、左上のフィルタ係数が+1になり、右下のフィルタ係数が-1になっている。また、他のフィルタ係数は、(ほぼ)ゼロになっている。
例えば、斜め方向のエッジの検出が必要な畳み込みでは、以上のようなフィルタ係数を有する畳み込みカーネルF(k,c)が、学習により求められる。
図5では、畳み込みカーネルF(k,c)が適用されるマップx(c)の範囲の左上のデータがA#cになっており、右下のデータがB#cになっている。
図5の畳み込みカーネルF(k,c)が、図5のマップx(c)の範囲に適用され、畳み込みが行われた場合、その畳み込みの結果得られるデータyij
(k)は、yij
(k)=A0+A1+A2-(B0+B1+B2)となる。
図6は、1×1の畳み込みを説明する図である。
すなわち、図6は、1×1の畳み込みを行う3チャネルの畳み込みカーネルF(k,0),F(k,1),F(k,2)、その畳み込みカーネルF(k,c)が適用される3チャネルのマップx(0),x(1),x(2)、及び、畳み込みカーネルF(k,c)をマップx(c)に適用して得られる畳み込み結果としてのマップy(k)の例を示している。
図6において、マップx(c)は、図5の場合と同様に構成される。また、マップy(k)は、マップx(c)と同様に、3×3のマップになっている。
また、1×1の畳み込みを行う畳み込みカーネルF(k,c)は、1個のフィルタ係数w00
(k,c)を有する。
図6の1×1の畳み込みカーネルF(k,c)が、マップx(c)の左上の画素に適用され、畳み込みが行われた場合、その畳み込みの結果得られる、マップy(k)の左上のデータy00
(k)は、y00
(k)=w00
(k,0)×A0+w00
(k,1)×A1+w00
(k,2)×A2となる。
したがって、フィルタ係数w00
(k,c)が1であるとすると、1×1の畳み込みカーネルF(k,c)が、マップx(c)の左上の画素に適用されることにより得られるデータ(畳み込みの結果)y00
(k)は、y00
(k)=A0+A1+A2になる。
同様に、1×1の畳み込みカーネルF(k,c)が、マップx(c)の右下の画素に適用されることにより得られる、マップy(k)の右下のデータy22
(k)は、y22
(k)=B0+B1+B2になる。
したがって、1×1の畳み込みの結果得られるマップy(k)を対象に、そのマップy(k)の左上のデータy00
(k)と、右下のデータy22
(k)との差分を求める2値演算y00
(k)-y22
(k)=(A0+A1+A2)-(B0+B1+B2)を行うことにより、図5の3×3の畳み込みカーネルF(k,c)を適用した場合と同様のデータyij
(k)=A0+A1+A2-(B0+B1+B2)を得ることができる。
以上から、A×B(>1)の畳み込みは、1×1の畳み込みと2値演算とで近似することができる。
いま、説明を簡単にするため、チャネル方向を無視することとすると、A×B(>1)の畳み込みでは、A×B個のフィルタ係数を用いた積和演算が行われる。
一方、1×1の畳み込みでは、1個のフィルタ係数をパラメータとして、積が演算される。また、2値の差分を求める2値演算では、+1及び-1をフィルタ係数とする積和演算、すなわち、2個のフィルタ係数を用いた積和演算が行われる。
したがって、1×1の畳み込みと2値演算との組み合わせによれば、A×B(>1)の畳み込みよりも、パラメータ数としてのフィルタ係数の数、及び、計算量を削減することができる。
<2値演算層を含むNNの構成例>
図7は、PC10により実現されるNNの第2の構成例を示すブロック図である。
なお、図中、図2と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図7において、NN110は、2値演算層112を含むNNで、入力層101、NN102、隠れ層103、隠れ層105、NN106、出力層107、畳み込み層111、及び、2値演算層112を有する。
したがって、NN110は、入力層101、NN102、隠れ層103、隠れ層105、NN106、及び、出力層107を有する点で、図2のNN100と共通する。
但し、NN110は、畳み込み層104に代えて、畳み込み層111、及び、2値演算層112を有する点で、図2のNN100と相違する。
畳み込み層111、及び、2値演算層112では、結果として、図2の畳み込み層104で行われる3×3の畳み込みを近似する処理を行うことができる。
畳み込み層111には、層入力データとして、隠れ層103からの(64,32,32)のマップが供給される。
畳み込み層111は、図2の畳み込み層104と同様に、隠れ層103からの層入力データとしての(64,32,32)のマップに対して、畳み込みカーネルを適用し、その(64,32,32)のマップを対象とする畳み込みを行う。
但し、図2の畳み込み層104は、3×3の畳み込みカーネルを用いて、3×3の畳み込みを行うが、畳み込み層111は、畳み込み層104の3×3の畳み込みカーネルよりもフィルタ係数の数が少ない、例えば、1×1の畳み込みカーネルを用いて、1×1の畳み込みを行う。
すなわち、畳み込み層111では、層入力データとしての(64,32,32)のマップに対して、1×1×64の畳み込みカーネルをスライドしながら適用することにより、(64,32,32)のマップの1×1の畳み込みを行う。
具体的には、畳み込み層111では、例えば、層入力データとしての(64,32,32)のマップの、全チャネルの同一位置の画素が、順次、注目画素に設定され、(64,32,32)のマップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルが1×1×64の直方体状の範囲(畳み込みカーネルの縦×横×チャネルと同一の範囲)が、畳み込みの処理対象に設定される。
そして、(64,32,32)のマップのうちの、畳み込みの処理対象内の1×1×64の各データ(画素値)と、1×1×64の畳み込みカーネルとしてのフィルタのフィルタ係数との積和演算が行われ、その積和演算の結果が、注目画素の畳み込みの結果として求められる。
畳み込み層111では、その後、まだ注目画素に設定されていない画素を、注目画素に新たに設定して、同様の処理が繰り返され、これにより、畳み込みカーネルが、注目画素の設定に応じてスライドされながら、層入力データとしてのマップに適用される。
なお、畳み込み層111は、1×1×64の畳み込みカーネルを、例えば、図2の畳み込み層104と同様に、128種類だけ有し、(64,32,32)のマップに対して、128種類の1×1×64の畳み込みカーネルそれぞれを適用することにより、(128,32,32)のマップ(畳み込みマップ)を求め、畳み込み層104の層出力データとして出力する。
また、畳み込み層111では、畳み込み層104と同様に、畳み込みカーネルを適用することにより得られる畳み込み結果を引数として演算した活性化関数の演算結果を、層出力データとして出力することができる。
2値演算層112は、例えば、畳み込み層111が出力する(128,32,32)のマップの、全チャネルの同一位置の画素を、順次、注目画素に設定し、(128,32,32)のマップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルがA×B×Cの直方体状の範囲を、2値演算の処理対象に設定する。
ここで、2値演算の処理対象としての直方体状の範囲の縦×横のサイズとしては、例えば、2値演算層112を利用して近似する畳み込み層104の畳み込みカーネルの縦×横(畳み込みの処理対象の縦×横)と同一のサイズ、すなわち、ここでは、3×3を採用することができる。
2値演算の処理対象としての直方体状の範囲のチャネル方向のサイズとしては、2値演算層112に対する層入力データのチャネルの数、すなわち、ここでは、畳み込み層111が出力する(128,32,32)のマップのチャネルの数である128が採用される。
したがって、注目画素に対する2値演算の処理対象は、(128,32,32)のマップの、例えば、注目画素の位置を中心とする、縦×横×チャネルが3×3×128の直方体状の範囲である。
2値演算層112は、畳み込み層111からの(128,32,32)のマップ(畳み込みマップ)のうちの、注目画素に対して設定した処理対象の中の2個のデータを用いて2値演算を行い、その2値演算の結果を、層出力データとして、上位層の隠れ層105に出力する。
ここで、2値演算層112での2個のデータd1及びd2を用いた2値演算としては、2個のデータd1及びd2の和、差、積、商、その他、例えば、f(d1,d2)=sin(d1)×cos(d2)等の所定の関数の演算を採用することができる。さらに、2個のデータd1及びd2を用いた2値演算としては、2個のデータd1及びd2のANDや、OR,XOR等の論理演算を採用することができる。
以下では、説明を簡単にするため、2値演算層112での2個のデータd1及びd2を用いた2値演算としては、例えば、2個のデータd1及びd2の差分d1-d2を求める演算を採用することとする。
2値演算としての2個のデータd1及びd2の差分を求める差分演算は、2値演算の処理対象と同一サイズの、縦×横×チャネルが3×3×128のカーネルであって、データd1に適用されるフィルタ係数が+1で、データd2に適用されるフィルタ係数が-1の、2個だけのフィルタ係数を有するカーネルを、2値演算の処理対象に適用して、積和演算(+1×d1+(-1)×d2)を行う処理であると捉えることができる。
ここで、2値演算層112が2値演算を行うのに用いるカーネル(フィルタ)を、2値演算カーネルともいう。
2値演算カーネルは、以上のように、データd1に適用されるフィルタ係数が+1で、データd2に適用されるフィルタ係数が-1の、2個のフィルタ係数を有するカーネルであると捉える他、例えば、2値演算の処理対象と同一サイズの、縦×横×チャネルが3×3×128のカーネルであって、データd1及びd2に適用されるフィルタ係数がそれぞれ+1及び-1で、他のデータに適用されるフィルタ係数が0の、2値演算の処理対象と同一サイズのフィルタ係数を有するカーネルであると捉えることもできる。
以上のように、2値演算を、2値演算カーネルの適用と捉える場合には、2値演算層112では、畳み込み層111からの層入力データとしての(128,32,32)のマップに対して、3×3×128の2値演算カーネルがスライドしながら適用される。
すなわち、2値演算層112は、例えば、畳み込み層111が出力する(128,32,32)のマップの、全チャネルの同一位置の画素を、順次、注目画素に設定し、(128,32,32)のマップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルが3×3×128の直方体状の範囲(2値演算カーネルの縦×横×チャネルと同一の範囲)を、2値演算の処理対象に設定する。
そして、(128,32,32)のマップのうちの、2値演算の処理対象内の3×3×128の各データ(画素値)と、3×3×128の2値演算カーネルとしてのフィルタのフィルタ係数との積和演算が行われ、その積和演算の結果が、注目画素についての2値演算の結果として求められる。
2値演算層112では、その後、まだ注目画素に設定されていない画素を、注目画素に新たに設定して、同様の処理が繰り返され、これにより、2値演算カーネルが、注目画素の設定に応じてスライドされながら、層入力データとしてのマップに適用される。
なお、図7では、2値演算層112は、2値演算カーネルを、例えば、128種類だけ有し、畳み込み層111からの(128,32,32)のマップ(畳み込みマップ)に対して、128種類の2値演算カーネルそれぞれを適用することにより、(128,32,32)のマップを求め、2値演算層112の層出力データとして、隠れ層105に出力する。
ここでは、2値演算の対象となるマップのチャネル数と、2値演算の結果得られるマップのチャネル数とが、同一の128チャネルとしたが、2値演算の対象となるマップのチャネル数と、2値演算の結果得られるマップのチャネル数とは、同一である必要はない。
例えば、2値演算層112の2値演算カーネルとして、例えば、256種類の2値演算カーネルを用意することにより、2値演算層112において、2値演算カーネルを、畳み込み層111からの(128,32,32)のマップに対して適用することにより得られる2値演算結果としてのマップのチャネル数は、2値演算カーネルの種類数に等しい256チャネルになる。
また、本実施の形態では、2値演算として、差分を採用することとしたが、異なる種類の2値演算カーネルでは、異なる種類の2値演算を採用することができる。
また、2値演算カーネルにおいて、ある画素を注目画素として設定される処理対象と、他の画素を注目画素として設定される処理対象とでは、処理対象において、同一の位置の2値(データ)を、2値演算の対象とすることもできるし、異なる位置の2値を、2値演算の対象とすることができる。
すなわち、ある画素を注目画素として設定される処理対象については、その処理対象における位置P1及びP2の2値を、2値演算の対象とし、他の画素を注目画素として設定される処理対象についても、その処理対象における位置P1及びP2の2値を、2値演算の対象とすることができる。
また、ある画素を注目画素として設定される処理対象については、その処理対象における位置P1及びP2の2値を、2値演算の対象とし、他の画素を注目画素として設定される処理対象については、その処理対象における、位置P1及びP2のペアと異なるペアの位置P1'及びP2'の2値を、2値演算の対象とすることができる。
この場合、スライドしながら適用される2値演算カーネルの2値演算の対象となる2値の位置が、処理対象において変化する。
なお、2値演算層112において、2値演算の対象の各チャネルのマップ、すなわち、畳み込み層111からの各チャネルのマップの全画素が、注目画素に設定される場合、2値演算の結果としてのマップの縦×横のサイズは、2値演算の対象のマップの縦×横のサイズと同一の32×32(画素)となる。
また、2値演算の対象の各チャネルのマップの画素が、1画素以上おきに注目画素に設定される場合、すなわち、2値演算の対象の各チャネルのマップにおいて、注目画素に設定されない画素が存在する場合、2値演算の結果としてのマップの縦×横のサイズは、2値演算の対象のマップの縦×横のサイズよりも小さくなる(プーリングが行われる)。
さらに、上述の場合には、2値演算カーネル(2値演算の処理対象)の縦×横のサイズとして、2値演算層112を利用して近似する畳み込み層104(図2)の畳み込みカーネルの縦×横(畳み込みの処理対象の縦×横)と同一のサイズ、すなわち、3×3を採用することとしたが、2値演算カーネル(2値演算の処理対象)の縦×横のサイズとしては、1×1より大のサイズ、又は、畳み込み層111の畳み込みカーネルより大のサイズであって、2値演算の対象のマップと同一のサイズ、すなわち、32×32以下のサイズを採用することができる。
なお、2値演算カーネルの縦×横のサイズとして、2値演算の対象のマップと同一のサイズ、すなわち、ここでは、32×32のサイズを採用する場合には、2値演算カーネルをスライドさせずに、2値演算の対象のマップ全体に適用することができる。この場合、1種類の2値演算カーネルを適用することにより得られるマップは、2値演算の結果得られる1つの値で構成される。
以上の畳み込み層111及び2値演算層112の処理は、対象物の検出等を行う順伝播時の処理であるが、学習を行う逆伝播時では、畳み込み層111及び2値演算層112において、直前の下位層に逆伝播する、出力データの誤差に関する誤差情報が、直後の上位層からの誤差情報を用いて求められ、直前の下位層に逆伝播される。また、畳み込み層111では、畳み込みカーネルのフィルタ係数が、上位層(ここでは、2値演算層112)からの誤差情報を用いて更新される。
<2値演算層112の処理>
図8は、2値演算層112の2値演算の処理の例を説明する図である。
図8において、マップxは、2値演算層112に対する層入力データxである。マップxは、図3の場合と同様に、(c(in),M,N)のマップ、すなわち、縦×横がM×Nの、c(in)チャネルの画像になっており、c(in)チャネルのマップx(0),x(1),...,x(c(in)-1)から構成される。
また、図8において、マップyは、2値演算層112が出力する層出力データyである。マップyは、図3の場合と同様に、(k(out),M,N)のマップ、すなわち、縦×横がM×Nの、k(out)チャネルの画像になっており、k(out)チャネルのマップy(0),y(1),...,y(k(out)-1)から構成される。
2値演算層112は、縦×横×チャネルがm×n×c(in)の2値演算カーネルGを、k(out)個だけ有する。ここで、1<=m<=M、及び、1<=n<=N、並びに、1<m×n<=M×Nである。
2値演算層112は、k(out)個の2値演算カーネルGのうちの、k+1番目の2値演算カーネルG(k)を、マップxに適用し、チャネル#kのマップy(k)を求める。
すなわち、2値演算層112は、マップxの、全チャネルの同一位置の画素を、順次、注目画素に設定し、マップxにおいて、例えば、注目画素の位置を中心とする、縦×横×チャネルがm×n×c(in)の直方体状の範囲を、2値演算の処理対象に設定する。
そして、2値演算層112は、マップxのうちの、注目画素に対して設定した処理対象に対して、k+1番目の2値演算カーネルG(k)を適用し、処理対象の中の2個のデータ(2値)を用いた2値演算としての差分演算を行い、その2個のデータの差分を求める。
2値演算カーネルG(k)を適用した処理対象が、縦方向にi番目で、横方向にj番目の処理対象である場合、2値演算カーネルG(k)を適用して求められた差分は、チャネル#kのマップy(k)の位置(i,j)のデータ(画素値)yij
(k)となる。
図9は、2値演算カーネルG(k)が処理対象に適用される様子を示す図である。
図8で説明したように、2値演算層112は、縦×横×チャネルがm×n×c(in)の2値演算カーネルGを、k(out)個だけ有する。
ここで、k(out)個の2値演算カーネルGを、G(0),G(1),...,G(k(out)-1)と表す。
2値演算カーネルG(k)は、c(in)チャネルのマップx(0),x(1),...,x(c(in)-1)にそれぞれ適用されるc(in)チャネルの2値演算カーネルG(k,0),G(k,1),...,G(k,c(in)-1)から構成される。
2値演算層112では、(c(in),M,N)のマップxに対して、m×n×c(in)の2値演算カーネルG(k)をスライドしながら適用することにより、マップxにおいて、2値演算カーネルG(k)が適用される、縦×横×チャネルがm×n×c(in)の処理対象の中の2値の差分演算が行われ、その差分演算により得られる2値の差分からなるチャネル#kのマップy(k)が生成される。
なお、図3の場合と同様に、m×n×c(in)の2値演算カーネルG(k)、及び、その2値演算カーネルG(k)が適用されるマップxの空間方向(i及びjの方向)の縦×横がm×nの範囲については、所定の位置としての、例えば、そのm×nの範囲の左上の位置を基準とする縦方向及び横方向の位置を、それぞれs及びtで表す。
また、2値演算カーネルG(k)を、マップxに適用するにあたっては、マップxにパディングを行うこととし、図3で説明したように、マップxの境界から縦方向にパディングされるデータの数をpと表すとともに、横方向にパディングされるデータの数をqと表すこととする。p=q=0とすることで、パディングは、なしにすることができる。
ここで、図7で説明したように、2値演算としての2個のデータd1及びd2の差分を求める差分演算は、例えば、データd1に適用されるフィルタ係数が+1で、データd2に適用されるフィルタ係数が-1の、2個だけのフィルタ係数を有する2値演算カーネルを、2値演算の処理対象に適用して、積和演算(+1×d1+(-1)×d2)を行う処理であると捉えることができる。
いま、2値演算カーネルG(k)のフィルタ係数の+1が積算されるデータd1の、処理対象内のチャネル方向、縦、横の位置を(c,s,t)を、(c0(k),s0(k),t0(k))と表すとともに、2値演算カーネルG(k)のフィルタ係数の-1が積算されるデータd2の、処理対象内のチャネル方向、縦、横の位置を(c,s,t)を、(c1(k),s1(k),t1(k))と表すこととする。
2値演算層112において、マップxに2値演算カーネルGを適用して、2値演算としての差分演算を行い、マップyを求める順伝播は、式(4)で表される。
また、逆伝播は、式(5)で表される。
式(5)の∂E/∂xij
(c)は、NN110の学習時に、2値演算層112の直前の下位層、すなわち、図7では、畳み込み層111に逆伝播する誤差情報である。
ここで、2値演算層112の層出力データyij
(k)は、2値演算層112の直後の上位層である隠れ層105の層入力データxij
(c)となる。
したがって、式(5)右辺の∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)は、誤差Eの、2値演算層112の層出力データy(i+p-s0(k))(j+q-t0(k))
(k)での偏微分を表すが、隠れ層105で得られる∂E/∂xij
(c)と等価であり、隠れ層105から2値演算層112に逆伝播されてくる誤差情報である。
2値演算層112において、式(5)の誤差情報∂E/∂xij
(c)は、上位層である隠れ層105からの誤差情報∂E/∂xij
(c)を、誤差情報∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)として用いて求められる。
また、式(5)において、サメーション(Σ)の範囲を規定するk0(c)は、マップxの処理対象における位置(c0(k), s0(k), t0(k))のデータxs0(k)t0(k)
(c0(k))を用いて求められたマップy(k)のデータyij
(k)のkの集合を表す。
式(5)のサメーションは、k0(c)に属するkについてとられる。
K1(c)についても、同様である。
なお、NNを構成する層には、その層のユニットそれぞれが、下位層のすべてのユニットと結合している全結合層(アフィン層)や、層入力データに対して、カーネルが適用される位置によって結合重みが変化し得るLCL(Locally Connected Layer)がある。
LCLは、全結合層の部分集合であり、畳み込み層は、LCLの部分集合である。また、2値演算としての差分演算を行う2値演算層112は、畳み込み層の部分集合であるとみなすことができる。
以上のように、2値演算層112は、畳み込み層の部分集合であるとみなすことができる場合には、2値演算層112の順伝播及び逆伝播は、式(4)及び式(5)で表すことができる他、畳み込み層の順伝播及び逆伝播を表す式(1)及び式(3)で表すこともできる。
すなわち、2値演算層112の2値演算カーネルは、図7で説明したように、2個のデータd1及びd2に適用されるフィルタ係数がそれぞれ+1及び-1で、他のデータに適用されるフィルタ係数が0の、2値演算の処理対象と同一サイズのフィルタ係数を有するカーネルであると捉えることができる。
したがって、式(1)及び式(3)は、2個のデータd1及びd2に適用されるフィルタ係数wst
(k,c)をそれぞれ+1及び-1とし、他のデータに適用されるフィルタ係数wst
(k,c)を0とすることにより、2値演算層112の順伝播及び逆伝播を表す。
2値演算層112の順伝播及び逆伝播を、式(1)及び式(3)、又は、式(4)及び式(5)のいずれで実現するかは、2値演算層112を実現するハードウェアやソフトウェアの仕様等により決定することができる。
なお、上述したことから、2値演算層112は、畳み込み層の部分集合である他、LCLの部分集合でもあり、全結合層の部分集合でもある。したがって、2値演算層112の順伝播及び逆伝播は、畳み込み層の順伝播及び逆伝播を表す式(1)及び式(3)の他、LCLの順伝播及び逆伝播を表す式や、全結合層の順伝播及び逆伝播を表す式を用いて表すこともできる。
また、式(1)ないし式(5)は、バイアス項が含まれていないが、2値演算層112の順伝播及び逆伝播は、バイアス項を含む式で表すことができる。
図7のNN110では、畳み込み層111において、1×1の畳み込みが行われ、その畳み込みの結果得られるマップに対し、2値演算層112において、縦×横がm×nの2値演算カーネルが適用される。
以上のような、1×1の畳み込みを行う畳み込み層111と、縦×横がm×nの2値演算カーネルを適用する2値演算層112との組み合わせによれば、1×1の畳み込みによって、畳み込み層111に対する層入力データのチャネルどうしの間のインタラクションが維持され、その後の2値演算によって、畳み込み層111に対する層入力データの空間方向(i及びjの方向)の情報が、2値の差分等の形で、上位層(図7では、隠れ層105)に伝達される。
そして、畳み込み層111と2値演算層112との組み合わせでは、学習が行われる結合重みは、1×1の畳み込みに用いられる畳み込みカーネルFのフィルタ係数w00
(k,c)だけであるが、畳み込み層111の層入力データと、2値演算層112の層出力データとの結合は、2値演算カーネルの縦×横のサイズと同様のm×nの拡がりのある畳み込みを行う畳み込み層の層入力データと層出力データとの結合を近似する構成となる。
その結果、畳み込み層111と2値演算層112との組み合わせによれば、2値演算層112の上位層側から見て、縦×横がm×nの範囲をカバーする畳み込み、すなわち、m×nの畳み込みと同様の性能の畳み込みを、パラメータ数としての畳み込みカーネルFのフィルタ係数w00
(k,c)の数、及び、計算量を1/(m×n)に削減して行うことができる。
なお、畳み込み層111では、1×1の畳み込みの他、2値演算カーネルの空間方向のサイズ、すなわち、縦×横がm×nより小さいm'×n'の畳み込みカーネルによって、m'×n'の畳み込みを行うことができる。ここで、m'<=m、n'<=n、及び、m'×n'<m×nである。
畳み込み層111において、m'×n'の畳み込みが行われる場合、パラメータ数としての畳み込みカーネルFのフィルタ係数w00
(k,c)の数、及び、計算量は、m×nの畳み込みの(m'×n')/(m×n)になる。
また、畳み込み層111で行う畳み込みは、複数の層に分けて行うことができる。畳み込み層111で行う畳み込みを、複数の層に分けて行うことにより、畳み込みカーネルFのフィルタ係数w00
(k,c)の数、及び、計算量を削減することができる。
すなわち、例えば、畳み込み層111において、64チャネルのマップを対象として、1×1の畳み込みを行い、128チャネルのマップを生成する場合には、畳み込み層111の1×1の畳み込みは、例えば、64チャネルのマップを対象として、1×1の畳み込みを行い、16チャネルのマップを生成する第1の畳み込み層と、その16チャネルのマップを対象として、1×1の畳み込みを行い、128チャネルのマップを生成する第2の畳み込み層とに分けて行うことができる。
畳み込み層111において、64チャネルのマップを対象として、1×1の畳み込みを行い、128チャネルのマップを生成する場合、畳み込みカーネルのフィルタ係数の数は、64×128になる。
一方、64チャネルのマップを対象として、1×1の畳み込みを行い、16チャネルのマップを生成する第1の畳み込み層の畳み込みカーネルのフィルタ係数の数は、64×16になり、16チャネルのマップを対象として、1×1の畳み込みを行い、128チャネルのマップを生成する第2の畳み込み層の畳み込みカーネルのフィルタ係数の数は、16×128になる。
したがって、畳み込み層111に代えて、第1及び第2の畳み込み層を採用することにより、フィルタ係数の数を、64×128から、64×16+16×128に削減することができる。計算量についても、同様である。
<2値演算層112の2値演算の対象とする2値の選択方法>
図10は、2値演算層112の2値演算の対象とする2値を選択する選択方法の例を示す図である。
2値演算の処理対象である、マップxの、注目画素の位置を中心とする、縦×横×チャネルがm×n×c(in)の直方体状の範囲からは、2値演算の対象とする2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))(図9)を、例えば、ランダムに選択することができる。
すなわち、2値演算の対象とする2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))は、ランダムプロジェクション(Random Projection)その他の任意の方法によりランダムに選択することができる。
さらに、2値演算の対象とする2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するにあたっては、所定の制約を課すことができる。
2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を、ランダムに選択する場合には、2値演算層112の層入力データとしてのマップxの中で、2値演算層112の層出力データとしてのマップyと結合されないチャネル#cのマップx(c)、すなわち、2値演算に用いられないマップx(c)が生じ得る。
そこで、2値演算の対象とする2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するにあたっては、2値演算に用いられないマップx(c)が生じないように、2値演算層112において、各チャネル#cのマップx(c)を、1チャネル以上のマップy(k)と結合させる制約、すなわち、各チャネル#cのマップx(c)から、位置(c0(k),s0(k),t0(k))又は(c1(k),s1(k),t1(k))となる位置(c,s,t)が1以上選択される制約を課すことができる。
なお、2値演算層112において、各チャネル#cのマップx(c)を、1チャネル以上のマップy(k)と結合させる制約を課すことに代えて、2値演算に用いられないマップx(c)が生じた場合には、例えば、2値演算層112の直前の下位層において、2値演算に用いられないマップx(c)を削除する後処理を行うことができる。
図9で説明したことから、m'×n'(<m×n)の畳み込みを行う畳み込み層111と、マップxの縦×横×チャネル方向がm×n×c(in)の範囲を処理対象として2値演算を行う2値演算層112との組み合わせでは、m×nの畳み込みを近似することができる。したがって、2値演算の処理対象の縦×横がm×nの空間方向の拡がりは、m×nの畳み込みを行う畳み込みカーネルの空間方向の拡がり、ひいては、m×nの畳み込みの対象となるマップxの空間方向の拡がりに対応する。
マップxの、空間方向の広い範囲を対象として、畳み込みを行う場合には、マップxの低周波数成分を抽出することができ、マップxの、空間方向の狭い範囲を対象として、畳み込みを行う場合には、マップxの高周波数成分を抽出することができる。
そこで、2値演算の対象とする2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するにあたっては、マップxから様々な周波数成分を抽出することができるように、m×n×c(in)の処理対象から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するときの空間方向の範囲を、m×nを最大の範囲として、層出力データとしてのマップy(k)のチャネル#kによって変化させることができる。
例えば、m×nが9×9である場合には、マップy(k)の1/3のチャネルについては、9×9×c(in)の処理対象の全体を対象として、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択することができる。
さらに、例えば、マップy(k)の、他の1/3のチャネルについては、9×9×c(in)の処理対象のうちの、注目画素を中心とする、空間方向が5×5の狭い範囲を対象として、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択することができる。
そして、例えば、マップy(k)の、残りの1/3のチャネルについては、9×9×c(in)の処理対象のうちの、注目画素を中心とする、空間方向が3×3のより狭い範囲を対象として、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択することができる。
以上のように、マップxのm×n×c(in)の処理対象から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するときの空間方向の範囲を、マップy(k)のチャネル#kによって変化させることで、マップxから様々な周波数成分を抽出することができる。
なお、以上のように、マップxのm×n×c(in)の処理対象から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するときの空間方向の範囲を、マップy(k)のチャネル#kによって変化させることは、1のチャネル#kの層出力データとしてのマップy(k)を得る場合と、他の1のチャネル#k'の層出力データとしてのマップy(k')を得る場合とで、空間方向のサイズが異なる2値演算カーネルを適用することと等価である。
また、2値演算層112では、マップx(c)のチャネル#Cによって、空間方向のサイズが異なる2値演算カーネルG(k,c)を採用することが可能である。
マップxのm×n×c(in)の処理対象から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するにあたっては、マップxのオリエンテーションに応じて、処理対象から選択される2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))のパターンを調整することができる。
例えば、人の顔が映る画像は、横方向のエッジが多く、そのような横方向のエッジに対応するオリエンテーションが頻繁に出現する。そこで、入力データとしての画像に、人の顔が映るかどうかを検出する場合には、横方向のエッジに対応するオリエンテーションに応じて、横方向のエッジに対する感度が高くなるような2値演算が行われるように、処理対象から選択される2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))のパターンを調整することができる。
例えば、マップxにおいて、縦方向の位置が異なる位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の2値を用いて2値演算としての差分演算が行われる場合には、位置(c0(k),s0(k),t0(k))又は位置(c1(k),s1(k),t1(k))上に、横方向のエッジがあると、差分演算により求められる差分の大きさが大になり、横方向のエッジに対する感度が高くなる。この場合、横方向のエッジが多い人の顔が映るかどうかを検出するときの検出性能を向上させることができる。
マップxのm×n×c(in)の処理対象から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択するにあたっては、処理対象から選択される2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))のパターンが均一化するような制約、すなわち、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))のパターンとして、様々なパターンが万遍なく出現する制約を課すことができる。
また、処理対象から選択される2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))のパターンについては、処理対象から選択される2値から得られる周波数成分やオリエンテーションが万遍なくばらつくような制約を課すことができる。
さらに、処理対象のチャネル方向を無視して、空間方向に注目すると、例えば、処理対象の空間方向のサイズが、例えば、m×n=9×9である場合、処理対象からの2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の選択は、処理対象の中心の、例えば、縦×横が3×3の領域よりも、処理対象の周囲の領域(処理対象の中心の3×3の領域以外の領域)から行われる頻度が高くなる。処理対象の中心の3×3の領域よりも、処理対象の周囲の領域の方が、面積が広いからである。
2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))は、処理対象の中心の3×3の領域から選択された方が良い場合もあるし、処理対象の周囲の領域から選択された方が良い場合もある。
そこで、処理対象からの2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の選択については、注目画素から位置(c0(k),s0(k),t0(k))までの空間方向の距離や、位置(c1(k),s1(k),t1(k))までの空間方向の距離が、万遍なくばらつくような制約を課すことができる。
また、処理対象からの2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の選択については、例えば、必要に応じて、注目画素から位置(c0(k),s0(k),t0(k))までの空間方向の距離や、位置(c1(k),s1(k),t1(k))までの空間方向の距離が、近い距離(閾値以下の距離)になるような制約(バイアス)を課すことができる。
さらに、処理対象からの2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の選択については、処理対象の空間方向が円形の範囲から、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))が選択される制約を課すことができる。この場合、円形フィルタ(フィルタ係数が円形の範囲に適用されるフィルタ)が行う処理に相当する処理を行うことが可能になる。
なお、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の組を、ランダムに選択する場合に、あるチャネル#kの2値演算カーネルG(k)と、他のチャネル#k'の2値演算カーネルG(k')とで、同一の組が選択されることとなったときには、2値演算カーネルG(k)及びG(k')のうちの一方については、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の組を選択し直すことができる。
また、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の組の選択は、ランダムに行う他、学習ベースの方法を利用して行うことができる。
図10は、学習ベースの方法を利用して行う、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の組の選択の例を示している。
図10のAは、特許文献1に記載の、画像の2画素それぞれの画素値の差分を求める複数の弱識別器の学習結果を利用して、2値演算カーネルで2値演算を行う2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択する方法を示している。
特許文献1に記載の弱識別器については、弱識別器において差分を求める2画素の位置が学習される。
2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))としては、例えば、弱識別器において差分を求める2画素の被減数となる画素の位置及び減数となる画素の位置をそれぞれ採用することができる。
また、2値演算層112を複数層設ける場合には、特許文献1に記載の弱識別器において差分を求める2画素の位置の学習を逐次的に繰り返し行い、その結果得られる弱識別器において差分を求める2画素の位置の複数の組を、複数層の2値演算層112それぞれについての2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))の組として採用することができる。
図10のBは、CNNの学習結果を利用して、2値演算カーネルで2値演算を行う2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))を選択する方法を示している。
図10のBでは、縦×横が1×1よりも大のサイズの畳み込みを行う畳み込み層を有するCNNの学習の結果得られる畳み込み層の畳み込みカーネルFのフィルタ係数に基づいて、2値演算カーネルで2値演算を行う2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))が選択されている。
例えば、畳み込みカーネルFのフィルタ係数の最大値及び最小値の位置を、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))に、それぞれ選択することができる。
また、例えば、畳み込みカーネルFのフィルタ係数の分布を確率分布とみなして、その確率分布において、確率が大きい順の2つの位置を、2値の位置(c0(k),s0(k),t0(k))及び(c1(k),s1(k),t1(k))に選択することができる。
<畳み込み層111及び2値演算層112の処理>
図11は、図7のNN110の畳み込み層111及び2値演算層112の順伝播時及び逆伝播時の処理の例を説明するフローチャートである。
順伝播では、ステップS11において、畳み込み層111は、下位層の隠れ層103から、畳み込み層111に対する層入力データとしてのマップxを取得し、処理は、ステップS12に進む。
ステップS12では、畳み込み層111は、マップxに対して、畳み込みカーネルFを適用し、1×1の畳み込みを行い、畳み込み層111の層出力データとしてのマップyを求め、処理は、ステップS13に進む。
ここで、ステップS12の畳み込みの処理は、式(1)で表される。
ステップS13では、2値演算層112は、畳み込み層111の層出力データを、2値演算層112に対する層入力データとしてのマップxとして取得し、処理は、ステップS14に進む。
ステップS14では、2値演算層112は、畳み込み層111からのマップxに、2値演算カーネルGを適用して、2値演算を行い、2値演算層112の層出力データとしてのマップyを求め、畳み込み層111及び2値演算層112の順伝播の処理は、終了する。
ここで、ステップS14の2値演算は、例えば、式(4)で表される。
逆伝播では、ステップS21において、2値演算層112は、上位層である隠れ層105からの誤差情報としての式(5)右辺の∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)を取得し、処理は、ステップS22に進む。
ステップS22では、2値演算層112は、上位層である隠れ層105からの誤差情報としての式(5)右辺の∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)を用いて、下位層である畳み込み層111に逆伝播する誤差情報としての式(5)の∂E/∂xij
(c)を求める。そして、2値演算層112は、誤差情報としての式(5)の∂E/∂xij
(c)を、下位層である畳み込み層111に逆伝播し、処理は、ステップS22からステップS23に進む。
ステップS23では、畳み込み層111は、上位層である2値演算層112からの誤差情報としての式(5)の∂E/∂xij
(c)を取得し、処理は、ステップS24に進む。
ステップS24では、畳み込み層111は、2値演算層112からの誤差情報としての式(5)の∂E/∂xij
(c)を、式(2)右辺の誤差情報∂E/∂yij
(k)として用いて、式(2)の誤差の勾配∂E/∂wst
(k,c)を求め、処理は、ステップS25に進む。
ステップS25では、畳み込み層111は、誤差の勾配∂E/∂wst
(k,c)を用いて、1×1の畳み込みを行う畳み込みカーネルF(k,c)のフィルタ係数w00
(k,c)を更新し、処理は、ステップS26に進む。
ステップS26では、畳み込み層111は、2値演算層112からの誤差情報としての式(5)の∂E/∂xij
(c)を、式(3)右辺の誤差情報∂E/∂yij
(k)(∂E/∂y(i+p-s)(j+q-t)
(k))として用いて、下位層である隠れ層103に逆伝播する誤差情報としての式(3)の∂E/∂xij
(c)を求める。
そして、畳み込み層111は、誤差情報としての式(3)の∂E/∂xij
(c)を、下位層である隠れ層103に逆伝播し、畳み込み層111及び2値演算層112の逆伝播の処理は、終了する。
なお、畳み込み層111や、2値演算層112、さらには、それらの畳み込み層111及び2値演算層112を含むNN110(図7)等は、ライブラリ等を含むソフトウェアの形で、又は、専用のハードウェアの形で提供することができる。
また、畳み込み層111や2値演算層112は、例えば、ライブラリに含まれる関数の形で提供し、任意のプログラムにおいて、畳み込み層111や2値演算層112としての関数を呼び出すことで利用することができる。
さらに、畳み込み層111や2値演算層112等での演算は、1ビットや、2ビット、その他3ビット以上の任意の精度で行うことができる。
また、畳み込み層111や2値演算層112等での演算で用いる値の型としては、浮動小数点型、固定小数点型、整数型、その他の数値についての任意の型を採用することができる。
<シミュレーション結果>
図12は、2値演算層について行ったシミュレーションのシミュレーション結果を示す図である。
シミュレーションでは、2つのNNを用意し、その2つのNNの学習を、オープンな画像のデータセットを用いて行った。
2つのNNのうちの一方のNNは、5×5×32(縦×横×チャネル)の畳み込みを行う畳み込み層、5×5×32の畳み込みを行う他の畳み込み層、5×5×64の畳み込みを行う畳み込み層、5×5×64の畳み込みを行う他の畳み込み層、及び、3×3×128の畳み込みを行う畳み込み層の、合計で5層の畳み込み層を有するCNNである。各畳み込み層の活性化関数としては、正規化線形関数を採用した。
また、他方のNNは、一方のNNであるCNNの5層の畳み込み層のそれぞれを、1×1の畳み込みを行う畳み込み層111、及び、2値の差分を求める2値演算層112に置換したNN(以下、置換NNともいう)である。
シミュレーションでは、学習後のCNN及び置換NNに対して、画像を与えて、その画像の認識を行い、誤り率を算出した。
図12は、シミュレーション結果としてのCNNの誤り率er1と、置換NNの誤り率er2とを示している。
シミュレーション結果によれば、置換NNによって、誤り率が改善することが確認された。
したがって、置換NNにおいて、CNNよりも少ないパラメータで、CNNの畳み込み層と同等以上のニューロン(に対応するユニット)の結合が実現されていることを推認することができる。
<2値演算層を含むNNの他の構成例>
図13は、PC10により実現されるNNの第3の構成例を示すブロック図である。
なお、図中、図7と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図13において、NN120は、2値演算層112と値維持層121とを含むNNで、入力層101、NN102、隠れ層103、隠れ層105、NN106、出力層107、畳み込み層111、2値演算層112、及び、値維持層121を有する。
したがって、NN120は、入力層101、NN102、隠れ層103、隠れ層105、NN106、出力層107、畳み込み層111、及び、2値演算層112を有する点で、図7のNN110と共通する。
但し、NN120は、値維持層121が新たに設けられている点で、図7のNN110と相違する。
図13において、値維持層121は、畳み込み層111の直後の上位層として、2値演算層112と並列に配置されている。
値維持層121は、直前の下位層である畳み込み層111が層出力データとして出力する、例えば、(128,32,32)のマップを構成するデータの一部の絶対的な値を維持して、直後の上位層である隠れ層105に出力する。
すなわち、値維持層121は、例えば、畳み込み層111が、128種類(個)の1×1×64の畳み込みカーネルを適用して出力する(128,32,32)のマップの、全チャネルの同一位置の画素を、順次、注目画素に設定し、(128,32,32)のマップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルがA×B×Cの直方体状の範囲を、絶対的な値を維持する値維持の処理対象に設定する。
ここで、値維持の処理対象としての直方体状の範囲の縦×横のサイズとしては、例えば、2値演算層112の2値演算カーネルGの縦×横と同一のサイズ、すなわち、3×3を採用することができる。なお、値維持の処理対象としての直方体状の範囲の縦×横のサイズとしては、2値演算カーネルGの縦×横と異なるサイズを採用することもできる。
値維持の処理対象としての直方体状の範囲のチャネル方向のサイズとしては、値維持層121に対する層入力データのチャネルの数、すなわち、ここでは、畳み込み層111が出力する(128,32,32)のマップのチャネルの数である128が採用される。
したがって、注目画素に対する値維持の処理対象は、(128,32,32)のマップの、例えば、注目画素の位置を中心とする、縦×横×チャネルが3×3×128の直方体状の範囲である。
値維持層121は、畳み込み層111からの(128,32,32)のマップのうちの、注目画素に対して設定した処理対象の中の1個のデータを、例えば、ランダムプロジェクション等により選択し、そのデータの絶対的な値を維持して、層出力データとして、上位層の隠れ層105に出力する。
ここで、データの絶対的な値を維持するとは、データの値をそのまま維持する場合の他、データの値に対して、固定値の減算や、加算、積算、除算等の演算を施す場合、その他、データの絶対的な値の情報が反映される演算を行う場合を含む。
2値演算層112では、例えば、2値演算の処理対象の中の2個のデータの値の差分演算が行われるため、後段の層には、2個のデータの値の差分の情報は伝播されるが、データの絶対的な値の情報は伝播されない。
これに対して、値維持層121では、値維持の処理対象の中の1個のデータの絶対的な値が維持されて出力されるので、データの絶対的な値の情報が、後段の層に伝播される。
本件発明者が行ったシミュレーションによれば、後段の層に、2個のデータの値の差分の情報の他に、データの絶対的な値の情報が伝播されることで、NNの性能(対象物を検出する検出性能等)が向上することが確認された。
値維持層121が、値維持の処理対象の中の1個のデータの絶対的な値を維持して出力する値維持の処理は、例えば、値維持の処理対象と同一サイズの、縦×横×チャネルが3×3×128のカーネルであって、1個のデータd1に適用されるフィルタ係数が+1の、1個だけのフィルタ係数を有するカーネルを、値維持の処理対象に適用して、積(+1×d1)をとる処理であると捉えることができる。
ここで、値維持層121が値維持を行うのに用いるカーネル(フィルタ)を、値維持カーネルともいう。
値維持カーネルは、以上のように、データd1に適用されるフィルタ係数が+1の、1個のフィルタ係数を有するカーネルであると捉える他、例えば、値維持の処理対象と同一サイズの、縦×横×チャネルが3×3×128のカーネルであって、データd1に適用されるフィルタ係数が+1で、他のデータに適用されるフィルタ係数が0の、値維持の処理対象と同一サイズのフィルタ係数を有するカーネルであると捉えることもできる。
以上のように、値維持の処理を、値維持カーネルの適用と捉える場合には、値維持層121では、畳み込み層111からの層入力データとしての(128,32,32)のマップに対して、3×3×128の値維持カーネルがスライドしながら適用される。
すなわち、値維持層121は、例えば、畳み込み層111が出力する(128,32,32)のマップの、全チャネルの同一位置の画素を、順次、注目画素に設定し、(128,32,32)のマップにおいて、注目画素を基準とする所定の位置、すなわち、例えば、注目画素の位置を中心とする、縦×横×チャネルが3×3×128の直方体状の範囲(値維持カーネルの縦×横×チャネルと同一の範囲)を、値維持の処理対象に設定する。
そして、(128,32,32)のマップのうちの、値維持の処理対象内の3×3×128の各データ(画素値)と、3×3×128の値維持カーネルとしてのフィルタのフィルタ係数との積の演算、又は、積和演算が行われ、その積の演算、又は、積和演算の結果が、注目画素についての値維持の結果として求められる。
値維持層121では、その後、まだ注目画素に設定されていない画素を、注目画素に新たに設定して、同様の処理が繰り返され、これにより、値維持カーネルが、注目画素の設定に応じてスライドされながら、層入力データとしてのマップに適用される。
なお、図13に示すように、2値算残層112と値維持増121とが並列に配置される場合、2値演算層112が有する2値演算カーネルGの数(種類数)、及び、値維持層121が有する値維持カーネルの数としては、その2値算カーネルGの数と、値維持カーネルの数との加算値が、直後の上位層である隠れ層105が層入力データとして受け付けるマップのチャネルの数に等しくなる数が採用される。
例えば、隠れ層105が(128,32,32)のマップを層入力データとして受け付け、2値演算層112が有する2値演算カーネルGの数が、1以上128未満のL種類である場合、値維持層121は、128-L種類の値維持カーネルを有する。
この場合、値維持層121の128-L種類の値維持カーネルの適用により得られる128-Lチャネルのマップは、隠れ層105が受け付ける(128,32,32)のマップの一部のチャネルのマップ(隠れ層105への層入力データ)として、隠れ層105に出力される。また、2値演算層112のL種類の2値演算カーネルGの適用により得られるLチャネルのマップは、隠れ層105が受け付ける(128,32,32)のマップの残りのチャネルのマップとして、隠れ層105に出力される。
ここで、2値算残層112、及び、値維持層121は、縦×横が同一のサイズのマップを出力することができる。
また、値維持カーネルにおいて、ある画素を注目画素として設定される処理対象と、他の画素を注目画素として設定される処理対象とでは、処理対象において、同一の位置の値(データ)を、値維持の対象とすることもできるし、異なる位置の値を、値維持の対象とすることができる。
すなわち、ある画素を注目画素として設定される処理対象については、その処理対象における位置P1の値を、値維持の対象とし、他の画素を注目画素として設定される処理対象についても、その処理対象における位置P1の値を、値維持の対象とすることができる。
また、ある画素を注目画素として設定される処理対象については、その処理対象における位置P1の値を、値維持の対象とし、他の画素を注目画素として設定される処理対象については、その処理対象における、位置P1とは異なる位置P2の値を、値維持の対象とすることができる。
この場合、スライドしながら適用される値維持カーネルで値維持の対象となる値の位置が、処理対象において変化することになる。
なお、2値演算層112では、畳み込み層111が出力するマップにおいて、2値演算カーネルGが適用される範囲が、2値演算の処理対象となり、値維持層121では、畳み込み層111が出力するマップにおいて、値維持カーネルが適用される範囲が、値維持の処理対象となる。
上述したように、値維持の処理対象としての直方体状の範囲の縦×横のサイズとしては、2値演算層112の2値演算カーネルGの縦×横と同一のサイズや、異なるサイズを採用することができるが、このことは、値維持カーネルの縦×横のサイズとして、2値演算カーネルGの縦×横と同一のサイズや、異なるサイズを採用することができることを意味する。
<値維持層121の処理>
図14は、値維持層121の値維持の処理の例を説明する図である。
図14において、マップxは、値維持層121に対する層入力データxである。マップxは、図8の場合と同様に、(c(in),M,N)のマップ、すなわち、縦×横がM×Nの、c(in)チャネルの画像になっており、c(in)チャネルのマップx(0),x(1),...,x(c(in)-1)から構成される。
また、図14において、マップyは、値維持層121が出力する層出力データyである。マップyは、図8の場合と同様に、(k(out),M,N)のマップ、すなわち、縦×横がM×Nの、k(out)チャネルの画像になっており、k(out)チャネルのマップy(0),y(1),...,y(k(out)-1)から構成される。
値維持層121は、縦×横×チャネルがm×n×c(in)の値維持カーネルHを、k(out)個だけ有する。ここで、1<=m<=M、及び、1<=n<=N、並びに、1<m×n<=M×Nである。
値維持層121は、k(out)個の値維持カーネルHのうちの、k+1番目の値維持カーネルH(k)を、マップxに適用し、チャネル#kのマップy(k)を求める。
すなわち、値維持層121は、マップxの、全チャネルの同一位置の画素を、順次、注目画素に設定し、マップxにおいて、例えば、注目画素の位置を中心とする、縦×横×チャネルがm×n×c(in)の直方体状の範囲を、値維持の処理対象に設定する。
そして、値維持層121は、マップxのうちの、注目画素に対して設定した処理対象に対して、k+1番目の値維持カーネルH(k)を適用し、処理対象の中の1個のデータの値を取得する。
値維持カーネルH(k)を適用した処理対象が、縦方向にi番目で、横方向にj番目の処理対象である場合、値維持カーネルH(k)を適用して取得された値は、チャネル#kのマップy(k)の位置(i,j)のデータ(画素値)yij
(k)となる。
図15は、値維持カーネルH(k)が処理対象に適用される様子を示す図である。
図14で説明したように、値維持層121は、縦×横×チャネルがm×n×c(in)の値維持カーネルHを、k(out)個だけ有する。
ここで、k(out)個の値維持カーネルHを、H(0),H(1),...,H(k(out)-1)と表す。
値維持カーネルH(k)は、c(in)チャネルのマップx(0),x(1),...,x(c(in)-1)にそれぞれ適用されるc(in)チャネルの値維持カーネルH(k,0),H(k,1),...,H(k,c(in)-1)から構成される。
値維持層121では、(c(in),M,N)のマップxに対して、m×n×c(in)の値維持カーネルH(k)をスライドしながら適用することにより、マップxにおいて、値維持カーネルH(k)が適用される、縦×横×チャネルがm×n×c(in)の処理対象の中の1個のデータの値が取得され、その取得された値からなるチャネル#kのマップy(k)が生成される。
なお、図3の場合と同様に、m×n×c(in)の値維持カーネルH(k)、及び、その値維持カーネルH(k)が適用されるマップxの空間方向(i及びjの方向)の縦×横がm×nの範囲については、所定の位置としての、例えば、そのm×nの範囲の左上の位置を基準とする縦方向及び横方向の位置を、それぞれs及びtで表す。
また、値維持カーネルH(k)を、マップxに適用するにあたっては、マップxにパディングを行うこととし、図3で説明したように、マップxの境界から縦方向にパディングされるデータの数をpと表すとともに、横方向にパディングされるデータの数をqと表すこととする。p=q=0とすることで、パディングは、なしにすることができる。
ここで、図13で説明したように、値維持の処理は、例えば、1つのデータd1に適用されるフィルタ係数が+1の、1個だけのフィルタ係数を有する値維持カーネルを、値維持の処理対象に適用して、積(+1×d1)をとる処理であると捉えることができる。
いま、値維持カーネルH(k)のフィルタ係数の+1が積算されるデータd1の、処理対象内のチャネル方向、縦、横の位置を(c,s,t)を、(c0(k),s0(k),t0(k))と表すこととする。
値維持層121において、マップxに値維持カーネルHを適用して、値維持の処理を行い、マップyを求める順伝播は、式(6)で表される。
また、逆伝播は、式(7)で表される。
式(7)の∂E/∂xij
(c)は、NN120の学習時に、値維持層121の直前の下位層、すなわち、図13では、畳み込み層111に逆伝播する誤差情報である。
ここで、値維持層121の層出力データyij
(k)は、値維持層121の直後の上位層である隠れ層105の層入力データxij
(c)となる。
したがって、式(7)右辺の∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)は、誤差Eの、値維持層121の層出力データy(i+p-s0(k))(j+q-t0(k))
(k)での偏微分を表すが、隠れ層105で得られる∂E/∂xij
(c)と等価であり、隠れ層105から値維持層121に逆伝播されてくる誤差情報である。
値維持層121において、式(7)の誤差情報∂E/∂xij
(c)は、上位層である隠れ層105からの誤差情報∂E/∂xij
(c)を誤差情報∂E/∂y(i+p-s0(k))(j+q-t0(k))
(k)として用いて求められる。
また、式(7)において、サメーション(Σ)の範囲を規定するk0(c)は、マップxの処理対象における位置(c0(k), s0(k), t0(k))のデータxs0(k)t0(k)
(c0(k))を用いて求められたマップy(k)のデータyij
(k)のkの集合を表す。
式(7)のサメーションは、k0(c)に属するkについてとられる。
なお、値維持の処理を行う値維持層121は、畳み込み層の部分集合であるため、値維持層121の順伝播及び逆伝播は、式(6)及び式(7)で表すことができる他、畳み込み層の順伝播及び逆伝播を表す式(1)及び式(3)で表すこともできる。
すなわち、値維持層121の値維持カーネルは、図13で説明したように、1個のデータd1に適用されるフィルタ係数が+1で、他のデータに適用されるフィルタ係数が0の、値維持の処理対象と同一サイズのフィルタ係数を有するカーネルであると捉えることができる。
したがって、式(1)及び式(3)は、1個のデータd1に適用されるフィルタ係数wst
(k,c)を+1とし、他のデータに適用されるフィルタ係数wst
(k,c)を0とすることにより、値維持層121の順伝播及び逆伝播を表す。
値維持層121の順伝播及び逆伝播を、式(1)及び式(3)、又は、式(6)及び式(7)のいずれで実現するかは、値維持層121を実現するハードウェアやソフトウェアの仕様等により決定することができる。
なお、値維持層121は、畳み込み層の部分集合である他、LCLの部分集合でもあり、全結合層の部分集合でもある。したがって、値維持層121の順伝播及び逆伝播は、畳み込み層の順伝播及び逆伝播を表す式(1)及び式(3)の他、LCLの順伝播及び逆伝播を表す式や、全結合層の順伝播及び逆伝播を表す式を用いて表すこともできる。
また、式(6)及び式(7)は、バイアス項が含まれていないが、値維持層121の順伝播及び逆伝播は、バイアス項を含む式で表すことができる。
図13のNN120では、畳み込み層111において、1×1の畳み込みが行われ、その畳み込みの結果得られるマップに対し、2値演算層112において、縦×横がm×nの2値演算カーネルが適用されるとともに、値維持層121において、縦×横がm×nの値維持カーネルが適用される。
以上のようなNN120によれば、図7のNN110の場合と同様に、m×nの畳み込みと同様の性能の畳み込みを、パラメータ数としての畳み込みカーネルFのフィルタ係数w00
(k,c)の数、及び、計算量を1/(m×n)に削減して行うことができる。さらに、NN120によれば、2値演算層112及び値維持層121の後段の層に、2個のデータの値の差分の情報と、データの絶対的な値の情報とが伝播され、その結果、値維持層121が設けられていない場合に比較して、対象物を検出する検出性能等が向上させることができる。
なお、図13では、2値演算層112と値維持層121とを並列に設けることとしたが、その他、例えば、畳み込み層と2値演算層112とを並列に設けることや、畳み込み層と2値演算層112と値維持層121とを並列に設けることができる。
<NN生成装置の構成例>
図16は、本技術を適用したNNを生成するNN生成装置の構成例を示すブロック図である。
図16のNN生成装置は、例えば、図1のPC10がNN生成装置としてのプログラムを実行することにより、機能的に実現することができる。
図16において、NN生成装置は、ライブラリ取得部201、生成部202、及び、ユーザI/F(Interface)203を有する。
ライブラリ取得部201は、例えば、インターネットその他のストレージから、NNの様々な層として機能する関数の関数ライブラリを取得する。
生成部202は、ユーザI/F203の操作、すなわち、ユーザI/F203から供給される、ユーザの操作に対応する操作信号に応じて、ライブラリ取得部201が取得した関数ライブラリから、NNの層としての関数を取得し、その層から構成されるNNを生成する。
ユーザI/F203は、タッチパネル等で構成され、生成部202が生成したNNを、グラフ構造で表示する。また、ユーザの操作を受け付け、対応する操作信号を、生成部202に供給する。
以上のように構成されるNN生成装置では、生成部202が、ユーザI/F203の操作に応じ、ライブラリ取得部201が取得したNNの層としての関数ライブラリを用いて、例えば、2値演算層112等を含むNNを生成する。
生成部202が生成したNNは、グラフ構造の形で、ユーザI/F203で表示される。
図17は、ユーザI/F203の表示例を示す図である。
ユーザI/F203の表示領域には、例えば、層選択部211、及び、グラフ構造表示部212が表示される。
層選択部211には、NNを構成する層として選択可能な層を表すアイコンである層アイコンが表示される。図17では、入力層、出力層、畳み込み層、2値演算層、値維持層等の層アイコンが表示されている。
グラフ構造表示部212には、生成部202が生成したNNがグラフ構造で表示される。
例えば、ユーザが、層選択部211から、2値演算層等の所望の層の層アイコンを選択し、その層アイコンと、グラフ構造表示部212に既に表示されている他の層アイコンとを結合するように、ユーザI/F203を操作すると、生成部202は、ユーザが選択した層アイコンが表す層と、他の層アイコンが表す層とを結合したNNを生成し、グラフ構造表示部212に表示させる。
その他、ユーザI/F203が、例えば、グラフ構造表示部212に表示された層アイコンの削除や移動、層アイコンどうしの結合、結合の解除等を行うように操作されると、生成部202は、ユーザI/F203の操作に応じて、層アイコンの削除や移動、層アイコンどうしの結合、結合の解除等を行った後のNNを生成し直し、グラフ構造表示部212に表示し直す。
したがって、ユーザは、容易に、様々なネットワーク構成のNNを構成することができる。
また、図17では、層選択部211に、畳み込み層、2値演算層、値維持層の層アイコンが表示されるので、そのような畳み込み層や、2値演算層、値維持層を含むNN100や、NN110、NN120のようなNNを、容易に構成することができる。
生成部202が生成するNNの実体は、例えば、図1のPC10が実行可能なプログラムであり、そのプログラムを、PC10に実行させることで、PC10を、NN100や、NN110、NN120のようなNNとして機能させることができる。
なお、ユーザI/F203には、層アイコンの他、活性化関数を指定するアイコンや、2値演算カーネルその他のカーネルの縦×横のサイズを指定するアイコン、2値演算の対象となる2値の位置を選択する方法を選択するアイコン、値維持の処理の対象となる値の位置を選択する方法を選択するアイコン、その他、ユーザによるNNの構成を補助するアイコン等を表示することができる。
図18は、生成部202が生成するNNの実体としてのプログラムの例を示す図である。
図18において、1行目のxは、入力層が出力する層出力データを表す。
PF.Convolution(x, outmaps=128, kernel=(1,1))は、xを対象として畳み込みを行う畳み込み層としての関数を表す。PF.Convolution(x, outmaps=128, kernel=(1,1))において、kernel=(1,1)は、畳み込みカーネルの縦×横が1×1であることを表し、outmaps=128は、畳み込み層から出力されるマップ(層出力データ)のチャネル数が128チャネルであることを表す。
図18において、畳み込み層としてのPF.Convolution(x, outmaps=128, kernel=(1,1))で得られる128チャネルのマップは、xにセットされる。
PF.PixDiff(x, outmaps=128, rp_ratio=0.1)は、xを対象として2値演算としての差分演算を行う2値演算層、及び、値維持の処理を行う値維持層としての関数を表す。PF.PixDiff(x, outmaps=128, rp_ratio=0.1)において、outmaps=128は、2値演算層及び値維持層から出力されるマップ(層出力データ)のチャネル数の合計が128チャネルであることを表し、rp_ratio=0.1は、その128チャネルの10%を、値維持層の出力とし、残りを、2値演算層の出力とすることを表す。
なお、本実施の形態では、NN110及び120を、畳み込み層111及び2値演算層112の両方を含む形で構成することとしたが、NN110及び120は、畳み込み層111を含めずに構成することができる。すなわち、2値演算層112は、NNの層としては、新しい数学的な特性を有する層であり、畳み込み層111と組み合わせずに、単独で、NNの層として用いることができる。
ここで、本明細書において、コンピュータ(PC10)がプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
なお、本技術は、以下のように構成することができる。
<1>
ニューラルネットワークの層を構成し、前記層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する
情報処理装置。
<2>
前記層入力データに対して、前記2値演算を行う2値演算カーネルを適用することにより、前記2値演算を行う
<1>に記載の情報処理装置。
<3>
前記層入力データに対して、前記2値演算カーネルをスライドしながら適用することにより、前記2値演算を行う
<2>に記載の情報処理装置。
<4>
1のチャネルの層出力データを得る場合と、他の1のチャネルの層出力データを得る場合とで、空間方向のサイズが異なる前記2値演算カーネルを適用する
<2>又は<3>に記載の情報処理装置。
<5>
上位層から逆伝播される、前記ニューラルネットワークの出力層から出力される出力データの誤差に関する誤差情報を取得し、
前記上位層からの前記誤差情報を用いて、下位層に逆伝播する誤差情報を求めて、前記下位層に逆伝播する
<1>ないし<4>のいずれかに記載の情報処理装置。
<6>
前記2値演算は、2値の差分である
<1>ないし<5>のいずれかに記載の情報処理装置。
<7>
前記2値演算を行う2値演算カーネルよりも空間方向のサイズが小さい畳み込みカーネルで畳み込みを行う畳み込み層の直後の上位層に配置される
<1>ないし<6>のいずれかに記載の情報処理装置。
<8>
前記畳み込み層は、縦×横が1×1の前記畳み込みカーネルを適用する1×1の畳み込みを行い、
前記畳み込み層の出力に対して、2値の差分を求める前記2値演算を行う前記2値演算カーネルを適用する
<7>に記載の情報処理装置。
<9>
下位層の出力の絶対的な値を維持して出力する値維持層と並列に配置され、
前記値維持層の出力は、上位層への複数チャネルの層入力データのうちの、一部のチャネルの層入力データとして、前記上位層に出力され、
前記2値演算の結果を、残りのチャネルの層入力データとして、前記上位層に出力する
<1>ないし<8>のいずれかに記載の情報処理装置。
<10>
前記2値演算を行うハードウェアを備える
<1>ないし<9>のいずれかに記載の情報処理装置。
<11>
層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する前記層である2値演算層を含むニューラルネットワークを生成する生成部を備える
情報処理装置。
<12>
前記生成部は、ユーザが選択する層で構成される前記ニューラルネットワークを生成する
<11>に記載の情報処理装置。
<13>
前記ニューラルネットワークを、グラフ構造で表示するユーザI/Fをさらに備える
<11>又は<12>に記載の情報処理装置。
ニューラルネットワークの層を構成し、前記層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する
情報処理装置。
<2>
前記層入力データに対して、前記2値演算を行う2値演算カーネルを適用することにより、前記2値演算を行う
<1>に記載の情報処理装置。
<3>
前記層入力データに対して、前記2値演算カーネルをスライドしながら適用することにより、前記2値演算を行う
<2>に記載の情報処理装置。
<4>
1のチャネルの層出力データを得る場合と、他の1のチャネルの層出力データを得る場合とで、空間方向のサイズが異なる前記2値演算カーネルを適用する
<2>又は<3>に記載の情報処理装置。
<5>
上位層から逆伝播される、前記ニューラルネットワークの出力層から出力される出力データの誤差に関する誤差情報を取得し、
前記上位層からの前記誤差情報を用いて、下位層に逆伝播する誤差情報を求めて、前記下位層に逆伝播する
<1>ないし<4>のいずれかに記載の情報処理装置。
<6>
前記2値演算は、2値の差分である
<1>ないし<5>のいずれかに記載の情報処理装置。
<7>
前記2値演算を行う2値演算カーネルよりも空間方向のサイズが小さい畳み込みカーネルで畳み込みを行う畳み込み層の直後の上位層に配置される
<1>ないし<6>のいずれかに記載の情報処理装置。
<8>
前記畳み込み層は、縦×横が1×1の前記畳み込みカーネルを適用する1×1の畳み込みを行い、
前記畳み込み層の出力に対して、2値の差分を求める前記2値演算を行う前記2値演算カーネルを適用する
<7>に記載の情報処理装置。
<9>
下位層の出力の絶対的な値を維持して出力する値維持層と並列に配置され、
前記値維持層の出力は、上位層への複数チャネルの層入力データのうちの、一部のチャネルの層入力データとして、前記上位層に出力され、
前記2値演算の結果を、残りのチャネルの層入力データとして、前記上位層に出力する
<1>ないし<8>のいずれかに記載の情報処理装置。
<10>
前記2値演算を行うハードウェアを備える
<1>ないし<9>のいずれかに記載の情報処理装置。
<11>
層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する前記層である2値演算層を含むニューラルネットワークを生成する生成部を備える
情報処理装置。
<12>
前記生成部は、ユーザが選択する層で構成される前記ニューラルネットワークを生成する
<11>に記載の情報処理装置。
<13>
前記ニューラルネットワークを、グラフ構造で表示するユーザI/Fをさらに備える
<11>又は<12>に記載の情報処理装置。
10 PC, 11 バス, 12 CPU, 13 ROM, 14 RAM, 15 ハードディスク, 16 出力部, 17 入力部, 18 通信部, 19 ドライブ, 20 入出力インタフェース, 21 リムーバブル記録媒体, 100 NN, 101 入力層, 102 NN, 103 隠れ層, 104 畳み込み層, 105 隠れ層, 106 NN, 107 出力層, 111 畳み込み層, 112 2値演算層, 121 値維持層, 201 ライブラリ取得部, 202 生成部, 203 ユーザI/F, 211 層選択部, 212 グラフ構造表示部
Claims (13)
- ニューラルネットワークの層を構成し、前記層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する
情報処理装置。 - 前記層入力データに対して、前記2値演算を行う2値演算カーネルを適用することにより、前記2値演算を行う
請求項1に記載の情報処理装置。 - 前記層入力データに対して、前記2値演算カーネルをスライドしながら適用することにより、前記2値演算を行う
請求項2に記載の情報処理装置。 - 1のチャネルの層出力データを得る場合と、他の1のチャネルの層出力データを得る場合とで、空間方向のサイズが異なる前記2値演算カーネルを適用する
請求項2に記載の情報処理装置。 - 上位層から逆伝播される、前記ニューラルネットワークの出力層から出力される出力データの誤差に関する誤差情報を取得し、
前記上位層からの前記誤差情報を用いて、下位層に逆伝播する誤差情報を求めて、前記下位層に逆伝播する
請求項1に記載の情報処理装置。 - 前記2値演算は、2値の差分である
請求項1に記載の情報処理装置。 - 前記2値演算を行う2値演算カーネルよりも空間方向のサイズが小さい畳み込みカーネルで畳み込みを行う畳み込み層の直後の上位層に配置される
請求項1に記載の情報処理装置。 - 前記畳み込み層は、縦×横が1×1の前記畳み込みカーネルを適用する1×1の畳み込みを行い、
前記畳み込み層の出力に対して、2値の差分を求める前記2値演算を行う前記2値演算カーネルを適用する
請求項7に記載の情報処理装置。 - 下位層の出力の絶対的な値を維持して出力する値維持層と並列に配置され、
前記値維持層の出力は、上位層への複数チャネルの層入力データのうちの、一部のチャネルの層入力データとして、前記上位層に出力され、
前記2値演算の結果を、残りのチャネルの層入力データとして、前記上位層に出力する
請求項1に記載の情報処理装置。 - 前記2値演算を行うハードウェアを備える
請求項1に記載の情報処理装置。 - 層に入力される層入力データのうちの2値を用いた2値演算を行い、前記2値演算の結果を、前記層から出力される層出力データとして出力する前記層である2値演算層を含むニューラルネットワークを生成する生成部を備える
情報処理装置。 - 前記生成部は、ユーザが選択する層で構成される前記ニューラルネットワークを生成する
請求項11に記載の情報処理装置。 - 前記ニューラルネットワークを、グラフ構造で表示するユーザI/Fをさらに備える
請求項11に記載の情報処理装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18763609.7A EP3594858A4 (en) | 2017-03-06 | 2018-02-20 | INFORMATION PROCESSING DEVICE |
CN201880014603.3A CN110366733A (zh) | 2017-03-06 | 2018-02-20 | 信息处理装置 |
US16/481,261 US20190370641A1 (en) | 2017-03-06 | 2018-02-20 | Information processing apparatus |
JP2019504434A JP7070541B2 (ja) | 2017-03-06 | 2018-02-20 | 情報処理装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017041812 | 2017-03-06 | ||
JP2017-041812 | 2017-03-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018163790A1 true WO2018163790A1 (ja) | 2018-09-13 |
Family
ID=63447801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/005828 WO2018163790A1 (ja) | 2017-03-06 | 2018-02-20 | 情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190370641A1 (ja) |
EP (1) | EP3594858A4 (ja) |
JP (1) | JP7070541B2 (ja) |
CN (1) | CN110366733A (ja) |
WO (1) | WO2018163790A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472545A (zh) * | 2019-08-06 | 2019-11-19 | 中北大学 | 基于知识迁移学习的航拍电力部件图像的分类方法 |
JP2020085805A (ja) * | 2018-11-30 | 2020-06-04 | Arithmer株式会社 | 寸法データ算出装置、プログラム、方法、製品製造装置、及び製品製造システム |
JP2022033640A (ja) * | 2020-08-17 | 2022-03-02 | トヨタ自動車株式会社 | 車両応答予測装置、学習装置、方法、及びプログラム |
US11922649B2 (en) | 2018-11-30 | 2024-03-05 | Arithmer Inc. | Measurement data calculation apparatus, product manufacturing apparatus, information processing apparatus, silhouette image generating apparatus, and terminal apparatus |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10699160B2 (en) | 2017-08-23 | 2020-06-30 | Samsung Electronics Co., Ltd. | Neural network method and apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009080693A (ja) * | 2007-09-26 | 2009-04-16 | Canon Inc | 演算処理装置および方法 |
JP2009211178A (ja) * | 2008-02-29 | 2009-09-17 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP4517633B2 (ja) | 2003-11-25 | 2010-08-04 | ソニー株式会社 | 対象物検出装置及び方法 |
JP2014203135A (ja) * | 2013-04-01 | 2014-10-27 | キヤノン株式会社 | 信号処理装置、信号処理方法、及び、信号処理システム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0782083B1 (en) * | 1995-12-27 | 2003-06-25 | Kabushiki Kaisha Toshiba | Data processing system |
US20080154816A1 (en) * | 2006-10-31 | 2008-06-26 | Motorola, Inc. | Artificial neural network with adaptable infinite-logic nodes |
AU2015261891A1 (en) * | 2014-05-23 | 2016-10-13 | Ventana Medical Systems, Inc. | Systems and methods for detection of biological structures and/or patterns in images |
US9563825B2 (en) * | 2014-11-20 | 2017-02-07 | Adobe Systems Incorporated | Convolutional neural network using a binarized convolution layer |
KR102055355B1 (ko) * | 2015-01-28 | 2019-12-12 | 구글 엘엘씨 | 배치 정규화 레이어들 |
US10685262B2 (en) * | 2015-03-20 | 2020-06-16 | Intel Corporation | Object recognition based on boosting binary convolutional neural network features |
US9940575B2 (en) * | 2015-06-04 | 2018-04-10 | Yahoo Holdings, Inc. | Image searching |
US10832123B2 (en) * | 2016-08-12 | 2020-11-10 | Xilinx Technology Beijing Limited | Compression of deep neural networks with proper use of mask |
CN107145939B (zh) * | 2017-06-21 | 2020-11-24 | 北京图森智途科技有限公司 | 一种低计算能力处理设备的计算机视觉处理方法及装置 |
US10311368B2 (en) * | 2017-09-12 | 2019-06-04 | Sas Institute Inc. | Analytic system for graphical interpretability of and improvement of machine learning models |
-
2018
- 2018-02-20 JP JP2019504434A patent/JP7070541B2/ja active Active
- 2018-02-20 EP EP18763609.7A patent/EP3594858A4/en not_active Withdrawn
- 2018-02-20 US US16/481,261 patent/US20190370641A1/en active Pending
- 2018-02-20 CN CN201880014603.3A patent/CN110366733A/zh not_active Withdrawn
- 2018-02-20 WO PCT/JP2018/005828 patent/WO2018163790A1/ja unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4517633B2 (ja) | 2003-11-25 | 2010-08-04 | ソニー株式会社 | 対象物検出装置及び方法 |
JP2009080693A (ja) * | 2007-09-26 | 2009-04-16 | Canon Inc | 演算処理装置および方法 |
JP2009211178A (ja) * | 2008-02-29 | 2009-09-17 | Canon Inc | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
JP2014203135A (ja) * | 2013-04-01 | 2014-10-27 | キヤノン株式会社 | 信号処理装置、信号処理方法、及び、信号処理システム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3594858A4 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020085805A (ja) * | 2018-11-30 | 2020-06-04 | Arithmer株式会社 | 寸法データ算出装置、プログラム、方法、製品製造装置、及び製品製造システム |
US11922649B2 (en) | 2018-11-30 | 2024-03-05 | Arithmer Inc. | Measurement data calculation apparatus, product manufacturing apparatus, information processing apparatus, silhouette image generating apparatus, and terminal apparatus |
CN110472545A (zh) * | 2019-08-06 | 2019-11-19 | 中北大学 | 基于知识迁移学习的航拍电力部件图像的分类方法 |
CN110472545B (zh) * | 2019-08-06 | 2022-09-23 | 中北大学 | 基于知识迁移学习的航拍电力部件图像的分类方法 |
JP2022033640A (ja) * | 2020-08-17 | 2022-03-02 | トヨタ自動車株式会社 | 車両応答予測装置、学習装置、方法、及びプログラム |
JP7351814B2 (ja) | 2020-08-17 | 2023-09-27 | トヨタ自動車株式会社 | 車両応答予測装置、学習装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3594858A1 (en) | 2020-01-15 |
EP3594858A4 (en) | 2020-04-01 |
JPWO2018163790A1 (ja) | 2019-12-26 |
US20190370641A1 (en) | 2019-12-05 |
CN110366733A (zh) | 2019-10-22 |
JP7070541B2 (ja) | 2022-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018163790A1 (ja) | 情報処理装置 | |
US20210150678A1 (en) | Very high-resolution image in-painting with neural networks | |
US11551280B2 (en) | Method, manufacture, and system for recommending items to users | |
US10474951B2 (en) | Memory efficient scalable deep learning with model parallelization | |
WO2018180263A1 (ja) | 情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体 | |
Singh et al. | Single image dehazing for a variety of haze scenarios using back projected pyramid network | |
US11347308B2 (en) | Method and apparatus with gaze tracking | |
US10579334B2 (en) | Block floating point computations using shared exponents | |
JP6393058B2 (ja) | 情報処理装置、情報処理方法 | |
US11954755B2 (en) | Image processing device and operation method thereof | |
EP3591581A1 (en) | Method and apparatus for building image model | |
US20230019851A1 (en) | Methods and systems for high definition image manipulation with neural networks | |
JP6832252B2 (ja) | 超解像装置およびプログラム | |
US11531863B1 (en) | Systems and methods for localization and classification of content in a data set | |
US20230359862A1 (en) | Systems and Methods for Machine-Learned Models Having Convolution and Attention | |
US20220092387A1 (en) | Systems and Methods for Producing an Architecture of a Pyramid Layer | |
EP4322112A1 (en) | Method and device for representing rendered scenes | |
US12086953B2 (en) | Image processing device and operating method thereof | |
WO2022196060A1 (ja) | 情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体 | |
WO2020112152A1 (en) | Systems and related methods for reducing the resource consumption of a convolutional neural network | |
Hsieh et al. | Adaptive image interpolation using probabilistic neural network | |
KR102235784B1 (ko) | 행동 인식을 위한 시공간의 평활화 피처를 정규화하는 방법 및 시스템 | |
Scanlan et al. | Graphics processor unit hardware acceleration of Levenberg-Marquardt artificial neural network training | |
US20210182678A1 (en) | Data processing system and data processing method | |
US20230065392A1 (en) | Re-Noising and Neural Network Based Image Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18763609 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019504434 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018763609 Country of ref document: EP Effective date: 20191007 |