WO2015118686A1 - 階層型ニューラルネットワーク装置、判別器学習方法および判別方法 - Google Patents

階層型ニューラルネットワーク装置、判別器学習方法および判別方法 Download PDF

Info

Publication number
WO2015118686A1
WO2015118686A1 PCT/JP2014/053056 JP2014053056W WO2015118686A1 WO 2015118686 A1 WO2015118686 A1 WO 2015118686A1 JP 2014053056 W JP2014053056 W JP 2014053056W WO 2015118686 A1 WO2015118686 A1 WO 2015118686A1
Authority
WO
WIPO (PCT)
Prior art keywords
weight
nodes
learning
neural network
code
Prior art date
Application number
PCT/JP2014/053056
Other languages
English (en)
French (fr)
Inventor
貴司 山崎
松本 渉
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to US15/110,362 priority Critical patent/US10796223B2/en
Priority to PCT/JP2014/053056 priority patent/WO2015118686A1/ja
Priority to CN201480073042.6A priority patent/CN105900116A/zh
Priority to KR1020167024009A priority patent/KR101878579B1/ko
Priority to JP2015561138A priority patent/JP5937284B2/ja
Priority to EP14882049.1A priority patent/EP3089081A4/en
Priority to CN202010084242.9A priority patent/CN111242300A/zh
Publication of WO2015118686A1 publication Critical patent/WO2015118686A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • the present invention relates to a hierarchical neural network device, a discriminator learning method, and a discrimination method.
  • a neural network has learning ability, is excellent in non-linearity and pattern matching performance, and is used in many fields such as control, prediction and diagnosis.
  • many structures have been proposed for neural networks, but most of them that have been put to practical use are of the hierarchical type, particularly the three-layer type.
  • Hierarchical neural networks are learned by an algorithm commonly called a back-propagation method (error back propagation method), and the internal coupling state (weight between nodes) is adjusted.
  • a back-propagation method error back propagation method
  • the internal coupling state weight between nodes
  • Patent Document 1 For a plurality of input nodes, a statistical index of maximum, minimum, average, and standard deviation of learning data is used, or a correlation coefficient between input nodes or input and output of learning data is used. A group of input nodes having similar characteristics is formed, and a structure having a loosely coupled portion is formed by coupling the input node and the intermediate node in the group. Further, in the neural network structure optimization method described in Patent Document 2, a plurality of neural networks having different structures are generated by deleting connections between arbitrary nodes, and evaluation values of the respective neural networks are calculated to obtain evaluation values. Thus, the neural network having the optimal structure is changed.
  • JP 2011-54200 A Japanese Patent Laid-Open No. 9-91263
  • the present invention has been made in order to solve the above-described problems.
  • a hierarchical neural network it is possible to speed up discriminator learning and discrimination processing by forming loose coupling without depending on learning data.
  • An object of the present invention is to provide a hierarchical network device, a discriminator learning method, and a discrimination method.
  • the hierarchical neural network device is based on a parity check matrix of an error correction code, and performs sparseness by connecting between some nodes in a hierarchical neural network including input layers, intermediate layers, and output layers having nodes.
  • a weight learning unit that generates a connected part and learns the weight between the connected nodes, and a hierarchical neural network in which the weight between the connected nodes is updated with the weight value learned by the weight learning unit
  • the hierarchical neural network it is possible to speed up the discriminator learning and the discrimination processing by forming loose coupling without depending on the learning data.
  • FIG. 1 is a block diagram showing a configuration of a hierarchical neural network device according to Embodiment 1 of the present invention.
  • FIG. 1 is a diagram illustrating a structure of a hierarchical neural network according to Embodiment 1.
  • FIG. It is a figure which shows the structure of the conventional hierarchical neural network.
  • 3 is a flowchart showing weight learning processing in the first embodiment. It is a figure which shows the test matrix of a pseudorandom code. It is a figure which shows the number of 1 and the ratio of 1 with respect to the number of rows or the number of columns of the check matrix of a Euclidean geometric code.
  • FIG. 1 shows the number of 1 and the ratio of 1 with respect to the number of rows or the number of columns of a check matrix of a projection geometric code. It is a figure which shows the number of 1 and the ratio of 1 with respect to the number of rows or the number of columns of a check matrix of a difference set cyclic code. It is a figure which shows the check matrix of a space coupling type code. It is a figure which shows the example of the connection number between the input node in the neural networks A and B, and an intermediate node. It is a block diagram which shows the structure of the hierarchical neural network apparatus concerning Embodiment 2 of this invention. 6 is a diagram illustrating a structure of a deep neural network in a second embodiment.
  • FIG. 1 shows the number of 1 and the ratio of 1 with respect to the number of rows or the number of columns of a check matrix of a difference set cyclic code. It is a figure which shows the check matrix of a space coupling type code. It is a figure which shows the example of the connection
  • 10 is a flowchart showing weight learning processing by prior learning and adjustment of weights in the second embodiment. It is a figure which shows the outline
  • summary of the weight learning process by the prior learning and adjustment of a weight in the case of N 5. It is a flowchart which shows the prior learning process of a weight. It is a flowchart which shows the adjustment process of a weight.
  • FIG. 1 is a block diagram showing a configuration of a hierarchical neural network apparatus according to Embodiment 1 of the present invention.
  • a hierarchical neural network device 1 is a device that performs discrimination using a hierarchical neural network, and includes a discriminator learning unit 2, a weight storage unit 3, a learning data storage unit 4, and a teacher data storage unit 5. It is prepared for.
  • the hierarchical neural network includes an input layer, an intermediate layer, and an output layer, and each layer has a plurality of nodes.
  • Hierarchical neural networks also have various problems (classification problems) by adjusting the connection state between nodes by setting arbitrary weights between the nodes of the input layer and the intermediate layer and between the nodes of the intermediate layer and the output layer. Alternatively, it functions as a discriminator that can solve a regression problem.
  • the discriminator learning unit 2 learns a hierarchical neural network and performs discrimination using the learned hierarchical neural network.
  • a weight learning unit 20 and a discrimination processing unit 21 are provided.
  • the weight learning unit 20 generates a loosely coupled portion by coupling between some nodes in the hierarchical neural network based on the error correction code check matrix, and learns the weight between the coupled nodes. That is, the weight learning unit 20 uses the discrimination result output from the discrimination processing unit 21, the weight between nodes read from the weight storage unit 3 (the weight of the discriminator), and the teacher data read from the teacher data storage unit 5. When input, weight learning is performed using these data.
  • the weight learning unit 20 assigns a node of one layer to the row element in the parity check matrix of the error correction code, assigns a node of the other layer to the column element, and joins the nodes in which 1 is set in the matrix element However, nodes whose matrix elements are 0 are not connected. Thereby, a loosely coupled portion can be generated between nodes without using learning data.
  • the discrimination processing unit 21 solves the classification problem or the regression problem using a hierarchical neural network in which the weight between the connected nodes is updated with the weight value learned by the weight learning unit 20. For example, when the discrimination processing unit 21 receives the initialized weight or the learning weight from the weight storage unit 3 and inputs the learning data from the learning data storage unit 4, the discrimination processing unit 21 uses the discrimination result using these as the weight learning unit 20. Output to.
  • the discrimination processing unit 21 receives learned weights from the weight storage unit 3 and inputs discrimination data, and outputs a discrimination result using these to a transmission device such as a display outside the device.
  • learning data or discrimination data becomes an input signal between nodes of the input layer and the intermediate layer in the hierarchical neural network, and a weight between the nodes is multiplied.
  • the sum of the multiplication results at the nodes in the intermediate layer is calculated by the threshold function and output.
  • the threshold function is f ()
  • the output value of the threshold function of the j-th node of the intermediate layer is H j
  • the input signal of the i-th node of the input layer is X i
  • the i-th node of the input layer When the weight between the j-th node of the intermediate layer is W ji and the output value of the threshold function is H j, it can be expressed by the following equation (1).
  • H j f ( ⁇ X i W ji ) (1)
  • the output signal calculated by the threshold function is used as an input signal, and the weight between the nodes is multiplied.
  • the sum of the multiplication results at each node in the output layer is calculated by the threshold function and output as a discrimination result.
  • the output value of the threshold function of the k-th node of the output layer is O k
  • the weight between the j-th node of the intermediate layer and the k-th node of the output layer is W kj
  • the output value O k can be represented by the following formula (2).
  • examples of the threshold function f () include a sigmoid function, a tanh function, and a max function.
  • the weight storage unit 3 is a storage unit that stores weights between nodes in the hierarchical neural network.
  • the weight storage unit 3 stores initial values of weights between all nodes of the hierarchical neural network during weight initialization processing, and stores weight learning values between nodes having connections when generating loose coupling.
  • the discrimination processing unit 21 constructs a hierarchical neural network by reading each node and the weight value between the nodes from the weight storage unit 3, and uses this to solve the classification problem or the regression problem.
  • the learning data storage unit 4 is a storage unit that stores learning data.
  • the learning data is data indicating state information and feature amounts for which normality and abnormality have been determined in advance.
  • the learning data includes a case where the teacher data is known (supervised learning) and a case where the desired teacher data for the discrimination data is unknown (unsupervised learning).
  • the teacher data storage unit 5 is a storage unit that stores teacher data.
  • Teacher data is desirable output data for discrimination data.
  • the discrimination data is data to be discriminated.
  • weight learning unit 20 and the discrimination processing unit 21 are specific examples in which hardware and software collaborate, for example, when a microcomputer executes a program in which processing unique to the first embodiment is described. It can be realized as a means.
  • the weight storage unit 3, the learning data storage unit 4, and the teacher data storage unit 5 are, for example, a hard disk drive (HDD) device, a USB memory, and a storage media playback device mounted on a computer that functions as the hierarchical neural network device 1. It is constructed in a reproducible storage medium (CD, DVD, BD).
  • FIG. 2 is a diagram showing the structure of the hierarchical neural network in the first embodiment
  • FIG. 3 is a diagram showing the structure of the conventional hierarchical neural network.
  • the nodes of the input layer and the intermediate layer are all connected, and the nodes of the intermediate layer and the output layer are all connected.
  • a loosely coupled portion is formed in at least one of the coupling between the nodes of the input layer and the intermediate layer and the coupling between the nodes of the intermediate layer and the output layer. .
  • FIG. 4 is a flowchart showing the weight learning process in the first embodiment. Details of the weight learning by the weight learning unit 20 will be described with reference to FIG.
  • the weight learning unit 20 initializes weights between all nodes in each layer of the hierarchical neural network (step ST1). Specifically, an initial value is given as a random number of ⁇ 0.5 to +0.5 with respect to the weight between all nodes in each layer.
  • the weight learning unit 20 generates a loose coupling by performing coupling only between some nodes in the hierarchical neural network based on the error correction code check matrix (step ST2).
  • the error correction code check matrix has a learning error equal to or smaller than that of a normal hierarchical neural network and is a sparse matrix. For example, any one of a pseudo random code, a finite geometric code, a cyclic code, a pseudo cyclic code, a low density parity check code (LDPC) code, and a spatially coupled code can be used.
  • LDPC low density parity check code
  • the weight learning unit 20 calculates the correction amount of the weight between the nodes coupled at the loosely coupled portion so that the value of the evaluation function for evaluating the learning error becomes small (step ST3).
  • the weight learning unit 20 updates the weight value between the joined nodes from the previous value with the correction amount obtained in step ST3 (step ST4).
  • the weight learning unit 20 checks whether or not the weight learning end condition is satisfied (step ST5).
  • the termination condition for example, a case where the value of the evaluation function for calculating the error between the teacher data and the discrimination result input from the discrimination processing unit 21 is less than or equal to a predetermined threshold value can be considered.
  • the case where the learning frequency becomes more than a threshold frequency may be sufficient.
  • step ST5 When it is determined that the end condition is satisfied and the weight learning should be ended (step ST5; YES), the weight learning unit 20 ends the weight learning. On the other hand, when the termination condition is not satisfied (step ST5; NO), the process returns to step ST3 and the above-described weight learning is repeated. As a result, the discrimination processing unit 21 solves the classification problem or the regression problem by using the hierarchical neural network in which the weight between the nodes coupled by the loosely coupled portion is updated with the weight value learned by the weight learning unit 20. be able to.
  • the matrix in FIG. 5 is a 15 ⁇ 15 matrix with four 1's in each row and column. This is because the input layer nodes (hereinafter referred to as input nodes) x 1 , x 2 ,..., X 15 assigned to the elements in each column and the intermediate layer nodes (hereinafter referred to as “input nodes”). , referred to as intermediate nodes) h 1, h 2, ⁇ ⁇ ⁇ , there 15 respectively and h 15, four in one of the intermediate nodes as part value of the matrix element is 1 binds input Indicates that the node joins. For example, an input node x 1 , x 3 , x 9 , x 10 having 1 as a matrix element is coupled to the intermediate node h 1 .
  • a check matrix of a finite geometric code such as Euclidean geometric code or projective geometric code, or a difference set cyclic code, etc.
  • a check matrix of a finite geometric code such as Euclidean geometric code or projective geometric code, or a difference set cyclic code, etc.
  • the cyclic code is a code generated by cyclically shifting a code word, and has a regular arrangement. For this reason, it is suitable for learning determination of time-series data, and when it is implemented in hardware, it has a feature that it can be designed more easily than other codes.
  • the number of nodes is determined based on one of the LDPC code parity check matrix, the spatially coupled code parity check matrix, and the pseudo cyclic code parity check matrix.
  • the number of 1 included in a row and the number of 1 included in a column are 3 to 3 on average. This is because there are six.
  • the parity check matrix of the spatially coupled code shown in FIG. 9 is a matrix in which 1s are arranged in a band shape, the effect of reducing the maximum calculation amount can be expected from the viewpoint of ease of control.
  • FIG. 10 is a diagram illustrating an example of the number of connections between input nodes and intermediate nodes in the neural networks A and B.
  • a neural network A is a normal hierarchical neural network in which all nodes are coupled
  • a neural network B is a hierarchical neural network in which loose coupling is formed between nodes according to the present invention.
  • the neural network B four input nodes are connected to one intermediate node.
  • the coupling can be reduced to 1/250. Accordingly, the product-sum operation between the input node and the intermediate node can be reduced, so that the discriminator learning and the discrimination processing can be speeded up.
  • loose coupling is generated without depending on learning data, it is possible to save time and effort for prior learning even when learning data is changed or modified.
  • a connection is made between some nodes in the hierarchical neural network including the input layer, the intermediate layer, and the output layer having nodes.
  • a weight learning unit 20 that generates a loosely coupled portion and learns weights between the coupled nodes, and a hierarchical type in which the weights between the coupled nodes are updated with the weight values learned by the weight learning unit 20
  • a discrimination processing unit 21 for solving a classification problem or a regression problem using a neural network. In this way, it is possible to speed up the discriminator learning and the discrimination processing by forming loose coupling without depending on the learning data in the hierarchical neural network.
  • Embodiment 2 has shown the case of speeding up discriminator learning and discrimination processing using a general three-layer neural network.
  • a case will be described in which a classifier learning and a discrimination process using a deep neural network, which has been attracting attention in recent years, is an advanced form of a hierarchical neural network and is accelerated.
  • FIG. 11 is a block diagram showing a configuration of a hierarchical neural network apparatus according to Embodiment 2 of the present invention.
  • a hierarchical neural network device 1A shown in FIG. 11 is a device that solves a classification problem or a regression problem using a deep neural network, and includes a discriminator learning unit 2A, a weight storage unit 3, a learning data storage unit 4, and a teacher data storage unit. 5 is configured.
  • the deep neural network includes an input layer, a plurality of intermediate layers, and an output layer, and each layer has a plurality of nodes.
  • deep neural networks can solve various problems (classification problems) by adjusting the connection state between nodes by setting arbitrary weights between the nodes of the input layer and the intermediate layer and between the nodes of the intermediate layer and the output layer.
  • problems classification problems
  • it functions as a discriminator that can solve a regression problem.
  • FIG. 12 is a diagram showing the structure of a deep neural network in the second embodiment
  • FIG. 13 is a diagram showing the structure of a conventional deep neural network.
  • the nodes of the input layer and the intermediate layer are all connected, the nodes of the intermediate layers are all connected, and the nodes of the intermediate layer and the output layer are all connected.
  • the second embodiment as shown in FIG. 12, at least of the coupling between the nodes of the input layer and the middle layer, the coupling between the nodes of the middle layer, and the coupling between the nodes of the middle layer and the output layer.
  • a loosely coupled portion is formed on one side.
  • the discriminator learning unit 2A learns a deep neural network and solves a classification problem or a regression problem using the learned deep neural network.
  • a discrimination processing unit 21, a weight pre-learning unit 22, and a weight adjustment unit 23 are provided.
  • the weight pre-learning unit 22 generates a loosely coupled part by coupling between some nodes in the deep neural network based on the error correction code check matrix, and learns the weight between the coupled nodes without supervision. For example, the weight pre-learning unit 22 performs weight pre-learning when an initialized weight between nodes and learning data are input.
  • the weight pre-learning unit 22 assigns a node of one layer to the row element in the parity check matrix of the error correction code, assigns a node of the other layer to the column element, and moves between nodes where 1 is set in the matrix element.
  • the nodes are connected, and the nodes whose matrix elements are 0 are not connected. Thereby, a loosely coupled portion can be generated between nodes without using learning data.
  • the weight adjustment unit 23 finely adjusts the weight learned by the weight pre-learning unit 22 by supervised learning. That is, the weight adjustment unit 23 performs fine adjustment of the weight only between the coupled nodes.
  • the discrimination processing unit 21 inputs weights learned in advance from the weight storage unit 3 or learning weights, and inputs learning data from the learning data storage unit 4. Output to the adjustment unit 23.
  • the discrimination processing unit 21 receives learned weights from the weight storage unit 3 and inputs discrimination data, and outputs a discrimination result using these to a transmission device such as a display outside the device.
  • learning data or discrimination data becomes an input signal between the nodes of the input layer and the first intermediate layer in the deep neural network, and the weight between the nodes is multiplied.
  • the sum of the multiplication results at the intermediate nodes in the first intermediate layer is calculated by the threshold function and output.
  • the threshold function is f ()
  • the output value of the threshold function of the j-th intermediate node of the first intermediate layer is H 1, j
  • the input signal of the i-th input node is X i
  • the output value of the threshold function H 1, j is the following equation (4 ).
  • H 1, j f ( ⁇ X i W 1, j, i ) (4)
  • the n ⁇ 1th layer In addition, between the jth intermediate node of the intermediate layer of the n ⁇ 1th layer (n is an integer of 2 or more) and the mth intermediate node of the nth intermediate layer, the n ⁇ 1th layer
  • the output signal calculated by the threshold function of the intermediate node is used as an input signal, and the weight between the nodes is multiplied.
  • the sum of the multiplication results at each intermediate node in the nth intermediate layer is calculated by a threshold function and output.
  • the output value of the threshold function of the jth intermediate node of the intermediate layer of the (n ⁇ 1) th layer is H n ⁇ 1, j
  • the output of the threshold function of the mth intermediate node of the intermediate layer of the nth layer is
  • the output value H n, m of the threshold function can be expressed by the following equation (5).
  • H n, m f ( ⁇ H n ⁇ 1, j W n, m, n ⁇ 1, j ) (5)
  • the output signal calculated by the threshold function of the intermediate node is used as an input signal, and the weight between the nodes is multiplied.
  • the sum of the multiplication results at each output node in the output layer is calculated by the threshold function and output as a discrimination result.
  • the output value of the threshold function of the kth output node of the output layer is O k
  • the weight between the jth intermediate node of the intermediate layer of the (N ⁇ 1) th layer and the kth output node of the output layer Is W k, N ⁇ 1, j
  • the output value O k of the threshold function can be expressed by the following equation (6).
  • examples of the threshold function f () include a sigmoid function, a tanh function, and a max function. Further, the multiplication of the weight between the nodes is performed only for a portion where there is a connection between the nodes.
  • O k f ( ⁇ H N ⁇ 1, j W k, N ⁇ 1, j ) (6)
  • the discrimination processing unit 21, the weight pre-learning unit 22, and the weight adjustment unit 23 cooperate with hardware and software by, for example, a microcomputer executing a program in which processing unique to the second embodiment is described. It can be realized as a concrete means that worked.
  • FIG. 14 is a flowchart showing the weight learning process in the second embodiment.
  • the weight pre-learning unit 22 initializes weights between all nodes in each layer of the deep neural network (step ST1a). Specifically, as in the first embodiment, initial values are given as random numbers of ⁇ 0.5 to +0.5 for the weights between all nodes in each layer.
  • the weight pre-learning unit 22 performs a coupling between some nodes in the deep neural network based on the error correction code check matrix to generate a loose coupling (step ST2a).
  • the error correction code check matrix has a learning error equal to or smaller than that of a normal deep neural network and is a sparse matrix. For example, any one of a pseudo random number code, a finite geometric code, a cyclic code, a pseudo cyclic code, an LDPC code, and a spatially coupled code can be used.
  • the weight pre-learning unit 22 uses a weight (W 1) between nodes having connections up to the (N ⁇ 1) -th layer when the deep neural network has N layers (N is an integer). , W 2, ..., W N-2 ) are preliminarily learned (step ST3a).
  • W 1 between the nodes of the first layer and the second layer is learned without supervision.
  • the weight pre-learning unit 22 initially sets the signal output in the previous pre-learning as an input signal when pre-learning the weight between the second layer node and the third and higher layer nodes (step ST1b). ). Next, the weight pre-learning unit 22 calculates the correction amount of the weight between the coupled nodes so that the log likelihood increases (step ST2b). Subsequently, the weight pre-learning unit 22 updates and corrects the weight value between the joined nodes with the calculated weight correction amount (step ST3b).
  • the weight pre-learning unit 22 checks whether or not the weight pre-learning end condition for the current learning target layer is satisfied (step ST4b).
  • the termination condition for example, a case where the number of learning times is equal to or greater than a threshold number is considered.
  • the weight pre-learning unit 22 proceeds to the process of step ST5b.
  • the termination condition is not satisfied (step ST4b; NO)
  • the process returns to step ST2b, and the weight pre-learning described above is repeated.
  • step ST5b the weight pre-learning unit 22 determines whether or not the weight pre-learning between nodes connected in all layers up to the (N-1) th layer is completed when the deep neural network is the N layer. Check. When the weight pre-learning of all layers is not completed (step ST5b; NO), the process returns to step ST1b, and the weight pre-learning described above is performed with the next layer (the upper layer) as a learning target. If the weight pre-learning for all layers has been completed (step ST5b; YES), the weight pre-learning unit 22 ends the pre-learning.
  • pre-learning of N ⁇ 2 weights from W 1 to W N ⁇ 2 is performed.
  • the weight adjusting unit 23 finely adjusts the weight pre-learned by the weight pre-learning unit 22 through supervised learning and performs optimization (step ST4a).
  • the weight adjustment unit 23 performs supervised learning using the teacher data read from the teacher data storage unit 5 so that the value of the evaluation function J for evaluating the learning error as shown in the above equation (3) becomes small.
  • the weight pre-learning unit 22 optimizes the weight between the nodes pre-learned to calculate the weight correction amount (step ST1c).
  • the weight adjustment unit 23 updates the value of the weight between the nodes pre-learned by the weight pre-learning unit 22 with the correction amount obtained in step ST1c (step ST2c).
  • the weight adjusting unit 23 checks whether or not the condition for ending the fine weight adjustment is satisfied (step ST3c).
  • the termination condition for example, a case where the value of the evaluation function for calculating the error between the teacher data and the discrimination result input from the discrimination processing unit 21 is less than or equal to a predetermined threshold value can be considered.
  • the case where the learning frequency becomes more than a threshold frequency may be sufficient.
  • step ST3c When it is determined that the end condition is satisfied and fine adjustment of the weight should be ended (step ST3c; YES), the weight adjustment unit 23 ends the fine adjustment of the weight. On the other hand, when the termination condition is not satisfied (step ST3c; NO), the process returns to step ST1c, and the above-described fine adjustment of the weight is repeated. Thereby, the discrimination processing unit 21 is pre-learned by the weight pre-learning unit 22 for the weight between the nodes coupled by the loosely coupled portion, and is updated with the weight value optimized and adjusted by the weight adjusting unit 23.
  • a classification problem or regression problem can be solved using a network.
  • a parity check matrix of a finite geometric code such as a Euclidean geometric code or a projective geometric code
  • a check matrix of a cyclic code such as a difference set cyclic code
  • a node of one layer is assigned to a row element
  • a node of the other layer is assigned to a column element
  • a connection is made between nodes in which 1 is set in the matrix element.
  • a significant reduction in the amount of computation is expected. This is 1 for the number of columns or rows in the parity check matrix of Euclidean geometric code shown in FIG. 6, the parity check matrix of projective geometric code shown in FIG.
  • the cyclic code is a code generated by cyclically shifting a code word, and has a regular arrangement. For this reason, it is suitable for learning determination of time-series data, and when it is implemented in hardware, it has a feature that it can be designed more easily than other codes.
  • the LDPC code parity check matrix, the spatially coupled code parity check matrix, and the pseudo cyclic code as in the first embodiment If the connection between nodes is performed based on one of the check matrices, a large reduction in the amount of computation can be expected. This is because the parity check matrix of an LDPC code, a spatially coupled code, or a pseudo cyclic code does not depend on the number of rows or the number of columns, and the number of 1s contained in a row or the number of 1s contained in a column averages 3 to 6 This is because it becomes an individual.
  • the parity check matrix of the spatially coupled code shown in FIG. 9 is a matrix in which matrix elements 1 are arranged in a band shape, the effect of reducing the maximum calculation amount can be expected from the viewpoint of ease of control.
  • a weight pre-learning unit 22 that generates a loosely coupled part by performing coupling and learns the weight between the coupled nodes without supervision, and a weight adjustment unit 23 that adjusts the weight learned by the weight pre-learning unit 22 by supervised learning
  • a discrimination processing unit 21 that solves the classification problem or the regression problem using a deep neural network in which the weight between the coupled nodes is updated with the weight value adjusted by the weight adjustment unit 23.
  • the deep neural network has a larger number of intermediate layers than the hierarchical neural network shown in the first embodiment and has many places where a loosely coupled portion can be formed. large.
  • loose coupling is generated without depending on learning data, it is possible to save the trouble of performing prior learning when learning data is changed or modified.
  • any combination of each embodiment, any component of each embodiment can be modified, or any component can be omitted in each embodiment. .
  • the hierarchical neural network device can speed up discriminator learning and discrimination processing by forming loose coupling without depending on learning data in the hierarchical neural network. It can be applied to information processing related to prediction and diagnosis.
  • 1, 1A hierarchical neural network device 2, 2A discriminator learning unit, 3 weight storage unit, 4 learning data storage unit, 5 teacher data storage unit, 20 weight learning unit, 21 discrimination processing unit, 22 weight pre-learning unit, 23 Weight adjustment unit.

Abstract

 誤り訂正符号の検査行列に基づいて階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成する。

Description

階層型ニューラルネットワーク装置、判別器学習方法および判別方法
 この発明は、階層型ニューラルネットワーク装置、判別器学習方法および判別方法に関する。
 周知のようにニューラルネットワークは、学習能力を持ち、非線形性、パターンマッチング性能に優れており、制御、予測、診断等の多くの分野に用いられている。
 また、ニューラルネットワークには多くの構造が提案されているが、実用化されたその多くは、階層型、特に3階層型のものがほとんどである。階層型ニューラルネットワークは、通常バックプロパゲーション法(誤差逆伝搬法)と呼ばれるアルゴリズムにより学習し、内部の結合状態(ノード間の重み)が調整される。こうして学習データと同一の入力データを与えると学習データとほぼ同一の出力をする。また、学習データに近い入力を与えると学習データに近い出力をする特徴がある。
 階層型ニューラルネットワークで複雑な問題を扱う場合、中間層のノード数や層数を増やすことになり、演算量が増加するという課題がある。この課題の解決法としてノード間を疎結合にして演算量を削減する例があり、代表的な特許文献として以下の2件がある。
 特許文献1では、複数の入力ノードについて、学習データの最大、最小、平均、標準偏差の統計指標を用いることや学習データの入力ノード間または入力と出力との間の相関係数を用いることによって特徴が似た入力ノード同士のグループを形成し、それらのグループ内で入力ノードと中間ノードを結合して疎結合部分を有する構造としている。
 また、特許文献2に記載のニューラルネットワーク構造最適化方法では、任意のノード間の結合を削除することにより構造の異なるニューラルネットワークを複数生成し、それぞれのニューラルネットワークの評価値を算出して評価値の比較判定を行うことで、最適な構造のニューラルネットワークに変更している。
特開2011-54200号公報 特開平9-91263号公報
 特許文献1,2に代表される従来の技術では、判別器学習を行う前に疎結合を形成するための事前学習が必要であり、学習データの変更や修正があるごとに事前学習を行わなければならず、疎結合の形成に多くの時間と演算量を必要としていた。このため判別器学習と判別処理の高速化が図れないという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、階層型ニューラルネットワークにおいて、学習データに依存せずに疎結合を形成することで判別器学習と判別処理の高速化を図ることができる階層型ネットワーク装置、判別器学習方法および判別方法を得ることを目的とする。
 この発明に係る階層型ニューラルネットワーク装置は、誤り訂正符号の検査行列に基づいて、ノードを有する入力層、中間層および出力層からなる階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを学習する重み学習部と、結合されたノード間の重みが重み学習部によって学習された重みの値で更新された階層型ニューラルネットワークを用いて分類問題あるいは回帰問題を解く判別処理部とを備える。
 この発明によれば、階層型ニューラルネットワークにおいて、学習データに依存せずに疎結合を形成することで判別器学習と判別処理の高速化を図ることができるという効果がある。
この発明の実施の形態1に係る階層型ニューラルネットワーク装置の構成を示すブロック図である。 実施の形態1における階層型ニューラルネットワークの構造を示す図である。 従来の階層型ニューラルネットワークの構造を示す図である。 実施の形態1における重み学習処理を示すフローチャートである。 疑似乱数符号の検査行列を示す図である。 ユークリッド幾何的符号の検査行列の行数または列数に対する1の個数と1の割合を示す図である。 射影幾何的符号の検査行列の行数または列数に対する1の個数と1の割合を示す図である。 差集合巡回符号の検査行列の行数または列数に対する1の個数と1の割合を示す図である。 空間結合型符号の検査行列を示す図である。 ニューラルネットワークA,Bにおける入力ノードと中間ノード間の結合数の例を示す図である。 この発明の実施の形態2に係る階層型ニューラルネットワーク装置の構成を示すブロック図である。 実施の形態2におけるディープニューラルネットワークの構造を示す図である。 従来のディープニューラルネットワークの構造を示す図である。 実施の形態2における重みの事前学習と調整による重み学習処理を示すフローチャートである。 N=5とした場合における重みの事前学習と調整による重み学習処理の概要を示す図である。 重みの事前学習処理を示すフローチャートである。 重みの調整処理を示すフローチャートである。
 以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1はこの発明の実施の形態1に係る階層型ニューラルネットワーク装置の構成を示すブロック図である。図1において、階層型ニューラルネットワーク装置1は、階層型ニューラルネットワークを用いて判別を行う装置であって、判別器学習部2、重み記憶部3、学習データ記憶部4および教師データ記憶部5を備えて構成される。
 なお、階層型ニューラルネットワークは入力層、中間層および出力層からなり、各層は複数のノードを有している。また階層型ニューラルネットワークは、入力層と中間層とのノード間および中間層と出力層とのノード間に任意の重みを設定してノード間の結合状態を調整することにより様々な問題(分類問題あるいは回帰問題)を解くことができる判別器として機能する。
 判別器学習部2は、階層型ニューラルネットワークを学習し、学習した階層型ニューラルネットワークを用いた判別を行う。その構成として、重み学習部20および判別処理部21を備える。
 重み学習部20は、誤り訂正符号の検査行列に基づいて階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを学習する。すなわち、重み学習部20は、判別処理部21から出力された判別結果と、重み記憶部3から読み出したノード間の重み(判別器の重み)と教師データ記憶部5から読み出した教師データとを入力すると、これらのデータを用いて重み学習を行う。
 また、重み学習部20は、誤り訂正符号の検査行列における行要素に一方の層のノードを割り当て、列要素にもう一方の層のノードを割り当てて、行列要素に1が立ったノード間を結合し、行列要素が0のノード間は結合しない。これにより、学習データを利用することなく、ノード間に疎結合部分を生成することができる。
 判別処理部21は、結合されたノード間の重みが重み学習部20により学習された重みの値で更新された階層型ニューラルネットワークを用いて分類問題あるいは回帰問題を解く。例えば、判別処理部21は、重み記憶部3から初期化された重みまたは学習中の重みを入力し、学習データ記憶部4から学習データを入力すると、これらを用いた判別結果を重み学習部20へ出力する。また、判別処理部21は、重み記憶部3から学習済みの重みを入力し、判別データを入力すると、これらを用いた判別結果を装置外部のディスプレイなどの伝送装置へ出力する。
 判別処理部21では、階層型ニューラルネットワークにおける入力層と中間層のノード間で学習データまたは判別データが入力信号となり、このノード間の重みが乗算される。この乗算結果を中間層におけるノードでそれぞれ合計したものが、閾値関数によって計算されて出力される。ここで、閾値関数をf()、中間層のj番目のノードの閾値関数の出力値をH、入力層のi番目のノードの入力信号をXとし、入力層のi番目のノードと中間層のj番目のノードとの間の重みをWjiとした場合には、閾値関数の出力値をHは下記式(1)で表せる。
 H=f(ΣXji)   ・・・(1)
 また中間層と出力層のノード間では、閾値関数によって計算された出力信号を入力信号とし、このノード間の重みが乗算される。この乗算結果を出力層における各ノードで合計したものが閾値関数によって計算されて、判別結果として出力される。ここで、出力層のk番目のノードの閾値関数の出力値をO、中間層のj番目のノードと出力層のk番目のノードとの間の重みをWkjとした場合、閾値関数の出力値Oは下記式(2)で表すことができる。ただし、閾値関数f()としてはシグモイド関数、tanh関数、max関数などが挙げられる。また、ノード間の重みの乗算は、ノード間の結合がある部分に対してのみ行う。
 O=f(ΣXkj)   ・・・(2)
 重み記憶部3は、階層型ニューラルネットワークにおけるノード間の重みを記憶する記憶部である。重み記憶部3には、重みの初期化処理時には階層型ニューラルネットワークの全てのノード間の重みの初期値が記憶され、疎結合の生成時には結合のあるノード間の重み学習値が記憶される。判別処理部21は、各ノードおよびそのノード間の重みの値を重み記憶部3から読み出すことで階層型ニューラルネットワークを構築し、これを用いて分類問題あるいは回帰問題を解く。
 学習データ記憶部4は、学習データを記憶する記憶部である。学習データとは、予め正常と異常が判別された状態情報および特徴量を示すデータである。学習データには、教師データが既知の場合(教師あり学習)と、判別データに対して望ましい教師データが未知の場合(教師なし学習)とがある。
 教師データ記憶部5は、教師データを記憶する記憶部である。教師データとは、判別データに対して望ましい出力データである。また、判別データは判別対象のデータである。
 なお、重み学習部20と判別処理部21は、例えば、この実施の形態1に特有な処理が記述されたプログラムをマイクロコンピュータが実行することで、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
 重み記憶部3、学習データ記憶部4および教師データ記憶部5は、例えば、階層型ニューラルネットワーク装置1として機能するコンピュータに搭載されているハードディスクドライブ(HDD)装置、USBメモリ、記憶メディア再生装置で再生可能な記憶メディア(CD、DVD、BD)に構築される。
 図2は、実施の形態1における階層型ニューラルネットワークの構造を示す図であり、図3は従来の階層型ニューラルネットワークの構造を示す図である。図3に示すように、従来の階層型ニューラルネットワークは、入力層と中間層のノード間が全て結合し、中間層と出力層のノード間が全て結合している。これに対し、実施の形態1では、図2に示すように、入力層と中間層のノード間の結合および中間層と出力層のノード間の結合のうち少なくとも一方に疎結合部分が形成される。
 次に動作について説明する。
 図4は、実施の形態1における重み学習処理を示すフローチャートであり、この図4に沿って重み学習部20による重み学習の詳細を述べる。
 まず、重み学習部20は、階層型ニューラルネットワークの各層における全てのノード間の重みを初期化する(ステップST1)。具体的には、各層における全てのノード間の重みに対して初期値を-0.5~+0.5の乱数で与える。
 次に、重み学習部20は、誤り訂正符号の検査行列に基づいて階層型ニューラルネットワークにおける一部のノード間にのみ結合を行って疎結合を生成する(ステップST2)。誤り訂正符号の検査行列としては、通常の階層型ニューラルネットワークと比べて学習誤差を同等または小さくするものであり、かつ、疎な行列とする。例えば、疑似乱数符号、有限幾何的符号、巡回符号、疑似巡回符号、低密度パリティ検査符号(LDPC)符号および空間結合符号のいずれかが挙げられる。
 続いて、重み学習部20は、学習誤差を評価する評価関数の値が小さくなるように、疎結合部分で結合されたノード間の重みの修正量を算出する(ステップST3)。
 なお、評価関数Jは、例えば下記式(3)で表すことができる。ただし、ノードの出力信号をo、教師データをtとする。
 J=1/2・(o-t)   ・・・(3)
 この後、重み学習部20は、ステップST3で求めた修正量で、結合されたノード間の重みの値を従前の値から更新する(ステップST4)。
 ノード間の重みの更新が終了すると、重み学習部20は、重み学習の終了条件を満たしたか否かを確認する(ステップST5)。ここで、終了条件としては、例えば、教師データと判別処理部21から入力した判別結果との誤差を算出する評価関数の値が予め定めた閾値以下となる場合が考えられる。また、学習回数が閾値回数以上となった場合であってもよい。
 終了条件を満たし重み学習を終了すべきと判断した場合(ステップST5;YES)、重み学習部20は重み学習を終了する。一方、終了条件を満たしていない場合(ステップST5;NO)、ステップST3の処理に戻り、上述した重み学習を繰り返す。
 これにより、判別処理部21は、疎結合部分で結合されたノード間の重みが重み学習部20により学習された重みの値で更新された階層型ニューラルネットワークを用いて分類問題あるいは回帰問題を解くことができる。
 次に、図5に示す疑似乱数符号の検査行列に基づいて、入力層と中間層のノード間に疎結合部分を生成する場合の一例を示す。図5の行列は、各行、各列に1が4個ずつある、15×15の行列となっている。これは、各列の要素に割り当てられた入力層のノード(以下、入力ノードと記載する)x,x,・・・,x15と各行の要素に割り当てられた中間層のノード(以下、中間ノードと記載する)h,h,・・・,h15とがそれぞれ15個あり、行列要素の値が1である部分が結合するものとして1個の中間ノードに4個の入力ノードが結合することを示している。例えば、中間ノードhには、行列の要素に1が立った入力ノードx,x,x,x10が結合する。
 中間ノードまたは出力ノード(出力層のノード)の数が少ない場合(例えば21個以下)、ユークリッド幾何的符号あるいは射影幾何的符号などの有限幾何的符号の検査行列、または、差集合巡回符号などの巡回符号の検査行列に基づいて、上述のように行列要素に1が立ったノード間で結合を行うと、大幅な演算量の削減が期待される。これは、図6に示すユークリッド幾何的符号の検査行列、図7に示す射影幾何的符号の検査行列、図8に示す差集合巡回符号の検査行列における、列数または行数に対する1の個数を示した結果から明らかなように、ノード数に対応する列数または行数が21個以下の場合において、列数または行数に対して1の個数が格段に少なく、ノード間に疎結合部分を形成することができるためである。
 なお、巡回符号は符号語を巡回シフトして生成した符号であり、規則的な配列となっている。このため、時系列データの学習判別に適しており、またハードウェア実装する場合には、他の符号に比べて設計が容易に行えるという特徴がある。
 また、中間ノードまたは出力ノードの数が多い場合(例えば21個を超える)においては、LDPC符号の検査行列、空間結合型符号の検査行列および疑似巡回符号の検査行列のいずれかに基づいてノード間の結合を行うと、大幅な演算量の削減が期待できる。これは、LDPC符号、空間結合型符号、疑似巡回符号の検査行列においては、行数や列数に依存せず、行に含まれる1の個数や列に含まれる1の個数が、平均3~6個となるためである。例えば、行数を10000とした場合においても、行に含まれる1の個数の平均が3~6個となり、ノード間の結合数の平均が3~6個と疎結合になる。このため、大幅に演算量を削減することができる。特に、図9に示す空間結合型符号の検査行列は、1が帯状に配列した行列であるため、制御のし易さの観点よりも最大演算量の削減効果が期待できる。
 上述したように、誤り訂正符号の検査行列に基づいてノード間を疎結合にすることで、判別性能を維持しつつ、高速に判別器学習および判別処理を行うことができる。
 図10は、ニューラルネットワークA,Bにおける入力ノードと中間ノード間の結合数の例を示す図である。図10において、ニューラルネットワークAが、全てのノード間が結合された通常の階層型ニューラルネットワークであり、ニューラルネットワークBは、本発明により疎結合をノード間に形成した階層型ニューラルネットワークである。
 ニューラルネットワークBでは、1つの中間ノードに対して4個の入力ノードが結合する場合を示している。このように、実施の形態1では、ニューラルネットワークAに対して、入力ノードと中間ノードとがそれぞれ50個である場合は2/25、100個である場合は1/25、1000個の場合は1/250に結合を削減することができる。これに伴って入力ノードと中間ノードの間の積和演算を削減できるため、判別器学習および判別処理を高速化することが可能である。
 また、学習データに依存せず疎結合を生成するため、学習データの変更や修正があった場合においても、事前学習を行う手間を省くことができる。
 以上のように、この実施の形態1によれば、誤り訂正符号の検査行列に基づいて、ノードを有する入力層、中間層および出力層からなる階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを学習する重み学習部20と、結合されたノード間の重みが重み学習部20によって学習された重みの値で更新された階層型ニューラルネットワークを用いて分類問題あるいは回帰問題を解く判別処理部21とを備える。このように階層型ニューラルネットワークにおいて学習データに依存せずに疎結合を形成することにより判別器学習および判別処理の高速化を図ることができる。
実施の形態2.
 上記実施の形態1は、一般的な3階層型のニューラルネットワークを用いた判別器学習と判別処理を高速化する場合を示した。この実施の形態2では、階層型ニューラルネットワークの発展形であって、近年注目されているディープニューラルネットワークを用いた判別器学習と判別処理を高速化する場合について述べる。
 図11は、この発明の実施の形態2に係る階層型ニューラルネットワーク装置の構成を示すブロック図である。図11に示す階層型ニューラルネットワーク装置1Aは、ディープニューラルネットワークを用いて分類問題あるいは回帰問題を解く装置であり、判別器学習部2A、重み記憶部3、学習データ記憶部4および教師データ記憶部5を備えて構成される。ディープニューラルネットワークは、入力層、複数層の中間層および出力層からなり、各層は複数のノードを有している。また、ディープニューラルネットワークは、入力層と中間層とのノード間および中間層と出力層とのノード間に任意の重みを設定してノード間の結合状態を調整することにより様々な問題(分類問題あるいは回帰問題)を解くことができる判別器として機能する。
 図12は、実施の形態2におけるディープニューラルネットワークの構造を示す図であり、図13は従来のディープニューラルネットワークの構造を示す図である。図13に示すように、従来のディープニューラルネットワークは、入力層と中間層のノード間が全て結合し、中間層同士のノード間が全て結合し、中間層と出力層のノード間が全て結合している。これに対し、実施の形態2では、図12に示すように、入力層と中間層のノード間の結合、中間層同士のノード間の結合および中間層と出力層のノード間の結合のうち少なくとも一方に疎結合部分が形成される。
 判別器学習部2Aは、ディープニューラルネットワークを学習し、学習したディープニューラルネットワークを用いて分類問題あるいは回帰問題を解く。その構成として、判別処理部21、重み事前学習部22および重み調整部23を備える。
 重み事前学習部22は、誤り訂正符号の検査行列に基づいてディープニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを教師なし学習する。例えば、重み事前学習部22は、初期化されたノード間の重みおよび学習データが入力されると、重みの事前学習を行う。
 また、重み事前学習部22は、誤り訂正符号の検査行列における行要素に一方の層のノードを割り当て、列要素にもう一方の層のノードを割り当てて、行列要素に1が立ったノード間を結合し、行列要素が0のノード間は結合しない。これにより、学習データを利用することなく、ノード間に疎結合部分を生成することができる。
 重み調整部23は、重み事前学習部22が学習した重みを教師あり学習で微調整する。すなわち、重み調整部23は、結合されたノード間にのみ重みの微調整を行う。
 実施の形態2における判別処理部21は、重み記憶部3から事前学習された重みまたは学習中の重みを入力し、学習データ記憶部4から学習データを入力すると、これらを用いた判別結果を重み調整部23へ出力する。また、判別処理部21は、重み記憶部3から学習済みの重みを入力し、判別データを入力すると、これらを用いた判別結果を装置外部のディスプレイなどの伝送装置へ出力する。
 判別処理部21では、ディープニューラルネットワークにおける入力層と第1層目の中間層のノード間では学習データまたは判別データが入力信号となり、このノード間の重みが乗算される。この乗算結果を第1層目の中間層における中間ノードでそれぞれ合計したものが、閾値関数によって計算されて出力される。ここで、閾値関数をf()、第1層目の中間層のj番目の中間ノードの閾値関数の出力値をH1,j、i番目の入力ノードの入力信号をXとし、i番目の入力ノードと第1層目の中間層のj番目の中間ノードとの間の重みをW1,j,iとした場合には、閾値関数の出力値をH1,jは下記式(4)で表せる。
 H1,j=f(ΣX1,j,i)   ・・・(4)
 また、第n-1層目(nは2以上の整数)の中間層のj番目の中間ノードと第n層目の中間層のm番目の中間ノードとの間では、第n-1層目の中間ノードの閾値関数によって計算された出力信号を入力信号とし、このノード間の重みが乗算される。この乗算結果を第n層目の中間層における各中間ノードで合計したものが、閾値関数によって計算されて出力される。ここで、第n-1層目の中間層のj番目の中間ノードの閾値関数の出力値をHn-1,j、第n層目の中間層のm番目の中間ノードの閾値関数の出力値をHn,m、第n-1層目の中間層のj番目の中間ノードと第n層目の中間層のm番目の中間ノードとの間の重みをWn,m,n-1,jとした場合、閾値関数の出力値Hn,mは、下記式(5)で表すことができる。
 Hn,m=f(ΣHn-1,jn,m,n-1,j)   ・・・(5)
 中間ノードと出力ノードの間では、中間ノードの閾値関数によって計算された出力信号を入力信号とし、このノード間の重みが乗算される。この乗算結果を出力層における各出力ノードで合計したものが閾値関数によって計算されて判別結果として出力される。
 ここで、出力層のk番目の出力ノードの閾値関数の出力値をO、第N-1層目の中間層のj番目の中間ノードと出力層のk番目の出力ノードとの間の重みをWk,N-1,jとした場合、閾値関数の出力値Oは下記式(6)で表すことができる。
 ただし、閾値関数f()としてはシグモイド関数、tanh関数、max関数などが挙げられる。また、ノード間の重みの乗算はノード間の結合がある部分に対してのみ行う。
 O=f(ΣHN-1,jk,N-1,j)   ・・・(6)
 なお、判別処理部21、重み事前学習部22および重み調整部23は、例えば、実施の形態2に特有な処理が記述されたプログラムをマイクロコンピュータが実行することで、ハードウェアとソフトウェアとが協働した具体的な手段として実現することができる。
 次に動作について説明する。
 図14は、実施の形態2における重み学習処理を示すフローチャートである。
 まず、重み事前学習部22は、ディープニューラルネットワークの各層における全てのノード間の重みを初期化する(ステップST1a)。具体的には、実施の形態1と同様に、各層の全てのノード間の重みに対して初期値を-0.5~+0.5の乱数で与える。
 次に、重み事前学習部22は、誤り訂正符号の検査行列に基づいてディープニューラルネットワークにおける一部のノード間に結合を行って、疎結合を生成する(ステップST2a)。誤り訂正符号の検査行列としては、通常のディープニューラルネットワークと比べて学習誤差を同等または小さくするものであり、かつ、疎な行列とする。例えば、疑似乱数符号、有限幾何的符号、巡回符号、疑似巡回符号、LDPC符号および空間結合符号のいずれかが挙げられる。
 続いて、重み事前学習部22は、図15に示すように、ディープニューラルネットワークをN層(Nは整数)とした場合において、第N-1層までの結合があるノード間の重み(W1,2,・・・,WN-2)の事前学習を行う(ステップST3a)。
 この事前学習では、まず第1層と第2層の2層構造において、第1層と第2層のノード間の重みWを教師なし学習する。次に第2層と第3層の2層構造において、重みWの教師なし学習で第2層のノードから出力された信号を入力信号として、第2層と第3層のノード間の重みWを教師なし学習する。この処理を第N-2層と第N-1層のノード間の重みWN-2が事前学習されるまで繰り返す(図15参照、N=5とした場合)。
 図16を用いて重みの事前学習の詳細を説明する。
 まず、重み事前学習部22は、第2層のノードと第3層以上のノードの間の重みを事前学習する際、前段の事前学習で出力された信号を入力信号に初期設定する(ステップST1b)。次に、重み事前学習部22は、対数尤度が増加するように、結合されたノード間における重みの修正量を算出する(ステップST2b)。
 続いて、重み事前学習部22は、算出した重みの修正量で、結合されたノード間の重みの値を更新して修正する(ステップST3b)。
 ノード間の重みの更新が終了すると、重み事前学習部22は、現在の学習対象層における重み事前学習の終了条件を満たしたか否かを確認する(ステップST4b)。ここで、終了条件としては、例えば学習回数が閾値回数以上となった場合が考えられる。
 現在の学習対象層の終了条件を満たし重み事前学習を終了すべきと判断した場合(ステップST4b;YES)、重み事前学習部22は、ステップST5bの処理へ移行する。
 一方、終了条件を満たしていない場合(ステップST4b;NO)、ステップST2bの処理に戻り、上述した重み事前学習を繰り返す。
 ステップST5bにおいて、重み事前学習部22は、ディープニューラルネットワークをN層とした場合に、第N-1層までの全ての層で結合されたノード間の重みの事前学習が完了したか否かを確認する。全層の重み事前学習が終了していない場合(ステップST5b;NO)、ステップST1bの処理に戻り、次の層間(さらに上方の層間)を学習対象として上述した重みの事前学習が行われる。また、全層の重み事前学習が終了していれば(ステップST5b;YES)、重み事前学習部22は事前学習を終了する。ここで、ディープニューラルネットワークがN層の場合、WからWN-2のN-2個の重みの事前学習が行われる。
 図14の説明に戻る。
 重み事前学習部22による重みの事前学習が完了すると、重み調整部23は、重み事前学習部22が事前学習した重みを教師あり学習によって微調整して最適化を行う(ステップST4a)。以下、図17を用いて重みの微調整の詳細を説明する。
 まず、重み調整部23は、上記式(3)に示したような学習誤差を評価する評価関数Jの値が小さくなるように、教師データ記憶部5から読み出した教師データを利用した教師あり学習によって重み事前学習部22が事前学習したノード間の重みを最適化して重みの修正量を算出する(ステップST1c)。
 次に、重み調整部23は、ステップST1cで求めた修正量で、重み事前学習部22が事前学習したノード間の重みの値を更新する(ステップST2c)。
 ノード間の重みの更新が終了すると、重み調整部23は、重みの微調整の終了条件を満たしたか否かを確認する(ステップST3c)。ここで、終了条件としては、例えば、教師データと判別処理部21から入力した判別結果との誤差を算出する評価関数の値が予め定めた閾値以下となる場合が考えられる。また、学習回数が閾値回数以上となった場合であってもよい。
 終了条件を満たし重みの微調整を終了すべきと判断した場合(ステップST3c;YES)、重み調整部23は重みの微調整を終了する。一方、終了条件を満たしていない場合(ステップST3c;NO)、ステップST1cの処理に戻り、上述した重みの微調整を繰り返す。これにより、判別処理部21は、疎結合部分で結合されたノード間の重みを重み事前学習部22により事前学習され、重み調整部23により最適化調整された重みの値で更新されたディープニューラルネットワークを用いて分類問題あるいは回帰問題を解くことができる。
 ディープニューラルネットワークにおいて、中間ノードまたは出力ノードの数が少ない場合(例えば21個以下)、実施の形態1と同様に、ユークリッド幾何的符号あるいは射影幾何的符号などの有限幾何的符号の検査行列、または、差集合巡回符号などの巡回符号の検査行列において、行要素に一方の層のノードを割り当て列要素にもう一方の層のノードを割り当てて、行列要素に1が立ったノード間で結合を行うと、大幅な演算量の削減が期待される。これは、図6に示したユークリッド幾何的符号の検査行列、図7に示した射影幾何的符号の検査行列、図8に示した差集合巡回符号の検査行列における、列数または行数に対する1の個数を示した結果から明らかなように、ノード数に対応する列数または行数が21個以下の場合において列数または行数に対して1の個数が格段に少なく、ノード間に疎結合部分を形成することができるためである。
 なお、巡回符号は符号語を巡回シフトして生成した符号であり、規則的な配列となっている。このため、時系列データの学習判別に適しており、またハードウェア実装する場合には、他の符号に比べて設計が容易に行えるという特徴がある。
 また、ディープニューラルネットワークにおいて、中間ノードまたは出力ノードの数が多い場合(例えば21個を超える)は、実施の形態1と同様にLDPC符号の検査行列、空間結合型符号の検査行列および疑似巡回符号の検査行列のいずれかに基づいてノード間の結合を行うと、大幅な演算量の削減が期待できる。これは、LDPC符号、空間結合型符号、疑似巡回符号の検査行列においては、行数や列数に依存せず、行に含まれる1の個数や列に含まれる1の個数が平均3~6個となるためである。例えば、行数を10000とした場合においても、行に含まれる1の個数の平均が3~6個となり、ノード間の結合数の平均が3~6個と疎結合になる。このため、大幅に演算量を削減することができる。特に、図9に示した空間結合型符号の検査行列は、行列要素の1が帯状に配列した行列であるため、制御のし易さの観点よりも最大演算量の削減効果が期待できる。
 以上のように、この実施の形態2によれば、誤り訂正符号の検査行列に基づいて、ノードを有する入力層、複数層の中間層および出力層からなるディープニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを教師なし学習する重み事前学習部22と、重み事前学習部22が学習した重みを教師あり学習で調整する重み調整部23と、結合されたノード間の重みが重み調整部23によって調整された重みの値で更新されたディープニューラルネットワークを用いて分類問題あるいは回帰問題を解く判別処理部21とを備える。このようにディープニューラルネットワークにおいて疎結合を形成することにより判別器学習および判別処理の高速化を図ることができる。特に、ディープニューラルネットワークは、実施の形態1で示した階層型ニューラルネットワークに比べて中間層の層数が多く疎結合部分を形成可能な箇所が多いため、ノード間の積和演算の削減効果が大きい。また、学習データに依存せず疎結合を生成するため、学習データの変更や修正があった場合の事前学習を行う手間が省くことができる。
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明に係る階層型ニューラルネットワーク装置は、階層型ニューラルネットワークにおいて学習データに依存せずに疎結合を形成することにより判別器学習および判別処理の高速化を図ることができるので、各種の制御、予測、診断に関する情報処理に適用可能である。
 1,1A 階層型ニューラルネットワーク装置、2,2A 判別器学習部、3 重み記憶部、4 学習データ記憶部、5 教師データ記憶部、20 重み学習部、21 判別処理部、22 重み事前学習部、23 重み調整部。

Claims (8)

  1.  誤り訂正符号の検査行列に基づいて、ノードを有する入力層、中間層および出力層からなる階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを学習する重み学習部と、
     結合されたノード間の重みが前記重み学習部によって学習された重みの値で更新された階層型ニューラルネットワークを用いて分類問題あるいは回帰問題を解く判別処理部とを備える階層型ニューラルネットワーク装置。
  2.  前記誤り訂正符号は、疑似乱数符号、有限幾何的符号、巡回符号、疑似巡回符号、LDPC符号および空間結合符号のいずれかであることを特徴とする請求項1記載の階層型ニューラルネットワーク装置。
  3.  誤り訂正符号の検査行列に基づいて、ノードを有する入力層、複数層の中間層および出力層からなるディープニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、結合されたノード間の重みを教師なし学習する重み事前学習部と、
     前記重み事前学習部が学習した重みを教師あり学習で調整する重み調整部と、
     結合されたノード間の重みが前記重み調整部によって調整された重みの値で更新されたディープニューラルネットワークを用いて分類問題あるいは回帰問題を解く判別処理部とを備える階層型ニューラルネットワーク装置。
  4.  前記誤り訂正符号は、疑似乱数符号、有限幾何的符号、巡回符号、疑似巡回符号、LDPC符号および空間結合符号のいずれかであることを特徴とする請求項3記載の階層型ニューラルネットワーク装置。
  5.  ノードを有する入力層、中間層および出力層からなる階層型ニューラルネットワークを学習する判別器学習方法であって、
     重み学習部が、
     誤り訂正符号の検査行列に基づいて前記階層型ニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、
     結合されたノード間の重みを学習し、
     学習した重みで前記ノード間の重みの値を更新する判別器学習方法。
  6.  ノードを有する入力層、複数層の中間層および出力層からなるディープニューラルネットワークを学習する判別器学習方法であって、
     重み事前学習部が、
     誤り訂正符号の検査行列に基づいて前記ディープニューラルネットワークにおける一部のノード間に結合を行って疎結合部分を生成し、
     結合されたノード間の重みを教師なし学習し、
     重み調整部が、
     重み事前学習部により事前学習された重みを教師あり学習で調整し、
     調整した重みで前記ノード間の重みの値を更新する判別器学習方法。
  7.  請求項5記載の判別器学習方法でノード間の重みの値が更新された階層型ニューラルネットワークを用いた判別を行う判別方法。
  8.  請求項6記載の判別器学習方法でノード間の重みの値が更新されたディープニューラルネットワークを用いた判別を行う判別方法。
PCT/JP2014/053056 2014-02-10 2014-02-10 階層型ニューラルネットワーク装置、判別器学習方法および判別方法 WO2015118686A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US15/110,362 US10796223B2 (en) 2014-02-10 2014-02-10 Hierarchical neural network apparatus, classifier learning method and discriminating method
PCT/JP2014/053056 WO2015118686A1 (ja) 2014-02-10 2014-02-10 階層型ニューラルネットワーク装置、判別器学習方法および判別方法
CN201480073042.6A CN105900116A (zh) 2014-02-10 2014-02-10 分层型神经网络装置、判别器学习方法以及判别方法
KR1020167024009A KR101878579B1 (ko) 2014-02-10 2014-02-10 계층형 뉴럴 네트워크 장치, 판별기 학습 방법 및 판별 방법
JP2015561138A JP5937284B2 (ja) 2014-02-10 2014-02-10 階層型ニューラルネットワーク装置、判別器学習方法および判別方法
EP14882049.1A EP3089081A4 (en) 2014-02-10 2014-02-10 Hierarchical neural network device, learning method for determination device, and determination method
CN202010084242.9A CN111242300A (zh) 2014-02-10 2014-02-10 使用分层型神经网络的判别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/053056 WO2015118686A1 (ja) 2014-02-10 2014-02-10 階層型ニューラルネットワーク装置、判別器学習方法および判別方法

Publications (1)

Publication Number Publication Date
WO2015118686A1 true WO2015118686A1 (ja) 2015-08-13

Family

ID=53777512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/053056 WO2015118686A1 (ja) 2014-02-10 2014-02-10 階層型ニューラルネットワーク装置、判別器学習方法および判別方法

Country Status (6)

Country Link
US (1) US10796223B2 (ja)
EP (1) EP3089081A4 (ja)
JP (1) JP5937284B2 (ja)
KR (1) KR101878579B1 (ja)
CN (2) CN105900116A (ja)
WO (1) WO2015118686A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3185184A1 (en) 2015-12-21 2017-06-28 Aiton Caldwell SA The method for analyzing a set of billing data in neural networks
WO2017166155A1 (zh) * 2016-03-31 2017-10-05 富士通株式会社 一种对神经网络模型进行训练的方法、装置及电子设备
CN108230359A (zh) * 2017-11-12 2018-06-29 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
CN109310292A (zh) * 2016-06-24 2019-02-05 奥林巴斯株式会社 图像处理装置、学习装置、图像处理方法、识别基准的生成方法、学习方法和程序
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN110097183A (zh) * 2018-01-29 2019-08-06 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN110097184A (zh) * 2018-01-29 2019-08-06 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
WO2022091530A1 (ja) * 2020-11-02 2022-05-05 Soinn株式会社 推定装置、推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706327B2 (en) * 2016-08-03 2020-07-07 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
KR101828011B1 (ko) 2016-08-11 2018-02-21 서울대학교산학협력단 이미지에 포함된 객체의 상태를 분류하는 방법 및 분류 장치
US10572342B2 (en) * 2016-10-24 2020-02-25 SK Hynix Inc. Memory system with LDPC decoder and operating method thereof
US10685285B2 (en) * 2016-11-23 2020-06-16 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
WO2018184222A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Methods and systems using improved training and learning for deep neural networks
US10491243B2 (en) * 2017-05-26 2019-11-26 SK Hynix Inc. Deep learning for low-density parity-check (LDPC) decoding
TWI636404B (zh) * 2017-07-31 2018-09-21 財團法人工業技術研究院 深度神經網路、使用深度神經網路的方法與電腦可讀媒體
KR101880901B1 (ko) 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
CN109426859B (zh) * 2017-08-22 2021-03-05 华为技术有限公司 神经网络训练系统、方法和计算机可读存储介质
US10693496B2 (en) * 2017-08-29 2020-06-23 SK Hynix Inc. Memory system with LDPC decoder and method of operating such memory system and LDPC decoder
US10552251B2 (en) * 2017-09-06 2020-02-04 Western Digital Technologies, Inc. Storage of neural networks
US11301752B2 (en) * 2017-10-24 2022-04-12 International Business Machines Corporation Memory configuration for implementing a neural network
US11468332B2 (en) * 2017-11-13 2022-10-11 Raytheon Company Deep neural network processor with interleaved backpropagation
CN109995380B (zh) * 2018-01-02 2021-08-13 华为技术有限公司 译码方法及设备
KR102501884B1 (ko) * 2018-07-06 2023-02-21 에임시스템 주식회사 기계 학습 기반의 설비 이상 진단 시스템 및 방법
US11586848B2 (en) * 2018-07-24 2023-02-21 Samsung Electronics Co., Ltd. Object recognition devices, electronic devices and methods of recognizing objects
US11210565B2 (en) * 2018-11-30 2021-12-28 Microsoft Technology Licensing, Llc Machine learning model with depth processing units
US10727868B2 (en) 2018-12-03 2020-07-28 Samsung Electronics Co., Ltd. Apparatus and method for offset optimization for low-density parity-check (LDPC) code
JP2020095428A (ja) 2018-12-12 2020-06-18 株式会社東芝 モデル学習システム、モデル学習方法、プログラム、及び記憶媒体
MX2021010406A (es) * 2019-02-28 2021-09-21 Mitsubishi Electric Corp Dispositivo de procesamiento de datos, sistema de procesamiento de datos, y metodo de procesamiento de datos.
DE102019206720B4 (de) 2019-05-09 2021-08-26 Volkswagen Aktiengesellschaft Überwachung eines KI-Moduls einer Fahrfunktion eines Fahrzeugs
US11080152B2 (en) * 2019-05-15 2021-08-03 Western Digital Technologies, Inc. Optimized neural network data organization
US11468327B2 (en) * 2020-05-26 2022-10-11 GE Precision Healthcare LLC Differential learning for learning networks
WO2022164667A1 (en) * 2021-02-01 2022-08-04 Microsoft Technology Licensing, Llc Automated program repair using stack traces and back translations
US11604719B2 (en) * 2021-02-01 2023-03-14 Microsoft Technology Licensing, Llc. Automated program repair using stack traces and back translations
EP4329202A1 (en) * 2021-05-25 2024-02-28 Samsung Electronics Co., Ltd. Neural network-based self-correcting min-sum decoder and electronic device comprising same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163808A (ja) * 2004-12-07 2006-06-22 Fuji Electric Holdings Co Ltd ニューラルネットワークの構造

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2714600B2 (ja) 1988-08-12 1998-02-16 衛 田中 連想型ニューロコンピュータ
JPH0991263A (ja) 1995-09-20 1997-04-04 Hitachi Medical Corp ニューラルネットワーク構造最適化装置ならびに方法
JP2003317073A (ja) * 2002-04-24 2003-11-07 Fuji Xerox Co Ltd ニューラルネットワーク処理装置
US7523375B2 (en) * 2005-09-21 2009-04-21 Distribution Control Systems Set of irregular LDPC codes with random structure and low encoding complexity
FR2964222A1 (fr) * 2010-08-25 2012-03-02 Inst Telecom Telecom Bretagne Dispositif d'apprentissage et de decodage de messages, mettant en œuvre un reseau de neurones, procedes d'apprentissage et de decodage et programmes d'ordinateur correspondants.
JP5234085B2 (ja) 2010-11-11 2013-07-10 富士電機株式会社 ニューラルネットワークの学習方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163808A (ja) * 2004-12-07 2006-06-22 Fuji Electric Holdings Co Ltd ニューラルネットワークの構造

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIKARU MIZUTANI: "Weighting Method of Sparse Neural Network, Proceedings of Circuits and Systems", ISCAS'93 , 1993 IEEE INTERNATIONAL SYMPOSIUM ON, pages 2383 - 2386, XP055355899 *
See also references of EP3089081A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3185184A1 (en) 2015-12-21 2017-06-28 Aiton Caldwell SA The method for analyzing a set of billing data in neural networks
WO2017166155A1 (zh) * 2016-03-31 2017-10-05 富士通株式会社 一种对神经网络模型进行训练的方法、装置及电子设备
CN109310292A (zh) * 2016-06-24 2019-02-05 奥林巴斯株式会社 图像处理装置、学习装置、图像处理方法、识别基准的生成方法、学习方法和程序
CN108230359A (zh) * 2017-11-12 2018-06-29 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
US11455782B2 (en) 2017-11-12 2022-09-27 Beijing Sensetime Technology Development Co., Ltd. Target detection method and apparatus, training method, electronic device and medium
CN110097183A (zh) * 2018-01-29 2019-08-06 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN110097184A (zh) * 2018-01-29 2019-08-06 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN110097183B (zh) * 2018-01-29 2024-03-01 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN110097184B (zh) * 2018-01-29 2024-03-01 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
WO2022091530A1 (ja) * 2020-11-02 2022-05-05 Soinn株式会社 推定装置、推定方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
EP3089081A4 (en) 2017-09-20
EP3089081A1 (en) 2016-11-02
CN111242300A (zh) 2020-06-05
KR101878579B1 (ko) 2018-07-13
KR20160117537A (ko) 2016-10-10
JP5937284B2 (ja) 2016-06-22
US20160335536A1 (en) 2016-11-17
CN105900116A (zh) 2016-08-24
JPWO2015118686A1 (ja) 2017-03-23
US10796223B2 (en) 2020-10-06

Similar Documents

Publication Publication Date Title
JP5937284B2 (ja) 階層型ニューラルネットワーク装置、判別器学習方法および判別方法
US20210342699A1 (en) Cooperative execution of a genetic algorithm with an efficient training algorithm for data-driven model creation
US20200210847A1 (en) Ensembling of neural network models
US11106978B2 (en) Execution of a genetic algorithm with variable evolutionary weights of topological parameters for neural network generation and training
US11853893B2 (en) Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm
EP3459017B1 (en) Progressive neural networks
US10380479B2 (en) Acceleration of convolutional neural network training using stochastic perforation
JP6612855B2 (ja) 出力分布による生徒dnnの学習
JP6724869B2 (ja) 多層ニューラルネットワークのニューロンの出力レベル調整方法
JP6227052B2 (ja) 処理装置、判別方法およびプログラム
KR20170034258A (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
KR20190055408A (ko) 시냅스소자에서 가중치에 대한 비대칭성을 최소화하는 펄스 구동 장치 및 그 방법
KR102061935B1 (ko) 딥 신경망을 이용한 정보 이전 방법 및 그 장치
US9536206B2 (en) Method and apparatus for improving resilience in customized program learning network computational environments
US20190138929A1 (en) System and method for automatic building of learning machines using learning machines
US20070288407A1 (en) Information-processing apparatus, method of processing information, learning device and learning method
Li et al. Generalization guarantee of training graph convolutional networks with graph topology sampling
JP7279225B2 (ja) 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム
WO2021095512A1 (ja) 機械学習装置、情報処理方法および記録媒体
CN115358485A (zh) 一种基于图自注意力机制与霍克斯过程的交通流预测方法
WO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
US20190258928A1 (en) Artificial neural network
JP6741159B1 (ja) 推論装置及び推論方法
US20230386457A1 (en) Transformer-based voice recognition technology using improved voice as conditioning feature
Tsiourvas Solving High Dimensional PDEs using Deep Learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14882049

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015561138

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2014882049

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014882049

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15110362

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20167024009

Country of ref document: KR

Kind code of ref document: A