WO2020085059A1 - 分散処理システムおよび分散処理方法 - Google Patents

分散処理システムおよび分散処理方法 Download PDF

Info

Publication number
WO2020085059A1
WO2020085059A1 PCT/JP2019/039450 JP2019039450W WO2020085059A1 WO 2020085059 A1 WO2020085059 A1 WO 2020085059A1 JP 2019039450 W JP2019039450 W JP 2019039450W WO 2020085059 A1 WO2020085059 A1 WO 2020085059A1
Authority
WO
WIPO (PCT)
Prior art keywords
distributed processing
node
processing node
distributed
data
Prior art date
Application number
PCT/JP2019/039450
Other languages
English (en)
French (fr)
Inventor
健治 川合
順一 加藤
フィクー ゴー
勇輝 有川
伊藤 猛
坂本 健
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/287,063 priority Critical patent/US11240296B2/en
Publication of WO2020085059A1 publication Critical patent/WO2020085059A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1031Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1027Persistence of sessions during load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1038Load balancing arrangements to avoid a single path through a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Definitions

  • the present invention relates to a distributed processing system including a plurality of distributed processing nodes, and in particular, a distributed processing system that aggregates numerical data from each distributed processing node to generate aggregated data and distributes the aggregated data to each distributed processing node,
  • the present invention relates to a distributed processing method.
  • the inference accuracy is improved by updating the weight of each neuron model (coefficient that multiplies the value output by the preceding neuron model) based on the input sample data for the learning target consisting of multiple layer neuron models. To do.
  • the mini-batch method is used to improve the inference accuracy.
  • a gradient calculation process for calculating a gradient for the weight for each sample data aggregating process for aggregating the gradients for a plurality of different sample data (summing the gradients obtained for each sample data by weight), The weight update process of updating each weight based on the aggregated gradient is repeated.
  • a distributed processing method is used to speed up the gradient calculation processing. Specifically, a plurality of distributed processing nodes are provided, and each node performs gradient calculation processing on different sample data. This makes it possible to increase the number of sample data items that can be processed in a unit time in proportion to the number of nodes, so that the gradient calculation process can be speeded up (see Non-Patent Document 1).
  • each distributed processing node calculates the gradient for the weight for each sample data, and the in-node aggregation for adding the gradients obtained for each sample data by weight Communication for transferring data (distributed data) obtained for each distributed processing node to a node that performs aggregation processing between the processing and the weight update processing for updating each weight based on the aggregated gradient.
  • aggregate communication processing to aggregate based on the data acquired by the aggregate communication (inter-node aggregation processing), and for distributing the aggregated data (aggregated data) acquired from each distributed processing node to each distributed processing node Communication (distributed communication) is required.
  • the time required for the above-mentioned aggregated communication and distributed communication is not necessary in a system in which deep learning is performed by a single node, and is a factor that reduces the processing speed in performing distributed processing of deep learning.
  • deep learning has been applied to more complicated problems, and the total number of weights tends to increase. For this reason, the amount of distributed data and aggregated data increases, and the aggregated communication time and distributed communication time increase.
  • FIG. 18 shows the relationship between the number of distributed processing nodes and the processing performance of deep learning in the conventional distributed processing system
  • 200 shows the ideal relationship between the number of distributed processing nodes and the processing performance (performance ⁇ number of nodes).
  • 201 indicates the actual relationship between the number of distributed processing nodes and the processing performance.
  • the total amount of distributed data that is the input of the inter-node aggregation processing increases in proportion to the number of distributed processing nodes, but the actual processing performance does not improve in proportion to the number of distributed processing nodes. This is because the time required for the aggregated communication increases because the physical speed of the communication port of this node is limited to the physical speed or less.
  • the present invention has been made in consideration of the above circumstances, and an object thereof is to perform an effective distributed processing when applied to deep learning in a distributed processing system including a plurality of distributed processing nodes. It is to provide a distributed processing system and a distributed processing method capable of performing the processing.
  • the first distributed processing node designated in advance is the distributed data generated by the own node.
  • the first aggregated data is packetized in the order of number m of weight w [m], and transmitted from the first communication port of the own node to the second distributed processing node.
  • the sum of the first aggregated data received via the second communication port and the distributed data generated by the own node is calculated for each corresponding weight w [m] to generate the updated first aggregated data.
  • the first distributed processing node sends N
  • the first aggregated data received from the distributed processing node of the eye via the second communication port of the own node is used as the second aggregated data, and the second aggregated data is packetized in the order of the number m, It transmits from the second communication port of its own node to the Nth distributed processing node, and the kth distributed processing node sends the first communication port of its own node from the k + th distributed processing node.
  • the second aggregated data received via the above is packetized in the order of the number m, transmitted from the second communication port of the own node to the (k-1) th distributed processing node, and transmitted to the first node.
  • the distributed processing node receives the second aggregated data from the second distributed processing node via the first communication port of its own node, and each distributed processing node is based on the received second aggregated data.
  • the new The weight w [m] of the network is updated, and the first distributed processing node uses the aggregated communication time required for each distributed processing node to aggregate the distributed data, or the aggregated communication time and each distributed processing node.
  • each distributed processing node may be configured such that when the distributed processing node has an intra-node aggregation processing unit that generates the distributed data, and the own node functions as the first distributed processing node,
  • the first aggregated data is packetized in the order of number m of weight w [m] and transmitted from the first communication port of the own node to the second distributed processing node, where the own node makes the kth
  • the updated first aggregated data is packetized in the order of the number m and transmitted from the first communication port of the own node to the k + th distributed processing node.
  • a first transmitting unit that acquires the first aggregated data from a packet received from the second communication port of the own node; and the own node as the first distributed processing node If it does, the second aggregated data is packetized in the order of the number m and transmitted from the second communication port of the own node to the Nth distributed processing node, and the own node outputs the k
  • the received second aggregated data is packetized in the order of the number m, and the (k-1) th distributed processing node from the second communication port of the own node is packetized.
  • an aggregated data generation unit that generates the updated first aggregated data, and updates the weight w [m] of the neural network based on the received second aggregated data.
  • the weight update processing unit and its own node function as the first distributed processing node
  • the Nth distributed processing node is started from the time point when the first aggregated data is transmitted to the second distributed processing node.
  • the time up to the point of time when the first aggregated data is received from the processing node is measured as the aggregated communication time, and the second aggregated time is transmitted from the point of time when the first aggregated data is transmitted to the second distributed processing node.
  • Timer for measuring the time until the second aggregated data is received from the distributed processing node as the aggregated distributed communication time, and the aggregated communication time when the own node functions as the first distributed processing node.
  • an alarm generation unit for issuing an alarm indicating abnormality in aggregation delay is provided. That.
  • the first distributed processing node collects the distributed data before the first aggregated data is transmitted from the first communication port of the own node. To periodically generate a management packet including a counting start confirmation flag indicating whether or not the preparation has been completed, and at least one of the first communication port and the second communication port of the management packet is generated. From the second distributed processing node to the at least one of the Nth distributed processing node, and the kth distributed processing node is transmitted from the (k-1) th distributed processing node to its own node.
  • the aggregation start confirmation flag included in the received management packet is a value indicating that the preparation for totaling the distributed data is not completed. And updating the updated management packet from the communication port different from the port receiving the management packet among the first and second communication ports to the k + th distributed processing node or the (k-1) th communication node.
  • the received management packet is regarded as the port that received the management packet among the first and second communication ports.
  • the first dispersion treatment no Receives the management packet from the N-th distributed processing node via the second communication port of the own node, or from the second distributed processing node via the first communication port of the own node.
  • the management packet is received, and the aggregation start confirmation flag included in the received management packet has a value indicating that preparation for aggregation of the distributed data is completed, transmission of the first aggregation data is started. It is characterized by doing.
  • N is an integer of 2 or more distributed processing nodes arranged in a ring shape and connected to adjacent nodes via a communication path.
  • the first step to generate and the first specified distribution among N distributed processing nodes The processing node packetizes the first aggregated data in the order of the number m of the weight w [m] by using the distributed data generated by the own node as the first aggregated data, and performs the first communication of the own node.
  • the second step of transmitting from the port to the second distributed processing node, and the k-th (k 2, ..., N) distributed processing node of the N distributed processing nodes excluding the first Is the sum of the first aggregated data received from the (k-1) th distributed processing node via the second communication port of the own node and the distributed data generated by the own node, and the corresponding weight w
  • the updated first aggregated data is generated, the first aggregated data is packetized in the order of the number m, and the k + th (from the first communication port of the own node).
  • the k-th distributed processing node packetizes the second aggregated data received from the k + -th distributed processing node via the first communication port of its own node in the order of the number m, and A fifth step of transmitting from the second communication port of the node to the (k-1) th distributed processing node; and the first distributed processing node from the second distributed processing node to the own node First A sixth step of receiving the second aggregated data via the communication port of, and each distributed processing node updating the weight w [m] of the neural network based on the received second aggregated data. 7 and the first distributed processing node, the aggregated communication time required for each distributed processing node to aggregate the distributed data, and the aggregated communication time and each distributed processing node to the second aggregated data.
  • the third step is performed by the kth distributed processing node from the packet received from the second communication port of the own node from the first aggregated data. And a step of generating the updated first aggregated data, packetizing the updated first aggregated data in the order of the number m, and transmitting the first aggregated data to the first communication port of the own node. From the packet received by the first distributed processing node from the second communication port of its own node to the k + -th distributed processing node from the packet received from the second communication port of the own node.
  • the obtained first aggregated data is used as the second aggregated data
  • the second aggregated data is packetized in the order of the number m to Transmitting from the second communication port to the N-th distributed processing node
  • the k-th distributed processing node receives from the first communication port of its own node.
  • To obtain the second aggregated data from the packet and packetize the received second aggregated data in the order of the number m so that the (k-1) -th packet from the second communication port of the own node.
  • the method further comprises the step of measuring the time from the time point until the time point when the second aggregated data is received from the second distributed processing node as the aggregated distribution communication time.
  • the first distributed processing node aggregates the distributed data before transmitting the first aggregated data from the first communication port of the own node. To periodically generate a management packet including a counting start confirmation flag indicating whether or not the preparation has been completed, and at least one of the first communication port and the second communication port of the management packet is generated. From the second distributed processing node to the at least one of the Nth distributed processing node, and the kth distributed processing node is configured to send the (k-1) th distributed processing node.
  • the management packet When the management packet is received and the preparation for totaling the distributed data is not completed in the own node, the aggregation start confirmation flag included in the received management packet is not ready for totaling the distributed data. And the updated management packet from the communication port different from the port receiving the management packet among the first and second communication ports to the k + th distributed processing node or (k- 1) Sending to the 1st distributed processing node, when the self node is ready to aggregate the distributed data, the management packet received is received from the 1st and 2nd communication ports.
  • the first distributed processing node receives the management packet from the Nth distributed processing node via the second communication port of the own node, or the second distributed processing node sends the management packet to the own node.
  • the management packet is received via the first communication port of, and the aggregation start confirmation flag included in the received management packet is a value indicating that preparation for aggregation of the distributed data is completed,
  • Communication processing for transmitting the first aggregated data to the n + -th distributed processing node
  • each distributed processing node is provided with the first communication port and the second communication port, and the directions of the aggregated communication and the distributed communication are reversed, thereby waiting for the start of the distributed communication until the aggregated communication is completed. No need.
  • the distributed processing of deep learning can be performed without providing the aggregation processing node, and the speed of the distributed processing is not limited by the communication speed of the aggregation processing node.
  • the aggregated communication time or the aggregated distributed communication time exceeds the maximum aggregated delay time, by issuing an alarm indicating an aggregated delay abnormality, an abnormality in which the communication is interrupted immediately during the aggregated communication or the distributed communication is immediately reported. It is possible to realize a distributed processing system that can be detected and is excellent in maintainability.
  • the value of the maximum aggregation delay time can be reduced, and the abnormality of the distributed processing system in which the communication is interrupted in the middle of the aggregated communication or the distributed communication occurs. It can be detected in a shorter time.
  • FIG. 1 is a block diagram showing a configuration example of a distributed processing system for deep learning according to the first exemplary embodiment of the present invention.
  • FIG. 2 is a flow chart illustrating a sample data input process, a gradient calculation process, and an in-node totaling process of the distributed processing node according to the first embodiment of the present invention.
  • FIG. 3 is a flow chart for explaining the aggregated communication processing of the distributed processing nodes, the inter-node aggregation processing, and the distributed communication processing according to the first embodiment of the present invention.
  • FIG. 4 is a flow chart for explaining the aggregated communication processing of the distributed processing nodes, the inter-node aggregation processing and the distributed communication processing according to the first embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration example of a distributed processing system for deep learning according to the first exemplary embodiment of the present invention.
  • FIG. 2 is a flow chart illustrating a sample data input process, a gradient calculation process, and an in-node
  • FIG. 5 is a flowchart illustrating the weight update processing of the distributed processing node according to the first embodiment of this invention.
  • FIG. 6 is a block diagram showing a configuration example of a distributed processing node according to the second exemplary embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration example of a distributed processing node according to the second exemplary embodiment of the present invention.
  • FIG. 8 is a diagram showing an outline of processing of the distributed processing node according to the second embodiment of the present invention.
  • FIG. 9 is a diagram showing a sequence of communication of intermediate aggregate data and aggregate data between distributed processing nodes according to the second embodiment of the present invention.
  • FIG. 10 is a diagram showing a sequence of communication of intermediate aggregate data and aggregate data between distributed processing nodes according to the second embodiment of the present invention.
  • FIG. 10 is a diagram showing a sequence of communication of intermediate aggregate data and aggregate data between distributed processing nodes according to the second embodiment of the present invention.
  • FIG. 11 is a diagram showing a sequence of communication of intermediate aggregate data and aggregate data between distributed processing nodes according to the second embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration example of a distributed processing node according to the third exemplary embodiment of the present invention.
  • FIG. 13 is a block diagram showing a configuration example of a distributed processing node according to the third exemplary embodiment of the present invention.
  • FIG. 14 is a flow chart illustrating a process performed by the distributed processing node according to the third embodiment of the present invention before the aggregate communication process.
  • FIG. 15 is a flow chart illustrating a process performed by the distributed processing node according to the third embodiment of the present invention before the aggregate communication process.
  • FIG. 12 is a block diagram showing a configuration example of a distributed processing node according to the third exemplary embodiment of the present invention.
  • FIG. 13 is a block diagram showing a configuration example of a distributed processing node according to the third exemplary embodiment of the present invention.
  • FIG. 14 is a flow
  • FIG. 16 is a diagram showing a sequence of communication between distributed processing nodes, which is performed before the aggregated communication process in the third embodiment of the present invention.
  • FIG. 17 is a block diagram showing a configuration example of a computer that realizes the distributed processing nodes according to the first to third embodiments of the present invention.
  • FIG. 18 is a diagram showing the relationship between the number of distributed processing nodes and the processing performance of deep learning in the conventional distributed processing system.
  • FIG. 1 is a block diagram showing a configuration example of a distributed processing system for deep learning according to the first exemplary embodiment of the present invention.
  • FIG. 2 is a flowchart for explaining sample data input processing, gradient calculation processing, and in-node aggregation processing of the distributed processing node 1 [n].
  • the present invention is not limited to the method of collecting sample data by the data collecting node, and the method of distributing the collected sample data to N sets and distributing them to each distributed processing node 1 [n].
  • the method can be applied regardless of the above method.
  • the calculation formula of the distributed data D [m, n] is as follows.
  • the gradient calculation processing in step S101 and the in-node aggregation processing in step S102 are pipelined in units of sample data (the gradient calculation processing is performed on a certain sample data, and at the same time, it is obtained from the previous sample data. It is possible to simultaneously perform the in-node totaling process of totaling the gradient).
  • 3 and 4 are flowcharts for explaining the aggregate communication process, the inter-node aggregate process, and the distributed communication process of the distributed processing node 1 [n].
  • the predetermined first distributed processing node 1 [1] is the M number of M nodes generated by the own node.
  • the number is transmitted to the distributed processing node 1 [2] (steps S103 and S104 in FIG. 3). That is, the intermediate totalized data Rt [m, 1] at this time is the same as the distributed data D [m, 1].
  • Rt [m, 1] D [m, 1] (2)
  • Intermediate summation data Rt [m, i] is generated by obtaining the sum with the distributed data D [m, i] generated by the node for each corresponding weight w [m] (step S108 in FIG. 3). That is, the intermediate totalized data Rt [m, i] is composed of M numbers.
  • the calculation formula of the intermediate tabulated data Rt [m, i] is as follows.
  • Rt [m, i] Rt [m, i-1] + D [m, i] (3)
  • the predetermined Nth distributed processing node 1 [N] is an intermediate node from the distributed processing node 1 [N-1].
  • the aggregated data Rt [m, N-1] is received via the communication port 11 and the communication path 2 [N-1] of the own node (steps S110 and S111 in FIG. 3).
  • the calculation formula of the intermediate totalization data Rt [m, N] is as follows.
  • Rt [m, N] Rt [m, N ⁇ 1] + D [m, N] (4)
  • the value of the intermediate summary data Rt [m, N] can be represented by the following formula.
  • the first distributed processing node 1 [1] receives the intermediate aggregate data Rt [m, N] from the distributed processing node 1 [N] via the communication port 11 and the communication path 2 [N] of its own node (FIG. 4 steps S114, S115).
  • the first distributed processing node 1 [1] receives the intermediate aggregation data Rt [m, N] from the time when the time measurement is started in step S105 (when the intermediate aggregation data Rt [m, 1] is transmitted). The time until is set as the aggregated communication time and the measurement of the aggregated communication time is ended (step S116 in FIG. 4).
  • the first distributed processing node 1 [1] alerts the system administrator of the aggregation delay abnormality. Is issued (step S118 in FIG. 4).
  • the aggregated data R [m] is the same as the intermediate aggregated data Rt [m, N].
  • Whether the distributed processing node 1 [1] has successfully received the aggregated data R [m] is determined by, for example, the aggregated data R [m] transmitted in step S119 and the aggregated data R [m received in steps S124 and S125. ] And can be determined. That is, if the transmitted aggregated data R [m] and the received aggregated data R [m] match, it can be determined that the aggregated data R [m] was successfully received.
  • the first distributed processing node 1 [1] transmits the time point (intermediate aggregated data Rt [m, 1]) at which time measurement is started in step S105.
  • the time from the time point) to the time point at which the aggregated data R [m] is received is set as the aggregated distribution communication time, and the measurement of the aggregated distribution communication time ends (step S126 in FIG. 4).
  • the first distributed processing node 1 [1] indicates an aggregation delay abnormality to the system administrator when the measured aggregation / distribution communication time exceeds the predetermined maximum aggregation delay time (YES in step S127 in FIG. 4). An alarm is issued (step S128 in FIG. 4).
  • the aggregated communication time and aggregated distributed communication time increase when the communication of the intermediate summary data is interrupted during the aggregated communication or when the communication of the aggregated data is interrupted during the distributed communication.
  • the distributed processing node [1] issues an alarm indicating an aggregated delay error, thereby generating a distributed processing system. Abnormality is notified to the system administrator. As a result, the system administrator can be urged to take measures to eliminate the aggregation delay abnormality.
  • Aggregated communication is performed through the route of distributed processing node 1 [1] ⁇ distributed processing node 1 [2] ⁇ ... ⁇ distributed processing node 1 [N] ⁇ distributed processing node 1 [1].
  • the distributed communication is performed through a route of distributed processing node 1 [1] ⁇ distributed processing node 1 [N] ⁇ ... ⁇ distributed processing node 1 [2] ⁇ distributed processing node 1 [1].
  • the directions of communication between aggregated communication and distributed communication are opposite to each other. Since the aggregated communication and the distributed communication are performed via the communication ports 10 and 11 and the communication path 2 [n] capable of simultaneously performing bidirectional communication, the distributed communication is started until the aggregated communication is completed. You don't have to wait.
  • the distributed processing node 1 [1] transmits the intermediate aggregated data Rt.
  • distribution communication can be started with the intermediate tabulated data Rt [m, N] as the tabulated data R [m].
  • Weight update processing for updating the weight w [m] of the neural network in the own node is performed (step S130 in FIG. 5).
  • the weight w [m] may be updated for each number m so that the loss function is minimized based on the gradient of the loss function indicated by the aggregated data R [m]. Since updating the weight w [m] is a known technique, detailed description thereof will be omitted.
  • each distributed processing node 1 [n] receives the next sample data for mini-batch learning from a data collection node (not shown), and repeats the mini-batch learning process described above to obtain the inference accuracy of the neural network of its own node. Improve.
  • the distributed communication it is not necessary to wait for the start of the distributed communication until the aggregated communication is completed, and even during the aggregated communication, the distributed communication can be started from a part of the data for which the aggregation is completed. Therefore, it is possible to shorten the time from the start of the aggregated communication to the completion of the distributed communication, as compared to the conventional technique of completing the aggregated communication and then starting the distributed communication. It is possible to provide a distributed system of learning.
  • the distributed processing node 1 [1] completes the acquisition of the aggregated data R [m]
  • the distributed processing node [1] issues an alarm indicating an aggregation delay abnormality. It is possible to provide a distributed learning processing system for deep learning, which is capable of immediately detecting an anomaly in which communication is interrupted in the middle of aggregated communication or distributed communication.
  • FIG. 6 is a block diagram showing a configuration example of the distributed processing node 1 [1] according to this embodiment
  • Sample input section 16 and sump A gradient calculation processing unit 17 for calculating the gradient G [m, 1, s] of the loss function of the neural network for each sample data for each of the weights w [m] of the neural network when the data is input;
  • An in-node aggregation processing unit 18 that generates and holds distributed data D [m, 1], which is a numerical value obtained by aggregating the gradient G [m, n, s] of each data, for each weight w [m], and aggregated data R
  • a weight update processing unit 20 that updates the weight of the neural network based on [m], a neural network 21 that is a mathematical model constructed by software, and an aggregate delay timer that measures the aggregate communication time and the aggregate distribution communication time. 22 and an alarm generation unit 23 that issues an alarm indicating an abnormal
  • a transmitting unit 14 second transmitting unit that packetizes the aggregated data R [m] and outputs the packetized data to the communication port 11 of the own node.
  • a gradient calculation processing unit 17 that calculates the gradient G [m, k, s] of the loss function of the neural network for each sample data, and the gradient G [m, k for each sample data.
  • S which is a numerical value of the distributed data D [m, k] that is generated and held for each weight w [m], and the received intermediate totalized data Rt [m, k-1.
  • a total data generation unit 19 that generates [m, k], a weight update processing unit 20, and a neural network 21 are provided.
  • each distributed processing node is designated as either a parent node (distributed processing node 1 [1]) or a child node (distributed processing node 1 [k]) by external initialization. Is possible. As a result, in the present invention, all distributed processing nodes can be realized at low cost.
  • Distributed data D [m, n] (m 1, ..., M), which is a numerical value obtained by aggregating, is generated and held for each weight w [m].
  • the aggregated communication packet SP [p, 1] is transmitted from the communication port 10 to the distributed processing node 1 [2] having the next number via the communication path 2 [1] (steps S103 and S104 in FIG. 3).
  • the aggregation delay timer 22 of the distributed processing node 1 [1] starts measuring the aggregated communication time (step S105 in FIG. 3).
  • the intermediate tabulation data Rt [m, k] is generated in order of the number m by obtaining (every number m) (steps S108 and S112 in FIG. 3).
  • the aggregation delay timer 22 of the distributed processing node 1 [1] set as the parent node ends the measurement of the aggregated communication time (step S116 in FIG. 4).
  • the alarm generation unit 23 of the distributed processing node 1 [1] notifies the system administrator.
  • An alarm is issued in response (step S118 in FIG. 4).
  • an alarm output method for example, there is a method of transmitting a signal notifying the alarm generation to the terminal device of the system administrator.
  • the distributed communication packet DP [p, 1] is transmitted from the communication port 11 to the Nth distributed processing node 1 [N] via the communication path 2 [N] (step S119 in FIG. 4).
  • the distributed communication packet DP [p, k] is transmitted from the communication port 11 to the distributed processing node 1 [k-1] via the communication path 2 [k-1] (step S123 in FIG. 4).
  • the aggregation delay timer 22 of the distributed processing node 1 [1] set as the parent node finishes measuring the aggregated distribution communication time (step S126 in FIG. 4).
  • the alarm generation unit 23 of the distributed processing node 1 [1] is the system administrator. Is issued (step S128 in FIG. 4).
  • a weight update process for updating the weight w [m] of the neural network 21 is performed (step S130 in FIG. 5).
  • FIG. 10 shows the processing of the portion 80 in FIG.
  • Reference numeral 81 denotes inter-node aggregation processing in the distributed processing node 1 [1].
  • the aggregated communication processing, the inter-node aggregation processing, and the distributed communication processing can be performed in parallel substantially at the same time (by pipeline processing in units of number m). This is possible, and the processing time can be significantly shortened as compared with the related art in which the next processing cannot be started until the end of each communication or each processing.
  • the alarm indicating the aggregation delay abnormality is issued.
  • an abnormality in the distributed processing system in which communication is interrupted during aggregation communication or distribution communication can be detected in a shorter time.
  • the aggregate communication including the weight update processing by the weight update processing unit 20, the gradient calculation processing by the gradient calculation processing unit 17, and the in-node aggregation processing by the in-node aggregation processing unit 18 is started.
  • T1 and T2 due to a variation in calculation speed due to individual difference (basic performance, cooling capacity, etc.).
  • the aggregated communication preparation time of the distributed processing node 1 [1] temporarily becomes the value of T1, and the aggregated communication preparation time of the distributed processing node [2] is T2 when the distributed communication is completed at almost the same time as the distributed processing node 1 [1].
  • the distributed processing node 1 [2] that receives the intermediate aggregated data Rt [m, 1] from the distributed processing node 1 [1] continues to process the distributed data D [m] until (T2-T1) time has elapsed. , 2] is not completed, the aggregate communication (transmission of the intermediate aggregate data Rt [m, 2]) from the distributed processing node 1 [2] to the distributed processing node 1 [3] cannot be started.
  • FIG. 12 is a block diagram showing a configuration example of the distributed processing node 1 [1] according to the present embodiment
  • the distributed processing node 1 includes communication ports 10 and 11, a transmission unit 12a, a reception unit 13a, a transmission unit 14a, a reception unit 15a, a sample input unit 16, a gradient calculation processing unit 17, and a node.
  • the internal totalization processing unit 18, the weight update processing unit 20, the neural network 21, the totalization delay timer 22, the alarm generation unit 23, and the communication port 10 of the own node transmit the intermediate totalization data Rt [m, 1].
  • a management packet generation unit 24 that periodically generates a management packet including a counting start confirmation flag indicating whether or not the preparation for counting the distributed data is completed.
  • the gradient calculation processing unit 17 the intra-node totalization processing unit 18, the totalization data generation unit 19, the weight update processing unit 20, the neural network 21, and the preparation for totaling the distributed data in the own node have not been completed.
  • the flag update unit 25 is provided for updating the value of the aggregation start confirmation flag included in the received management packet to a value indicating that preparation for aggregation of the distributed data is not completed.
  • FIG. 14 is a flowchart for explaining the processing performed by the distributed processing node 1 [1] of this embodiment before the aggregate communication processing
  • FIG. 15 is the distributed processing node 1 [k] (k of this embodiment before the aggregate communication processing. , 2, ..., N)
  • the management packet MP including the aggregation start confirmation flag indicating is periodically generated (step S200 in FIG. 14).
  • the generation cycle of this management packet MP takes into consideration the influence of the communication of the management packet MP lowering the communication band that does not participate in this embodiment and passes through each communication path 2 [n] of the distributed processing system. After that, it is set to a value sufficiently shorter than the (T2-T1) time, which is the variation of the time when each distributed processing node 1 [n] completes the preparation for totaling the distributed data.
  • the generation period ⁇ T of the management packet MP is a value close to (T2-T1) time
  • the distributed processing node 1 [1] will start processing when all the distributed processing nodes 1 [n] are ready to collect the distributed data. In the worst case, the delay until the start of the aggregated communication is increased by one generation cycle ⁇ T of the management packet MP, which deteriorates the deep learning processing performance.
  • the value of the aggregation start confirmation flag is set to, for example, “0”, and the preparation for the aggregation of the distributed data D [m, 1] is completed.
  • the value of the aggregation start confirmation flag is set to "1", for example.
  • the transmission unit 12a of the distributed processing node 1 [1] outputs the management packet MP generated by the management packet generation unit 24 of its own node to the communication port 10 of its own node.
  • the management packet MP is transmitted from the communication port 10 to the distributed processing node 1 [2] having the next number via the communication path 2 [1] (step S201 in FIG. 14).
  • MP (0) in FIG. 16 indicates that the value of the aggregation start confirmation flag included in the management packet MP is “0”, and MP (1) indicates that the value of the aggregation start confirmation flag is “1”. ing.
  • the management packet MP with the value of the aggregation start confirmation flag being “0” is transmitted from the distributed processing node 1 [1].
  • the preparation for totaling the distributed data D [m, 1] of the distributed processing node 1 [1] is completed, so at the time after t1, the value of the aggregation start confirmation flag is "
  • the management packet MP of 1 ′′ is periodically transmitted from the distributed processing node 1 [1].
  • T2-T1 time from the time when the process is completed
  • all the distributed processing nodes 1 [n] are ready to collect the distributed data D [m, n].
  • the processing performance of deep learning is degraded, but the variation can be reduced from the maximum aggregation delay time.
  • the reception unit 15a receives the data.
  • the value of the aggregation start confirmation flag included in the management packet MP is updated to a value (“0”) indicating that preparation for aggregation of the distributed data D [m, k] is not completed, and the updated management packet MP is updated.
  • the value of the counting start confirmation flag of the management packet MP received by the receiving unit 15a is not updated, and the management packet MP is directly transmitted to the transmitting unit 12a of the own node. Pass to.
  • the preparation for tallying the distributed data D [m, 2] of the distributed processing node 1 [2] is completed, so at the time after t2, the value of the tallying start confirmation flag is "
  • the management packet MP is transmitted from the distributed processing node 1 [2] to the distributed processing node 1 [3] without being updated as it is.
  • t3, t4, and t5 indicate times when preparations for tabulating distributed data are completed in the distributed processing nodes 1 [3], 1 [4], and 1 [5], respectively.
  • the receiving unit 15a of the distributed processing node 1 [1] receives the management packet MP from the distributed processing node 1 [N] via the communication port 11 and the communication path 2 [N] of the own node (step S202 in FIG. 14).
  • the aggregation start confirmation flag included in the management packet MP received by the reception unit 15a of the own node is a value indicating that preparation for aggregation of the distributed data is completed (“ 1 ") (YES in step S203 in FIG. 14), the aggregated communication is started (step S204 in FIG. 14).
  • This aggregated communication packet SP [p, 1] is transmitted from the communication port 10 to the distributed processing node 1 [2] having the next number via the communication path 2 [1] (step S104 in FIG. 3).
  • the distributed processing node 1 [1] indicates that the aggregation start confirmation flag included in the management packet MP received by the reception unit 15a of the own node is a value indicating that the preparation for aggregation of the distributed data is not completed (“ If it is 0 ′′), the process returns to step S200. In this way, the processes of steps S200 to S203 are performed until the aggregation start confirmation flag included in the management packet MP received by the reception unit 15a becomes a value (“1”) indicating that preparation for aggregation of distributed data is completed. It is repeated.
  • the aggregation start confirmation flag of the packet MP is updated to a value indicating that preparation for aggregation of distributed data is not completed. Even if there is a distributed processing node that is ready to collect the distributed data behind this distributed processing node, it is relayed without updating the aggregation start confirmation flag of the management packet MP. 1] can know that there is a distributed processing node that is not ready to aggregate the distributed data.
  • management is performed by the route of distributed processing node 1 [1] ⁇ distributed processing node [2] ⁇ ... ⁇ distributed processing node [N] ⁇ distributed processing node 1 [1].
  • the packet MP is relayed.
  • the management packet MP is routed through the distributed processing node 1 [1] ⁇ distributed processing node [N] ⁇ ... ⁇ Distributed processing node [2] ⁇ distributed processing node 1 [1]. May be relayed.
  • the transmission unit 14a instead of the transmission unit 12a of the distributed processing node 1 [1], the transmission unit 14a transmits the management packet MP to the distributed processing node 1 [N] (step S201 in FIG. 14).
  • the transmission unit 14a transmits the management packet MP received from the flag update unit 25 of its own node to the distributed processing node 1 [K-1] (FIG. 15 steps S303).
  • the receiving unit 13a receives the management packet MP from the distributed processing node 1 [2] (step S202 in FIG. 14).
  • the transmission unit 12a of the distributed processing node 1 [1] has a count start confirmation flag included in the management packet MP received by the reception unit 13a of its own node, which is a value indicating that preparation for totaling the distributed data is completed (“ 1 ”) (YES in step S203 of FIG. 14), the aggregated communication may be started (step S204 of FIG. 14).
  • the management packet MP is relayed at the same time as the distributed processing node 1 [1] ⁇ distributed processing node [2] ⁇ ... ⁇ distributed processing node [N] ⁇ distributed processing node 1 [1].
  • the management packet MP may be relayed through a route of node 1 [1] ⁇ distributed processing node [N] ⁇ ... ⁇ distributed processing node [2] ⁇ distributed processing node 1 [1].
  • the transmission unit 12a of the distributed processing node 1 [1] indicates that the aggregation start confirmation flag included in the management packet MP received by the reception unit 15a of its own node is ready to aggregate the distributed data. If the aggregated communication is started when the value is the value and the aggregation start confirmation flag included in the management packet MP received by the reception unit 15a of the own node is a value indicating that preparation for aggregation of the distributed data is completed. Good.
  • the distributed processing node 1 [1] can start at the time when the preparation for collecting the distributed data is not completed, for example, in preparation for the start of the next integrated communication after the completion of the distributed communication. It is also possible to generate and transmit the management packet MP. In this way, by confirming that the distributed processing node 1 [1] periodically flows the management packet MP and returns when the aggregated communication or the distributed communication is not performed, the distributed processing node 1 [1] can check whether the distributed processing node 1 [1] returns. It can be used for normality confirmation.
  • Fig. 17 shows an example of the configuration of this computer.
  • the computer includes a CPU 100, a storage device 101, and an interface device (hereinafter abbreviated as I / F) 102.
  • I / F interface device
  • a communication circuit including the communication ports 100 and 11 is connected to the I / F 102.
  • the CPU 100 executes the processing described in the first to third embodiments according to the program stored in the storage device 101, and realizes the distributed processing system and the distributed processing method of the present invention.
  • the present invention can be applied to a technique for machine learning of a neural network.
  • SYMBOLS 1 Distributed processing node, 2 ... Communication path, 10, 11 ... Communication port, 12, 12a, 14, 14a ... Transmitting section, 13, 13a, 15, 15a ... Receiving section, 16 ... Sample input section, 17 ... Gradient calculation Processing unit, 18 ... In-node aggregation processing unit, 19 ... Aggregation data generation unit, 20 ... Weight update processing unit, 21 ... Neural network, 22 ... Aggregation delay timer, 23 ... Alarm generation unit, 24 ... Management packet generation unit, 25 ... Flag update section.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

分散処理ノード1[1]は、分散データを中間集計データとして分散処理ノード1[2]に送信する。分散処理ノード1[k](k=2,・・・,N)は、受信した中間集計データと分散データから更新後の中間集計データを生成して分散処理ノード1[k+](k+=k+1、k=Nの場合はk+=1)に送信する。分散処理ノード1[1]は、受信した中間集計データを集計データとして分散処理ノード1[N]に送信する。分散処理ノード1[k]は、受信した集計データを分散処理ノード1[k-1]に送信する。分散処理ノード1[1]は、各分散処理ノード1が分散データを集計するために要した集約通信時間、または集約通信時間と各分散処理ノード1が集計データを分配するために要した時間との合計の集約分配通信時間が所定の時間を超過した場合に警報を発する。これにより、深層学習に適用した場合に効果的な分散処理を行うことができる。

Description

分散処理システムおよび分散処理方法
 本発明は、複数の分散処理ノードを備える分散処理システムに係り、特に、各分散処理ノードから数値データを集計して集計データを生成し、各分散処理ノードに集計データを分配する分散処理システムおよび分散処理方法に関するものである。
 深層学習では、多層のニューロンモデルからなる学習対象について、各ニューロンモデルの重み(前段のニューロンモデルが出力した値に乗じる係数)を、入力したサンプルデータに基づいて更新することにより、推論精度を改善する。
 通常、推論精度を改善する手法には、ミニバッチ法が用いられている。ミニバッチ法では、サンプルデータ毎に前記重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて前記勾配を集計する(サンプルデータ毎に得られた勾配を重み別に合算する)集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理と、を繰り返す。
 これらの処理、特に勾配計算処理は、多数回の演算を必要とするが、推論精度を向上させるために、重みの個数や入力するサンプルデータの個数が増加すると、深層学習に要する時間が増大するという、課題がある。
 勾配計算処理を高速化するため、分散処理の手法が用いられている。具体的には、複数の分散処理ノードを設け、各ノードは、各々異なるサンプルデータについて勾配計算処理を行う。これにより、ノード数に比例して単位時間に処理できるサンプルデータ数を増加させることが可能となるため、勾配計算処理を高速化できる(非特許文献1参照)。
 深層学習の分散処理において、集計処理を行うためには、各分散処理ノードがサンプルデータ毎に重みに対する勾配を計算する勾配計算処理およびサンプルデータ毎に得られた勾配を重み別に合算するノード内集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理との間に、分散処理ノード毎に得られたデータ(分散データ)を、集計処理を行うノードに転送するための通信(集約通信)と、集約通信により取得したデータに基づいて集計する処理(ノード間集計処理)と、各分散処理ノードから取得した集計したデータ(集計データ)を各分散処理ノードに分配するための通信(分配通信)と、が必要となる。
 上記の集約通信や分配通信に要する時間は、深層学習を単一ノードで実施するシステムでは不要であり、深層学習の分散処理を行う上で、処理速度を低下させる要因となっている。
 近年、深層学習がより複雑な問題に適用されるようになってきており、重みの総数が増加する傾向にある。このため、分散データや集計データのデータ量が増大し、集約通信時間と分配通信時間が増大している。
 このように、深層学習の分散処理システムでは、集約通信時間と分配通信時間の増大によって、分散処理ノード数を増加させることにより、深層学習の高速化の効果が低下するという問題があった。
 図18は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示しており、200は分散処理ノード数と処理性能の理想的な関係(性能∝ノード数)を示し、201は分散処理ノード数と処理性能の実際の関係を示している。分散処理ノード数に比例してノード間集計処理の入力である分散データの総量は増大するが、実際の処理性能が分散処理ノード数に比例して向上しない理由は、集計処理ノードの通信速度が、このノードの通信ポートの物理速度以下に制限されるため、集約通信に要する時間が増大するためである。
秋葉 拓哉,"分散深層学習パッケージ ChainerMN 公開",プリファードインフラストラクチャー(Preferred Infrastructure),2017年,インターネット<https://research.preferred.jp/2017/05/chainermn-beta-release/>
 本発明は、上記のような事情を考慮してなされたものであり、その目的は、複数の分散処理ノードを備える分散処理システムおいて、深層学習に適用した場合に効果的な分散処理を行うことができる分散処理システムおよび分散処理方法を提供することにある。
 本発明の分散処理システムは、リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードは、n+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードと双方向の通信が可能な同時に第2の通信ポートとを備え、各分散処理ノードは、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m]毎(m=1,・・・,M)の分散データを生成し、N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードは、自ノードで生成された分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードは、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目(k+=k+1、ただしk=Nの場合はk+=1)の分散処理ノードに向けて送信し、前記1番目の分散処理ノードは、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、前記k番目の分散処理ノードは、k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信し、前記1番目の分散処理ノードは、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信し、各分散処理ノードは、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新し、前記1番目の分散処理ノードは、各分散処理ノードが前記分散データを集計するために要した集約通信時間、あるいは前記集約通信時間と各分散処理ノードが前記第2の集計データを分配するために要した時間との合計の集約分配通信時間が、所定の最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発することを特徴とするものである。
 また、本発明の分散処理システムの1構成例において、各分散処理ノードは、前記分散データを生成するノード内集計処理部と、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信する第1の送信部と、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得する第1の受信部と、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第2の送信部と、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得する第2の受信部と、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを生成する集計データ生成部と、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する重み更新処理部と、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記N番目の分散処理ノードから前記第1の集計データを受信した時点までの時間を前記集約通信時間として計測し、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記2番目の分散処理ノードから前記第2の集計データを受信した時点までの時間を前記集約分配通信時間として計測するタイマと、自ノードが前記1番目の分散処理ノードとして機能する場合に、前記集約通信時間あるいは前記集約分配通信時間が前記最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発する警報発生部とを備えることを特徴とするものである。
 また、本発明の分散処理システム1構成例において、前記1番目の分散処理ノードは、自ノードの前記第1の通信ポートから前記第1の集計データが送信される前に、前記分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットを定期的に生成して、この管理パケットを自ノードの前記第1の通信ポートおよび前記第2の通信ポートのうち少なくとも一方から前記2番目の分散処理ノードおよび前記N番目の分散処理ノードのうち少なくとも一方に向けて送信し、前記k番目の分散処理ノードは、前記(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、自ノードにおいて前記分散データを集計する準備が未了の場合、受信した管理パケットに含まれる集計開始確認フラグを、分散データを集計する準備が完了していないことを示す値に更新した上で、更新後の管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、自ノードにおいて前記分散データを集計する準備が完了している場合、受信した管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、前記1番目の分散処理ノードは、前記N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、受信した管理パケットに含まれる集計開始確認フラグが、前記分散データを集計する準備が完了したことを示す値である場合に、前記第1の集計データの送信を開始することを特徴とするものである。
 また、本発明は、リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードが、n+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードと双方向の通信が可能な同時に第2の通信ポートとを備えたシステムにおける分散処理方法であって、各分散処理ノードが、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m]毎(m=1,・・・,M)の分散データを生成する第1のステップと、N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードが、自ノードで生成された分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信する第2のステップと、N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードが、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目(k+=k+1、ただしk=Nの場合はk+=1)の分散処理ノードに向けて送信する第3のステップと、前記1番目の分散処理ノードが、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信する第4のステップと、前記k番目の分散処理ノードが、k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第5のステップと、前記1番目の分散処理ノードが、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信する第6のステップと、各分散処理ノードが、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する第7のステップと、前記1番目の分散処理ノードが、各分散処理ノードが前記分散データを集計するために要した集約通信時間、および前記集約通信時間と各分散処理ノードが前記第2の集計データを分配するために要した時間との合計の集約分配通信時間を計測する第8のステップと、前記集約通信時間あるいは前記集約分配通信時間が所定の最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発する第9のステップとを含むことを特徴とするものである。
 また、本発明の分散処理方法の1構成例において、前記第3のステップは、前記k番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、前記更新後の第1の集計データを生成するステップと、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信するステップとを含み、前記第4のステップは、前記1番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、取得した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信するステップとを含み、前記第5のステップは、前記k番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップと、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信するステップとを含み、前記第6のステップは、前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップを含み、前記第8のステップは、前記1番目の分散処理ノードが、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記N番目の分散処理ノードから前記第1の集計データを受信した時点までの時間を前記集約通信時間として計測し、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記2番目の分散処理ノードから前記第2の集計データを受信した時点までの時間を前記集約分配通信時間として計測するステップを含むことを特徴とするものである。
 また、本発明の分散処理方法の1構成例は、前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから前記第1の集計データを送信する前に、前記分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットを定期的に生成して、この管理パケットを自ノードの前記第1の通信ポートおよび前記第2の通信ポートのうち少なくとも一方から前記2番目の分散処理ノードおよび前記N番目の分散処理ノードのうち少なくとも一方に向けて送信する第10のステップと、前記k番目の分散処理ノードが、前記(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、自ノードにおいて前記分散データを集計する準備が未了の場合、受信した管理パケットに含まれる集計開始確認フラグを、分散データを集計する準備が完了していないことを示す値に更新した上で、更新後の管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、自ノードにおいて前記分散データを集計する準備が完了している場合、受信した管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信する第11のステップと、前記1番目の分散処理ノードが、前記N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、受信した管理パケットに含まれる集計開始確認フラグが、前記分散データを集計する準備が完了したことを示す値である場合に、前記第2のステップによる前記第1の集計データの送信を開始する第12のステップとをさらに含むことを特徴とするものである。
 本発明によれば、n番目(n=1,・・・,N)の分散処理ノードからn+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードへの集約通信(第1の集計データをn+番目の分散処理ノードに送信する処理)、k番目(k=2,・・・,N)の分散処理ノードが行うノード間集計処理(受信した第1の集計データと自ノードで生成した分散データとに基づいて更新後の第1の集計データを計算する処理)、n番目の分散処理ノードからn-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードへの分配通信(第2の集計データをn-番目の各分散処理ノードに分配する処理)とを、並行してほぼ同時に行うことが可能であり、効果的な分散処理を行うことができ、ニューラルネットワークの学習効率を向上させることができる。本発明では、各分散処理ノードに第1の通信ポートと第2の通信ポートとを設け、集約通信と分配通信の方向を逆にすることにより、集約通信が完了するまで分配通信の開始を待つ必要がない。また、本発明では、集計処理ノードを設けることなく深層学習の分散処理を行うことができ、集計処理ノードの通信速度によって分散処理の速度が制限されることがなくなる。さらに、本発明では、集約通信時間あるいは集約分配通信時間が最大集計遅延時間を超過した場合に集計遅延異常を示す警報を発することで、集約通信や分配通信の途中で通信が途切れる異常を即座に検知できる、保守性に優れた分散処理システムを実現することができる。
 また、本発明では、分散処理ノード間で管理パケットの送受信を行うことにより、最大集計遅延時間の値を小さくすることができ、集約通信や分配通信の途中で通信が途切れる分散処理システムの異常をより短時間で検出することができる。
図1は、本発明の第1の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。 図2は、本発明の第1の実施例に係る分散処理ノードのサンプルデータ入力処理と勾配計算処理とノード内集計処理を説明するフローチャートである。 図3は、本発明の第1の実施例に係る分散処理ノードの集約通信処理とノード間集計処理と分配通信処理とを説明するフローチャートである。 図4は、本発明の第1の実施例に係る分散処理ノードの集約通信処理とノード間集計処理と分配通信処理とを説明するフローチャートである。 図5は、本発明の第1の実施例に係る分散処理ノードの重み更新処理を説明するフローチャートである。 図6は、本発明の第2の実施例に係る分散処理ノードの構成例を示すブロック図である。 図7は、本発明の第2の実施例に係る分散処理ノードの構成例を示すブロック図である。 図8は、本発明の第2の実施例に係る分散処理ノードの処理の概要を示す図である。 図9は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図10は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図11は、本発明の第2の実施例に係る分散処理ノード間の中間集計データおよび集計データの通信のシーケンスを示す図である。 図12は、本発明の第3の実施例に係る分散処理ノードの構成例を示すブロック図である。 図13は、本発明の第3の実施例に係る分散処理ノードの構成例を示すブロック図である。 図14は、集約通信処理の前に本発明の第3の実施例に係る分散処理ノードが行う処理を説明するフローチャートである。 図15は、集約通信処理の前に本発明の第3の実施例に係る分散処理ノードが行う処理を説明するフローチャートである。 図16は、本発明の第3の実施例において集約通信処理の前に行われる分散処理ノード間の通信のシーケンスを示す図である。 図17は、本発明の第1~第3の実施例に係る分散処理ノードを実現するコンピュータの構成例を示すブロック図である。 図18は、従来の分散処理システムにおける分散処理ノード数と深層学習の処理性能との関係を示す図である。
[第1の実施例]
 以下、本発明の実施例について図面を参照して説明する。図1は本発明の第1の実施例に係る深層学習用分散処理システムの構成例を示すブロック図である。図1の分散処理システムは、N個(Nは2以上の整数)の分散処理ノード1[n](n=1,・・・,N)と、番号nの分散処理ノード1[n](n=1,・・・,N)が次の番号n+(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノード1[n+]と互いに双方向に通信するための通信路2[n](n=1,・・・,N)とを備えている。なお、任意の通信路2[n](n=1,・・・,N)には、伝送路の他に、通信を中継する中継処理ノードが任意に介在することも可能である。
 各分散処理ノード1[n](n=1,・・・,N)は、双方向の通信が同時に可能な通信ポート10と通信ポート11とを備える。通信ポート10は、分散処理ノード1[n]が分散処理ノード1[n+](n+=n+1、ただしn=Nの場合はn+=1)と双方向の通信を行うための通信ポートであり、通信路2[n]と接続される。また、通信ポート11は、分散処理ノード1[n]が分散処理ノード[n-](n-=n-1、ただしn=1の場合はn-=N)と双方向の通信を行うための通信ポートであり、通信路2[n-]と接続される。
 図2は分散処理ノード1[n]のサンプルデータ入力処理と勾配計算処理とノード内集計処理とを説明するフローチャートである。各分散処理ノード1[n](n=1,・・・,N)は、図示しないデータ収集ノードから異なるS個(Sは2以上の整数)のサンプルデータx[n,s](s=1,・・・,S)をミニバッチ毎に入力する(図2ステップS100)。
 なお、本発明は、データ収集ノードによるサンプルデータの収集方法、および収集したサンプルデータをN個の集合に振り分けて各分散処理ノード1[n]へ分配する方法に限定されるものではなく、これらの方法の如何を問わず適用が可能である。
 各分散処理ノード1[n](n=1,・・・,N)は、サンプルデータx[n,s]が入力されたとき、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m](m=1,・・・,M)の各々について、ニューラルネットワークの損失関数の勾配G[m,n,s]をサンプルデータx[n,s]毎に計算する(図2ステップS101)。
 ニューラルネットワークを各分散処理ノード1[n]にソフトウェアで構築する方法、ニューラルネットワークの重みw[m]、ニューラルネットワークの性能の悪さを示す指標である損失関数、および損失関数の勾配G[m,n,s]については周知の技術であるので、詳細な説明は省略する。
 続いて、各分散処理ノード1[n](n=1,・・・,N)は、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,n](m=1,・・・,M)を、重みw[m]毎に生成して保持する(図2ステップS102)。分散データD[m,n]の計算式は以下のとおりである。
Figure JPOXMLDOC01-appb-M000001
 なお、ステップS101の勾配計算処理とステップS102のノード内集計処理とは、サンプルデータ単位でパイプライン化する(あるサンプルデータに対して勾配計算処理を行うと同時にその一つ前のサンプルデータから得た勾配を集計するノード内集計処理とを同時に実行する)ことができる。
 さらに、各分散処理ノード1[n](n=1,・・・,N)は、分散データD[m,n](m=1,・・・,M)を生成した後、分散処理ノード間の集約通信を行い、集計データを生成するためのノード間集計処理を行う。
 図3、図4は分散処理ノード1[n]の集約通信処理とノード間集計処理と分配通信処理とを説明するフローチャートである。
 まず、複数の分散処理ノード1[n](n=1,・・・,N)のうち、予め定められた1番目の分散処理ノード1[1]は、自ノードで生成されたM個の分散データD[m,1](m=1,・・・,M)を、中間集計データRt[m,1]として、自ノードの通信ポート10および通信路2[1]を介して次の番号の分散処理ノード1[2]に送信する(図3ステップS103,S104)。すなわち、このときの中間集計データRt[m,1]は、分散データD[m,1]と同じである。
 Rt[m,1]=D[m,1]            ・・・(2)
 そして、1番目の分散処理ノード1[1]は、後述する集計遅延タイマにより、各分散処理ノード1[n]が分散データD[m,n](m=1,・・・,M)を集計するために要した時間である集約通信時間と、この集約通信時間に加えて各分散処理ノード1[n]が集計データを分配するために要した時間である集約分配通信時間の計測を開始する(図3ステップS105)。
 次に、複数の分散処理ノード1[n](n=1,・・・,N)のうち、1番目とN番目とを除く、予め定められた中間の分散処理ノード1[i](i=2,・・・,N-1)は、分散処理ノード1[i-1]から中間集計データRt[m,i-1](m=1,・・・,M)を自ノードの通信ポート11および通信路2[i-1]を介して受信する(図3ステップS106,S107)。
 中間の分散処理ノード1[i](i=2,・・・,N-1)は、受信した中間集計データRt[m,i-1](m=1,・・・,M)と自ノードで生成された分散データD[m,i]との和を、対応する重みw[m]毎に求めることにより、中間集計データRt[m,i]を生成する(図3ステップS108)。すなわち、中間集計データRt[m,i]は、M個の数値から構成される。中間集計データRt[m,i]の計算式は以下のとおりである。
 Rt[m,i]=Rt[m,i-1]+D[m,i]  ・・・(3)
 そして、中間の分散処理ノード1[i](i=2,・・・,N-1)は、自ノードで生成された中間集計データRt[m,i](m=1,・・・,M)を自ノードの通信ポート10および通信路2[i]を介して次の番号の分散処理ノード1[i+1]に送信する(図3ステップS109)。
 複数の分散処理ノード1[n](n=1,・・・,N)のうち、予め定められたN番目の分散処理ノード1[N]は、分散処理ノード1[N-1]から中間集計データRt[m,N-1]を自ノードの通信ポート11および通信路2[N-1]を介して受信する(図3ステップS110,S111)。
 N番目の分散処理ノード1[N]は、受信した中間集計データRt[m,N-1](m=1,・・・,M)と自ノードで生成された分散データD[m,N]との和を、対応する重みw[m]毎に求めることにより、中間集計データRt[m,N]を生成する(図3ステップS112)。すなわち、中間集計データRt[m,N]は、M個の数値から構成される。中間集計データRt[m,N]の計算式は以下のとおりである。
 Rt[m,N]=Rt[m,N-1]+D[m,N]  ・・・(4)
 そして、N番目の分散処理ノード1[N]は、自ノードで生成された中間集計データRt[m,N](m=1,・・・,M)を自ノードの通信ポート10および通信路2[N]を介して1番目の分散処理ノード1[1]に送信する(図3ステップS113)。
 このように、式(2)、式(3)、式(4)により計算された、M個の数値から構成される中間集計データRt[m,N](m=1,・・・,M)は、各分散処理ノード1[n](n=1,・・・,N)で生成されたM個の数値から構成される分散データD[m,n](m=1,・・・,M)に基づいて計算される。中間集計データRt[m,N]の値は以下の式により表すことができる。
Figure JPOXMLDOC01-appb-M000002
 次に、中間集計データRt[m,N](m=1,・・・,M)を集計データとして、各分散処理ノード1[n](n=1,・・・,N)に分配する分配通信を行う。
 1番目の分散処理ノード1[1]は、分散処理ノード1[N]から中間集計データRt[m,N]を自ノードの通信ポート11および通信路2[N]を介して受信する(図4ステップS114,S115)。
 1番目の分散処理ノード1[1]は、ステップS105で時間計測を開始した時点(中間集計データRt[m,1]を送信した時点)から中間集計データRt[m,N]を受信した時点までの時間を集約通信時間として、集約通信時間の計測を終了する(図4ステップS116)。
 1番目の分散処理ノード1[1]は、計測した集約通信時間が所定の最大集計遅延時間を超えている場合(図4ステップS117においてYES)、システム管理者に対して集計遅延異常を示す警報を発する(図4ステップS118)。
 次に、1番目の分散処理ノード1[1]は、受信した中間集計データRt[m,N](m=1,・・・,M)を、集計データR[m]として、自ノードの通信ポート11および通信路2[N]を介してN番目の分散処理ノード1[N]に送信する(図4ステップS119)。すなわち、分散処理ノード1[1]は、分散処理ノード1[N]からの中間集計データRt[m,N]を集計データR[m]として分散処理ノード[N]に戻すことになる。集計データR[m]は、中間集計データRt[m,N]と同じである。
Figure JPOXMLDOC01-appb-M000003
 続いて、複数の分散処理ノード1[n](n=1,・・・,N)のうち、1番目を除く分散処理ノード1[k](k=N,・・・,2)は、次の番号の分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)から集計データR[m](m=1,・・・,M)を自ノードの通信ポート10および通信路2[k]を介して受信する(図4ステップS121,S122)。
 分散処理ノード1[n](n=1,・・・,N)のうち、1番目を除く分散処理ノード1[k](k=N,・・・,2)は、受信した集計データR[m](m=1,・・・,M)を自ノードの通信ポート11および通信路2[k-1]を介して前の番号の分散処理ノード1[k-1]に送信する(図4ステップS123)。
 1番目の分散処理ノード1[1]は、分散処理ノード1[2]から集計データR[m](m=1,・・・,M)を自ノードの通信ポート10および通信路2[1]を介して受信する(図4ステップS124,S125)。
 ここで、1番目の分散処理ノード1[1]が、M個の数値から構成される集計データR[m]を正常に受信するためには、他の分散処理ノード1[k](k=N,・・・,2)が集計データR[m]を正常に受信することが必要である。分散処理ノード間の各通信路2[n](n=1,・・・,N)は、正常ではない集計データR[m]を正常に戻す機能を有していない。
 したがって、分散処理ノード1[1]が集計データR[m]を正常に受信した場合、全ての分散処理ノード1[n](n=1,・・・,N)が正常に集計データR[m]を受信できたことが保証される。分散処理ノード1[1]が正常に集計データR[m]を受信できなかった場合は(ステップS125においてNO)、ステップS103に戻って集約通信からやり直すようにすればよい。
 なお、分散処理ノード1[1]が集計データR[m]を正常に受信できたかどうかは、例えばステップS119で送信した集計データR[m]とステップS124,S125で受信した集計データR[m]とを比較することにより、判定することができる。すなわち、送信した集計データR[m]と受信した集計データR[m]とが一致すれば、集計データR[m]を正常に受信できたと判定できる。
 以上の分配通信により、全ての分散処理ノード1[n](n=1,・・・,N)は、同一の集計データR[m]を取得することができる。
 また、1番目の分散処理ノード1[1]は、集計データR[m]を正常に受信できた場合、ステップS105で時間計測を開始した時点(中間集計データRt[m,1]を送信した時点)から集計データR[m]を受信した時点までの時間を集約分配通信時間として、集約分配通信時間の計測を終了する(図4ステップS126)。
 1番目の分散処理ノード1[1]は、計測した集約分配通信時間が所定の最大集計遅延時間を超えている場合(図4ステップS127においてYES)、システム管理者に対して集計遅延異常を示す警報を発する(図4ステップS128)。
 集約通信時間や集約分配通信時間は、集約通信の途中で中間集計データの通信が途切れた場合や、分配通信の途中で集計データの通信が途切れた場合に増大する。集約通信時間が最大集計遅延時間を超過した場合、あるいは集約分配通信時間が最大集計遅延時間を超過した場合に、分散処理ノード[1]が集計遅延異常を示す警報を発することで、分散処理システムの異常がシステム管理者に通知される。これにより、システム管理者に対して、集計遅延異常の解消に向けた対処の実施を促すことができる。
 集約通信は、分散処理ノード1[1]→分散処理ノード1[2]→・・・→分散処理ノード1[N]→分散処理ノード1[1]という経路で行われる。分配通信は、分散処理ノード1[1]→分散処理ノード1[N]→・・・→分散処理ノード1[2]→分散処理ノード1[1]という経路で行われる。
 つまり、集約通信と分配通信とは、互いに通信の方向が逆になる。集約通信と分配通信とは、双方向の通信を同時に行うことが可能な通信ポート10,11と通信路2[n]とを介して行わるため、集約通信が完了するまで分配通信の開始を待つ必要がない。
 すなわち、分散処理ノード1[1]が中間集計データRt[m,1](m=1,・・・,M)の送信を完了する前に、分散処理ノード1[1]が中間集計データRt[m,N]を受信開始した場合は、この中間集計データRt[m,N]を集計データR[m]とした分配通信を開始できる。
 図5は分散処理ノード1[n](n=1,・・・,N)の重み更新処理を説明するフローチャートである。各分散処理ノード1[n]は、集計データR[m](m=1,・・・,M)を受信すると(図5ステップS129においてYES)、受信した集計データR[m]に基づいて、自ノード内のニューラルネットワークの重みw[m]を更新する重み更新処理を行う(図5ステップS130)。重み更新処理においては、集計データR[m]が示す、損失関数の勾配に基づいて損失関数が最小になるように重みw[m]を番号m毎に更新すればよい。重みw[m]の更新は周知の技術であるので、詳細な説明は省略する。
 このように、重み更新処理は、重みw[m]の番号mの順番に取得した集計データR[m]に基づいて、重みw[m]を更新する処理である。このため、各分散処理ノード1[n](n=1,・・・,N)は、重みw[m]に対する重み更新処理を、番号mの順番に行うことができる。
 重み更新処理の終了により、1回のミニバッチ学習が終了し、各分散処理ノード1[n](n=1,・・・,N)は、更新された重みw[m]に基づき、次のミニバッチ学習の処理を継続して行う。すなわち、各分散処理ノード1[n]は、次のミニバッチ学習用のサンプルデータを図示しないデータ収集ノードから受け取り、上記で説明したミニバッチ学習の処理を繰り返すことにより、自ノードのニューラルネットワークの推論精度を向上させる。
 本実施例で示したように、集約通信が完了するまで分配通信の開始を待つ必要がなく、集約通信中であっても、集計を終えたデータの一部から分配通信を開始することが可能であるため、集約通信を完了してから分配通信を開始するという従来技術と比較して、集約通信の開始から分配通信の完了までの時間を短縮することが可能であるため、より高速な深層学習の分散システムを提供することが可能である。
 また、本実施例では、分散処理ノード1[1]が集計データR[m]の取得を完了した時点で他の分散処理ノード1[k](k=2,・・・,N)が集計データR[m]の取得を完了したことが保証されるため、信頼性の高い深層学習の分散処理システムを提供することが可能である。
 さらに、本実施例では、集約通信時間が最大集計遅延時間を超過した場合、あるいは集約分配通信時間が最大集計遅延時間を超過した場合に、分散処理ノード[1]が集計遅延異常を示す警報を発することで、集約通信や分配通信の途中で通信が途切れる異常を即座に検知できる、保守性に優れた深層学習用分散処理システムを提供することが可能である。
[第2の実施例]
 次に、本発明の第2の実施例について説明する。本実施例は、第1の実施例をより具体的に説明するものである。図6は本実施例に係る分散処理ノード1[1]の構成例を示すブロック図、図7は本実施例に係る分散処理ノード1[k](k=2,・・・,N)の構成例を示すブロック図である。
 分散処理ノード1[1]は、通信ポート10(第1の通信ポート)と、通信ポート11(第2の通信ポート)と、中間集計データRt[m,1](m=1,・・・,M)をパケット化して自ノードの通信ポート10に出力する送信部12(第1の送信部)と、自ノードの通信ポート10から受信するパケットから集計データR[m]を取得する受信部13(第2の受信部)と、集計データR[m]をパケット化して自ノードの通信ポート11に出力する送信部14(第2の送信部)と、自ノードの通信ポート11から受信するパケットから中間集計データRt[m,N](m=1,・・・,M)を取得する受信部15(第1の受信部)と、図示しないデータ収集ノードから学習用のサンプルデータを受け取るサンプル入力部16と、サンプルデータが入力されたときに、ニューラルネットワークの重みw[m]の各々について、ニューラルネットワークの損失関数の勾配G[m,1,s]をサンプルデータ毎に計算する勾配計算処理部17と、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,1]を重みw[m]毎に生成して保持するノード内集計処理部18と、集計データR[m]に基づいてニューラルネットワークの重みを更新する重み更新処理部20と、ソフトウェア的に構築された数学モデルであるニューラルネットワーク21と、集約通信時間と集約分配通信時間とを計測する集計遅延タイマ22と、集約通信時間あるいは集約分配通信時間が最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発する警報発生部23とを備えている。
 分散処理ノード1[k](k=2,・・・,N)は、通信ポート10(第1の通信ポート)と、通信ポート11(第2の通信ポート)と、中間集計データRt[m,k](m=1,・・・,M)をパケット化して自ノードの通信ポート10に出力する送信部12(第1の送信部)と、自ノードの通信ポート10から受信するパケットから集計データR[m]を取得する受信部13(第2の受信部)と、集計データR[m]をパケット化して自ノードの通信ポート11に出力する送信部14(第2の送信部)と、自ノードの通信ポート11から受信するパケットから中間集計データRt[m,k-1](m=1,・・・,M)を取得する受信部15(第1の受信部)と、サンプル入力部16と、サンプルデータが入力されたときに、ニューラルネットワークの重みw[m]の各々について、ニューラルネットワークの損失関数の勾配G[m,k,s]をサンプルデータ毎に計算する勾配計算処理部17と、サンプルデータ毎の勾配G[m,k,s]を集計した数値である分散データD[m,k]を重みw[m]毎に生成して保持するノード内集計処理部18と、受信した中間集計データRt[m,k-1](m=1,・・・,M)と自ノードで生成された分散データD[m,k]との和を、対応する重みw[m]毎に求めて更新後の中間集計データRt[m,k]を生成する集計データ生成部19と、重み更新処理部20と、ニューラルネットワーク21とを備えている。
 なお、分散処理ノード1[1]と分散処理ノード1[k](k=2,・・・,N)とは、後述のように同一のハードウェアで実現することが可能である。具体的には、外部からの初期設定により、各分散処理ノードの機能を、親ノード(分散処理ノード1[1])あるいは子ノード(分散処理ノード1[k])の何れかに指定することが可能である。これにより、本発明では、全ての分散処理ノードを低コストに実現可能である。
 図2のステップS100で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)のサンプル入力部16は、データ収集ノードからサンプルデータx[n,s](s=1,・・・,S)をミニバッチ毎に入力する。
 図2のステップS101で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)の勾配計算処理部17は、サンプルデータx[n,s]が入力されたとき、ニューラルネットワーク21のM個の重みw[m](m=1,・・・,M)の各々について、ニューラルネットワーク21の損失関数の勾配G[m,n,s]をサンプルデータx[n,s]毎に計算する。
 図2ステップS102で説明したとおり、各分散処理ノード1[n](n=1,・・・,N)のノード内集計処理部18は、サンプルデータ毎の勾配G[m,n,s]を集計した数値である分散データD[m,n](m=1,・・・,M)を、重みw[m]毎に生成して保持する。
 次に、各分散処理ノード1[n](n=1,・・・,N)の送信部12は、外部からの初期設定により、親ノード(分散処理ノード1[1])用の送信部として動作するか、子ノード(分散処理ノード1[k]、k=2,・・・,N)用の送信部として動作するかを、設定できるようになっている。
 親ノードとして設定された分散処理ノード1[1]の送信部12は、自ノードのノード内集計処理部18によって生成されたM個の分散データD[m,1](m=1,・・・,M)を中間集計データRt[m,1]として、この中間集計データRt[m,1]を、重みw[m]の番号mの順番にパケット化し、生成した集約通信パケットSP[p,1](p=1,・・・,P、Pは2以上の整数)を自ノードの通信ポート10に出力する。この集約通信パケットSP[p,1]は、通信ポート10から通信路2[1]を介して次の番号の分散処理ノード1[2]に送信される(図3ステップS103,S104)。
 分散処理ノード1[1]の集計遅延タイマ22は、集約通信時間の計測を開始する(図3ステップS105)。
 一方、子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の受信部15は、分散処理ノード1[k-1]から集約通信パケットSP[p,k-1](p=1,・・・,P)を自ノードの通信ポート11および通信路2[k-1]を介して受信し、受信した集約通信パケットSP[p,k-1]から中間集計データRt[m,k-1](m=1,・・・,M)を取得する(図3ステップS106,S107,S110,S111)。
 子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の集計データ生成部19は、自ノードの受信部15によって取得された中間集計データRt[m,k-1](m=1,・・・,M)と自ノードのノード内集計処理部18によって生成された分散データD[m,k]との和を、対応する重みw[m]毎(番号m毎)に求めることにより、中間集計データRt[m,k]を番号mの順番に生成する(図3ステップS108,S112)。
 そして、各分散処理ノード1[k](k=2,・・・,N)の送信部12は、自ノードの集計データ生成部19によって生成されたM個の中間集計データRt[m,k](m=1,・・・,M)を、重みw[m]の番号mの順番にパケット化し、生成した集約通信パケットSP[p,k](p=1,・・・,P)を自ノードの通信ポート10に出力する。この集約通信パケットSP[p,k]は、通信ポート10から通信路2[k]を介して次の番号の分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)に送信される(図3ステップS109,S113)。
 次に、各分散処理ノード1[n](n=1,・・・,N)の送信部14は、送信部12と同様に外部からの初期設定により、親ノード(分散処理ノード1[1])用の送信部として動作するか、子ノード(分散処理ノード1[k]、k=2,・・・,N)用の送信部として動作するかを、設定できるようになっている。
 親ノードとして設定された分散処理ノード1[1]の受信部15は、分散処理ノード1[N]から集約通信パケットSP[p,N]を自ノードの通信ポート11および通信路2[N]を介して受信し、受信した集約通信パケットSP[p,N](p=1,・・・,P)から中間集計データRt[m,N](m=1,・・・,M)を取得する(図4ステップS114,S115)。
 親ノードとして設定された分散処理ノード1[1]の集計遅延タイマ22は、集約通信時間の計測を終了する(図4ステップS116)。
 分散処理ノード1[1]の警報発生部23は、集計遅延タイマ22によって計測された集約通信時間が所定の最大集計遅延時間を超えている場合(図4ステップS117においてYES)、システム管理者に対して警報を発する(図4ステップS118)。警報の出力方法としては、例えば警報発生を知らせる信号をシステム管理者の端末装置に送信する等の方法がある。
 親ノードとして設定された分散処理ノード1[1]の送信部14は、自ノードの受信部15によって取得された中間集計データRt[m,N](m=1,・・・,M)を集計データR[m]として、この集計データR[m]を、重みw[m]の番号mの順番にパケット化し、生成した分配通信パケットDP[p,1](p=1,・・・,P)を自ノードの通信ポート11に出力する。この分配通信パケットDP[p,1]は、通信ポート11から通信路2[N]を介してN番目の分散処理ノード1[N]に送信される(図4ステップS119)。
 一方、子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の受信部13は、分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)から分配通信パケットDP[p,k+](p=1,・・・,P)を自ノードの通信ポート10および通信路2[k]を介して受信し、受信した分配通信パケットDP[p,k+]から集計データR[m](m=1,・・・,M)を取得する(図4ステップS121,S122)。
 子ノードとして設定された各分散処理ノード1[k](k=2,・・・,N)の送信部14は、受信部13によって取得された集計データR[m](m=1,・・・,M)を、重みw[m]の番号mの順番にパケット化し、生成した分配通信パケットDP[p,k](p=1,・・・,P)を自ノードの通信ポート11に出力する。この分配通信パケットDP[p,k]は、通信ポート11から通信路2[k-1]を介して分散処理ノード1[k-1]に送信される(図4ステップS123)。
 親ノードとして設定された分散処理ノード1[1]の受信部13は、分散処理ノード1[2]から分配通信パケットDP[p,2](p=1,・・・,P)を自ノードの通信ポート10および通信路2[1]を介して受信し、受信した分配通信パケットDP[p,2]から集計データR[m](m=1,・・・,M)を取得する(図4ステップS124,S125)。
 親ノードとして設定された分散処理ノード1[1]の集計遅延タイマ22は、集約分配通信時間の計測を終了する(図4ステップS126)。
 分散処理ノード1[1]の警報発生部23は、集計遅延タイマ22によって計測された集約分配通信時間が所定の最大集計遅延時間を超えている場合(図4ステップS127においてYES)、システム管理者に対して警報を発する(図4ステップS128)。
 なお、各分散処理ノード1[n](n=1,・・・,N)の送信部12は、M個の中間集計データRt[m,n]を、重みw[m]の番号mの順番にL(Lは1以上M未満の整数)個ずつP個(Pは2以上の整数)の集約通信パケットに振り分けて、全ての集約通信パケットを送信し終えるまで、P個の集約通信パケットを順番に次の番号の分散処理ノード1[n+](n+=n+1、ただしn=Nの場合はn+=1)に送信する。すなわち、p番目(p=1,・・・,P)に送信する集約通信パケットSP[p,n]には、L個の中間集計データRt[r,n](r=L×(p-1)+l、l=1,・・・,L)が格納される。
 MがLで割り切れない条件では、P番目の集約通信パケットSP[P,n]には、(M-L×(P-1))個の中間集計データRt[r,n](r=L×(P-1)+q、q=1,・・・,M-L×(P-1))が格納される。
 P番目の集約通信パケットSP[P,n]については、(M-L×(P-1))個の中間集計データRt[r,n]の後に、{L-(M-L×(P-1))}個のダミーの数値を追加し、全ての集約通信パケットが等しくL個のデータを格納するようにしてもよい。
 また、各分散処理ノード1[n](n=1,・・・,N)の送信部14は、M個の集計データR[m](m=1,・・・,M)を、重みw[m]の番号mの順番にL個ずつP個の分配通信パケットに振り分けて、全ての分配通信パケットを送信し終えるまで、P個の分配通信パケットを順番に分散処理ノード1[n-](n-=n-1、ただしn=1の場合はn-=N)に送信する。すなわち、p番目(p=1,・・・,P)に送信する分配通信パケットDP[p,n]には、L個の集計データR[r](r=L×(p-1)+l、l=1,・・・,L)が格納される。
 MがLで割り切れない条件では、P番目の分配通信パケットDP[p,n]には、(M-L×(P-1))個の集計データR[r](r=L×(P-1)+q、q=1,・・・,M-L×(P-1))が格納される。
 P番目の分配通信パケットDP[P,n]については、(M-L×(P-1))個の集計データR[r]の後に、{L-(M-L×(P-1))}個のダミーの数値を追加し、全ての分配通信パケットが等しくL個のデータを格納するようにしてもよい。
 各分散処理ノード1[n](n=1,・・・,N)の重み更新処理部20は、自ノードの受信部13によって取得された集計データR[m]に基づいて、自ノード内のニューラルネットワーク21の重みw[m]を更新する重み更新処理を行う(図5ステップS130)。
 図8に、各分散処理ノード1[n](n=1,・・・,N)の処理の概要を示す。図9~図11に、各分散処理ノード1[n](n=1,・・・,N)間の中間集計データおよび集計データの通信(集約通信と分配通信)のシーケンスを示す。
 なお、図10は、図9の80の部分の処理を示している。また、81は分散処理ノード1[1]におけるノード間集計処理を示している。同様に、図10の90,91,92は分散処理ノード1[α-1],1[α]、1[α+1](α=3,・・・,N-1)におけるノード間集計処理を示している。図11は、図9の82の部分の処理、すなわち分散処理ノード1[β+1],1[β]、1[β-1](β=N-1,・・・,3)の分配通信処理を示している。
 以上のように、分散処理ノード1[1]を起点・終点とした分散処理ノード1[n](n=1,・・・,N)から分散処理ノード[n+](n+=n+1、ただしn=Nの場合はn+=1)への集約通信(中間集計データRt[m,n]を分散処理ノード[n+]に送信する処理)、分散処理ノード1[k](k=2,・・・,N)が行うノード間集計処理(受信した中間集計データRt[m,k-1]と自ノードで生成した分散データD[m,k]とに基づいて中間集計データRt[m,k]を計算する処理)、分散処理ノード1[1]を起点・終点とした分散処理ノード1[n](n=1,・・・,N)から分散処理ノード[n-](n-=n-1、ただしn=1の場合はn-=N)への分配通信(集計データR[m]を各分散処理ノード[n-]に分配する処理)、の全ては、前記の重みw[m]の番号mの順番に行われており、番号mを単位としたパイプライン化が可能である。
 本実施例では、図9~図11に示すように、集約通信処理とノード間集計処理と分配通信処理とを、並行してほぼ同時に(番号mを単位としたパイプライン処理で)行うことが可能であり、各通信や各処理が終了するまで、次の処理を開始できなかった従来技術と比較したとき、処理時間の大幅な短縮が可能となる。
[第3の実施例]
 第1、第2の実施例では、集約通信時間が最大集計遅延時間を超過した場合、あるいは分配通信時間が最大集計遅延時間を超過した場合に集計遅延異常を示す警報を発するが、本実施例は、前記の最大集計遅延時間の値を小さくすることにより、集約通信や分配通信の途中で通信が途切れる分散処理システムの異常をより短時間で検出可能とする例である。
 まず、本実施例において、前記の最大集計遅延時間の値を小さくすることが可能な理由について以下に説明する。
 第1、第2の実施例において、最大集計遅延時間の値は、全分散処理ノード1[n](n=1,・・・,N)が分散データD[m,n](m=1,・・・,M)を集計する準備が完了した状態から、分散処理ノード1[1]が集約通信を開始した時点から分散処理ノード1[1]が分配通信を完了する時点までの時間に、各分散処理ノード1[n]が分散データD[m,n]を集計する準備が完了する時刻のばらつき分を加える必要がある。
 すなわち、前回の分配通信の完了後、重み更新処理部20による重み更新処理と勾配計算処理部17による勾配計算処理とノード内集計処理部18によるノード内集計処理とを含む、集約通信を開始するための準備(分散データD[m,n](m=1,・・・,M)を集計する準備)が行われるが、この準備に要する集約通信準備時間は、各分散処理ノード1[n]の個体差(基本性能や冷却能力など)による演算速度のばらつきが原因となって、T1~T2の間でばらつきが生じる。
 分散処理ノード1[1]の集約通信準備時間が仮にT1の値となり、分散処理ノード1[1]とほぼ同じ時刻に分配通信が完了する分散処理ノード[2]の集約通信準備時間がT2の値となった場合、前回の分配通信完了からT1後に、分散処理ノード1[1]が分散データD[m,1](m=1,・・・,M)の生成を完了して集約通信を開始したとしても、分散処理ノード1[1]から中間集計データRt[m,1]を受信する分散処理ノード1[2]は、(T2-T1)時間が経過するまで分散データD[m,2]の生成が完了しないので、分散処理ノード1[2]から分散処理ノード1[3]への集約通信(中間集計データRt[m,2]の送信)を開始できない。
 したがって、分散処理システムは正常であっても、集約通信準備時間のばらつき分である、(T2-T1)時間の遅れが生じる可能性がある。そこで、第1、第2の実施例では、この遅れを異常と判定しないための措置として、最大集計遅延時間の値に、全分散処理ノード1[n](n=1,・・・,N)が分散データD[m,n](m=1,・・・,M)を集計する準備が完了した状態から、分散処理ノード1[1]が集約通信を開始した時点から分散処理ノード1[1]が分配通信を完了する時点までの時間に、各分散処理ノード1[n]が分散データD[m,n]を集計する準備が完了する時刻のばらつき分(T2-T1)を加える必要がある。
 一方、本実施例では、第1、第2の実施例において説明した集約通信以後の処理を実施する前に、以下の処理を行う。
 図12は本実施例に係る分散処理ノード1[1]の構成例を示すブロック図、図13は本実施例に係る分散処理ノード1[k](k=2,・・・,N)の構成例を示すブロック図である。
 分散処理ノード1[1]は、通信ポート10,11と、送信部12aと、受信部13aと、送信部14aと、受信部15aと、サンプル入力部16と、勾配計算処理部17と、ノード内集計処理部18と、重み更新処理部20と、ニューラルネットワーク21と、集計遅延タイマ22と、警報発生部23と、自ノードの通信ポート10から中間集計データRt[m,1]が送信される前に、分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットを定期的に生成する管理パケット生成部24とを備えている。
 分散処理ノード1[k](k=2,・・・,N)は、通信ポート10,11と、送信部12aと、受信部13aと、送信部14aと、受信部15aと、サンプル入力部16と、勾配計算処理部17と、ノード内集計処理部18と、集計データ生成部19と、重み更新処理部20と、ニューラルネットワーク21と、自ノードにおいて分散データを集計する準備が未了の場合に、受信した管理パケットに含まれる集計開始確認フラグの値を、分散データを集計する準備が完了していないことを示す値に更新するフラグ更新部25とを備えている。
 図14は集約通信処理の前に本実施例の分散処理ノード1[1]が行う処理を説明するフローチャート、図15は集約通信処理の前に本実施例の分散処理ノード1[k](k=2,・・・,N)が行う処理を説明するフローチャート、図16は集約通信処理の前に行われる分散処理ノード間の通信のシーケンスを示す図である。なお、図16の例では、N=5としている。
 分散処理ノード1[1]の管理パケット生成部24は、自ノードの通信ポート10から中間集計データRt[m,1]が送信される前に、分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットMPを定期的に生成する(図14ステップS200)。
 この管理パケットMPの生成周期(図16のΔT)は、分散処理システムの各通信路2[n]を通過する、本実施例に関与しない通信帯域が管理パケットMPの通信によって低下する影響を考慮した上で、各分散処理ノード1[n]が分散データを集計する準備が完了する時刻のばらつき分である(T2-T1)時間よりも十分に短い値とする。管理パケットMPの生成周期ΔTが(T2-T1)時間に近い値の場合は、全分散処理ノード1[n]が分散データを集計する準備が完了した時点から、分散処理ノード1[1]が集約通信を開始するまでの遅延が、最悪ケースでは管理パケットMPの生成周期ΔTの1回分だけ大きくなるので、深層学習の処理性能を劣化させる。
 また、管理パケット生成部24は、自ノードにおいて分散データD[m,1](m=1,・・・,M)を集計する準備が未了の場合(自ノードのノード内集計処理部18による分散データD[m,1]の生成が完了していない場合)、集計開始確認フラグの値を例えば“0”とし、分散データD[m,1]を集計する準備が完了している場合(自ノードのノード内集計処理部18による分散データD[m,1]の生成が完了している場合)、集計開始確認フラグの値を例えば“1”とする。
 分散処理ノード1[1]の送信部12aは、自ノードの管理パケット生成部24によって生成された管理パケットMPを自ノードの通信ポート10に出力する。この管理パケットMPは、通信ポート10から通信路2[1]を介して次の番号の分散処理ノード1[2]に送信される(図14ステップS201)。
 図16のMP(0)は管理パケットMPに含まれる集計開始確認フラグの値が“0”であることを示し、MP(1)は集計開始確認フラグの値が“1”であることを示している。図16の例では、分散処理ノード1[1]が最初に管理パケットMPを送信する時点では、分散データD[m,1](m=1,・・・,M)を集計する準備が未了のため、集計開始確認フラグの値が“0”の管理パケットMPが分散処理ノード1[1]から送信される。一方、図16に示す時刻t1において、分散処理ノード1[1]の分散データD[m,1]を集計する準備が完了したため、このt1以降の時刻においては、集計開始確認フラグの値が“1”の管理パケットMPが分散処理ノード1[1]から定期的に送信される。
 なお、本実施例のように管理パケットMPの生成を行うのではなく、分散処理ノード1[1]が分散データD[m,1](m=1,・・・,M)を集計する準備が完了した時点から(T2-T1)時間を待って集約通信を開始すると、全分散処理ノード1[n]が分散データD[m,n]を集計する準備が完了した状態になっているので、深層学習の処理性能を劣化させるが、最大集計遅延時間から前記ばらつき分を削減できる。
 分散処理ノード1[k](k=2,・・・,N)の受信部15aは、分散処理ノード1[k-1]から管理パケットMPを自ノードの通信ポート11および通信路2[k-1]を介して受信する(図15ステップS300)。
 分散処理ノード1[k](k=2,・・・,N)のフラグ更新部25は、自ノードにおいて分散データD[m,k](m=1,・・・,M)を集計する準備が未了の場合、すなわち自ノードのノード内集計処理部18による分散データD[m,k]の生成が完了していない場合(図15ステップS301においてYES)、受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグの値を、分散データD[m,k]を集計する準備が完了していないことを示す値(“0”)に更新し、更新後の管理パケットMPを自ノードの送信部12aに渡す(図15ステップS302)。
 また、分散処理ノード1[k](k=2,・・・,N)のフラグ更新部25は、自ノードにおいて分散データD[m,k](m=1,・・・,M)を集計する準備が完了している場合(ステップS301においてNO)、受信部15aによって受信された管理パケットMPの集計開始確認フラグの値を更新せずに、管理パケットMPをそのまま自ノードの送信部12aに渡す。
 そして、各分散処理ノード1[k](k=2,・・・,N)の送信部12aは、自ノードのフラグ更新部25から受け取った管理パケットMPを自ノードの通信ポート10に出力する。この管理パケットMPは、通信ポート10から通信路2[k]を介して次の番号の分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)に送信される(図15ステップS303)。
 図16の例では、分散処理ノード1[2]が1番目と2番目の管理パケットMPを分散処理ノード1[1]から受信した時点では、分散データD[m,2](m=1,・・・,M)を集計する準備が未了のため、集計開始確認フラグの値が“0”に更新された上で、管理パケットMPが分散処理ノード1[2]から分散処理ノード1[3]へ送信される。一方、図16に示す時刻t2において、分散処理ノード1[2]の分散データD[m,2]を集計する準備が完了したため、このt2以降の時刻においては、集計開始確認フラグの値が“1”のまま更新されずに、管理パケットMPが分散処理ノード1[2]から分散処理ノード1[3]へ送信される。
 他の分散処理ノード1[3],1[4],1[5]においても同様の動作が行われる。図16のt3,t4,t5は、それぞれ分散処理ノード1[3],1[4],1[5]において分散データを集計する準備が完了した時刻を示している。
 分散処理ノード1[1]の受信部15aは、分散処理ノード1[N]から管理パケットMPを自ノードの通信ポート11および通信路2[N]を介して受信する(図14ステップS202)。
 分散処理ノード1[1]の送信部12aは、自ノードの受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了したことを示す値(“1”)である場合(図14ステップS203においてYES)、集約通信を開始する(図14ステップS204)。具体的には、第1、第2の実施例と同様に、送信部12aは、分散データD[m,1]を中間集計データRt[m,1]として、この中間集計データRt[m,1]をパケット化し、生成した集約通信パケットSP[p,1](p=1,・・・,P)を自ノードの通信ポート10に出力する。この集約通信パケットSP[p,1]は、通信ポート10から通信路2[1]を介して次の番号の分散処理ノード1[2]に送信される(図3ステップS104)。
 また、分散処理ノード1[1]は、自ノードの受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了していないことを示す値(“0”)である場合、ステップS200に戻る。こうして、受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了したことを示す値(“1”)になるまで、ステップS200~S203の処理が繰り返し実施される。
 集約通信開始後の処理は、第1、第2の実施例で説明したとおりである。本実施例の各分散処理ノード1[n](n=1,・・・,N)は、ミニバッチ学習毎に図14~図16、図3~図4、図9~図11で説明した処理を実施すればよい。
 本実施例では、少なくとも1個の分散処理ノード1[n](n=1,・・・,N)において、分散データを集計する準備が未了の状況であれば、当該分散処理ノードによって管理パケットMPの集計開始確認フラグが、分散データを集計する準備が完了していないことを示す値に更新される。この分散処理ノードの後ろに、分散データを集計する準備が完了した分散処理ノードがあったとしても、管理パケットMPの集計開始確認フラグが更新されることなく中継されるので、分散処理ノード1[1]は、分散データを集計する準備が未了の分散処理ノードがあることを知ることができる。
 なお、本実施例では、集約通信と同様に、分散処理ノード1[1]→分散処理ノード[2]→・・・→分散処理ノード[N]→分散処理ノード1[1]という経路で管理パケットMPの中継が行われる。
 これに対して、分配通信と同様に、分散処理ノード1[1]→分散処理ノード[N]→・・・→分散処理ノード[2]→分散処理ノード1[1]という経路で管理パケットMPの中継を行ってもよい。この場合には、分散処理ノード1[1]の送信部12aの代わりに、送信部14aが、管理パケットMPの分散処理ノード1[N]への送信を行う(図14ステップS201)。また、分散処理ノード1[k](k=2,・・・,N)の受信部15aの代わりに、受信部13aが、分散処理ノード1[k+](k+=k+1、ただしk=Nの場合はk+=1)から管理パケットMPを受信する(図15ステップS300)。
 また、分散処理ノード1[k]の送信部12aの代わりに、送信部14aが、自ノードのフラグ更新部25から受け取った管理パケットMPを分散処理ノード1[K-1]に送信する(図15ステップS303)。また、分散処理ノード1[1]の受信部15aの代わりに、受信部13aが、分散処理ノード1[2]から管理パケットMPを受信する(図14ステップS202)。分散処理ノード1[1]の送信部12aは、自ノードの受信部13aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了したことを示す値(“1”)である場合(図14ステップS203においてYES)、集約通信を開始すればよい(図14ステップS204)。
 また、分散処理ノード1[1]→分散処理ノード[2]→・・・→分散処理ノード[N]→分散処理ノード1[1]という経路で管理パケットMPの中継を行うと同時に、分散処理ノード1[1]→分散処理ノード[N]→・・・→分散処理ノード[2]→分散処理ノード1[1]という経路で管理パケットMPの中継を行ってもよい。この場合、分散処理ノード1[1]の送信部12aは、自ノードの受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了したことを示す値で、かつ自ノードの受信部15aによって受信された管理パケットMPに含まれる集計開始確認フラグが、分散データを集計する準備が完了したことを示す値である場合に、集約通信を開始すればよい。
 また、分散処理ノード1[1]による管理パケットMPの生成・送信の開始は、分散処理ノード1[1]が分散データを集計する準備が完了した時点で開始する方法の他に、図16に示したように、分散処理ノード1[1]が分散データを集計する準備が未了の時点で開始することも可能であり、例えば、分配通信の完了後から次回の集約通信の開始に備えて管理パケットMPの生成・送信を行うことも可能である。このように、集約通信や分配通信を行っていない期間中も、分散処理ノード1[1]が管理パケットMPを定期的に流して戻ってくることを確認することで、各ノードや通信路の正常性確認に利用できる。
 このように、本実施例では、分散処理ノード1[1]が集約通信を開始する時点で、他の各分散処理ノード1[k](k=2,・・・,N)も集約通信を開始可能な状態にあることが保証されるため、最大集計遅延時間の値に、各分散処理ノード1[n]が分散データD[m,n]を集計する準備が完了する時刻のばらつき分(T2-T1)を加える必要がなく、その分最大集計遅延時間を削減することができる。
 第1~第3の実施例で説明した各分散処理ノード1[n](n=1,・・・,N)は、CPU(Central Processing Unit)、記憶装置及びインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
 このコンピュータの構成例を図17に示す。コンピュータは、CPU100と、記憶装置101と、インターフェース装置(以下、I/Fと略する)102とを備えている。I/F102には、例えば通信ポート100,11を含む通信回路が接続される。CPU100は、記憶装置101に格納されたプログラムに従って第1~第3の実施例で説明した処理を実行し、本発明の分散処理システムおよび分散処理方法を実現する。
 本発明は、ニューラルネットワークの機械学習を行う技術に適用することができる。
 1…分散処理ノード、2…通信路、10,11…通信ポート、12,12a,14,14a…送信部、13,13a,15,15a…受信部、16…サンプル入力部、17…勾配計算処理部、18…ノード内集計処理部、19…集計データ生成部、20…重み更新処理部、21…ニューラルネットワーク、22…集計遅延タイマ、23…警報発生部、24…管理パケット生成部、25…フラグ更新部。

Claims (6)

  1.  リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、
     n番目(n=1,・・・,N)の分散処理ノードは、n+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードと双方向の通信が可能な同時に第2の通信ポートとを備え、
     各分散処理ノードは、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m]毎(m=1,・・・,M)の分散データを生成し、
     N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードは、自ノードで生成された分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、
     N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードは、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目(k+=k+1、ただしk=Nの場合はk+=1)の分散処理ノードに向けて送信し、
     前記1番目の分散処理ノードは、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、
     前記k番目の分散処理ノードは、k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信し、
     前記1番目の分散処理ノードは、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信し、
     各分散処理ノードは、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新し、
     前記1番目の分散処理ノードは、各分散処理ノードが前記分散データを集計するために要した集約通信時間、あるいは前記集約通信時間と各分散処理ノードが前記第2の集計データを分配するために要した時間との合計の集約分配通信時間が、所定の最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発することを特徴とする分散処理システム。
  2.  請求項1記載の分散処理システムにおいて、
     各分散処理ノードは、
     前記分散データを生成するノード内集計処理部と、
     自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信する第1の送信部と、
     自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得する第1の受信部と、
     自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信し、自ノードが前記k番目の分散処理ノードとして機能する場合に、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第2の送信部と、
     自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得する第2の受信部と、
     自ノードが前記k番目の分散処理ノードとして機能する場合に、前記更新後の第1の集計データを生成する集計データ生成部と、
     受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する重み更新処理部と、
     自ノードが前記1番目の分散処理ノードとして機能する場合に、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記N番目の分散処理ノードから前記第1の集計データを受信した時点までの時間を前記集約通信時間として計測し、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記2番目の分散処理ノードから前記第2の集計データを受信した時点までの時間を前記集約分配通信時間として計測するタイマと、
     自ノードが前記1番目の分散処理ノードとして機能する場合に、前記集約通信時間あるいは前記集約分配通信時間が前記最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発する警報発生部とを備えることを特徴とする分散処理システム。
  3.  請求項1または2記載の分散処理システムにおいて、
     前記1番目の分散処理ノードは、自ノードの前記第1の通信ポートから前記第1の集計データが送信される前に、前記分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットを定期的に生成して、この管理パケットを自ノードの前記第1の通信ポートおよび前記第2の通信ポートのうち少なくとも一方から前記2番目の分散処理ノードおよび前記N番目の分散処理ノードのうち少なくとも一方に向けて送信し、
     前記k番目の分散処理ノードは、前記(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、自ノードにおいて前記分散データを集計する準備が未了の場合、受信した管理パケットに含まれる集計開始確認フラグを、分散データを集計する準備が完了していないことを示す値に更新した上で、更新後の管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、自ノードにおいて前記分散データを集計する準備が完了している場合、受信した管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、
     前記1番目の分散処理ノードは、前記N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、受信した管理パケットに含まれる集計開始確認フラグが、前記分散データを集計する準備が完了したことを示す値である場合に、前記第1の集計データの送信を開始することを特徴とする分散処理システム。
  4.  リング状に配置され、隣接するノードと通信路を介して互いに接続されたN個(Nは2以上の整数)の分散処理ノードを備え、n番目(n=1,・・・,N)の分散処理ノードが、n+番目(n+=n+1、ただしn=Nの場合はn+=1)の分散処理ノードと双方向の通信が同時に可能な第1の通信ポートと、n-番目(n-=n-1、ただしn=1の場合はn-=N)の分散処理ノードと双方向の通信が可能な同時に第2の通信ポートとを備えたシステムにおける分散処理方法であって、
     各分散処理ノードが、学習対象のニューラルネットワークのM個(Mは2以上の整数)の重みw[m]毎(m=1,・・・,M)の分散データを生成する第1のステップと、
     N個の分散処理ノードのうち、予め指定された1番目の分散処理ノードが、自ノードで生成された分散データを第1の集計データとして、この第1の集計データを重みw[m]の番号mの順番にパケット化して、自ノードの前記第1の通信ポートから2番目の分散処理ノードに向けて送信する第2のステップと、
     N個の分散処理ノードのうち、前記1番目を除くk番目(k=2,・・・,N)の分散処理ノードが、(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データと自ノードで生成された分散データとの和を、対応する重みw[m]毎に求めて更新後の第1の集計データを生成し、この第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目(k+=k+1、ただしk=Nの場合はk+=1)の分散処理ノードに向けて送信する第3のステップと、
     前記1番目の分散処理ノードが、N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して受信した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信する第4のステップと、
     前記k番目の分散処理ノードが、k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して受信した第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信する第5のステップと、
     前記1番目の分散処理ノードが、2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して第2の集計データを受信する第6のステップと、
     各分散処理ノードが、受信した前記第2の集計データに基づいて前記ニューラルネットワークの重みw[m]を更新する第7のステップと、
     前記1番目の分散処理ノードが、各分散処理ノードが前記分散データを集計するために要した集約通信時間、および前記集約通信時間と各分散処理ノードが前記第2の集計データを分配するために要した時間との合計の集約分配通信時間を計測する第8のステップと、
     前記集約通信時間あるいは前記集約分配通信時間が所定の最大集計遅延時間を超過した場合に、集計遅延異常を示す警報を発する第9のステップとを含むことを特徴とする分散処理方法。
  5.  請求項4記載の分散処理方法において、
     前記第3のステップは、前記k番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、前記更新後の第1の集計データを生成するステップと、前記更新後の第1の集計データを前記番号mの順番にパケット化して、自ノードの前記第1の通信ポートからk+番目の分散処理ノードに向けて送信するステップとを含み、
     前記第4のステップは、前記1番目の分散処理ノードが、自ノードの前記第2の通信ポートから受信するパケットから前記第1の集計データを取得するステップと、取得した第1の集計データを第2の集計データとして、この第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから前記N番目の分散処理ノードに向けて送信するステップとを含み、
     前記第5のステップは、前記k番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップと、受信した前記第2の集計データを前記番号mの順番にパケット化して、自ノードの前記第2の通信ポートから(k-1)番目の分散処理ノードに向けて送信するステップとを含み、
     前記第6のステップは、前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから受信するパケットから前記第2の集計データを取得するステップを含み、
     前記第8のステップは、前記1番目の分散処理ノードが、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記N番目の分散処理ノードから前記第1の集計データを受信した時点までの時間を前記集約通信時間として計測し、前記第1の集計データを前記2番目の分散処理ノードに向けて送信した時点から、前記2番目の分散処理ノードから前記第2の集計データを受信した時点までの時間を前記集約分配通信時間として計測するステップを含むことを特徴とする分散処理方法。
  6.  請求項4または5記載の分散処理方法において、
     前記1番目の分散処理ノードが、自ノードの前記第1の通信ポートから前記第1の集計データを送信する前に、前記分散データを集計する準備が完了したか否かを示す集計開始確認フラグを含む管理パケットを定期的に生成して、この管理パケットを自ノードの前記第1の通信ポートおよび前記第2の通信ポートのうち少なくとも一方から前記2番目の分散処理ノードおよび前記N番目の分散処理ノードのうち少なくとも一方に向けて送信する第10のステップと、
     前記k番目の分散処理ノードが、前記(k-1)番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記k+番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、自ノードにおいて前記分散データを集計する準備が未了の場合、受信した管理パケットに含まれる集計開始確認フラグを、分散データを集計する準備が完了していないことを示す値に更新した上で、更新後の管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信し、自ノードにおいて前記分散データを集計する準備が完了している場合、受信した管理パケットを前記第1、第2の通信ポートのうち管理パケットを受信したポートと異なる通信ポートから前記k+番目の分散処理ノードあるいは前記(k-1)番目の分散処理ノードに向けて送信する第11のステップと、
     前記1番目の分散処理ノードが、前記N番目の分散処理ノードから自ノードの前記第2の通信ポートを介して前記管理パケットを受信するか、あるいは前記2番目の分散処理ノードから自ノードの前記第1の通信ポートを介して前記管理パケットを受信し、受信した管理パケットに含まれる集計開始確認フラグが、前記分散データを集計する準備が完了したことを示す値である場合に、前記第2のステップによる前記第1の集計データの送信を開始する第12のステップとをさらに含むことを特徴とする分散処理方法。
PCT/JP2019/039450 2018-10-22 2019-10-07 分散処理システムおよび分散処理方法 WO2020085059A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/287,063 US11240296B2 (en) 2018-10-22 2019-10-07 Distributed processing system and distributed processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018198231A JP7074018B2 (ja) 2018-10-22 2018-10-22 分散処理システムおよび分散処理方法
JP2018-198231 2018-10-22

Publications (1)

Publication Number Publication Date
WO2020085059A1 true WO2020085059A1 (ja) 2020-04-30

Family

ID=70330352

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/039450 WO2020085059A1 (ja) 2018-10-22 2019-10-07 分散処理システムおよび分散処理方法

Country Status (3)

Country Link
US (1) US11240296B2 (ja)
JP (1) JP7074018B2 (ja)
WO (1) WO2020085059A1 (ja)

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290155A (ja) * 1991-03-19 1992-10-14 Fujitsu Ltd 並列データ処理方式
JP3136088B2 (ja) * 1996-02-22 2001-02-19 シャープ株式会社 データ処理装置及びデータ処理方法
US7266082B2 (en) * 2002-08-30 2007-09-04 Hewlett-Packard Development Company, L.P. Expressway routing among peers
US7554988B2 (en) * 2002-09-10 2009-06-30 Hewlett-Packard Development Company, L.P. Creating expressway for overlay routing
US7613796B2 (en) * 2002-09-11 2009-11-03 Microsoft Corporation System and method for creating improved overlay network with an efficient distributed data structure
US7379428B2 (en) * 2002-10-31 2008-05-27 Hewlett-Packard Development Company, L.P. Autonomous system topology based auxiliary network for peer-to-peer overlay network
US7289520B2 (en) * 2002-11-20 2007-10-30 Hewlett-Packard Development Company, L.P. Method, apparatus, and system for expressway routing among peers
US7454520B2 (en) * 2002-11-20 2008-11-18 Hewlett-Packard Development Company, L.P. Method and apparatus for generating a routing table
US7953858B2 (en) * 2003-01-17 2011-05-31 Hewlett-Packard Development Company, L.P. Method and apparatus for mapping peers to an overlay network
US20040205242A1 (en) * 2003-03-12 2004-10-14 Zhichen Xu Querying a peer-to-peer network
US7907544B2 (en) * 2003-03-14 2011-03-15 Hewlett-Packard Development Company, L.P. Overlay network for location-independent communication between computer systems
US7788400B2 (en) * 2003-09-19 2010-08-31 Hewlett-Packard Development Company, L.P. Utilizing proximity information in an overlay network
US7483391B2 (en) * 2003-09-19 2009-01-27 Hewlett-Packard Development Company, L.P. Providing a notification including location information for nodes in an overlay network
US20050108203A1 (en) * 2003-11-13 2005-05-19 Chunqiang Tang Sample-directed searching in a peer-to-peer system
US20080130516A1 (en) * 2004-12-21 2008-06-05 Electronics And Telecommunications Research Institute P2p Overplay Network Construction Method and Apparatus
EP1748604B1 (en) * 2005-07-28 2010-03-03 Technische Universität Berlin A communication network, a method of routing data packets in such communication network and a method of locating and securing data of a desired resource in such communication network
US8208477B1 (en) * 2005-08-24 2012-06-26 Hewlett-Packard Development Company, L.P. Data-dependent overlay network
WO2007087363A2 (en) * 2006-01-24 2007-08-02 Brown University Efficient content authentication in peer-to-peer networks
US8069208B2 (en) * 2006-04-21 2011-11-29 Microsoft Corporation Peer-to-peer buddy request and response
US8041942B2 (en) * 2006-09-05 2011-10-18 Panasonic Corporation Robust peer-to-peer networks and methods of use thereof
WO2008066481A1 (en) * 2006-11-27 2008-06-05 Telefonaktiebolaget Lm Ericsson (Publ) A method and system for providing arouting architecture for overlay networks
US8762542B2 (en) * 2006-11-30 2014-06-24 Red Hat, Inc. Protocol for sharing information in a peer to peer service
US8041773B2 (en) * 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
KR101422213B1 (ko) * 2007-11-23 2014-07-22 삼성전자 주식회사 단말의 능력을 기초로 역할을 설정하는 장치 및 그 방법
US7747777B2 (en) * 2007-11-30 2010-06-29 Cisco Technology, Inc. Optimizing network resources usage within an administrative boundary
EP2071809A1 (en) * 2007-12-13 2009-06-17 Alcatel Lucent Method of establishing a connection in a peer-to-peer network with network address translation (NAT)
JP4417997B2 (ja) * 2007-12-13 2010-02-17 株式会社東芝 オーバーレイネットワークシステム、同システムにおけるオーバーレイネットワーク構築・維持方法、及びプログラム
US7870133B2 (en) * 2008-01-14 2011-01-11 Infosys Technologies Ltd. Method for semantic based storage and retrieval of information
EP2139178A1 (en) * 2008-06-27 2009-12-30 Alcatel, Lucent Method of determining a routing path
EP2139205B1 (en) * 2008-06-27 2012-10-31 Alcatel Lucent Method of redundant data storage
US8051205B2 (en) * 2008-10-13 2011-11-01 Applied Micro Circuits Corporation Peer-to-peer distributed storage
US8484382B2 (en) * 2009-03-11 2013-07-09 Qualcomm Incorporated Methods and apparatus for merging peer-to-peer overlay networks
US9686353B2 (en) * 2009-06-26 2017-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Method and node for locating objects in a peer-to-peer network
CN102668505B (zh) * 2009-10-21 2015-02-18 瑞典爱立信有限公司 用于定位对等网络中的服务的方法和设备
EP2513797A4 (en) * 2009-12-14 2016-09-28 Daj Asparna Ltd REVISION CONTROL SYSTEM AND METHOD
US8385267B2 (en) * 2010-02-19 2013-02-26 Research In Motion Limited Client routing in a peer-to-peer overlay network
US8856784B2 (en) * 2011-06-14 2014-10-07 Vmware, Inc. Decentralized management of virtualized hosts
US8701107B2 (en) * 2011-06-14 2014-04-15 Vmware, Inc. Decentralized management of virtualized hosts
WO2014001845A1 (en) * 2012-06-28 2014-01-03 Telefonaktiebolaget L M Ericsson (Publ) Reputation reporting mechanism and method in peer-to-peer communication network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SERGEEV, ALEXANDER ET AL.: "Horovod: fast and easy distributed deep learning in TensorFlow", ARXIV, 21 February 2018 (2018-02-21), pages 1 - 10, XP081215801, Retrieved from the Internet <URL:https://arxiv.org/abs/1802.05799v3> [retrieved on 20191127] *

Also Published As

Publication number Publication date
JP7074018B2 (ja) 2022-05-24
JP2020067688A (ja) 2020-04-30
US20210377339A1 (en) 2021-12-02
US11240296B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
CN104429029B (zh) 网络中通过中央控制器的基于延迟的业务速率控制
Wan et al. Event-triggered distributed optimization in sensor networks
WO2018187094A1 (en) Systems and methods for networking and wirelessly routing communications
CN107534985B (zh) 通信装置、通信方法及通信系统
US20210357723A1 (en) Distributed Processing System and Distributed Processing Method
US20130337825A1 (en) Space Time Calibration for Networks Using State Model of Node Clock Parameters
CN101772012B (zh) 网络节点信任度确定方法、系统及装置
WO2019239821A1 (ja) 分散処理システムおよび分散処理方法
Cantelmo et al. Two-step approach for correction of seed matrix in dynamic demand estimation
Guo et al. Enabling coverage-preserving scheduling in wireless sensor networks for structural health monitoring
WO2020085059A1 (ja) 分散処理システムおよび分散処理方法
JP7192984B2 (ja) 分散処理システムおよび分散処理方法
WO2019159784A1 (ja) 分散処理システムおよび分散処理方法
JP7135468B2 (ja) 分散処理システムおよび分散処理方法
WO2020085058A1 (ja) 分散処理システムおよび分散処理方法
JP6178113B2 (ja) 通信システム
JP7420228B2 (ja) 分散処理システムおよび分散処理方法
Almeida et al. Fault-tolerant aggregation: Flow-updating meets mass-distribution
CN110431824B (zh) 通过对等消息彼此通信的节点的计算机网络以及关联的用于使节点之间互连的方法
Soubra Towards universal IoT metrics automation
JP6805791B2 (ja) 情報処理装置、情報処理方法及び情報処理システム
Edelmann et al. Nonparametric inference for queueing networks of GEOMX/G/∞ queues in discrete time
CN109634096A (zh) 控制系统、控制方法及均衡装置
JP7283577B2 (ja) 分散深層学習システムおよび分散深層学習方法
De Nicola et al. Stationary Characteristics Of Homogenous Geo/Geo/2 Queue With Resequencing In Discrete Time.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19876434

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19876434

Country of ref document: EP

Kind code of ref document: A1