WO2022129156A1 - Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee - Google Patents

Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee Download PDF

Info

Publication number
WO2022129156A1
WO2022129156A1 PCT/EP2021/085864 EP2021085864W WO2022129156A1 WO 2022129156 A1 WO2022129156 A1 WO 2022129156A1 EP 2021085864 W EP2021085864 W EP 2021085864W WO 2022129156 A1 WO2022129156 A1 WO 2022129156A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
circuit
vector
zero
jump
Prior art date
Application number
PCT/EP2021/085864
Other languages
English (en)
Inventor
Michel Harrand
Original Assignee
Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat A L'energie Atomique Et Aux Energies Alternatives filed Critical Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority to EP21839468.2A priority Critical patent/EP4264497A1/fr
Priority to US18/267,070 priority patent/US20240054330A1/en
Publication of WO2022129156A1 publication Critical patent/WO2022129156A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Definitions

  • the invention generally relates to circuits for calculating weighted sums of data having a low data density or non-zero weighting weights and more particularly to digital neuromorphic network calculators for calculating artificial neural networks. based on convolutional or fully connected layers.
  • Artificial neural networks constitute calculation models that imitate the operation of biological neural networks.
  • Artificial neural networks include neurons interconnected by synapses, which are for example implemented by digital memories.
  • Artificial neural networks are used in different fields of signal processing (visual, sound, or other) such as in the field of image classification or image recognition.
  • Convolutional neural networks correspond to a particular model of artificial neural network. Convolutional neural networks were initially described in the article by K. Fukushima,
  • Neocognitron A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980. ISSN 0340-1200. doi:10.1007/BF00344251”.
  • Convolutional neural networks are neural networks inspired by biological visual systems .
  • CNN Convolutional neural networks
  • the convolutional neural network is based on a succession of layers of neurons, which may be convolutional layers or fully connected layers (generally at the end of the network). In convolutional layers, only a subset of neurons from one layer are connected to a subset of neurons from another layer. On the other hand, convolutional neural networks can process multiple input channels to generate multiple output channels. Each input channel corresponds, for example, to a different data matrix.
  • convolutional neural networks comprise one or more convolution layers which are particularly costly in terms of the number of operations.
  • the operations performed are mainly multiplication and accumulation (MAC) operations to calculate a sum of the data weighted by the synaptic coefficients.
  • MAC multiplication and accumulation
  • the convolutional neural networks are implemented in an embedded system with limited resources (as opposed to an implementation in computing center infrastructures)
  • the reduction in electrical consumption and the reduction in the number of operations of necessary calculation becomes an essential criterion for the realization of the neural network.
  • the basic operation implemented by an artificial neuron is an operation of multiplication then accumulation MAC.
  • the number of MAC operations per unit of time necessary for real-time operation becomes restrictive.
  • the disadvantage of this solution is the limitation to taking advantage of the low density of non-zero weights only.
  • the solution proposed by this publication is limited to an operation in inference being not adapted to the realization of a learning phase.
  • the invention proposes a computer architecture making it possible to reduce the electrical consumption and improve the performance of a neural network implemented on a chip by using a flow management circuit integrated in the same chip as the calculation network.
  • the flow management circuit according to the invention takes advantage of the low density of non-zero data and/or non-zero weights.
  • the invention proposes an artificial neural network accelerator computer architecture comprising a plurality of MAC-type calculation units each receiving at each calculation cycle a non-zero datum and the synaptic coefficient associated with said datum or vice versa .
  • the improvement in the performance of the calculation is carried out by means of at least one flow management circuit making it possible to identify the null data during their loading from a data memory and to synchronize the reading of the weights from a weight memory using jump information.
  • the solution according to the invention further proposes a processing of the low density of non-zero data jointly for the data and the synaptic coefficients (or weights). It is possible in the solution according to the invention to carry out this joint processing on vectors each comprising a plurality of pairs of type [data, weight],
  • the proposed solution is suitable, in a more general way, for any calculation architecture intended to carry out multiplication and accumulation operations (MAC) to calculate sums of a first type of data A weighted with a second data type B.
  • MAC multiplication and accumulation operations
  • the solution proposed according to the invention is optimal when the first type of data A and/or the second type of data B have a low density of non-zero values.
  • the solution proposed according to the invention is symmetric with respect to the type of data A or B.
  • the solution according to the invention makes it possible to take into account the “low density of non-zero data” of at least one of the input data of a series of MAC type operations. This makes it possible to optimize the operation of the computer carrying out the MAC operations via a parsimonious calculation limiting the energy consumption and the necessary calculation time.
  • the English term “sparcity” has been translated by parsimony also referring to the notion of “low density of non-zero data”.
  • the subject of the invention is a calculation circuit for calculating a weighted sum of a set of first data by a set of second data comprising:
  • At least a first data memory for storing the first data
  • At least one second data memory for storing the second data
  • At least one calculation unit configured to perform the weighted sum calculation
  • At least one first sequencer circuit capable of controlling reading in the first data memory according to a first predefined addressing sequence
  • At least one second sequencer circuit capable of controlling reading in the second data memory according to a second predefined addressing sequence
  • At least one distribution circuit associated with a calculation unit to successively deliver to it a new pair of first and second associated data
  • At least one flow management circuit comprising: o A first buffer memory for storing all or part of the first data delivered sequentially by said first sequencer circuit; o A second buffer memory for storing all or part of the second data delivered sequentially by said second sequencer circuit; o a first processing circuit comprising a first circuit for controlling the read and write pointers of the first buffer memory and being capable of:
  • analyzing the first data delivered by said first sequencer circuit to search for the first non-zero data and define a first jump indicator between two successive non-zero data, and ⁇ controlling the transfer to the distribution circuit of a first data item read from the first data buffer memory as a function of said first jump indicator; a second processing circuit comprising a second circuit for controlling the read and write pointers of the second buffer memory and being capable of controlling the transfer to the distribution circuit of a second data item read in the second data buffer memory in function of said first jump indicator.
  • the calculation circuit further comprises a plurality of null data detection circuits each configured to match each first input data, a null data indicator having a corresponding first state to zero datum and a second state corresponding to non-zero datum.
  • the first sequencer circuit is configured to deliver the first data by vectors of N successive data, N being a non-zero natural integer.
  • the first buffer memory is a memory capable of storing vectors of N data according to a “first in, first out” principle.
  • the first processing circuit comprises a parsimony management stage per data intended to receive the vectors coming from the first buffer memory and configured to generate a jump signal per word between two successive non-zero data intended for the two pointer control circuits . Said word jump signal forms a first component of the first jump indicator.
  • the first processing circuit comprises, upstream of the first buffer memory, a parsimony management stage per vector configured to generate a jump signal per vector intended for the two control circuits of the pointers when a vector is zero. Said vector jump signal forms a second component of the first jump indicator.
  • the vector parsimony management stage comprises a first null vector detection logic circuit configured to generate, from the null data flags, the jump signal per vector when a vector comprises only null data.
  • the parsimony management stage by data comprises:
  • a priority encoder stage configured to carry out the following operations in an iterative manner: o the generation of a distribution control signal corresponding to the index of the first non-zero input data of the vector.
  • the first pointer control circuit is configured to perform in the same iteration loop: o the generation of the skip signal per word from the distribution control signal; o and setting to the first state of the null data indicator of the input data distributed in the vector stored in the register following its distribution.
  • the data parsimony management stage comprises a second null vector detection logic circuit for generating a read trigger signal for the next vector when all the null data indicators of the data belonging to said vector are in the first state.
  • the second processing circuit is capable of:
  • the second processing circuit is capable of controlling the transfer to the distribution circuit of a second piece of data read from the second data buffer memory as a function of said first and second jump indicators.
  • the flow management circuit is configured to read the data from the two memories by vectors of N successive pairs according to the first and the second predefined addressing sequence of said data, N being a non-zero natural integer.
  • the first and second jump indicator are obtained by an analysis of said vectors such that the two data forming a distributed couple are non-zero.
  • the calculation circuit further comprising a plurality of zero torque detection circuits each being configured to match each pair of first and second input data, a zero torque indicator having a first state corresponding to a pair comprising at least one zero datum and a second state corresponding to a pair comprising only non-zero data.
  • the assembly formed by the first and the second buffer memory is a memory capable of storing vectors of N pairs according to a “first in first out” principle.
  • the assembly formed by the first and the second processing circuit comprises a parsimony management stage per data intended to receive the vectors originating from the assembly of the first and the second buffer memory and configured to generate a jump signal per word between two successive pairs having two non-zero data intended for the two pointer control circuits. Said word jump signal forms a first component of the first jump indicator and the second jump indicator.
  • the calculation circuit comprises a parsimony vector management stage upstream of the first and the second buffer memory.
  • the vector parsimony management stage includes a first null vector detection logic circuit configured to generate a vector skip signal when a vector comprises only null data flags in the first state. Said vector jump signal forms a second component of the first jump indicator and the second jump indicator.
  • the parsimony management stage per couple comprises: A register to receive a non-zero vector at the output of the buffer memory;
  • a priority encoder stage configured to carry out the following operations in an iterative manner: o The generation of a distribution control signal corresponding to the index of the first couple having two non-zero vector data;
  • At least the first or the second pointer control circuit being configured to carry out in the same iteration loop: o the setting to the first state of the null data indicator of the pair of input data distributed in the vector stored in the register, following its distribution;
  • a dispensing member controlled by the dispensing command signal
  • a second null vector detection logic circuit for generating a read trigger signal for the next vector when all the null data indicators of the pairs belonging to said vector are in the first state.
  • the calculation circuit is intended to calculate output data of a layer of an artificial neural network from input data.
  • the neural network is composed of a succession of layers, each consisting of a set of neurons.
  • Each layer is connected to an adjacent layer via a plurality of synapses associated with a set of synaptic coefficients forming at least one weight matrix.
  • the first set of data corresponds to the input data to a neuron of the layer being calculated.
  • the second set of data corresponds to the synaptic coefficients connected to said neuron of the layer being calculated.
  • the calculation circuit is intended to calculate output data of a layer of an artificial neural network from input data.
  • the neural network is composed of a succession of layers, each consisting of a set of neurons.
  • Each layer is connected to an adjacent layer via a plurality of synapses associated with a set of synaptic coefficients forming at least one weight matrix.
  • the first set of data corresponds to the synaptic coefficients connected to said neuron of the layer being calculated.
  • the second set of data corresponds to the input data of a neuron of the layer being calculated.
  • a plurality of flow management circuits of rank k 1 to K, each being configured as for each calculation unit of rank k belonging to a group of calculation units.
  • the flow management circuit of rank k is configured to distribute the non-zero synaptic coefficients coming from the first data memory of the same rank k to the calculation unit of the same rank k.
  • FIG.1 represents an example of a convolutional neural network containing convolutional layers and fully connected layers.
  • FIG.2a represents a first illustration of the operation of a convolution layer of a convolutional neural network with an input channel and an output channel.
  • FIG.2b represents a second illustration of the operation of a convolution layer of a convolutional neural network with an input channel and an output channel.
  • FIG.2c represents an illustration of the operation of a convolution layer of a convolutional neural network with several input channels and several output channels.
  • FIG.3 illustrates an example of a block diagram of the general architecture of a calculation circuit of a convolutional neural network.
  • FIG.4 illustrates a block diagram of an example of a computing network implemented on a system on chip according to the invention.
  • FIG.5a illustrates a block diagram of a CGF flow management circuit taking advantage of the low density in non-zero values according to the invention.
  • FIG.5b illustrates a functional diagram of a data flow management circuit according to a first embodiment in which the parsimony analysis is carried out only on a set of data.
  • FIG.5c illustrates an example of implementation of the first embodiment of the invention.
  • FIG.6a illustrates a block diagram of a data flow management circuit according to a second embodiment in which the parsimony analysis is carried out jointly on the two sets of data.
  • FIG.6b illustrates a functional diagram of a data flow management circuit according to a third embodiment in which the parsimony analysis is carried out jointly on the two sets of data.
  • Figure 1 shows the overall architecture of an example of a convolutional network for image classification.
  • the images at the bottom of figure 1 represent an extract of the convolution kernels of the first layer.
  • An artificial neural network also called a “formal” neural network or simply referred to by the expression “neural network” below
  • Each layer is made up of a set of neurons, which are connected to one or more previous layers. Each neuron of a layer can be connected to one or more neurons of one or more previous layers. The last layer of the network is called the “output layer”. Neurons are connected to each other by synapses associated with synaptic weights, which weight the efficiency of the connection between neurons, and constitute the adjustable parameters of a network. Synaptic weights can be positive or negative.
  • Neural networks called “convolutional” are also composed of layers of particular types such as convolution layers, grouping layers (“pooling in Anglo-Saxon language) and the fully connected layers.
  • convolutional neural network includes at least one convolution or “pooling” layer.
  • the architecture of the accelerator computer circuit according to the invention is compatible for performing the calculations of the convolutional layers. We will start first by detailing the calculations made for a convolutional layer.
  • FIG. 2a represents an input matrix [I] of size (l x ,l y ) connected to an output matrix [O] of size (O x ,O y ) via a convolution layer performing an operation of convolution using a filter [W] of size (K x ,K y ).
  • a value Oj j of the output matrix [O] (corresponding to the output value of an output neuron) is obtained by applying the filter [W] to the corresponding sub-matrix of the input matrix [I],
  • Oo,0 Xoo.Woo + X01.W01 + X02.W02 + X10.W10 + X11.W11 + X12.W12 + X20 W20 + X21.W21 + X22 W22
  • FIG. 2b represents a general case of calculation of any value 03.2 of the output matrix.
  • the output matrix [O] is connected to the input matrix [I] by a convolution operation, via a convolution kernel or filter noted [W].
  • Each neuron of the output matrix [O] is connected to a part of the input matrix [I]; this part is called “input sub-matrix” or “receptive field of the neuron” and it has the same dimensions as the filter [W],
  • the filter [W] is common for all the neurons of a matrix output [O] .
  • g() denotes the activation function of the neuron
  • Sj and Sj denote the vertical and horizontal shift parameters respectively.
  • Such a “stride” offset corresponds to the offset between each application of the convolution kernel on the input matrix. For example, if the lag is greater than or equal to the kernel size, then there is no overlap between each kernel application. We recall that this formula is valid in the case where the input matrix has been processed to add additional rows and columns (Padding in English).
  • Using the ReLu function as an activation function generates quite a significant amount of null data in the middle layers of the network. This justifies the interest in taking advantage of this characteristic to reduce the number of calculation cycles by avoiding performing multiplications with zero data when calculating a weighted sum of a neuron in order to save time for treatment and energy.
  • the use of this type of activation function makes the computer circuit compatible with the technical solution according to the invention applied to the data propagated or back-propagated in the neural network.
  • [W] Pi q ,k the filter corresponding to the convolution kernel which connects the matrix of output [O] q to an input matrix [l] p in the neuron layer C k .
  • Different filters can be associated with different input matrices, for the same output matrix.
  • Figures 2a-2b illustrate a case where a single output matrix (and therefore a single output channel) [O] is connected to a single input matrix [I] (and therefore a single input channel ).
  • FIG. 2c illustrates another case where several output matrices [O] q are each connected to several input matrices [l] p .
  • each output matrix [O] q of layer C k is connected to each input matrix [l] p via a convolution kernel [W] pq ,k which can be different depending on the output matrix.
  • the convolution layer performs, in addition to each convolution operation described above, a sum of the output values of the neurons obtained for each input matrix.
  • the output value of an output neuron (or also called output channels) is in this case equal to the sum of the output values obtained for each convolution operation applied to each input matrix (or also called input channels)
  • FIG. 3 illustrates an example of a functional diagram of the general architecture of the calculation circuit of a convolutional neural network according to the invention.
  • the circuit for calculating a convolutional neural network CALC comprises an external volatile memory MEM_EXT for storing the input and output data of all the neurons of at least the layer of the network being calculated for one inference or learning phase and an integrated system on a single SoC chip.
  • the SoC system-on-chip notably comprises an image interface denoted I/O to receive the input images for the entire network during an inference or learning phase.
  • I/O image interface
  • the input data received via the I/O interface is not limited to images but can be, more generally, of a diverse nature.
  • the SoC system-on-chip also includes a PROC processor for configuring the MAC_RES calculation network and the ADDJ3EN address generators according to the type of neural layer calculated and the calculation phase carried out.
  • the processor PROC is connected to an internal non-volatile memory MEM_PROG which contains the computer programming executable by the processor PROC.
  • the SoC system on chip comprises a calculation accelerator of the SIMD (Single Instruction on Multiple Data) type connected to the processor PROC to improve the performance of the processor PROC.
  • SIMD Single Instruction on Multiple Data
  • the external MEM_EXT and internal MEMJNT data memories can be produced with DRAM type memories.
  • the internal data memory MEMJNT can also be made with SRAM type memories.
  • the processor PROC, the accelerator SIMD, the programming memory MEM_PROG, all the address generators ADD_GEN and the memory control circuit CONT_MEM are part of the means for controlling the calculation circuit of a network of CALC convolutional neurons.
  • the memories of the weight data MEM_POIDS n can be made with memories based on an emerging NVM technology.
  • FIG. 4 illustrates an example of a functional diagram of the calculation network MAC_RES implemented in the system on chip SoC according to a first embodiment of the invention.
  • the example implementation illustrated in FIG. 4 comprises 9 groups of calculation units; each group comprises 128 calculation units denoted PE n .
  • This design choice makes it possible to cover a wide range of convolution types such as 3x3 stridel, 3x3 stride2, 5x5 stridel, 7x7 stride2, 1x1 stridel and 11x11 stride4 based on the spatial parallelism ensured by the groups of calculation units and while parallel calculating 128 output channels.
  • each of the groups of calculation units Gj receives the input data X ⁇ coming from a memory integrated in the calculation network MAC_RES denoted MEM_A comprising one of the input data X ⁇ of a layer being calculated.
  • the memory MEM_A receives a subset of the input data from the external memory MEM_EXT or from the internal memory MEMJNT.
  • Input data from one or more input channels is used to calculate one or more output matrices on one or more output channels.
  • the memory MEM_A comprises a write port connected to the memories MEM_EXT or MEMJNT and 9 read ports each connected to a flow management circuit CGF itself connected to a group of calculation unit Gj
  • the flow management circuit CGF is configured to distribute at each calculation cycle input data xy non- null coming from the first data memory MEM_A to the calculation units PE n belonging to the group Gj.
  • the buffer memory of rank n and j receives the weights coming from the memory of weight MEM_POIDS n of rank n to distribute them to the calculation unit PE n of the same rank n belonging to the group Gj of rank j.
  • the rank 0 weight memory MEM_POIDSo is connected to 9 weight buffer memories BUFF_B Oj .
  • the weight buffer memory BUFF_Boi is connected to the calculation unit PE o of the first group of calculation units Gi,
  • the weight buffer memory BUFF_B 0 2 is connected to the calculation unit PEo of the second group of units G2 calculation, and so on.
  • the set of buffer memories of weight BUFF_B Oj of rank j belong to the flow management circuit CGFj associated with the group of the same rank j.
  • Each flow circuit CGFj associated with a group of calculation units Gj also generates jump information in the form of one or more signals to control the reading of the synaptic coefficients as a function of the jump information generated by each flow circuit CGFj.
  • Each rank n weight memory MEM_POIDS n contains all the weight matrices [W] pn ′ k associated with the synapses connected to all the neurons of the output matrices of a layer of rank k neurons of the network.
  • the calculation network MAC_RES comprises in particular an average or maximum calculation circuit, denoted POOL, making it possible to carry out the “Max Pool” or “Average Pool” layer calculations.
  • a treatment of “Max pooling” of an input matrix [I] generates an output matrix [O] of smaller size than that of the input matrix by taking the maximum of the values of a sub-matrix [X1] for example of the input matrix [I] in the output neuron Ooo-
  • An “average pooling” processing calculates the average value of all the neurons of a sub-matrix of the input matrix.
  • the calculation network MAC_RES comprises in particular a circuit for calculating an activation function denoted ACT, generally used in convolutional neural networks.
  • the activation function g(x) is a non-linear function, like a ReLu function for example.
  • the input data x ⁇ received by a layer being calculated constitute the first operand of the MAC operation carried out by the calculation unit PE.
  • the synaptic weights W ⁇ connected to a layer being calculated constitute the second operand of the MAC operation performed by the calculation unit PE.
  • Figure 5a illustrates the implementation of the flow management circuit CGF taking advantage of the low density in non-zero values for the data X ⁇ to limit the number of calculation cycles of a weighted sum.
  • the calculation circuit CALC comprises a first data memory MEM_A for storing the first set of data corresponding to the input data X ⁇ ; a second data memory MEM_B (corresponding to MEM_POIDSo) for storing the second set of data corresponding to the synaptic weights W ⁇ ; and a calculation unit PE 0 for carrying out the calculation of a sum of the input data X ⁇ weighted by the synaptic weights W ⁇ .
  • the calculation circuit CALC further comprises a flow management circuit CGF configured to distribute on each cycle a non-zero input datum xij coming from the first data memory MEM_A to the calculation unit PE in order to do not perform multiplication operations with zero input data.
  • the flow management circuit CGF is configured to generate at least one skip indicator according to the number of zero data skipped between two non-zero data distributed successively.
  • the jump indicator or indicators then make it possible to generate a new distribution sequence comprising only non-zero data. More generally, the jump indicators are used to synchronize the distribution of the synaptic weights from the second memory MEM_B to carry out the multiplication of an input datum X ⁇ with the corresponding synaptic weight Wjj.
  • the input data of an input matrix [I] in the external memory MEM_A are arranged such that all the channels for the same pixel of the input image are arranged sequentially .
  • the input matrix is a matrix image of size NxN composed of 3 input channels of RGB colors (Red, Green, Blue in English)
  • the input data Xj are stored as follows:
  • the second data memory MEM_B (corresponding to MEM_POIDSo) is connected to a weight buffer memory BUFF_B to store a subset of the weights W ⁇ coming from the memory MEM_B.
  • the computer circuit comprises a first sequencer circuit SEQ1 capable of controlling reading in the first data memory MEM_A according to a first predefined addressing sequence.
  • the first addressing sequence constitutes a raw sequence before the parsimony processing which is the subject of the invention.
  • the computer circuit further comprises a second sequencer circuit SEQ2 capable of controlling reading in the second data memory MEM_B according to a second predefined addressing sequence.
  • the computer circuit further comprises a distribution circuit DIST associated with each calculation unit PE to successively deliver a new pair of first and second data associated with the output of the flow management circuit CGF.
  • L 4
  • the flow management circuit CGF comprises a first buffer memory BUFF_A for storing all or part of the first data delivered sequentially by the first sequencer circuit SEQ1 and a second buffer memory BUFF_B for storing all or part of the second data delivered sequentially by the second sequencer circuit SEQ2.
  • the flow management circuit CGF also comprises a first processing circuit CT_A for processing a vector V1 stored in the buffer memory BUFF_A and a second processing circuit CT_B for processing the synaptic coefficients stored in the buffer memory BUFF_B.
  • the buffer memory BUFF_A operates according to a “first in first out” or FIFO acronym for the English expression “First In First Out” principle.
  • the first processing circuit CT_A comprises a first control circuit for the read and write pointers ADD1 of the first buffer memory BUFF_A.
  • the first processing circuit CT_A performs the following operations to obtain a new sequence not comprising zero input data Xj.
  • the first processing circuit CT_A carries out an analysis of the first data Xj delivered by the said first sequencer circuit SEQ1 in the form of vectors to search for the first zero data and define a first jump indicator is1 between two successive non-zero data.
  • the first processing circuit CT_A is configured to controlling the transfer to the distribution circuit DIST of a first data item read from the first data buffer memory BUFF_A as a function of said first jump indicator is1.
  • the second processing circuit CT_B symmetrically comprises a second circuit for controlling the read and write pointers ADD2 of the second buffer memory.
  • the processing circuit CT_B is capable of controlling the transfer to the distribution circuit of a second data item read from the second data buffer memory BUFF_B as a function of said first jump indicator is1.
  • the second processing circuit CT_B it is possible for a particular embodiment for the second processing circuit CT_B to carry out operations for analyzing the second data (in this case it concerns the weights Wj) delivered by the second sequencer circuit SEQ2 for search for the second null data and set a second jump flag is2 between two successive non-null data.
  • the second processing circuit CT_B controls the transfer to the distribution circuit of a second data item read from the second data buffer memory BUFF_B as a function of said first and second jump indicators is1 and is2.
  • the assembly of the first and second processing circuits CT_B and CT_A is capable of controlling the transfer to the distribution circuit DIST of a second data item read in the second data buffer memory as a function of said first and second indicators jump.
  • FIG. 5b illustrates a first embodiment of the invention in which the parsimony analysis is carried out only on the first addressing sequence of the first input data Xj to generate a first jump indicator is1.
  • the transfer to the distribution circuit of a first datum Xj read in the first data buffer memory MEM_A is carried out according to the first jump indicator is1.
  • the transfer to the distribution circuit DIST of a second data item Wj read from the second data buffer memory BUFF_B is carried out according to the first jump indicator is1.
  • the first processing circuit CT_A comprises a data parsimony management stage SPAR2 configured to generate a jump signal per word word_0 between two successive non-zero data items intended for the two pointer control circuits ADD1 and ADD2.
  • the word jump signal mot_0 constitutes a first component of the first jump indicator is1.
  • the flow management circuit CGF comprises upstream of the first buffer memory BUFF_A a parsimony management stage by vector SPAR1 configured to generate a jump signal by vector vect_0 intended for the two pointer control circuits ADD1 and ADD2 when a vector V1 is zero.
  • the jump signal by vector vect_0 constitutes a second component of the first jump indicator is1.
  • a null vector is detected by the first vector parsimony management stage SPAR1 , this last generates a jump signal by vector vect_0 towards the address generator ADD1 so as not to write the zero vector detected in the buffer memory BUFF_A and pass to the processing of the next vector.
  • a stack of vectors V of four data items Xj comprising at least one non-zero data item is thus obtained in the memory BUFF_A.
  • the zero datum indicator can take the form of an additional bit concatenated to the word of bits constituting the datum itself.
  • the calculation of the zero data indicator is an operation internal to the parsimony management circuit by vector SPAR1. But it is possible to calculate and match to each input data Xj, the zero data indicators outside the circuit CGF flow control.
  • x1 ( i+i ) designates the zero data bit of the datum xi .
  • the zero datum indicator x1 ( i+i) has a first state N0 corresponding to zero datum and a second state N1 corresponding to non-zero datum.
  • the second stage for managing parsimony by data SPAR2 is configured to successively process the vectors stored in the buffer memory BUFF_A by distributing successively and at each calculation cycle a non-zero datum of the vector being processed.
  • the second data parsimony management stage SPAR2 performs a second function consisting of the generation of a skip signal per word mot_0 between two successive non-zero data.
  • the combination of the vector jump signal vect_0 and the word jump signal mot_0 forms the first jump indicator is1.
  • the first jump flag is1 allows the system to extract a new addressing sequence without null data to the address generator ADD1 .
  • the address generator ADD1 thus controls the transfer to the distribution circuit of a first piece of data read from the first data buffer memory BUFF_A as a function of the first jump indicator is1 to the calculation unit PE.
  • the propagation of the jump indicator is1 to the address generator ADD2 associated with the processing circuit CT_B makes it possible to synchronize the distribution of the weights W ⁇ to the calculation unit PE from the buffer memory BUFFJ3 .
  • the data parsimony management stage SPAR2 performs another function consisting of the generation of a read trigger signal for the next vector followject when all the non-zero data of the vector V have been sent to the distribution device DIST.
  • the followject signal is propagated to the address generator ADD1 to trigger the processing of the next vector in the buffer memory BUFF_A following the end of the analysis of the vector being processed.
  • the proposed solution thus makes it possible to minimize the number of calculation cycles carried out to calculate a weighted sum by avoiding carrying out multiplications with zero xy data following the detection of these data. null, and the synchronization of the distribution of the weights w ⁇ by means of at least one read jump information.
  • the solution described according to the invention is symmetrical in the sense that it is possible to invert the data and the weights in the detection and synchronization mechanism. In other words, it is possible to invert the concept of master-slave between the data Xj and the weights Wj . Thus, it is possible to detect the damaged weights W ⁇ and to synchronize the reading of the data Xj according to jump information calculated from the processing of the weights Wj.
  • FIG. 5c represents an example of an implementation of the parsimony management stage by vector and of the parsimony management stage by data, belonging to the flow management circuit according to the invention.
  • the vector parsimony management stage SPAR 1 comprises 4 null data detection circuits MNULL1, MNULL2, MNULL3 and MNULL4, each being intended to calculate the null data indicator xi ( i+i) of a datum belonging to the vector V received by the flow management circuit CGF.
  • a null data detection circuit MNULL can be implemented with logic gates to form a combinatorial logic circuit.
  • the zero data detection circuits have been integrated into the vector parsimony management stage SPAR1 but this is not limiting because it is possible to perform the calculation of the zero data indicator x1 (i+i) upstream of the flow management circuit CGF and even upstream of the storage memory MEM_A.
  • the vector parsimony management stage SPAR 1 further comprises a null vector detection logic circuit VNULL1 having 4 inputs for receiving the set of null data indicators Xj(i+i) and an output for generating the jump signal by vector vect_0 indicating whether vector V is zero or not.
  • the jump signal by vector vect_0 commands the first memory management circuit ADD1 not to write in the buffer memory BUFF_A the null vectors coming from the first memory MEM_A.
  • the first parsimony management stage SPAR_1 performs a first filtering step to perform read jumps by vectors of 4 data when a zero vector is detected.
  • the buffer memory BUFF_A then stores the data arranged by successive vectors V, each comprising at least one non-zero datum.
  • the passage to the reading of a vector to a following vector from the buffer memory BUFF_A is controlled by the memory management circuit ADD1, and the order of the reading of the stored vectors is organized according to the principle of a FIFO “first in first out”.
  • the parsimony management stage by data SPAR2 comprises a register REG2 which stores the vector being processed by SPAR2.
  • the parsimony management stage by datum SPAR2 is configured to successively process the vectors V coming from the buffer memory BUFF_A in the following way: o detect the position of the first non-zero datum belonging to the vector being processed by means of the null data flag bit; o controlling the distribution of said detected non-zero datum to the calculation unit PE; o set to the first state N0 the null data indicator of the input data distributed in the vector V being processed. o calculate and generate a jump signal per word mot_0 between two successive non-zero data,
  • the steps described above are repeated by SPAR2 until all the zero data indicators of the vector are in the N0 state, indicating that all the non-zero data of the vector V have been distributed and then triggering the processing of the next vector from BUFF_A.
  • the data parsimony management stage SPAR2 performs this function by generating the next vector read trigger signal followject when all the zero data indicators of the vector are in the NO state.
  • the parsimony management stage by data SPAR2 comprises a priority encoder stage ENC configured to perform iteratively the generation of a distribution control signal c1 corresponding to the index of the first non-zero input data of vector V1 .
  • the encoder stage ENC receives as input the zero data indicators Xj(i +1 ) of the vector being analyzed to generate said index.
  • the distribution control signal c1 is propagated as input to the memory management circuit ADD1 for the generation of the second jump indicator mot_0; followed by the setting to the first state N0 of the null data indicator of the input data distributed in the vector V1 stored in the register Reg2 following its distribution.
  • the second parsimony management stage by data SPAR2 also comprises a distribution member MUX controlled by the distribution control signal c1.
  • a multiplexer with 4 inputs each receiving a datum Xj from the vector V and at an output can be used to implement this functionality.
  • the second data parsimony management stage SPAR2 further comprises a second zero vector detection logic circuit VNUL2 to generate a read trigger signal for the next vector followject when all the zero data indicators of the data belonging to the vector V1 being processed are in the first state N0 and control the memory BUFF_A through the memory management circuit ADD1 to trigger the processing of the next vector V2 by SPAR2 at the next cycle.
  • VNUL2 to generate a read trigger signal for the next vector followject when all the zero data indicators of the data belonging to the vector V1 being processed are in the first state N0 and control the memory BUFF_A through the memory management circuit ADD1 to trigger the processing of the next vector V2 by SPAR2 at the next cycle.
  • the two jump indicators mot_0 and vect_0 form the two components of the first jump indicator is 1 .
  • the latter is propagated to the second memory management circuit ADD2 which controls the reading of the buffer memory BUFF_B. That makes it possible to distribute the weight W ⁇ associated with the distributed data X ⁇ according to the read sequence initially provided by the sequencers SEQ1 and SEQ2.
  • the first initially predefined addressing sequence which governs the reading of data from MEM_A is as follows: xi : x 2 , x 3 , x 4 , X5 X6, x 7 , x 3 , X9 X10, xn , xi 2 .
  • the second initially predefined addressing sequence which governs the reading of the weights from MEM_B is wi, w 2 , w 3 , w 4 , W5 : W6, w 7 , W8, W9 W10, W11 , wi 2 .
  • the new addressing sequence which governs the reading of data from MEM_A after processing by the parsimony management circuit is: xi. x 4 , x , xi 2 and for the weights wi, w 4 , W10, wi 2 .
  • the jump indicator is1 mot_0+vect_0 successively takes the following values:
  • FIG. 6a represents a second embodiment of the data flow management circuit CGF' according to the invention.
  • the specificity of this mode consists in the joint parsimony management of the first set of input data (in the illustrated case it is data coming from a layer in the network Xj) and of the second set of input data (in the case illustrated, these are the weights or synaptic coefficients Wj ).
  • the calculator circuit CALC in FIG. 6a comprises a first memory MEM_A for storing the first data Xj and a first sequencer SEQ1 for controlling the reading of the memory MEM_A according to a first predefined sequence.
  • the calculator circuit CALC in FIG. 6a comprises a second memory MEM_B for storing the second data Wj and a second sequencer SEQ2 for controlling the reading of the memory MEM_B according to a second predefined sequence.
  • the advantage of the second embodiment is the management of the low density in simultaneous non-zero values of the two sets of data constituting the operands of the multiplications for a weighted sum.
  • the compression result of the data distribution sequence over time is greater than that of the first embodiment.
  • account is taken of the low density of non-zero values only for one of the two sets of data.
  • the flow management circuit CGF' processes the two sets simultaneously. For this, from the first and the second initial distribution sequence provided by SEQ1 and SEQ2, each data item Xj is paired with the corresponding weight Wj to form a couple (Xj : Wj).
  • the second processing circuit CT_B is able to analyze the second data delivered by said second sequencer circuit to search for the second zero data and define a second jump indicator between two successive non-zero data, and controlling the transfer to the distribution circuit of a second data item read from the second data buffer memory as a function of said first and second jump indicators.
  • the second processing circuit CT_B is capable of controlling the transfer to the distribution circuit of a weight Wj read in the second data buffer memory BUFF_B as a function of the first and second indicators of skip is1 and is2 .
  • the control of the transfer of the data Xj to a calculation unit PE is carried out according to the first and the second jump indicators is1 and is2.
  • zero torque means each pair having at least one zero component.
  • each of the component data of the torque it is possible to match the zero torque indicator to each of the component data of the torque to allow storage in separate memories of the data such that each first or second datum is concatenated with a zero torque indicator bit associated.
  • a null torque detection circuit CNULL can be produced with logic gates to form a combinatorial logic circuit.
  • the zero torque detection circuits have been integrated into the vector parsimony management stage SPAR1, but this is not limiting because it is possible to perform the calculation of the zero data indicator x1(i+i) upstream of the flow management circuit CGF' and even upstream of the first and second storage memories MEM_A and MEM_B.
  • the torque vector parsimony processing carried out by the vector parsimony management stage SPAR1 is carried out in a manner similar to that of the first embodiment. The difference is that the test is performed on zero torque indicators in the second embodiment. Thus, only the vectors comprising at least one pair having two non-zero components are transferred to the buffer memories BUFF_A and BUFF_B.
  • BUFF_A and BUFF_B For the production of FIFO type buffer memories, it is possible to store the data Xj and the weights Wj in the form of a pair belonging to a vector of pairs in a common buffer memory MEM_AB. It is also possible (as illustrated here) to keep two separate buffer memories MEM_A and MEM_B whose addressing of the read and write pointers is managed respectively by the first and the second memory control circuit ADD1 and ADD2.
  • the processing circuits CT_A and CT_B share a register REG2' to receive a torque vector being analyzed and share a priority encoder circuit ENC' and a multiplexer MUX' to distribute successively pairs having no zero component.
  • the same principle of the first embodiment is applied to the data pairs and to the zero torque indicators previously calculated.
  • the new sequence obtained then depends on a combination of the first jump indicator is1 linked to the first sequence of the first data (coming from MEM_A) and the second jump indicator is2 linked to the second sequence of the second data (coming from MEM_B).
  • the multiplexer MUX' is controlled by the distribution control signal c'1.
  • the flow management circuit CGF' comprises a common processing circuit CT_AB because there is a single joint sequence to be processed.
  • a single jump indicator is generated by the torque processing circuit.
  • This joint jump indicator in the sequence of distribution of the couples [data, weight] makes it possible to avoid the distribution of couple including at least a null value. It is possible to implement this variant by using two memory management circuits ADD1 and ADD2 generating the same addresses or alternatively a common memory management circuit.
  • the advantage of this variant is a reduction in the complexity and surface area of the CGF' flow management circuit compared to the embodiment of FIG. 6a.
  • FIG. 6b illustrates a third embodiment of the computer according to the invention making it possible to reduce the size of the buffer memories of the flow management circuit by taking into account the multiplication of the same datum Xj by a plurality of weights ( or synaptic coefficients).
  • the flow management circuit is made according to the following architecture: instead of a buffer memory operating in FIFO and storing the pairs [Xj, w , there is a buffer memory operating in FIFO (denoted here BUFF_B ) dedicated only to weights and a separate data buffer (denoted here BUFF_A).
  • BUFF_B buffer memory operating in FIFO
  • BUFF_A separate data buffer
  • the joint data and weight flow management circuit in the embodiment described does not process the data and the weights in pairs.
  • the data buffer memory BUFF_A is a double-port memory whose write pointer is incremented by 1 every p cycles modulo the size of the buffer memory BUFF_A.
  • the FIFO buffer memory denoted BUFF_B storing the weights also stores the harmful torque indicators previously calculated in a manner similar to the second embodiment.
  • the writing of the data Xj in the buffer memory BUFF_A is thus carried out at a rate p times slower than the writing of the weights Wj.
  • the weights are grouped by vectors (of 4 weights Wj for example), while the data buffer BUFF_A has a word width of one datum (this is here for the data of a vector unit data Xj).
  • a vector in the buffer memory BUFF_B (of FIFO type) only includes the weights of pairs of which at least one of the components is zero, the vector is not loaded into BUFF_B and the jump signal per vector is generated in a manner similar to the other embodiments.
  • the selection of the pairs having two non-zero components is carried out as previously by means of a priority encoder ENC with a criterion of choice based on the indicators of non-zero couples, thus making it possible to generate a new sequence of distribution of the weights Wj to the calculation unit PE.
  • the selection of the data to be presented to the calculation unit PE opposite each weight is made by incrementing the read pointer of the data buffer memory BUFF_A by (1 + N ps )/p modulo the size of the buffer memory BUFF_A with N ps the number of weights skipped in the new sequence, obtained by means of the priority encoder ENC.
  • the encoder ENC selects the weight of the output word from the weight memory BUFF_B to which the number of null vectors skipped multiplied by 4 is added (if the width of the analyzed vector is 4 pairs). This is how we find the data that was present, opposite the weight selected at the output, when loading this weight into the weight buffer memory BUFF_B.
  • the operation of this system is therefore equivalent to the solution according to the second embodiment with joint processing of the first and second data, but with a lower storage capacity for the buffer memory BUFF_A.

Abstract

Circuit de calcul pour calculer une somme pondérée d'un ensemble de premières données par au moins un circuit de gestion de parcimonie comprenant une première mémoire tampon pour stocker tout ou une partie des premières données (MEM_A) délivrées séquentiellement (SEQ1) et une seconde mémoire tampon pour stocker tout ou partie des secondes données (MEM_B) délivrées séquentiellement (SEQ2). Le circuit de gestion de parcimonie (CGF) comprenant en outre un premier circuit de traitement (CT_A) apte : à analyser les premières données pour rechercher les premières données non-nulles (MNULL1- MNULL4) et définir un premier indicateur de saut (isl) entre deux données non nulles successives, et à commander le transfert vers le circuit de distribution (DIST) d'une première donnée (Xi) lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut. Le circuit de gestion de parcimonie (CGF) comprenant en outre un second circuit de traitement (CT_B) apte à commander le transfert vers le circuit de distribution (DIST) d'une seconde donnée (Wi) lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut.

Description

Titre de l’invention : Mise à profit de la faible densité de données ou de poids non-nuls dans un calculateur de somme pondérée
Champ d’application
[0001] L’invention concerne généralement les circuits de calcul de sommes pondérées de données présentant une faible densité de données ou de poids de pondérations non-nuls et plus particulièrement les calculateurs de réseaux neuro- morphiques numériques pour le calcul de réseaux de neurones artificiels à base de couches convolutionnelles ou entièrement connectées.
Problème soulevé
[0002] Les réseaux de neurones artificiels constituent des modèles de calculs imitant le fonctionnement des réseaux de neurones biologiques. Les réseaux de neurones artificiels comprennent des neurones interconnectés entre eux par des synapses, qui sont par exemple implémentées par des mémoires numériques. Les réseaux de neurones artificiels sont utilisés dans différents domaines de traitement du signal (visuel, sonore, ou autre) comme par exemple dans le domaine de la classification d’image ou de la reconnaissance d’image.
[0003] Les réseaux de neurones convolutionnels correspondent à un modèle particulier de réseau de neurones artificiels. Les réseaux de neurones convolutionnels ont été décrits initialement dans l’article de K. Fukushima,
« Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980. ISSN 0340-1200. doi: 10.1007/BF00344251 ».
[0004] Les réseaux de neurones convolutionnels (désignés en langue anglo- saxonne par les expressions “convolutional neural networks”, ou “deep (convolutional) neural networks” ou encore “ConvNets”) sont des réseaux de neurones inspirés par les systèmes visuels biologiques.
[0005] Les réseaux de neurones convolutionnels (CNN) sont utilisés notamment dans des systèmes de classifications d’images pour améliorer la classification.
Appliqués à la reconnaissance d’images, ces réseaux permettent un apprentissage des représentations intermédiaires d’objets dans les images qui sont plus petites et généralisables pour des objets similaires, ce qui facilite leur reconnaissance. Cependant, le fonctionnement intrinsèquement parallèle et la complexité des classificateurs de type réseau de neurones convolutionnel rend difficile leur implémentation dans des systèmes embarqués à ressources limitées. En effet, les systèmes embarqués imposent de fortes contraintes par rapport à la surface du circuit et à la consommation électrique.
[0006] Le réseau de neurones convolutionnel est basé sur une succession de couches de neurones, qui peuvent être des couches convolutionnelles (Convolutional Layer en anglais) ou des couches entièrement connectées (généralement à la fin du réseau). Dans les couches convolutionnelles, seulement un sous-ensemble des neurones d’une couche est connecté à un sous-ensemble des neurones d’une autre couche. Par ailleurs, les réseaux de neurones convolutionnels peuvent traiter plusieurs canaux d’entrée pour générer plusieurs canaux de sortie. Chaque canal d’entrée correspond, par exemple à une matrice de données différente.
[0007] Sur les canaux d’entrée se présentent des images d’entrée sous forme matricielle formant ainsi une matrice d’entrée ; une image matricielle de sortie est obtenue sur les canaux de sortie.
[0008] Les matrices de coefficients synaptiques pour une couche convolutionnelle sont aussi appelées « noyaux de convolution ».
[0009] En particulier, les réseaux de neurones convolutionnels comprennent une ou plusieurs couche(s) de convolution qui sont particulièrement coûteuses en nombre d’opérations. Les opérations effectuées sont principalement des opérations de multiplication et accumulation (MAC) pour calculer une somme des données pondérée par les coefficients synaptiques. Par ailleurs, pour respecter les contraintes de latence et temps de traitement propres aux applications visées, il est nécessaire de minimiser le nombre de cycles de calcul nécessaires lors d’une phase d’inférence ou lors d’une phase de rétro propagation au cours de l’apprentissage du réseau.
[0010] Plus particulièrement, lorsque les réseaux de neurones convolutionnels sont implémentés dans un système embarqué à ressources limitées (par opposition à une implémentation dans des infrastructures de centres de calcul), la réduction de consommation électrique et la réduction du nombre d’opérations de calcul nécessaires devient un critère primordial pour la réalisation du réseau de neurones. [0011] L’opération de base mise en œuvre par un neurone artificiel est une opération de multiplication puis accumulation MAC. Selon le nombre de neurones par couche et de couches de neurones que comporte le réseau, le nombre d’opérations MAC par unité de temps nécessaire pour un fonctionnement temps réel devient contraignant.
[0012] Il existe donc un besoin pour développer des architectures de calcul optimisées pour les réseaux de neurones qui permettent de limiter le nombre d’opérations MAC sans dégrader ni les performances des algorithmes mis en œuvre par le réseau ni la précision des calculs. Plus particulièrement, Il existe un besoin pour développer des architectures de calcul optimisées pour les réseaux de neurones qui réalise les calculs des sommes pondérées en évitant les opérations de multiplication par une donnée nulle reçue par un neurone et/ou par un coefficient synaptique nul.
Art antérieur/ Restrictions de l’état de l’art
[0013] La publication « Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices» de Chen et al. présente un calculateur de réseau de neurones convolutionnel mettant en œuvre un circuit de réseau sur puce (NoC pour Network on Chip) pour traiter la faible densité de données et de poids non-nuls. Cependant, l’inconvénient de cette solution consiste en l’utilisation d’un circuit de type réseau sur puce très volumineux occupant une large surface dans un circuit intégré.
[0014] La publication « An 11 .5TOPS/W 1024-MAC Butterfly Structure Dual-Core Sparsity-Aware Neural Processing Unit in 8nm Flagship Mobile SoC» de Jinook Song et al. présente un calculateur de réseau de neurones convolutionnel mettant en œuvre une sélection des données à lire basée sur la faible densité des poids non-nuls en utilisant un pré-calcul des indices des poids non-nuls. L’inconvénient de cette solution consiste en la limitation à une mise à profit de la faible densité des poids non-nuls uniquement. De plus, La solution proposée par cette publication est limitée à un fonctionnement en inférence étant non adaptée à la réalisation d’une phase d’apprentissage.
Réponse au problème et apport solution [0015] L’invention propose une architecture de calculateur permettant de réduire la consommation électrique et améliorer la performance d’un réseau de neurones implémenté sur une puce en utilisant un circuit de gestion de flux intégré dans la même puce que le réseau de calcul. Le circuit de gestion de flux selon l’invention tire profit de la faible densité des données non-nulles et/ou des poids non-nuls.
[0016] L’invention propose une architecture de calculateur accélérateur de réseau de neurones artificiels comprenant une pluralité d’unités de calcul de type MAC recevant chacune à chaque cycle de calcul une donnée non-nulle et le coefficient synaptique associé à ladite donnée ou inversement. L’amélioration des performances du calcul est réalisée au moyen d’au moins un circuit de gestion de flux permettant de repérer les données nulles lors de leur chargement à partir d’une mémoire de données et de synchroniser la lecture des poids à partir d’une mémoire de poids au moyen d’informations de saut. La solution selon l’invention propose en outre un traitement de la faible densité des données non-nulles conjointement pour les données et les coefficients synaptiques (ou poids). Il est envisageable dans la solution selon l’invention de réaliser ce traitement conjoint sur des vecteurs comprenant chacun une pluralité de couples de type [donnée, poids],
[0017] Dans la description de l’invention, nous allons présenter la solution technique proposée dans le contexte d’un calculateur de réseaux neuro-morphiques. Cependant, la solution proposée est adaptée, d’une façon plus générale, à toute architecture de calcul destinée à réaliser des opérations de multiplications et d’accumulation (MAC) pour calculer des sommes d’un premier type de données A pondérées avec un second type de données B.
[0018] La solution proposée selon l’invention est optimale lorsque le premier type de données A et/ou le second type de données B présentent une faible densité de valeurs non nulles. La solution proposée selon l’invention est symétrique par rapport au type de données A ou B.
[0019] Plus généralement, la solution selon l’invention permet la prise en compte de la « faible densité de données non-nulles » d’au moins une des données d’entrée d’une série d’opérations de type MAC. Cela permet d’optimiser le fonctionnement du calculateur réalisant les opérations MAC via un calcul parcimonieux limitant la consommation d’énergie et le temps de calcul nécessaire. [0020] Dans les parties suivantes le terme anglais « sparcity » a été traduit par parcimonie renvoyant aussi à la notion de « faible densité de données non- nulles ».
Résumé
[0021 ] L’invention a pour objet un circuit de calcul pour calculer une somme pondérée d’un ensemble de premières données par un ensemble de secondes données comprenant :
Au moins une première mémoire de données pour stocker les premières données;
Au moins une seconde mémoire de données pour stocker les secondes données ;
Au moins une unité de calcul configurée pour réaliser le calcul de somme pondérée ;
Au moins un premier circuit séquenceur apte à commander la lecture dans la première mémoire de données selon une première séquence d’adressage prédéfinie ;
Au moins un second circuit séquenceur apte à commander la lecture dans la deuxième mémoire de données selon une seconde séquence d’adressage prédéfinie ;
Au moins un circuit de distribution (DIST) associé à une unité de calcul pour lui délivrer successivement une nouvelle paire de première et seconde données associées ;
Au moins un circuit de gestion de flux comprenant : o Une première mémoire tampon pour stocker tout ou une partie des premières données délivrées séquentiellement par ledit premier circuit séquenceur ; o Une seconde mémoire tampon pour stocker tout ou partie des secondes données délivrées séquentiellement par ledit second circuit séquenceur ; o un premier circuit de traitement comprenant un premier circuit de contrôle des pointeurs de lecture et d’écriture de la première mémoire tampon et étant apte :
■ à analyser les premières données délivrées par ledit premier circuit séquenceur pour rechercher les premières données non-nulles et définir un premier indicateur de saut entre deux données non nulles successives, et ■ à commander le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut; un second circuit de traitement comprenant un second circuit de contrôle des pointeurs de lecture et d’écriture de la seconde mémoire tampon et étant apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut.
[0022] Selon un aspect particulier de l’invention, le circuit de calcul comprend en outre une pluralité de circuits de détection de donnée nulle chacun configuré pour apparier à chaque première donnée d’entrée, un indicateur de donnée nulle ayant un premier état correspondant à une donnée nulle et un second état correspondant à une donnée non-nulle.
[0023] Selon un aspect particulier de l’invention, le premier circuit séquenceur est configuré pour délivrer les premières données par vecteurs de N données successives, N étant un entier naturel non nul. La première mémoire tampon est une mémoire apte à stocker des vecteurs de N données selon un principe « premier entré premier sorti ». Le premier circuit de traitement comprend un étage de gestion de parcimonie par donnée destiné à recevoir les vecteurs provenant de la première mémoire tampon et configuré pour générer un signal de saut par mot entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs. Ledit signal de saut par mot forme une première composante du premier indicateur de saut.
[0024] Selon un aspect particulier de l’invention, le premier circuit de traitement comprend en amont de la première mémoire tampon un étage de gestion de parcimonie par vecteur configuré pour générer un signal de saut par vecteur à destination des deux circuits de contrôle des pointeurs lorsqu’un vecteur est nul. Ledit signal de saut par vecteur forme une seconde composante du premier indicateur de saut.
[0025] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par vecteur comprend un premier circuit logique de détection de vecteur nul configuré pour générer, à partir des indicateurs de donnée nulle , le signal de saut par vecteur lorsqu’un vecteur ne comprend que des données nulles .
[0026] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par donnée comprend :
Un registre pour recevoir un vecteur non-nul à la sortie de la première mémoire tampon;
Un étage encodeur prioritaire configuré pour réaliser les opérations suivantes d’une façon itérative: o la génération d’un signal de commande de distribution correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur.
Le premier circuit de contrôle des pointeurs est configuré pour réaliser dans la même boucle d’itération : o la génération du signal de saut par mot à partir du signal de commande de distribution; o et la mise au premier état de l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur stocké dans le registre suite à sa distribution. L’étage de gestion de parcimonie par donnée comprend un second circuit logique de détection de vecteur nul pour générer un signal de déclenchement de lecture du vecteur suivant lorsque tous les indicateurs de donnée nulle des données appartenant audit vecteur sont au premier état.
[0027] Selon un aspect particulier de l’invention, le second circuit de traitement est apte :
- à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut entre deux données non nulles successives, et
- à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut .
[0028] Le second circuit de traitement est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut . [0029] Selon un aspect particulier de l’invention, le circuit de gestion de flux est configuré pour lire les données des deux mémoires par vecteurs de N couples successifs selon la première et la seconde séquence d’adressage prédéfinie desdites données, N étant un entier naturel non nul. Le premier et second indicateur de saut sont obtenus par une analyse desdits vecteurs tel que les deux données formant un couple distribué soient non-nulles.
[0030] Selon un aspect particulier de l’invention, le circuit de calcul comprenant en outre une pluralité de circuits de détection de couple nul étant chacun configuré pour apparier à chaque couple de première et seconde données d’entrées, un indicateur de couple nulle ayant un premier état correspondant à un couple comprenant au moins une donnée nulle et un second état correspondant à un couple ne comprenant que des données non-nulles .
[0031] Selon un aspect particulier de l’invention, l’ensemble formé par la première et la seconde mémoire tampon est une mémoire apte à stocker des vecteurs de N couples selon un principe « premier entré premier sorti ». L’ensemble formé par le premier et le second circuit de traitement comprend un étage de gestion de parcimonie par donnée destiné à recevoir les vecteurs provenant de l’ensemble de la première et la seconde mémoire tampon et configuré pour générer un signal de saut par mot entre deux couples successifs ayant deux données non nulles à destination des deux circuits de contrôle des pointeurs. Ledit signal de saut par mot forme une première composante du premier indicateur de saut et du second indicateur de saut.
[0032] Selon un aspect particulier de l’invention, le circuit de calcul comprend un étage de gestion de parcimonie par vecteur en amont de la première et la seconde mémoire tampon. L’étage de gestion de parcimonie par vecteur comprend un premier circuit logique de détection de vecteur nul configuré pour générer un signal de saut par vecteur lorsqu’un vecteur ne comprend que des indicateurs de donnée nulle au premier état. Ledit signal de saut par vecteur forme une seconde composante du premier indicateur de saut et du second indicateur de saut.
[0033] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par couple comprend : Un registre pour recevoir un vecteur non-nul à la sortie de la mémoire tampon;
Un étage encodeur prioritaire configuré pour réaliser les opérations suivantes d’une façon itérative: o La génération d’un signal de commande de distribution correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur ;
Au moins le premier ou le second circuit de contrôle des pointeurs étant configuré pour réaliser dans la même boucle d’itération : o la mise au premier état de l’indicateur de donnée nulle du couple de données d’entrée distribué dans le vecteur stocké dans le registre, suite à sa distribution ;
Un organe de distribution commandé par le signal de commande de distribution;
Un second circuit logique de détection de vecteur nul pour générer un signal de déclenchement de lecture du vecteur suivant lorsque tous les indicateurs de donnée nulle des couples appartenant audit vecteur sont au premier état.
[0034] Selon un aspect particulier de l’invention, le circuit de calcul est destiné à calculer des données de sortie d’une couche d’un réseau de neurones artificiels à partir de données d’entrée. Le réseau de neurones est composé d’une succession de couches étant chacune constituée d’un ensemble de neurones. Chaque couche est connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques formant au moins une matrice de poids.
[0035] Le premier ensemble de données correspond aux données d’entrée à un neurone de la couche en cours de calcul. Le second ensemble de données correspond aux coefficients synaptiques connectés audit neurone de la couche en cours de calcul. Le circuit de calcul comprend : au moins un groupe d’unité de calcul, chaque groupe d’unité de calcul comprenant une pluralité d’unités de calcul de rang k=1 à K avec K un entier strictement positif, une pluralité de secondes mémoires de données de rang k=1 à K pour stocker le second ensemble de données; [0036] Chaque groupe d’unité de calcul est connecté à un circuit de gestion de flux dédié comprenant en outre : une pluralité de secondes mémoires tampons de rang k=1 à K tel que chaque seconde mémoire tampon distribue à l’unité de calcul de même rang k les données d’entrée provenant de la seconde mémoire de données de même rang k en fonction d’au moins le premier indicateur de saut.
[0037] Selon un aspect particulier de l’invention, le circuit de calcul est destiné à calculer des données de sortie d’une couche d’un réseau de neurones artificiels à partir de données d’entrée. Le réseau de neurones est composé d’une succession de couches étant chacune constituée d’un ensemble de neurones. Chaque couche est connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques formant au moins une matrice de poids.
[0038] Le premier ensemble de données correspond aux coefficients synaptiques connectés audit neurone de la couche en cours de calcul. Le second ensemble de données correspond aux données d’entrée d’un neurone de la couche en cours de calcul. Le circuit de calcul comprend: au moins un groupe d’unité de calcul, chaque groupe d’unité de calcul comprenant une pluralité d’unités de calcul de rang k=1 à K avec K un entier strictement positif, une pluralité de premières mémoires de données de rang k=1 à K pour stocker le premier ensemble de données;
Une pluralité de circuit de gestion de flux de rang k=1 à K, chacun étant configuré tel que pour chaque unité de calcul de rang k appartenant à un groupe d’unité de calcul. le circuit de gestion de flux de rang k est configuré pour distribuer les coefficients synaptiques non-nuls provenant de la première mémoire de données de même rang k vers l’unité de calcul de même rang k.
[0039] D’autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit en relation aux dessins annexés suivants.
[0040] [Fig.1] représente un exemple de réseau de neurones convolutionnel contenant des couches convolutionnelles et des couches entièrement connectées. [0041 ] [Fig.2a] représente une première illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec un canal d’entrée et un canal de sortie.
[0042] [Fig.2b] représente une deuxième illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec un canal d’entrée et un canal de sortie.
[0043] [Fig.2c] représente une illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec plusieurs canaux d’entrée et plusieurs canaux de sortie.
[0044] [Fig.3] illustre un exemple d’un schéma fonctionnel de l’architecture générale d’un circuit de calcul d’un réseau de neurones convolutionnel.
[0045] [Fig.4] illustre un schéma fonctionnel d’un exemple de réseau de calcul implémenté sur un système sur puce selon l’invention.
[0046] [Fig.5a] illustre un schéma fonctionnel d’un circuit de gestion de flux CGF mettant à profit la faible densité en valeurs non-nulles selon l’invention.
[0047] [Fig.5b] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un premier mode de réalisation dans lequel l’analyse de parcimonie est réalisée uniquement sur un ensemble des données.
[0048] [Fig.5c] illustre un exemple d’implémentation du premier mode de réalisation de l’invention.
[0049] [Fig.6a] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un second mode de réalisation dans lequel l’analyse de parcimonie est réalisée conjointement sur les deux ensembles des données.
[0050] [Fig.6b] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un troisième mode de réalisation dans lequel l’analyse de parcimonie est réalisée conjointement sur les deux ensembles des données.
[0051 ] On rappelle que la solution décrite par l’invention s’applique à tout circuit de calcul réalisant des opérations de multiplication et d’accumulation pour calculer une somme d’un premier ensemble de données A pondérée par un second ensemble de données B. A titre d’illustration et sans perte de généralité, on décrira la solution technique selon l’invention implémentée dans un circuit configuré pour une application de calcul de réseau de neurones artificiels convolutionnel.
[0052] Tout d’abord, on commence par décrire un exemple de structure globale d’un réseau de neurones convolutionnel contenant des couches convolutionnelles et des couches entièrement connectées.
[0053] La figure 1 représente l’architecture globale d’un exemple de réseau convolutionnel pour la classification d'images. Les images en bas de la figure 1 représentent un extrait des noyaux de convolution de la première couche. Un réseau de neurones artificiel (encore appelé réseau de neurones « formel » ou désigné simplement par l'expression « réseau de neurones » ci-après) est constitué d'une ou plusieurs couches de neurones, interconnectées entre elles.
[0054] Chaque couche est constituée d'un ensemble de neurones, qui sont connectés à une ou plusieurs couches précédentes. Chaque neurone d'une couche peut être connecté à un ou plusieurs neurones d'une ou plusieurs couches précédentes. La dernière couche du réseau est appelée « couche de sortie ». Les neurones sont connectés entre eux par des synapses associées à des poids synaptiques, qui pondèrent l'efficacité de la connexion entre les neurones, et constituent les paramètres réglables d'un réseau. Les poids synaptiques peuvent être positifs ou négatifs.
[0055] Les réseaux de neurones dit « convolutionnels » (ou encore « convolutional », « deep convolutional », « convnets ») sont en outre composés de couches de types particuliers telles que les couches de convolution, les couches de regroupement (« pooling » en langue anglo-saxonne) et les couches complètement connectées (« fully connected »). Par définition, un réseau de neurones convolutionnel comprend au moins une couche de convolution ou de « pooling ».
[0056] L’architecture du circuit calculateur accélérateur selon l’invention est compatible pour exécuter les calculs des couches convolutionnelles. Nous allons commencer dans un premier temps par détailler les calculs effectués pour une couche convolutionnelle.
[0057] Les figures 2a-2c illustrent le fonctionnement général d’une couche de convolution. [0058] La figure 2a représente une matrice d’entrée [I] de taille (lx,ly) connectée à une matrice de sortie [O] de taille (Ox,Oy) via une couche de convolution réalisant une opération de convolution à l’aide d’un filtre [W] de taille (Kx,Ky).
[0059] Une valeur Oj j de la matrice de sortie [O] (correspondant à la valeur de sortie d’un neurone de sortie) est obtenue en appliquant le filtre [W] sur la sous-matrice correspondant de la matrice d’entrée [I],
[0060] D’une façon générale, on définit l’opération de convolution de symbole 0 entre deux matrices [X] composée par les éléments Xj et [Y] composée par les éléments yjj de dimensions égales. Le résultat est la somme des produits des coefficients Xjj.yjj ayant chacun la même position dans les deux matrices.
[0061] Sur la figure 2a, on a représenté la première valeur O0,o de la matrice de sortie [O] obtenue en appliquant le filtre [W] à la première sous-matrice d’entrée notée [X1] de dimensions égales à celle du filtre [W], Le détail de l’opération de convolution est décrit par l’équation suivante :
[0062]
Oo,o = [X1] 0 [W]
D’où
[0063]
Oo,0 = Xoo.Woo + X01.W01 + X02.W02 + X10.W10 + X11.W11 + X12.W12 + X20 W20 + X21.W21 + X22 W22
[0064] La figure 2b représente un cas général de calcul d’une valeur 03,2 quelconque de la matrice de sortie.
[0065] De façon générale, la matrice de sortie [O] est connectée à la matrice d’entrée [I] par une opération de convolution, via un noyau de convolution ou filtre noté [W] . Chaque neurone de la matrice de sortie [O] est connecté à une partie de la matrice d’entrée [I] ; cette partie est appelée « sous-matrice d’entrée » ou encore « champ récepteur du neurone » et elle a les mêmes dimensions que le filtre [W], Le filtre [W] est commun pour l’ensemble des neurones d’une matrice de sortie [O] .
[0066] Les valeurs des neurones de sortie Oj sont données par la relation suivante :
Figure imgf000016_0001
[0068] Dans la formule ci-dessus, g() désigne la fonction d’activation du neurone, tandis que Sj et Sj désignent les paramètres de décalage (« stride » en anglais) vertical et horizontal respectivement. Un tel décalage « stride » correspond au décalage entre chaque application du noyau de convolution sur la matrice d’entrée. Par exemple, si le décalage est supérieur ou égal à la taille du noyau, alors il n’y a pas de chevauchement entre chaque application du noyau. Nous rappelons que cette formule est valable dans le cas où la matrice d’entrée a été traitée pour rajouter des lignes et des colonnes supplémentaires (Padding en Anglais). La matrice filtre [W] est composée par les coefficients synaptiques w t,i de rangs t=0 à Kx-1 et l=0 à Ky-1 .
[0069] A titre d’exemple, on définit la fonction ReLu comme fonction d’activation du réseau tel que g(x)=0 si x<0 et g(x)=x si x>0. L’utilisation de la fonction ReLu comme fonction d’activation génère un nombre assez significatif de données nulles dans les couches intermédiaires du réseau. Cela justifie l’intérêt pour la mise à profit de cette caractéristique pour réduire le nombre de cycles de calcul en évitant de réaliser des multiplications avec des données nulles lors du calcul d’une somme pondérée d’un neurone afin d’économiser du temps de traitement et de l’énergie. L’utilisation de ce type de fonction d’activation rend le circuit calculateur compatible avec la solution technique selon l’invention appliquée aux données propagées ou rétro-propagées dans le réseau de neurones.
[0070] Par ailleurs, il est possible de réaliser des opérations de « élagage » (ou « pruning » en Anglais) lors de la phase d’apprentissage du réseau. Il s’agit d’un mécanisme de mise à zéro des coefficients synaptiques ayant des valeurs inférieures à un certain seuil. L’utilisation de ce mécanisme rend le circuit calculateur compatible avec la solution technique selon l’invention appliquée aux poids synaptiques.
[0071] Généralement, chaque couche de neurones convolutionnelle notée Ck peut recevoir une pluralité de matrices d’entrée sur plusieurs canaux d’entrée de rang p=0 à P avec P un entier positif et/ou calculer plusieurs matrices de sortie sur une pluralité de canaux de sortie de rang q=0 à Q avec Q un entier positif. On note [W]Piq,k le filtre correspondant au noyau de convolution qui connecte la matrice de sortie [O]q à une matrice d’entrée [l]p dans la couche de neurone Ck. Différents filtres peuvent être associés à différentes matrices d’entrée, pour la même matrice de sortie.
[0072] Les figures 2a-2b illustrent un cas où une seule matrice de sortie (et donc un seul canal de sortie) [O] est connectée à une seule matrice d’entrée [I] (et donc un seul canal d’entrée).
[0073] La figure 2c illustre un autre cas où plusieurs matrices de sortie [O]q sont connectées chacune à plusieurs matrices d’entrée [l]p. Dans ce cas, chaque matrice de sortie [O]q de la couche Ck est connectée à chaque matrice d’entrée [l]p via un noyau de convolution [W]p q ,k qui peut être différent selon la matrice de sortie.
[0074] Par ailleurs, lorsqu’une matrice de sortie est connectée à plusieurs matrices d’entrée, la couche de convolution réalise, en plus de chaque opération de convolution décrite ci-dessus, une somme des valeurs de sortie des neurones obtenues pour chaque matrice d’entrée. Autrement dit, la valeur de sortie d’un neurone de sortie (ou aussi appelé canaux de sortie) est dans ce cas égale à la somme des valeurs de sorties obtenues pour chaque opération de convolution appliquée à chaque matrice d’entrée (ou aussi appelé canaux d’entrée)
[0075] Les valeurs des neurones de sortie Oj de la matrice de sortie [O]q sont dans ce cas données par la relation suivante :
Figure imgf000017_0001
[0077] Avec p=0 à P le rang d’une matrice d’entrée [l]p connectée à la matrice de sortie [O]q de la couche Ck de rang q=0 à Q via le filtre [W]p q ,k composé des coefficients synaptiques wp,q,t,i de rangs t=0 à Kx-1 et l=0 à Ky-1 .
[0078] La figure 3 illustre un exemple d’un diagramme fonctionnel de l’architecture générale du circuit de calcul d’un réseau de neurone convolutionnel selon l’invention.
[0079] Le circuit de calcul d’un réseau de neurone convolutionnel CALC, comprend une mémoire volatile externe MEM_EXT pour stocker les données d’entrée et de sortie de tous les neurones d’au moins la couche du réseau en cours de calcul pendant une phase d’inférence ou d’apprentissage et un système intégré sur une même puce SoC. [0080] Le système intégré SoC comprend un réseau de calcul MAC_RES constitué d’une pluralité d’unités de calcul pour calculer des neurones d’une couche du réseau de neurones, une mémoire volatile interne MEMJNT pour stocker les données d’entrée et de sortie des neurones de la couche en cours de calcul, un étage mémoire de poids MEM_POIDS comprenant une pluralité de mémoires non volatiles internes de rang n=0 à N-1 notées MEM_POIDSn pour stocker les coefficients synaptiques des matrices de poids, un circuit de contrôle des mémoires CONT_MEM connecté à l’ensemble des mémoires MEMJNT, MEM_EXT et MEM_POIDS pour jouer le rôle d’interface entre la mémoire externe MEM_EXT et le système sur puce SoC, un ensemble de générateurs d’adresses ADDJ3EN pour organiser la distribution de données et des coefficients synaptiques lors d’une phase de calcul et pour organiser le transfert des résultats calculés à partir des différentes unités de calcul du réseau de calcul MAC_RES vers l’une des mémoires MEM_EXT ou MEMJNT.
[0081] Le système sur puce SoC comprend notamment une interface image notée I/O pour recevoir les images d’entrée pour l’ensemble du réseau lors d’une phase d’inférence ou apprentissage. Il convient de noter que les données d’entrées reçues via l’interface I/O ne sont pas limitées à des images mais peuvent être, plus généralement, de nature diverse.
[0082] Le système sur puce SoC comprend également un processeur PROC pour configurer le réseau de calcul MAC_RES et les générateurs d’adresses ADDJ3EN selon le type de la couche neuronale calculée et la phase de calcul réalisée. Le processeur PROC est connecté à une mémoire non-volatile interne MEM_PROG qui contient la programmation informatique exécutable par le processeur PROC.
[0083] Optionnellement, le système sur puce SoC comprend un accélérateur de calcul de type SIMD (Single Instruction on Multiple Data) connecté au processeur PROC pour améliorer la performance du processeur PROC.
[0084] Les mémoires de données externe MEM_EXT et interne MEMJNT peuvent être réalisées avec des mémoires de type DRAM.
[0085] La mémoire de données interne MEMJNT peut aussi être réalisée avec des mémoires de type SRAM. [0086] Le processeur PROC, l’accélérateur SIMD, la mémoire de programmation MEM_PROG, l’ensemble des générateurs d’adresse ADD_GEN et le circuit de contrôle des mémoires CONT_MEM font partie des moyens de contrôle du circuit de calcul d’un réseau de neurones convolutionnel CALC.
[0087] Les mémoires des données de poids MEM_POIDSn peuvent être réalisées avec des mémoires basées sur une technologie NVM émergente .
[0088] La figure 4 illustre un exemple d’un schéma fonctionnel du réseau de calcul MAC_RES implémenté dans le système sur puce SoC selon un premier mode de réalisation de l’invention. Le réseau de calcul MAC_RES comprend une pluralité de groupes d’unités de calcul notés Gj de rang j=1 à M avec M un entier positif, chaque groupe comprend une pluralité d’unités de calcul noté PEn de rang n=0 à N-1 avec N un entier positif représentant le nombre de canaux de sortie.
[0089] Sans perte de généralité, l’exemple d’implémentation illustré sur la figure 4 comprend 9 groupes d’unités de calcul ; chaque groupe comprend 128 unités de calcul noté PEn. Ce choix de conception permet de couvrir un large panel de types de convolution tel que 3x3 stridel , 3x3 stride2, 5x5 stridel , 7x7 stride2, 1x1 stridel et 11x11 stride4 basé sur le parallélisme spatial assuré par les groupes d’unités de calcul et tout en calculant parallèlement 128 canaux de sortie.
[0090] Pendant le calcul d’une couche de neurones, chacun des groupes d’unités de calcul Gj reçoit les données d’entrée Xÿ provenant d’une mémoire intégrée dans le réseau de calcul MAC_RES notée MEM_A comprenant une des données d’entrée Xÿ d’une couche en cours de calcul. La mémoire MEM_A, reçoit un sous- ensemble des données d’entrée de la mémoire externe MEM_EXT ou de la mémoire interne MEMJNT. Des données d’entrée provenant de un ou plusieurs canaux d’entrée sont utilisées pour le calcul d’une ou plusieurs matrices de sortie sur un ou plusieurs canaux de sortie.
[0091] La mémoire MEM_A comprend un port d’écriture connecté aux mémoires MEM_EXT ou MEMJNT et 9 ports de lecture connectés chacun à un circuit de gestion de flux CGF lui-même connecté à un groupe d’unité de calcul Gj Pour chaque groupe Gj d’unités de calcul PEn, le circuit de gestion de flux CGF est configuré pour distribuer à chaque cycle de calcul des données d’entrée xy non- nulles provenant de la première mémoire de données MEM_A vers les unités de calcul PEn appartenant au groupe Gj.
[0092] Comme décrit précédemment, le système sur puce SoC comprend une pluralité de mémoires de poids MEM_POIDSn de rang n=0 à N-1 . Le circuit calculateur comprend en outre une pluralité de mémoires tampons de poids notées BUFF_Bnj de rang n=0 à N-1 et de rang j=1 à M. La mémoire tampon de rang n et j reçoit les poids provenant de la mémoire de poids MEM_POIDSn de rang n pour les distribuer vers l’unité de calcul PEn de même rang n appartenant au groupe Gj de rang j. A titre d’exemple, la mémoire de poids de rang 0 MEM_POIDSo est connectée à 9 mémoires tampon de poids BUFF_BOj. La mémoire de tampon de poids BUFF_Boi est connectée à l’unité de calcul PEo du premier groupe d’unités de calcul Gi, La mémoire tampon de poids BUFF_B02 est connectée à l’unité de calcul PEo du deuxième groupe d’unités de calcul G2, et ainsi de suite. L’ensemble des mémoires tampons de poids BUFF_BOj de rang j appartiennent au circuit de gestion de flux CGFj associé au groupe de même rang j.
[0093] Chaque circuit de flux CGFj associé à un groupe d’unités de calcul Gj génère en outre une information de saut sous forme d’un ou plusieurs signaux pour commander la lecture des coefficients synaptiques en fonction de l’information de saut générée par chaque circuit de flux CGFj.
[0094] Cela permet de synchroniser, en entrée de chaque unité de calcul PEn de rang n, la distribution des poids synaptiques Wÿ provenant d’une mémoire de poids MEM_POIDSn de rang n avec la distribution des données d’entrée Xÿ non-nulles provenant de la première mémoire de données MEM_A via le circuit de flux CGFj. Ainsi le calculateur réalise le calcul de ladite somme pondérée dans le bon ordre.
[0095] Chaque mémoire de poids de rang n MEM_POIDSn contient toutes les matrices de poids [W]p nk associés aux synapses connectées à tous les neurones des matrices de sortie d’une couche de neurones de rang k du réseau.
Ladite matrice de sortie correspondant au canal de sortie du même rang n avec n un entier variant de 0 à 127 dans l’exemple d’implémentation de la figure 4.
[0096] Avantageusement, le réseau de calcul MAC_RES comprend notamment un circuit de calcul de moyenne ou de maximum, noté POOL, permettant de réaliser les calculs de couche de « Max Pool » ou de « Average Pool ». Un traitement de « Max pooling » d’une matrice d’entrée [I] génère une matrice de sortie [O] de taille inférieure à celle de la matrice d’entrée en prenant le maximum des valeurs d’une sous-matrice [X1] par exemple de la matrice d’entrée [I] dans le neurone de sortie Ooo- Un traitement de « average pooling » calcule la valeur moyenne de l’ensemble des neurones d’une sous-matrice de la matrice d’entrée.
[0097] Avantageusement, le réseau de calcul MAC_RES comprend notamment un circuit de calcul d’une fonction d’activation noté ACT, généralement utilisée dans les réseaux de neurones convolutionnels. La fonction d’activation g(x) est une fonction non-linéaire, comme une fonction ReLu par exemple.
[0098] Pour simplifier la description du premier mode de réalisation de l’invention, on se limitera dans ce qui suit à la description de la solution avec une seule unité de calcul PE correspondant à un seul groupe d’unités de calcul et un seul canal de sortie.
[0099] Les données d’entrée x^ reçues par une couche en cours de calcul constituent le premier opérande de l’opération MAC réalisée par l’unité de calcul PE. Les poids synaptiques Wÿ connectés à une couche en cours de calcul constituent la seconde opérande de l’opération MAC réalisée par l’unité de calcul PE.
La figure 5a illustre l’implémentation du circuit de gestion de flux CGF mettant à profit la faible densité en valeurs non-nulles pour les données Xÿ pour limiter le nombre de cycles de calcul d’une somme pondérée.
[0100] Le circuit de calcul CALC comprend une première mémoire de données MEM_A pour stocker le premier ensemble de données correspondant aux données d’entrée Xÿ ; une seconde mémoire de données MEM_B (correspondant à MEM_POIDSo) pour stocker le second ensemble de données correspondant aux poids synaptiques Wÿ ; et une unité de calcul PE0 pour réaliser le calcul d’une somme des données d’entrée Xÿ pondérée par les poids synaptiques Wÿ .
[0101] Le circuit de calcul CALC comprend en outre un circuit de gestion de flux CGF configuré pour distribuer à chaque cycle une donnée d’entrée xij non-nulle provenant de la première mémoire de données MEM_A vers l’unité de calcul PE afin de ne pas réaliser les opérations de multiplication par des données d’entrée nulles. De plus, le circuit de gestion de flux CGF est configuré pour générer au moins un indicateur de saut selon le nombre de données nulles sautées entre deux données non nulles distribuées successivement. Le ou les indicateurs de saut permettent de générer alors une nouvelle séquence de distribution comprenant uniquement des données non-nulles. Plus généralement, les indicateurs de saut sont utilisés pour synchroniser la distribution des poids synaptiques à partir de la seconde mémoire MEM_B pour réaliser la multiplication d’une donnée d’entrée Xÿ avec le poids synaptique Wjj correspondant.
[0102] A titre d’exemple, les données d’entrée d’une matrice d’entrée [I] dans la mémoire externe MEM_A sont rangées tel que tous les canaux pour un même pixel de l’image d’entrée sont disposés séquentiellement. Par exemple, si la matrice d’entrée est une image matricielle de taille NxN composée de 3 canaux d’entrée de couleurs RGB (Red, Green, Blue en anglais) les données d’entrée Xj sont rangées de la manière suivante :
[0103]
X00R X00G XoOB , Xoi R Xoi G Xoi B , X02R Xo2G Xo2B , ■ ■ ■ , Xo(N-1)R XQ(N-1)G XO(N-1)B
X-10R X-i OG X-i OB , X-I 1 R X-11 G X-| 1 B , X-| 2R X-|2G X-|2B , ■ ■ ■ , X-| (N-1)R Xi(N-1)G X-| (N-1)B
X20R X20G X20B , X21 R X21 G X21 B , X22R X22G X22B , ■ ■ ■ , X2(N-1)R X2(N-1)G X2(N-1)B
[0104]
X(N-1)0R X(N-1)OG X(N-1)0B , X(N-1)1 R X(N-1)1G X(N-1)1 B , ■ ■ ■ , X(N-1) (N-1)R X(N-1) (N-1)G X(N-1) (N-1)B
[0105] La seconde mémoire de données MEM_B (correspondant à MEM_POIDSo) est connectée à une mémoire tampon de poids BUFF_B pour stocker un sous- ensemble des poids Wÿ provenant de la mémoire MEM_B.
[0106] Le circuit calculateur comprend un premier circuit séquenceur SEQ1 apte à commander la lecture dans la première mémoire de données MEM_A selon une première séquence d’adressage prédéfinie. La première séquence d’adressage constitue une séquence brute avant le traitement de parcimonie objet de l’invention.
[0107] De même, le circuit calculateur comprend en outre un second circuit séquenceur SEQ2 apte à commander la lecture dans la deuxième mémoire de données MEM_B selon une seconde séquence d’adressage prédéfinie.
[0108] Le circuit calculateur comprend en outre un circuit de distribution DIST associé à chaque unité de calcul PE pour lui délivrer successivement une nouvelle paire de première et seconde données associées à la sortie du circuit de gestion de flux CGF.
[0109] Le circuit de gestion de flux CGF reçoit les données Xÿ sous forme de vecteurs V=(a1 , a2, a3, ... aL) composés de L données avec L un entier strictement positif. A titre d’exemple, on prend L=4, ainsi le circuit de gestion de flux CGF reçoit et traite dans un premier temps un premier vecteur Vi=( XOOR XOOG XOOB , XOI R ), puis un deuxième vecteur V2=( XOI G XOI B , X02R XO2G) et ainsi de suite jusqu’au dernier vecteur Vk=( X(N-i) <N-2)B, X(N-I) <N-I)R, X(N-I) <N-I)G, X(N-I) <N-I)B )■
[0110] Pour simplifier l’illustration des modes de réalisation de l’invention nous allons considérer la séquence suivante : Vi=( x-, x2, x3 , x4 ), V2=( x5 x6, x7 , x8 ), v3=( X9. X10, X11 , X12 ) ... Vk =( x 4(k-i)+i : x4(k-i)+2, x4(k-i)+3 , x4(k-i)+4 ) avec k un entier naturel non nul.
[0111 ] Le circuit de gestion de flux CGF comporte une première mémoire tampon BUFF_A pour stocker tout ou une partie des premières données délivrées séquentiellement par le premier circuit séquenceur SEQ1 et une seconde mémoire tampon BUFF_B pour stocker tout ou partie des secondes données délivrées séquentiellement par le second circuit séquenceur SEQ2.
[0112] Le circuit de gestion de flux CGF comprend en outre un premier circuit de traitement CT_A pour traiter un vecteur V1 stocké dans la mémoire tampon BUFF_A et un second circuit de traitement CT_B pour traiter les coefficients synaptiques stockés dans la mémoire tampon BUFF_B.
[0113] La mémoire tampon BUFF_A fonctionne selon un principe « premier entré premier sorti » ou FIFO acronyme de l’expression anglaise « First In First Out ».
[0114] Le premier circuit de traitement CT_A comprend un premier circuit de contrôle des pointeurs ADD1 de lecture et d’écriture de la première mémoire tampon BUFF_A. Le premier circuit de traitement CT_A réalise les opérations suivantes pour obtenir une nouvelle séquence ne comprenant pas de données d’entrée Xj nulles. Premièrement le premier circuit de traitement CT_A réalise une analyse des premières données Xj délivrées par ledit premier circuit séquenceur SEQ1 sous forme de vecteurs pour rechercher les premières données nulles et définir un premier indicateur de saut is1 entre deux données non nulles successives. Deuxièmement, le premier circuit de traitement CT_A est configuré pour commander le transfert vers le circuit de distribution DIST d’une première donnée lue dans la première mémoire tampon BUFF_A de données en fonction dudit premier indicateur de saut is1 .
[0115] Le second circuit de traitement CT_B comprend symétriquement un second circuit de contrôle des pointeurs ADD2 de lecture et d’écriture de la seconde mémoire tampon. Le circuit de traitement CT_B est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon BUFF_B de données en fonction dudit premier indicateur de saut is1 .
[0116] Avantageusement, il est envisageable pour un mode de réalisation particulier que le second circuit de traitement CT_B réalise des opérations d’analyse des secondes données (dans ce cas il s’agit des poids Wj) délivrées par le second circuit séquenceur SEQ2 pour rechercher les secondes données nulles et définir un second indicateur de saut is2 entre deux données non nulles successives. De plus le second circuit de traitement CT_B commande le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon BUFF_B de données en fonction desdits premier et second indicateurs de saut is1 et is2. Dans ce cas, l’ensemble du premier et du second circuit de traitement CT_B et CT_A est apte à commander le transfert vers le circuit de distribution DIST d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut.
[0117] La figure 5b illustre un premier mode de réalisation de l’invention dans lequel l’analyse de parcimonie est réalisée uniquement sur la première séquence d’adressage des premières données d’entrée Xj pour générer un premier indicateur de saut is1 .
[0118] Le transfert vers le circuit de distribution d’une première donnée Xj lue dans la première mémoire tampon MEM_A de données est réalisé en fonction du premier indicateur de saut is1. Le transfert vers le circuit de distribution DIST d’une seconde donnée Wj lue dans la deuxième mémoire tampon BUFF_B de données est réalisée en fonction du premier indicateur de saut is1 . On parle ici d’une disposition maitre- esclave car la nouvelle séquence de distribution de l’ensemble des secondes données est dépendante du premier indicateur de saut is1 résultant de l’analyse de la séquence d’adressage des premières données d’entrée Xj. Le premier circuit de traitement CT_A comprend un étage de gestion de la parcimonie par données SPAR2 configuré pour générer un signal de saut par mot mot_0 entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs ADD1 et ADD2. Le signal de saut par mot mot_0 constitue une première composante du premier indicateur de saut is1 .
[0119] Avantageusement, le circuit de gestion de flux CGF comprend en amont de la première mémoire tampon BUFF_A un étage de gestion de parcimonie par vecteur SPAR1 configuré pour générer un signal de saut par vecteur vect_0 à destination des deux circuits de contrôle des pointeurs ADD1 et ADD2 lorsqu’un vecteur V1 est nul. Le signal de saut par vecteur vect_0 constitue une seconde composante du premier indicateur de saut is1.
[0120] L’étage de gestion de parcimonie par vecteur SPAR1 est configuré pour traiter les vecteurs de données V fournis l’un à la suite de l’autre par la mémoire de données MEM_A en détectant si un vecteur V=(x1, x2 , x3, x4) est un vecteur nul dans le sens où xi= x2 = x3= x4 = 0. Lorsqu’un vecteur nul est détecté par le premier étage de gestion de parcimonie par vecteur SPAR1 , ce dernier génère un signal de saut par vecteur vect_0 vers le générateur d’adresse ADD1 pour ne pas écrire le vecteur nul détecté dans la mémoire tampon BUFF_A et passer au traitement du vecteur suivant. On obtient ainsi dans la mémoire BUFF_A un empilement de vecteurs V de quatre données Xj comprenant au moins une donnée non nulle.
[0121] Pour réaliser la détection d’un vecteur nul il est possible de calculer pour chaque donnée xi, x2 , x3, x4 du vecteur en cours de traitement un indicateur de donnée nulle à l’intérieur de l’étage de gestion de parcimonie par vecteur SPAR1 ou préalablement dans la chaine de flux de données. Pour chaque donnée xi, x2 , x3, x4 du vecteur V, l’indicateur de donnée nulle peut prendre la forme d’un bit additionnel concaténé au mot de bits constituant la donnée elle-même.
[0122] Sans perte de généralité, dans les illustrations présentées le calcul de l’indicateur de donnée nulle est une opération interne au circuit de gestion de parcimonie par vecteur SPAR1 . Mais il est possible de calculer et d’apparier à chaque donnée d’entrée Xj, les indicateurs de donnée nulle à l’extérieur du circuit de contrôle de flux CGF. A titre d’exemple, si la donnée x-, est codée sur I bits, on désigne par x1 (i+i) le bit de donnée nulle de la donnée xi .
[0123] L’indicateur de donnée nulle x1(i+i) a un premier état N0 correspondant à une donnée nulle et un second état N1 correspondant à une donnée non-nulle.
[0124] Le second étage de gestion de parcimonie par données SPAR2 est configuré pour traiter successivement les vecteurs stockés dans la mémoire tampon BUFF_A en distribuant successivement et à chaque cycle de calcul une donnée non-nulle du vecteur en cours de traitement.
[0125] Le second étage de gestion de parcimonie par données SPAR2 assure une deuxième fonction consistant en la génération d’un signal de saut par mot mot_0 entre deux données non nulles successives. La combinaison du signal de saut par vecteur vect_0 et du signal de saut par mot mot_0 forme le premier indicateur de saut is1 . Le premier indicateur de saut is1 permet au système d’extraire une nouvelle séquence d’adressage sans données nulles au générateur d’adresse ADD1 . Le générateur d’adresse ADD1 commande ainsi le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon BUFF_A de données en fonction du premier indicateur de saut is1 vers l’unité de calcul PE.
[0126] De plus, la propagation de l’indicateur de saut is1 vers le générateur d’adresse ADD2 associé au circuit de traitement CT_B permet de synchroniser la distribution des poids Wÿ vers l’unité de calcul PE à partir de la mémoire tampon BUFFJ3.
[0127] L’étage de gestion de la parcimonie par données SPAR2 assure une autre fonction consistant en la génération d’un signal de déclenchement de lecture du vecteur suivant suivject lorsque toutes les données non-nulles du vecteur V ont été envoyées à l’organe de distribution DIST. Le signal suivject est propagé au générateur d’adresse ADD1 pour déclencher le traitement du vecteur suivant de la mémoire tampon BUFF_A suite à la fin de l’analyse du vecteur en cours de traitement.
[0128] La solution proposée permet ainsi de minimiser le nombre de cycles de calcul réalisés pour calculer une somme pondérée en évitant de réaliser des multiplications avec des données xy nulles suite à la détection de ces données nulles, et la synchronisation de la distribution des poids w^ au moyen d’au moins une information de saut de lecture.
[0129] La solution décrite selon l’invention est symétrique dans le sens où il est possible d’intervertir les données et les poids dans le mécanisme de détection et de synchronisation. Autrement dit, il est possible d’intervertir la notion de maitre- esclave entre les données Xj et les poids Wj . Ainsi, il est possible de détecter les poids Wÿ nuis et de synchroniser la lecture des données Xj selon une information de saut calculée à partir du traitement des poids Wj.
[0130] La figure 5c représente un exemple d’une implémentation de l’étage de gestion de parcimonie par vecteur et de l’étage de gestion de parcimonie par données, appartenant au circuit de gestion de flux selon l’invention.
Nous illustrons l’exemple où un vecteur V comprend 4 valeurs. L’étage de gestion de parcimonie par vecteur SPAR 1 comprend 4 circuits de détection de donnée nulle MNULL1 , MNULL2, MNULL3 et MNULL4, chacun étant destiné à calculer l’indicateur de donnée nulle xi(i+i) d’une donnée appartenant au vecteur V reçu par le circuit de gestion de flux CGF. A titre d’exemple, MNULL1 reçoit la donnée x1 à son entrée et génère à sa sortie x1 concaténé avec un bit indicateur de donnée nulle x1 (i+i)= 1 si x1 est nul et x1 (i+1)=0 si x1 est non-nul. Un circuit de détection de donnée nulle MNULL est réalisable avec des portes logiques pour former un circuit logique combinatoire.
[0131 ] Dans l’exemple de la figure 5c, les circuits de détection de donnée nulle ont été intégrés dans l’étage de gestion de parcimonie par vecteur SPAR1 mais cela n’est pas limitatif car il est possible de réaliser le calcul de l’indicateur de donnée nulle x1 (i+i) en amont du circuit de gestion de flux CGF et même en amont de la mémoire de stockage MEM_A.
[0132] De plus, l’étage de gestion de parcimonie par vecteur SPAR 1 comprend un registre REGI qui stocke le vecteur en cours d’analyse par SPAR1 sous la forme suivante V1 = (x1 (i+i)Xl , x2(i+i)x2, x3(i+i)x3, x4(i+i)x4).
[0133] L’étage de gestion de parcimonie par vecteur SPAR 1 comprend en outre un circuit logique de détection de vecteur nul VNULL1 ayant 4 entrées pour recevoir l’ensemble des indicateurs de donnée nulle Xj(i+i) et une sortie pour générer le signal de saut par vecteur vect_0 indiquant si le vecteur V est nul ou non. On entend par un vecteur nul, un vecteur V1 = (x1 (i+1)x1 , x2(i+1)x2, x3(i+1)x3, x4(i+1)x4) tel que x1 =x2=x3=x4=0 ou en d’autre terme, un vecteur tel que l’ensemble des indicateurs de valeurs nuis xi(i+i) appartenant audit vecteur sont au premier état N1. Ainsi, le signal de saut par vecteur vect_0 commande le premier circuit de gestion de mémoire ADD1 pour ne pas écrire dans la mémoire tampon BUFF_A les vecteurs nuis provenant de la première mémoire MEM_A.
[0134] Ainsi, le premier étage de gestion de parcimonie SPAR_1 réalise une première étape de filtrage pour réaliser des sauts de lecture par vecteurs de 4 données lorsqu’un vecteur nul est détecté.
[0135] En régime stationnaire, la mémoire tampon BUFF_A stocke alors les données rangées par vecteurs V successifs, chacun comprenant au moins une donnée non nulle. Le passage à la lecture d’un vecteur à un vecteur suivant à partir de la mémoire tampon BUFF_A est commandé par le circuit de gestion de mémoire ADD1 , et l’ordre de la lecture des vecteurs stockés est organisé selon le principe d’une FIFO « premier entrée premier sortie ».
[0136] D’autre part, l’étage de gestion de parcimonie par donnée SPAR2 comprend un registre REG2 qui stocke le vecteur en cours de traitement par SPAR2. L’étage de gestion de parcimonie par donnée SPAR2 est configuré pour traiter successivement les vecteurs V provenant de la mémoire tampon BUFF_A de la manière suivante : o détecter la position de la première donnée non-nulle appartenant au vecteur en cours de traitement au moyen du bit indicateur de donnée nulle ; o commander la distribution de ladite donnée non-nulle détectée à l’unité de calcul PE ; o mettre au premier état N0 l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur V en cours de traitement. o calculer et générer un signal de saut par mot mot_0 entre deux données non nulles successives,
[0137] Pour un vecteur V en cours d’analyse, les étapes décrites précédemment sont réitérées par SPAR2 jusqu’à ce que tous les indicateurs de donnée nulle du vecteur soient à l’état N0 indiquant que toutes les données non nulles du vecteur V ont été distribuées et déclenchant alors le traitement du vecteur suivant à partir de BUFF_A. L’étage de gestion de la parcimonie par données SPAR2 assure cette fonction en générant le signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de donnée nulle du vecteur sont à l’état NO.
[0138] Pour réaliser les différentes fonctions détaillées précédemment, l’étage de gestion de parcimonie par donnée SPAR2 comprend un étage encodeur prioritaire ENC configuré pour réaliser d’une façon itérative la génération d’un signal de commande de distribution c1 correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur V1 . En effet, l’étage encodeur ENC reçoit en entrée les indicateurs de donnée nulle Xj(i+1) du vecteur en cours d’analyse pour générer ledit indice.
[0139] Puis le signal de commande de distribution c1 est propagé comme entrée au circuit de gestion de mémoire ADD1 pour la génération du second indicateur de saut mot_0 ; suivie de la mise au premier état N0 de l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur V1 stocké dans le registre Reg2 suite à sa distribution .
[0140] Le second étage de gestion de parcimonie par donnée SPAR2 comprend en outre un organe de distribution MUX commandé par le signal de commande de distribution c1 . Un multiplexeur à 4 entrées recevant chacune une donnée Xj du vecteur V et à une sortie peut être utilisé pour implémenter cette fonctionnalité.
[0141] Le second étage de gestion de parcimonie par donnée SPAR2 comprend en outre un second circuit logique de détection de vecteur nul VNUL2 pour générer un signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de donnée nulle des données appartenant au vecteur V1 en cours de traitement sont au premier état N0 et commander la mémoire BUFF_A à travers le circuit de gestion de mémoire ADD1 pour déclencher le traitement du vecteur suivant V2 par SPAR2 au prochain cycle.
[0142] Simultanément pour chaque donnée Xÿ non-nulle distribuée, les deux indicateurs de saut mot_0 et vect_0 forment les deux composantes du premier indicateur de saut is 1 . Ce dernier est propagé vers le second circuit de gestion de mémoire ADD2 qui commande la lecture de la mémoire tampon BUFF_B. Cela permet de distribuer le poids Wÿ associé à la donnée distribuée Xÿ selon la séquence de lecture initialement prévue par les séquenceurs SEQ1 et SEQ2.
[0143] A titre d’illustration, on considère la séquence de données suivante composée des vecteurs successifs Vi=( xi=4, x2=0, x3 =0, x4 =2), V2=( x5=0: x6=0, x7=0 , x8=0 ), V3=( x9=0 x10=1, xn=0 , X12=3 ). La première séquence d’adressage initialement prédéfinie qui régit la lecture des données à partir de MEM_A est la suivante : x-i: x2, x3 , x4, X5 X6, x7 , x3, X9 X10, xn , xi2. La seconde séquence d’adressage initialement prédéfinie qui régit la lecture des poids à partir de MEM_B est w-i, w2, w3 , w4, W5:W6, w7 , W8, W9 W10, W11 , wi2. La nouvelle séquence d’adressage qui régit la lecture des données à partir de MEM_A après le traitement par le circuit de gestion de parcimonie est : x-i. x4, x , xi2 et pour les poids wi, w4, W10, wi2. L’indicateur de saut is1 =mot_0+vect_0 prend successivement les valeurs suivantes :
■ 1er cycle : is1 = mot_0 + vect_0 x 4 = 0+0=0
■ 2eme cycle : is1 = mot_0+vect_0 = 2+0x4=2
■ 3eme cycle : is1 = mot_0+vect_0 = 1 +1x4=5
■ 4eme cycle : is1 = mot_0+vect_0 = 1 +0x4=1
[0144] Dans certains modes de réalisation ayant pour application un réseau de neurones convolutionnel, il est possible d’avoir un séquencement initial pour les données et les poids où plusieurs poids sont associés à la même donnée. En effet, pour une convolution nxn, une donnée d’entrée Xj est multipliée par n poids différents de la matrice de poids. Ainsi un saut unitaire dans l’indicateur de saut is1 dans la première séquence des données Xj correspond à n sauts dans la seconde séquence d’adressage des poids Wj.
[0145] La figure 6a représente un deuxième mode de réalisation du circuit de gestion de flux des données CGF’ selon l’invention. La spécificité de ce mode consiste en la gestion de parcimonie conjointe du premier ensemble de données d’entrée (il s’agit dans le cas illustré des données provenant d’une couche dans le réseau Xj) et du second ensemble de données d’entrée (il s’agit dans le cas illustré des poids ou coefficients synaptiques Wj ). [0146] Similairement au premier mode de réalisation, le circuit calculateur CALC sur la figure 6a comprend une première mémoire MEM_A pour stocker les premières données Xj et un premier séquenceur SEQ1 pour commander la lecture de la mémoire MEM_A selon une première séquence prédéfinie.
[0147] Similairement au premier mode de réalisation, le circuit calculateur CALC sur la figure 6a comprend une deuxième mémoire MEM_B pour stocker les deuxièmes données Wj et un deuxième séquenceur SEQ2 pour commander la lecture de la mémoire MEM_B selon une deuxième séquence prédéfinie.
[0148] L’avantage du deuxième mode de réalisation est la gestion de la faible densité en valeurs non-nulles simultanée des deux ensembles de données constituant les opérandes des multiplications pour une somme pondérée. Ainsi, le résultat de compression de la séquence de distribution des données au cours du temps est plus important que dans celui du premier mode de réalisation. En effet, dans la disposition maitre-esclave décrite précédemment, on tient compte de la faible densité en valeurs non-nulles uniquement pour un des deux ensembles de données. Dans le second mode de réalisation, décrit ultérieurement, le circuit de gestion de flux CGF’ traite les deux ensembles simultanément. Pour cela, à partir de la première et la seconde séquence de distribution initiale fournie par SEQ1 et SEQ2, chaque donnée Xj est appariée avec le poids correspondant Wj pour former un couple (Xj : Wj). Les vecteurs V’i : V’2. V’3, .. V’k correspondent dans ce cas à des vecteurs de couples V’i=( (xi,wi), (x2,w2), (x3,w3), (X4W4)), V’2=( (xs.ws), (X6,w8), (x7,w7), (x8,w8)), V’3=( (x9,w9), (x10,w10), (xn.Wn), (x12,w12)) et ainsi de suite.
[0149] Dans le second mode de réalisation, le second circuit de traitement CT_B est apte à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut entre deux données non nulles successives, et à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut .
[0150] Ainsi, le second circuit de traitement CT_B est apte à commander le transfert vers le circuit de distribution d’un poids Wj lu dans la seconde mémoire tampon de données BUFF_B en fonction du premier et du second indicateurs de saut is1 et is2 . De même pour le premier circuit de traitement CT_A, la commande du transfert des données Xj vers une unité de calcul PE est réalisée en fonction du premier et du second indicateurs de saut is1 et is2 .
[0151] L’étage de gestion de parcimonie par vecteur SPAR1 comprend 4 circuits de détection de couple nul CNLILL1 , CNLILL2, CNLILL3 et CNLILL4, chacun étant destiné à calculer l’indicateur de couple nul CP1 <i+i) =(xi,wi)(i+i) d’un couple de données appartenant au vecteur V’ reçu par le circuit de gestion de flux CGF’. On entend par couple nul, chaque couple ayant au moins une composante nulle.
[0152] A titre d’exemple, si CNLILL1 reçoit le couple (xi=1,wi=0) (ou (xi=0,wi=1) ) à son entrée il génère à sa sortie le couple (X-I.W-I) concaténé avec un bit indicateur de couple nul CP1 <i+i) =(XI,WI)(I+D à un premier état logique N’0.
[0153] D’autre part, si CNLILL1 reçoit le couple (xi=1 ,wi=2) à son entrée il génère à sa sortie le couple (xi,wi) concaténé avec un bit indicateur de couple nul CP1 <i+i) =(x1,w1)(i+1) à un deuxième état logique N’1 .
[0154] Alternativement, il est possible d’apparier l’indicateur de couple nul à chacune des données composantes du couple pour permettre un stockage dans des mémoires distinctes des données tel que chaque première ou deuxième donnée soit concaténée avec un bit indicateur de couple nul associé.
[0155] Un circuit de détection de couple nul CNULL est réalisable avec des portes logiques pour former un circuit logique combinatoire.
[0156] Dans l’exemple de la figure 6a les circuits de détection de couple nul ont été intégrés dans l’étage de gestion de parcimonie par vecteur SPAR1 mais cela n’est pas limitatif car il est possible de réaliser le calcul de l’indicateur de donnée nulle x1(i+i)en amont du circuit de gestion de flux CGF’ et même en amont de la première et de la seconde mémoire de stockage MEM_A et MEM_B.
[0157] Le traitement de parcimonie par vecteur de couple réalisé par l’étage de gestion de parcimonie par vecteur SPAR1 est réalisé d’une manière similaire à celle du premier mode de réalisation. La différence est que le test est réalisé sur les indicateurs de couple nul dans le second mode de réalisation. Ainsi, seulement les vecteurs comprenant au moins un couple ayant deux composantes non-nulles sont transférés aux mémoires tampon BUFF_A et BUFF_B. [0158] Pour la réalisation des mémoires tampons de type FIFO, il est possible de stocker les données Xj et les poids Wj sous forme de couple appartenant à un vecteur de couples dans une mémoire tampon commune MEM_AB. Il est aussi envisageable (comme illustré ici) de garder deux mémoires tampons séparées MEM_A et MEM_B dont l’adressage des pointeurs de lecture et d’écriture est géré respectivement par le premier et le second circuit de contrôle de mémoire ADD1 et ADD2.
[0159] Dans le mode de réalisation illustré, les circuits de traitement CT_A et CT_B se partagent un registre REG2’ pour recevoir un vecteur de couple en cours d’analyse et se partagent un circuit encodeur prioritaire ENC’ et un multiplexeur MUX’ pour distribuer successivement des couples n’ayant aucune composante nulle.
[0160] Au niveau des circuits de traitement CT_A et CT_B, le même principe du premier mode de réalisation est appliqué aux couples de données et aux indicateurs de couple nul préalablement calculés. La nouvelle séquence obtenue dépend alors d’une combinaison du premier indicateur de saut is1 lié à la première séquence des premières données (provenant de MEM_A) et du second indicateur de saut is2 lié à la seconde séquence des secondes données (provenant de MEM_B).
[0161 ] Pour réaliser les différentes fonctions détaillées précédemment, l’étage encodeur prioritaire ENC’ est configuré pour réaliser d’une façon itérative la génération d’un signal de commande de distribution c’1 correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur V’i en cours de traitement. En effet, l’étage encodeur ENC’ reçoit en entrée l’indicateur de couple nul CP1 (i+i) =(xi,wi)(i+i) du vecteur en cours d’analyse pour générer ledit signal de commande de distribution c’1 .
[0162] Puis le signal de commande de distribution c’1 est propagé comme entrée au circuit de gestion de mémoire ADD1 pour la génération du second indicateur de saut mot_0 ; suivie de la mise au premier état N’0 de l’indicateur de couple nul CP1 (i+i) =(x1,w1)(i+1) de la donnée d’entrée distribuée dans le vecteur V’j stocké dans le registre Reg2’ suite à sa distribution . [0163] Le multiplexeur MUX’ est commandé par le signal de commande de distribution c’1 .
[0164] Les circuits de traitement CT_A et CT_B se partagent un circuit logique de détection de vecteur nul VNUL2 pour générer un signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de couple nul C Pi(i+i) =(Xj, Wj)(i+i) du vecteur en cours de traitement dans le registre REG2’ sont au premier état N0’.
[0165] Nous avons réalisé ainsi un circuit de traitement de la distribution des données et des poids basé sur l’analyse non seulement des données mais aussi des poids permettant de réduire encore plus la taille de la séquence de distribution des données vers les unités de calcul PE en évitant de réaliser des multiplications par des données nulles mais aussi par des poids nuis.
[0166] Selon une variante du mode de réalisation décrit sur la figure 6a, il est possible de partir d’une séquence unique des couples [données, poids] déjà appariés. Ainsi, le circuit de gestion de flux CGF’ comprend un circuit de traitement commun CT_AB car il y a une seule séquence conjointe à traiter. Dans cette variante, un seul indicateur de saut est généré par le circuit de traitement de couple. Cet indicateur de saut conjoint dans la séquence de distribution des couples [données, poids] permet d’éviter la distribution de couple comprenant au moins une valeur nulle. Il est possible de réaliser cette variante en utilisant deux circuits de gestion de mémoire ADD1 et ADD2 générant les mêmes adresses ou alternativement un circuit de gestion de mémoire commun. L’avantage de cette variante est une réduction de la complexité et de la surface du circuit de gestion de flux CGF’ par rapport au mode de réalisation de la figure 6a.
[0167] La figure 6b illustre un troisième mode de réalisation du calculateur selon l’invention permettant de réduire la taille des mémoires tampons du circuit de gestion de flux en tenant compte de la multiplication d’une même donnée Xj par une pluralité de poids (ou coefficients synaptiques).
[0168] En effet, lorsque le circuit calculateur est dédié au calcul d’un réseau de neurones convolutionnel, de taille pxp, avec p>1 , une même donnée est utilisée dans une opération de multiplication avec p poids différents ; ainsi dans la séquence initiale la donnée Xj concernée est recopiée p fois lorsqu’on l’associe à p poids différents. Le problème que pose ce mécanisme consiste à l’augmentation de la taille de la mémoire tampon MEM_A et donc de la surface occupée par le circuit intégré comprenant le circuit calculateur.
[0169] Le mode de réalisation illustré sur la figure 6b vise à surmonter cet inconvénient. En effet, le circuit de gestion de flux est réalisé selon l’architecture suivante : au lieu d’une mémoire tampon fonctionnant en FIFO et stockant les couples [Xj, w , on dispose d’une mémoire tampon fonctionnant en FIFO (noté ici BUFF_B) dédiée uniquement aux poids et d’une mémoire tampon (noté ici BUFF_A) de données séparés.
[0170] Le circuit de gestion de flux conjoint des données et des poids dans le mode de réalisation décrit ne traite pas les données et les poids par couples. D’une part la mémoire tampon de données BUFF_A est une mémoire double port dont le pointeur d’écriture s’incrémente de 1 tous les p cycles modulo la taille de la mémoire tampon BUFF_A. D’autre part la mémoire tampon FIFO notée BUFF_B stockant les poids stocke également les indicateurs de couples nuis préalablement calculés d’une façon similaire au deuxième mode de réalisation. On rappelle pour chaque couple [Xj,Wj] que si au moins l’une des deux composantes du couple est nulle ledit couple est considéré comme un couple nul. Un vecteur est considéré comme un vecteur nul si tous ses couples composants sont nuis selon la définition précédente.
[0171] L’écriture des données Xj dans la mémoire tampon BUFF_A est réalisée ainsi à un rythme p fois plus lent que l’écriture des poids Wj.
[0172] Comme précédemment, les poids sont groupés par vecteurs (de 4 poids Wj par exemple), tandis que le tampon de données BUFF_A a une largeur de mot d’une donnée (il s’agit ici pour les données d’un vecteur de données Xj unitaire).
[0173] Lorsqu’un vecteur dans la mémoire tampon BUFF_B (de type FIFO) ne comprend que les poids de couples dont au moins une des composantes est nulle, le vecteur n’est pas chargé dans BUFF_B et le signal de saut par vecteur est généré d’une manière similaire aux autres modes de réalisation.
[0174] La sélection des couples ayant deux composantes non-nulles est réalisée comme précédemment au moyen d’un encodeur prioritaire ENC avec un critère de choix basé sur les indicateurs de couples non-nuls, permettant ainsi de générer une nouvelle séquence de distribution des poids Wj vers l’unité de calcul PE.
[0175] Par ailleurs, la sélection des données à présenter à l’unité de calcul PE en face de chaque poids est faite en incrémentant le pointeur de lecture de la mémoire tampon de données BUFF_A de (1 + Nps)/p modulo la taille de la mémoire tampon BUFF_A avec Nps le nombre de poids sautés dans la nouvelle séquence, obtenu au moyen de l’encodeur prioritaire ENC. En effet, l’encodeur ENC sélectionne le poids du mot de sortie de la mémoire BUFF_B de poids auquel on additionne le nombre de vecteurs nuis sautés multiplié par 4 (si la largeur du vecteur analysé est de 4 couples). C’est ainsi qu’on retrouve la donnée qui était présente, en face du poids sélectionné en sortie, lors du chargement de ce poids dans la mémoire tampon BUFF_B de poids. Le fonctionnement de ce système est donc équivalent à la solution selon le second mode de réalisation avec un traitement conjoint des premières et des secondes données, mais avec une capacité de stockage plus faible pour la mémoire tampon BUFF_A.

Claims

REVENDICATIONS
1 . Circuit de calcul (CALC) pour calculer une somme pondérée d’un ensemble de premières données (A, X) par un ensemble de secondes données (B, W) comprenant :
Au moins une première mémoire de données (MEM_A) pour stocker les premières données (A, X) ;
Au moins une seconde mémoire de données (MEM_B) pour stocker les secondes données (B, W) ;
Au moins une unité de calcul (PE) configurée pour réaliser le calcul de somme pondérée ;
Au moins un premier circuit séquenceur (SEQ1 ) apte à commander la lecture dans la première mémoire de données selon une première séquence d’adressage prédéfinie ;
Au moins un second circuit séquenceur (SEQ2) apte à commander la lecture dans la deuxième mémoire de données selon une seconde séquence d’adressage prédéfinie ;
Au moins un circuit de distribution (DIST) associé à une unité de calcul pour lui délivrer successivement une nouvelle paire de première et seconde données associées ;
Au moins un circuit de gestion de flux (CGF) comprenant : o une pluralité de circuits de détection de donnée nulle (MNLILL1 , MNLILL2, MNLILL3, MNLILL4) étant chacun configuré pour détecter les données nulles délivrées par ledit premier circuit séquenceur ; o Une première mémoire tampon (BUFF_A) pour stocker tout ou une partie des premières données délivrées séquentiellement par ledit premier circuit séquenceur ; o Une seconde mémoire tampon (BUFF_B) pour stocker tout ou partie des secondes données délivrées séquentiellement par ledit second circuit séquenceur ; o un premier circuit de traitement (CT_A) comprenant un premier circuit de contrôle des pointeurs (ADD1 ) de lecture et d’écriture de la première mémoire tampon et étant apte : ■ à analyser les premières données délivrées par ledit premier circuit séquenceur pour définir un premier indicateur de saut (is1 ) entre deux données non nulles successives, et
■ à commander le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut (is1 ) ; un second circuit de traitement (CT_B) comprenant un second circuit de contrôle des pointeurs (ADD2) de lecture et d’écriture de la seconde mémoire tampon et étant apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut (is1 ).
2. Circuit de calcul (CALC) selon la revendication 1 dans lequel chaque circuit de détection de donnée nulle (MNULL1 , MNLILL2, MNLILL3, MNLILL4) est configuré pour apparier à chaque première donnée d’entrée (x-i, x2, x3, x4), un indicateur de donnée nulle (xi (i+i)) ayant un premier état (NO) correspondant à une donnée nulle et un second état correspondant à une donnée non-nulle (N1 ) .
3. Circuit de calcul (CALC) selon la revendication 1 ou 2 dans lequel : le premier circuit séquenceur (SEQ1 ) est configuré pour délivrer les premières données par vecteurs (V1 , V2) de N données successives, N étant un entier naturel non nul ; la première mémoire tampon (BUFF_A) est une mémoire apte à stocker des vecteurs de N données selon un principe « premier entré premier sorti ». le premier circuit de traitement (CT_A) comprend
Un étage de gestion de parcimonie par donnée (SPAR2) destiné à recevoir les vecteurs (V1 , V2) provenant de la première mémoire tampon (BUFF_A) et configuré pour générer un signal de saut par mot (mot_0) entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs (ADD1.ADD2) ; ledit signal de saut par mot (mot_0) formant une première composante du premier indicateur de saut (is 1 ).
4. Circuit de calcul (CALC) selon la revendication 3 dans lequel le premier circuit de traitement (CT_A) comprend en amont de la première mémoire tampon (BUFF_A) un étage de gestion de parcimonie (SPAR1 ) par vecteur configuré pour générer un signal de saut par vecteur (vect_0) à destination des deux circuits de contrôle des pointeurs (ADD1 ,ADD2) lorsqu’un vecteur (V1 ) est nul ; ledit signal de saut par vecteur (vect_0) formant une seconde composante du premier indicateur de saut (is1 ).
5. Circuit de calcul (CALC) selon la revendication 4 dans lequel l’étage de gestion de parcimonie (SPAR1 ) par vecteur comprend un premier circuit logique de détection de vecteur nul (VNLIL1 ) configuré pour générer, à partir des indicateurs de donnée nulle (x1(i+1)) , le signal de saut par vecteur (vect_0) lorsqu’un vecteur (V1 ) ne comprend que des données nulles .
6. Circuit de calcul (CALC) selon l’une quelconque des revendications 3 à 5 dans lequel l’étage de gestion de parcimonie par donnée (SPAR2) comprend :
Un registre (Reg2) pour recevoir un vecteur non-nul (V1 ) à la sortie de la première mémoire tampon (BUFF_A) ;
Un étage encodeur prioritaire (ENC) configuré pour réaliser les opérations suivantes d’une façon itérative: o la génération d’un signal de commande de distribution (c1 ) correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur (V1 ) ; le premier circuit de contrôle des pointeurs (ADD1 ) étant configuré pour réaliser dans la même boucle d’itération : o la génération du signal de saut par mot (mot_0) à partir du signal de commande de distribution (c1 ) ; o et la mise au premier état (NO) de l’indicateur de donnée nulle (x1(i+i)) de la donnée d’entrée distribuée dans le vecteur (V1 ) stocké dans le registre (Reg2) suite à sa distribution ;
Un second circuit logique de détection de vecteur nul (VNUL2) pour générer un signal de déclenchement de lecture du vecteur suivant (suiv ect) lorsque tous les indicateurs de donnée nulle (x-, (i+1)) des données appartenant audit vecteur (V1 ) sont au premier état (NO).
7. Circuit de calcul (CALC) selon l’une quelconque des revendications 1 à 6 destiné à calculer des données de sortie (Oj ) d’une couche d’un réseau de neurones artificiels à partir de données d’entrée (Xjj), le réseau de neurones étant composé d’une succession de couches étant chacune constituée d’un ensemble de neurones , chaque couche étant connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques (Wjj ) formant au moins une matrice de poids ([W]p q) ; le premier ensemble de données (A, X) correspondant aux données d’entrée (Xj) à un neurone de la couche en cours de calcul; le second ensemble de données (B, W) correspondant aux coefficients synaptiques (Xj) connectés audit neurone de la couche en cours de calcul; le circuit de calcul (CALC) comprenant : au moins un groupe d’unité de calcul (Gj), chaque groupe d’unité de calcul (Gj) comprenant une pluralité d’unités de calcul (PEk) de rang k=1 à K avec K un entier strictement positif, une pluralité de secondes mémoires de données (MEM_B, MEM_POIDS) de rang k=1 à K pour stocker le second ensemble de données (B, W); chaque groupe d’unité de calcul (Gj) étant connecté à un circuit de gestion de flux (CGF) dédié comprenant en outre : une pluralité de secondes mémoires tampons (BUFF_B0 1) de rang k=1 à K tel que chaque seconde mémoire tampon distribue à l’unité de calcul (PEk) de même rang k les données d’entrée (B, W) provenant de la seconde mémoire de données de même rang k en fonction d’au moins le premier indicateur de saut (is1 ).
8. Circuit de calcul (CALC) selon l’une quelconque des revendications 1 à 6 destiné à calculer des données de sortie (Oj,j) d’une couche d’un réseau de neurones artificiels à partir de données d’entrée (Xjj), le réseau de neurones étant composé d’une succession de couches étant chacune constituée d’un ensemble de neurones , chaque couche étant connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques (Wjj ) formant au moins une matrice de poids ([W]p q) ; le premier ensemble de données (A, W) correspondant aux coefficients synaptiques (Wj) connectés audit neurone de la couche en cours de calcul le second ensemble de données (B, X) correspondant aux données d’entrée (Xj) d’un neurone de la couche en cours de calcul; le circuit de calcul (CALC) comprenant : au moins un groupe d’unité de calcul (Gj), chaque groupe d’unité de calcul (Gj) comprenant une pluralité d’unités de calcul (PEk) de rang k=1 à K avec K un entier strictement positif, une pluralité de premières mémoires de données (MEM_A) de rang k=1 à K pour stocker le premier ensemble de données (A, W) ;
Une pluralité de circuit de gestion de flux (CGF) de rang k=1 à K, chacun étant configuré tel que pour chaque unité de calcul (PEk) de rang k appartenant à un groupe d’unité de calcul (Gj) : le circuit de gestion de flux de rang k est configuré pour distribuer les coefficients synaptiques non-nuls provenant de la première mémoire de données de même rang k vers l’unité de calcul de même rang k.
9. Circuit de calcul (CALC) selon la revendication 1 , dans lequel le second circuit de traitement est apte :
- à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut (is2) entre deux données non nulles successives, et
- à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut (is1 , is2); et dans lequel le second circuit de traitement (CT_B) est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut (is1 , is2); .
10. Circuit de calcul (CALC) selon la revendication 9 dans lequel le circuit de gestion de flux (CGF’) est configuré pour lire les données des deux mémoires (MEM_A, MEM_B) par vecteurs de N couples successifs selon la première et la seconde séquence d’adressage prédéfinie desdites données ((xi w-i), (x2 w2), (xs w3), (X4 W4)), N étant un entier naturel non nul ; le premier et second indicateur (is1 ,is2) de saut sont obtenus par une analyse desdits vecteurs tel que les deux données formant un couple distribué soient non-nulles.
11 . Circuit de calcul (CALC) selon la revendication 10 comprenant en outre : Une pluralité de circuits de détection de couple nul (CNUL1 , CNUL2, CNUL3, CNUL4) étant chacun configuré pour apparier à chaque couple de première et seconde données d’entrées ((xi wi), (X2W2), (x3w3), (x4iw4)), un indicateur de couple nulle (CP11+1 ) ayant un premier état (N’0) correspondant à un couple comprenant au moins une donnée nulle et un second état (N’1 ) correspondant à un couple ne comprenant que des données non-nulles .
12. Circuit de calcul (CALC) selon l’une des revendications 10 ou 11 dans lequel : L’ensemble formé par la première et la seconde mémoire tampon (BUFF_A,
BUFF_B) est une mémoire apte à stocker des vecteurs de N couples selon un principe « premier entré premier sorti ».
L’ensemble formé par le premier et le second circuit de traitement (CT_A, CT_B) comprend
Un étage de gestion de parcimonie par donnée (SPAR2) destiné à recevoir les vecteurs (V’1 , V’2) provenant de l’ensemble de la première et la seconde mémoire tampon (BUFF_A, BUFF_B) et configuré pour générer un signal de saut par mot (mot_0) entre deux couples successifs ayant deux données non nulles à destination des deux circuits de contrôle des pointeurs (ADD1 , ADD2) ; ledit signal de saut par mot (mot_0) formant une première composante du premier indicateur de saut (is1 ) et du second indicateur de saut (is2) .
13. Circuit de calcul (CALC) selon l’une quelconque des revendications 10 à 12 comprenant un étage de gestion de parcimonie par vecteur (SPAR1 ) en amont de la première et la seconde mémoire tampon (BUFF_A, BUFF, B), l’étage de gestion de parcimonie par vecteur (SPAR1 ) comprenant : Un premier circuit logique de détection de vecteur nul (VNUL1 ) configuré pour générer un signal de saut par vecteur (vect_0) lorsqu’un vecteur (V’1 ) ne comprend que des indicateurs de donnée nulle (CP11+1) au premier état (N’O) ; ledit signal de saut par vecteur (vect_0) formant une seconde composante du premier indicateur de saut (is1 ) et du second indicateur de saut (is2) .
14. Circuit de calcul (CALC) selon l’une quelconque des revendications 11 à 13 dans lequel l’étage de gestion de parcimonie par couple (SPAR2) comprend :
Un registre (Reg2’) pour recevoir un vecteur non-nul (V’1 ) à la sortie de la mémoire tampon (BUFF_A, BUFF_B) ;
Un étage encodeur prioritaire (ENC’) configuré pour réaliser les opérations suivantes d’une façon itérative: o La génération d’un signal de commande de distribution (c’1 ) correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur (V’1 ) ;
Au moins le premier ou le second circuit de contrôle des pointeurs (ADD1 , ADD2) étant configuré pour réaliser dans la même boucle d’itération : o la mise au premier état (N’O) de l’indicateur de donnée nulle (CP11+1 ) du couple de données d’entrée distribué dans le vecteur (V’1) stocké dans le registre (Reg2’), suite à sa distribution ;
Un organe de distribution (MUX’) commandé par le signal de commande de distribution (c’1 ) ;
Un second circuit logique de détection de vecteur nul (VNUL2) pour générer un signal de déclenchement de lecture du vecteur suivant (suiv ect) lorsque tous les indicateurs de donnée nulle (CP1i+i) des couples appartenant audit vecteur (V’1 ) sont au premier état (N’O).
PCT/EP2021/085864 2020-12-16 2021-12-15 Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee WO2022129156A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21839468.2A EP4264497A1 (fr) 2020-12-16 2021-12-15 Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee
US18/267,070 US20240054330A1 (en) 2020-12-16 2021-12-15 Exploitation of low data density or nonzero weights in a weighted sum computer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2013363 2020-12-16
FR2013363A FR3117645B1 (fr) 2020-12-16 2020-12-16 Mise à profit de la faible densité de données ou de poids non-nuls dans un calculateur de somme pondérée

Publications (1)

Publication Number Publication Date
WO2022129156A1 true WO2022129156A1 (fr) 2022-06-23

Family

ID=75746748

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/085864 WO2022129156A1 (fr) 2020-12-16 2021-12-15 Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee

Country Status (4)

Country Link
US (1) US20240054330A1 (fr)
EP (1) EP4264497A1 (fr)
FR (1) FR3117645B1 (fr)
WO (1) WO2022129156A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2568102A (en) * 2017-11-06 2019-05-08 Imagination Tech Ltd Exploiting sparsity in a neural network

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10725740B2 (en) * 2017-08-31 2020-07-28 Qualcomm Incorporated Providing efficient multiplication of sparse matrices in matrix-processor-based devices

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2568102A (en) * 2017-11-06 2019-05-08 Imagination Tech Ltd Exploiting sparsity in a neural network

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANGSHUMAN PARASHAR ET AL: "SCNN", PROCEEDINGS OF THE 44TH ANNUAL INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE , ISCA '17, ACM PRESS, NEW YORK, NEW YORK, USA, 24 June 2017 (2017-06-24), pages 27 - 40, XP058369089, ISBN: 978-1-4503-4892-8, DOI: 10.1145/3079856.3080254 *
CHEN ET AL., EYERISS V2: A FLEXIBLE ACCELERATOR FOR EMERGING DEEP NEURAL NETWORKS ON MOBILE DEVICES
DAS PALASH ET AL: "nZESPA: A Near-3D-Memory Zero Skipping Parallel Accelerator for CNNs", IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS, IEEE, USA, vol. 40, no. 8, 8 September 2020 (2020-09-08), pages 1573 - 1585, XP011866794, ISSN: 0278-0070, [retrieved on 20210715], DOI: 10.1109/TCAD.2020.3022330 *
JINOOK SONG, AN 11.5TOPS/W 1024-MAC BUTTERFLY STRUCTURE DUAL-CORE SPARSITY-AWARE NEURAL PROCESSING UNIT IN 8NM FLAGSHIP MOBILE SOC
K. FUKUSHIMA: "Neocognitron: A self-organizing neural network model for a mechanism of pattern récognition unaffected by shift in position", BIOLOGICAL CYBERNETICS, vol. 36, no. 4, 1980, pages 193 - 202, XP009056448, DOI: 10.1007/BF00344251
ZHANG SHIJIN ET AL: "Cambricon-X: An accelerator for sparse neural networks", 1 October 2016 (2016-10-01), pages 1 - 12, XP055788131, ISBN: 978-1-5090-3508-3, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stampPDF/getPDF.jsp?tp=&arnumber=7783723&ref=aHR0cHM6Ly9pZWVleHBsb3JlLmllZWUub3JnL2RvY3VtZW50Lzc3ODM3MjM=> DOI: 10.1109/MICRO.2016.7783723 *

Also Published As

Publication number Publication date
EP4264497A1 (fr) 2023-10-25
FR3117645A1 (fr) 2022-06-17
US20240054330A1 (en) 2024-02-15
FR3117645B1 (fr) 2023-08-25

Similar Documents

Publication Publication Date Title
Shafiee et al. ISAAC: A convolutional neural network accelerator with in-situ analog arithmetic in crossbars
US11295208B2 (en) Robust gradient weight compression schemes for deep learning applications
EP3844679A1 (fr) Architecture de calculateur d&#39;une couche de convolution dans un reseau de neurones convolutionnel
EP3449423B1 (fr) Dispositif et procede de calcul de convolution d&#39;un reseau de neurones convolutionnel
FR3025344A1 (fr) Reseau de neurones convolutionnels
EP0552074A1 (fr) Système de traitement de données multiprocesseur
Li et al. ReRAM-based accelerator for deep learning
EP3449424A1 (fr) Dispositif et procede de distribution de donnees de convolution d&#39;un reseau de neurones convolutionnel
CN110543939B (zh) 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置
EP0558125A1 (fr) Processeur neuronal à cellules synaptiques reparties
Mena et al. Sinkhorn networks: Using optimal transport techniques to learn permutations
Aygun et al. Learning from hypervectors: A survey on hypervector encoding
EP0568146B1 (fr) Processeur neuronal muni de moyens pour normaliser des données
WO2022129156A1 (fr) Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee
Gross et al. Hardware-aware design for edge intelligence
EP4202770A1 (fr) Reseau de neurones avec generation a la volee des parametres du reseau
EP3955170A1 (fr) Architecture de calcul systolique pour la mise en oeuvre de réseaux de neurones artificiels traitant plusieurs types de convolutions
Wang et al. An SRAM-based implementation of a convolutional neural network
EP3955167A1 (fr) Architecture de calcul reconfigurable pour la mise en oeuvre de réseaux de neurones artificiels
Ardakani Complexity reduction of deep neural networks for efficient hardware implementations
Ardestani Design and Optimization of Hardware Accelerators for Deep Learning
Abdelsalam Efficient FPGA-Based Inference Architectures for Deep Learning Networks
Hasan et al. A reconfigurable low power high throughput architecture for deep network training
EP3971785A1 (fr) Calculateur électronique de mise en oeuvre d&#39;un réseau de neurones artificiels, avec blocs de calcul de plusieurs types
Liang et al. A High Efficiency Hardware Accelerator for Convolution Neural Network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21839468

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18267070

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021839468

Country of ref document: EP

Effective date: 20230717