WO2022129156A1

WO2022129156A1 - Mise a profit de la faible densite de donnees ou de poids non-nuls dans un calculateur de somme ponderee

Info

Publication number: WO2022129156A1
Application number: PCT/EP2021/085864
Authority: WO
Inventors: Michel Harrand
Original assignee: Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority date: 2020-12-16
Filing date: 2021-12-15
Publication date: 2022-06-23
Also published as: EP4264497A1; FR3117645A1; US20240054330A1; FR3117645B1

Abstract

Circuit de calcul pour calculer une somme pondérée d'un ensemble de premières données par au moins un circuit de gestion de parcimonie comprenant une première mémoire tampon pour stocker tout ou une partie des premières données (MEM_A) délivrées séquentiellement (SEQ1) et une seconde mémoire tampon pour stocker tout ou partie des secondes données (MEM_B) délivrées séquentiellement (SEQ2). Le circuit de gestion de parcimonie (CGF) comprenant en outre un premier circuit de traitement (CT_A) apte : à analyser les premières données pour rechercher les premières données non-nulles (MNULL1- MNULL4) et définir un premier indicateur de saut (isl) entre deux données non nulles successives, et à commander le transfert vers le circuit de distribution (DIST) d'une première donnée (Xi) lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut. Le circuit de gestion de parcimonie (CGF) comprenant en outre un second circuit de traitement (CT_B) apte à commander le transfert vers le circuit de distribution (DIST) d'une seconde donnée (Wi) lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut.

Description

Titre de l’invention : Mise à profit de la faible densité de données ou de poids non-nuls dans un calculateur de somme pondérée

Champ d’application

[0001] L’invention concerne généralement les circuits de calcul de sommes pondérées de données présentant une faible densité de données ou de poids de pondérations non-nuls et plus particulièrement les calculateurs de réseaux neuro- morphiques numériques pour le calcul de réseaux de neurones artificiels à base de couches convolutionnelles ou entièrement connectées.

Problème soulevé

[0002] Les réseaux de neurones artificiels constituent des modèles de calculs imitant le fonctionnement des réseaux de neurones biologiques. Les réseaux de neurones artificiels comprennent des neurones interconnectés entre eux par des synapses, qui sont par exemple implémentées par des mémoires numériques. Les réseaux de neurones artificiels sont utilisés dans différents domaines de traitement du signal (visuel, sonore, ou autre) comme par exemple dans le domaine de la classification d’image ou de la reconnaissance d’image.

[0003] Les réseaux de neurones convolutionnels correspondent à un modèle particulier de réseau de neurones artificiels. Les réseaux de neurones convolutionnels ont été décrits initialement dans l’article de K. Fukushima,

« Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980. ISSN 0340-1200. doi: 10.1007/BF00344251 ».

[0004] Les réseaux de neurones convolutionnels (désignés en langue anglo- saxonne par les expressions “convolutional neural networks”, ou “deep (convolutional) neural networks” ou encore “ConvNets”) sont des réseaux de neurones inspirés par les systèmes visuels biologiques.

[0005] Les réseaux de neurones convolutionnels (CNN) sont utilisés notamment dans des systèmes de classifications d’images pour améliorer la classification.

Appliqués à la reconnaissance d’images, ces réseaux permettent un apprentissage des représentations intermédiaires d’objets dans les images qui sont plus petites et généralisables pour des objets similaires, ce qui facilite leur reconnaissance. Cependant, le fonctionnement intrinsèquement parallèle et la complexité des classificateurs de type réseau de neurones convolutionnel rend difficile leur implémentation dans des systèmes embarqués à ressources limitées. En effet, les systèmes embarqués imposent de fortes contraintes par rapport à la surface du circuit et à la consommation électrique.

[0006] Le réseau de neurones convolutionnel est basé sur une succession de couches de neurones, qui peuvent être des couches convolutionnelles (Convolutional Layer en anglais) ou des couches entièrement connectées (généralement à la fin du réseau). Dans les couches convolutionnelles, seulement un sous-ensemble des neurones d’une couche est connecté à un sous-ensemble des neurones d’une autre couche. Par ailleurs, les réseaux de neurones convolutionnels peuvent traiter plusieurs canaux d’entrée pour générer plusieurs canaux de sortie. Chaque canal d’entrée correspond, par exemple à une matrice de données différente.

[0007] Sur les canaux d’entrée se présentent des images d’entrée sous forme matricielle formant ainsi une matrice d’entrée ; une image matricielle de sortie est obtenue sur les canaux de sortie.

[0008] Les matrices de coefficients synaptiques pour une couche convolutionnelle sont aussi appelées « noyaux de convolution ».

[0009] En particulier, les réseaux de neurones convolutionnels comprennent une ou plusieurs couche(s) de convolution qui sont particulièrement coûteuses en nombre d’opérations. Les opérations effectuées sont principalement des opérations de multiplication et accumulation (MAC) pour calculer une somme des données pondérée par les coefficients synaptiques. Par ailleurs, pour respecter les contraintes de latence et temps de traitement propres aux applications visées, il est nécessaire de minimiser le nombre de cycles de calcul nécessaires lors d’une phase d’inférence ou lors d’une phase de rétro propagation au cours de l’apprentissage du réseau.

[0010] Plus particulièrement, lorsque les réseaux de neurones convolutionnels sont implémentés dans un système embarqué à ressources limitées (par opposition à une implémentation dans des infrastructures de centres de calcul), la réduction de consommation électrique et la réduction du nombre d’opérations de calcul nécessaires devient un critère primordial pour la réalisation du réseau de neurones. [0011] L’opération de base mise en œuvre par un neurone artificiel est une opération de multiplication puis accumulation MAC. Selon le nombre de neurones par couche et de couches de neurones que comporte le réseau, le nombre d’opérations MAC par unité de temps nécessaire pour un fonctionnement temps réel devient contraignant.

[0012] Il existe donc un besoin pour développer des architectures de calcul optimisées pour les réseaux de neurones qui permettent de limiter le nombre d’opérations MAC sans dégrader ni les performances des algorithmes mis en œuvre par le réseau ni la précision des calculs. Plus particulièrement, Il existe un besoin pour développer des architectures de calcul optimisées pour les réseaux de neurones qui réalise les calculs des sommes pondérées en évitant les opérations de multiplication par une donnée nulle reçue par un neurone et/ou par un coefficient synaptique nul.

Art antérieur/ Restrictions de l’état de l’art

[0013] La publication « Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices» de Chen et al. présente un calculateur de réseau de neurones convolutionnel mettant en œuvre un circuit de réseau sur puce (NoC pour Network on Chip) pour traiter la faible densité de données et de poids non-nuls. Cependant, l’inconvénient de cette solution consiste en l’utilisation d’un circuit de type réseau sur puce très volumineux occupant une large surface dans un circuit intégré.

[0014] La publication « An 11 .5TOPS/W 1024-MAC Butterfly Structure Dual-Core Sparsity-Aware Neural Processing Unit in 8nm Flagship Mobile SoC» de Jinook Song et al. présente un calculateur de réseau de neurones convolutionnel mettant en œuvre une sélection des données à lire basée sur la faible densité des poids non-nuls en utilisant un pré-calcul des indices des poids non-nuls. L’inconvénient de cette solution consiste en la limitation à une mise à profit de la faible densité des poids non-nuls uniquement. De plus, La solution proposée par cette publication est limitée à un fonctionnement en inférence étant non adaptée à la réalisation d’une phase d’apprentissage.

Réponse au problème et apport solution [0015] L’invention propose une architecture de calculateur permettant de réduire la consommation électrique et améliorer la performance d’un réseau de neurones implémenté sur une puce en utilisant un circuit de gestion de flux intégré dans la même puce que le réseau de calcul. Le circuit de gestion de flux selon l’invention tire profit de la faible densité des données non-nulles et/ou des poids non-nuls.

[0016] L’invention propose une architecture de calculateur accélérateur de réseau de neurones artificiels comprenant une pluralité d’unités de calcul de type MAC recevant chacune à chaque cycle de calcul une donnée non-nulle et le coefficient synaptique associé à ladite donnée ou inversement. L’amélioration des performances du calcul est réalisée au moyen d’au moins un circuit de gestion de flux permettant de repérer les données nulles lors de leur chargement à partir d’une mémoire de données et de synchroniser la lecture des poids à partir d’une mémoire de poids au moyen d’informations de saut. La solution selon l’invention propose en outre un traitement de la faible densité des données non-nulles conjointement pour les données et les coefficients synaptiques (ou poids). Il est envisageable dans la solution selon l’invention de réaliser ce traitement conjoint sur des vecteurs comprenant chacun une pluralité de couples de type [donnée, poids],

[0017] Dans la description de l’invention, nous allons présenter la solution technique proposée dans le contexte d’un calculateur de réseaux neuro-morphiques. Cependant, la solution proposée est adaptée, d’une façon plus générale, à toute architecture de calcul destinée à réaliser des opérations de multiplications et d’accumulation (MAC) pour calculer des sommes d’un premier type de données A pondérées avec un second type de données B.

[0018] La solution proposée selon l’invention est optimale lorsque le premier type de données A et/ou le second type de données B présentent une faible densité de valeurs non nulles. La solution proposée selon l’invention est symétrique par rapport au type de données A ou B.

[0019] Plus généralement, la solution selon l’invention permet la prise en compte de la « faible densité de données non-nulles » d’au moins une des données d’entrée d’une série d’opérations de type MAC. Cela permet d’optimiser le fonctionnement du calculateur réalisant les opérations MAC via un calcul parcimonieux limitant la consommation d’énergie et le temps de calcul nécessaire. [0020] Dans les parties suivantes le terme anglais « sparcity » a été traduit par parcimonie renvoyant aussi à la notion de « faible densité de données non- nulles ».

Résumé

[0021 ] L’invention a pour objet un circuit de calcul pour calculer une somme pondérée d’un ensemble de premières données par un ensemble de secondes données comprenant :

Au moins une première mémoire de données pour stocker les premières données;

Au moins une seconde mémoire de données pour stocker les secondes données ;

Au moins une unité de calcul configurée pour réaliser le calcul de somme pondérée ;

Au moins un premier circuit séquenceur apte à commander la lecture dans la première mémoire de données selon une première séquence d’adressage prédéfinie ;

Au moins un second circuit séquenceur apte à commander la lecture dans la deuxième mémoire de données selon une seconde séquence d’adressage prédéfinie ;

Au moins un circuit de distribution (DIST) associé à une unité de calcul pour lui délivrer successivement une nouvelle paire de première et seconde données associées ;

Au moins un circuit de gestion de flux comprenant : o Une première mémoire tampon pour stocker tout ou une partie des premières données délivrées séquentiellement par ledit premier circuit séquenceur ; o Une seconde mémoire tampon pour stocker tout ou partie des secondes données délivrées séquentiellement par ledit second circuit séquenceur ; o un premier circuit de traitement comprenant un premier circuit de contrôle des pointeurs de lecture et d’écriture de la première mémoire tampon et étant apte :

■ à analyser les premières données délivrées par ledit premier circuit séquenceur pour rechercher les premières données non-nulles et définir un premier indicateur de saut entre deux données non nulles successives, et ■ à commander le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut; un second circuit de traitement comprenant un second circuit de contrôle des pointeurs de lecture et d’écriture de la seconde mémoire tampon et étant apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut.

[0022] Selon un aspect particulier de l’invention, le circuit de calcul comprend en outre une pluralité de circuits de détection de donnée nulle chacun configuré pour apparier à chaque première donnée d’entrée, un indicateur de donnée nulle ayant un premier état correspondant à une donnée nulle et un second état correspondant à une donnée non-nulle.

[0023] Selon un aspect particulier de l’invention, le premier circuit séquenceur est configuré pour délivrer les premières données par vecteurs de N données successives, N étant un entier naturel non nul. La première mémoire tampon est une mémoire apte à stocker des vecteurs de N données selon un principe « premier entré premier sorti ». Le premier circuit de traitement comprend un étage de gestion de parcimonie par donnée destiné à recevoir les vecteurs provenant de la première mémoire tampon et configuré pour générer un signal de saut par mot entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs. Ledit signal de saut par mot forme une première composante du premier indicateur de saut.

[0024] Selon un aspect particulier de l’invention, le premier circuit de traitement comprend en amont de la première mémoire tampon un étage de gestion de parcimonie par vecteur configuré pour générer un signal de saut par vecteur à destination des deux circuits de contrôle des pointeurs lorsqu’un vecteur est nul. Ledit signal de saut par vecteur forme une seconde composante du premier indicateur de saut.

[0025] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par vecteur comprend un premier circuit logique de détection de vecteur nul configuré pour générer, à partir des indicateurs de donnée nulle , le signal de saut par vecteur lorsqu’un vecteur ne comprend que des données nulles .

[0026] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par donnée comprend :

Un registre pour recevoir un vecteur non-nul à la sortie de la première mémoire tampon;

Un étage encodeur prioritaire configuré pour réaliser les opérations suivantes d’une façon itérative: o la génération d’un signal de commande de distribution correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur.

Le premier circuit de contrôle des pointeurs est configuré pour réaliser dans la même boucle d’itération : o la génération du signal de saut par mot à partir du signal de commande de distribution; o et la mise au premier état de l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur stocké dans le registre suite à sa distribution. L’étage de gestion de parcimonie par donnée comprend un second circuit logique de détection de vecteur nul pour générer un signal de déclenchement de lecture du vecteur suivant lorsque tous les indicateurs de donnée nulle des données appartenant audit vecteur sont au premier état.

[0027] Selon un aspect particulier de l’invention, le second circuit de traitement est apte :

- à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut entre deux données non nulles successives, et

- à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut .

[0028] Le second circuit de traitement est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut . [0029] Selon un aspect particulier de l’invention, le circuit de gestion de flux est configuré pour lire les données des deux mémoires par vecteurs de N couples successifs selon la première et la seconde séquence d’adressage prédéfinie desdites données, N étant un entier naturel non nul. Le premier et second indicateur de saut sont obtenus par une analyse desdits vecteurs tel que les deux données formant un couple distribué soient non-nulles.

[0030] Selon un aspect particulier de l’invention, le circuit de calcul comprenant en outre une pluralité de circuits de détection de couple nul étant chacun configuré pour apparier à chaque couple de première et seconde données d’entrées, un indicateur de couple nulle ayant un premier état correspondant à un couple comprenant au moins une donnée nulle et un second état correspondant à un couple ne comprenant que des données non-nulles .

[0031] Selon un aspect particulier de l’invention, l’ensemble formé par la première et la seconde mémoire tampon est une mémoire apte à stocker des vecteurs de N couples selon un principe « premier entré premier sorti ». L’ensemble formé par le premier et le second circuit de traitement comprend un étage de gestion de parcimonie par donnée destiné à recevoir les vecteurs provenant de l’ensemble de la première et la seconde mémoire tampon et configuré pour générer un signal de saut par mot entre deux couples successifs ayant deux données non nulles à destination des deux circuits de contrôle des pointeurs. Ledit signal de saut par mot forme une première composante du premier indicateur de saut et du second indicateur de saut.

[0032] Selon un aspect particulier de l’invention, le circuit de calcul comprend un étage de gestion de parcimonie par vecteur en amont de la première et la seconde mémoire tampon. L’étage de gestion de parcimonie par vecteur comprend un premier circuit logique de détection de vecteur nul configuré pour générer un signal de saut par vecteur lorsqu’un vecteur ne comprend que des indicateurs de donnée nulle au premier état. Ledit signal de saut par vecteur forme une seconde composante du premier indicateur de saut et du second indicateur de saut.

[0033] Selon un aspect particulier de l’invention, l’étage de gestion de parcimonie par couple comprend : Un registre pour recevoir un vecteur non-nul à la sortie de la mémoire tampon;

Un étage encodeur prioritaire configuré pour réaliser les opérations suivantes d’une façon itérative: o La génération d’un signal de commande de distribution correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur ;

Au moins le premier ou le second circuit de contrôle des pointeurs étant configuré pour réaliser dans la même boucle d’itération : o la mise au premier état de l’indicateur de donnée nulle du couple de données d’entrée distribué dans le vecteur stocké dans le registre, suite à sa distribution ;

Un organe de distribution commandé par le signal de commande de distribution;

Un second circuit logique de détection de vecteur nul pour générer un signal de déclenchement de lecture du vecteur suivant lorsque tous les indicateurs de donnée nulle des couples appartenant audit vecteur sont au premier état.

[0034] Selon un aspect particulier de l’invention, le circuit de calcul est destiné à calculer des données de sortie d’une couche d’un réseau de neurones artificiels à partir de données d’entrée. Le réseau de neurones est composé d’une succession de couches étant chacune constituée d’un ensemble de neurones. Chaque couche est connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques formant au moins une matrice de poids.

[0035] Le premier ensemble de données correspond aux données d’entrée à un neurone de la couche en cours de calcul. Le second ensemble de données correspond aux coefficients synaptiques connectés audit neurone de la couche en cours de calcul. Le circuit de calcul comprend : au moins un groupe d’unité de calcul, chaque groupe d’unité de calcul comprenant une pluralité d’unités de calcul de rang k=1 à K avec K un entier strictement positif, une pluralité de secondes mémoires de données de rang k=1 à K pour stocker le second ensemble de données; [0036] Chaque groupe d’unité de calcul est connecté à un circuit de gestion de flux dédié comprenant en outre : une pluralité de secondes mémoires tampons de rang k=1 à K tel que chaque seconde mémoire tampon distribue à l’unité de calcul de même rang k les données d’entrée provenant de la seconde mémoire de données de même rang k en fonction d’au moins le premier indicateur de saut.

[0037] Selon un aspect particulier de l’invention, le circuit de calcul est destiné à calculer des données de sortie d’une couche d’un réseau de neurones artificiels à partir de données d’entrée. Le réseau de neurones est composé d’une succession de couches étant chacune constituée d’un ensemble de neurones. Chaque couche est connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques formant au moins une matrice de poids.

[0038] Le premier ensemble de données correspond aux coefficients synaptiques connectés audit neurone de la couche en cours de calcul. Le second ensemble de données correspond aux données d’entrée d’un neurone de la couche en cours de calcul. Le circuit de calcul comprend: au moins un groupe d’unité de calcul, chaque groupe d’unité de calcul comprenant une pluralité d’unités de calcul de rang k=1 à K avec K un entier strictement positif, une pluralité de premières mémoires de données de rang k=1 à K pour stocker le premier ensemble de données;

Une pluralité de circuit de gestion de flux de rang k=1 à K, chacun étant configuré tel que pour chaque unité de calcul de rang k appartenant à un groupe d’unité de calcul. le circuit de gestion de flux de rang k est configuré pour distribuer les coefficients synaptiques non-nuls provenant de la première mémoire de données de même rang k vers l’unité de calcul de même rang k.

[0039] D’autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture de la description qui suit en relation aux dessins annexés suivants.

[0040] [Fig.1] représente un exemple de réseau de neurones convolutionnel contenant des couches convolutionnelles et des couches entièrement connectées. [0041 ] [Fig.2a] représente une première illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec un canal d’entrée et un canal de sortie.

[0042] [Fig.2b] représente une deuxième illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec un canal d’entrée et un canal de sortie.

[0043] [Fig.2c] représente une illustration du fonctionnement d’une couche de convolution d’un réseau de neurones convolutionnel avec plusieurs canaux d’entrée et plusieurs canaux de sortie.

[0044] [Fig.3] illustre un exemple d’un schéma fonctionnel de l’architecture générale d’un circuit de calcul d’un réseau de neurones convolutionnel.

[0045] [Fig.4] illustre un schéma fonctionnel d’un exemple de réseau de calcul implémenté sur un système sur puce selon l’invention.

[0046] [Fig.5a] illustre un schéma fonctionnel d’un circuit de gestion de flux CGF mettant à profit la faible densité en valeurs non-nulles selon l’invention.

[0047] [Fig.5b] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un premier mode de réalisation dans lequel l’analyse de parcimonie est réalisée uniquement sur un ensemble des données.

[0048] [Fig.5c] illustre un exemple d’implémentation du premier mode de réalisation de l’invention.

[0049] [Fig.6a] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un second mode de réalisation dans lequel l’analyse de parcimonie est réalisée conjointement sur les deux ensembles des données.

[0050] [Fig.6b] illustre un schéma fonctionnel d’un circuit de gestion de flux de données selon un troisième mode de réalisation dans lequel l’analyse de parcimonie est réalisée conjointement sur les deux ensembles des données.

[0051 ] On rappelle que la solution décrite par l’invention s’applique à tout circuit de calcul réalisant des opérations de multiplication et d’accumulation pour calculer une somme d’un premier ensemble de données A pondérée par un second ensemble de données B. A titre d’illustration et sans perte de généralité, on décrira la solution technique selon l’invention implémentée dans un circuit configuré pour une application de calcul de réseau de neurones artificiels convolutionnel.

[0052] Tout d’abord, on commence par décrire un exemple de structure globale d’un réseau de neurones convolutionnel contenant des couches convolutionnelles et des couches entièrement connectées.

[0053] La figure 1 représente l’architecture globale d’un exemple de réseau convolutionnel pour la classification d'images. Les images en bas de la figure 1 représentent un extrait des noyaux de convolution de la première couche. Un réseau de neurones artificiel (encore appelé réseau de neurones « formel » ou désigné simplement par l'expression « réseau de neurones » ci-après) est constitué d'une ou plusieurs couches de neurones, interconnectées entre elles.

[0054] Chaque couche est constituée d'un ensemble de neurones, qui sont connectés à une ou plusieurs couches précédentes. Chaque neurone d'une couche peut être connecté à un ou plusieurs neurones d'une ou plusieurs couches précédentes. La dernière couche du réseau est appelée « couche de sortie ». Les neurones sont connectés entre eux par des synapses associées à des poids synaptiques, qui pondèrent l'efficacité de la connexion entre les neurones, et constituent les paramètres réglables d'un réseau. Les poids synaptiques peuvent être positifs ou négatifs.

[0055] Les réseaux de neurones dit « convolutionnels » (ou encore « convolutional », « deep convolutional », « convnets ») sont en outre composés de couches de types particuliers telles que les couches de convolution, les couches de regroupement (« pooling » en langue anglo-saxonne) et les couches complètement connectées (« fully connected »). Par définition, un réseau de neurones convolutionnel comprend au moins une couche de convolution ou de « pooling ».

[0056] L’architecture du circuit calculateur accélérateur selon l’invention est compatible pour exécuter les calculs des couches convolutionnelles. Nous allons commencer dans un premier temps par détailler les calculs effectués pour une couche convolutionnelle.

[0057] Les figures 2a-2c illustrent le fonctionnement général d’une couche de convolution. [0058] La figure 2a représente une matrice d’entrée [I] de taille (l_x,l_y) connectée à une matrice de sortie [O] de taille (O_x,O_y) via une couche de convolution réalisant une opération de convolution à l’aide d’un filtre [W] de taille (K_x,K_y).

[0059] Une valeur Oj j de la matrice de sortie [O] (correspondant à la valeur de sortie d’un neurone de sortie) est obtenue en appliquant le filtre [W] sur la sous-matrice correspondant de la matrice d’entrée [I],

[0060] D’une façon générale, on définit l’opération de convolution de symbole 0 entre deux matrices [X] composée par les éléments Xj et [Y] composée par les éléments yjj de dimensions égales. Le résultat est la somme des produits des coefficients Xjj.yjj ayant chacun la même position dans les deux matrices.

[0061] Sur la figure 2a, on a représenté la première valeur O₀,o de la matrice de sortie [O] obtenue en appliquant le filtre [W] à la première sous-matrice d’entrée notée [X1] de dimensions égales à celle du filtre [W], Le détail de l’opération de convolution est décrit par l’équation suivante :

[0062]

Oo,o = [X1] 0 [W]

D’où

[0063]

Oo,0 ⁼ Xoo.Woo + X01.W01 + X02.W02 + X10.W10 + X11.W11 + X12.W12 + X20 W20 ⁺ X21.W21 + X22 W22

[0064] La figure 2b représente un cas général de calcul d’une valeur 03,2 quelconque de la matrice de sortie.

[0065] De façon générale, la matrice de sortie [O] est connectée à la matrice d’entrée [I] par une opération de convolution, via un noyau de convolution ou filtre noté [W] . Chaque neurone de la matrice de sortie [O] est connecté à une partie de la matrice d’entrée [I] ; cette partie est appelée « sous-matrice d’entrée » ou encore « champ récepteur du neurone » et elle a les mêmes dimensions que le filtre [W], Le filtre [W] est commun pour l’ensemble des neurones d’une matrice de sortie [O] .

[0066] Les valeurs des neurones de sortie Oj sont données par la relation suivante :

[0068] Dans la formule ci-dessus, g() désigne la fonction d’activation du neurone, tandis que Sj et Sj désignent les paramètres de décalage (« stride » en anglais) vertical et horizontal respectivement. Un tel décalage « stride » correspond au décalage entre chaque application du noyau de convolution sur la matrice d’entrée. Par exemple, si le décalage est supérieur ou égal à la taille du noyau, alors il n’y a pas de chevauchement entre chaque application du noyau. Nous rappelons que cette formule est valable dans le cas où la matrice d’entrée a été traitée pour rajouter des lignes et des colonnes supplémentaires (Padding en Anglais). La matrice filtre [W] est composée par les coefficients synaptiques w _t,i de rangs t=0 à K_x-1 et l=0 à Ky-1 .

[0069] A titre d’exemple, on définit la fonction ReLu comme fonction d’activation du réseau tel que g(x)=0 si x<0 et g(x)=x si x>0. L’utilisation de la fonction ReLu comme fonction d’activation génère un nombre assez significatif de données nulles dans les couches intermédiaires du réseau. Cela justifie l’intérêt pour la mise à profit de cette caractéristique pour réduire le nombre de cycles de calcul en évitant de réaliser des multiplications avec des données nulles lors du calcul d’une somme pondérée d’un neurone afin d’économiser du temps de traitement et de l’énergie. L’utilisation de ce type de fonction d’activation rend le circuit calculateur compatible avec la solution technique selon l’invention appliquée aux données propagées ou rétro-propagées dans le réseau de neurones.

[0070] Par ailleurs, il est possible de réaliser des opérations de « élagage » (ou « pruning » en Anglais) lors de la phase d’apprentissage du réseau. Il s’agit d’un mécanisme de mise à zéro des coefficients synaptiques ayant des valeurs inférieures à un certain seuil. L’utilisation de ce mécanisme rend le circuit calculateur compatible avec la solution technique selon l’invention appliquée aux poids synaptiques.

[0071] Généralement, chaque couche de neurones convolutionnelle notée Ck peut recevoir une pluralité de matrices d’entrée sur plusieurs canaux d’entrée de rang p=0 à P avec P un entier positif et/ou calculer plusieurs matrices de sortie sur une pluralité de canaux de sortie de rang q=0 à Q avec Q un entier positif. On note [W]_Piq^,k le filtre correspondant au noyau de convolution qui connecte la matrice de sortie [O]_q à une matrice d’entrée [l]_p dans la couche de neurone C_k. Différents filtres peuvent être associés à différentes matrices d’entrée, pour la même matrice de sortie.

[0072] Les figures 2a-2b illustrent un cas où une seule matrice de sortie (et donc un seul canal de sortie) [O] est connectée à une seule matrice d’entrée [I] (et donc un seul canal d’entrée).

[0073] La figure 2c illustre un autre cas où plusieurs matrices de sortie [O]_q sont connectées chacune à plusieurs matrices d’entrée [l]_p. Dans ce cas, chaque matrice de sortie [O]_q de la couche C_k est connectée à chaque matrice d’entrée [l]_p via un noyau de convolution [W]_{p q} ^,k qui peut être différent selon la matrice de sortie.

[0074] Par ailleurs, lorsqu’une matrice de sortie est connectée à plusieurs matrices d’entrée, la couche de convolution réalise, en plus de chaque opération de convolution décrite ci-dessus, une somme des valeurs de sortie des neurones obtenues pour chaque matrice d’entrée. Autrement dit, la valeur de sortie d’un neurone de sortie (ou aussi appelé canaux de sortie) est dans ce cas égale à la somme des valeurs de sorties obtenues pour chaque opération de convolution appliquée à chaque matrice d’entrée (ou aussi appelé canaux d’entrée)

[0075] Les valeurs des neurones de sortie Oj de la matrice de sortie [O]_q sont dans ce cas données par la relation suivante :

[0077] Avec p=0 à P le rang d’une matrice d’entrée [l]_p connectée à la matrice de sortie [O]_q de la couche C_k de rang q=0 à Q via le filtre [W]_{p q} ^,k composé des coefficients synaptiques w_p,_q,t,i de rangs t=0 à K_x-1 et l=0 à K_y-1 .

[0078] La figure 3 illustre un exemple d’un diagramme fonctionnel de l’architecture générale du circuit de calcul d’un réseau de neurone convolutionnel selon l’invention.

[0079] Le circuit de calcul d’un réseau de neurone convolutionnel CALC, comprend une mémoire volatile externe MEM_EXT pour stocker les données d’entrée et de sortie de tous les neurones d’au moins la couche du réseau en cours de calcul pendant une phase d’inférence ou d’apprentissage et un système intégré sur une même puce SoC. [0080] Le système intégré SoC comprend un réseau de calcul MAC_RES constitué d’une pluralité d’unités de calcul pour calculer des neurones d’une couche du réseau de neurones, une mémoire volatile interne MEMJNT pour stocker les données d’entrée et de sortie des neurones de la couche en cours de calcul, un étage mémoire de poids MEM_POIDS comprenant une pluralité de mémoires non volatiles internes de rang n=0 à N-1 notées MEM_POIDS_n pour stocker les coefficients synaptiques des matrices de poids, un circuit de contrôle des mémoires CONT_MEM connecté à l’ensemble des mémoires MEMJNT, MEM_EXT et MEM_POIDS pour jouer le rôle d’interface entre la mémoire externe MEM_EXT et le système sur puce SoC, un ensemble de générateurs d’adresses ADDJ3EN pour organiser la distribution de données et des coefficients synaptiques lors d’une phase de calcul et pour organiser le transfert des résultats calculés à partir des différentes unités de calcul du réseau de calcul MAC_RES vers l’une des mémoires MEM_EXT ou MEMJNT.

[0081] Le système sur puce SoC comprend notamment une interface image notée I/O pour recevoir les images d’entrée pour l’ensemble du réseau lors d’une phase d’inférence ou apprentissage. Il convient de noter que les données d’entrées reçues via l’interface I/O ne sont pas limitées à des images mais peuvent être, plus généralement, de nature diverse.

[0082] Le système sur puce SoC comprend également un processeur PROC pour configurer le réseau de calcul MAC_RES et les générateurs d’adresses ADDJ3EN selon le type de la couche neuronale calculée et la phase de calcul réalisée. Le processeur PROC est connecté à une mémoire non-volatile interne MEM_PROG qui contient la programmation informatique exécutable par le processeur PROC.

[0083] Optionnellement, le système sur puce SoC comprend un accélérateur de calcul de type SIMD (Single Instruction on Multiple Data) connecté au processeur PROC pour améliorer la performance du processeur PROC.

[0084] Les mémoires de données externe MEM_EXT et interne MEMJNT peuvent être réalisées avec des mémoires de type DRAM.

[0085] La mémoire de données interne MEMJNT peut aussi être réalisée avec des mémoires de type SRAM. [0086] Le processeur PROC, l’accélérateur SIMD, la mémoire de programmation MEM_PROG, l’ensemble des générateurs d’adresse ADD_GEN et le circuit de contrôle des mémoires CONT_MEM font partie des moyens de contrôle du circuit de calcul d’un réseau de neurones convolutionnel CALC.

[0087] Les mémoires des données de poids MEM_POIDS_n peuvent être réalisées avec des mémoires basées sur une technologie NVM émergente .

[0088] La figure 4 illustre un exemple d’un schéma fonctionnel du réseau de calcul MAC_RES implémenté dans le système sur puce SoC selon un premier mode de réalisation de l’invention. Le réseau de calcul MAC_RES comprend une pluralité de groupes d’unités de calcul notés Gj de rang j=1 à M avec M un entier positif, chaque groupe comprend une pluralité d’unités de calcul noté PE_n de rang n=0 à N-1 avec N un entier positif représentant le nombre de canaux de sortie.

[0089] Sans perte de généralité, l’exemple d’implémentation illustré sur la figure 4 comprend 9 groupes d’unités de calcul ; chaque groupe comprend 128 unités de calcul noté PE_n. Ce choix de conception permet de couvrir un large panel de types de convolution tel que 3x3 stridel , 3x3 stride2, 5x5 stridel , 7x7 stride2, 1x1 stridel et 11x11 stride4 basé sur le parallélisme spatial assuré par les groupes d’unités de calcul et tout en calculant parallèlement 128 canaux de sortie.

[0090] Pendant le calcul d’une couche de neurones, chacun des groupes d’unités de calcul Gj reçoit les données d’entrée Xÿ provenant d’une mémoire intégrée dans le réseau de calcul MAC_RES notée MEM_A comprenant une des données d’entrée Xÿ d’une couche en cours de calcul. La mémoire MEM_A, reçoit un sous- ensemble des données d’entrée de la mémoire externe MEM_EXT ou de la mémoire interne MEMJNT. Des données d’entrée provenant de un ou plusieurs canaux d’entrée sont utilisées pour le calcul d’une ou plusieurs matrices de sortie sur un ou plusieurs canaux de sortie.

[0091] La mémoire MEM_A comprend un port d’écriture connecté aux mémoires MEM_EXT ou MEMJNT et 9 ports de lecture connectés chacun à un circuit de gestion de flux CGF lui-même connecté à un groupe d’unité de calcul Gj Pour chaque groupe Gj d’unités de calcul PE_n, le circuit de gestion de flux CGF est configuré pour distribuer à chaque cycle de calcul des données d’entrée xy non- nulles provenant de la première mémoire de données MEM_A vers les unités de calcul PE_n appartenant au groupe Gj.

[0092] Comme décrit précédemment, le système sur puce SoC comprend une pluralité de mémoires de poids MEM_POIDS_n de rang n=0 à N-1 . Le circuit calculateur comprend en outre une pluralité de mémoires tampons de poids notées BUFF_B_nj de rang n=0 à N-1 et de rang j=1 à M. La mémoire tampon de rang n et j reçoit les poids provenant de la mémoire de poids MEM_POIDS_n de rang n pour les distribuer vers l’unité de calcul PE_n de même rang n appartenant au groupe Gj de rang j. A titre d’exemple, la mémoire de poids de rang 0 MEM_POIDSo est connectée à 9 mémoires tampon de poids BUFF_B_Oj. La mémoire de tampon de poids BUFF_Boi est connectée à l’unité de calcul PE_o du premier groupe d’unités de calcul Gi, La mémoire tampon de poids BUFF_B₀2 est connectée à l’unité de calcul PEo du deuxième groupe d’unités de calcul G2, et ainsi de suite. L’ensemble des mémoires tampons de poids BUFF_B_Oj de rang j appartiennent au circuit de gestion de flux CGFj associé au groupe de même rang j.

[0093] Chaque circuit de flux CGFj associé à un groupe d’unités de calcul Gj génère en outre une information de saut sous forme d’un ou plusieurs signaux pour commander la lecture des coefficients synaptiques en fonction de l’information de saut générée par chaque circuit de flux CGFj.

[0094] Cela permet de synchroniser, en entrée de chaque unité de calcul PE_n de rang n, la distribution des poids synaptiques Wÿ provenant d’une mémoire de poids MEM_POIDS_n de rang n avec la distribution des données d’entrée Xÿ non-nulles provenant de la première mémoire de données MEM_A via le circuit de flux CGFj. Ainsi le calculateur réalise le calcul de ladite somme pondérée dans le bon ordre.

[0095] Chaque mémoire de poids de rang n MEM_POIDS_n contient toutes les matrices de poids [W]_{p n}’^k associés aux synapses connectées à tous les neurones des matrices de sortie d’une couche de neurones de rang k du réseau.

Ladite matrice de sortie correspondant au canal de sortie du même rang n avec n un entier variant de 0 à 127 dans l’exemple d’implémentation de la figure 4.

[0096] Avantageusement, le réseau de calcul MAC_RES comprend notamment un circuit de calcul de moyenne ou de maximum, noté POOL, permettant de réaliser les calculs de couche de « Max Pool » ou de « Average Pool ». Un traitement de « Max pooling » d’une matrice d’entrée [I] génère une matrice de sortie [O] de taille inférieure à celle de la matrice d’entrée en prenant le maximum des valeurs d’une sous-matrice [X1] par exemple de la matrice d’entrée [I] dans le neurone de sortie Ooo- Un traitement de « average pooling » calcule la valeur moyenne de l’ensemble des neurones d’une sous-matrice de la matrice d’entrée.

[0097] Avantageusement, le réseau de calcul MAC_RES comprend notamment un circuit de calcul d’une fonction d’activation noté ACT, généralement utilisée dans les réseaux de neurones convolutionnels. La fonction d’activation g(x) est une fonction non-linéaire, comme une fonction ReLu par exemple.

[0098] Pour simplifier la description du premier mode de réalisation de l’invention, on se limitera dans ce qui suit à la description de la solution avec une seule unité de calcul PE correspondant à un seul groupe d’unités de calcul et un seul canal de sortie.

[0099] Les données d’entrée x^ reçues par une couche en cours de calcul constituent le premier opérande de l’opération MAC réalisée par l’unité de calcul PE. Les poids synaptiques Wÿ connectés à une couche en cours de calcul constituent la seconde opérande de l’opération MAC réalisée par l’unité de calcul PE.

La figure 5a illustre l’implémentation du circuit de gestion de flux CGF mettant à profit la faible densité en valeurs non-nulles pour les données Xÿ pour limiter le nombre de cycles de calcul d’une somme pondérée.

[0100] Le circuit de calcul CALC comprend une première mémoire de données MEM_A pour stocker le premier ensemble de données correspondant aux données d’entrée Xÿ ; une seconde mémoire de données MEM_B (correspondant à MEM_POIDSo) pour stocker le second ensemble de données correspondant aux poids synaptiques Wÿ _; et une unité de calcul PE₀ pour réaliser le calcul d’une somme des données d’entrée Xÿ pondérée par les poids synaptiques Wÿ .

[0101] Le circuit de calcul CALC comprend en outre un circuit de gestion de flux CGF configuré pour distribuer à chaque cycle une donnée d’entrée xij non-nulle provenant de la première mémoire de données MEM_A vers l’unité de calcul PE afin de ne pas réaliser les opérations de multiplication par des données d’entrée nulles. De plus, le circuit de gestion de flux CGF est configuré pour générer au moins un indicateur de saut selon le nombre de données nulles sautées entre deux données non nulles distribuées successivement. Le ou les indicateurs de saut permettent de générer alors une nouvelle séquence de distribution comprenant uniquement des données non-nulles. Plus généralement, les indicateurs de saut sont utilisés pour synchroniser la distribution des poids synaptiques à partir de la seconde mémoire MEM_B pour réaliser la multiplication d’une donnée d’entrée Xÿ avec le poids synaptique Wjj correspondant.

[0102] A titre d’exemple, les données d’entrée d’une matrice d’entrée [I] dans la mémoire externe MEM_A sont rangées tel que tous les canaux pour un même pixel de l’image d’entrée sont disposés séquentiellement. Par exemple, si la matrice d’entrée est une image matricielle de taille NxN composée de 3 canaux d’entrée de couleurs RGB (Red, Green, Blue en anglais) les données d’entrée Xj sont rangées de la manière suivante :

[0103]

X00R X00G XoOB , Xoi R Xoi G Xoi B , X02R Xo2G Xo2B , ■ ■ ■ , Xo(N-1)R XQ(N-1)G XO(N-1)B

X-10R X-i OG X-i OB , X-I 1 R X-11 G X-| 1 B , X-| 2R X-|2G X-|2B , ■ ■ ■ , X-| (N-1)R Xi(N-1)G X-| (N-1)B

X20R X20G X20B , X21 R X21 G X21 B , X22R X22G X22B , ■ ■ ■ , X2(N-1)R X2(N-1)G X2(N-1)B

[0104]

X(N-1)0R X(N-1)OG X(N-1)0B , X(N-1)1 R X(N-1)1G X(N-1)1 B , ■ ■ ■ , X(N-1) (N-1)R X(N-1) (N-1)G X(N-1) (N-1)B

[0105] La seconde mémoire de données MEM_B (correspondant à MEM_POIDSo) est connectée à une mémoire tampon de poids BUFF_B pour stocker un sous- ensemble des poids Wÿ provenant de la mémoire MEM_B.

[0106] Le circuit calculateur comprend un premier circuit séquenceur SEQ1 apte à commander la lecture dans la première mémoire de données MEM_A selon une première séquence d’adressage prédéfinie. La première séquence d’adressage constitue une séquence brute avant le traitement de parcimonie objet de l’invention.

[0107] De même, le circuit calculateur comprend en outre un second circuit séquenceur SEQ2 apte à commander la lecture dans la deuxième mémoire de données MEM_B selon une seconde séquence d’adressage prédéfinie.

[0108] Le circuit calculateur comprend en outre un circuit de distribution DIST associé à chaque unité de calcul PE pour lui délivrer successivement une nouvelle paire de première et seconde données associées à la sortie du circuit de gestion de flux CGF.

[0109] Le circuit de gestion de flux CGF reçoit les données Xÿ sous forme de vecteurs V=(a1 , a2, a3, ... aL) composés de L données avec L un entier strictement positif. A titre d’exemple, on prend L=4, ainsi le circuit de gestion de flux CGF reçoit et traite dans un premier temps un premier vecteur Vi=( X_OOR X_OOG XOOB , XOI R ), puis un deuxième vecteur V₂=( XOI G XOI B , X02R XO2G) et ainsi de suite jusqu’au dernier vecteur V_k=( X(N-i) <N-2)B, X(N-I) <N-I)R, X(N-I) <N-I)G, X(N-I) <N-I)B )■

[0110] Pour simplifier l’illustration des modes de réalisation de l’invention nous allons considérer la séquence suivante : Vi=( x-, x₂, x₃ , x₄ ), V₂=( x₅ x₆, x₇ , x₈ ), v₃=( X9. X10, X11 , X1₂ ) ... V_k ⁼( x ₄(k-i)+i _: x₄(k-i)+2, x_4(k-i)₊₃ , x_4(k-i)₊₄ ) avec k un entier naturel non nul.

[0111 ] Le circuit de gestion de flux CGF comporte une première mémoire tampon BUFF_A pour stocker tout ou une partie des premières données délivrées séquentiellement par le premier circuit séquenceur SEQ1 et une seconde mémoire tampon BUFF_B pour stocker tout ou partie des secondes données délivrées séquentiellement par le second circuit séquenceur SEQ2.

[0112] Le circuit de gestion de flux CGF comprend en outre un premier circuit de traitement CT_A pour traiter un vecteur V1 stocké dans la mémoire tampon BUFF_A et un second circuit de traitement CT_B pour traiter les coefficients synaptiques stockés dans la mémoire tampon BUFF_B.

[0113] La mémoire tampon BUFF_A fonctionne selon un principe « premier entré premier sorti » ou FIFO acronyme de l’expression anglaise « First In First Out ».

[0114] Le premier circuit de traitement CT_A comprend un premier circuit de contrôle des pointeurs ADD1 de lecture et d’écriture de la première mémoire tampon BUFF_A. Le premier circuit de traitement CT_A réalise les opérations suivantes pour obtenir une nouvelle séquence ne comprenant pas de données d’entrée Xj nulles. Premièrement le premier circuit de traitement CT_A réalise une analyse des premières données Xj délivrées par ledit premier circuit séquenceur SEQ1 sous forme de vecteurs pour rechercher les premières données nulles et définir un premier indicateur de saut is1 entre deux données non nulles successives. Deuxièmement, le premier circuit de traitement CT_A est configuré pour commander le transfert vers le circuit de distribution DIST d’une première donnée lue dans la première mémoire tampon BUFF_A de données en fonction dudit premier indicateur de saut is1 .

[0115] Le second circuit de traitement CT_B comprend symétriquement un second circuit de contrôle des pointeurs ADD2 de lecture et d’écriture de la seconde mémoire tampon. Le circuit de traitement CT_B est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon BUFF_B de données en fonction dudit premier indicateur de saut is1 .

[0116] Avantageusement, il est envisageable pour un mode de réalisation particulier que le second circuit de traitement CT_B réalise des opérations d’analyse des secondes données (dans ce cas il s’agit des poids Wj) délivrées par le second circuit séquenceur SEQ2 pour rechercher les secondes données nulles et définir un second indicateur de saut is2 entre deux données non nulles successives. De plus le second circuit de traitement CT_B commande le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon BUFF_B de données en fonction desdits premier et second indicateurs de saut is1 et is2. Dans ce cas, l’ensemble du premier et du second circuit de traitement CT_B et CT_A est apte à commander le transfert vers le circuit de distribution DIST d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut.

[0117] La figure 5b illustre un premier mode de réalisation de l’invention dans lequel l’analyse de parcimonie est réalisée uniquement sur la première séquence d’adressage des premières données d’entrée Xj pour générer un premier indicateur de saut is1 .

[0118] Le transfert vers le circuit de distribution d’une première donnée Xj lue dans la première mémoire tampon MEM_A de données est réalisé en fonction du premier indicateur de saut is1. Le transfert vers le circuit de distribution DIST d’une seconde donnée Wj lue dans la deuxième mémoire tampon BUFF_B de données est réalisée en fonction du premier indicateur de saut is1 . On parle ici d’une disposition maitre- esclave car la nouvelle séquence de distribution de l’ensemble des secondes données est dépendante du premier indicateur de saut is1 résultant de l’analyse de la séquence d’adressage des premières données d’entrée Xj. Le premier circuit de traitement CT_A comprend un étage de gestion de la parcimonie par données SPAR2 configuré pour générer un signal de saut par mot mot_0 entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs ADD1 et ADD2. Le signal de saut par mot mot_0 constitue une première composante du premier indicateur de saut is1 .

[0119] Avantageusement, le circuit de gestion de flux CGF comprend en amont de la première mémoire tampon BUFF_A un étage de gestion de parcimonie par vecteur SPAR1 configuré pour générer un signal de saut par vecteur vect_0 à destination des deux circuits de contrôle des pointeurs ADD1 et ADD2 lorsqu’un vecteur V1 est nul. Le signal de saut par vecteur vect_0 constitue une seconde composante du premier indicateur de saut is1.

[0120] L’étage de gestion de parcimonie par vecteur SPAR1 est configuré pour traiter les vecteurs de données V fournis l’un à la suite de l’autre par la mémoire de données MEM_A en détectant si un vecteur V=(x₁, x₂ , x₃, x₄) est un vecteur nul dans le sens où xi= x₂ = x₃= x₄ = 0. Lorsqu’un vecteur nul est détecté par le premier étage de gestion de parcimonie par vecteur SPAR1 , ce dernier génère un signal de saut par vecteur vect_0 vers le générateur d’adresse ADD1 pour ne pas écrire le vecteur nul détecté dans la mémoire tampon BUFF_A et passer au traitement du vecteur suivant. On obtient ainsi dans la mémoire BUFF_A un empilement de vecteurs V de quatre données Xj comprenant au moins une donnée non nulle.

[0121] Pour réaliser la détection d’un vecteur nul il est possible de calculer pour chaque donnée xi, x₂ , x₃, x₄ du vecteur en cours de traitement un indicateur de donnée nulle à l’intérieur de l’étage de gestion de parcimonie par vecteur SPAR1 ou préalablement dans la chaine de flux de données. Pour chaque donnée xi, x₂ , x₃, x₄ du vecteur V, l’indicateur de donnée nulle peut prendre la forme d’un bit additionnel concaténé au mot de bits constituant la donnée elle-même.

[0122] Sans perte de généralité, dans les illustrations présentées le calcul de l’indicateur de donnée nulle est une opération interne au circuit de gestion de parcimonie par vecteur SPAR1 . Mais il est possible de calculer et d’apparier à chaque donnée d’entrée Xj, les indicateurs de donnée nulle à l’extérieur du circuit de contrôle de flux CGF. A titre d’exemple, si la donnée x-, est codée sur I bits, on désigne par x1 ₍i+i) le bit de donnée nulle de la donnée xi .

[0123] L’indicateur de donnée nulle x1₍i+i) a un premier état N0 correspondant à une donnée nulle et un second état N1 correspondant à une donnée non-nulle.

[0124] Le second étage de gestion de parcimonie par données SPAR2 est configuré pour traiter successivement les vecteurs stockés dans la mémoire tampon BUFF_A en distribuant successivement et à chaque cycle de calcul une donnée non-nulle du vecteur en cours de traitement.

[0125] Le second étage de gestion de parcimonie par données SPAR2 assure une deuxième fonction consistant en la génération d’un signal de saut par mot mot_0 entre deux données non nulles successives. La combinaison du signal de saut par vecteur vect_0 et du signal de saut par mot mot_0 forme le premier indicateur de saut is1 . Le premier indicateur de saut is1 permet au système d’extraire une nouvelle séquence d’adressage sans données nulles au générateur d’adresse ADD1 . Le générateur d’adresse ADD1 commande ainsi le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon BUFF_A de données en fonction du premier indicateur de saut is1 vers l’unité de calcul PE.

[0126] De plus, la propagation de l’indicateur de saut is1 vers le générateur d’adresse ADD2 associé au circuit de traitement CT_B permet de synchroniser la distribution des poids Wÿ vers l’unité de calcul PE à partir de la mémoire tampon BUFFJ3.

[0127] L’étage de gestion de la parcimonie par données SPAR2 assure une autre fonction consistant en la génération d’un signal de déclenchement de lecture du vecteur suivant suivject lorsque toutes les données non-nulles du vecteur V ont été envoyées à l’organe de distribution DIST. Le signal suivject est propagé au générateur d’adresse ADD1 pour déclencher le traitement du vecteur suivant de la mémoire tampon BUFF_A suite à la fin de l’analyse du vecteur en cours de traitement.

[0128] La solution proposée permet ainsi de minimiser le nombre de cycles de calcul réalisés pour calculer une somme pondérée en évitant de réaliser des multiplications avec des données xy nulles suite à la détection de ces données nulles, et la synchronisation de la distribution des poids w^ au moyen d’au moins une information de saut de lecture.

[0129] La solution décrite selon l’invention est symétrique dans le sens où il est possible d’intervertir les données et les poids dans le mécanisme de détection et de synchronisation. Autrement dit, il est possible d’intervertir la notion de maitre- esclave entre les données Xj et les poids Wj . Ainsi, il est possible de détecter les poids Wÿ nuis et de synchroniser la lecture des données Xj selon une information de saut calculée à partir du traitement des poids Wj.

[0130] La figure 5c représente un exemple d’une implémentation de l’étage de gestion de parcimonie par vecteur et de l’étage de gestion de parcimonie par données, appartenant au circuit de gestion de flux selon l’invention.

Nous illustrons l’exemple où un vecteur V comprend 4 valeurs. L’étage de gestion de parcimonie par vecteur SPAR 1 comprend 4 circuits de détection de donnée nulle MNULL1 , MNULL2, MNULL3 et MNULL4, chacun étant destiné à calculer l’indicateur de donnée nulle xi₍i+i) d’une donnée appartenant au vecteur V reçu par le circuit de gestion de flux CGF. A titre d’exemple, MNULL1 reçoit la donnée x1 à son entrée et génère à sa sortie x1 concaténé avec un bit indicateur de donnée nulle x1 (i+i)= 1 si x1 est nul et x1 (i₊₁₎=0 si x1 est non-nul. Un circuit de détection de donnée nulle MNULL est réalisable avec des portes logiques pour former un circuit logique combinatoire.

[0131 ] Dans l’exemple de la figure 5c, les circuits de détection de donnée nulle ont été intégrés dans l’étage de gestion de parcimonie par vecteur SPAR1 mais cela n’est pas limitatif car il est possible de réaliser le calcul de l’indicateur de donnée nulle x1 (i+i) en amont du circuit de gestion de flux CGF et même en amont de la mémoire de stockage MEM_A.

[0132] De plus, l’étage de gestion de parcimonie par vecteur SPAR 1 comprend un registre REGI qui stocke le vecteur en cours d’analyse par SPAR1 sous la forme suivante V1 = (x1 ₍i+i)Xl , x2₍i+i)x2, x3₍i+i)x3, x4₍i+i)x4).

[0133] L’étage de gestion de parcimonie par vecteur SPAR 1 comprend en outre un circuit logique de détection de vecteur nul VNULL1 ayant 4 entrées pour recevoir l’ensemble des indicateurs de donnée nulle Xj(i+i) et une sortie pour générer le signal de saut par vecteur vect_0 indiquant si le vecteur V est nul ou non. On entend par un vecteur nul, un vecteur V1 = (x1 _(i+1)x1 , x2(i₊₁₎x2, x3(i₊₁₎x3, x4(i₊₁₎x4) tel que x1 =x2=x3=x4=0 ou en d’autre terme, un vecteur tel que l’ensemble des indicateurs de valeurs nuis xi₍i+i) appartenant audit vecteur sont au premier état N1. Ainsi, le signal de saut par vecteur vect_0 commande le premier circuit de gestion de mémoire ADD1 pour ne pas écrire dans la mémoire tampon BUFF_A les vecteurs nuis provenant de la première mémoire MEM_A.

[0134] Ainsi, le premier étage de gestion de parcimonie SPAR_1 réalise une première étape de filtrage pour réaliser des sauts de lecture par vecteurs de 4 données lorsqu’un vecteur nul est détecté.

[0135] En régime stationnaire, la mémoire tampon BUFF_A stocke alors les données rangées par vecteurs V successifs, chacun comprenant au moins une donnée non nulle. Le passage à la lecture d’un vecteur à un vecteur suivant à partir de la mémoire tampon BUFF_A est commandé par le circuit de gestion de mémoire ADD1 , et l’ordre de la lecture des vecteurs stockés est organisé selon le principe d’une FIFO « premier entrée premier sortie ».

[0136] D’autre part, l’étage de gestion de parcimonie par donnée SPAR2 comprend un registre REG2 qui stocke le vecteur en cours de traitement par SPAR2. L’étage de gestion de parcimonie par donnée SPAR2 est configuré pour traiter successivement les vecteurs V provenant de la mémoire tampon BUFF_A de la manière suivante : o détecter la position de la première donnée non-nulle appartenant au vecteur en cours de traitement au moyen du bit indicateur de donnée nulle ; o commander la distribution de ladite donnée non-nulle détectée à l’unité de calcul PE ; o mettre au premier état N0 l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur V en cours de traitement. o calculer et générer un signal de saut par mot mot_0 entre deux données non nulles successives,

[0137] Pour un vecteur V en cours d’analyse, les étapes décrites précédemment sont réitérées par SPAR2 jusqu’à ce que tous les indicateurs de donnée nulle du vecteur soient à l’état N0 indiquant que toutes les données non nulles du vecteur V ont été distribuées et déclenchant alors le traitement du vecteur suivant à partir de BUFF_A. L’étage de gestion de la parcimonie par données SPAR2 assure cette fonction en générant le signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de donnée nulle du vecteur sont à l’état NO.

[0138] Pour réaliser les différentes fonctions détaillées précédemment, l’étage de gestion de parcimonie par donnée SPAR2 comprend un étage encodeur prioritaire ENC configuré pour réaliser d’une façon itérative la génération d’un signal de commande de distribution c1 correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur V1 . En effet, l’étage encodeur ENC reçoit en entrée les indicateurs de donnée nulle Xj(i₊₁) du vecteur en cours d’analyse pour générer ledit indice.

[0139] Puis le signal de commande de distribution c1 est propagé comme entrée au circuit de gestion de mémoire ADD1 pour la génération du second indicateur de saut mot_0 ; suivie de la mise au premier état N0 de l’indicateur de donnée nulle de la donnée d’entrée distribuée dans le vecteur V1 stocké dans le registre Reg2 suite à sa distribution .

[0140] Le second étage de gestion de parcimonie par donnée SPAR2 comprend en outre un organe de distribution MUX commandé par le signal de commande de distribution c1 . Un multiplexeur à 4 entrées recevant chacune une donnée Xj du vecteur V et à une sortie peut être utilisé pour implémenter cette fonctionnalité.

[0141] Le second étage de gestion de parcimonie par donnée SPAR2 comprend en outre un second circuit logique de détection de vecteur nul VNUL2 pour générer un signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de donnée nulle des données appartenant au vecteur V1 en cours de traitement sont au premier état N0 et commander la mémoire BUFF_A à travers le circuit de gestion de mémoire ADD1 pour déclencher le traitement du vecteur suivant V2 par SPAR2 au prochain cycle.

[0142] Simultanément pour chaque donnée Xÿ non-nulle distribuée, les deux indicateurs de saut mot_0 et vect_0 forment les deux composantes du premier indicateur de saut is 1 . Ce dernier est propagé vers le second circuit de gestion de mémoire ADD2 qui commande la lecture de la mémoire tampon BUFF_B. Cela permet de distribuer le poids Wÿ associé à la donnée distribuée Xÿ selon la séquence de lecture initialement prévue par les séquenceurs SEQ1 et SEQ2.

[0143] A titre d’illustration, on considère la séquence de données suivante composée des vecteurs successifs Vi=( xi=4, x₂=0, x₃ =0, x₄ =2), V₂=( x₅=0_: x₆=0, x₇=0 , x₈=0 ), V₃=( x₉=0 x₁₀=1, xn=0 , X₁₂=3 ). La première séquence d’adressage initialement prédéfinie qui régit la lecture des données à partir de MEM_A est la suivante : x-i_: x₂, x₃ , x₄, X5 X6, x₇ , x₃, X9 X10, xn , xi₂. La seconde séquence d’adressage initialement prédéfinie qui régit la lecture des poids à partir de MEM_B est w-i, w₂, w₃ , w₄, W5_:W6, w₇ , W8, W9 W10, W11 , wi₂. La nouvelle séquence d’adressage qui régit la lecture des données à partir de MEM_A après le traitement par le circuit de gestion de parcimonie est : x-i. x₄, x , xi₂ et pour les poids wi, w₄, W10, wi₂. L’indicateur de saut is1 =mot_0+vect_0 prend successivement les valeurs suivantes :

■ 1^er cycle : is1 = mot_0 + vect_0 x 4 = 0+0=0

■ 2^eme cycle : is1 = mot_0+vect_0 = 2+0x4=2

■ 3^eme cycle : is1 = mot_0+vect_0 = 1 +1x4=5

■ 4^eme cycle : is1 = mot_0+vect_0 = 1 +0x4=1

[0144] Dans certains modes de réalisation ayant pour application un réseau de neurones convolutionnel, il est possible d’avoir un séquencement initial pour les données et les poids où plusieurs poids sont associés à la même donnée. En effet, pour une convolution nxn, une donnée d’entrée Xj est multipliée par n poids différents de la matrice de poids. Ainsi un saut unitaire dans l’indicateur de saut is1 dans la première séquence des données Xj correspond à n sauts dans la seconde séquence d’adressage des poids Wj.

[0145] La figure 6a représente un deuxième mode de réalisation du circuit de gestion de flux des données CGF’ selon l’invention. La spécificité de ce mode consiste en la gestion de parcimonie conjointe du premier ensemble de données d’entrée (il s’agit dans le cas illustré des données provenant d’une couche dans le réseau Xj) et du second ensemble de données d’entrée (il s’agit dans le cas illustré des poids ou coefficients synaptiques Wj ). [0146] Similairement au premier mode de réalisation, le circuit calculateur CALC sur la figure 6a comprend une première mémoire MEM_A pour stocker les premières données Xj et un premier séquenceur SEQ1 pour commander la lecture de la mémoire MEM_A selon une première séquence prédéfinie.

[0147] Similairement au premier mode de réalisation, le circuit calculateur CALC sur la figure 6a comprend une deuxième mémoire MEM_B pour stocker les deuxièmes données Wj et un deuxième séquenceur SEQ2 pour commander la lecture de la mémoire MEM_B selon une deuxième séquence prédéfinie.

[0148] L’avantage du deuxième mode de réalisation est la gestion de la faible densité en valeurs non-nulles simultanée des deux ensembles de données constituant les opérandes des multiplications pour une somme pondérée. Ainsi, le résultat de compression de la séquence de distribution des données au cours du temps est plus important que dans celui du premier mode de réalisation. En effet, dans la disposition maitre-esclave décrite précédemment, on tient compte de la faible densité en valeurs non-nulles uniquement pour un des deux ensembles de données. Dans le second mode de réalisation, décrit ultérieurement, le circuit de gestion de flux CGF’ traite les deux ensembles simultanément. Pour cela, à partir de la première et la seconde séquence de distribution initiale fournie par SEQ1 et SEQ2, chaque donnée Xj est appariée avec le poids correspondant Wj pour former un couple (Xj _: Wj). Les vecteurs V’i _: V’₂. V’₃, .. V’_k correspondent dans ce cas à des vecteurs de couples V’i=( (xi,wi), (x₂,w₂), (x₃,w₃), (X4W4)), V’₂=( (xs.ws), (X6,w₈), (x₇,w₇), (x₈,w₈)), V’₃=( (x₉,w₉), (x₁₀,w₁₀), (xn.Wn), (x₁₂,w₁₂)) et ainsi de suite.

[0149] Dans le second mode de réalisation, le second circuit de traitement CT_B est apte à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut entre deux données non nulles successives, et à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut .

[0150] Ainsi, le second circuit de traitement CT_B est apte à commander le transfert vers le circuit de distribution d’un poids Wj lu dans la seconde mémoire tampon de données BUFF_B en fonction du premier et du second indicateurs de saut is1 et is2 . De même pour le premier circuit de traitement CT_A, la commande du transfert des données Xj vers une unité de calcul PE est réalisée en fonction du premier et du second indicateurs de saut is1 et is2 .

[0151] L’étage de gestion de parcimonie par vecteur SPAR1 comprend 4 circuits de détection de couple nul CNLILL1 , CNLILL2, CNLILL3 et CNLILL4, chacun étant destiné à calculer l’indicateur de couple nul CP1 <i+i) =(xi,wi)(i+i) d’un couple de données appartenant au vecteur V’ reçu par le circuit de gestion de flux CGF’. On entend par couple nul, chaque couple ayant au moins une composante nulle.

[0152] A titre d’exemple, si CNLILL1 reçoit le couple (xi=1,wi=0) (ou (xi=0,wi=1) ) à son entrée il génère à sa sortie le couple (X-I.W-I) concaténé avec un bit indicateur de couple nul CP1 <i₊i) =(XI,WI)(I₊D à un premier état logique N’0.

[0153] D’autre part, si CNLILL1 reçoit le couple (xi=1 ,wi=2) à son entrée il génère à sa sortie le couple (xi,wi) concaténé avec un bit indicateur de couple nul CP1 <i₊i) =(x₁,w₁)(i₊₁) à un deuxième état logique N’1 .

[0154] Alternativement, il est possible d’apparier l’indicateur de couple nul à chacune des données composantes du couple pour permettre un stockage dans des mémoires distinctes des données tel que chaque première ou deuxième donnée soit concaténée avec un bit indicateur de couple nul associé.

[0155] Un circuit de détection de couple nul CNULL est réalisable avec des portes logiques pour former un circuit logique combinatoire.

[0156] Dans l’exemple de la figure 6a les circuits de détection de couple nul ont été intégrés dans l’étage de gestion de parcimonie par vecteur SPAR1 mais cela n’est pas limitatif car il est possible de réaliser le calcul de l’indicateur de donnée nulle x1(i+i)en amont du circuit de gestion de flux CGF’ et même en amont de la première et de la seconde mémoire de stockage MEM_A et MEM_B.

[0157] Le traitement de parcimonie par vecteur de couple réalisé par l’étage de gestion de parcimonie par vecteur SPAR1 est réalisé d’une manière similaire à celle du premier mode de réalisation. La différence est que le test est réalisé sur les indicateurs de couple nul dans le second mode de réalisation. Ainsi, seulement les vecteurs comprenant au moins un couple ayant deux composantes non-nulles sont transférés aux mémoires tampon BUFF_A et BUFF_B. [0158] Pour la réalisation des mémoires tampons de type FIFO, il est possible de stocker les données Xj et les poids Wj sous forme de couple appartenant à un vecteur de couples dans une mémoire tampon commune MEM_AB. Il est aussi envisageable (comme illustré ici) de garder deux mémoires tampons séparées MEM_A et MEM_B dont l’adressage des pointeurs de lecture et d’écriture est géré respectivement par le premier et le second circuit de contrôle de mémoire ADD1 et ADD2.

[0159] Dans le mode de réalisation illustré, les circuits de traitement CT_A et CT_B se partagent un registre REG2’ pour recevoir un vecteur de couple en cours d’analyse et se partagent un circuit encodeur prioritaire ENC’ et un multiplexeur MUX’ pour distribuer successivement des couples n’ayant aucune composante nulle.

[0160] Au niveau des circuits de traitement CT_A et CT_B, le même principe du premier mode de réalisation est appliqué aux couples de données et aux indicateurs de couple nul préalablement calculés. La nouvelle séquence obtenue dépend alors d’une combinaison du premier indicateur de saut is1 lié à la première séquence des premières données (provenant de MEM_A) et du second indicateur de saut is2 lié à la seconde séquence des secondes données (provenant de MEM_B).

[0161 ] Pour réaliser les différentes fonctions détaillées précédemment, l’étage encodeur prioritaire ENC’ est configuré pour réaliser d’une façon itérative la génération d’un signal de commande de distribution c’1 correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur V’i en cours de traitement. En effet, l’étage encodeur ENC’ reçoit en entrée l’indicateur de couple nul CP1 (i+i) =(xi,wi)(i+i) du vecteur en cours d’analyse pour générer ledit signal de commande de distribution c’1 .

[0162] Puis le signal de commande de distribution c’1 est propagé comme entrée au circuit de gestion de mémoire ADD1 pour la génération du second indicateur de saut mot_0 ; suivie de la mise au premier état N’0 de l’indicateur de couple nul CP1 (i+i) =(x₁,w₁)(i₊₁) de la donnée d’entrée distribuée dans le vecteur V’j stocké dans le registre Reg2’ suite à sa distribution . [0163] Le multiplexeur MUX’ est commandé par le signal de commande de distribution c’1 .

[0164] Les circuits de traitement CT_A et CT_B se partagent un circuit logique de détection de vecteur nul VNUL2 pour générer un signal de déclenchement de lecture du vecteur suivant suivject lorsque tous les indicateurs de couple nul C Pi(i+i) =(Xj, Wj)(i+i) du vecteur en cours de traitement dans le registre REG2’ sont au premier état N0’.

[0165] Nous avons réalisé ainsi un circuit de traitement de la distribution des données et des poids basé sur l’analyse non seulement des données mais aussi des poids permettant de réduire encore plus la taille de la séquence de distribution des données vers les unités de calcul PE en évitant de réaliser des multiplications par des données nulles mais aussi par des poids nuis.

[0166] Selon une variante du mode de réalisation décrit sur la figure 6a, il est possible de partir d’une séquence unique des couples [données, poids] déjà appariés. Ainsi, le circuit de gestion de flux CGF’ comprend un circuit de traitement commun CT_AB car il y a une seule séquence conjointe à traiter. Dans cette variante, un seul indicateur de saut est généré par le circuit de traitement de couple. Cet indicateur de saut conjoint dans la séquence de distribution des couples [données, poids] permet d’éviter la distribution de couple comprenant au moins une valeur nulle. Il est possible de réaliser cette variante en utilisant deux circuits de gestion de mémoire ADD1 et ADD2 générant les mêmes adresses ou alternativement un circuit de gestion de mémoire commun. L’avantage de cette variante est une réduction de la complexité et de la surface du circuit de gestion de flux CGF’ par rapport au mode de réalisation de la figure 6a.

[0167] La figure 6b illustre un troisième mode de réalisation du calculateur selon l’invention permettant de réduire la taille des mémoires tampons du circuit de gestion de flux en tenant compte de la multiplication d’une même donnée Xj par une pluralité de poids (ou coefficients synaptiques).

[0168] En effet, lorsque le circuit calculateur est dédié au calcul d’un réseau de neurones convolutionnel, de taille pxp, avec p>1 , une même donnée est utilisée dans une opération de multiplication avec p poids différents ; ainsi dans la séquence initiale la donnée Xj concernée est recopiée p fois lorsqu’on l’associe à p poids différents. Le problème que pose ce mécanisme consiste à l’augmentation de la taille de la mémoire tampon MEM_A et donc de la surface occupée par le circuit intégré comprenant le circuit calculateur.

[0169] Le mode de réalisation illustré sur la figure 6b vise à surmonter cet inconvénient. En effet, le circuit de gestion de flux est réalisé selon l’architecture suivante : au lieu d’une mémoire tampon fonctionnant en FIFO et stockant les couples [Xj, w , on dispose d’une mémoire tampon fonctionnant en FIFO (noté ici BUFF_B) dédiée uniquement aux poids et d’une mémoire tampon (noté ici BUFF_A) de données séparés.

[0170] Le circuit de gestion de flux conjoint des données et des poids dans le mode de réalisation décrit ne traite pas les données et les poids par couples. D’une part la mémoire tampon de données BUFF_A est une mémoire double port dont le pointeur d’écriture s’incrémente de 1 tous les p cycles modulo la taille de la mémoire tampon BUFF_A. D’autre part la mémoire tampon FIFO notée BUFF_B stockant les poids stocke également les indicateurs de couples nuis préalablement calculés d’une façon similaire au deuxième mode de réalisation. On rappelle pour chaque couple [Xj,Wj] que si au moins l’une des deux composantes du couple est nulle ledit couple est considéré comme un couple nul. Un vecteur est considéré comme un vecteur nul si tous ses couples composants sont nuis selon la définition précédente.

[0171] L’écriture des données Xj dans la mémoire tampon BUFF_A est réalisée ainsi à un rythme p fois plus lent que l’écriture des poids Wj.

[0172] Comme précédemment, les poids sont groupés par vecteurs (de 4 poids Wj par exemple), tandis que le tampon de données BUFF_A a une largeur de mot d’une donnée (il s’agit ici pour les données d’un vecteur de données Xj unitaire).

[0173] Lorsqu’un vecteur dans la mémoire tampon BUFF_B (de type FIFO) ne comprend que les poids de couples dont au moins une des composantes est nulle, le vecteur n’est pas chargé dans BUFF_B et le signal de saut par vecteur est généré d’une manière similaire aux autres modes de réalisation.

[0174] La sélection des couples ayant deux composantes non-nulles est réalisée comme précédemment au moyen d’un encodeur prioritaire ENC avec un critère de choix basé sur les indicateurs de couples non-nuls, permettant ainsi de générer une nouvelle séquence de distribution des poids Wj vers l’unité de calcul PE.

[0175] Par ailleurs, la sélection des données à présenter à l’unité de calcul PE en face de chaque poids est faite en incrémentant le pointeur de lecture de la mémoire tampon de données BUFF_A de (1 + N_ps)/p modulo la taille de la mémoire tampon BUFF_A avec N_ps le nombre de poids sautés dans la nouvelle séquence, obtenu au moyen de l’encodeur prioritaire ENC. En effet, l’encodeur ENC sélectionne le poids du mot de sortie de la mémoire BUFF_B de poids auquel on additionne le nombre de vecteurs nuis sautés multiplié par 4 (si la largeur du vecteur analysé est de 4 couples). C’est ainsi qu’on retrouve la donnée qui était présente, en face du poids sélectionné en sortie, lors du chargement de ce poids dans la mémoire tampon BUFF_B de poids. Le fonctionnement de ce système est donc équivalent à la solution selon le second mode de réalisation avec un traitement conjoint des premières et des secondes données, mais avec une capacité de stockage plus faible pour la mémoire tampon BUFF_A.

Claims

REVENDICATIONS

1 . Circuit de calcul (CALC) pour calculer une somme pondérée d’un ensemble de premières données (A, X) par un ensemble de secondes données (B, W) comprenant :

Au moins une première mémoire de données (MEM_A) pour stocker les premières données (A, X) ;

Au moins une seconde mémoire de données (MEM_B) pour stocker les secondes données (B, W) ;

Au moins une unité de calcul (PE) configurée pour réaliser le calcul de somme pondérée ;

Au moins un premier circuit séquenceur (SEQ1 ) apte à commander la lecture dans la première mémoire de données selon une première séquence d’adressage prédéfinie ;

Au moins un second circuit séquenceur (SEQ2) apte à commander la lecture dans la deuxième mémoire de données selon une seconde séquence d’adressage prédéfinie ;

Au moins un circuit de gestion de flux (CGF) comprenant : o une pluralité de circuits de détection de donnée nulle (MNLILL1 , MNLILL2, MNLILL3, MNLILL4) étant chacun configuré pour détecter les données nulles délivrées par ledit premier circuit séquenceur ; o Une première mémoire tampon (BUFF_A) pour stocker tout ou une partie des premières données délivrées séquentiellement par ledit premier circuit séquenceur ; o Une seconde mémoire tampon (BUFF_B) pour stocker tout ou partie des secondes données délivrées séquentiellement par ledit second circuit séquenceur ; o un premier circuit de traitement (CT_A) comprenant un premier circuit de contrôle des pointeurs (ADD1 ) de lecture et d’écriture de la première mémoire tampon et étant apte : ■ à analyser les premières données délivrées par ledit premier circuit séquenceur pour définir un premier indicateur de saut (is1 ) entre deux données non nulles successives, et

■ à commander le transfert vers le circuit de distribution d’une première donnée lue dans la première mémoire tampon de données en fonction dudit premier indicateur de saut (is1 ) ; un second circuit de traitement (CT_B) comprenant un second circuit de contrôle des pointeurs (ADD2) de lecture et d’écriture de la seconde mémoire tampon et étant apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la deuxième mémoire tampon de données en fonction dudit premier indicateur de saut (is1 ).

2. Circuit de calcul (CALC) selon la revendication 1 dans lequel chaque circuit de détection de donnée nulle (MNULL1 , MNLILL2, MNLILL3, MNLILL4) est configuré pour apparier à chaque première donnée d’entrée (x-i, x₂, x₃, x₄), un indicateur de donnée nulle (xi ₍i+i)) ayant un premier état (NO) correspondant à une donnée nulle et un second état correspondant à une donnée non-nulle (N1 ) .

3. Circuit de calcul (CALC) selon la revendication 1 ou 2 dans lequel : le premier circuit séquenceur (SEQ1 ) est configuré pour délivrer les premières données par vecteurs (V1 , V2) de N données successives, N étant un entier naturel non nul ; la première mémoire tampon (BUFF_A) est une mémoire apte à stocker des vecteurs de N données selon un principe « premier entré premier sorti ». le premier circuit de traitement (CT_A) comprend

Un étage de gestion de parcimonie par donnée (SPAR2) destiné à recevoir les vecteurs (V1 , V2) provenant de la première mémoire tampon (BUFF_A) et configuré pour générer un signal de saut par mot (mot_0) entre deux données non nulles successives à destination des deux circuits de contrôle des pointeurs (ADD1.ADD2) ; ledit signal de saut par mot (mot_0) formant une première composante du premier indicateur de saut (is 1 ).

4. Circuit de calcul (CALC) selon la revendication 3 dans lequel le premier circuit de traitement (CT_A) comprend en amont de la première mémoire tampon (BUFF_A) un étage de gestion de parcimonie (SPAR1 ) par vecteur configuré pour générer un signal de saut par vecteur (vect_0) à destination des deux circuits de contrôle des pointeurs (ADD1 ,ADD2) lorsqu’un vecteur (V1 ) est nul ; ledit signal de saut par vecteur (vect_0) formant une seconde composante du premier indicateur de saut (is1 ).

5. Circuit de calcul (CALC) selon la revendication 4 dans lequel l’étage de gestion de parcimonie (SPAR1 ) par vecteur comprend un premier circuit logique de détection de vecteur nul (VNLIL1 ) configuré pour générer, à partir des indicateurs de donnée nulle (x_1(i+1)) , le signal de saut par vecteur (vect_0) lorsqu’un vecteur (V1 ) ne comprend que des données nulles .

6. Circuit de calcul (CALC) selon l’une quelconque des revendications 3 à 5 dans lequel l’étage de gestion de parcimonie par donnée (SPAR2) comprend :

Un registre (Reg2) pour recevoir un vecteur non-nul (V1 ) à la sortie de la première mémoire tampon (BUFF_A) ;

Un étage encodeur prioritaire (ENC) configuré pour réaliser les opérations suivantes d’une façon itérative: o la génération d’un signal de commande de distribution (c1 ) correspondant à l’indice de la première donnée d’entrée non-nulle du vecteur (V1 ) ; le premier circuit de contrôle des pointeurs (ADD1 ) étant configuré pour réaliser dans la même boucle d’itération : o la génération du signal de saut par mot (mot_0) à partir du signal de commande de distribution (c1 ) ; o et la mise au premier état (NO) de l’indicateur de donnée nulle (x1₍i+i)) de la donnée d’entrée distribuée dans le vecteur (V1 ) stocké dans le registre (Reg2) suite à sa distribution ;

Un second circuit logique de détection de vecteur nul (VNUL2) pour générer un signal de déclenchement de lecture du vecteur suivant (suiv ect) lorsque tous les indicateurs de donnée nulle (x-, _(i+1)) des données appartenant audit vecteur (V1 ) sont au premier état (NO).

7. Circuit de calcul (CALC) selon l’une quelconque des revendications 1 à 6 destiné à calculer des données de sortie (Oj ) d’une couche d’un réseau de neurones artificiels à partir de données d’entrée (Xjj), le réseau de neurones étant composé d’une succession de couches étant chacune constituée d’un ensemble de neurones , chaque couche étant connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques (Wjj ) formant au moins une matrice de poids ([W]_{p q}) ; le premier ensemble de données (A, X) correspondant aux données d’entrée (Xj) à un neurone de la couche en cours de calcul; le second ensemble de données (B, W) correspondant aux coefficients synaptiques (Xj) connectés audit neurone de la couche en cours de calcul; le circuit de calcul (CALC) comprenant : au moins un groupe d’unité de calcul (Gj), chaque groupe d’unité de calcul (Gj) comprenant une pluralité d’unités de calcul (PE_k) de rang k=1 à K avec K un entier strictement positif, une pluralité de secondes mémoires de données (MEM_B, MEM_POIDS) de rang k=1 à K pour stocker le second ensemble de données (B, W); chaque groupe d’unité de calcul (Gj) étant connecté à un circuit de gestion de flux (CGF) dédié comprenant en outre : une pluralité de secondes mémoires tampons (BUFF_B_{0 1}) de rang k=1 à K tel que chaque seconde mémoire tampon distribue à l’unité de calcul (PE_k) de même rang k les données d’entrée (B, W) provenant de la seconde mémoire de données de même rang k en fonction d’au moins le premier indicateur de saut (is1 ).

8. Circuit de calcul (CALC) selon l’une quelconque des revendications 1 à 6 destiné à calculer des données de sortie (Oj,j) d’une couche d’un réseau de neurones artificiels à partir de données d’entrée (Xjj), le réseau de neurones étant composé d’une succession de couches étant chacune constituée d’un ensemble de neurones , chaque couche étant connectée à une couche adjacente via une pluralité de synapses associées à un ensemble de coefficients synaptiques (Wjj ) formant au moins une matrice de poids ([W]_{p q}) ; le premier ensemble de données (A, W) correspondant aux coefficients synaptiques (Wj) connectés audit neurone de la couche en cours de calcul le second ensemble de données (B, X) correspondant aux données d’entrée (Xj) d’un neurone de la couche en cours de calcul; le circuit de calcul (CALC) comprenant : au moins un groupe d’unité de calcul (Gj), chaque groupe d’unité de calcul (Gj) comprenant une pluralité d’unités de calcul (PE_k) de rang k=1 à K avec K un entier strictement positif, une pluralité de premières mémoires de données (MEM_A) de rang k=1 à K pour stocker le premier ensemble de données (A, W) ;

Une pluralité de circuit de gestion de flux (CGF) de rang k=1 à K, chacun étant configuré tel que pour chaque unité de calcul (PE_k) de rang k appartenant à un groupe d’unité de calcul (Gj) : le circuit de gestion de flux de rang k est configuré pour distribuer les coefficients synaptiques non-nuls provenant de la première mémoire de données de même rang k vers l’unité de calcul de même rang k.

9. Circuit de calcul (CALC) selon la revendication 1 , dans lequel le second circuit de traitement est apte :

- à analyser les secondes données délivrées par ledit second circuit séquenceur pour rechercher les secondes données nulles et définir un second indicateur de saut (is2) entre deux données non nulles successives, et

- à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut (is1 , is2); et dans lequel le second circuit de traitement (CT_B) est apte à commander le transfert vers le circuit de distribution d’une seconde donnée lue dans la seconde mémoire tampon de données en fonction desdits premier et second indicateurs de saut (is1 , is2); .

10. Circuit de calcul (CALC) selon la revendication 9 dans lequel le circuit de gestion de flux (CGF’) est configuré pour lire les données des deux mémoires (MEM_A, MEM_B) par vecteurs de N couples successifs selon la première et la seconde séquence d’adressage prédéfinie desdites données ((xi w-i), (x₂ w₂), (xs w₃), (X4 W4)), N étant un entier naturel non nul ; le premier et second indicateur (is1 ,is2) de saut sont obtenus par une analyse desdits vecteurs tel que les deux données formant un couple distribué soient non-nulles.

11 . Circuit de calcul (CALC) selon la revendication 10 comprenant en outre : Une pluralité de circuits de détection de couple nul (CNUL1 , CNUL2, CNUL3, CNUL4) étant chacun configuré pour apparier à chaque couple de première et seconde données d’entrées ((xi wi), (X2W2), (x₃w₃), (x_4iw₄)), un indicateur de couple nulle (CP11+1 ) ayant un premier état (N’0) correspondant à un couple comprenant au moins une donnée nulle et un second état (N’1 ) correspondant à un couple ne comprenant que des données non-nulles .

12. Circuit de calcul (CALC) selon l’une des revendications 10 ou 11 dans lequel : L’ensemble formé par la première et la seconde mémoire tampon (BUFF_A,

BUFF_B) est une mémoire apte à stocker des vecteurs de N couples selon un principe « premier entré premier sorti ».

L’ensemble formé par le premier et le second circuit de traitement (CT_A, CT_B) comprend

Un étage de gestion de parcimonie par donnée (SPAR2) destiné à recevoir les vecteurs (V’1 , V’2) provenant de l’ensemble de la première et la seconde mémoire tampon (BUFF_A, BUFF_B) et configuré pour générer un signal de saut par mot (mot_0) entre deux couples successifs ayant deux données non nulles à destination des deux circuits de contrôle des pointeurs (ADD1 , ADD2) ; ledit signal de saut par mot (mot_0) formant une première composante du premier indicateur de saut (is1 ) et du second indicateur de saut (is2) .

13. Circuit de calcul (CALC) selon l’une quelconque des revendications 10 à 12 comprenant un étage de gestion de parcimonie par vecteur (SPAR1 ) en amont de la première et la seconde mémoire tampon (BUFF_A, BUFF, B), l’étage de gestion de parcimonie par vecteur (SPAR1 ) comprenant : Un premier circuit logique de détection de vecteur nul (VNUL1 ) configuré pour générer un signal de saut par vecteur (vect_0) lorsqu’un vecteur (V’1 ) ne comprend que des indicateurs de donnée nulle (CP11+1) au premier état (N’O) ; ledit signal de saut par vecteur (vect_0) formant une seconde composante du premier indicateur de saut (is1 ) et du second indicateur de saut (is2) .

14. Circuit de calcul (CALC) selon l’une quelconque des revendications 11 à 13 dans lequel l’étage de gestion de parcimonie par couple (SPAR2) comprend :

Un registre (Reg2’) pour recevoir un vecteur non-nul (V’1 ) à la sortie de la mémoire tampon (BUFF_A, BUFF_B) ;

Un étage encodeur prioritaire (ENC’) configuré pour réaliser les opérations suivantes d’une façon itérative: o La génération d’un signal de commande de distribution (c’1 ) correspondant à l’indice du premier couple ayant deux données non-nulles du vecteur (V’1 ) ;

Au moins le premier ou le second circuit de contrôle des pointeurs (ADD1 , ADD2) étant configuré pour réaliser dans la même boucle d’itération : o la mise au premier état (N’O) de l’indicateur de donnée nulle (CP11+1 ) du couple de données d’entrée distribué dans le vecteur (V’1) stocké dans le registre (Reg2’), suite à sa distribution ;

Un organe de distribution (MUX’) commandé par le signal de commande de distribution (c’1 ) ;

Un second circuit logique de détection de vecteur nul (VNUL2) pour générer un signal de déclenchement de lecture du vecteur suivant (suiv ect) lorsque tous les indicateurs de donnée nulle (CP1i+i) des couples appartenant audit vecteur (V’1 ) sont au premier état (N’O).