WO2020012104A1

WO2020012104A1 - Circuit de génération de facteurs de rotation pour processeur ntt

Info

Publication number: WO2020012104A1
Application number: PCT/FR2019/051696
Authority: WO
Inventors: Joël CATHEBRAS; Alexandre CARBON; Renaud Sirdey; Nicolas Ventroux
Original assignee: Commissariat A L'energie Atomique Et Aux Energies Alternatives
Priority date: 2018-07-10
Filing date: 2019-07-09
Publication date: 2020-01-16
Also published as: EP3803574A1; FR3083885A1; US20210334334A1; FR3083885B1

Abstract

La présente invention concerne un circuit de génération de facteurs de rotation (400) pour processeur NTT. Le circuit comprend un module gestionnaire de cache (410), un banc de multiplieurs modulaires (420) et un contrôleur central (430). Le module gestionnaire de cache comprend un contrôleur local (411) et une mémoire cache (412) dans laquelle sont stockés les opérandes pour le calcul des facteurs de rotation futurs. Le banc de multiplieurs modulaires comprend en entrée une matrice d'interconnexion distribuant les opérandes sur les entrées des multiplieurs modulaires. Le circuit peut être configuré pour minimiser la taille mémoire du cache et/ou réduire la latence de calcul de la séquence de facteurs de rotation. Le circuit de génération peut enfin comprendre plusieurs modules gestionnaires de calcul partageant un même banc de multiplieurs modulaires pour générer des séquences de facteurs de rotation sur plusieurs corps finis.

Description

CIRCUIT DE GÉNÉRATION DE FACTEURS DE ROTATION POUR PROCESSEUR NTT

DESCRIPTION

DOMAINE TECHNIQUE

La présente invention concerne le domaine des processeurs NTT (Number Theoretic Transform). Elle trouve notamment application dans la cryptographie sur réseau euclidien, en particulier dans la cryptographie homomorphe.

ÉTAT DE LA TECHNIQUE ANTÉRIEURE

La transformée en nombres entiers ou NTT (Number Theoretic Transform) est connue depuis les années 70 et a retrouvé récemment un intérêt dans les applications cryptographiques.

On rappelle qu'une transformée en nombres entiers est l'équivalent d'une transformée de Fourier dans un corps de Galois de caractéristique q, GF(q) , la racine

2p

primitive d'une transformée de Fourier d'ordre N dans C , à savoir e ^N , étant remplacée par une racine N ème de l'unité du corps GF(q) . Ainsi, N est le plus petit entier n non nul tel que y^h = 1. La transformée en nombres entiers d'une séquence a = a₀,...,a_N-l de N éléments de GF(q ) est définie par une séquence ue :

où les opérations d'addition et de multiplication sont celles du corps GF(q ) .

Il convient de noter que y n'est pas nécessairement une racine primitive de GF(q ) , autrement dit son ordre n'est pas nécessairement égal à l'ordre q - 1 du groupe multiplicatif de GF(q ) mais que l'ordre N de y est nécessairement un diviseur de q - 1. Si N et q sont premiers entre eux, il existe un inverse N ¹ dans le corps de Galois GF(q ) et l'on peut définir la transformée en nombres entiers inverse ou INTT (Inverse NTT) par :

les inverses y ^nk existant dans la mesure où GF(q ) est un corps.

Par analogie avec la transformée de Fourier, les éléments y^L et /^~nk apparaissant dans l'expression (1) ou (2), sont dénommés facteurs de rotation.

De manière générale, la caractéristique q d'un corps est de la forme q = p^m où p est un nombre premier et m est un entier non nul. Nous considérerons dans la suite les corps finis GF(q ) dont la caractéristique est un nombre premier p , dont on sait qu'ils sont isomorphes

Une présentation générale de la NTT pourra être trouvée dans l'article de J.M. Pollard « The fast Fourier transform in a finite field » publié dans Mathematics of Computation, vol. 25, N° 114, avril 1971, pp. 365-374.

La transformée NTT est utilisée en arithmétique RNS (Residue Number System) dans le contexte de la cryptographie sur réseau euclidien où elle permet de simplifier considérablement la multiplication de polynômes de degrés élevés et de grands coefficients.

En effet, on sait que la multiplication de deux polynômes nécessite de calculer la convolution de la séquence des coefficients du premier polynôme avec la séquence des coefficients du second polynôme. En se plaçant dans l'espace dual, c'est-à-dire après NTT, la multiplication des polynômes ne nécessite plus qu'une simple multiplication un à un des coefficients des séquences transformées. Il suffit alors d'effectuer une INTT de la séquence résultante pour obtenir les coefficients de la séquence correspondant au produit des deux polynômes. Cette accélération du calcul polynomial peut s'appliquer à une représentation RNS

N-l

des polynômes. Plus précisément, si l'on considère un polynôme f(x) =

, on peut i= 0

N-l lui faire correspondre un ensemble L de polynômes

où i= 0

= a_t mod p_£ et p, , ! = 0,..., L -l sont des entiers premiers entre eux (et généralement premiers) choisis relativement petits. L'ensemble {p₀,...,

est dénommé base RNS.

Cette représentation des coefficients et, par voie de conséquence, du polynôme associé, est une application immédiate du Théorème des Restes Chinois ou CRT (Chinese

Remainders Theorem). On notera dans la suite

et

N-l

Réciproquement, à une représentation RNS

, ! = 0,.., L - l, on ï=0

N-l

peut associer un polynôme f = ICRT^f^° ...,f^^L~^ défini par f(x) = a_ix où les coefficients cx_{ =

sont donnés par :

mod P (3)

L

et où P ⁼ \\Pe est le produit des nombres premiers utilisés pour la décomposition RNS e=o

des coefficients.

N

Ainsi, la multiplication de deux polynômes de degré N , f(x) =

et i=0

N

être ramenée par représentation RNS et transformée NTT à N.L i=0 N- 1 N- 1

multiplications des coefficients

, k = 0,..., N - l i= 0 i= 0

dans l'espace dual où y₍ est une N ème racine de l'unité du corps Z et cé ^ sont des éléments de Z obtenus par décomposition des coefficients a_i et b_ί dans la base RNS {p_Q, ..., p_L_^\ Il est ensuite possible de revenir à l'espace de départ au moyen d'une transformée inverse INTT de chaque séquence de coefficients C_k ^r> = A_k ^} B_k ^£) ,

N-l k = 0, ..., N - 1 pour obtenir les coefficients en représentation RNS ÿf* = L ‘åcf w i=0 puis les coefficients du polynôme produit h(x) = f (x)g(x) par ICRT. Etant donné que le degré de h(x) est 2N , on peut considérer d'emblée des polynômes de degré N ' = 2N (et donc des racines N ' ème de l'unité) en bourrant de N zéros (zéro padding) les N coefficients de plus forts degrés de f(x) et g(x) . Moyennant cette convention, on peut rester dans le même espace pour le polynôme produit et les polynômes f(x) et g(x) à multiplier.

On pourra trouver une description détaillée de l'application de la transformée NTT à la multiplication de polynômes en représentation CRT dans l'article de W. Dai et al. intitulé « Accelerating NTRU based homomorphic encryption using GPUs » publié dans Proc, of IEEE High Performance Extrême Computing Conférence (HPEC), 2014, 9-11 Sept. 2014.

Une multiplication polynomiale utilisant une transformée NTT des coefficients de polynômes représentés dans une base RNS requiert de disposer des racines de l'unité y_i des corps finis Z ainsi que de leurs puissances

n = 0,..., N - 1 , tant pour le calcul de la transformée NTT des coefficients (en représentation RNS) des polynômes à multiplier que pour le calcul de la transformée INTT des coefficients (en représentation RNS) du polynôme produit dans l'espace dual.

Une première approche consiste à stocker en mémoire les facteurs de rotation {We Y , n = O, . ., N - 1 , pour les corps finis Z , l = 0,..., L - l . Toutefois, étant donné que les degrés des polynômes sont généralement très élevés et que les cryptoprocesseurs doivent pouvoir opérer sur une grande variété de corps finis et de racines de l'unité, la taille mémoire requise est importante.

Une seconde approche consiste à effectuer le calcul des facteurs de rotation à la volée pour les fournir au processeur chargé du calcul de la NTT.

Un objet général de la présente invention est de proposer un circuit de génération de facteurs de rotation pour processeur NTT qui permette d'accélérer les calculs cryptographiques sur réseau euclidien. Un objet plus spécifique de la présente invention est de proposer un circuit de génération de facteurs de rotation qui puisse s'adapter au rythme de traitement d'un processeur NTT par flot, tout en ne requérant que peu de ressources mémoire locale et/ou ne présentant qu'une faible latence de calcul.

EXPOSÉ DE L'INVENTION

La présente invention est définie par un circuit générateur de facteurs de rotation sur au moins un corps fini, pour processeur NTT par flot, ledit circuit générateur étant destiné à générer au moins une séquence de N facteurs de rotation

où y est une racine de l'unité dans ce corps, ledit circuit comprenant

au moins un module gestionnaire de cache comprenant une mémoire cache et un contrôleur local contrôlant l'écriture et la lecture dans la mémoire cache ;

un banc de multiplieurs modulaires comprenant une pluralité de W multiplieurs modulaires opérant en parallèle, chaque multiplieur modulaire effectuant une multiplication sur ledit corps de deux opérandes issus d'un mot lu de la mémoire cache ;

un contrôleur central initialisant la mémoire cache avec les G premiers facteurs de rotation de la séquence et contrôlant le gestionnaire de cache de manière à fournir à chaque cycle de calcul d'une pluralité T = N / W de cycles de calcul, un mot lu de la mémoire cache au banc de multiplieurs modulaires, à écrire dans la mémoire cache, au terme de chaque cycle de calcul, hormis pour le dernier de ladite pluralité, un mot comprenant les W résultats en sortie desdits multiplieurs modulaires, et à fournir au terme de chaque cycle de calcul, en sortie du générateur, ces W résultats comme W facteurs de rotation consécutifs de ladite série. Selon un premier mode de réalisation, le le banc de W multiplieurs modulaires effectue respectivement les multiplications R₀ = U₀U₁ mod p ; R₁ = U₀U₂ mod p

; R_w-1 = UJJ_w moàp où U₀U ..U_W est le mot lu de la mémoire cache et U_w, w = 0,...,W sont les opérandes en entrée du banc des multiplieurs modulaires et R_w, w = 0

- 1 sont les W résultats en sortie de ces multiplieurs.

La mémoire cache comprend avantageusement une première partie de taille W et une seconde partie de taille LatMM + 1 où LatMM est la latence du banc de multiplieurs modulaires, le contrôleur central initialisant le contenu de la première partie de la mémoire cache avec y¹,y²,..,yⁿ et la seconde partie avec y , le mot lu de la mémoire cache pour le premier cycle de calcul étant UJJ_V.JJ_W = yⁿy¹y²... /^w .

Dans ce cas, à chaque fois qu'un facteur de rotation calculé par le banc de multiplieurs modulaires est un multiple de W , une adresse dans la seconde partie de la mémoire cache est incrémentée et le facteur de rotation est stocké à l'adresse ainsi incrémentée.

La mémoire cache peut comprendre en outre un pointeur d'adresse pointant vers l'adresse où lire la valeur de U₀ pour le prochain cycle de calcul, les valeurs de U_V..U_W étant lues de la première partie et le mot U₀U_V..U_W formé par la concaténation de ces valeurs étant fourni au banc de multiplieurs modulaires pour le prochain cycle de calcul.

Selon un second mode de réalisation, le banc de W multiplieurs modulaires effectue respectivement les multiplications R₀ = U₀U₁ mod p ; R₁ = U₁U₁ mod p ;

R₁ = UJJ₂ mod p ... ; R_w-l = U_WU_W mod p où u_ou_n..u_y est le mot lu de la mémoire cache

2 2 2

et U_w, w = 0,... sont les opérandes en entrée du banc des multiplieurs modulaires et

R_w, w = -1 sont les W résultats en sortie de ces multiplieurs.

Avantageusement, la mémoire cache , le contrôleur central

initialisant le contenu de la mémoire cache avec y² ,y² , .,y ² . Dans ce cas, après qu'un mot est lu de la mémoire cache pour préparer un cycle

de calcul, le contenu de cette mémoire est décalé de— et, qu'au terme du cycle de calcul,

le mot constitué par les résultats en sortie du banc de multiplieurs modulaires est stocké à la suite du contenu ainsi décalé.

Avantageusement, quel que soit le mode de réalisation, ledit circuit générateur est destiné à générer une pluralité L de séquences de N facteurs de rotation

où les éléments y, , l = 0,..., L - l sont des racines A/ ème de l'unité dans une pluralité L de corps fini, ledit circuit générateur comprenant :

une pluralité L de modules gestionnaires de cache, chaque module gestionnaire de cache comprenant une mémoire cache et un contrôleur local contrôlant l'écriture et la lecture dans la mémoire cache correspondante ;

un banc de multiplieurs modulaires mutualisé entre les différents modules gestionnaires de cache ;

un contrôleur central initialisant tour à tour les L mémoires cache avec les G premiers facteurs de rotation de la séquence

, et contrôlant chaque gestionnaire de cache de manière à fournir, pour chaque cycle de calcul d'une pluralité T = N /W de cycles de calcul, un mot lu de la mémoire cache au banc de multiplieurs modulaires, à écrire dans la mémoire cache associée à ce gestionnaire de cache, au terme de chaque cycle de calcul, hormis pour le dernier de ladite pluralité, un mot comprenant les W résultats en sortie du banc de multiplieurs modulaires, et à fournir au terme de chaque cycle de calcul, en sortie du générateur, ces W résultats comme un ensemble de W facteurs de rotation consécutifs de ladite séquence, les ensembles de W facteurs de rotation relatifs aux L séquences étant fournis de manière entrelacée.

Chaque module gestionnaire de cache peut être pourvu en entrée d'un multiplexeur contrôlé par le contrôleur central, de manière à transmettre à la mémoire cache associée au module gestionnaire de cache, soit un mot d'initialisation les G premiers facteurs de rotation de la séquence correspondante, soit W résultats du banc de multiplieurs modulaires. BRÈVE DESCRIPTION DES DESSINS

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture d'un mode de réalisation préférentiel de l'invention, décrit en référence aux figures jointes parmi lesquelles :

La Fig. 1 représente de manière schématique un graphe des dépendances pour la génération des facteurs de rotation ;

La Fig. 2 représente de manière schématique un premier exemple de recouvrement du graphe de la Fig. 1, correspondant à une première stratégie de génération des facteurs de rotation ;

La Fig. 3 représente de manière schématique un second exemple de recouvrement du graphe de la Fig. 1, correspondant à une seconde stratégie de génération des facteurs de rotation ;

La Fig. 4 représente de manière schématique l'architecture générale d'un circuit de génération de facteurs de rotation selon un premier mode de réalisation de l'invention ;

La Fig. 5 représente de manière schématique l'architecture générale d'un banc de multiplieurs modulaires pour le circuit de génération de la Fig. 4 ;

La Fig. 6A représente de manière schématique un premier exemple de banc de multiplieurs modulaires ;

La Fig. 6B illustre la stratégie de génération des facteurs de rotation au moyen du banc de multiplieurs modulaires de la Fig. 6A ;

La Fig. 6C représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation lorsque le banc de multiplieurs modulaires est celui de la Fig. 6A ;

La Fig. 7A représente de manière schématique un second exemple de banc de multiplieurs modulaires ;

La Fig. 7B illustre la stratégie de génération des facteurs de rotation au moyen du banc de multiplieurs modulaires de la Fig. 7A ;

La Fig. 7C représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation lorsque le banc de multiplieurs modulaires est celui de la Fig. 7A ; La Fig. 8 représente de manière schématique l'architecture générale d'un circuit de génération de facteurs de rotation selon un second mode de réalisation de l'invention ;

La Fig. 9 représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation de la Fig. 8.

EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS

Nous considérerons tout d'abord la génération de facteurs de rotation dans un corps fini, que l'on assimilera à Z_p où p est un nombre premier, à un isomorphisme près et donc sans perte de généralité. Si y est une racine N ème de l'unité dans ce corps, le problème en question est de générer l'ensemble des éléments y \n = 0, ..., N -l} . Ces facteurs de rotation sont destinés à être fournis à un processeur NTT ou, de manière équivalente, à un processeur INTT, à une cadence prédéterminée.

La génération des facteurs de rotation peut être représentée à l'aide d'un graphe orienté, dit graphe des dépendances, dans lequel chaque nœud représente une puissance y^h , une puissance y étant associée à autant de nœuds que de manières de la calculer à partir des nœuds précédents. Chaque nœud du graphe, hormis celui représentant la racine y , est supposé avoir un degré entrant (nombre d'arcs aboutissant à ce nœud) inférieur ou égal à 2, autrement dit chaque facteur de rotation y est généré à partir d'au plus 2 facteurs précédents seulement.

La Fig. 1 illustre le graphe des dépendances pour la génération des six premiers éléments de la série { y | n = 0, ..., N -l} . Les arcs identifient les parents de chaque nœud.

Ainsi, par exemple, y ⁶ peut être calculé de six manières différentes selon les parents choisis. Le poids associé à chaque arc est celui du facteur de parenté. Ainsi, un nœud peut être l'extrémité de deux arcs de poids 1 (par exemple y ⁶ est calculé comme le produit yⁱy ⁵ ou y²y^A à partir de deux nœuds parents distincts) ou d'un seul arc de poids 2 (par exemple y ⁶ est calculé comme le produit y³y³ à partir d'un seul nœud parent). Le graphe des dépendances peut être parcouru de manière à minimiser les besoins en mémoire locale ou la latence de calcul pour la génération des facteurs de rotation.

La Fig. 2 représente un premier exemple un recouvrement du graphe de la Fig. 1, visant à minimiser les besoins en ressources mémoire.

Par recouvrement du graphe en question, on entend un sous-graphe dans lequel chaque nœud a pour parents des nœuds de ce sous-graphe et tel que chaque facteur de rotation de la série { y^h | n = 0, ..., N -l} est représenté par un nœud de ce sous-graphe.

Le recouvrement de graphe illustré en Fig. 1 correspond à une minimisation des ressources en mémoire locale pour la génération de la série { y^h | n = 0,..., N -l} . En effet, dans ce cas, il suffit de garder en mémoire la racine de l'unité y et les facteurs de rotation se calculent au moyen de la relation de récurrence suivante :

On note toutefois que la latence de calcul correspondant à cette stratégie de génération est élevée dans la mesure où il faut attendre n étapes de récurrence avant de disposer du facteur de rotation y/¹.

La Fig. 3 représente un second exemple d'un recouvrement du graphe de la Fig. 1, visant à minimiser la latence de calcul.

Ainsi, par exemple, comme illustré sur la Fig. 3, il n'est plus nécessaire d'attendre la génération de y⁵ pour calculer y/⁶. Un facteur de rotation est généré dès que les facteurs de rotation des nœuds parents sont disponibles.

En revanche, cette stratégie de génération nécessite de pouvoir stocker des facteurs de rotation précédemment générés. Par exemple, il sera nécessaire de stocker y/³ pour la future génération de y/⁵ et y/⁶ pendant que l'on calcule y/⁴ = y²y². La stratégie de génération des facteurs de rotation correspondant à ce recouvrement de graphe peut être représentée par la relation de récurrence suivante :

R₀ = l-, R₁ =

Dans les exemples précédents, on a supposé que l'on disposait au départ du seul facteur de rotation y . Toutefois, de manière générale, on pourra disposer de G facteurs de rotations initiaux, correspondant aux G premiers éléments de la série, soit

Dans la suite, nous supposerons en outre que le circuit de génération de facteurs de rotation génère la série y^h | n = 0, ..., N -l} sur plusieurs cycles, la totalité des facteurs de rotation de la série étant générée au bout de T = N /W cycles. A chaque cycle, le processeur NTT effectue une opération radix (similaire à une opération radix dans une FFT) portant sur W données d'entrée.

Nous supposerons enfin, pour des raisons de simplification de la présentation que G = W , autrement dit que l'on dispose d'autant de facteurs de rotation initiaux que la largeur du chemin de données , et que W et N sont des puissance de 2. La Fig. 4 représente de manière schématique l'architecture générale d'un circuit de génération de facteurs de rotation selon un premier mode de réalisation de l'invention.

Le circuit de génération 400 comprend essentiellement un module gestionnaire de cache, 410, un banc de multiplieurs modulaires, 420, et un contrôleur central, 430.

Le module gestionnaire de cache dispose d'un contrôleur local, 411, d'une mémoire cache 412, d'un registre de sortie 415 pour fournir W facteurs de rotation à chaque cycle ainsi que d'un registre de sortie intermédiaire 417 pour fournir, à chaque début de cycle des opérandes issus de la mémoire cache au banc de multiplieurs modulaires. De manière générale, le module gestionnaire de cache a pour fonction de cadencer les calculs de la série de facteurs de rotation selon la stratégie de recouvrement du graphe de dépendances retenue.

Le banc de multiplieurs modulaires reçoit à chaque cycle des opérandes du module gestionnaire de cache, à savoir des puissances y/ stockées dans la mémoire cache, et en déduit les facteurs de rotation à fournir pour le cycle courant. Les facteurs de rotation ainsi calculés sont fournis au registre de sortie 415 et stockés dans la mémoire cache. Plus précisément, les résultats en sortie des multiplicateurs modulaires sont fournis à un registre d'entrée intermédiaire 407 avant d'être transmis au registre de sortie 415 et stockés dans la mémoire cache 412.

Au début de chaque séquence de T cycles, les G facteurs de rotation initiaux y/¹ ,..., y/^G sont fournis au module gestionnaire de cache 410 via un registre d'entrée 405.

Les sorties du registre d'entrée et du registre d'entrée intermédiaire sont multiplexées par le multiplexeur 409. Ce multiplexeur, piloté par le contrôleur central 430, transmet les facteurs de rotation initiaux vers l'entrée du module gestionnaire de cache lors de l'initialisation d'une série de T cycles, puis les facteurs de rotation calculés par le banc de multiplieurs modulaires vers l'entrée du module gestionnaire de cache au début de chacun des T - 1 cycles suivants de la série.

Le contrôleur central 430 génère un ensemble GenCtrl de signaux de contrôle constitué composé des signaux new _ set , compute et new _ data qui pilotent le contrôleur local du module gestionnaire de cache. Le premier signal de contrôle, new _ set , sert à initialiser le gestionnaire de calcul tous les T cycles et en particulier de remettre à zéro les compteurs internes du contrôleur local. Il ordonne également au multiplexeur d'entrée 409 de transmettre au module gestionnaire de cache, les facteurs de rotation initiaux { yⁱ,..., y° J reçus sur le registre d'entrée 405. Le second signal de contrôle, compute , commande au module gestionnaire de cache d'effectuer un cycle de calcul, c'est- à-dire de lire les opérandes dans la mémoire cache et les fournir au banc de multiplieurs modulaires 420. Le troisième signal de contrôle, new _ data , indique au contrôleur local qu'il doit prendre en considération les nouveaux facteurs de rotation calculés par le banc de multiplieurs modulaires. En retour, le contrôleur local informe le contrôleur central lorsqu'il est prêt à effectuer un nouveau calcul au moyen d'une information de disponibilité data _ available . Plus précisément, cette information de disponibilité prend une valeur logique haute lorsque le cache 412 contient les facteurs de rotation permettant de calculer les éléments suivants de la série et que le contrôleur central n'a pas encore commandité ces calculs au moyen du signal compute .

Le contrôleur local comprend un premier compteur comptabilisant le nombre de facteurs de rotation déjà générés, un second compteur comptabilisant le nombre de facteurs de rotation stockés dans la mémoire cache et un troisième compteur comptabilisant le nombre de cycles de calcul demandés par le contrôleur central depuis la dernière initialisation (c'est-à-dire depuis le début de la série). Le contrôleur local comprend un circuit de logique combinatoire recevant les signaux de contrôle du contrôleur central et fournissant les signaux de contrôle des compteurs précités, l'information de disponibilité, les signaux de contrôle de la mémoire cache ainsi que celui du registre de sortie. Le signal de contrôle du registre de sortie permet de fournir sur le bus de sortie les W derniers facteurs de rotation générés.

Le contrôleur central est essentiellement composé d'un circuit de logique combinatoire et d'un registre à décalage. La profondeur du registre à décalage est déterminée en fonction de la latence du banc de multiplieurs modulaires (pour effectuer les calculs) ainsi que de la latence du module gestionnaire de cache (pour mettre à jour le registre de sortie et son registre de sortie intermédiaire). Le registre à décalage avance à chaque cycle d'horloge.

Le contrôleur central reçoit en entrée un signal new _ input lui indiquant qu'un nouvel ensemble de facteurs de rotation initiaux y^L

est disponible sur le bus d'entrée pour une nouvelle série de calculs de facteurs de rotation { y' | n = 0, ..., /V -lJ où y' est une nouvelle racine de l'unité dans Έ_r . Comme on l'a vu plus haut le contrôleur central reçoit également du module gestionnaire de cache l'information de disponibilité data _ available . A partir des signaux new _input et data _ available le circuit de logique combinatoire du contrôleur central génère les signaux de contrôle new _ set , compute et new _ data pour le prochain cycle de calcul. En outre, le circuit de logique combinatoire met à jour l'entrée du registre à décalage à chaque début de cycle de calcul. En sortie du registre à décalage, autrement dit après avoir pris en compte les latences respectives du banc de multiplieurs modulaires, un signal valid est généré, indiquant qu'un jeu de W facteurs de rotation est disponible sur le bus de sortie.

La Fig. 5 représente de manière schématique l'architecture générale d'un banc de multiplieurs modulaires pour le circuit de génération de la Fig. 4.

Elle comprend une matrice d'interconnexion, 510, destinée à recevoir les opérandes issus de la mémoire cache et à les distribuer sur les entrées de W multiplieurs modulaires opérant en parallèle, 520, désignés par

chaque multiplieur modulaire MM_w effectuant une multiplication modulo p de ses deux opérandes d'entrée pour fournir le résultat R_w .

La Fig. 6A représente de manière schématique un premier exemple de banc de multiplieurs modulaires.

Cet exemple d'implémentation correspond à une stratégie de minimisation de la taille de la mémoire cache du module gestionnaire de cache. La matrice d'interconnexion reçoit W + 1 opérandes et les distribue sur les 2 W entrées des multiplieurs modulaires.

Dans cet exemple G = W = 4 et les opérandes sont notés U₀,...,U₄ . Les multiplieurs modulaires MM₀,...,MM₃ effectuent les calculs suivants :

R₀ = U₀U₁ mod p

R₁ = U₀U₂ mod p

R₂ = U₀U₃ mod p

R₃ = U₀U₄ mod p (6)

De manière générale, selon la stratégie de minimisation de la taille du cache, le banc de multiplieurs modulaires effectue les opérations suivantes : R₀ = U₀U₁ mod p

R₁ = U₀U₂ mod p ...

R_w- 1 = U,IJ,_V mod p (7)

La Fig. 6B illustre la stratégie de génération des facteurs de rotation au moyen du banc de multiplieurs de la Fig. 6A pour N = 32 et une latence du banc de multiplieurs modulaires LatMM = 3 . On rappelle que dans l'exemple de la Fig. 6A , G = W = 4 .

On a représenté en 650 à 657 les sorties du banc de multiplieurs modulaires ou plus précisément les données en sortie du multiplexeur 409 (dans la mesure où 650 correspond à l'état d'initialisation), pour 8 cycles de calcul successifs. Les valeurs figurant dans les cases en trait discontinu sont celles qui sont stockées dans une seconde partie de la mémoire cache comme expliqué ci-après.

La Fig. 6C représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation lorsque le banc de multiplieurs modulaires est implémenté comme en Fig. 6A.

On a représenté en 661, les opérandes U₀,...,U₄ en entrée de la batterie des multiplieurs modulaires ; en 662 et 663 une première partie et une seconde partie de la mémoire cache, notées AGRS et AGR0 ; en 665 les résultats R₀,...,R₃ en sortie du banc de multiplieurs modulaires.

La taille de AGRS est égale à W , celle de AGR0 est égale à LatMM + 1 . (on a supposé dans l'exemple illustré que le banc de multiplieurs modulaires présentait une latence LatMM de 3 cycles d'horloge).

Les emplacements mémoire de AGRS sont notés C₀,..., C₃ , ceux de AGR0 sont notés B₀,..., B₃. On stocke dans AGRS en C₀,..., C₃ les derniers résultats fournis par R₀, ...,R₃ et dans AGR0 en B₀,..., B₃, des facteurs de rotation, dits de réserve, définis comme les LatMM + 1 premiers facteurs de rotation y/ de la série où i est un multiple de W . Pour des raisons de clarté, les exposants i ont été représentés en lieu et place des facteurs de rotation correspondants y/ .

Les opérandes U_V...,U₄ sont lus des emplacements mémoire C₀,...,C₃ de AGRS et l'opérande U₀ est lu de AGRO à l'adresse donnée par l'index Ind en 664. Cet index est généré par le contrôleur local du module gestionnaire de cache.

Le calcul de la série des facteurs de rotation {^¹,...,^³²} débute avec la réception des valeurs initiales {^¹,...,^⁴} . Ces valeurs initiales sont stockées (au temps t₀ ) en mémoire cache aux emplacements C₀,..., C₃ . La valeur initiale yf étant un facteur de rotation de réserve, elle est en outre stockée en B₀ . Les valeurs stockées dans la mémoire cache sont fournies au banc de multiplieurs modulaires avec U₀ =

= y/⁴ ,

Les résultats apparaissant en sortie du banc de multiplieurs modulaires au bout de LatMM cycles d'horloge (au temps t₃) sont alors R₀ = y⁵ , R₁ = y⁶ , R₂ = y/¹ , R₃ = y^% . Ces résultats sont ensuite stockés (au temps t₄ ) aux emplacements C₀,..., C₃ de AGRS et y étant un facteur de rotation de réserve est stocké à l'emplacement B_l . Les opérandes U_V...,U₄ sont lus des emplacements mémoire C₀,...,C₃ de AGRS et l'opérante U₀ est lu de AGRO à l'adresse donnée par l'index Ind , soit de fi_j , soit : U₀ = (B₁ ) = y/^& ,

Les résultats apparaissant en sortie du banc de multiplieurs modulaires au bout de LatMM cycles d'horloge (au temps ί₈ ) sont alors R₀ = y⁹ , R₁ = y^iV> , R₂ = y , R₃ = y^h . Le processus se poursuit jusqu'à la génération de la dernière série de W facteurs de rotation en t₁₄, soit

La Fig. 7A représente de manière schématique un second exemple de banc de multiplieurs modulaires. Cet exemple d'implémentation correspond à une génération au plus tôt des facteurs de rotation.

W

La matrice d'interconnexion reçoit ici— +1 opérandes et les distribue sur les 2 W

entrées des multiplieurs modulaires.

Dans cet exemple G = W = 4 et les opérandes dont notés U₀,U_VU₂ . Les multiplieurs modulaires MM₀,...,MM₃ effectuent les calculs suivants :

R₀ = U₀U₁ mod p

R₁ = U₁U₁ mod p

R₁ = U ₁U₂ mod p

R₃ = U₂U₂ mod p (8)

De manière générale, selon la stratégie de minimisation de la latence de calcul, le banc de multiplieurs modulaires effectue les opérations suivantes :

R₀ = U₀U₁ mod p

R₁ = U₁U₁ mod p

R₁ = U_lU₂ mod p ... mod p (9)

La Fig. 7B illustre la stratégie de génération des facteurs de rotation au moyen du banc de multiplieurs modulaires de la Fig. 7A.

On a représenté en 750 à 757 les sorties du banc de multiplieurs modulaires ou plus précisément les données en sortie du multiplexeur 409 (dans la mesure où 750 correspond à l'état d'initialisation), pour 8 cycles de calcul successifs. La Fig. 7C représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation lorsque le banc de multiplieurs modulaires est implémenté comme en Fig. 7A.

On a représenté en 761, les opérandes U₀,U_VU₂ en entrée de la batterie des multiplieurs modulaires ; en 763 les emplacements de la mémoire cache C₀,..., C₅ ; en 765 les résultats R₀,...,R₃ en sortie du banc de multiplieurs modulaires. On a supposé ici que la latence du banc de multiplieurs modulaires était de LatMM = 5 cycles d'horloge.

Le calcul de la série des facteurs de rotation {^¹, ..., ^³²} débute comme précédemment avec la réception des valeurs initiales yⁱ , . ., y⁴ . Les valeurs initiales {^², ..., ^⁴J sont stockées (au temps t₀ ) en mémoire cache aux emplacements C₀,..., C₂ .

Les valeurs stockées dans la mémoire cache sont fournies au banc de multiplieurs modulaires avec U_Q = (C_Q ) = /² , U₁ = (C₁ ) = y/ⁱ , U₂ = (C₂ ) = /⁴. Une fois ces valeurs fournies, le contenu de la mémoire est décalé de 2 emplacements au coup d'horloge suivant (au temps i . Ainsi, dans le cas présent, après décalage, seule la valeur y⁴ reste stockée, à l'emplacement C₀ .

Les résultats apparaissant en sortie du banc de multiplieurs modulaires au bout de LatMM (au temps i₅ ) sont alors

. Les résultats R₀, ...,R₃ sont stockés à la suite de C₀ aux emplacements C_V .., C₄ pour la préparation des calculs suivants.

Les valeurs stockées en C₀, C_V C₂ sont ensuite fournies (au temps t₇ ) au banc de multiplieurs modulaires, à savoir : U₀ =

= /⁶ . Une fois ces valeurs fournies, le contenu de la mémoire cache est à nouveau décalé de deux emplacements. Ainsi, seules restent stockées dans le cache les valeurs y⁶ , y^Ί , y* .

Au temps i₈, les valeurs stockées dans la mémoire cache sont fournies au banc de multiplieurs modulaires avec U_Q = (C_Q ) = /⁶ ,

= y , puis le contenu de la mémoire cache est à nouveau décalé de deux emplacements : seule la valeur y* reste stockée en C₀.

Les résultats apparaissant en sortie du banc de multiplieurs modulaires au temps i₁₂ sont alors R₀ = y⁹ , R_l = y ° , R₂ = ¹ , R₃ = y^gi . Les résultats R_O,...,R₃ sont stockés à la suite de C₀ aux emplacements C_V .., C₄ pour la préparation des calculs suivants. Au temps i₁₃ , les valeurs stockées sont fournies à la batterie de de multiplieurs modulaires avec

Le processus se poursuit selon la même logique jusqu'au temps t₂₀ où le banc de multiplieurs modulaires fournit les derniers W facteurs de rotation

.

Dans le cas présent, toutes choses étant égales par ailleurs, le calcul de la série complète {^¹, ..., ^³²} est aussi rapide dans le premier exemple que dans le second. En effet, dans le premier exemple si la latence avait été LatMM = 5 , le calcul aurait également été terminé qu'au temps t₂₀ . Cependant, de manière générale avec un recouvrement de graphe de dépendance du type de la Fig. 7B, le calcul de la série complète des facteurs de

N

rotation est plus rapide (plus précisément la cadence— ) que pour un recouvrement de

type de la Fig. 6B.

N -W

La taille de la mémoire cache dans le second exemple est de - . En effet, à

N W

chacun des - 1 calculs, on écrit W facteurs de rotation et on en élimine— , la taille

W 2

( N ) W

mémoire nécessaire pour ne pas écraser des données utiles est - 1 — . Pour des

[ W 2

valeurs élevées du degré N , on vérifie que la taille mémoire requise dans le premier exemple (W + LatMM + 1 ) est bien inférieure à celle requise dans le second exemple.

Dans les deux exemples d'implémentation décrits plus haut, on remarque que des temps d'attente (ou « bulles », par exemple en 670 ou 770) sont présents dans l'alimentation de la batterie des multiplieurs modulaires, en raison de la latence LatMM et des relations de dépendance à respecter dans le graphe des dépendances. Il en résulte une génération saccadée des facteurs de rotation, à tout le moins des premiers éléments de la série.

Ces temps d'attente peuvent être mis à profit dans un second mode de réalisation de l'invention pour calculer des facteurs de rotation sur une pluralité de corps finis Z , l = 0, ..., L - l dans un contexte de transformées NTT en arithmétique RNS.

La Fig. 8 représente de manière schématique l'architecture générale d'un circuit de génération de facteurs de rotation selon un second mode de réalisation de l'invention.

A la différence du premier mode de réalisation, le circuit de génération des facteurs de rotation comprend ici une pluralité L de modules gestionnaires de cache 810O, ...,810L-I, ayant chacun la structure du module gestionnaire de cache 410. Chacun de ces modules est associé à un corps fini Z et dispose de son contrôleur local ainsi que de sa mémoire cache. En sortie de chacun de ces modules, on retrouve un bus de sortie et un bus de sortie intermédiaire.

Les bus de sortie des différents modules gestionnaires de cache sont multiplexés par un premier multiplexeur de sortie 841 contrôlé par le contrôleur central au moyen d'une commande SEL _ output . De même, les bus de sortie intermédiaire des différents modules gestionnaires de cache sont multiplexés par un second multiplexeur de sortie 842, contrôlé par le contrôleur central au moyen d'une commande SEL _ MMS .

Comme dans le premier mode de réalisation, le circuit de génération de facteurs de rotation comprend un banc de multiplieurs modulaires, 820, et un contrôleur central, 830.

Le banc de multiplieurs modulaires 820 est alimenté en données via un registre commun, 850, en sortie du second multiplexeur de sortie. Il reçoit également du contrôleur central un signal modulo_t indiquant aux multiplieurs modulaires dans quel corps Z les multiplications doivent être effectuées.

Les facteurs de rotation initiaux

sont fournis tour à tour aux modules gestionnaires de calcul, 810 _; l = 0,..., L - l , via le registre d'entrée 805. Les facteurs de rotation calculés par le banc de multiplieurs modulaires sont fournis quant à eux via le registre d'entrée intermédiaire 807. Les sorties respectives du registre d'entrée et du registre d'entrée intermédiaire sont chacune distribuées à tous les modules gestionnaires de calcul. Chaque module gestionnaire de cache, 81(¾, possède en entrée un multiplexeur associé, 809 _; commandé par le contrôleur central 830. Ainsi le contrôleur central peut indiquer à l'un des modules gestionnaires de calcul 810^, d'importer les facteurs de rotation initiaux

ou bien des facteurs de rotation calculés par le banc de multiplieurs modulaires.

Le contrôleur central comprend un circuit de logique combinatoire et deux registres à décalage permettant respectivement de générer les signaux de contrôle des L modules gestionnaires de cache, 810 _; l = 0,..., L - l , et de propager : le signal de contrôle du multiplexeur de sortie 841, SEL_MMS , le signal de contrôle du multiplexeur de sortie intermédiaire 843, SEL _ output , ainsi que les signaux de validité, valid , et de provenance, num , décrits plus loin. Plus précisément, le contrôleur central reçoit en entrée un signal new _ input lui indiquant qu'un nouvel ensemble de facteurs de rotation initiaux est disponible sur le bus d'entrée pour une nouvelle série de calculs de facteurs de rotation. Il reçoit également des modules gestionnaires de calcul les informations de disponibilité data _ available _ l , l = 0, ..., L - l , lui indiquant quels sont les modules disponibles pour un nouveau calcul. A partir des signaux new _ input et data _ available _ £ , £ = 0,..., L- l, le circuit de logique combinatoire du contrôleur central génère l'ensemble GenCtrl_e des signaux de contrôle new_ set _£ , compute _ £ et new _ data _ £ , ! = 0,..., L - l pour le prochain cycle de calcul. Comme nous le verrons plus loin, le contrôleur central peut donner une priorité moins élevée aux calculs les plus avancés. Autrement dit, plus une série est avancée, plus faible sera sa priorité attribuée et plus tardivement le signal compute _ l correspondant sera mis à jour.

En sortie, le contrôleur central fournit les signaux de contrôle pour les premier et second multiplexeurs de sortie 841, 843. Lorsqu'un jeu de W facteurs de rotation est disponible sur le bus de sortie, le contrôleur central l'indique au moyen du signal valid et précise au moyen du signal num à quel corps Z appartient ce jeu. La Fig. 9 représente de manière schématique l'ordonnancement des calculs dans le circuit de génération des facteurs de rotation de la Fig. 8.

Sans préjudice de généralisation, le second mode de réalisation sera décrit pour une stratégie de calcul au plus tôt. L'homme du métier comprendra cependant qu'il pourra trouver également à s'appliquer lorsque l'on souhaite minimiser la taille mémoire du cache.

On a supposé dans l'exemple d'ordonnancement illustré en Fig. 9 que N = 32 , G = W = 4 et donc T = 8 . Autrement dit, un nouveau jeu de valeurs initiales

est fourni au générateur de facteurs de rotation tous les G = 8 cycles. On a supposé ici que la latence du banc de multiplieurs modulaires était de LatMM = 5 cycles d'horloge comme en Fig. 7C.

On a représenté en 910, les jeux de valeurs initiales ; en 920, les opérandes U₀,U_VU₂ en entrée de la batterie des multiplieurs modulaires ; en 930 les résultats en sortie du banc de multiplieurs modulaires et en 940 la sortie du premier multiplexeur de sortie. Les cases en grisé correspondent à l'insertion d'un nouveau jeu de valeurs initiales.

Par souci de simplification, le contenu des mémoires cache n'a pas été représenté. On observe qu'après l'arrivée de plusieurs jeux (ici 3), les multiplieurs modulaires sont saturés en données. L'ordonnancement des différentes séries respecte bien le débit de T = 8 cycles de calcul entre les jeux initiaux, au prix d'une légère latence supplémentaire pour la génération de la première série (4 cycles d'horloge supplémentaires correspondant à l'insertion des 2 séries de valeurs initiales suivantes).

Enfin, les éléments des différentes séries sont fournis en sortie dès qu'ils sont générés. Le signal num permet de les distinguer. En particulier ce signal pourra être utilisé par un processeur NTT par flot pour séparer des NTT sur différents corps.

Claims

REVENDICATIONS

1. Circuit générateur de facteurs de rotation (400) sur au moins un corps fini (Z ) pour processeur NTT par flot, ledit circuit générateur étant destiné à générer au moins une séquence de N facteurs de rotation

où y est une racine de l'unité dans ce corps, caractérisé en ce qu'il comprend :

au moins un module gestionnaire de cache (410, 810_O,..,810_L) comprenant une mémoire cache (411) et un contrôleur local (412) contrôlant l'écriture et la lecture dans la mémoire cache ;

un banc de multiplieurs modulaires (420, 820) comprenant une pluralité de W multiplieurs modulaires (520) opérant en parallèle, chaque multiplieur modulaire effectuant une multiplication sur ledit corps de deux opérandes issus d'un mot lu de la mémoire cache ;

un contrôleur central (430, 830) initialisant la mémoire cache avec les G premiers facteurs de rotation de la séquence et contrôlant le gestionnaire de cache de manière à fournir à chaque cycle de calcul d'une pluralité T = N /W de cycles de calcul, un mot lu de la mémoire cache au banc de multiplieurs modulaires, à écrire dans la mémoire cache, au terme de chaque cycle de calcul, hormis pour le dernier de ladite pluralité, un mot comprenant les W résultats en sortie desdits multiplieurs modulaires, et à fournir au terme de chaque cycle de calcul, en sortie du générateur, ces W résultats comme W facteurs de rotation consécutifs de ladite série.

2. Circuit générateur de facteurs de rotation selon la revendication 1, caractérisé en ce que le banc de W multiplieurs modulaires effectue respectivement les multiplications R₀ = U₀U₁ mod p ; R₁ = U₀U₂ mod p ; R_w-l = UJJ_w moô.p où U₀U_V..U_W est le mot lu de la mémoire cache et U_w, w = 0,...,W sont les opérandes en entrée du banc des multiplieurs modulaires et R_w, w = 0,...,W - 1 sont les W résultats en sortie de ces multiplieurs.

3. Circuit générateur de facteurs de rotation selon la revendication 2, caractérisé en ce que la mémoire cache comprend une première partie de taille W et une seconde partie de taille LatMM + 1 où LatMM est la latence du banc de multiplieurs modulaires, le contrôleur central initialisant le contenu de la première partie de la mémoire cache avec y y²,..,y^p et la seconde partie avec y^y , le mot lu de la mémoire cache pour le premier cycle de calcul étant UJJ_V.U_W = yⁿyⁱy²...yⁿ .

4. Circuit générateur de facteurs de rotation selon la revendication 3, caractérisé en ce qu'à chaque fois qu'un facteur de rotation calculé par le banc de multiplieurs modulaires est un multiple de W , une adresse dans la seconde partie de la mémoire cache est incrémentée et le facteur de rotation est stocké à l'adresse ainsi incrémentée.

5. Circuit générateur de facteurs de rotation selon la revendication 4, caractérisé en ce que la mémoire cache comprend en outre un pointeur d'adresse ( Ind ) pointant vers l'adresse où lire la valeur de U₀ pour le prochain cycle de calcul, les valeurs de U_V..U_W étant lues de la première partie et le mot U₀U₁...U_W formé par la concaténation de ces valeurs étant fourni au banc de multiplieurs modulaires pour le prochain cycle de calcul.

6. Circuit générateur de facteurs de rotation selon la revendication 1, caractérisé en ce que le banc de W multiplieurs modulaires effectue respectivement les multiplications R₀ = U₀U₁ mod p ; R₁ = U₁U₁ mod p ; R₁ = U₁U₂ modp ... ;

W_

R_w_ _i = U_WU_W mod p où

est le mot lu de la mémoire cache et U_w, w = 0,

2 2 2 2 sont les opérandes en entrée du banc des multiplieurs modulaires et R_w, w = 0 ,...,W - 1 sont les W résultats en sortie de ces multiplieurs.

7. Circuit générateur de facteurs de rotation selon la revendication 6,

( N y

caractérisé en ce que la taille de la mémoire cache est - 1 — , le contrôleur central

[ W J 2 initialisant le contenu de la mémoire cache avec y² ,y³ ,..,y ² .

8. Circuit générateur de facteurs de rotation selon la revendication 7, caractérisé en ce qu'après qu'un mot soit lu de la mémoire cache pour préparer un cycle

W

9. Circuit générateur de facteurs de rotation selon l'une de revendications précédentes, caractérisé en ce que ledit circuit générateur est destiné à générer une pluralité L de séquences de N facteurs de rotation

où les éléments y_i

, ! = 0,..., L- l sont des racines N ème de l'unité dans une pluralité L de corps finis ( Z , 1 = 0,..., L -l ), ledit circuit générateur comprenant :

une pluralité L de modules gestionnaires de cache (810O, ..,810L), chaque module gestionnaire de cache ( 810 comprenant une mémoire cache et un contrôleur local contrôlant l'écriture et la lecture dans la mémoire cache correspondante ;

un banc de multiplieurs modulaires (820) mutualisé entre les différents modules gestionnaires de cache ;

un contrôleur central (830) initialisant tour à tour les L mémoires cache avec les G premiers facteurs de rotation de la séquence

10. Circuit générateur de facteurs de rotation selon la revendication 9, caractérisé en ce que chaque module gestionnaire de cache est pourvu en entrée d'un multiplexeur contrôlé par le contrôleur central, de manière à transmettre à la mémoire cache associée au module gestionnaire de cache, soit un mot d'initialisation les G premiers facteurs de rotation de la séquence correspondante, soit W résultats du banc de multiplieurs modulaires.