WO2003040911A2

WO2003040911A2 - Carte d'acceleration de traitement cryptographique

Info

Publication number: WO2003040911A2
Application number: PCT/FR2002/002036
Authority: WO
Original assignee: Zencod S.A.
Priority date: 2001-06-13
Filing date: 2002-06-13
Publication date: 2003-05-15
Also published as: AU2002317928A8; AU2002317928A1; WO2003040911A3; EP1417566A2

Abstract

La présente invention concerne une carte d'accélération de traitement cryptographique par l'algorithme à clé publique RSA, reposant sur l'accéleration du clacul d'exponentielles en arithmétique modulaire. Cette implémentation utilise une méthode et une architecture originale pour le calcul de l'exponentielle, comprenant: 1) un étage additionneur basée sur un système de décalages et d'additions; 2) un étage Multiplieur dérivé de l'algorithme de (Montgomery); 3) un étage exponentiateur.

Description

Carte d'accélération de traitement cryptographique

Les transactions commerciales par le biais d'_Internet ont une croissance exponentielle. Dans l'objectif d'accroître la sécurité de ces transactions différents protocoles cryptographiques ont été réalisés.

Un serveur Internet dédié à des services nécessitant une sécurité est rapidement limité si les algorithmes cryptographiques sont exécutés par les moyens de traitement traditionnels (soit un ou plusieurs processeurs). II s'avère que les solutions matérielles _d'exécution de requêtes sécurisées deviennent vite indispensables dès que l'on veut faire un grand nombre _d'opérations de ce type. On peut alors distinguer 2 types de traitement : soit la transmission de données est continuellement sécurisée (cas du protocole IPSEC), soit on se contente de sécuriser un ensemble de requêtes plus occasionnelles, comme des requêtes d'achat ou de transaction _bancaire (cas du protocole SSL).

Un algorithme est utilisé à chaque ouverture de session SSL, l'algorithme RSA. Celui-ci a un haut niveau de sécurité, mais est extrêmement gourmand en ressources, accessoirement dans la suite de sécurité, il est nécessaire de traiter également DSA, DH, DSA . La présente invention concerne une carte d'accélération de traitement cryptographique par l'algorithme à clé publique RSA, reposant sur l'accélération du calcul d'exponentielles en arithmétique modulaire.

Cette implementation utilise une méthode et une architecture originale pour le calcul de l'exponentielle, comprenant : 1 ) un étage additionneur basée sur un système de décalages et d'additions.

La technique mettant en œuvre une technique de traitement statistique des retenues par une architecture asynchrone. Ceci permet de substituer au chemin critique (physique) traditionnel un chemin physique moyen a 98_%. Passant de 1024 temps de propagation élémentaires, contre 64, soit un facteur de gain de 16 en vitesse et une réduction significative de complexité. 2) un étage Multiplieur dérivé de l'algorithme de

(montgomery) ,dans une architecture originale. Cet étage permet un gain complémentaire en vitesse de 30%, avec une diminution de surface, par suppression de deux additionneur sur la version initiale . 3 ) un étage exponentiateur produisant une amélioration en vitesse d'un facteur 4.

L'invention peut être réalisée sous la forme d'un Asie, pour une carte d'accélération du Hand Sha e du Protocole SSL V. 3 . Ce protocole est normalisé dans le domaine de l'e_¬

Commerce, lors des échanges sécurisés sur les réseaux. .

Le Hand Shake est la phase initiale en vue de l'établissement d'une liaison sécurisée. Cette phase est grevée dans sa rapidité d'exécution par les opérations RSA,DH,DSA. Les fonctions de base de ces deux opérateurs étant constituées par une exponentiation modulaire

A EXP E Mod M avec des nombres minimum de 1024 bits pour A, e, M. Les transactions commerciales par le biais d'Internet ont une croissance exponentielle. Dans l'objectif d'accroître la sécurité de ces transactions différents protocoles cryptographiques ont été réalisés. Un serveur Internet dédié à des services nécessitant une sécurité est rapidement limité si les algorithmes cryptographiques sont exécutés par les moyens de traitement traditionnels (soit un ou plusieurs processeurs).

Il s'avère que les solutions matérielles d'exécution de requêtes sécurisées deviennent vite indispensables dès que l'on veut faire un grand nombre d'opérations de ce type. On peut alors distinguer 2 types de traitement : soit la transmission de données est continuellement sécurisée (cas du protocole IPSEC), soit on se contente de sécuriser un ensemble de requêtes plus occasionnelles, comme des requêtes d'achat ou de transaction _bancaire (cas du protocole SSL).

Un algorithme est utilisé à chaque ouverture de session SSL, l'algorithme RSA. Celui-ci a un haut niveau de sécurité, mais est extrêmement gourmand en ressources, accessoirement dans la suite de sécurité, il est nécessaire de traiter également DSA, DH, DSA .

L'objet du brevet est de présenter successivement les trois étages et la couche supérieure Dispatcher de traitement de l'exponentiateur destinées à la réalisation de FPGA, et d'un asic Autonome. Cet asic destiné a des cartes d'accélération du Handshake dont l'exponentiation détermine la rapidité de l'Opération d'Authentification.

Ces trois couches successives de traitement des données correspondent à : - Un Additionneur rapide modulaire paramétrable ₍longueur des clés) de : 512, 1024, 2048, 4096 bits. Il est original par son traitement statistique des retenues, sa structure et son architecture correspondante. Il réalise une accé_lération de 16, par rapport à toute autre structure.

- un Multiplieur rapide utilisant l'a lgorithme connu Montgomery, mais modifié pour être adapté au précédent _Additionneur . Donc une Originalité de modification, _d'adaptation, et d'Architecture. Pour un gain d'environ (1/3) pour ces opérations.

-La troisième étage est un traitement _d'exponentiation des résultats du précédent . On augmente la vitesse par un facteur (4) de traitement a ce niveau en uti_lisant, l'algorithme CRT, dit Chineese, Remaining Théorem . -Un quatrième étage appelé Dispatcher sert à gérer la structure Multicore de l'exponentiateur, de répartir _Ressources et Data de manière à permettre aux noyaux de ca_lculs (Addition, multiplication, exponentiation) de travailler en permanence, de Servir d'interface avec les _Drivers (Softs) externes a la Puce.

Nous allons successivement en trois parties _distinctes, faire notre exposé en suivant l'ordonnance des traitements successifs.

Donc dans cette première partie du brevet on va mettre en évidence l'aspect original de l'_Additionneur /multiplieur en traitant de manière générique _Multiplieur et Exponentiateur.

L'intervention Montgomery et CRT sont traités successivement comme modification de cette première version de _Base, où l'accent est mis sur l'additionneur /multiplieur, avec des couches génériques pour Multiplieur, exponentiateur de manière à tester son fonctionnement de base.

1. 1 Rappel de cryptographie

On appelle chiffrement ou cryptage l'opération qui consiste à transformer une information pour en cacher le sens. On utilise pour cela une clé de chiffrement. L'inverse est le déchiffrement et consiste à rétablir le texte crypté en clair par le biais d'une clé de déchiffrement. On remarquera que décrypter un message chiffré, c'est retrouver le message en clair sans la clé de déchiffrement.

La cryptographie classique II s'agit du cas le plus simple, les clés de chiffrement et de déchiffrement sont les mêmes. Mais plusieurs problèmes se posent :

— l'émetteur et le destinataire doivent être préalablement d'accord sur la clé avant de se transmettre un message;

— avant toute transmission de message crypté, il faut transmettre une clé;

— dans un réseau de n personnes il faut ^w *^~ ^_clê

2 pour que chacune puisse communiquer avec les autres de manière sécurisée.

La cryptographie à clé publique

Ici il y a deux clés distincte : une pour le chiffrement, la clé publique qui peut être librement diffusée, l'autre pour le déchiffrement, la clé privé n'est connue que de la personne réceptrice du message.

Généralement (et ce qui est le cas avec l'algorithme RSA) la clé privé ce déduit difficilement de la clé publique. On évite par le procédé à clé publique tous les problèmes de la cryptographie classique. Toutefois il y un inconvénient : la cryptographie à clé publique est généralement plus lente que la cryptographie classique. Notamment dans l'ouverture d'une connexion : la Phase dite Hand Shake initiale du Protocole SSL.

Aussi on utilisera la cryptographie à clé publique pour l'authentif ication et la transmission de "clé de cession", qui utilise des algorithmes cryptographiques classiques.

1. 2 Quelques algorithmes cryptographiques utilisés soit en cryptographie à clé publique soit pour 1 ' authentif ication .

Ceux-ci ont tous comme particularité d'être utilisé dans le protocole SSL et d'être basé sur le calcul d'une exponentiation modulaire .

1. 2. 1 L ' algorithme RSA

L'algorithme de chiffrement à clé publique RSA a été inventé en 1977 par Ron RIVEST, Adi SHAMIR et Léonard ADLEMA .

L'algorithme est le suivant : prendre 2 nombres premiers p et q de grande taille^" Une grande taille est difficile à définir pour un nombre. En électronique ce sera de l'ordre de 1024 bits, voir plus récemment 2048 ou 4096 bits. On procède ensuite à des opérations consistant à calculer n = plq et (ή) = (p - ï)(q - 1) , l'indicatrice d'Euler de n, choisir une clé de chiffrement aléatoire e, l<e<φ( ) tel que e et φ( ) soit premier entre eux, utiliser l'algorithme d'Euclide pour calculer d de telle manière que : e - d ≡ l mod φ( ) => d = e ^l modφ(n)

On remarquera que p et q sont aussi premiers entre eux. e et n constituerons la clé publique et d la clé privée, mais p et q ne sont jamais divulgués. Soit alors M un message ou un fragment de message.

On prend toujours M < n et pour un message binaire on prendra comme longueur de M la plus grande puissance de 2 inférieure à n.

Le chiffrement est donc réalisé par l'opération : C = M^e modn

Et le déchiffrement par l'opération : C = M^d moάn 1. 2. 2 L'algorithme de Diffie-Hellman

L'algorithme de Diffie-Hellman est un algorithme simple d'échange de clé. Soit A et B deux personne, ayant choisi de manière non sécurisé deux nombres n (de grande taille et (n-l)/2 doit être premier) et g tel n>g>l et que g soit primitif par rapport à n.

A choisi un nombre aléatoire x et calcul :X = g^x mod n et le transmet à B

B choisi un nombre aléatoire y et calcul :Y = grV^* mod n et le transmet à A

A calcul :k = Y^x mod n B calcul :k'= X^y mod n Ainsi on a :k = k'≈ g^xy mod n, A et B on une clé privé qu'ils sont les seuls a connaître.

Rappel : CH-l)Dans une première étape nous développons un exponentiateur Modulaire a partir de nos Algorithme de traitement statistique des Retenues pour l'Additionneur faisant l'objet de la première partie du Brevet . 2) Dans une seconde partie afin d'améliorer les performances vitesse/Surface il sera implémenté l'algorithme de Montgomery au niveau Multiplieur.

3)Puis dans la troisième partie l'implantation de l'algorithme dit CRT, afin d'améliorer les performances vitesse d'un facteur 4, dans une architecture originale.

Première partie : Modélisation, réalisation exponentiateur complet de Base :

L'objectif est de construire un exponentiateur modulaire Rapide. Or cette opération peut se décomposer en une succession d'Additions, et de multiplications modulaires [2].

1. 1 Calcul de la multiplication modulaire

L'Intervention Montgomery et CRT sont traités successivement dans les chapitres correspondants.

Il existe différent algorithme pour le calcul de multiplication modulaire. Le plus utilisé étant sûrement l'algorithme de Montgomery utilisé directement.

La réalisation de la multiplication modulaire, a déjà fait par la passé l'objet d'études.

L'algorithme qui à été retenue est Interleaving multiplications and réductions, qui est basé sur une série de multiplication par deux et de soustraction.

On veut calculer R = A. B mod N. Les nombres A et B ayant une valeur maximum de 2^h. Or, si nous exprimons B en base 2 (b_x étant le bit

A-l A-l de poids i ) , nous obtenons : R = A b, - modN≈ A- b, -TτnodN i=0 ,-0 et si nous posons : = A- 2' modN

nous obtenons :

Si nous considérons A¹ comme la i valeur d'un algorithme itératif, nous pouvons en déduire un algorithme (figure 1. 1) .

Les opérations 2a à 2f sont parallèlisables avec les opérations 2g à 2j. Ces opérations sont comprises dans un algorithme itératif.

On en déduit l'architecture simple de la figure 1. 2.

Celle-ci est composée : — d'un registre à décalage permettant d'obtenir le bi de chaque itération;

— d'un premier étage effectuant l'opération A _ 2A; et A _ A - Ν; Si A ≥ Ν ;

— d'un deuxième étage effectuant l'opération Si B_i = 1 alors R _ R + A. Bi,- et R _ R - Ν; Si R > Ν. 1. 2 Construction du multiplieur modulaire

1. 2. 1 Premier étage du multiplieur modulaire

Le premier étage du multiplieur modulaire ( figure 1. 3₎ est composé, d'un opérateur de multiplication x2, d'un additionneur, et de différents modules de sélection.

La figure 1 représente un exemple d'algorithme de la multiplication modulaire.

La figure 2 représente une vue d'ensemble du multiplieur modulaire

La figure 3 représente une vue du premier étage du multiplieur modulaire

L'opérateur x 2 n'est qu'une simple connexion puisque multiplier par 2 en base 2 revient a faire une translation d'un bit vers la gauche.

Un premier multiplexeur permet de sélectionner la valeur initiale de A¹, qui est le A de l'opération A. B mod n.

Un deuxième multiplexeur choisit la valeur A¹ ou A - n selon le signe de A - n. Considérons alors le tableau suivant :

retenue de A ~n bit le plus significatif de A signe de A— n

0 0 0 0 1 1 1 0 1 1 1 x

Une fonction "ou" entre le bit le plus significatif de A et la retenue de l'opération A - n permet donc de choisir entre A et A - n.

1. 2. 2 Deuxième étage du multiplieur modulaire La figure 4 représente une vue du deuxième étage du multiplieur modulaire

Le deuxième étage du multiplieur modulaire se compose principalement de deux additionneurs et d'une logique de sélection.

Un multiplexeur choisit la valeur de départ (toujours 0). Le premier additionneur effectue l'opération R R + A. Bi. La multiplication entre A et B_± est représentée par une fonction "et" (mais elle est physiquement réalisée par un multiplexeur). Le deuxième additionneur réalise l'opération R - n. De la même manière que pour le premier étage (voir 1. 2. 1), une fonction "ou" permet de connaître le signe de R - n. Remarquons alors que si b_± = 0 alors R + A. b₁ = R et R - n < o on a donc bien R _ R. 1. 2. 3 Le complément à 2

Le complément à 2 a pour but d'obtenir l'opposé d'un nombre. Celui-ci est commun aux 2 multiplieurs instanciers dans l'exponentiateur, mais on peut éventuellement envisager de faire ce calcul ailleurs (il faut se rappeler que dans l'algorithme RSA, le nombre qui a besoin d'être complémenté est généré de manière aléatoire).

Pour le réaliser nous prenons l'inverse du nombre d'entrées et nous lui ajoutons un.

Pour ajouter "un" à un nombre binaire e de longueur n, sa sortie si est à un :

— soit quand ^βi est à 0 et que tous les s-,

- soit quand e_t est à 1 et qu'au moins un sj,

On en déduit une équation i - l ι - l i - l si =eι -f (ej +e )-(Je ≈et θf ej y-i y-i -i

Cette fonction est alors réalisée par une succession de portes "xor" qui aurons pour entrée un bit de e et la sortie d'un "et" sur la totalité de ses bits précédents. J'ai remarqué que cette fonction est extrêmement volumineuse surtout sur des nombres de 1024 bits.

Quant à l'opération trivial en VHDL: s <= not e + 'l'je n'ai réussi à le placer/router sur FPGA que pour des nombres inférieurs à 128 bits : le synthétiseur n'étant pas capable de l'implémenter pour des raisons inconnues.

On a donc retenue la solution précédente.

Remarque : on verra par la suite comment l' implementation originale de l'algorithme de Montgomery, permet de supprimer, un Adder, permettant un gain en surface, et en vitesse

1. 2. 4 La machine d'état

La machine d'état a pour but de réaliser un algorithme itératif (voir la figure 5). Celle-ci s'accompagne d'un compteur indiquant le nombre d'itérations maximum.

— on débute l'algorithme sur commande d'un signal;

— une itération consiste en l'attente de fin du calcul (la fin du calcul de tous les additionneurs);

— on valide 1 ' incrémentation du compteur à chaque itération;

— si le compteur a atteint le nombre d'itérations souhaité on indique la fin du calcul. On peut se référer à la table 1. 1 pour les actions effectuées dans chaque état.

1. 2. 5 Le bloc d'additionneurs Décomposé en S/SAdditionneurs de 16 bits travaillant en parallèle : Les additionneurs du multiplieur modulaire sont d'une taille importante. Aussi sont ils découpés en Blocs _de plusieurs additionneurs élémentaires de taille moins importante, qui sont présentés sur la figure 1. 6.

S 'appuyant sur une étude Statistique que nous avons effectué, selon la longueur des mots a traiter certains découpages donnent des performances optimum. Pour 1024 bits _le Découpage optimal est de 64 Registres de 16 bits.

Les additionneurs élémentaires sont de type carry look ahead adder [6, 7]. En un seul Bloc ceux-ci sont irréalisables pour des grands nombres car la surface en buffer serait alors supérieure à la logique combinatoire de traitement [ 4 ] .

La figure 6 représente un tableau de fonctionnement de l'automate du multiplieur modulaire : actions de chaque état

La figure 7 représente une vue de la constitution d'un additionneur

La gestion de l'addition est particulière. Chaque additionneur prend en entrée 2 fragments des nombres à additionner, ces fragments étant pris de tailles identiques. _A chaque cycle d'horloge, la retenue est propagée à l'étage suivant. Un mécanisme détecte si la retenue est la même que pour le cycle précédent (il s'agit donc d'un "ou exclusif_" entre la valeur précédente et la valeur courante). Si toutes les retenues sont inchangées alors il n'y a plus de propagation de retenue : le calcul est fini.

La retenue à l'entrée d'un additionneur se propage jusqu'à la sortie seulement si les deux nombres à additionner sont complémentaires. Regardons cela sur un exemple défavorable : celui où tous les blocs sont susceptibles de propager une retenue 1. 2.

La figure 8 représente un tableau d'un exemple de propagation de la retenue : cas défavorable Dans un cas quelconque (comme dans le tableau 1.

3₎, la retenue n'est pas systématiquement propagée : certains blocs la retiennent, d'autres en créent une, pour d'autres il est nécessaire d'effectuer les calculs.

Dans un cas général on distinguera trois types de blocs :

» PO les blocs qui, quelque soit la retenue d'entrée, ont une retenue de sortie à 0;

• Pi les blocs qui, quelque soit la retenue d'entrée, ont une retenue de sortie à 1; " Pc les blocs qui, quelque soit la retenue d'entrée, la "propagent" (cas des additionneurs qui ont des nombres d'entrées complémentaires).

La figure 9 représente le tableau de propagation de la retenue : cas quelconque La probabilité d'avoir des blocs Pc est très faible et il a été établi que le meilleur compromis entre la propagation moyenne et la vitesse d'un additionneur était d'avoir des blocs de 16 bits pour des mots de 1024 bits avec des additionneurs de type carry look ahead adder [4]. On fait alors une addition sur 1024 bits (ou plus) en quelques périodes qui correspondent en fait au temps de propagation d'un additionneur 16 bits.

Nota : Certains des blocs n'ont pas a effectuer des 5 calculs DO Dl, puisque a priori on a les résultats. Il suffit pour eux de ne rien propager, ou de propager un 1 sans attendre à l'étage supérieur.

La figure 10 représente le schéma de constitution d'un additionneur. _Q Une évolution possible [4] est présentée figure 10.

L'idée est de ne plus synchroniser les retenues. Les additions se font donc d'un trait sur 1024 bits. Mais nous conservons les mécanismes vu précédemment, et nous gardons une fréquence d'horloge proche de celle de la propagation d'un additionneur 5 16 bits (nous prendrons en fait une fréquence un peu supérieure) . Ainsi nous allons scruter à intervalle régulier l'évolution de l'addition. De la même manière, la fin de l'évolution sera indiquée quand les retenues ne bougeront plus. _Q Nous pouvons dorénavant considérer notre circuit comme asynchrone. L'avantage est que nous n'attendons plus un cycle d'horloge pour propager les retenues.

Le fonctionnement de l'additionneur nous permet d'introduire un étage plus rapide entre 2 additionneurs. 5 II s'agit d'un anticipateur de retenu représenté en figure 11. Cet étage n'a pas pour but de calculer la retenue, mais seulement de savoir si on a besoin ou pas de la calculer. En effet les retenues seront de toute façon calculées par les additionneurs courrant. On se préoccupe à ce stade uniquement 0 des retenues. Ce module prend en entrée les entrées de l'additionneur courant, ainsi que la retenue de l'additionneur courant et celle de l'additionneur précédent. Ainsi quand un bloc est Pc, on propage directement la retenue de 5 l'additionneur précédent dans l'additionneur suivant. Sinon on réinjecte la retenue calculer par l'additionneur courant.

1. Une grande taille est difficile à définir pour un nombre. En électronique ce sera de l'ordre de 1024 bits, voir plus récemment 2048 ou 4096 bits _Q Nota : Arrêt des calculs lorsque la plus longue chaîne de bmlocs conditionnels a fini ses calculs :en moyenne 4 blocs de 16 soit 64 bits, au lieu de 1024.

1. 2. 6 Le registre à décalage

La figure 12 représente une vue RTL du registre à décalage

Le registre à décalage est décrit de la manière la plus intuitive. Si la commande de chargement est activée alors chaque registre prend un bit du mot d'entrée correspondant à sont poids, sinon chaque registre prend la valeur du registre précédent.

1. 2. 7 Aboutissement du multiplieur

Le fonctionnement particulier de l'additionneur on obligé a avoir des réflexes différent. Ilest surtout retenue 2 choses : le chemin critique dans le sens conventionnelle du terme ne conditionne plus la fréquence de l'horloge, et le temps de calcul au final n'est connue que de manière statistique. Il à été formellement établi que le chemin moyen critique pour 1024 bits est autour de 4 additionneurs de 16 bits, au lieu de 64. On voit apparaître ici la rapport 64/4 = 16, qui est le facteur théorique d'accélération.

1. 3 Calcul de l'exponentiation modulaire

L'objectif est de calculer C≈M«modn . Cette fonction étant utilisée dans des algorithmes de cryptographie comme le RSA ou Pohlig—Hellman [1]. Il faut considérer e comme un vecteur de bits de longueur h (donc e≤2A ) .

A - l

On a : C ≈M e modn ≈M ∑ ^*- »^{e < l} modn ≈ TTΛf _e, mod /z

1 - 0 et si nous posons : Pi≈PiiXΑ dn

nous obtenons :

Il y a alors 2 types d'algorithmes possibles : soit on parcourt le vecteur de bits e de droite à gauche (Right Left₎, soit de gauche à droite (Left Right).

Nous retiendrons l'algorithme droite vers gauche de la figure 1.10. En effet les opérations 2a. à 2c. et 2d. peuvent s'exécuter indépendamment l'une de l'autre : elles sont donc parallélisables [2).

entrées : M,e,n sortie : C

1. C+- 1 la. P +- M

2. Pour i = 0 jusqu' à A — 2 faire

ÂSL. Si e_t = 1 alors

2b. C±- CP mod »;

2c. Fin Si

2d. JP <— J iiiodΛ;

2e. Fin Pour

3. Si efc-i = 1 alors

3a. C-e- C-Pmod »;

3b. Fin Si

4. RetounerC;

FIG. 1.10 — L'algorithme RL

1.4 Construction de 1 'exponentiateur modulaire

e

Registre à décalage ei

M P

Etage 1 Etage 2

n

FIG. 1.11 — Vue d'ensemble de l'exponentiateur modulaire

L'architecture (présentée sur la figure 1.11) du module est composée :

— d'un registre à décalage permettant d'obtenir le e_L de chaque itération;

— d'un premier étage effectuant l'opération P _ p.p mod n;

— d'un deuxième étage effectuant l'opération C _ C.P mod n Si e, = 1. 1.4.1 Premier étage de l'exponentiateur modulaire

Le premier étage de l'exponentiateur modulaire ₍voir _fi_gure 1.12) se compose d'un seul multiplieur et d_'un re_gis_tre _pour la sauvegarde de P à chaque itération. A l'initia_lisa_tion, un multiplexeur permet de choisir la valeur M pour _P. _J'a_i instancié le composant "multiplieur modulaire_{" p}our _qu'i_l calcule l'opération PIP odn ≈P²modn .

FIG. 1.12 — Premier étage de l'exponentiateur modu_lair_e

1.₄ .2 Deuxième étage de 1 ' exponentiateur modulaire

FI_G. 1.13 — Deuxième étage de l'exponentiateur modulaire

Le deuxième étage (sur la figure 1.13 est construit de manière similaire au premier. Le multiplieur modulaire permet le calcul de C.P mod n, tandis qu'un registre contient la valeur courante deC. Un premier multiplexeur permet de choisir la valeur initiale de l'algorithme (qui est toujours 0). Un autre permet de choisir soit de charger la valeur C.P mod n dans le registre soit de laisser celui-ci à la valeur courante de C.

1.4.3 La machine d'état

La machine d'état de l'exponentiateur (sur la figure 1.14) a le même corps que celle du multiplieur modulaire (section 1.2.4₎. Il s'agit en effet dans les 2 cas d'un algorithme itératif. Les tests sont toujours faits par la "partie opérative" . Nous réduisons ainsi cet automate à son strict minimum: — on débute l'algorithme sur commande d'un signal; - un itération consiste en l ' attente de la fin du ca_lcu_{l d}' un des 2 multiplieurs (les signaux OKI ou 0K2 indiquant _la _fin _du calcul de chaque multiplieur) ;

- les multiplieurs peuvent avoir des temps de ca_lcu_l différents . On va donc dans différents états selon que _l 'on a reçu ou pas un des signaux de fin de calcul. Dans _le _premier cas on entre dans un état où on attend l ' autre signa_{l d}e validation, puis dès que celui-ci est reçu, on consi_dère l'itération finie. Dans le second cas l ' itération se termine si on reçoi_{t le}s ₂ signaux simultanément;

— on valide l 'incrémentation d'un compteur à chaque itér_ation-

— si le nombre d ' itérations maximum est atteint a_lors _le calcul est fini et on l'indique.

FIG. 1.14 — Machine d'état de l'exponentiateur modulaire La table 1.4 indique les actions faites pendant chaque éta

Btat Actions associées

INiT signal d'initialisation : chargement des valeurs initiales dans les registoes correspondants mise à zéro du compteur

STABLE aucune Q.OK1 aucune Q_O 2 aucune COMP validation de rincrémentatioiî du compteur validation des registres permettant l'exécution de l'itération courante

FIN signal "OK." indiquent la fin dπ calcul TAB. 1.4 — Automate de l'exponentiateur modulaire : actions de chaque état

1.4.4 Le système de chargement

Nos sous-ensembles décrits précédemment travaillent sur des nombres de grande taille (512, 1024 ou 2048 bits). Or les bus des architectures des serveurs et PCs (comme le bus PCI) ainsi que l'architecture interne des circuits sont souvent sur 32 ou plus récemment sur 64 bits.

_Ce module a donc pour but de faire l'adaptation entre les bus internes de l'exponentiateur (ou du multiplieur) et l'environnement qui l'exploite. Nous utilisons pour cela une mémoire double ports, un port étant sur 32 ou 64 bits, l'autre sur 1024 ou 2048 bits.

_Ces _différentes explications ont permis d ' illustrer les avan_tages de l ' architecture du multiplieur asynchrone, ainsi _que _les choix effectué . Il a été implémenter dans un premier _tem_ps une version synchrone ( sans anticipation ) de _{l '} arc_hitecture. On va dans le prochain chapitre décrire des r_ésu_ltats d_' implementation.

_{2 R}ésultats et discussion ₂.₁ Réalisation et résultats ₂.₁.1 Le multiplieur modulaire

du calcul

FIG. 2.1 — Vue globale du multiplieur final

Le "Top" du multiplieur se présente de manière très simple ₍voir figure 2.1). L'opérateur effectue l'opération R = A.B mod M, et a donc en entrée :A, B et N et en sortie :R. Un signal de commande indique au module quand démarrer le calcul. De même un autre signal lui indique quand le calcul est fini. En effet il faut ce rappeler que le temps de calcul ne peut être connu à l'avance pour des nombres quelconque. Fonctionnement

FI_G. 2.2 — Exemple de fonctionnement du multiplieur modulaire

_On _peut voir sur la figure 2.2 un exemple de chronogramme fonctionnel illustrant le fonctionnement du module. Après un "reset" on applique pendant une période d'horloge le signal de demande de début de calcul. Après une succession de résultat intermédiaire on prend en compte la valeur, validé par le signal "o ". Implementation

Les caractéristiques de notre module final sont décrites en terme de surface et de vitesse. Le premier paramètre donnant le coût en gâtes du composant, le second ses performances.

Une série d' implémentations a été réalisée. Les résultats obtenus (tableau 2.1) par leur nature provisoire sont à prendre avec précaution. En effet, certains étages d'anticipation n'ont pas été pris en compte dans cette implementation et certains modules très lents sont utilisés - dans ce cœur alors qu'ils seront déportés à un plus haut niveau dans le cadre d'une exponentiation. Par contre le rajout des anticipateurs, s'il peut accélérer sensiblement le circuit, augmentera aussi la taille de celui-ci _Contrairement à la réalité le temps de propagation est plus important sur ASIC que sur FPGA! C'est surprenant mais ceci est dû à la bibliothèque "générique" utilisée dans nos outils. pour la simulation une macrogénériquepeu performante. _Par contre la réalité d'une implantation Asic , avec un Module _de Librairie adapté , laisse prévoir un Facteur 5 en vitesse a techno égaleAsic/FPGA.Le nombre de portes évaluées en technologie ASIC est lui plus avantageux. Et il faut également remarquer que la fréquence ne nous permet pas d'évaluer immédiatement les débits en terme d'exponentiations par seconde sur des messages de longueur donnée.

_En effet la particularité de notre circuit fait qu'il faut entre

65 «-je|<-f secondes pour obtenir un résultat sur des messages de 1024 bits. La durée du calcul dépend donc de la nature du message et des études statistiques ont montré que ce temps était en moyenne de 65 *je|«-f secondes sur des messages de nature totalement aléatoire de longueur 1024 bits [4] (comme les clés de session du protocole SSL).

Rappel : on retrouve l'avantage au lieu de parcourir 1024 poids, la retenue ne parcours qu'une moyenne de 64 poids dans la version implementee. Soit un Facteur 16 ab l'avantage de notre Algorithmique , par rapport aux techniques de traitement de la retenue standard.

2.1.2 L 'exponentiateur modulaire

Le "Top" de l'exponentiateur a une allure calquée sur celui du multiplieur (voir figure 2.3). L'opérateur effectue l'opération C = M^emodn , et a donc en entrée :M,N et e et en sortie :C. De la même manière que pour le multiplieur un signal de commande indique au module quand démarrer le calcul et un autre signal lui indique quand le calcul est fini, le temps de calcul du multiplieur n'étant pas connu à l'avance._A ce stade il apparaît encore une de nos Revendications , la détection de Stabilité , qui permet d'arrêter les _Calculs en temp Réel/

FIG. 2 .3 — Vue globale de l ' exponentiateur modulaire

Fonctionnement

Le chronogramme fonctionnel de la figure 2.4 illustre le fonctionnement du module . Après un "reset" on applique pendant une période d' horloge le signal de demande de dé_but _de calcul. Après une succession de résultats intermédiaire on prend en compte la valeur validée par le signal "ok" .

Implementation

Les résultats d ' implementation ( tableau 2.2 ) montrent _des caractéristiques comparable à celle du multip_lieur.

La fréquence de fonctionnement a peut varier, mais il s ' a_git toujours du plus lent des additionneurs 1_{6 b}its _de _la librairie FPGA , beaucoupplus rapide en Asics .

FIG. 2 . 4 - Exemp^le ^de fonctionnement de l ' exponentiateur modulaire

TAB . 2.2 - ^Di^fférentes i plémentations de l ' exponentiateur modulaire 2.1 .3 Mise en oeuvre

Ressources

Le circuit à été décrit en totalité en VHDL . Dans un objectif de portabilité, on a fait un code le plus générique possible _: — d'abord sur des composants nom ciblé, tout confondu (FPGA,ASIC) .

- paramétrable en longueur de clé, et la taille des blocs élémentaires . D'autre part nous utilisons des outils de CAO microélectronique conventionnel.Ainsi notre première approche est sur FPGA Advantage, une application de Mentor Graphics pour les travaux sur architecture "générique", pour le placement/routage sur composant spécifique nous utilisons les différents outils des constructeurs, le tout sur des PCs sous Microsoft Windows "gonflés".

Nota : Rappelons que l'étape FPGA est intermédiaire , l'objectif final étant Asic.

1. je note |e| le nombre de bits de e qui sont au "1" logique (généralement 2, les nombres utilisés étant souvent de la forme 2ⁿ+l ) , et T la période de fonctionnement du circuit

Les outils sont donc :

L'outillage CAO :

_Renoir pour l'administration de projet et la traduction de code HDL sous forme graphique (schémas blocs, organigramme, machine d'état, table de vérité);

ModelSim pour l'analyse et la simulation de code HDL (visualisation des signaux et variables internes : sous forme de chronogrammes et de flots de données, exécution de scripts de simulations au format TCL2;

Leonardo Spectrum initialement dédié à la synthèse sur FPG_A, mais pouvant évoluer vers la synthèse ASIC grâce à l'extension Desktop ASIC; cet outil, tout comme ModelSim peuvent utiliser des scripts TCL; Alliance pour le placement/routage sur composant Xilinx;

_Quartus II pour le placement/routage sur composant Altéra;

Kit NIOS et FPGA Altéra kit comprenant une matrice de 200000 portes ainsi que des outils de développement (IP, compilateur, débogueur) d'un cœur de processeur "soft" : le NIOS. Nous disposons également de très grosses matrices (1 million de portes₎. Ces kits devrais nous permettent une implementation et des tests "hardware" réels.

D'autre part il a été développé et mis en œuvre des "Test- Bench" destinés a l'exponentiateur et au multiplieur modulaire _Ce système effectue des lecture/écriture dans des fichiers texte grâce a la librairie TEXTIO, en VHDL comportementale, nous avons également du développer des petits outils en langage c destinés à générer automatiquement les stimulis de simulation (soit de grand nombre aléatoire) pour vérifier les résultats de la simulation (lecture dans les fichier de sti uli et de résultat pour vérifier l'exécution de l'opérateur). De plus quelque script ont été écrit dans le langage propriétaire du logiciel de simulation pour le test de différents modules.

2.1.4 Validation et Evolution :

L'architecture mise en œuvre correspond bien au contexte de la demande un exponentiateur modulaire opérationnel, générique, totalement paramétrable , Rapide. RAPPEL :

CH-l)a partir d'unAdditionneur modulaire Original dans sa conception , faisant l'objet de base du brevet avec une

Architecture originale Revendiquée : Traitement Statistique des Retenues, et Détection de Stabilité , l'implantation et

Architecture correspondante , Objet de nos Revendications.

Ce module pourrai fonctionner tel quel. En bénéficiant _du Facteur 16 dans les Traitements. Toutefois des améliorations lui sont encore apportées.

CH-2) Implementation au niveau du Multiplier de l'algorithme de Montgomery , dans un utilisation originale quand a son implantation , et une Architecture originale Revendiquées également .

CH-3 ) Implementation de l'algorithme dit CRT (c_hineese remaining théorem) , avec une ArchitectureOriginale .

CHAP-2) Implantation originale et architecture correspondante d'implantation dev l'algorithme de Mongomery a a l'étage Multiplieur de Base Prédédent :

Un objet de nos revendications.

Ce chapitre présente dans un premier temps l'algorithme _de multiplication modulaire de Montgomery, dans sa version courante, ayant déjà fait l'objet de nombreuses publications (CH2-1)

Il décrit ensuite l' implementation originale de ZENCOD _(CH2- 2), une méthode d'exécution optimisée (revendiquée/CH2-₃₎ et l'architecture correspondante (revendiquée/CH2-4)

CH2-1 Algorithme de Montgomery pour la multiplication modulaire

Entrées : A = (

, ... , N₀)_b Sortie : R = (A.B).F^-1 [mod N] (avec F = b¹*¹⁰⁰)

R<=0 ;

Pour i de 0 a nbloc-1 _i <= (R₀ + BiA₀)N' [mod b] ; (avec N'≈-N^-1 [mod b] )

R <= (R + B_±A + U_AN)/b ; Fin Pour ;

Si (R>=N) Alors R <= R-N ; Renvoyer(R) ;

CH2-Figure 1 : Algorithme de Montgomery (version publique)

Restrictions : - _On doit avoir GCD(m,b) = 1 et 0≤A,B<N CH2-2 Implementation de l'algorithme

L'algorithme qui suit est l'adaptation de la méthode de Montgomery implementee par ZENCOD (b=2).

Entrées : A, B, N

Sortie : R = Montgo (A, B, N) = (A. B) . P ^bBits [mod N] ( avec N = 2P- 1 )

R<=0 ;

Pour i de 0 a NbBits-1

Si (B₀=l) Alors

R <= R+A ;

Fin Si ;

Si (R₀=l) Alors R <= R+N ;

Fin Si ;

R <= R»l ; Fin Pour ;

Si (R>=N) Alors R <= R-N ; Renvoyer(R) ;

CH2-Figure 2 : Algorithme modifié Notes :

-> 1/ L'algorithme ne fonctionne que pour des valeurs de N impaires ( N=2P- 1 ) _^ 2/ La valeur de sortie doit être corrigée par un facteur _F=22NbBi_s j-_mocj N] pour être valide.

> , On a : Montgo [Montgo(A,B,N) , F, N] = [(A.B).P^NbBits]-F.P^NbBit8 [mod N]

= A.B. P²»^bBits ₂ ^2NbBits [mod N] = A.B. (N+l)^2NbBits [mod N]

A . B= [ mo d N ]

CH2-3 Méthode d'exécution optimisée

L'algorithme ^qui suit a été optimisé pour l' imp_lem_en_ta_tion Hardware. Il réduit d'environ 25% le nombre tota_{l d'}a_ddi_tions effectuées .

Si (R>=N) Alors R <= R-N ; Renvoyer(R) ;

CH2-Figure 3 : Exécution optimisée

CH2-4 Architecture du multiplieur Montgomery

L'architecture présentée ici a été conçue pour réaliser la fonction Montgo(A,B,N) , ainsi qu'un certain nombres d'autres commandes :

-^ Calcul du facteur de correction F=2^2NbBits

-> Multiplication arithmétique classique (non modulaire₎

- Addition entière

ure 4 : interface du multiplieur

_CH2-Figure 5 : Architecture du multiplieur 512 bits CHAP-3 ) -Implementation Originale de l'algorithme CRT sur la version précédente (Montgomery) de l'exponentiateur modulaire (Revendications : Implantation , Architecture).

On décrit les macrofonctions qui sont nécessaires pour une implantation FPGA/Asic de deux nouvelles originalités non supportées dans la précédente :

-L'opération de signature DSA (Digital Signature Algorithm ) . -L'implantation CRT d'accélération de l'exponentiation modulaire.

Le chapitre décrit tout d'abord l'architecture de l'exponentiateur a base de multiplieur Montgomery ZENCOD ( revendiquée-CH3 / 1 ) II décrit ensuite les algorithmes (publics) du CRT (Chinese Re ainder Theorem) et DSA (Digital Signature Algorithm) (CH3- 2 CH3-3,CHH3-4) , ainsi que l'implantation d'une architecture ZENCOD permettant leur exécution hardware à partir de l ' e x p o n e n t i a t e u r Z EN C OD ( C H 3 - 5 )

CH3-1 Exponentiation core architecture

The Architecture is based on the Sqare&Multiply Algorithm. The multiplier and square component are ZENCOD Montgomery Multiplier (The square component is a simplified version₎

The following algorithm is the Square&Multiply method, as it was implemented in ZENCOD exponentiation core.

Inputs : M, E, N, e_width (number of significant bits for E₎ Output : R = Expo_Mont(M,E,N) = _M ^E.P^NbBits _[mod N_{] (}avec N = 2P-

1)

P <=1; Q<= M ;

For i de 0 a e_width-l If (E₀=l) Then P <= Mul_Mont(P,Q,N) ; End If ; Q <= Mul_Mont(Q,Q,N); End For ; R <= P; Renvoyer(R) ;

CH3-Figure 1 : Square & Multiply Algorithm

CH3-Figure 2 : Modular Exponentiation Core Architec_ture - ₅₁₂ bits

CH3-2 DSA Signing/Verification Algorithm

1.1 Notations > M is the original message

> H is a hashing function : for DSA the standard is SHA-1 (Secure Hash Standard)

> p is a prime number of length L between 512 and 1024 bits (L is a multiple of 64) > q is a prime factor of p-1 (length 160 bits₎

> g ≈ h^(p-^{1, q} mod p with h < (p-1)

> x < q

> y = g* mod p

-> p,q and g are public parameters (can be the same for ail users)

- x is the privâte key

- y is the public key

1.2 DSA Signing

Inputs : g, k, p, q, M, x Outputs : r,s

Generate a rando number k<q Compute r = (g^k mod p) mod q - Compute s = (k^-1. (H(M)+x.r) ) mod q -> The couple (r,s) is the signature

1.3 DSA Vérification Inputs : M, r, s, g, p, q, y Outputs : v

Compute w = s^-1 mod q

Compute u_x = (w.(H(M))) mod q

Compute u₂ = r.w mod q

Compute v = ( g^ul .y^u2 mod p) mod q

If v = r, the signature is vali_d

Notes : 1/ The modular inversion (for the computation of k^-1 mod q and s"¹ mod q) can be performed by Computing a modular exponentiation. The method is detailed below. Définition: Let y = x^"1 mod z be the integer such that x.y mod z = 1

If z is a prime number, Z₃ is a field and the inverse of x is defined for x ≠ 0 mod z .

If x ≠ 0 mod z, then x'^2"1' = 1 mod z. (Fermât's Theorem) This implies that: x^(z"2).x = 1 mod z => y = x^{(z_ )} mod z

-> 2/ A hardware implementation of DSA should be configurable for at least the following two points:

The host CPU may transmit directly H (M) or ask the chip to compute the hashing (SHA-1) by hardware.

The host CPU may transmit the random number k to the chip or ask it to generate it by hardware.

CH3-3 Chinese Remainder Theorem ( CRT ) Exponentiation Method

1.4 Notations

> M = C^D mod N is the exponentiation to be computed.

> N = p.q , with p and q two prime numbers.

(For example, to compute 1024 bits RSA, p and q will be about 512 bits each)

1.5 CRT necessary pre-computations

> D_p = D mod (p-1)

> D_q = D mod (q-1)

> R_p = q^(p_1) mod N > R_q = p^(q-^χ) mod N

1.6 CRT Exponentiation Algorithm

> C_p = C mod p C_q = C mod q > M_p = C_p ^Dp mod p

M_g = C_g ^Dq mod q

> S_p = M_p . _p mod N S_q = M_q . R_q mod N

> M = S_p + S_p If M ≥ N then M : = M - N

CH3-4 Garner Method for CRT Exponentiation

This implementation method can be used in order to reduce the data transfer between the computation core and the host CP_U.

(The operand width are given for 1024 bits exponentiation)

1.7 Notations R=C^Dmod M

C: message (1024 bits) D: exponent (1024 bits) M: modulo (1024 bits) R: resuit (1024 bits) 1.8 CRT necessary pre-computations C (1024 bits) P ( 512 bits) q ( 512 bits)

Dp = D mod (P-l) ( 512 bits) Dq = D mod (Q-l) ( 512 bits) Qinv = Q^"1 Mod P ( 512 bits) 1.9 CRT Exponentiation Algorithm

Mp = (C mod P)^Dp mod P (512 bits)

Mq ≈ (C mod Q)^Dq mod Q (512 bits)

A = Mp - Mq (512 bits)

Si A < 0 alors A = A + P

B = (A * Qinv) mod P (512 bits)

Si B < 0 alors B = B + P

R = Mq + B x Q (512 -> 1024 bits)

CH3-5 ZENCOD Implementation for CRT Exponentiation

This implementation uses Garner method. It was modified in order to use ZENCOD Montgomery multiplier:

-> The pre-computation are the same (see part 3.₎ - The hardware hâve to exécute the following instructions: Step 1 :

> Compute the Montgomery correction factor Fp=2^sl2 _[mod p]

> Compute the Montgomery correction factor Fq=2⁵¹² _[mo_d q]

Step 2 :

> Compute Cp=MulMont(C,Rp,p) Compute Cq=MulMont(C,Rq,q)

Step 3 :

> Compute Mp=ExpoMont(Cp,Dp,p)

> Compute Mq≈ExpoMont(Cq,Dq,q) Step 4 : > Compute A=Mp-Mq

> If(A<0)A<= A+p Step 5:

> Compute qInvF=MulMont(qInv,Fp,p)

> Compute B=MulMont(A,qInvF,p) Step 6: Compute R=B*q + Mq

The 1024-bits CRT core uses two 512 bits exponentiation cores. Each core instantiate two ZENCOD Montgomery Multipliers. (SQ_MONT bloc is a simplified version of MUL_MONT.)

The architecture of the 512 bits exponentiation core was described in part 1.

The two 512 bits cores can be chained to exécute the 1024-bits wide opération of CRT computation.

CH3-Figure 3 : 1024 bits CRT Computation Core

Claims

Revendications

1 - Circuit électronique d'accélération de traitement cryptographique par l'algorithme à clé publique RSA caractérisé en ce qu'elle comprend un étage additionneur basée sur un système de décalages et d'additions, un étage Multiplieur dérivé de l'algorithme de (Montgomery₎ et un étage exponentiateur.

2 — Circuit électronique selon la revendication 1 caractérisé en ce qu'elle comprend 64 Additionneurs de 16 bits pour des mots de 1024, 2048 ou 4096 bits.

3 - Circuit électronique selon la revendication 1 caractérisé en ce qu'elle comprend deux blocs, l'activité du second étant la moitié du premier pour former une architecture 64 blocs Additionneurs et 32 Shifteurs travaillant en parallèle.

4 - Circuit électronique pour le calcul d'une fonction multiplieur AB, caractérisé en ce qu'il comporte un premier étage formé par une mémoire tampon F_IF_O et un deuxième étage formé par une pluralité d'additionneurs parallèles recevant en entrée les variables A et B l_a somme de chacun des additionneurs étant stockée dans un registre.

4 - Procédé de calcul d'un message chiffré c=m^e mod n, en vue du chiffrement d'un message, où :

- m désigne un fichier numérique [le message en clair]

- e désigne la clé privée [clé secrète] constituée par un nombre entier de K bits

- avec n est le produit p.q où p et q désignen_{t d}eux grands nombres entiers premiers choisis aléatoiremen_t le procédé consistant à calculer la _fonc_tion m^e par x=AB mod n caractérisé en ce que qu'il comporte une étape de découpage des variables numériques A et B en une Q sous-registres (A_i), (Bi), à procéder à des additions simultanées bloc par bloc pour calculer d'une part des blocs (Ai+Bi) ainsi que les retenus (S_±), une étape de détermination de la classe d'appartenance desdits blocs (Ai+Bi) , la classe d'appartenance étant constitué par une première classe formée, une étape d'itération de l'addition bloc à bloc jusqu'à ce qu ' aucune retenue ne se propage plus .

5 — Procédé de calcul selon la revendication 3 caractérisé en ce que Q est déterminé par une méthode probabilistique.

6 — Procédé de calcul selon la revendication 4 caractérisé en ce que la longueur des variables A et B est de 1024 bits, et que Q est égal à 4.

7 — Procédé de déchiffrement d'un message c, consistant à calculer le message en clair m par l'application de la fonction m=c^d mod p.q, en vue du déchiffrement d'un message, où :

- m désigne un fichier numérique [le message en clair]

- e désigne la clé privée (clé secrète] constituée par un nombre entier de K bits

- p et q désignent deux grands nombres entiers premiers choisis aléatoirement,