WO2004074959A2

WO2004074959A2 - Procede de production d’une grappe de traitement de donnees et systeme informatique pour fonctionner en grappe

Info

Publication number: WO2004074959A2
Application number: PCT/FR2004/000426
Authority: WO
Inventors: Philippe Augerat; Yves Denneulin; Simon Derr; Pierre Lombard
Original assignee: Centre National De La Recherche Scientifique -Cnrs-
Priority date: 2003-02-18
Filing date: 2004-02-17
Publication date: 2004-09-02
Also published as: WO2004074959A3; FR2851351A1

Abstract

Procede de production d'une grappe de traitement de donnees et systeme informatique pour fonctionner en grappe. Pour produire une grappe de traitement de donnees, le procede comprend des etapes consistant a prealablement prendre des equipements de traitement de donnees numeriques (1,2,3) qui sont relies en reseau et qui sont habituellement prevus pour traiter chacun des donnees en etant actifs sur un premier systeme d'exploitation lance a partir d'un systeme d'interface materiel, configurer le systeme d'interface materiel de chaque equipements de traitement de donnees numeriques avec une faculte d'amorcage reseau, relier au reseau (4), au moins un serveur (5) comprenant un deuxieme systeme d'exploitation qui est prevu pour fonctionner en mode grappe et des etapes consistant a demarrer a partir du serveur (5), chaque equipements de traitement de donnees numeriques que le serveur detecte inactif sur le premier systeme d'exploitation, au moyen d'un protocole d'amorgage reseau puis a charger a partir du serveur (5), le deuxieme systeme d'exploitation en memoire vive de chaque equipements de traitement de donnees numeriques ainsi demarre.

Description

Procédé de production d'une grappe de traitement de données et système informatique pour fonctionner en grappe.

Le domaine de l'invention est celui des grappes pour le calcul et le traitement de l'information. Une grappe de traitement de données comprend plusieurs ordinateurs qui communiquent de façon à se répartir des tâches de traitement de données qu'ils exécutent chacun sur un système d'exploitation indépendant.

Les tâches de traitement sont celles d'applications qui nécessitent des calculs considérables. Les applications sont par exemple les applications traditionnelles du calcul intensif (dynamique moléculaire, chimie ab initio, océanographie, météorologie) ou encore les applications plus récentes du traitement de l'information (indexation de documents web, stockage distribué, analyse de risque en finance, recherche de similarité en génomique, base de données). D'autres technologies existent telles que celles des machines multiprocesseurs avec système d'exploitation commun mais celles-ci sortent du domaine de l'invention.

L'état de la technique du domaine de l'invention comprend différentes architectures de grappes d'ordinateur. II existe celles dans lesquelles les ordinateurs sont dédiés à demeure au mode de fonctionnement en grappe. Un quantité importante d'ordinateur influe directement sur le prix de telles architectures.

On connaît par exemple les solutions qui consistent à déployer une application de calcul au dessus du système d'exploitation présent sur chaque ordinateur avec un système de protection qui empêche l'application de calcul de corrompre l'ordinateur ou le réseau. Cette technique dite du bac à sable (sandboxing dans la littérature) se retrouve par exemple dans les logiciels connus Condor et XtremWeb. Les inconvénient de cette technique sont dans les limitations en terme de droit d'exécution et dans les contraintes d'installation qui manquent de souplesse.

On connaît aussi les solutions qui consistent à commuter vers un environnement de fonctionnement en mode grappe disposant d'un système d'exploitation distinct. Le système d'exploitation en mode grappe réside généralement sur une partition de disque dur avec possibilité de double amorçage sur le système d'exploitation habituel ou en mode grappe. Cependant le coût d'administration est considérable, par exemple pour tenir à jour le système de grappe sur chaque ordinateur. Un système d'exploitation centralisé limite nécessairement le nombre d'ordinateurs aux capacités d'un serveur pour communiquer sur le réseau auquel ils sont reliés.

L'invention a pour but de proposer une infrastructure pour réseau qui agrège des équipements de traitement de l'information au sein d'une grappe virtuelle de traitement avec un fonctionnement semblable à celui d'équipements agencés en grappe à demeure. On entend par équipements de traitement de l'information tous équipements de traitement de données numériques tels que par exemple des ordinateurs personnels reliés à un réseau local d'entreprise de type Intranet ou encore des appareils reliés à un réseau domotique avec chacun un système d'interface matériel ( BIOS en abrégé pour Basic Input Output System en anglais) pour lancer un système d'exploitation autonome qui permet de faire des calculs sur des données numériques.

Un premier objet de l'invention est un procédé pour produire une grappe de traitement de données. Le procédé est remarquable en ce qu'il comprend: des étapes consistant à préalablement: - prendre des équipements de traitement de données numériques qui sont reliés en réseau et qui sont habituellement prévus pour traiter chacun des données en étant actifs sur un premier système d'exploitation lancé à partir d'un système d'interface matériel; configurer le système d'interface matériel de chaque équipements de traitement de données numériques avec une faculté d'amorçage réseau; relier au dit réseau, au moins un serveur comprenant un deuxième système d'exploitation qui est prévu pour fonctionner en mode grappe; et des étapes consistant à: démarrer à partir du serveur, chaque équipements de traitement de données numériques que le serveur détecte inactif sur le premier système d'exploitation, au moyen d'un protocole d'amorçage réseau; charger à partir du serveur, le deuxième système d'exploitation en mémoire vive de chaque équipement de traitement de données numériques ainsi démarré.

La détection d'inactivité d'un équipement de traitement de données numériques pour être démarré à partir du serveur et le chargement du deuxième système d'exploitation uniquement en mémoire vive, ont pour effet technique, une utilisation transparente vis à vis de l'usage traditionnel des équipements de traitement de données numériques par l'absence d'impact qui en résulte sur le travail des utilisateurs individuels ou de l'administrateur du réseau. Le chargement à partir du serveur du deuxième système d'exploitation apporte une souplesse de configuration appréciable. Le fait de prendre des équipements de traitement de données numériques déjà reliés en réseau pour d'autre usage réduit les coûts de production de la grappe.

Particulièrement, le procédé comprend une étape consistant à préalablement configurer le deuxième système d'exploitation de. façon à ce qu'il ne comprenne aucun pilote d'accès à un premier système de stockage de masse qui est géré par le premier système d'exploitation.

Ainsi, l'absence par défaut de pilote d'accès au premier système de stockage de masse, seulement accessible au premier système d'exploitation, évite au deuxième système d'exploitation de corrompre le fonctionnement sur le premier système d'exploitation.

Particulièrement aussi, le procédé comprend une étape consistant à attribuer une adresse réseau privée au serveur et à chaque ordinateur de la grappe.

Ainsi, une adresse réseau privée par défaut entrave d'éventuelles tentatives d'intrusions extérieures au réseau.

Particulièrement encore, le procédé comprend une étape consistant à configurer le deuxième système d'exploitation avant chargement en mémoire vive de chaque ordinateur de façon à crypter chaque communication sur le réseau.

Ainsi, le chiffrement des communications sur le réseau, isole les équipements de traitement de données numériques d'un monde extérieur.

L'effet technique supplémentaire est sur un renforcement de sécurité des données locales à une entreprise ou à un domicile. D'autres moyens techniques équivalents pour empêcher par défaut toute communication avec d'autres machines sont par exemple des tables de filtrage à l'entrée du réseau qui n'autorise que des communications à des adresses préalablement répertoriées. Plus particulièrement, le serveur utilise un environnement de parallélisation de service de données agencé pour aiguiller sur le réseau, une requête de chargement de données en provenance d'un équipement de traitement de données numériques vers un démon qui retourne une réponse à la requête.

Le démon est par exemple un autre équipement de traitement de données numériques ou un autre serveur qui dispose des données à charger. Les données peuvent concerner tant des données de code exécutable que des données de valeurs numériques. L'effet technique supplémentaire est sur un passage à l'échelle (scaling en anglais) d'un grand nombre de postes de travail qui résulte de l'allégement de charge du serveur pour charger le deuxième système d'exploitation et aussi pour charger des applications à exécuter par les équipements de traitement de données numériques.

Plus particulièrement encore, le procédé comprend une étape consistant à redémarrer sur le premier système d'exploitation, tout ordinateur pour lequel le deuxième système d'exploitation détecte une intervention locale. Un deuxième objet de l'invention est un système informatique permettant un fonctionnement en grappe de traitement de données. Le système informatique est remarquable en ce qu'il comprend: un réseau d'équipements de traitement de données numériques qui sont habituellement prévus pour traiter chacun des données en étant actifs sur un premier système d'exploitation, le système d'interface matériel de chaque équipement de traitement de données numériques ayant une faculté d'amorçage réseau; un serveur relié au réseau comprenant un deuxième système d'exploitation qui est prévu pour fonctionner en mode grappe; et en ce que le serveur est agencé pour détecter au moins un équipement de traitement de données numériques inactif sur le premier système d'exploitation, pour démarrer au moyen d'un protocole d'amorçage réseau l'équipement de traitement de données numériques détecté inactif et pour charger le deuxième système d'exploitation en mémoire vive de l'équipement de traitement de données numériques ainsi démarré.

Particulièrement, dans le système informatique le deuxième système d'exploitation ne comprend aucun pilote d'accès à un premier système de stockage de masse qui est géré par le premier système d'exploitation.

Particulièrement aussi, le serveur et chaque équipement de traitement de données numériques du réseau possèdent une adresse réseau privée.

Particulièrement encore, le deuxième système d'exploitation comprend des moyens pour crypter chaque communication sur le réseau. Plus particulièrement, le deuxième système d'exploitation comprend un environnement de parallélisation agencé pour aiguiller une requête de chargement en provenance d'un équipement de traitement de données numériques, vers un démon qui retourne une réponse à la requête.

Les caractéristiques énoncées avec d'autres détails et avantages ressortent d'un exemple de mise en œuvre dont la description suit en référence aux dessins annexés dans lesquels:

- la figure 1 est un diagramme d'étapes de procédé de production conforme à l'invention;

- la figure 2 est un schéma de système informatique dans lequel est mise en œuvre l'invention;

- les figures 3, 4 et 5 sont des logigrammes de protocoles utiles dans le cadre de l'invention.

La figure 1 montre des étapes de procédé conforme à l'invention pour produire une grappe de traitement de données (cluster en anglais). On distingue d'une part des étapes préalables 16, 17, 18 pour préparer une configuration matérielle d'ordinateurs de façon à pouvoir faire fonctionner ces ordinateurs en mode grappe. On distingue d'autre part des étapes 26, 27, 28 pour produire temporairement une grappe au moyen de ces ordinateurs.

L'étape 16 consiste à prendre des ordinateurs standards agencés pour d'autres fonctionnement que celui en mode grappe.

La figure 2 montre plusieurs ordinateurs 1 , 2, 3 relié à un réseau privé 4, chacun respectivement au moyen d'un coupleur 14, 24, 34. Les ordinateurs 1 , 2, 3 sont des ordinateurs classiques tels que des micro-ordinateurs personnels qui comprennent chacun respectivement un micro-processeur 10, 20, 30, une mémoire re-programmable 12, 22, 32, une mémoire vive 11 , 21 , 31 , des coupleurs d'entrée- sortie 15, 25, 35 et une mémoire de masse 13, 23, 33.

La mémoire de masse 13, 23, 33 est par exemple un disque dur. Plus généralement, c'est un système de stockage de masse destiné à contenir des fichiers exécutables et des fichiers de données auxquels l'utilisateur de l'ordinateur peut accéder pour utiliser différentes applications

Les coupleurs d'entrée sortie 15, 25, 35 sont généralement raccordés pour chaque ordinateur à un clavier, à une souris, à un lecteur de disquette et à un écran non représentés sur la figure.

La mémoire re-programmable 12, 22, 32, contient un système d'interface matériel ( BIOS en abrégé pour Basic Input Output System) qui comprend différentes fonctions de bas niveau pour gérer physiquement les différents composants matériels de l'ordinateur. Certaines fonctions du BIOS sont généralement configurables telles que par exemple celles pour définir une séquence de démarrage de l'ordinateur, allumage de l'ordinateur à partir de l'interrupteur local de mise sous tension ou du coupleur réseau, environnement d'exécution préalable (PXE en abrégé pour Preboot eXecution Environment en anglais) qui permet d'exécuter un programme de lancement (Boot en anglais pour chausse-pied) de façon à charger et initialiser en mémoire vive, un système d'exploitation ( OS en abrégé pour Operating System en anglais) de l'ordinateur, à partir du réseau, du disque dur ou d'une disquette.

La mémoire vive 11 , 21 , 31 , se distingue de la mémoire de masse et de la mémoire re-programmable en ce qu'elle est réinitialisée à chaque redémarrage de l'ordinateur.

Le fonctionnement habituel des ordinateurs représentés en figure 1 , est celui de stations individuelles de travail. D'autres ordinateurs semblables non représentés, peuvent être reliés au réseau 4. Un premier système d'exploitation chargé en mémoire vive 11 , comprend des pilotes d'accès à un premier système de stockage de masse comprenant la mémoire de masse 13 et s'il est distribué, éventuellement tout ou partie des mémoires de masse 23, 33. Il en est de même pour les mémoires vives 21 , 31 respectivement des ordinateurs 21 , 31 et d'autres ordinateurs reliés au réseau 4. Ainsi, chaque utilisateur d'un ordinateur peut faire exécuter des applications résidentes sur le premier système de stockage de masse et communiquer avec d'autres utilisateurs d'autres ordinateurs au moyen du réseau 4.

Lorsque l'utilisateur de l'ordinateur 1 , 2, 3, n'utilise pas son ordinateur, celui- ci est inactif sur le premier système d'exploitation. Les ressources de traitement de données constituées par le processeur 10, 20, 30 et la mémoire vive 11 , 21 , 31 , sont alors disponibles. Ceci peut être le cas lorsque l'utilisateur éteint son ordinateur avant de quitter son lieu de travail ou lorsqu'il laisse son ordinateur en veille sans intervenir par le clavier ou la souris. Pour produire une grappe de traitement de données en exploitant cette disponibilité d'ordinateurs, l'étape 17 consiste à configurer le système d'interface matériel des ordinateurs que l'on veut pouvoir utiliser en mode grappe, avec une faculté d'amorçage réseau. Lorsque le système d'interface matériel des ordinateurs est déjà configuré avec cette faculté d'amorçage par le réseau pour des raisons autres que celles qui font l'objet de l'invention, il suffit de s'assurer que cette faculté est présente pour chaque coupleur réseau 14, 24, 34 de chaque ordinateur 1 , 2, 3. Cette faculté est par exemple procurée par enregistrement en mémoire reprogrammable 12, 22, 32, des fonctionnalités PXE qui émettent une requête DHCP (abréviation de Dynamic Host Configuration Protocol en anglais) prioritairement à une requête d'accès au secteur d'amorce d'un disque et capables d'utiliser le protocole TFTP (abréviation de Trivial File Transfer Protocol en anglais).

Le seul ajout matériel substantiel est dans l'étape 18 qui consiste à relier un serveur 5 au réseau 4. Le serveur 5 comprend un système d'exploitation différent de celui habituellement utilisé par les ordinateurs 1 , 2, 3 pour fonctionner individuellement en station de travail. Ce deuxième système d'exploitation est prévu pour un fonctionnement en mode grappe. Il est par exemple stocké sur un deuxième système de stockage de masse pour lequel le deuxième système d'exploitation comprend des pilotes d'accès. Dans une mise en œuvre préférée de l'invention, le deuxième système d'exploitation est l'OS connu Linux pour ses propriétés connues de système ouvert qui permettent d'intervenir jusque sur son noyau pour l'adapter à une utilisation ciblée telle que particulièrement ici, au mode de fonctionnement en grappe selon l'invention. Le deuxième système d'exploitation est configurable de telle façon que le niveau de sécurité le soit aussi. En termes de sécurité réseau, le deuxième système d'exploitation est par exemple configuré pour utiliser un adressage réseau privé, pour filtrer les accès réseau tant à destination du serveur que de chaque ordinateur alors considéré comme client, pour crypter les connexions, pour ne contenir aucun compte utilisateur individuel interactif ou encore pour n'autoriser aucun autre service que ceux fournis par le serveur 5.

Pour améliorer la sécurité des données propres à chaque utilisateur individuel d'un ordinateur, le deuxième système d'exploitation est configuré dans une étape 19, de façon à assurer un cloisonnement complet entre le mode utilisateur individuel et le mode de fonctionnement en grappe. Particulièrement, de façon à éviter les intrusions volontaires ou involontaires dans le premier système de stockage de masse utilisé par chaque ordinateur lorsqu'il fonctionne en mode utilisateur individuel, les pilotes d'accès au premier système de stockage de masse, sont supprimés dans le deuxième système d'exploitation. Ainsi, les mode de fonctionnement utilisateur individuel et en grappe disposent de systèmes de stockage de masse physiquement distincts.

On peut aussi améliorer la sécurité sur le réseau par attribution d'adresses privées aux ordinateurs et au serveur dans une étape 29 ou par imposition dans une étape 36 de crypter les communications sur le réseau 4. Pour exécution de l'étape 36, le deuxième système d'exploitation est agrémenté de moyens cryptographiques.

Un moyen équivalent à celui de l'étape 29 peut être procuré par une étape 50 dans laquelle on agence le serveur avec une table de filtrage qui référence les adresses réseau de chaque équipement à introduire dans la grappe de façon à ce que le serveur diffuse les adresses autorisées vers chaque équipement de la grappe pour limiter les communications sur le réseau à ces seuls équipements. On peut aussi paramétrer le micrologiciel des commutateurs du réseau de façon à verrouiller les ports de communication sur le réseau.

Le serveur 5 comprend aussi un fichier contenant une séquence de commandes (script dans le vocabulaire informatique courant) agencée pour démarrer chaque ordinateur sur lequel elle est téléchargée. La séquence comprend des commandes qui, lorsqu'elles sont exécutées par un ordinateur 1 , 2, 3, sur lequel elle est téléchargée, chargent le deuxième système d'exploitation en mémoire vive respective 11 , 21 , 31 , à partir du serveur 5. La séquence ne comprend aucune commande pour installer le deuxième système d'exploitation en mémoire de masse respective 13, 23, 33.

Plus généralement, le serveur 5 ne prévoit aucune installation de logiciel sur les ordinateurs individuels 1 , 2, 3 pour le fonctionnement en mode grappe. Ceci permet de minimiser l'impact du mode de fonctionnement en grappe sur le travail de l'administrateur et sur le travail de chaque utilisateur individuel.

Après que l'administrateur se soit assuré en phase préliminaire que le BIOS est configuré pour permettre un amorçage par le réseau 4 de chaque ordinateur une fois pour toutes en étape 16, l'administrateur n'a pas besoin d'assurer une maintenance, une mise à jour ou une désinstallation de logiciel sur les ordinateurs en tant que postes clients. L'administrateur n'a besoin de se préoccuper de reconfiguration que sur le serveur 5 sans avoir à intervenir individuellement sur chaque poste client, par exemple en cas de panne locale. Cette absence d'installation de logiciel sur les postes client, facilite considérablement le déploiement d'applications en mode grappe, les mises à jour et les suppressions.

Le serveur 5 permet un fonctionnement en mode grappe, transparent pour chaque utilisateur individuel. Tant le système d'exploitation que les logiciels applicatifs du mode grappe, étant limités à la seule mémoire vive 11 , 21 , 31 de chaque ordinateur 1 , 2, 3, chaque utilisateur individuel n'a besoin que de redémarrer sa machine en cas de panne de fonctionnement en mode grappe. Lorsque sa machine redémarre sur le premier système d'exploitation, l'utilisateur individuel ne voit aucune trace d'un fonctionnement en mode grappe.

Le serveur 5 est agencé pour centraliser le fonctionnement des ordinateurs individuels qui en mode grappe, se comportent comme des machines sans disque. On peut éventuellement prévoir sur chaque ordinateur, une partition de disque accessible uniquement par le deuxième système d'exploitation sans l'être par le premier système d'exploitation pour mettre en œuvre une fonctionnalité antémémoire (cache en anglais) mais cela n'est pas obligatoire. Un tel choix demande cependant à prendre certaines précautions à cause d'une perte de l'aspect sécurité fort qui est procuré par une absence totale d'accès disque dans l'ordinateur.

Dans ce mode centralisé de fonctionnement en grappe, il est prévu de faire accéder de nombreux ordinateurs aux données par l'intermédiaire du serveur 5 relié au réseau 4. Le nombre d'ordinateurs, généralement bien supérieur aux trois représentés sur la figure 2, peut poser des problèmes de passage à l'échelle (scalability en anglais). En fonctionnement sans disque local, le nombre de postes d'une grappe est limité par les performance du serveur. L'invention propose plusieurs solutions pour repousser ces limites. Des essais ont été effectués avec une grappe de 255 ordinateurs personnels.

Selon une première solution, on implémente dans le serveur 5, un environnement de parallélisation de traitement de requêtes en provenance de postes clients. Cet environnement comprend des fonctions pour mettre en œuvre au moins l'un des protocoles expliqués à présent en référence aux figures 3 à 5.

Le protocole expliqué en référence à la figure 3 convient pour tout type de requête de chargement de données. Il présente l'avantage d'être standard au niveau d'un poste client, émission requête, réception réponse. Il est particulièrement approprié pour mettre en œuvre un protocole imposé tel que par exemple NFS (abréviation de Network File System en anglais). Il est bien approprié aussi lorsque la source de la réponse n'est pas connue a priori au moment de l'émission de la requête.

Dans une étape 40, un client émet de façon connue une requête à destination d'un serveur avec en entête une adresse réseau source IP_Cι, une adresse réseau destination IP_se, un port source Port_Cι, un port destination Port_se.

Dans un serveur, une transition 41 validée par une réception de la requête émise par le client, active une étape 37. Le serveur traite les méta-données de la requête, c'est à dire par exemple pour une requête d'accès à un fichier, les données relatives aux informations de date et d'heure, propriétaire, permissions d'accès, taille du fichier, emplacement de stockage en mémoire, etc.

Dans l'étape 37, le serveur émet une requête à destination d'un démon. On appelle ici démon, une machine ou système disponible sur le réseau et qui possède les données pour répondre à la requête. Le serveur reporte le corps de la requête reçue du client dans le corps de la requête émise vers le démon avec en entête l'adresse réseau du démon IPde et le port du démon Port_de comme adresse et port de destination. On sait que le port source est généralement librement choisi de façon aléatoire par un émetteur de requête. Par dérogation au principes généraux de transmission qui voudraient que ce soit l'adresse réseau du serveur qui figure à titre d'adresse source en entête de la requête émise à destination du démon, le serveur place en entête de sa requête, l'adresse réseau du client IP_Cι et le port client Port_Cι à titre d'adresse source et de port source.

Dans le démon, une transition 38 validée par une réception de la requête émise par le serveur, active une étape 39.

Dans l'étape 39, le démon émet une réponse avec en entête l'adresse réseau du client IP_Cι et le port du client Port_Cι comme adresse et port de destination. Par dérogation au principes généraux de transmission qui voudraient que ce soit l'adresse réseau du démon qui figure à titre d'adresse source en entête de la réponse émise à destination du client, le démon place en entête de sa réponse, l'adresse réseau du serveur IP_se et le port serveur Port_se à titre d'adresse source et de port source. Lorsque le serveur est unique, la connaissance de l'adresse et du port du serveur peut être implicite dans le démon. Pour permettre à plusieurs serveurs d'utiliser les services du démon, chaque serveur incorpore aussi son adresse réseau IP_se et son port Port_se dans le corps de requête en étape 37 de façon à les porter à la connaissance du démon pour activation de l'étape 39. Le service attendu du démon étant identique à celui attendu du serveur, le port Port_se peut aussi simplement être identique au port Portde-

Dans le client, une transition 42 validée par une réception de la réponse émise par le démon, a le même effet que si elle était validée par une réception de réponse en provenance du serveur car on retrouve en entête l'adresse réseau IP_se à titre d'adresse source, l'adresse réseau IP_Cι à titre d'adresse de destination, le port Port_se à titre de port source et le port Port_Cι à titre de port de destination. On note que l'environnement de parallélisation n'apporte aucune modification au niveau du client qui continue à utiliser un protocole standard d'émission de requête et de réception de réponse. Les modifications essentielles se situent au niveau du serveur et du démon qui introduisent des adresses sources et des ports sources factices dans les émissions de messages (spoofing en anglais).

On observe que le protocole de parallélisation précédemment décrit, allège considérablement la charge du serveur en la répartissant sur un ou plusieurs démons.

Lorsque le client émet une requête d'accès en lecture avec un nom de fichier, le serveur se contente de lire les méta-données, de déterminer le démon qui gère les données à lire et de transférer cette requête au démon déterminé. Le serveur est alors rapidement disponible pour traiter une nouvelle requête. C'est le démon qui assure le transfert des données lues vers le client, transfert qui représente la charge la plus considérable de traitement de la requête. Lorsque le client émet une requête d'accès en écriture avec un nom de fichier, le serveur se contente de mettre à jour les méta-données, de déterminer le démon qui gère les données à écrire et de transférer cette requête au démon déterminé. Le serveur est alors rapidement disponible pour traiter une nouvelle requête. C'est le démon qui assure l'écriture des données, écriture qui représente la charge la plus considérable de traitement de la requête avec émission d'un acquittement au client en fin d'écriture.

Lorsque le client émet une requête d'accès en création ou en suppression avec un nom de fichier, le serveur se contente de mettre à jour les méta-données, de déterminer le démon qui gère le support physique de fichier à créer ou à supprimer et de transférer cette requête au démon déterminé. Le serveur est alors rapidement disponible pour traiter une nouvelle requête. C'est le démon qui assure la création ou la suppression de fichier sur le support physique, création ou suppression qui représente la charge la plus considérable de traitement de la requête. Les explications qui précèdent peuvent aussi s'appliquer à des accès à des structures de données (variables, tableaux ou autres) en mémoire vive comme nous le verrons par la suite.

Considérant les ordinateurs 1 , 2, 3 à titre de clients, aucune modification n'y est nécessaire pour mettre en œuvre l'environnement de parallélisation. Les clients n'ayant à connaître que le serveur 5 où sont mises en œuvre les particularités de cet environnement. Le ou les démons peuvent être une machine quelconque du réseau tel qu'un autre serveur ou tel qu'un autre ordinateur 2, 3 utilisant sa mémoire vive.

Les protocoles expliqués en référence aux figures 4 et 5, diffèrent de celui expliqué en référence à la figure 3 en ce que le démon répond à une requête émise par le client sans être passée par le serveur et s'identifie comme étant l'émetteur de la réponse sans se substituer au serveur. L'établissement d'un dialogue de communication directe entre le client et le démon, permet d'augmenter les performances de débit sur le réseau pour des requêtes subséquentes qui concernent un même démon identifié. Ces protocoles conviennent pour tout type de requête de chargement de données. Ils présentent l'avantage d'être standard au niveau d'un démon, émission requête, réception réponse. Le protocole expliqué en référence à la figure 4 est particulièrement approprié lorsqu'on peut choisir un protocole tel que par exemple PVFS (abréviation de Parallel Virtual File System en anglais). Ce protocole a été développé par l'université de Clemson et la NASA, pour des grappes de Stations de Travail de type connu sous le nom de Beowulf. Il est bien approprié aussi lorsque la source de la réponse n'est pas connue a priori au moment de l'émission de la requête.

Dans une étape 40, un client émet de façon connue une requête à destination d'un serveur avec en entête une adresse réseau source IP_Cι, une adresse réseau destination IP_se, un port source Port_Cι, un port destination Port_se- Dans un serveur, une transition 41 validée par une réception de la requête émise par le client, active une étape 43.

Dans l'étape 43, le serveur émet une commande de redirection à destination du client. Le serveur indique dans le corps de la commande de redirection, l'adresse réseau IP_de et le port Port_de du démon apte à renvoyer une réponse à la requête, avec en entête l'adresse réseau du serveur IP_se et le port du serveur Port_se comme adresse et port de source.

Dans le client, une transition 44 validée par la commande de redirection, active une étape 45.

Dans l'étape 45, le client émet la requête à destination du démon avec en entête l'adresse réseau source IP_Cι, une adresse réseau destination IP_de, le port source Port_Cι, un port destination Port_de.

Dans le démon, la transition 38 validée par une réception de la requête émise par le client en étape 45, active une étape 46.

Dans l'étape 46, le démon émet une réponse avec en entête l'adresse réseau du client IP_Cι et le port du client Port_Cι comme adresse et port de destination. Le démon place en entête de sa réponse, son adresse réseau IP e et son port Port_de à titre d'adresse source et de port source. Dans le client, une transition 47 validée par une réception de la réponse émise par le démon, lui permet de poursuivre l'exécution du processus en cours.

En particulier les requêtes suivantes concernant des données pour lesquelles le démon est apte à fournir une réponse peuvent être adressées directement au démon sans repasser par le serveur.

Le protocole expliqué en référence à la figure 5 est particulièrement approprié lorsque la source de la réponse est connue par le serveur préalablement à l'émission de la requête par le client.

Dans l'étape 43, le serveur émet une commande de redirection à destination du client. Le serveur indique dans le corps de la commande de redirection, l'adresse réseau IPde et le port Portde du démon apte à renvoyer une réponse à une requête qu'il est prévue d'être émise par le client, avec en entête l'adresse réseau du serveur IP_se et le port du serveur Port_se comme adresse et port de source.

Dans le client, une transition 44 validée par la commande de rédirection, active une étape 45.

Dans l'étape 45, le client émet la requête à destination du démon avec en entête l'adresse réseau source IP_Cι, une adresse réseau destination IP_de, le port source Port_Cι, un port destination Portde-

Dans le démon, la transition 38 validée par une réception de la requête émise par le client, active une étape 46.

Dans l'étape 46, le démon émet une réponse avec en entête l'adresse réseau du client IP_C| et le port du client Port_Cι comme adresse et port de destination. Le démon place en entête de sa réponse, son adresse réseau IP_de et son port Port_de à titre d'adresse source et de port source. Dans le client, une transition 47 validée par une réception de la réponse émise par le démon, lui permet de poursuivre l'exécution du processus en cours. En particulier les requêtes suivantes concernant des données pour lesquelles le démon est apte à fournir une réponse peuvent être adressées directement au démon sans repasser par le serveur. Selon une deuxième solution, on réalise le serveur 5 sous forme distribuée de sous-serveurs affectés chacun à un sous-réseau du réseau 4. Chaque ensemble d'ordinateurs reliés à un même sous réseau ne connaît que le sous- serveur affecté à ce sous-réseau. Chaque sous-serveur peut alors disposer d'un deuxième système de stockage indépendant avec son ou ses démons.

La première et la deuxième solution peuvent aussi être combinées en considérant comme démon d'un sous-serveur affecté à un sous-réseau, un sous- serveur affecté à un autre sous-réseau.

L'exécution préalable des étapes 16 à 18 met maintenant à disposition une configuration matérielle propice à produire une grappe de traitement de données conformément à l'invention aussi souvent que certaines conditions sont remplies en exécutant des étapes 26 à 27. Ces conditions sont essentiellement qu'un nombre suffisant d'ordinateurs 1 , 2, 3 soient inactifs sur leur premier système d'exploitation habituel de façon à être disponibles pour produire une grappe de traitement de données. L'inactivité des ordinateurs résulte par exemple de leur extinction par leurs utilisateurs individuels en fin de journée de travail.

L'étape 26 est par exemple activée en dehors des horaires de travail des utilisateurs individuels ou à heure déterminée à laquelle on a demandé aux utilisateurs individuels d'éteindre leurs ordinateurs. Dans l'étape 26, le serveur 5 détecte les ordinateurs reliés au réseau qui sont inactifs sur le premier système d'exploitation. Ce sont par exemple les ordinateurs éteints ou de façon plus poussée les ordinateurs en veille sur lesquels aucune interaction n'a été engagée depuis un certain temps. Le serveur 5 démarre alors chaque ordinateur au moyen d'un protocole de type connu tel que "Wake on LAN" puis du protocole d'amorçage réseau mentionné précédemment dans l'environnement PXE. A son allumage par le réseau à partir du serveur 5, chaque ordinateur 1 , 2, 3, envoie une requête DHCP au serveur 5 qui retourne une réponse avec une adresse réseau privée IP pour l'ordinateur, un nom de programme de commandes exécutables par l'ordinateur et une option de téléchargement de séquence de commandes. L'ordinateur envoie alors de façon usuelle une requête dite GET sous TFTP pour charger en mémoire vive le programme de commandes exécutables. A réception du programme de commandes exécutables, l'ordinateur envoie une requête GET sous TFTP pour charger en mémoire vive, la séquence de commandes indiquée en option.

L'étape 27 utilise la séquence de commandes téléchargée pour charger le deuxième système d'exploitation en mémoire vive à partir du serveur 5. En particulier, la séquence de commandes une première commande "TFTP Get: Linux kernel" et une deuxième commande "TFTP Get: Linux data" où Linux désigne le deuxième système d'exploitation, kernel désigne le noyau du deuxième système d'exploitation et data désigne les données de configuration du deuxième système d'exploitation.

A titre illustratif, supposons que les ordinateurs sont démarrés par le serveur 5, dans un ordre ordinateur 1 , ordinateur 2, ordinateur 3 et ainsi de suite pour les ordinateurs suivants non représentés sur la figure 2.

En exécutant la première commande, l'ordinateur 1 génère une première requête à destination du serveur 5 qui retourne à l'ordinateur 1 , une première réponse contenant le noyau du deuxième système d'exploitation. Après avoir chargé le noyau du deuxième système d'exploitation en mémoire 11 , l'ordinateur 1 exécute la deuxième commande qui génère une deuxième requête à destination du serveur 5. Le serveur 5 retourne alors à l'ordinateur 1 , une deuxième réponse qui contient les données de configuration du deuxième système d'exploitation.

L'ordinateur 2 puis l'ordinateur 3, exécutent de même successivement la première et la deuxième commande pour aboutir au même résultat que celui de l'ordinateur 1.

Avantageusement, les données de configuration du deuxième système d'exploitation comprennent l'environnement de parallélisation précédemment expliqué en référence à l'une des figures 3 à 5 avec particulièrement les paramètres du protocole de parallélisation permettant de donner aussi un comportement de démon.

Le serveur 5 répertorie le dernier ordinateur auquel il a envoyé une deuxième réponse et considère ce dernier ordinateur, dit alors ordinateur précédent, comme démon pour mettre en œuvre le protocole précédemment expliqué en référence à l'une des figures 3 à 5. Le protocole expliqué en référence à la figure 5 est bien adapté car c'est le serveur qui détermine le démon pour le chargement du système d'exploitation dans l'ordinateur suivant. Tant que le serveur 5 n'a pas envoyé de deuxième réponse à un ordinateur précédent, il se charge de transmettre toute réponse à toute requête reçue d'un ordinateur. Après avoir envoyé une deuxième réponse à un ordinateur précédent, différentes variantes sont possibles selon le protocole de l'environnement de parallélisation mis en œuvre.

Dans une variante où le protocole est celui de la figure 3, le serveur 5 retransmet toute première requête et toute deuxième requête en provenance d'un ordinateur courant, à l'ordinateur précédent qui agit alors comme le démon de la figure 3 pour envoyer une première et ou une deuxième réponse à l'ordinateur courant.

Lorsque le serveur 5 reçoit la première requête en provenance de l'ordinateur 2, il aiguille cette requête vers le dernier ordinateur répertorié pour appliquer le protocole précédemment expliqué en référence à la figure 3. Si aucun ordinateur n'est répertorié, le serveur 5 envoie lui même la première réponse à l'ordinateur 2. Si l'ordinateur 1 est répertorié, le serveur 5 aiguille la première requête vers l'ordinateur 1 qui envoie la première réponse à l'ordinateur 2 conformément au protocole précédemment expliqué en. référence à la figure 3. Lorsque le serveur 5 reçoit la deuxième requête en provenance de l'ordinateur 2, l'ordinateur 1 étant répertorié, le serveur 5 aiguille la deuxième requête vers l'ordinateur 1 qui envoie la deuxième réponse à l'ordinateur 2 conformément au protocole précédemment expliqué en référence à la figure 3.

Lorsque le serveur 5 reçoit la première requête en provenance de l'ordinateur 3, il aiguille cette requête vers le dernier ordinateur répertorié pour appliquer le protocole précédemment expliqué en référence à la figure 3. Si l'ordinateur 1 est celui répertorié, le serveur 5 aiguille la première requête vers l'ordinateur 1 qui envoie la première réponse à l'ordinateur 3 conformément au protocole précédemment expliqué en référence à la figure 3. Si l'ordinateur 2 est répertorié, le serveur 5 aiguille la première requête vers l'ordinateur 2 qui envoie la première réponse à l'ordinateur 3 conformément au protocole précédemment expliqué en référence à la figure 3. Lorsque le serveur 5 reçoit la deuxième requête en provenance de l'ordinateur 3, l'ordinateur 2 étant répertorié, le serveur 5 aiguille la deuxième requête vers l'ordinateur 2 qui envoie la deuxième réponse à l'ordinateur 3 conformément au protocole précédemment expliqué en référence à la figure 3.

Dans une variante où le protocole est celui de la figure 4, le serveur 5 renvoie une commande de redirection à toute première requête en provenance d'un ordinateur courant. La commande adressée à l'ordinateur courant, est de redirection vers l'ordinateur précédent qui agit alors comme le démon de la figure 4 pour envoyer une première et ou une deuxième réponse à l'ordinateur courant.

Dans une variante préférée où le protocole est celui de la figure 5, le serveur 5 envoie une commande de redirection dès qu'il entre en relation avec un ordinateur suivant considéré comme ordinateur courant. La commande adressée à l'ordinateur courant, est de redirection vers l'ordinateur précédent qui agit alors comme le démon de la figure 5 pour envoyer une première et ou une deuxième réponse à l'ordinateur courant. Le processus de chargement du deuxième système d'exploitation qui vient d'être expliqué pour les ordinateurs 1 , 2, 3, se poursuit de même pour les ordinateurs suivants. On observe ainsi un chargement en pipeline des composants du système d'exploitation. Les ordinateurs travaillant uniquement sur leur mémoire virtuelle, les réponse de démon sont effectuées à partir de la mémoire virtuelle. Lorsqu'on utilise un système de fichier réparti de type connu NFS, on nomme NFSp l'environnement précédemment expliqué en référence à la figure 3. Le chargement des fichiers à partir du serveur 5 sur les ordinateurs individuels reste standard coté ordinateur individuel considéré en tant que client. Le noyau connu NFSROOT reste donc applicable sans modification. On peut aussi prévoir dans la séquence de commandes téléchargée, une commande pour créer un disque virtuel en mémoire vive. Le disque virtuel disparaîtra au redémarrage de l'ordinateur individuel sans laisser de trace. Le stockage du deuxième système d'exploitation sur le disque virtuel permet alors à l'ordinateur d'utiliser l'environnement NFSp pour être utilisé en tant que démon. L'environnement NFSp offre un service de fichier qui permet de passer à l'échelle sur plusieurs centaines de clients.

L'environnement NFSp comprend avantageusement des fonctionnalités connues de gestion de système de stockage de grande capacité à grande sûreté (RAID en abrégé pour Redundant Array of Inexpensive Disks en anglais). Ceci permet de supporter des pannes de sous-serveur lorsque le serveur 5 est réparti, y compris dans les ordinateurs individuels.

Lorsqu'une entreprise possède déjà un matériel performant de type SCSI ou SAN (abréviation de Storage Area Network en anglais) pour accéder à un disque distant, le deuxième système de stockage de données peut aussi avantageusement utiliser la technologie connue iSCSI comme alternative à l'environnement NFSp. Le démon peut alors être de type SCSI ou SAN.

L'avantage de l'environnement NFSp est qu'il ne nécessite pas d'investissement coûteux dans un matériel performant tel que celui qui vient d'être mentionné.

L'étape 28 est celle qui fait sortir les ordinateurs individuels du mode de fonctionnement en grappe. L'étape 28 est soit activée à heure déterminée, par exemple en fin de nuit pour permettre aux ordinateurs individuels de reprendre leurs fonctionnalités de station de travail dans la journée, soit activée sur détection d'une intervention humaine par le clavier, la souris ou le bouton local de démarrage de l'ordinateur. Dans l'étape 28, la mémoire vive de l'ordinateur est réinitialisée, éventuellement par arrêt de l'ordinateur, de façon à en purger le deuxième système d'exploitation et les données et ou programmes liés au fonctionnement en mode grappe. Un ordinateur individuel est alors à nouveau disponible pour fonctionner sur son premier système d'exploitation. L'étape 28 est re-bouclée en attente d'exécution de l'étape 26 pour une éventuelle production de grappe ultérieure.

Entre l'étape 27 et l'étape 28, la grappe produite par le procédé selon l'invention, permet un traitement de données qui demande beaucoup de ressources de calcul grâce à une répartition de fâches entre les différents ordinateurs de la grappe. Bien que le serveur centralise le fonctionnement de la grappe, il ne constitue pas un goulot d'étranglement sur le réseau grâce à la mise en œuvre du protocole de la figure 3 ou 4 pour tout chargement de données applicatives dans un ordinateur de la grappe en cours de fonctionnement sur le deuxième système d'exploitation chargé quant à lui, preferentiellement mais non nécessairement par mise en œuvre du protocole de la figure 5.

L'exemple de grappe décrit ci dessus à titre illustratif concerne des ordinateurs personnels mais on comprend que tout équipement de traitement de données pouvant charger un système d'exploitation à partir d'un réseau, convient pour une création de grappe virtuelle. On pense par exemple à divers périphériques informatiques tels que des imprimantes ou à des automates programmables en domotique ou en conduite de processus industriel. La facilité de chargement d'un deuxième système d'exploitation pour fonctionner en mode grappe, procuré par l'invention, permet de bénéficier d'équipements existants de façon particulièrement souple lorsque ceux-ci sont disponibles pendant qu'ils ne sont pas appelés à fonctionner dans un mode pour lequel ils sont normalement prévus, et ceci sans nuire à ce mode habituel de fonctionnement. Un équipement est disponible tant pendant une période d'arrêt que pendant une période dite d'hibernation comme le mode de veille dans laquelle il est inactif sur son premier système d'exploitation habituel. Le mode pipeline de chargement du deuxième système d'exploitation permet une mise à l'échelle aisée en ce qu'il ne limite pas le nombre d'équipements à introduire dans la grappe.

Claims

REVENDICATIONS:

1. Procédé pour produire une grappe de traitement de données, caractérisé en ce qu'il comprend: des étapes consistant à préalablement: prendre des équipements de traitement de données numériques (1 ,2,3) qui sont reliés en réseau et qui sont habituellement prévus pour traiter chacun des données en étant actifs sur un premier système d'exploitation lancé à partir d'un système d'interface matériel; - configurer le système d'interface matériel de chaque équipements de traitement de données numériques avec une faculté d'amorçage réseau; relier au dit réseau (4), au moins un serveur (5) comprenant un deuxième système d'exploitation qui est prévu pour fonctionner en mode grappe; et des étapes consistant à: - démarrer à partir du serveur (5), chaque équipements de traitement de données numériques que le serveur détecte inactif sur le premier système d'exploitation, au moyen d'un protocole d'amorçage réseau; charger à partir du serveur (5), le deuxième système d'exploitation en mémoire vive de chaque équipements de traitement de données numériques ainsi démarré.

2. Procédé selon la revendication 1 , caractérisé en ce qu'il comprend une étape (19) consistant à préalablement configurer le deuxième système d'exploitation de façon à ce qu'il ne comprenne aucun pilote d'accès à un premier système de stockage de masse (13,23,33) qui est géré par le premier système d'exploitation.

3. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'il comprend une étape (29) consistant à attribuer une adresse réseau privée au serveur et à chaque équipements de traitement de données numériques de la grappe.

4. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comprend une étape (36) consistant à configurer le deuxième système d'exploitation avant chargement en mémoire vive de chaque équipements de traitement de données numériques de façon à crypter chaque communication sur le réseau.

5. Procédé selon l'une des revendications précédentes, caractérisé en ce que, pour charger le deuxième système d'exploitation dans chaque équipements de traitement de données numériques, le serveur utilise un environnement de parallélisation agencé pour aiguiller une requête de chargement en provenance d'un ordinateur vers un démon qui retourne une réponse à la requête.

6. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comprend une étape (28) consistant à redémarrer sur le premier système d'exploitation, tout équipements de traitement de données numériques pour lequel le deuxième système d'exploitation détecte une intervention locale.

7. Système informatique permettant un fonctionnement en grappe de traitement de données, caractérisé en ce qu'il comprend: un réseau (4) d'équipements de traitement de données numériques (1 ,2,3) qui sont habituellement prévus pour traiter chacun des données en étant actifs sur un premier système d'exploitation, le système d'interface matériel de chaque équipement de traitement de données numériques ayant une faculté d'amorçage réseau; un serveur (5) relié au réseau (4) comprenant un deuxième système d'exploitation qui est prévu pour fonctionner en mode grappe; et en ce que le serveur (5) est agencé pour détecter au moins un équipements de traitement de données numériques (1 ,2,3) inactif sur le premier système d'exploitation, pour démarrer au moyen d'un protocole d'amorçage réseau l'équipement de traitement de données numériques (1 ,2,3) détecté inactif et pour charger le deuxième système d'exploitation en mémoire vive (11 ,21 ,31) de l'équipement de traitement de données numériques ainsi démarré.

8. Système informatique selon la revendication 7, caractérisé en ce que le deuxième système d'exploitation ne comprend aucun pilote d'accès à un premier système de stockage de masse (13,23,33) qui est géré par le premier système d'exploitation.

9. Système informatique selon la revendication 7 ou 8, caractérisé en ce que le serveur (5) et chaque équipement de traitement de données numériques (1 ,2,3) du réseau (4) possèdent une adresse réseau privée.

10. Système informatique selon l'une des revendications 7 à 9, caractérisé en ce que le deuxième système d'exploitation comprend des moyens pour crypter chaque communication sur le réseau (4).

11. Système informatique selon l'une des revendications 7 à 10, caractérisé en ce que le deuxième système d'exploitation comprend un environnement de parallélisation agencé pour aiguiller une requête de chargement en provenance d'un équipement de traitement de données numériques (2), vers un démon (1 ) qui retourne une réponse à la requête.