Procédé pour marquer, identifier et sécuriser les fichiers informatiques, les documents, les sons et les composés chimiques
Présentation.
L'invention concerne un procédé qui permet de marquer, d'identifier et de sécuriser le contenu d'un fichier informatique lors de ses différents transferts, transformations et représentations. Sécuriser signifie ici, garantir l'intégrité, l'authenticité et éventuellement la confidentialité des infonnations.
On sait que l'on peut identifier et sécuriser un fichier donné A à l'aide d'un fichier B spécifique qui lui est associé. Le fichier B souvent appelé « signature informatique » de A, contient de quelques dizaines à quelques centaines d'octets. II se compose souvent d'une partie destinée à l'identification qui explicite les données extérieures comme la date, le lieu, le nom de l'auteur, un numéro d'opération... Une autre partie élaborée à partir du contenu du fichier A permet de contrôler son intégrité, c'est-à-dire garantir que les informations de A sont complètes et sans erreur. Enfin une dernière comprend notamment un nombre aléatoire et souvent une clé publique.
Le contenu du fichier B est donc unique et dépend de celui du fichier A. Toutefois ces deux fichiers doivent rester solidaires. Si B est perdu ou si une erreur affecte B à un autre fichier que A, le processus est en échec. Ceci se produit parfois en informatique puisque les fichiers comme A et B sont souvent physiquement disjoints.
Une méthode pour les rendre indissociables consiste à accoler ou mieux à « incruster », tel quel,, le fichier B au sein de A. Mais cette solution directe peut poser problème lors des transferts ou transformations telles les compressions qui comportent le risque de perte d'information, mais surtout lors de changement de domaine, comme le cas d'un fichier en ordinateur et son impression sur papier où les informations du fichier B ne pourront toutes être transposées, entraînant une perte notoire d'informations. Les applications sonores sont encore plus mal protégées.
La présente invention remédie à ces défauts en permettant de garder indissociables les fichiers A et B quelles que soient leurs représentations. Elle repose, notamment, sur un procédé de transcription, de codage et de contrôle de l'information qui demeure cohérente depuis les octets de la signature informatique jusqu'aux sorties sur papier, vidéo, sonore ou l'élaboration de composés chimiques, et permet ensuite l'exploitation de la « signature » à tous les stades de l'application.
Ce procédé appelé MT2S met en oeuvre le principe de l'alphabet généralisé aux principaux types de représentation de l'infonnation. Dans ce cas chaque symbole est indépendant et porteur des informations contextuelles propres à sa mise en oeuvre dans le ou les domaines considérés. L'ensemble de base regroupant ces symboles ou « caractères composés » est dit alphabet canonique. Ce principe est gage de clarté et de portabilité.
Remarque importante :
Le procédé MI2S met en oeuvre le principe d'usage généralisé des alphabets en les spécialisant et en les enrichissant au fur et à mesure des traitements. Chaque caractère devient un véhicule autonome et polyvalent des informations intrinsèque (par exemple à l'octet informatique), d'une part, et contextuelle à son utilisation, d'autre part.
Le cas échéant, ce procédé fait supporter également au caractère des informations concernant le groupe auquel il appartient. Il s'agit cette fois du contexte « collectif». Ce rôle est rempli (par exemple) par les 2 derniers octets du caractère canonique (voir paragraphe : composition de l'alphabet canonique ci-après).
Les infonnations nécessaires à la mise en œuvre de l'octet dans une application donnée n'est plus ajoutée au fichier d'origine selon un protocole propre à chaque logiciel applicatif (mode fermé), mais intégré à chaque caractère pennettant un mode ouvert accessible aux logiciels de traitement et à toute interface.
Le procédé élabore et utilise en premier lieu un « alphabet canonique» qui optimise, simplifie et uniformise les descriptions des différentes représentations des informations en vue de la mise en oeuvre, in fine, des éléments de base du domaine considéré ; par exemple les pixels pour le visuel, les fréquences acoustiques pour le sonore, les molécules pour les composés chimiques. Les informations sont alors « universellement » exploitables malgré les représentations hétérogènes depuis leur stockage en mémoire jusqu'à leurs « représentations » finales.
Cet alphabet permet, notamment, aux logiciels de sécurisation de compléter la description de chaque caractère, principalement par des directives, puis de produire un fichier C (par exemple de sécurisation) plus complet que le fichier B précédent (figure 1, partie droite).
En effet, dans un ordinateur un octet est défini normalement en mémoire par 8 bits « électroniques ». Le procédé « MI2S » lui fait correspondre une autre représentation qui, en plus du contenu intrinsèque de cet octet, tient compte des caractéristiques physiques (ou contexte) du domaine d'application correspondant. Cette représentation est définie en mémoire, par un groupe d'octets, de façon à lui adjoindre les infonnations nécessaires aux diverses applications.
Cette représentation prendra plus de place en mémoire, mais elle aura l'avantage de permettre une représentation canonique : notion de formalisme universel supportant une valeur intiinsèque et les informations nécessaires à sa mise en oeuvre quel que soit le domaine d'application. Ainsi, l 'octet peut être décrit à son tour par des pixels au sein d'une image ou des fi'équences acoustiques dans un enregistrement ou lors d'une restitution sonore ou par des fréquences électromagnétiques dans une transmission hertzienne ou encore par des molécules organisées au sein d'un composé chimique.
Schématiquement le procédé « MI2S » élabore:
1. Une transformation des octets du fichier d'origine, en caractères d'un alphabet dit canonique qui s'enrichissent au fur et à mesure des traitements pour disposer des informations nécessaires aux opérations de juxtaposition ou d'incrustation dans leurs représentations au sein des différents domaines d'application.
2. Une adaptation aux domaines: visuel (documents papier, vidéo...), sonore, tactile, chimique... L'adaptation à un domaine est réalisée de 2 façons : o par une interface générale paramétrable qui utilise directement l'alphabet canonique (figure 3, planche 3), ou o par une interface spécialisée mais simplifiée au niveau du périphérique qui utilise l'alphabet du domaine auquel il appartient (figure 3, planche 3).
3. Des données et directives permettant l'exploitation, dans les différents domaines, des ensembles incrustés. Elles définissent, grâce aux alphabets dédiés, les correspondances entre les éléments d'mformation (exemple les bits) et les éléments physiques de représentation comme les Impulsions de Fréquences ou les Points Graphiques Elémentaires (dots) ou les Bases chimiques, et les appareillages d'exploitation correspondants.
Précision sur la mise en oeuvre des données de sécurisation exprimées à l'aide de l'alphabet canonique.
Au sein des fichiers informatiques, quel que soit le support physique (mémoire, réseau), les données de sécurisation gagnent à être indissociables du fichier qu'elles doivent sécuriser.
En conséquence, dans un domaine précisé, les données qui lui sont spécifiques, sont extraites du fichier canonique par l'interface, et juxtaposées ( figure 1 partie III) ou mieux, incrustées au sein du fichier à sécuriser de deux façons : soit incrustées en 1 bloc homogène (figure 1, partie I en haut à droite),
* soit en incrustations multiples réparties dans le fichier sécurisé, caractère par caractère ou en petits groupes éparses (figure 1, partie II, représentés par des traits fins).
Remarque : Le fichier C peut être, en pratique, élaboré sans écrire le fichier B.
Transformation à l'aide de « l'alphabet canonique».
Comme vu précédemment, cette transformation réalise une conversion de chaque groupement d'éléments d'information, par exemple l'octet, en une représentation canonique qui tient compte des caractéristiques physiques nécessaires à la mise en œuvre dans chaque domaine d'application, et dont l'ensemble forme à son tour « l'alphabet canonique». Cet alphabet contient le même nombre de symboles ou caractères que l'ensemble source.
En effet, on peut considérer l'ensemble des octets qui peuvent prendre 256 valeurs différentes comme un alphabet de 256 symboles auxquels correspondent les 256 caractères composés de l'alphabet canonique. La structure générale de ces derniers est conçue pour permettre la traduction des informations de départ par une interface;, à l'aide des éléments de Base du domaine final (comme les Points Graphiques Elémentaires (dots), en visuel).
En résumé, l'alphabet canonique est un alphabet « universel » où chaque caractère est indépendant et renferme toutes les informations qui seront nécessaires aux mises en oeuvre des caractères correspondants, notamment, dans les alphabets applicatifs dédiés aux différents domaines. Il est également l'alphabet « dédié informatique ».
Une telle description des octets reste compatible avec tous les domaines de représentation. Par exemple : les octets d'une « signature » servant à garantir l'intégrité, l'authenticité et la confidentialité d'un fichier origine, restent exploitables à tout moment, quel que soit le moyen de représentation ( mémoire informatique, réseau, support papier, sonore, tactile, composé chimique...) et peuvent être automatiquement réintroduit en machine à partir de la plupart de ces représentations, comme le papier ou le son...
Il est également possible, le cas échéant, et à partir de l'alphabet canonique de construire un fichier intermédiaire dédié à un domaine particulier à l'aide de l'alphabet spécifique à ce domaine. L'interface du périphérique qui utilisera ce dernier fichier sera plus simple et plus rapide que celle exploitant directement l'alphabet canonique.
Composition recommandée de l'alphabet canonique.
Pour des raisons de commodité nous nous limiterons au cas de l'octet, mais le principe reste applicable à tout ensemble d'éléments binaires ou non.
Dans ce cas l'élément ou caractère (composé) de l'alphabet canonique d'incrustation comprend, par exemple, 12 octets qui se décomposent de la manière suivante :
-1 octet signale le début du caractère d'incrustation. Il peut être codé « échappement » (valeur 27 dans la table ASCII).
-2 octets indiquent le numéro d'ordre du caractère, c'est-à-dire sa position réelle dans l'ensemble qu'il sert à composer (exemple la position réelle dans le fichier C ). En effet les caractères d'incrustation peuvent être placés n'importe où dans le fichier à garantir (A) (comme en figure 1 partie II) sans respecter nécessairement leur place dans le fichier qu'ils
composent (par exemple le fichier de signature informatique) et qu'il convient de restituer à l'exploitation.
-4 octets précisent le positionnement de l'incrustation au sein du fichier A. Il est recommandé 2 octets pour les X et 2 octets pour les Y, pour le visuel. Pour le domaine sonore ces octets codent le moment, la cadence et la durée d'exécution suivant les formats de composition des données. Les positions d'incrustation peuvent être gérées par le logiciel de sécurisation ou par l'interface. En chimie ces octets peuvent, par exemple, coder la concentration de marqueurs.
-1 octet de contrôle du caractère, détaillé comme suit :.
• 1 bit indique si le symbole ou caractère (composé) code une information pure allant de 0 à 255 ou un index. Ces informations sont indispensables lors de l'exploitation des données formatées . • 1 bit donne la parité du nombre de Points Graphiques Elémentaires (dots) « noirs » de l'octet qui supporte la valeur propre du caractère d'incrustation pour accroître la sécurité (en visuel).
• 1 bit donne la parité du nombre de segments « noirs » de l'octet qui supporte, en visuel) la valeur propre (0 à 255). • 2 bits indiquent le nom du domaine applicatif, donnée nécessaire aux interfaces avec les différents domaines.
• 3 bits précisent le mode d'incrustation : noir/blanc, multiniveaux, couleur pour le domaine visuel, niveau ou profondeur de modulation pour le domaine sonore, la concentration des marqueurs en chimie; et une bonne ou mauvaise exécution...
1 octet supporte rinformation proprement dite de l'octet d'origine (valeur propre variant d lee 00 à à 225555)V.
-1 octet supporte les données complémentaires ou modificatrices du précédent, comme une clé pour la sécurité, extension de valeur, incrémentation, tabulation, lien, indexation ou adressage indirect.
-2 octets de contrôle de l'enviromiement du caractère :
* Le premier contient rinformation pure, généralement une adresse répartie sur plusieurs octets appartenant à un groupe. Par exemple une adresse répartie sur plusieurs caractères canoniques adjacents. Le second précise principalement le type d'information de l'octet précédent, de la façon suivante :
- Les 4 bits de poids faibles codent le numéro d'ordre de lecture de l'octet précédent, caractère par caractère, de façon à reconstituer la ou les adresses (par exemple) sur plusieurs caractères.
-Le bit de poids le plus élevé (128) est toujours à « 1 » pour permettre de renforcer le contrôle de la fin de caractère puisqu' ainsi le dernier octet sera toujours supérieur à 128. Les 3 autres bits du demi-octet caractérisent le type d'information portée par l'octet précédent. Ces 3 bits peuvent coder 7 valeurs. Exemple :
1 : adresse de lien (application à la la traçabilité, notamment),
2 : adresse de tables de chiffrement et de description de contexte spécifique au domaine,
3 : adresses des éléments effacés par les traitements pour permettre de revenir en arrière,
4 : adresse d'une clé publique, 5 : adresse interdite : retour interdit.
6 .. 7 ...
JLes détails de réalisation sont définis dans les spécifications des formats des informations « signature » pour chaque domaine.
En complément de l'exemple du début, où A était le fichier de départ à sécuriser et B le fichier signature, nous avons maintenant le ficliier C exprimé en caractères composés pour effectuer l'incrustation. Il reprend les informations de B et les complète au fur et à mesure du traitement des infonnations d'origine Sa capacité est 12 fois (pour le modèle décrit) celle de B, mais en assurant le contrôle de chaque caractère « canonique » indépendamment, il apporte une description canonique adaptable à tous les domaines et les connaissances telles que : la position d'incrustation, qui permet de le placer n'importe où dans l'Ensemble à sécuriser pour assurer discrétion et esthétique ;
* l'ordre dans le fichier signature; le contrôle de la valeur de l'octet d'information (valeur propre : 0 à 255) à l'aide de parités et du nombre o segments spécifique,
* les modifications dynamiques de la valeur propre ou de modification d'affectation : comme les entités de codage ou de chiffrement, liens, adresse de fabulation ;
* la conservation de l'information avant incrustation, pour permettre un retour vers l'origine ;
* le type d'incrustation ;
* l'état de l'incrustation et la possibilité de bloquer le processus de retour.
+ le codage de mots très longs en utilisant 1 octet par caractère d'incrustation et permettant de coder une référence, des adresses de tables par exemple, ou un lien fort utile dans le chaînage d'opérations comme en traçabilité.
DESCRIPTION DES UTILISATIONS DU FICHIER CANONIQUE
ET DES PRINCIPALES INTERFACES « MI2S » ADAPTÉES À CHAQUE DOMAINE.
1 - Application au domaine visuel.
Considérons à nouveau le cas d'un fichier informatique A sécurisé à l'aide d'un fichier signature B, lui-même élaboré par un logiciel spécifique en vue de l'incrustation dans A et de sa représentation dans le domaine visuel. Deux cas peuvent s'envisager.
Premier cas (classique) :
- Le logiciel de sécurisation compose le fichier « signature » B en termes d'octets conventionnels (ou classiques).
- Chacun de ces octets est ensuite converti en caractère composé utilisant une représentation graphique visuelle qui fait appel à des polices de caractères comme celles des codes-barres quand c'est possible, ou mieux celles des codes d'octets, spécialement étudiés à cet effet, comme ECO ou DOTE. Un logiciel, généralement complexe et qui exige un format particulier de police (souvent propre au logiciel d'application, par exemple .ttf), incrustera le fichier B au sein de A, à l'aide d'une des polices précédemment citées, en calculant leurs représentations en pixels pour les rendre compatibles avec le format de A.
Des imperfections apparaissent avec cette méthode. Notamment, les « directives » issues des traitements des signatures ne peuvent être transmises directement. Leur absence réduit l'efficacité, rend précaire l'automatisation du processus et réduit la portabilité de l'ensemble. Second cas (MI2S):
La solution MI2S pennet à chaque caractère canonique de contenir, en partie ou en totalité, les données et directives qui transmettent et prolongent toutes les possibilités des logiciels de calcul de sécurisation, d'une part, et servent de source commune et complète, aux interfaces spécialisées des différents domaines, d'autre part.
Ainsi dans le domaine visuel, pour élaborer in fine un document sécurisé papier (par exemple) à partir d'im « fichier canonique », une interface simplifiée pourra avantageusement utiliser les symbologies existantes, spécialement adaptées au domaine visuel, comme certains alphabet graphiques codant l'octet (ECO, DOTE ...), pour les intégrer automatiquement en termes de pixels à mi fichier d'imprimante à l'aide des données et directives (contexte) contenues dans les caractères composés de l'alphabet canonique, sans qu'il soit nécessaire d'utiliser un format de police de caractères « de type imprimerie ». Les règles de construction des symbologies (ECO, DOTE ..) suffisent. Elles sont exploitables par tout logiciel et notamment les interfaces de périphériques spécialisés.
Exemple : les positions des Points Graphiques Elémentaires (dots) des caractères à incruster peuvent être calculées directement dans l'interface à destination de l'imprimante. Il en serait de même pour un autre type de périphérique. Pour la restitution d'images sous forme vidéo, l'interface adapte, comme précédemment, les pixels correspondants au dessin et au contexte de chaque caractère pour les inclure dans l'image finale vers un périphérique de sortie : écran, enregistreur vidéo...
Dans le cas de transmission d'images, l'interface élabore les images finales de la même façon que précédemment et applique le protocole propre au type de transmission choisi ou elle fait appel à un logiciel spécialisé auquel les images incrustées finales sont passées comme données.
Appareillages d'exploitation de la sécurisation des documents. Us comprennent les appareils « d'écriture » (d'impression, de gravure... sur différents supports) mettant en œuvre les alphabets précédents et les appareils de « lecture » constitués de capteurs d'images tels que scanner, caméra, styloscanner, fax, douchette.. qui transforment les images des documents en signal vidéo. Ces signaux électroniques sont dirigés vers une unité de traitement qui reconnaît les symboles (caractères composés représentés à l'aide d'une symbologie définie : ECO, DOTE ..., incrustés dans l'image générale) par un logiciel de reconnaissance approprié à la symbologie. Les données de sécurisation ainsi extraites de l'image générale sont disponibles pour les traitements de sécurisation proprement dits.
L'exploitation des signaux vidéo se pratique de la même façon après avoir extrait la composante vidéo pure des signaux complex, comme ceux utilisés en transmission par exemple.
Remarque :
Il est possible d'identifier et de sécuriser en temps réel les images fixes ou vidéo, par lecture directe du signal vidéo comme en entrée d'écran ou en sortie de caméra. Il convient qu'au préalable les images aient été « incrustées » selon le procédé MI2S avec les informations nécessaires à la sécurisation.
2- Application au domaine Acoustique.
Remarque :
On forme des « Impulsions sonores » dans le domaine acoustique qui correspondent aux « Points Graphiques Elémentaires » du domaine visuel.
Au niveau exécution, les uns sont exprimés en tenne de fréquence (Hz), les autres en terme de pixels.
Toutefois, dans ce domaine il n'existe pas à proprement parler d'alphabet Acoustique ou sonore applicable à un tel procédé. Il convient d'en définir un qui établit la correspondance entre les caractères canoniques d'incrustation et le signal acoustique. Il est nécessairement de nature temporelle. Nous présentons un exemple de composition comme suit : 1 octet début de caractère initialisé de préférence à 27 (caractère escape) ;
* 1 octet précise le domaine, le type d'alphabet et ses caractéristiques spécifiques ;
* 1 octet porte la valeur propre, dans le cas d'un octet de 0 à 255 ;
* 1 octet complète le précédent par des directives d'interprétation et d'affectation comme les clés individuelles, les extensions de valeur, les fabulations et modificatifs d'adressage, * 1 octet définit la fréquence fl qui correspond au bit zéro, pas de 1 khz ;
* 1 octet définit la fréquence f2 qui correspond au bit un, pas de 1 khz
* 1 octet définit la fréquence f3 qui correspond à la séparation entre bits et octets, pas de 1 khz ;
* 1 octet contrôle la séquence de l'octet :
4 bits pour le nombre de périodes des impulsions construites avec fl, f2, f3 ; - 4 bits pour quantifier les intervalles entre fréquences ou séparateurs interbits, notamment la durée des zones de silence ; 1 octet précise le contexte de l'incrustation dans le message sonore à sécuriser : nombre de séquences complètes, position dans le message (en début, milieu, fin ou continu) ;
* 1 octet assure le contrôle du caractère : - parités des Points Graphiques de l'octet valeur propre et du caractère complet, parités du nombre de segments de l'octet valeur propre et du caractère complet ; indication du type d'alphabet : normal ou d'indexation ; niveau sonore de fl, £2, f3 par rapport au niveau moyen de la zone incrustée ; bit toujours à « 1 » ( poids 128) pour indiquer la fin du caractère.
Soit im caractère décrit sur 10 octets.
En pratique, il est utile de prévoir 2 gammes de correspondance, l'une dans le spectre audible et l'autre dans les ultrasons. L'interface acoustique puise ses informations dans le fichier « canonique ». Si le périphérique final est connu, elle pilotera directement les signaux acoustique. Dans le cas contraire elle établira un nouveau ficliier exprimé en alphabet dédié domaine acoustique, c'est-à-dire en terme de fréquences. Si la base est binaire nous avons par exemple : Premier cas ( fréquences audibles). 1. Les valeurs 0 du caractère correspondent à une fréquence « fl » de 5 khz sur 10 périodes
(par exemple),
2. Les valeurs 1 du caractère correspondent à mie fréquence « £2 » de 8 khz sur 10 périodes.
3. Une troisième fréquence « f3 », par exemple 10 khz sur 10 périodes, permet de créer par composition (émission simultanée) avec les deux précédentes une série de 4 signaux de commande comme suit :
Fl = f2 + B, impulsion inter-bit 0 après un « 0 » logique ;
F2 = fl + f3, impulsion inter-bit 1 après un « 1 » logique ;
F3 = fl + f2, impulsion inter-octet pour alphabet normal ;
- F4 = fl + f2 + f3, impulsion inter-octet pour alphabet d'index. Les amplitudes respectives gagnent à être adaptées aux périphériques finaux pour être restitués d'égale amplitude.
Les durées d'émission sont référencées sur un nombre de périodes. La durée composite correspond à l'impulsion sonore la plus courte. Dans l'exemple précédent, il s'agit de l'impulsion de 5 périodes de 8 khz.
La séparation entre bits correspond à un silence assez long pour ne pas gêner l'audition, exemple 20 ms. La séquence est inaudible car elle est généralement coupée par un filtre passe bas réglé sur 50 hz.
Exemple : Si la valeur propre du caractère est en binaire : 1 1 0 0 1 0 1 0
S
Avec le symbole "_" correspondant à un silence de 20 ms, un bit de parité ci-après en gras et l'impulsion F3 indiquant qu'il s'agit d'un caractère normal. (L'impulsion F4 à la place de F3 qualifierait un caractère d'index.) Sa correspondance sonore sera :
F3J2 F2_f2 F2_fl Fl_fl F1JE2 F2_fl Fl_£2 F2_fl Fl_f2 F2_E?
La vitesse d'expression du codage est d'environ 6 octets par seconde, soit environ 15 secondes pour exploiter les informations de sécurisation..
Second cas (ultrasons).
Ces fréquences sont surtout destinées aux enregistrements ou la bande passante apparente est suffisante. La fréquence fl est de 20 khz (par exemple) et 10 périodes. La fréquence f2 est de 25 khz (par exemple) et 10 périodes.
+ La fréquence f3 est portée par exemple à 30 khz.
La vitesse de restitution de l'information incrustée est de l'ordre de 100 octets par seconde. Les traitements de sécurisation durent environ 2 secondes à partir du début d'une séquence MES.
Remarque générale : FORMATS.
Les octets ainsi codés par des impulsions de fréquences acoustiques, sont groupés selon un format particulier préalablement défini pour permettre une compréhension complète du message transmis. Ceci donnera lieu à une série de définitions de formats, au moins un par domaine. Ces formats augmentent également l'efficacité de la sécurisation en permettant un chiffrement des codes comme la modification codée ( quelle qu'en soit la formule) des fréquences acoustiques fl, £2 et f3, par exemple En conclusion, ce procédé permet de sécuriser dynamiquement les enregistrements audio ou les émissions sonores par codage MI2S et l'exploitation du son en temps réel par un appareillage adapté. Il est alors possible de détecter en transmission, à la lecture comme à l'audition, les informations qualifiant l'origine et les données commerciales d'un signal sonore.
3 Application au domaine chimique.
Le principe consiste à. coder des composants et/ou des « marqueurs » élaborés à partir d'éléments de Bases constitutives, comme par exemple, les éléments de Thymine, Cytosine, Guanine,... pour l'ADN, organisés de préférence suivant une architecture ou un empilement définis qui peuvent être supportés par les caractères des alphabets MI2S.
Un bloc est un ensemble d'éléments appartenant à une même Base. Le bloc est généralement structuré. Il est définit, composition et structure, par un « caractère chimique ». Un segment est constitué d'un ou de plusieurs blocs.
Les éléments gagnent à être regroupés Base par Base et leur architecture de composition correspondante peuvent être définies bloc par bloc. Ces blocs qui correspondent à des caractères de l'alphabet « chimique » permettent de décrire des composés chimiques. II est utile de prévoir un alphabet « chimique » par spécialité.
Pour certains composés chimiques, en absence de constitution géométrique définie, il est utile de compléter chaque caractère par un numéro d'ordre qui spécifie son rang dans le message de constitution. Ces infonnations sont présentes dans les caractères canoniques pour définir l'endroit d'incrustation par exemple ; elles sont obligatoires dans le cas présent pour reconstituer l'ordre du a « m mKeusssnagope \ »s H d''norriigo-iinnpe»
En conséquence l'alphabet « chimique » peut être associatif, c'est-à-dire que les caractères qui composent une description de marqueur, par exemple, pourront être mémorisés dans le désordre. Un caractère « cliimique » désigne les éléments d'une Base et leur organisation ou architecture dans un « bloc » précisé. C'est l'assemblage des éléments des Bases constitutives au sein des blocs, caractère par caractère, qui pennet, par exemple, de définir un composé cliimique ou un marqueur. Les caractères de l'alphabet «cliimique » peuvent se composer comme suit : * 1 octet début de caractère initialisé à 27 (escape).
Φ 1 octet pour préciser le domaine applicatif et les contraintes spécifiques ; Φ 1 octet pour coder la « Base » supportée par ce caractère,
Φ 2 octets pour indiquer la longueur du bloc ou du segment et le numéro d'ordre correspondant au segment qu'il le contient. * 3 octets pour spécifier où les éléments du bloc apparaissent dans le segment (fabulation) ou le type d'architecture correspondant au segment; Φ 2 octets pour préciser l'ordre du caractère dans le message de définition, Φ 1 octet pour le contrôle et fin de caractère. Un tel caractère « chimique » prend 11 octets. Exemple :
Dans le cas d'une structure à 5 bases, 5 caractères associés à une table de description peuvent suffire pour décrire un marqueur simple d'un segment de 65000 éléments.