WO2002035354A1 - Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique - Google Patents

Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique Download PDF

Info

Publication number
WO2002035354A1
WO2002035354A1 PCT/FR2001/003300 FR0103300W WO0235354A1 WO 2002035354 A1 WO2002035354 A1 WO 2002035354A1 FR 0103300 W FR0103300 W FR 0103300W WO 0235354 A1 WO0235354 A1 WO 0235354A1
Authority
WO
WIPO (PCT)
Prior art keywords
memory
word
component
pipeline stages
electronic component
Prior art date
Application number
PCT/FR2001/003300
Other languages
English (en)
Inventor
Michel Pignol
Original Assignee
Centre National D'etudes Spatiales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National D'etudes Spatiales filed Critical Centre National D'etudes Spatiales
Priority to EP01982539A priority Critical patent/EP1340148B1/fr
Priority to AT01982539T priority patent/ATE291757T1/de
Priority to DE60109644T priority patent/DE60109644T2/de
Publication of WO2002035354A1 publication Critical patent/WO2002035354A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • G06F9/3865Recovery, e.g. branch miss-prediction, exception handling using deferred exception handling, e.g. exception flags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • G06F11/1052Bypassing or disabling error detection or correction

Definitions

  • the present invention relates to a device and a method for detecting and correcting memory errors in an electronic system.
  • Electronic circuits integrated into space vehicles can be sensitive to certain particles generated by the sun or to certain particles existing in interstellar space. These particles, by crossing these circuits, deposit there electric charges which can make change a bit of state. Such events are called “single event upset” (or “singular events”) or “soft-error”; They are transient and do not degrade the electronic component in any way: a memory cell victim of a singular event undergoes a read error, but can be rewritten normally afterwards.
  • an electronic system can consist of a microprocessor 10 and its memory 11 connected by a data bus 12 and an Address + Control bus 13.
  • a decoding module 14 allows selection 15 of memory boxes.
  • the memory 11 can be protected by a component commonly noted EDAC ("Error Detection And Correction”), or even EDC, ECC or EDCC ("Error Detection / Correction Code”), which makes it possible to detect and then correct errors generated by events singular in the storage cells, as described in the documents referenced [1] to [5] at the end of the description.
  • EDAC Error Detection And Correction
  • ECC Error Detection / Correction Code
  • the EDAC 20, or memory error detection and correction component, in a serial architecture is a component connected to the data bus 12, for example M bits wide, but not to the bus of addresses 13.
  • the EDAC 20 is connected to the memory 11 by a bus 55 of M bits wide over which the data stored in the part 16 of the memory 11 pass, and by a bus 54 of N bits wide over which pass through the codes stored in part 17 of memory 11 (any data is associated with a code).
  • the EDAC 20 When writing to memory 11 by the microprocessor 10, the EDAC 20 adds to the M bits of the data a code of N bits of width.
  • the width of the memory 11 is therefore M + N bits in order to keep the code associated with each of the stored data.
  • the EDAC 20 receives M + N bits. It calculates the code corresponding to the data of M bits (data area 16) and compares it to the code of N bits (code area 17) which is stored in memory with the data. If the two codes are not identical, an error is then declared. In this case, and assuming the use of a Hamming code which makes it possible to correct a bit, the EDAC 20 reverses the faulty bit for correct it, present the corrected word on its bus, and generate an IT interrupt for the microprocessor so that it rewrites the correct data in memory. Since EDAC 20 does not know the address of the data, it cannot make the correction in memory 11 itself.
  • the parity code (N l) only allowing to detect but not to correct an error, we generally use a Hamming code which has the capacity to detect and correct an error in a word, and to detect (without then being able to correct) two errors in the same word.
  • the EDAC 20 works on the data bus, and operates in parallel with the decoding module 14 which works on the address bus 13.
  • the function performed by the EDAC being more complex, the propagation time of the latter 20 is greater than that of the decoding module 14 and therefore slows the memory accesses of a central processing unit core protected by such a component.
  • the capacity of the memory boxes increases, the number of boxes decreases (in particular in the on-board field, such as automotive, aeronautics or space for example, which uses small memory capacities). Consequently, the decoding module 14 is simplified and inherently becomes faster and faster. The slowdown due to EDAC 20 therefore becomes more and more penalizing.
  • EDAC in a serial architecture is a component inserted on the data bus 12 between the microprocessor 10 and its memory 11 as described in the documents referenced [1], [3] and [4].
  • the EDAC, in a parallel architecture illustrated in FIG. 3 is a component connected to the data bus 12 as a peripheral. It captures the data and processes it before validating the memory access, as described in the document referenced [2].
  • EDAC 20 is connected to memory 11 by a bus 54.
  • the EDAC 20 which is a component very often used in the space field, becomes more and more penalizing as the clock frequencies of the microprocessors increase. This component is all the more critical with microprocessors with RISC architecture
  • the processing unit will then seek a second time this data which is then, corrected, in the cache L2, error free this time, without the need to go a second time in memory.
  • the cache L1 is then also updated with this corrected value.
  • This device makes it possible not to slow down the microprocessor during a read access to the memory; but for that it needs to be used with an architecture with two cache levels (primary
  • the microprocessor must itself check internally whether the data or the instruction is free of error. For that, it must integrate a coding of detection only of error, that is to say a parity.
  • the microprocessor writes a word in memory, it calculates and writes simultaneously the associated parity code which is stored in the "data" part (independent of the "correction code” part).
  • the microprocessor reads in memory, it accesses the word and its parity code while the EDAC also accesses its correction code.
  • the microprocessor If the microprocessor detects a parity error, it stops and it will then look for the same word again in memory. During the internal processing time of this interruption by the microprocessor, the EDAC which operates in parallel had the time to detect the error using the detection code (parity), to correct it using the correction code, and to rewrite the corrected value in memory. Thus, the value which is read for the second time in memory by the microprocessor is, this time, error free.
  • This part of the device makes it possible not to slow down the microprocessor during a read access to the memory; but for this it needs to be used with a microprocessor which incorporates parity coding.
  • the microprocessor when the microprocessor writes a word (with its parity) in memory, this word is written directly without waiting for the calculation of its correction code; the latter is written later by the EDAC as soon as it is calculated. If the microprocessor reads this same word immediately after writing it to memory, the correction code is not yet available in memory but the microprocessor does not need it; only parity is necessary for it, the correction code is only useful to EDAC which has it directly as soon as it is calculated.
  • This part of the device makes it possible not to slow down the microprocessor during a write access to the memory; but for this it requires a memory where the "data and detection code” part and the "correction code” part are accessible independently.
  • the object of the invention is to provide a device and a method for detection and correction memory errors which make it possible to protect the memory without performance penalty on access times, unlike the devices of the known art.
  • the present invention relates to a device for detecting and correcting memory errors in an electronic system comprising an electronic component comprising several pipeline stages and a memory for which access to the data and their associated codes are simultaneous, characterized in that this device comprises means of detection / correction by means of a unique code of detection / correction, means placed in parallel on the memory accesses and activated each time the component reads a word in memory, these means allowing this word to penetrate into the component before checking it .
  • the detection / correction means comprise means for verifying the word read in memory capable of being activated in parallel with its progression inside the pipeline stages of the electronic component. They include means for generating an interruption to the component, activated when they detect an error on the word read in memory, so that the progression of this erroneous word inside the pipeline stages of the component is interrupted before it is not passed to the execution pipeline stage. They include means having a connection to the address bus which, following an error detection, rewrite a corrected word directly in memory.
  • they further comprise means for encoding data put in series on the memory accesses, and structured in pipeline stages so as to have the same bit rate as the electronic component when it writes to memory, in particular during block transfers.
  • Said device then has a connection to the address bus, and address tracking means comprising a set of pipeline registers connected in series in which the transport of the captured addresses is carried out, the number of these pipeline registers being identical to the number of stages of the coding means so that these addresses propagate in the device at the same rate as the words to be coded. It includes a comparator wired to each pipeline register of address tracking means, these comparators allowing a real-time comparison between all the addresses which are inside the device at a given time and the address of the word as the electronic component.
  • it can comprise means introducing memory hold cycles to the electronic component when one of the comparators detects the presence of the address of the word that the component wishes to read in memory, these means making it possible to leave time for the word to propagate in the last pipeline stages of the device so that it can write this word and its associated code into memory before the component reads them.
  • it may include multiplexing means making it possible, when one of the comparators detects the presence of the address of the word that the component wishes to read in memory, to supply this word to the component whatever or the pipeline stage where it is located and inhibiting the device's error detection means on this word since its associated code did not have time to be completely calculated.
  • the invention also relates to a method for detecting and correcting memory errors in an electronic system comprising an electronic component comprising several pipeline stages and a memory for which access to the data and their associated codes are simultaneous, characterized in that each word consisting of data and its unique detection / correction code read into memory by the electronic component is not verified before the capture of this word by the component.
  • the verification of the word read in memory is carried out in parallel with its progression within the pipeline stages of the electronic component, in order to ensure that it is not erroneous, thus making it possible to mask the operating time of the device by the propagation time in the first pipeline stages of the component.
  • the flow of the word in the pipeline stages of the electronic component is interrupted before this erroneous word can be effectively used by a processing unit of this component.
  • this corrected word is directly rewritten in memory without intervention of the electronic component.
  • the words to be written by the electronic component in memory are captured, then coded with any code of error detection / correction, then written in memory; the coding being structured in pipeline stages so as to have the same bit rate as the component when the latter writes into memory and, thus, does not slow it down, in particular during block transfers.
  • the addresses are captured at the same time as the words to be coded, and these addresses are propagate within pipeline stages at the same rate as the words to be coded. All the addresses present in the pipeline stages are compared in real time with the address of the word that the electronic component wishes to read, this in order to detect if the word sought by the component has not been written very recently and is not found still in these pipeline floors.
  • the method of the invention can be used in an on-board electronic system such as for example on a car or on an airplane.
  • the device of the invention is independent of the code used to detect / correct errors (Hamming, Reed-Solomon, etc.), and is sufficient with a single detection / correction code.
  • the two parts of the memory allocated one to the data and the other to their detection / correction codes are accessed in the usual way, that is to say simultaneously.
  • the device is equally suited to architectures without cache memory as to architectures with one or more cache memory levels.
  • the classic achievements of serial or parallel EDAC reduce the performance of the electronic system by increasing memory access times.
  • the device of the invention makes it possible to take full advantage of the performance of the electronic component (for example a microprocessor) since:
  • the detection / correction function works in parallel, therefore in masked time, with the propagation of the instruction or of the data in the pipeline of the electronic component,
  • the coding function is pipelined to offer the same bit rate as the electronic component itself, a structure in "associative memory” making it possible to solve the problems of inconsistency of the memory during close access in writing then in reading on the same word.
  • FIG. 1 illustrates an electronic system of the known art with an unprotected memory.
  • - Figures 2 and 3 illustrate this electronic system of known art with a memory protected by a conventional EDAC, respectively in a serial architecture and in a parallel architecture.
  • - Figure 4 illustrates this electronic system with a protected memory according to the invention for the detection / correction function, only the memory read phases being represented.
  • - Figure 5 illustrates the timing diagram of the operation of the invention for the detection / correction function, in a hypothesis without cache memory.
  • - Figure 6 illustrates the electronic system, the memory being protected by a device including only the data coding function, only the memory writing phases being represented.
  • FIG. 7 illustrates the internal architecture of the device of the invention for the coding function (example with three pipeline stages).
  • FIG. 8 illustrates the architecture of the device of the invention incorporating both the detection / correction and coding functions.
  • FIG. 9 and 10 illustrate the data flows inside the device of the invention integrating both the coding and detection / correction functions respectively for writing from memory and for reading from memory.
  • the present invention relates to a device for detecting and correcting memory errors in an electronic system comprising an electronic component comprising several pipeline stages and a memory.
  • electronic component is meant a circuit or a set of integrated circuits, which performs a function requiring a memory, this function being able to be designed from a wired operator or processor (see the document referenced [7] page
  • the memory error detection and correction device includes:
  • - Detection / correction means activated when the microprocessor reads the memory
  • - and possibly coding means activated when the microprocessor writes the memory
  • the detection / correction function of the device of the invention is based on the fact that, to improve the performance of modern microprocessors, these have an increasingly large number of pipeline stages, operating as described in the document referenced [7] on pages 11 to 15.
  • the memory error detection and correction device including these detection / correction means 20 is placed in parallel on the memory accesses of the microprocessor 10. Its propagation time is no longer in series with respect to - screw of microprocessor 10 as in the case of a serial or parallel EDAC, but in parallel. It is therefore masked.
  • the objective of the invention is to be able to free up sufficient time for the memory error detection and correction device to let it operate without slowing the memory accesses. Thanks to the numerous pipeline stages, this device allows the instruction or potentially erroneous data to be entered into these pipeline stages of the microprocessor without first checking it, but by checking it in parallel. In the event of an error detected by this device, the latter interrupts the flow of the instruction or the data before it is executed or actually used by a processing unit internal to the microprocessor.
  • the operation of the device of the invention is illustrated in the time diagram of FIG. 5, corresponding to an exemplary embodiment of this device, using a generic microprocessor, it has five pipeline stages: a search stage of the instruction (“fetch”), a decoding stage, an orientation stage towards a processing unit, an execution stage, and a stage for storing the result obtained.
  • This microprocessor integrates interrupt processing logic (IT) including a synchronization stage for asynchronous external IT events and a stage for taking into account the IT interruption.
  • I interrupt processing logic
  • the instructions not executed after the activation of this stage of taking into account the interruptions are inhibited and the microprocessor fully recharges its pipeline (creation of a "bubble" in the pipeline as described in the document referenced [7] on pages 11 to 15).
  • the memory error detection and correction device has three pipeline stages: a stage for capturing the data or the instruction and its code passing over the microprocessor data bus, a stage for calculating the code and comparing with the code captured, the comparison generating an interruption to the microprocessor in the event of detection of non-equality between the two codes, and a stage for rewriting the data corrected in memory when necessary.
  • a stage for capturing the data or the instruction and its code passing over the microprocessor data bus a stage for calculating the code and comparing with the code captured, the comparison generating an interruption to the microprocessor in the event of detection of non-equality between the two codes
  • a stage for rewriting the data corrected in memory when necessary For the detection / correction function, when reading data or instructions from an external memory, the operation is as follows:
  • the microprocessor reads a word (ie simultaneously to the data and its associated code) stored in external memory without any slowdown due to the memory error detection and correction device.
  • the device works in parallel with the progression of the instruction or of the data in the pipeline levels (for example K stages) of the microprocessor.
  • the device has the time necessary for this word to reach the execution unit (a priori K-2 cycles, the stage K1 generally being the execution, and the stage K the storage of the result) .
  • the stage K1 generally being the execution
  • the stage K the storage of the result
  • the effect of the interruption is simply to force a "purge" 32 of the microprocessor pipeline levels thanks to the execution of the few instructions of this interruption program (a priori empty, and possibly containing NOPs ("No Operation", that is to say “null” which does not give rise to any operation) if the connection and interrupt return instructions are not sufficient to ensure this purge) .
  • the purge removes the few words progressing in the microprocessor pipeline (including the wrong word Instr.3).
  • the microprocessor will then search again for these words in external memory (the erroneous word Instr.3 having meanwhile been corrected in external memory directly by the device in DMA, in this case the word Inst.A in FIG.
  • 5 can be the corrected word Instr.3, or by the microprocessor with the help of the device).
  • a "bubble" is therefore introduced into the microprocessor pipeline at each error detection; the impact on performance is negligible, given the low density of singular events.
  • To determine the number of cycles available for the device to execute its detection phase it is checked on a case-by-case basis according to the microprocessor used to what pipeline level the potentially erroneous word can progress in order to be sure that at this point At this point, the arrival of an interrupt on an external pin of the microprocessor can interrupt the progression of this word towards the execution unit. For this we also take into account the latency (that is to say the delay) due to the sampling then the execution of an interruption following the potential pipeline stages in the path of this interruption.
  • the cache is further purged on the appearance of the error detection interrupt. This can be done in the interrupt program which is linked to the device.
  • the implementation of this function depends on the specificity of the microprocessor. For example, for the Motorola PowerPC 603e, it is possible to purge the instruction cache using a single instruction (the next cycle, the microprocessor considers that the instruction cache is empty). But the data cache can only be "flushed”, that is to say that it must be emptied entirely: ie the blocks containing updated data inside the cache are saved in memory. In the case where a cache must be "flushed” on memory error detection, the device must allow the "flush” to finalize (the "flush” will then save the erroneous data) before making the correction in memory .
  • the data coding function of the device of the invention is based on the fact that, in order to improve the performance of modern microprocessors, these integrate internal cache memories, and the writings in external memory are then mostly done by block transfers
  • burst mode i.e., a data item for each cycle and this continuously for the whole block.
  • the device of the invention including the coding function is put in series on the memory accesses of the microprocessor. Its propagation time remains in series with the microprocessor but does not slow it down thanks to pipeline operation. This operation requires connecting the device to the address bus, unlike conventional EDACs.
  • Any write access to the memory allows the data and its associated code to be written simultaneously.
  • the device of the invention suffices with a unique detection / correction code (Hamming, Reed-S ⁇ lomon, etc.).
  • the coding means of the device are divided into pipeline stages 41, 42, 43, and use an "associative memory” type of operation as illustrated in FIG. 7.
  • the coding function is divided into P pipeline stages 41, 42, 43, each having a propagation time T .
  • the data words are loaded into the first stage 41 of the device at the rate of the microprocessor writes, then they are written into memory by the device with P delay cycles but at the same rate (therefore, without slowing down the microprocessor).
  • a written data item must be read with a delay of less than P memory cycles, the memory is no longer consistent. It is therefore necessary that the coding function of the device be structured like an associative memory, a comparator 45 wired on each stage of the pipeline of addresses makes it possible to compare in real time these P addresses with the address of the word that the microprocessor wishes to read. If one of the comparators detects that the data is in the device pipeline ("address present" signal activated, or "address-hit"), we can:
  • the detection / correction function requires a serial type architecture, and the parallel type coding function, the integration of the two functions in the same component requires the use of multiplexers.
  • the architecture of such a component is shown in FIG. 8, and the data flows depending on whether it is a phase of writing to the memory (activating the coding function) or a phase of memory reading (activating the detection / correction function) are illustrated in Figures 9 and 10 respectively.
  • a module 50 corresponding to the coding function (example of 3 pipeline stages), a module 51 corresponding to the detection / correction function,

Abstract

La présente invention concerne un dispositif de détection et correction d'erreurs mémoire dans un système électronique comprenant un composant électronique (10) comportant plusieurs étages pipeline et une mémoire (11), pour laquelle les accès aux données et à; leurs codes associés sont simultanés. Ce dispositif comprend des moyens de détection/correction (20) grâce à; un code unique de détection/correction, moyens mis en parallèle sur les accès mémoire et activés chaque fois que le composant lit un mot en mémoire, ces moyens (20) laissant pénétrer ce mot dans le composant (10) avant de le vérifier.La présente invention concerne également un procédé de détection et correction d'erreurs mémoire dans un système électronique.

Description

DISPOSITIF ET PROCEDE DE DETECTION ET CORRECTION D'ERREURS MEMOIRE DANS UN SYSTEME ELECTRONIQUE
DESCRIPTION Domaine technique
La présente invention concerne un dispositif et un procédé de détection et correction d'erreurs mémoire dans un système électronique.
Etat de la technique antérieure
Les circuits électroniques intégrés à bord des véhicules spatiaux peuvent être sensibles à certaines particules générées par le soleil ou à certaines particules existant dans l'espace interstellaire. Ces particules, en traversant ces circuits, y déposent des charges électriques qui peuvent faire changer un bit d'état. De tels événements sont appelés "single event upset" (ou "événements singuliers") ou "soft-error" ; Ils sont transitoires et ne dégradent en rien le composant électronique : une cellule mémoire victime d'un événement singulier subit une erreur de lecture, mais peut être réécrite normalement par la suite .
Plusieurs effets tels que : - la réduction de la lithographie des technologies des circuits intégrés (0,25 μm aujourd'hui et 0,18 μm prochainement),
- la baisse des tensions d'alimentation (2,2 V aujourd'hui), peuvent avoir pour conséquence que de telles erreurs se produisent également dans les circuits intégrés utilisés au sol. En effet, l'énergie par cellule élémentaire diminuant régulièrement (cellules mémoire, registres, etc.), celles-ci peuvent donc être perturbées par des énergies parasites faibles qui étaient sans incidence sur les circuits intégrés de précédentes générations.
L'informatique industrielle se trouve donc confrontée à des phénomènes d'erreurs transitoires engendrées :
- soit par des neutrons d'origine solaire non filtrés par l'atmosphère,
- soit par des particules alpha provenant de la désintégration d'isotopes radioactifs contenus dans les matériaux des boîtiers d' encapsulâtion des circuits intégrés. L'élément le plus critique vis-à-vis de ce problème est la logique combinatoire : les erreurs mémoire peuvent être détectées via des codages (parité ou Hamming par exemple) mais, en ce qui concerne la logique combinatoire, il est impossible de détecter un événement singulier aléatoire sur un nœud quelconque à l'intérieur d'un circuit.
Le problème des événements singuliers devient donc prépondérant pour les fabricants de composants et de systèmes électroniques. Ceux-ci sont donc amenés à intégrer soit dans les circuits intégrés, soit dans les architectures, des mécanismes de protection contre les erreurs dues à ces événements. Une solution envisageable consiste à concevoir des circuits tolérants aux événements singuliers.
Comme illustré sur la figure 1, un système électronique peut être constitué d'un microprocesseur 10 et sa mémoire 11 reliés par un bus de données 12 et un bus Adresses+Contrôle 13. Un module de décodage 14 permet d'effectuer la sélection 15 des boîtiers mémoire .
La mémoire 11 peut être protégée par un composant couramment noté EDAC ("Error Détection And Correction"), voire EDC, ECC ou EDCC ("Error Détection/Correction Code"), qui permet de détecter puis de corriger des erreurs engendrées par les événements singuliers dans les cellules de mémorisation, comme décrit dans les documents référencés [1] à [5] en fin de description.
Comme illustré sur la figure 2, l'EDAC 20, ou composant de détection et correction d'erreurs mémoire, dans une architecture série, est un composant connecté au bus de données 12, par exemple de M bits de large, mais pas au bus d'adresses 13. L'EDAC 20 est relié à la mémoire 11 par un bus 55 de M bits de large sur lequel transitent les données stockées dans la partie 16 de la mémoire 11, et par un bus 54 de N bits de large sur lequel transitent les codes stockés dans la partie 17 de la mémoire 11 (à toute donnée est associé un code) .
Lors d'une écriture en mémoire 11 par le microprocesseur 10, l'EDAC 20 ajoute aux M bits de la donnée un code de N bits de largeur. La largeur de la mémoire 11 est donc de M+N bits afin de conserver le code associé à chacune des données mémorisées.
Lors d'une lecture en mémoire 11 par le microprocesseur 10, l'EDAC 20 reçoit M+N bits. Il calcule le code correspondant à la donnée de M bits (zone données 16) et le compare au code de N bits (zone codes 17) qui est stocké en mémoire avec la donnée. Si les deux codes ne sont pas identiques, une erreur est alors décrétée. Dans ce cas, et dans l'hypothèse de l'utilisation d'un code de Hamming qui permet de corriger un bit, l'EDAC 20 inverse le bit fautif pour le corriger, présente le mot corrigé sur son bus, et génère une interruption IT au microprocesseur pour que celui-ci réécrive la donnée correcte en mémoire. L'EDAC 20 n'ayant pas connaissance de l'adresse de la donnée, il ne peut effectuer lui-même la correction en mémoire 11.
Le code de parité (N=l) ne permettant que de détecter mais pas de corriger une erreur, on utilise généralement un code de Hamming qui a la capacité de détecter et corriger une erreur dans un mot, et de détecter (sans pouvoir alors les corriger) deux erreurs dans le même mot. La largeur du code de ^.Hamming, et donc l'augmentation de la capacité mémoire nécessaire, dépend de la valeur de M. Par exemple, pour M=16, on a couramment N=6.
Comme décrit dans le document référencé
[5], l'EDAC 20 travaille sur le bus de données, et fonctionne en parallèle avec le module de décodage 14 qui travaille sur le bus d'adresses 13. La fonction réalisée par l'EDAC étant plus complexe, le temps de propagation de celui-ci 20 est supérieur à celui du module de décodage 14 et ralentit donc les accès mémoire d'un cœur unité centrale protégé par un tel composant. La capacité des boîtiers mémoires augmentant, le nombre de boîtiers se réduit (notamment dans le domaine embarqué, tels que automobile, aéronautique ou spatial par exemple, qui utilise des petites capacités mémoire) . Par conséquent, le module de décodage 14 se simplifie et devient de façon inhérente de plus en plus rapide. Le ralentissement dû à l'EDAC 20 devient donc de plus en plus pénalisant.
Deux types d'architectures d'EDAC existent :
- L'EDAC dans une architecture série, illustrée sur la figure 2 (ou "flow-through" voire "feed-through") , est un composant inséré sur le bus de données 12 entre le microprocesseur 10 et sa mémoire 11 comme décrit dans les documents référencés [1] , [3] et [4] . - L'EDAC, dans une architecture parallèle illustrée sur la figure 3 (ou "bus-watch") est un composant connecté au bus de données 12 comme un périphérique. Il capture les données et les traite avant de valider l'accès mémoire, comme décrit dans le document référencé [2] . L'EDAC 20 est relié à la mémoire 11 par un bus 54.
L'EDAC 20, qui est un composant très souvent employé dans le domaine spatial, devient de plus en plus pénalisant au fur et à mesure de l'augmentation des fréquences d'horloge des microprocesseurs. Ce composant est d'autant plus critique avec des microprocesseurs à architecture RISC
("Reduced Instruction Set Computer" ou microprocesseur à jeu d'instructions réduit) qui accèdent à la mémoire presque à chaque cycle : Il est nécessaire d'ajouter des cycles d'attente ( "wait-states" ) pour laisser le temps à l'EDAC 20 de fonctionner, sinon il faut ralentir la fréquence de fonctionnement du microprocesseur . Dans le domaine spatial, les fréquences des microprocesseurs sont actuellement de l'ordre de quelques dizaines de MHz. Dans le domaine de l'informatique industrielle, ces fréquences sont actuellement d'un ordre de grandeur ou deux plus élevé : Ainsi, des microprocesseurs fonctionnant à 1 GHz commencent à apparaître .
La recherche d'un mode de fonctionnement plus performant de l'EDAC n'introduisant aucun ralentissement est, par conséquent, devenu une nécessité dans le domaine de l'informatique industriell .
Comme décrit dans le document référencé [6] , il est également connu d'utiliser une mémoire cache de 8 mots, associée à un générateur de vecteurs de test, qui permet de traiter de façon plus efficace qu'un EDAC, d'un point de vue temps de propagation, le problème d'adresses mémoire défaillantes suite à une panne définitive de bits isolés. Un tel système ne fonctionne cependant que pour les pannes définitives de quelques bits, ce qui est une configuration peu fréquente. Il n'est pas adapté au traitement des erreurs temporaires de type événements singuliers . Le document référencé [6] précise que ce système doit être associé à un EDAC pour pouvoir les prendre en compte.
Comme décrit dans le document référencé [8] , il est également connu de mettre en parallèle avec une unité d'exécution un dispositif de détection/correction d'erreurs mémoire EDAC qui laisse pénétrer dans l'unité d'exécution une donnée ou une instruction sans la vérifier au préalable. Cette donnée est également écrite dans un cache primaire Ll une fois que la détection a vérifié qu'elle est exempte d'erreur. Cette donnée passant à travers l'EDAC (donc corrigée si besoin) est écrite avec un certain retard dans un cache secondaire L2.
Si l'EDAC détermine après coup que cette donnée ou cette instruction est erronée, son utilisation est avortée et le cache Ll n'est pas mis à jour. L'unité de traitement va alors rechercher une deuxième fois cette donnée qui se trouve alors, corrigée, dans le cache L2 , exempte d'erreur cette fois-ci, sans avoir besoin d'aller une deuxième fois en mémoire. Le cache Ll est ensuite également mis à jour avec cette valeur corrigée.
Ce dispositif permet de ne pas ralentir le microprocesseur lors d'un accès en lecture à la mémoire ; mais pour cela il nécessite d'être utilisé avec une architecture à deux niveaux de cache (primaire
Ll et secondaire L2) , contrôlés par l'EDAC.
Comme décrit dans le document référencé [9] , il est également connu de mettre en parallèle avec un microprocesseur un dispositif de détection/correction d'erreurs mémoire EDAC qui laisse pénétrer dans le microprocesseur une donnée ou une instruction sans la vérifier au préalable. Si l'EDAC détermine après coup que cette donnée ou cette instruction est erronée, il corrige alors de lui-même la mémoire .
Le microprocesseur doit lui-même vérifier en interne si la donnée ou l'instruction est exempte d'erreur. Pour cela, il doit intégrer un codage de détection seule d'erreur, c'est-à-dire une parité. Lorsque le microprocesseur écrit en mémoire un mot, il calcule et écrit simultanément le code de parité associé qui est rangé dans la partie "donnée" (indépendante de la partie "code de correction"). Lorsqu'il lit en mémoire, il accède au mot et à son code de parité pendant que 1 ' EDAC accède en plus à son code de correction.
Si le microprocesseur détecte une erreur de parité, il s'interrompt et il va alors rechercher de nouveau le même mot en mémoire. Pendant le temps du traitement en interne de cette interruption par le microprocesseur, l'EDAC qui fonctionne en parallèle a eu le temps de détecter 1 ' erreur grâce au code de détection (parité) , de la corriger grâce au code de correction, et de ré-écrire la valeur corrigée en mémoire. Ainsi, la valeur qui est lue pour la deuxième fois en mémoire par le microprocesseur est, cette fois- ci, exempte d'erreur.
Cette partie du dispositif permet de ne pas ralentir le microprocesseur lors d'un accès en lecture à la mémoire ; mais pour cela il nécessite d'être utilisé avec un microprocesseur qui intègre un codage de parité .
Dans le cas de la réalisation d'une unité de traitement dans un ASIC ("Application Spécifie Integrated Circuit", ou circuit intégré spécifique d'une application), ce dispositif apporte une complexification et un ralentissement du fonctionnement dus à l'ajout d'un code de parité en série sur les accès mémoire.
Par ailleurs, lorsque le microprocesseur écrit un mot (avec sa parité) en mémoire, ce mot est écrit directement sans attendre le calcul de son code de correction ; ce dernier est écrit plus tard par l'EDAC dès son calcul réalisé. Si le microprocesseur accède en lecture à ce même mot immédiatement après son écriture en mémoire, le code de correction n'est pas encore disponible en mémoire mais le microprocesseur n'en a pas besoin ; seule la parité lui est nécessaire, le code de correction n'est utile qu'à l'EDAC qui en dispose directement dès son calcul réalisé.
Cette partie du dispositif permet de ne pas ralentir le microprocesseur lors d'un accès en écriture à la mémoire ; mais pour cela elle nécessite une mémoire où la partie "donnée et code de détection" et la partie "code de correction" sont accessibles indépendamment .
L'objet de l'invention est de fournir un dispositif et un procédé de détection et correction d'erreurs mémoire qui permettent de protéger la mémoire sans pénalité en performance sur les temps d'accès, contrairement aux dispositifs de l'art connu.
Exposé de l'invention
La présente invention concerne un dispositif de détection et correction d'erreurs mémoire dans un système électronique comprenant un composant électronique comportant plusieurs étages pipeline et une mémoire pour laquelle les accès aux données et à leurs codes associés sont simultanés, caractérisé en ce que ce dispositif comprend des moyens de détection/correction grâce à un code unique de détection/correction, moyens mis en parallèle sur les accès mémoire et activés chaque fois que le composant lit un mot en mémoire, ces moyens laissant pénétrer ce mot dans le composant avant de le vérifier.
Avantageusement les moyens de détection/correction comportent des moyens de vérification du mot lu en mémoire aptes à être activés en parallèle avec sa progression à l'intérieur des étages pipeline du composant électronique. Ils comportent des moyens de génération d'une interruption au composant, activés lorsqu'ils détectent une erreur sur le mot lu en mémoire, afin que la progression de ce mot erroné à l'intérieur des étages pipeline du composant soit interrompue avant qu'il ne soit transmis à l'étage pipeline d'exécution. Ils comportent des moyens disposant d'une connexion au bus d'adresses qui permettant, suite à une détection d'erreur, de réécrire directement en mémoire un mot corrigé.
Dans un mode de réalisation avantageux, ils comportent en outre des moyens de codage des données mis en série sur les accès mémoire, et structurés en étages pipeline de façon à avoir le même débit que le composant électronique lorsque celui-ci écrit en mémoire, en particulier pendant les transferts de blocs. Ledit dispositif dispose alors d'une connexion au bus d'adresses, et de moyens de cheminement des adresses comprenant un ensemble de registres pipeline connectés en série dans lesquels est réalisé le transport des adresses capturées, le nombre de ces registres pipeline étant identique au nombre d'étages pipeline des moyens de codage afin que ces adresses se propagent dans le dispositif au même rythme que les mots à coder. Il comprend un comparateur câblé sur chaque registre pipeline des moyens de cheminement des adresses, ces comparateurs permettant une comparaison temps réel entre toutes les adresses qui se trouvent à l'intérieur du dispositif à un moment donné et 1 ' adresse du mot que le composant électronique souhaite lire en mémoire à ce moment là. Dans un mode de réalisation avantageux, il peut comprendre des moyens introduisant des cycles mémoire d'attente au composant électronique lorsque l'un des comparateurs détecte la présence de l'adresse du mot que le composant souhaite lire en mémoire, ces moyens permettant de laisser le temps au mot de se propager dans les derniers étages pipeline du dispositif afin que celui-ci puisse écrire en mémoire ce mot et son code associé avant que le composant ne les lise. Ou alors, dans un autre mode de réalisation avantageux il peut comprendre, des moyens de multiplexage permettant lorsque l'un des comparateurs détecte la présence de 1 ' adresse du mot que le composant souhaite lire en mémoire, de fournir ce mot au composant quel que soit l'étage pipeline où il se trouve et d'inhiber les moyens de détection d'erreurs du dispositif sur ce mot puisque son code associé n'a pas eu le temps d'être complètement calculé. L'invention concerne également un procédé de détection et correction d'erreurs mémoire dans un système électronique comprenant un composant électronique comportant plusieurs étages pipeline et une mémoire pour laquelle les accès aux données et à leurs codes associés sont simultanés, caractérisé en ce que chaque mot constitué d'une donnée et de son code unique de détection/correction lu en mémoire par le composant électronique n'est pas vérifié préalablement à la capture de ce mot par le composant.
Avantageusement la vérification du mot lu en mémoire s'effectue en parallèle avec sa progression à 1 ' intérieur des étages pipeline du composant électronique, afin de s'assurer qu'il n'est pas erroné, permettant ainsi de masquer le temps de fonctionnement du dispositif par le temps de propagation dans les premiers étages pipeline du composant. Lorsqu'une erreur est détectée sur le mot lu en mémoire, le cheminement du mot dans les étages pipeline du composant électronique est interrompu avant que ce mot erroné ne puisse être effectivement utilisé par une unité de traitement de ce composant. Lorsqu'une erreur est détectée sur un mot lu en mémoire, et après sa correction, ce mot corrigé est directement réécrit en mémoire sans intervention du composant électronique.
Dans un mode de réalisation avantageux les mots que doit écrire le composant électronique en mémoire sont capturés, puis codés avec un code quelconque de détection/correction d'erreur, puis écrits en mémoire ; le codage étant structuré en étages pipeline de façon à avoir le même débit que le composant lorsque celui-ci écrit en mémoire et, ainsi, ne pas le ralentir, en particulier pendant les transferts de blocs. Les adresses sont capturées en même temps que les mots à coder, et ces adresses se propagent à l'intérieur d'étages pipeline au même rythme que les mots à coder. Toutes les adresses présentes dans les étages pipeline sont comparées en temps réel à l'adresse du mot que le composant électronique souhaite lire, ceci afin de détecter si le mot recherché par le composant n'a pas été écrit très récemment et ne se trouve pas encore dans ces étages pipeline. Si un mot que le composant électronique souhaite lire en mémoire se trouve encore dans les étages pipeline, on peut introduire des cycles mémoire d'attente au composant électronique pour attendre que se finalise le calcul de code et 1 ' écriture en mémoire de ce mot et de son code associé avant que le composant ne les lise, ou le mot peut être directement fourni au composant en inhibant alors la détection d'erreur sur ce mot puisque son code associé n'a pas eu le temps d'être complètement calculé.
Le procédé de l'invention peut être utilisé dans un système électronique embarqué tel que par exemple sur une voiture ou sur un avion.
Il peut également être utilisé dans le domaine spatial.
Le dispositif de l'invention est indépendant du code utilisé pour détecter/corriger les erreurs (Hamming, Reed-Solomon, etc...), et se suffit d'un code unique de détection/correction. Les deux parties de la mémoire allouées l'une aux données et l'autre à leurs codes de détection/correction sont accédées de façon usuelle, c'est-à-dire simultanément. Le dispositif est aussi bien adapté à des architectures sans mémoire cache qu'à des architectures avec un ou plusieurs niveaux de mémoire cache. Les réalisations classiques d'EDAC série ou parallèle réduisent la performance du système électronique en augmentant les temps d'accès à la mémoire. Le dispositif de l'invention permet de profiter pleinement des performances du composant électronique (par exemple un microprocesseur) puisque :
- la fonction de détection/correction travaille en parallèle, donc en temps masqué, avec la propagation de 1 ' instruction ou de la donnée dans le pipeline du composant électronique,
- la fonction codage est pipelinée pour offrir le même débit que le composant électronique lui- même, une structure en "mémoire associative" permettant de résoudre les problèmes de non cohérence de la mémoire lors d'accès rapprochés en écriture puis en lecture sur le même mot.
Brève description des dessins
- La figure 1 illustre un système électronique de l'art connu avec une mémoire non protégée.
- Les figures 2 et 3 illustrent ce système électronique de l'art connu avec une mémoire protégée par un EDAC classique, respectivement dans une architecture série et dans une architecture parallèle. - La figure 4 illustre ce système électronique avec une mémoire protégée selon l'invention pour la fonction détection/correction, seules les phases de lecture mémoire étant représentées . - La figure 5 illustre le diagramme temporel du fonctionnement de l'invention pour la fonction de détection/correction, dans une hypothèse sans mémoire cache . - La figure 6 illustre le système électronique, la mémoire étant protégée par un dispositif incluant uniquement la fonction de codage des données, seules les phases d'écriture mémoire étant représentées.
- La figure 7 illustre l'architecture interne du dispositif de l'invention pour la fonction de codage (exemple à trois étages pipeline) .
- La figure 8 illustre l'architecture du dispositif de l'invention intégrant à la fois les fonctions de détection/correction et codage.
- Les figures 9 et 10 illustrent les flots de données à l'intérieur du dispositif de l'invention intégrant à la fois les fonctions de codage et de détection/correction respectivement pour l'écriture de la mémoire et pour la lecture de la mémoire.
Exposé détaillé de modes de réalisation
La présente invention concerne un dispositif de détection et correction d'erreurs mémoire dans un système électronique comprenant un composant électronique comportant plusieurs étages pipeline et une mémoire. Par "composant électronique", on entend un circuit ou un ensemble de circuits intégrés, qui réalise une fonction nécessitant une mémoire, cette fonction pouvant être conçue à partir d'un opérateur ou processeur câblé (voir le document référencé [7] page
20 et page 106), d'un processeur en tranches ("bit slices", voir le document référencé [7] pages 106 à 109), ou d'un microprocesseur par exemple. Dans la suite de la description, on utilise le mot
"microprocesseur" car celui-ci est le plus représentatif . Le dispositif de détection et de correction d'erreurs mémoire selon l'invention inclut :
- des moyens de détection/correction activés lorsque le microprocesseur lit la mémoire, - et éventuellement des moyens de codage activés lorsque le microprocesseur écrit la mémoire.
Moyens de détection/correction
La fonction de détection/correction du dispositif de l'invention est basée sur le fait que, pour améliorer la performance des microprocesseurs modernes, ceux-ci disposent d'un nombre d'étages pipeline de plus en plus important, fonctionnant comme décrit dans le document référencé [7] aux pages 11 à 15.
Comme illustré sur la figure 4, le dispositif de détection et correction d'erreurs mémoire incluant ces moyens de détection/correction 20 est mis en parallèle sur les accès mémoire du microprocesseur 10. Son temps de propagation n'est plus en série vis-à- vis du microprocesseur 10 comme dans le cas d'un EDAC série ou parallèle, mais en parallèle. Il est donc masqué .
L'objectif de l'invention est de pouvoir dégager suffisamment de temps au dispositif de détection et correction d'erreurs mémoire pour le laisser fonctionner sans ralentir les accès mémoire. Grâce aux nombreux étages pipeline, ce dispositif permet de laisser rentrer l'instruction ou la donnée potentiellement erronée dans ces étages pipeline du microprocesseur sans la vérifier préalablement, mais en la vérifiant en parallèle. En cas d'erreur détectée par ce dispositif, ce dernier interrompt le cheminement de l'instruction ou de la donnée avant qu'elle ne soit exécutée ou utilisée effectivement par une unité de traitement interne au microprocesseur.
Le fonctionnement du dispositif de l'invention est illustré sur le diagramme temporel de la figure 5, correspondant à un exemple de réalisation de ce dispositif, en utilisant un microprocesseur générique, celui-ci dispose de cinq étages pipeline : un étage de recherche de l'instruction ("fetch"), un étage de décodage, un étage d'orientation vers une unité de traitement, un étage d'exécution, et un étage de rangement du résultat obtenu. Ce microprocesseur intègre une logique de traitement d'interruption (IT) incluant un étage de synchronisation des événements externes asynchrones IT et un étage de prise en compte de l'interruption IT. Les instructions non exécutées après 1 ' activation de cet étage de prise en compte des interruptions sont inhibées et le microprocesseur recharge totalement son pipeline (création d'une "bulle" dans le pipeline comme décrit dans le document référencé [7] aux pages 11 à 15) . Le dispositif de détection et correction d'erreurs mémoire dispose de trois étages pipeline : un étage de capture de la donnée ou de 1 ' instruction et de son code passant sur le bus de données du microprocesseur, un étage de calcul du code et de comparaison avec le code capturé, la comparaison générant une interruption au microprocesseur en cas de détection de non égalité entre les deux codes, et un étage de réécriture de la donnée corrigée en mémoire lorsque nécessaire. Pour la fonction de détection/correction, lors d'une lecture en mémoire externe de données ou d'instructions, le fonctionnement est le suivant :
- le microprocesseur accède en lecture à un mot (i.e. simultanément à la donnée et à son code associé) stocké en mémoire externe sans aucun ralentissement dû au dispositif de détection et correction d'erreurs mémoire.
- Ce mot est "capturé" par le dispositif en même temps qu'il l'est par le microprocesseur. - La détection (et éventuellement la correction) est à la charge seule du dispositif.
- Le dispositif travaille en parallèle avec la progression de l'instruction ou de la donnée dans les niveaux pipeline (par exemple K étages) du microprocesseur. Le dispositif dispose du temps qui est nécessaire à ce mot pour arriver jusqu'à l'unité d'exécution (a priori K-2 cycles, l'étage K-l étant généralement l'exécution, et l'étage K le stockage du résultat) . - En cas de détection 30 d'une erreur
(Instr.3 sur la figure 5), le dispositif interrompt
(31) le microprocesseur par une interruption avant que cette instruction/donnée ne soit exécutée/ utilisée.
- Dans ce cas, deux options se présentent : • soit le dispositif se contente de corriger le mot et de le présenter sur son bus, le microprocesseur se charge alors d'aller corriger la mémoire,
• soit le dispositif réécrit directement en DMA ("Direct Access Memory" ou accès direct à la mémoire) le mot corrigé en mémoire. Ceci est possible dans l'hypothèse où le dispositif est connecté au bus d'adresses et peut écrire en mémoire comme représenté en pointillés à la figure 4, ces éléments en pointillés étant par ailleurs nécessaires à la fonction de codage.
- L'effet de l'interruption est simplement de forcer une "purge" 32 des niveaux pipeline du microprocesseur grâce à 1 ' exécution des quelques instructions de ce programme d'interruption (a priori vide, et contenant éventuellement des NOP ("No Opération", c'est-à-dire "nulle" qui ne donne lieu à aucune opération) si les instructions de branchement et de retour d'interruption ne suffisent pas à assurer cette purge) . La purge permet de supprimer les quelques mots en train de progresser dans le pipeline du microprocesseur (dont le mot erroné Instr.3). Le microprocesseur va alors rechercher une nouvelle fois ces mots en mémoire externe (le mot erroné Instr.3 ayant entre-temps été corrigé en mémoire externe directement par le dispositif en DMA, dans ce cas le mot Inst.A à la figure 5 peut être le mot corrigé Instr.3, ou par le microprocesseur avec l'aide du dispositif) . On introduit donc une "bulle" dans le pipeline du microprocesseur à chaque détection d'erreur ; l'impact sur la performance étant négligeable, étant donné la faible densité des événements singuliers. Pour déterminer le nombre de cycles disponibles pour que le dispositif puisse exécuter sa phase de détection, on vérifie au cas par cas en fonction du microprocesseur utilisé jusqu'à quel niveau pipeline le mot potentiellement erroné peut progresser afin d'être sûr qu'à ce moment là, l'arrivée d'une interruption sur une broche externe du microprocesseur puisse interrompre la progression de ce mot vers l'unité d'exécution. Pour cela on prend également en compte la latence (c'est-à-dire le retard) due à l'échantillonnage puis l'exécution d'une interruption suite aux étages pipeline potentiels dans le cheminement de cette interruption.
Si une mémoire cache est intégrée sur la puce du microprocesseur, on purge en plus le cache sur l'apparition de l'interruption de détection d'erreur. Cela peut être fait dans le programme de l'interruption qui est liée au dispositif. La mise en œuvre de cette fonction dépend de la spécificité du microprocesseur. Par exemple, pour le PowerPC 603e de Motorola, il est possible de purger le cache instructions à l'aide d'une seule instruction (le cycle suivant, le microprocesseur considère que le cache instructions est vide) . Mais le cache données ne peut qu'être "flushé", c'est-à-dire qu'il doit être vidé entièrement : i.e. les blocs contenant des données mises à jour à l'intérieur du cache sont sauvegardés en mémoire. Dans le cas où un cache doit être "flushé" sur détection d'erreur mémoire, il faut que le dispositif laisse le "flush" se finaliser (le "flush" va alors sauvegarder la donnée erronée) avant d'effectuer la correction en mémoire.
Moyens de codage
La fonction de codage des données du dispositif de l'invention est basée sur le fait que, pour améliorer la performance des microprocesseurs modernes, ceux-ci intègrent des mémoires caches internes, et les écritures en mémoire externes se font alors la plupart du temps par des transferts de blocs
("flush" ou mode rafale, i.e., une donnée à chaque cycle et ceci de façon continue pour tout le bloc) .
Comme illustré sur la figure 6, le dispositif de l'invention incluant la fonction de codage est mis en série sur les accès mémoire du microprocesseur. Son temps de propagation reste en série vis-à-vis du microprocesseur mais ne le ralentit pas grâce à un fonctionnement pipeline. Ce fonctionnement nécessite de connecter le dispositif au bus d'adresses contrairement aux EDACs classiques.
Tout accès en écriture à la mémoire permet d'écrire simultanément la donnée et son code associé. Le dispositif de l'invention se suffit d'un code unique de détection/correction (Hamming, Reed-Sσlomon, etc.).
Les moyens de codage du dispositif sont partagés en étages pipeline 41, 42, 43, et utilisent un fonctionnement de type "mémoire associative" comme illustré sur la figure 7.
Si la durée des accès mémoire du microprocesseur est de T, et si le temps de codage du dispositif est inférieur à P fois T, alors la fonction codage est partagée en P étages pipeline 41, 42, 43, chacun ayant un temps de propagation T.
Les mots de données sont chargés dans le premier étage 41 du dispositif au rythme des écritures du microprocesseur, puis ils sont écrits en mémoire par le dispositif avec P cycles de retard mais au même rythme (donc, sans ralentir le microprocesseur) .
En parallèle, les adresses associées à chaque donnée sont chargées dans le dispositif et retardées par P simples registres pipeline 44 connectés en série pour rester en phase avec leur donnée.
Si une donnée écrite doit être relue avec un délai inférieur à P cycles mémoire, la mémoire n'est plus en cohérence. Il faut donc que la fonction de codage du dispositif soit structurée comme une mémoire associative, un comparateur 45 câblé sur chaque étage du pipeline des adresses permet de comparer en temps réel ces P adresses à l'adresse du mot que le microprocesseur souhaite lire. Si l'un des comparateurs détecte que la donnée est dans le pipeline du dispositif (signal "adresse présente" activé, ou "adress-hit") , on peut :
- soit introduire, grâce à un générateur de cycles d'attente 46, des cycles mémoire d'attente ("wait-states" ) au microprocesseur pour laisser le dispositif finaliser son calcul de code, et laisser le microprocesseur accéder à ce mot uniquement une fois qu'il a été écrit en mémoire avec son code associé. L'avantage est alors de banaliser sa nouvelle lecture ;
- soit directement fournir la donnée au microprocesseur grâce à un multiplexage (multiplexeur
47) sur la sortie "donnée" de tous les étages pipeline 41, 42, 43, mais en inhibant alors la détection d'erreur du dispositif sur ce mot puisque le code n'a pas eu le temps d'être complètement calculé. L'avantage est alors le gain en performance.
Etant donné la faible densité des événements singuliers, donc la perte négligeable en performance, la première solution (introduction de cycles d'attente) est préférable. Le fonctionnement de ces deux solutions (en logique positive) est illustré dans les tableaux 1 et 2 en fin de description.
Intégration des moyens de détection/correction et de codage
La fonction de détection/correction nécessitant une architecture de type série, et la fonction de codage de type parallèle, l'intégration des deux fonctions dans un même composant nécessite l'utilisation de multiplexeurs. L'architecture d'un tel composant est montrée à la figure 8, et les flots de données selon qu'il s'agit d'une phase d'écriture de la mémoire (activant la fonction de codage) ou d'une phase de lecture de la mémoire (activant la fonction de détection/correction) sont illustrés respectivement aux figures 9 et 10.
Sur ces figures 8, 9 et 10 sont représentés :
- un module 50 correspondant à la fonction codage (exemple de 3 étages pipeline) , - un module 51 correspondant à la fonction détection/correction,
- le bus adresses microprocesseur 13,
- le bus données microprocesseur 12, - une ligne interruption microprocesseur
52, le bus adresses mémoire 53, le bus codes mémoire 54, le bus données mémoire 55.
Tableau 1
Figure imgf000025_0001
Tableau 2
Figure imgf000025_0002
REFERENCES
[1] "29C516E-16 bits flow-through EDAC unit" (document TEMIC Semiconductors, rév. D, 09/12/97) .
[2] "29C532E-32 bits bus-watch EDAC unit" (document TEMIC Semiconductors, rév. B, 26/02/97) .
[3] "MA31752-16 bits feed-through EDAC unit" (document GEC Plessey Semiconductors, réf. DS3569-2.4).
[4] "MA31755-16 bits feed-through EDAC unit" (document GEC Plessey Semiconductors, réf. DS3572-2.2).
[5] "Two error-detecting and correcting circuits for space applications" de R. Johansson (Proceedings of 26th IEEE Fault Tolérant Computing Symposium, 1996) .
[6] "Memory System reliability improvement through associative cache redundancy" , de M.A. Lucente, C.H. Harris et R.M. Muir (IEEE Journal of Solid-State Circuits, Vol. 26, n° 3, mars 1991).
[7] "Réalisation d'un mini-processeur vectoriel travaillant en arithmétique flottante 32 bits, adapté au traitement fréquentiel d'images" de Michel Pignol (Thèse de docteur ingénieur en électronique présentée à l'université de Clermont II le 12 septembre 1986).
[8] US 5 630 055
[9] US 4 604 750

Claims

REVENDICATIONS
1. Dispositif de détection et correction d' erreurs mémoire dans un système électronique comprenant un composant électronique (10) comportant plusieurs étages pipeline et une mémoire (11) pour laquelle les accès aux données et à leurs codes associés sont simultanés, caractérisé en ce que ce dispositif comprend des moyens de détection/correction (20) grâce à un code unique de détection/connection, moyens mis en parallèle sur les accès mémoire et activés chaque fois que le composant lit un mot en mémoire, ces moyens (20) laissant pénétrer ce mot dans le composant (10) avant de le vérifier.
2. Dispositif selon la revendication 1, dans lequel les moyens de détection/correction (20) comportent des moyens de vérification du mot lu en mémoire aptes à être activés en parallèle avec sa progression à l'intérieur des étages pipeline du composant électronique.
3. Dispositif selon la revendication 1, dans lequel les moyens de détection/correction (20) comportent des moyens de génération d'une interruption au composant (10), activés lorsqu'ils détectent une erreur sur le mot lu en mémoire, afin que la progression de ce mot erroné à l'intérieur des étages pipeline du composant soit interrompue avant qu'il ne soit transmis à l'étage pipeline d'exécution.
4. Dispositif selon la revendication 1, dans lequel les moyens de détection/correction (20) comportent des moyens disposant d'une connexion au bus d'adresses qui permettent, suite à une détection d'erreur, de réécrire directement en mémoire un mot corrigé .
5. Dispositif selon la revendication 1 comportant en outre des moyens de codage des données ' mis en série sur les accès mémoire, et structurés en étages pipeline de façon à avoir le même débit que le composant électronique (10) lorsque celui-ci écrit en mémoire, en particulier pendant les transferts de blocs.
6. Dispositif selon la revendication 5 disposant d'une connexion au bus d'adresses, et de moyens de cheminement des adresses, comprenant un ensemble de registres pipeline (44) connectés en série, dans lesquels est réalisé le transport des adresses capturées, le nombre de ces registres pipeline étant identique au nombre d'étages pipeline des moyens de codage (41, 42, 43) afin que ces adresses se propagent dans le dispositif au même rythme que les mots à coder.
7. Dispositif selon la revendication 6 comprenant un comparateur (45) câblé sur chaque registre pipeline (44) des moyens de cheminement des adresses, ces comparateurs (45) permettant une comparaison temps réel entre toutes les adresses qui se trouvent à l'intérieur du dispositif à un moment donné et l'adresse du mot que le composant électronique (10) souhaite lire en mémoire à ce moment là.
8. Dispositif selon la revendication 7, comprenant de moyens (46) introduisant des cycles mémoire d'attente au composant électronique lorsque l'un des comparateurs détecte la présence de l'adresse du mot que le composant souhaite lire en mémoire, ces moyens permettant de laisser le temps au mot de se propager dans les derniers étages pipeline du dispositif afin que celui-ci puisse écrire en mémoire ce mot et son code associé avant que le composant ne les lise.
9. Dispositif selon la revendication 7 comprenant des moyens de multiplexage (47) permettant lorsque l'un des comparateurs détecte la présence de l'adresse du mot que le composant souhaite lire en mémoire, de fournir ce mot au composant quel que soit l'étage pipeline où il se trouve et d'inhiber les moyens de détection d'erreurs du dispositif sur ce mot puisque son code associé n'a pas eu le temps d'être complètement calculé.
10. Procédé de détection et correction d'erreurs mémoire dans un système électronique comprenant un composant électronique comportant plusieurs étages pipeline et une mémoire pour laquelle les accès aux données et à leurs codes associés sont simultanés, caractérisé en ce que chaque mot constitué d'une donnée et de son code unique de détection/correction lu en mémoire par le composant électronique n'est pas vérifié préalablement à la capture de ce mot par le composant .
11. Procédé selon la revendication 10, dans lequel la vérification du mot lu en mémoire s'effectue en parallèle avec sa progression à l'intérieur des étages pipeline du composant électronique, afin de s'assurer qu'il n'est pas erroné, permettant ainsi de masquer le temps de fonctionnement du dispositif par le temps de propagation dans les premiers étages pipeline du composant.
12. Procédé selon la revendication 10, dans lequel, lorsqu'une erreur est détectée sur le mot lu en mémoire, le cheminement du mot dans les étages pipeline du composant électronique est interrompu avant que ce mot erroné ne puisse être effectivement utilisé par une unité de traitement de ce composant .
13. Procédé selon la revendication 10, dans lequel, lorsqu'une erreur est détectée sur un mot lu en mémoire, et après sa correction, ce mot corrigé est directement réécrit en mémoire sans intervention du composant électronique .
14. Procédé selon la revendication 10, dans lequel les mots que doit écrire le composant électronique en mémoire sont capturés, puis codés avec un code quelconque de détection/correction d'erreur, puis écrits en mémoire ; le codage étant structuré en étages pipeline de façon à avoir le même débit que le composant lorsque celui-ci écrit en mémoire et, ainsi, ne pas le ralentir, en particulier pendant les transferts de blocs.
15. Procédé selon la revendication 14, qui capture les adresses en même temps que les mots à coder, et dans lequel ces adresses se propagent a l'intérieur d'étages pipeline au même rythme que les mots à coder.
16. Procédé selon la revendication 15, dans lequel toutes les adresses présentes dans les étages pipeline sont comparées en temps réel à l'adresse du mot que le composant électronique souhaite lire, ceci afin de détecter si le mot recherché par le composant n'a pas été écrit très récemment et ne se trouve pas encore dans ces étages pipeline.
17. Procédé selon la revendication 16, dans lequel si un mot que le composant électronique souhaite lire en mémoire se trouve encore dans les étages pipeline, on introduit des cycles mémoire d'attente au composant électronique pour attendre que se finalise le calcul de code et l'écriture en mémoire de ce mot et de son code associé avant que le composant ne les lise.
18. Procédé selon la revendication 16, dans lequel si un mot que le composant électronique souhaite lire en mémoire se trouve encore dans les étapes pipeline, ce mot est directement fourni au composant en inhibant alors la détection d'erreur sur ce mot puisque son code associé n'a pas eu le temps d'être complètement calculé.
19. Utilisation du dispositif selon l'une quelconque des revendications 1 à 9, dans un système électronique embarqué.
20. Utilisation du dispositif selon l'une quelconque des revendications 1 à 9, dans le domaine spatial .
PCT/FR2001/003300 2000-10-25 2001-10-24 Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique WO2002035354A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP01982539A EP1340148B1 (fr) 2000-10-25 2001-10-24 Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique
AT01982539T ATE291757T1 (de) 2000-10-25 2001-10-24 Vorrichtung und verfahren zur erkennung und korrektur von speicherfehlern in einer elektronischen vorrichtung
DE60109644T DE60109644T2 (de) 2000-10-25 2001-10-24 Vorrichtung und verfahren zur erkennung und korrektur von speicherfehlern in einer elektronischen vorrichtung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013679A FR2815735B1 (fr) 2000-10-25 2000-10-25 Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique
FR00/13679 2000-10-25

Publications (1)

Publication Number Publication Date
WO2002035354A1 true WO2002035354A1 (fr) 2002-05-02

Family

ID=8855721

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2001/003300 WO2002035354A1 (fr) 2000-10-25 2001-10-24 Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique

Country Status (5)

Country Link
EP (1) EP1340148B1 (fr)
AT (1) ATE291757T1 (fr)
DE (1) DE60109644T2 (fr)
FR (1) FR2815735B1 (fr)
WO (1) WO2002035354A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780424A (zh) * 2016-03-30 2018-11-09 高通股份有限公司 提供用于动态随机存取存储器dram高速缓存标记的空间高效存储

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4604750A (en) * 1983-11-07 1986-08-05 Digital Equipment Corporation Pipeline error correction
US5630055A (en) * 1995-05-05 1997-05-13 Digital Equipment Corporation Autonomous pipeline reconfiguration for continuous error correction for fills from tertiary cache or memory

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4604750A (en) * 1983-11-07 1986-08-05 Digital Equipment Corporation Pipeline error correction
US5630055A (en) * 1995-05-05 1997-05-13 Digital Equipment Corporation Autonomous pipeline reconfiguration for continuous error correction for fills from tertiary cache or memory

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"MEMORY ACCESS WITH ERROR RECOVERY", IBM TECHNICAL DISCLOSURE BULLETIN,IBM CORP. NEW YORK,US, vol. 30, no. 10, 1 March 1988 (1988-03-01), pages 133 - 135, XP000715630, ISSN: 0018-8689 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780424A (zh) * 2016-03-30 2018-11-09 高通股份有限公司 提供用于动态随机存取存储器dram高速缓存标记的空间高效存储
CN108780424B (zh) * 2016-03-30 2022-10-28 高通股份有限公司 提供用于动态随机存取存储器dram高速缓存标记的空间高效存储

Also Published As

Publication number Publication date
DE60109644T2 (de) 2006-02-09
ATE291757T1 (de) 2005-04-15
EP1340148B1 (fr) 2005-03-23
FR2815735B1 (fr) 2005-11-11
EP1340148A1 (fr) 2003-09-03
FR2815735A1 (fr) 2002-04-26
DE60109644D1 (de) 2005-04-28

Similar Documents

Publication Publication Date Title
US7568136B2 (en) Reconfigurable system and method with corruption detection and recovery
US20100318746A1 (en) Memory change track logging
JP5014899B2 (ja) 再構成可能デバイス
FR2938358A1 (fr) Interface de memoire securisee
FR2803057A1 (fr) Systeme informatique tolerant aux erreurs transitoires et procede de gestion dans un tel systeme
US20060184852A1 (en) Transient noise detection scheme and apparatus
US7058877B2 (en) Method and apparatus for providing error correction within a register file of a CPU
EP3392773B1 (fr) Circuit integre numerique protege contre les erreurs transitoires
EP1340148B1 (fr) Dispositif et procede de detection et correction d'erreurs memoire dans un systeme electronique
FR2828601A1 (fr) Ensemble de circuits electroniques comportant des moyens de decontamination de parties contaminees par des erreurs
Reorda et al. A low-cost SEE mitigation solution for soft-processors embedded in systems on pogrammable chips
US8495452B2 (en) Handling corrupted background data in an out of order execution environment
EP1340147B1 (fr) Dispositif et procede de codage pour un sous-ensemble de detection et correction d'erreurs memoire dans un systeme electronique
Di Carlo et al. A portable open-source controller for safe Dynamic Partial Reconfiguration on Xilinx FPGAs
Hong et al. Design and implementation of fault-tolerant soft processors on FPGAs
JP3553793B2 (ja) シングルイベントアップセット対策データ処理装置およびシングルイベントアップセット対策処理方法
CN114594991A (zh) 硬件加速器设备、对应的系统和操作方法
US7124331B2 (en) Method and apparatus for providing fault-tolerance for temporary results within a CPU
US8418027B2 (en) Device enabling the use of a programmable component in a natural radiative environment
Cui et al. Fault‐tolerant method for anti‐SEU of embedded system based on dual‐core processor
FR3052575B1 (fr) Circuit de detection de defaillances systematiques et aleatoires
Vera et al. Fast local scrubbing for field-programmable gate array's configuration memory
EP2223216B1 (fr) Dispositif de service de fiabilite, systeme et procede electroniques mettant en oeuvre au moins un tel dispositif et produit de programme informatique permettant de mettre en uvre un tel procede
Ramesh et al. Embedded Linux platform for a fault tolerant space based parallel computer
EP0573314A1 (fr) Unité d'automate ou d'automatisme programmable

Legal Events

Date Code Title Description
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2001982539

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2001982539

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2001982539

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: JP