WO2007009454A2 - Malfunction detection method - Google Patents

Malfunction detection method Download PDF

Info

Publication number
WO2007009454A2
WO2007009454A2 PCT/DE2006/001287 DE2006001287W WO2007009454A2 WO 2007009454 A2 WO2007009454 A2 WO 2007009454A2 DE 2006001287 W DE2006001287 W DE 2006001287W WO 2007009454 A2 WO2007009454 A2 WO 2007009454A2
Authority
WO
WIPO (PCT)
Prior art keywords
detection method
malfunction detection
signal
signals
time
Prior art date
Application number
PCT/DE2006/001287
Other languages
German (de)
French (fr)
Other versions
WO2007009454A3 (en
Inventor
Ruppert Koch
Original Assignee
Ruppert Koch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE102006016887A external-priority patent/DE102006016887A1/en
Application filed by Ruppert Koch filed Critical Ruppert Koch
Publication of WO2007009454A2 publication Critical patent/WO2007009454A2/en
Publication of WO2007009454A3 publication Critical patent/WO2007009454A3/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • H04L1/18Automatic repetition systems, e.g. Van Duuren systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Definitions

  • the present invention relates to the subject matter of the present invention, and is thus concerned with the detection of malfunctions in arrangements with multiple components communicating with one another.
  • heartbeat signals will never arrive absolutely even in complex systems. Rather, the analysis of the arrival times of heartbeat signals, which should arrive evenly, shows that considerable variations can occur without an actual malfunction in a device being present.
  • the object of the present invention is to provide new products for commercial use.
  • the present invention thus proposes, in a first aspect, a malfunction detection method for an arrangement of communicating components in which signals are repeatedly sent from a first component for reception by at least one other, an arrangement state is determined and malfunctions are at least excessively delayed with respect thereto Reception are assumed, in which it is provided that determines the arrangement state influencing individual conditions, set conditionally tolerable signal delay conditions and a
  • the faulty shutdowns can be significantly reduced without an undue wait time extension if it is determined in detail for individual conditions how they may still have a tolerable effect on a monitoring signal delay.
  • the invention is based not only on the recognition that different individual conditions have different effects on the delay of the monitoring signal, but also recognizes that by carefully examining the individual conditions without reducing the overall safety, a limitation of waiting signal delay easily possible becomes.
  • heartbeat signal delays can be tolerated much sooner without having to assume a malfunction of a heartbeat-emitting component when the load on the power line components, such as switches and routers, is currently so high that individual ones Data packets can be transmitted only delayed or undisturbed with full bandwidth, while a delay, which indicates a very critical state with still undisturbed network and simultaneously excessive working temperature of a heartbeat signal transmitting component under still low workload, so that delays are not readily acceptable here because they indicate a system failure.
  • a delay which indicates a very critical state with still undisturbed network and simultaneously excessive working temperature of a heartbeat signal transmitting component under still low workload, so that delays are not readily acceptable here because they indicate a system failure.
  • the method is particularly preferred if the individual conditions which result in a delay of a monitoring signal between the desired transmission time and the reception at the signal
  • the arrangement may in particular vary with regard to the connecting signal paths, with regard to the utilization of components in the signal paths, etc.
  • digital data packets are particularly preferred. This makes it possible in a particularly simple manner to provide a multiplicity of transmitting and mission-critical, fail-safe or for other reasons to be monitored components by means of a single monitoring receiver.
  • the use of digital data packets is also preferred because they can also be used to record and transmit conditions that would otherwise not be taken into account by the receiver, such as the workload of the transmitter, the network load observed by it, its age, its operating voltage or similar.
  • the digital data packets may not only be encoded to indicate that they represent heartbeat signals as such, but they may also carry additional information, which is also highly preferred.
  • they can be provided with a transmitter identification, which in particular allows to monitor a plurality of components by one and the same monitoring receiver, since this can now separate the corresponding heartbeat signals from different transmitters.
  • the digital data packets can be provided with a transmission identifier, in particular a packet number, that is to say a particular typically sequentially assigned number that is changed from heartbeat signal to heartbeat signal to identify packet failures;
  • the digital data packets can be provided with further information, for example, a send-actual or send-set time.
  • the send-actual time can be specified either as the time of the actual transfer of a data packet from a computer to a network cable, provided that the corresponding interface modules are designed to add the respective information to the data packets.
  • the sender-target time can be packed into the data packet.
  • the receiver can optionally analyze whether the sender is attempting to send data packets with those intervals which are specified or accepted at the receiver. If both the send-actual and the send-set time are coded into the data packets, it is possible to detect delays in the sending.
  • a delayed heartbeat signal transmission can occur, for example, if the so-called scheduler in the operating system of the heartbeat-signal-transmitting computer initially has other tasks executed or unavoidable tasks with very high priority are to be processed.
  • information can also be written into the heartbeat signal data packet indicating the priority of the heartbeat signal transmission in the computer relative to other tasks that this computer has to process. This avoids that a computer system is shut down only because very urgent mission-critical tasks have to be completed without delay.
  • a packet number is also preferred, especially if no sender actual time, which can be encoded as relative local computer time or absolute time of a common time base, is also transmitted.
  • the packet number nevertheless allows the receiving computer to check whether the heartbeat signals arrive completely, one after the other and / or in a reversed order. While such packet sequence changes are not expected in analog systems, this can easily happen especially in the monitoring of computers over extended networks, as routers and switches are usually provided in extensive networks, which optionally caching data packets to be transferred internally in order to transmit previously received data , If now not all data packets always have to follow the same path, for example because changes in the load of data transmission paths occur during the data transmission by other subscribers, it is possible that older packets still remain in the buffer memories
  • Switches wait for their transmission, while newer packets can already be transmitted via a less loaded way to the addressed receiving computer.
  • newer packets can already be transmitted via a less loaded way to the addressed receiving computer.
  • it is possible for congested networks that individual parcels sent on time will not be transmitted along the way, but will be dropped. This can be z. B. happen even when detected as incorrect detected packets.
  • Heartbeat signals are actually sent to show the receiver that the sending computer is still active. If, for example, the fifth packet is received after the seventh packet has already been received, the receiving computer learns that the computer which was still able to send out the seventh packet is still active when the fifth packet is sent has been. However, this is not information that should lead to the assumption that the sending computer was still active after the sending of the later sent and last received seventh packet. Therefore, a timekeeper that is reset whenever a new heartbeat signal is received and outputs a warning signal due to a presumed malfunction, when heartbeat signals fail too long, does not need to be reset to receive such obsolete heartbeat signals.
  • receiving per se obsolete heartbeat signals is an indicator that there is currently a high network load.
  • This information obtained from the receipt of obsolete heartbeat signals can be used to extend the time-outs, from which it is assumed that a transmitting computer has a malfunction.
  • the waiting time for heartbeat signals can be extended if the non-consecutive receipt of numbered heartbeat signal packets and / or the absence of heartbeat signals or a faulty packet indicate that a currently high network load is present.
  • the receiving supervisory computer monitors more than one foreign component or computer over the network, it may be possible for all other computers are made an adjustment. If a plurality of heartbeat signal transmitting units are arranged close to each other and the monitoring computer is positioned far away from it, it can be assumed that the network delay is approximately identical for all transmitting computers. In such a case, an adjustment can be made that is identical for all sending computers. On the other hand, if the monitored heartbeat signal transmitting computers are widely distributed, then the assumption is justified that only a part of the transmission network between the receiving computer and the other components is also overloaded. The adaptation can thus possibly take place taking into account the locations of other sending computers.
  • the heartbeat signal repetition itself is adjusted to one or more individual conditions. These can be device-specific individual conditions or else externally determined conditions. With devices, for example, there is a high probability of failure shortly after their commissioning, because certain components are already defective during production. On the other hand, if no malfunctions or malfunctions occur during the first phase of operation, it is highly probable that a computer system such as a server or the like will operate without problems for a long time until wear-related failures occur, for example due to faulty fan bearings, hard disk storage, drying electrolyte capacitors, etc. single-rate-adapted heartbeat signal repetition frequency can thus initially z. B. be very high during the first commissioning weeks in order to detect a very likely failure there very quickly,
  • the heartbeat signal repetition rates can be reduced since now malfunctions can occur primarily as a result of operating system instabilities, power failures or the like, but this is less likely overall than rapid early failure. After a longer period of operation, the heartbeat signal repetition frequency can then be increased again towards the end of the mean expected lifetime.
  • the heartbeat signals it is also possible to adjust the heartbeat signals to operating conditions such as the operating temperature of the transmitting computer, its load, the access to external memory, the CPU load, the latency of the heartbeat signal scheduler, etc.
  • This makes it possible either to relieve the computer when it is so heavily loaded by important other tasks that are known that heartbeat signals would be delayed anyway, the reduction of the heartbeat signal frequency is useful here, if the respective conditions are not typical Failure of the system may result; Alternatively, such conditions may also increase the heartbeat repetition rates, such as when it is expected that certain tasks to be performed by the operating system will completely block and / or critically slow it down.
  • the target time between two heartbeat signals is changed from emission to emission. However, it is preferable not to change these times too often. This allows in particular the simpler structure of a reception time statistics respectively a delay time statistics at the receiving computer.
  • the nominal repetition distance of heartbeat signals is communicated. is nicked. This can be done on the one hand from the transmitter, for example, in view of the current load, temperature, the age of the components, etc., or it can be commanded a target repetition distance from the receiver, which also allows the target repetition distance to adapt to individual conditions, not directly related to the transmitter, such as the need to simultaneously monitor a variety of computer systems with the receiver, varying network loads, and the like.
  • the heartbeat-signal-receiving components are computer systems with an operating system which have a prioritizing scheduler, that is to say a unit which can assign different priorities to different tasks in multitasking, multithreading or hyperthreading operation, it is preferred to use the receiver in the receiver Processing incoming messages to assign a higher priority than the processing of the timers. This can be advantageous in order to avoid erroneous shutdowns when heartbeat signals have already been received but are still present
  • the receiver's preferred guarantee of processing all received messages issued by the supervised transmitter before executing a time-out routine thus eliminates receiver scheduler latency. In practical implementation, this can preferably be done by a monitored transmitter sends a heartbeat signal at the absolute time t s and the receiver receives it at the absolute time t r .
  • the delay td t r -t s
  • the delay t d consists of three components, namely the scheduler delay tsENENERVERz ⁇ GERUNG in the transmitter as an absolute difference between the target time, too the heartbeat signal is to be generated and the actual time at which the heartbeat signal is to be generated by the transmitter; further, the heartbeat delay includes the network-related component t NE ⁇ zwER ⁇ vERZöGERUNG, that is, the time due to delays in switches, routers, the signal transmission along the various cables and other transmission paths, etc.; as a third component, the heartbeat delay includes the receiver-scheduler delay DELTA DELAY, that is, the absolute time difference between the time the heartbeat signal is operable in the memory of the receiver and the time at which the receiver actually receives that heartbeat signal respectively evaluating his absence. It therefore applies on the one hand
  • the receiver will regard the transmitter as faulty regardless of the timely heartbeat signal reception. At best, this can be avoided in the prior art by determining the time-out as
  • the preferred processing of the network input memory prior to evaluation of a timeout timer may, if necessary, require changes, albeit minor, in the operating system.
  • an operating system kernel is prepared for these additional tasks.
  • sent signals are detected by a receiver, but that does not mean that always only a single receiver can be addressed. Rather, it can be provided that a heartbeat signal is transmitted to a plurality of recipients.
  • a heartbeat signal is transmitted to a plurality of recipients. This has advantages if, for example, the monitoring receiver is also at risk of failure, because then a disconnection can already take place when one of the several receivers no longer receives heartbeat signals; Alternatively, a shutdown can only take place when none of the addressed receiver has received more signals. This can be done by communicating the receiver addressed with the heartbeat signal be determined among themselves. In special cases, situations could occur in which a shutdown takes place when a plurality or some of the receivers can no longer receive signals.
  • the malfunction can be reasonably assumed if within the given time and / or even later a receipt of a heartbeat signal completely fails; but even if heartbeat signals are still received, a malfunction can be assumed if, on the basis of the signal reception, it is assumed that assured or required service properties can no longer be met. For example, when a computer is used in the time-critical data streaming mode as for transmitting audio and / or video data and, for whatever reason, there are delays that result in out-of-order data transmission, it may become necessary be to either switch reserve calculator to one To achieve load distribution and / or bring about a standard transmission of the data to be transmitted.
  • the individual conditions that are evaluated during the malfunction detection comprise at least one group of total transmitter load, transmitter component load, in particular CPU utilization of one or more processor units in a transmitter, CPU clocking, if this is variable , Memory usage and use of swap memory, CPU usage by certain processes, use of the file system or activity of the file system, ie the hard disk components, network activity, scheduling latency, scheduling latency statistics tatis a of the monitored computer and / or other monitored computer with comparable or similar tasks or one, the or the monitoring computer, state of selected kernel activities, length of the network queue, Heartbeat loss detection for distinguishable heartbeat signals, non-consecutively received, consecutively separated signal identifiers, A Receive buffer status at the receiver, current signal path utilization, signal path utilization behavior, receiver load, receiver subcomponent load. It should be noted that, where in the above list was explicitly referred to load conditions of Transmitter equally load states of a receiver can be evaluated, unless it can be avoided by suitable prioritization or other measures thereby conditioned heartbeat signal retrieval evaluation delays.
  • the detection of individual conditions can be done either by defining allowable values and / or in response to measured individual conditions.
  • the determining definition of a desired value may, for example, result from the need to comply with certain service characteristics.
  • a measuring or determining determination of actually given conditions can first take place, for example, during system commissioning of more complex systems and / or be adapted over time.
  • a tolerable signal delay is changed over and over again and adapted and adapted in particular to changing individual conditions. In this way, it is possible to react to a gradual increase in network load, to temporarily fluctuating loads from the transmitter and / or receiver, to fluctuating and thus more dangerous operating temperatures for components in non-air-conditioned environments due to increased temperatures in the summer.
  • the individual tolerable signal delays associated with individual conditions may be linked in different ways to derive a total signal delay in response to and taking into account the individual conditions. It is thus possible to determine a maximum time for each individual condition which is still tolerated before a failure can be assumed. Such a maximum time linkage has been discussed above by way of example. alternative and / or in addition, however, linear or alinear connections can also be made, for example if it is to be assumed on the basis of a high network load that a monitored component, for example a heartbeat signal emitting computer, is about to experience a particularly high load.
  • the monitored computer at the same time indicates that it is already heavily loaded, it immediately results that a simple addition of the permissible maximum delays is not sufficient, since the additional load of the transmitting computer predicted from the network load increases the signal delays there caused by the operating system scheduler of the transmitter Send computer expected.
  • a particularly preferred system will determine an allowable maximum time by analyzing such interdependencies.
  • a first reaction would be a warning signal that alerts an administrator or a maintenance service to a malfunction.
  • the supervised computer can also be requested to generate a status report, if this is still possible.
  • it is additionally and / or alternatively possible to switch over to a reserve system and / or to be able to redistribute it to a task assigned to the system identified as possibly malfunctioning should it not be available.
  • it is preferable to trigger a data backup and a shutdown of a computer that is recognized as being possibly defective.
  • the monitored computer is not remotely switched off. Rather, it would be possible, if the computer to be monitored recognizes that predetermined specifications are no longer complied with, for example because the difference between heartbeat signal generation target time and heartbeat signal generation actual time or possible heartbeat signal generation actual time is too large, from the computer to be monitored itself a switch to a backup system, outsource assigned activities or the like to arrange. It should be noted that such an approach is not limited to mission-critical components, but that this is in any case feasible.
  • the self-shutdown or self-relieving need not necessarily occur only when the computer to be monitored a difference between
  • Heartbeat signal generation target and Ist time is greater than the total duration, which is available for the heartbeat signal repetition, but also medium observed network loads and the like can be taken into account, in order to then make a self-shutdown can if an in-depth incoming reception of the strongly delayed heartbeat signals due to excessive network load or the like is highly probable.
  • FIG. 1 shows an arrangement with which the malfunction detection method of the present invention can be carried out;
  • Fig. Ia, b, c detailed views to Fig. 1;
  • Fig. 2 is a detail of a network used in Fig. 1 by way of example for the transmission of heartbeat signals;
  • FIG. 3a shows probability densities for the arrival of heartbeat signals after a transmission time t for a lightly loaded network state
  • FIG. 3b shows probability densities for different load states of the network shown in FIG. 2;
  • FIGS. 4a, b show the derivation of a network load delay time curve from the distributions of FIG. 3b;
  • Fig. 4c shows an exemplary CPU load delay time curve; Fig. 4c 'a swap file delay time curve.
  • the first component 2 which repeatedly sends signals for receipt by at least one other
  • it is a mission-critical computer which has successively to process different tasks, such as the various tasks Job 1, Heartbeat, Job 3, Job 4 , which are registered in a scheduler 6, is indicated.
  • Mission-critical means that a failure of the system can have such negative consequences for an application and / or a user that measures appear reasonable to ensure timely replacement in case of failure of the component. This is done by the special design of the transmitter, which may otherwise be a largely or completely conventional computer, server, PC or another component communicating with external components.
  • the component 2 comprises, in addition to the scheduler 6, a CPU 7, a disk memory 8, a timer 9, a network input / output interface 10 and a monitor and monitoring unit 11 for self-monitoring of the component.
  • a memory 12 is provided which is designated in the figure with RAM and for the temporary storage of data and / or program parts and / or for the removal of currently unneeded and / or executed program parts and / or data is at least partially usable.
  • the individual components can be implemented by dedicated software program parts that are executed regularly or constantly, but that nonetheless dedicated hardware can nevertheless be present.
  • the scheduler 6 can be implemented in a conventional manner as part of an operating system and thus specifies when the CPU 7 which task has to work, in response to signals from the timer. 9
  • the central processing unit CPU 7 does not need to be a single processor, but it will be understood that the present invention is also applicable to multiprocessor systems and the like.
  • the data memory 8 can be realized in the present case as a disk storage such as Raid field or the like.
  • the timer 9 is designed to ensure within the component 2 that certain program parts to be processed in the scheduler 6 do not take excessively long times in the CPU, accesses do not take excessively long etc.
  • Clock shows synchronized to a global time, for which purpose a radio signal receiver for central time data in the component 2 can be provided and / or regular synchronization takes place with a clock connected to a network; that a global synchronization is not mandatory, but z.
  • a local synchronization of those watches that are provided at transmitters and / or receivers also sufficient, it should be mentioned.
  • synchronization is not required for all optimization steps, as will be apparent.
  • the power input input-output terminal 10 is configured to communicate with a network via common protocols. It can be a LAN connection, Internet connection, W-LAN connection or the like. The usability for upcoming or not mentioned protocols is anticipated. Particularly relevant in the present case is the usability of the mains connection input-output connection 10 for sending heartbeat signals from a heartbeat generation unit 13, which in particular is either the CPU itself and / or one of the different layers of a typical LAN. Terminal can act, as well as for receiving the load of a network 4, to which the component 2 is connected, indicating signal or for receiving a permitted by the monitoring component 3 maximum time t max .
  • the monitor 11 within the component 2 receives on the one hand signals from the timer 9, on the other hand the maximum permissible time between two heartbeat signals, which was received via the network connection 10 from the component 3 and incidentally load-indicative signals via the lines 5a, 5b, 5c, which indicate, for example, the percentage utilization of the CPU, the percentage filling of the swap space, the percentage utilization of the hard disk cache, and so on.
  • the monitor 11 further receives signals, in particular from the CPU and / or the network connection 10, which indicate when a heartbeat signal is transmitted, and compares this transmission time with the previously received, as maximum permitted time t max / to self-descend the Component 2, provided that the actual time of the heartbeat signal transmission t l3t is greater than the maximum time that has been approved by the monitoring component.
  • signals in particular from the CPU and / or the network connection 10, which indicate when a heartbeat signal is transmitted, and compares this transmission time with the previously received, as maximum permitted time t max / to self-descend the Component 2, provided that the actual time of the heartbeat signal transmission t l3t is greater than the maximum time that has been approved by the monitoring component.
  • a secondary system is caused to start up and / or to be active.
  • the heartbeat signal generation unit 13 is designed to compile heartbeat signal data packets and send them to the network connection unit 10 for transmission via the network.
  • the heartbeat data packets include the address of the addressed receiver, ADR, a sequentially cyclically assigned number seq #, the current time at which the generation of the heartbeat signal was provided in the scheduler, t SC he / the current load of the CPU, CPU%, the degree of filling of the memory for random access , RAM%, Disk% Disk Usage, Net% Net Usage.
  • the data packets compiled in this way can be written into a transmission memory of the network connection 10, where they are transmitted as quickly as possible and / or in sequence with other, already existing data.
  • the network 4 shown diagrammatically in FIG. 1 can be an extensive network in which a plurality of computers represented by round circles, via nodes, are represented as square boxes.
  • two components II communicating with each other and exchanging very large amounts of data are provided which communicate via a node located in the shortest possible connection between heartbeat signal transmitter and heartbeat signal receiver and, as through the very thick connection lines 4a, 4b to this node 4c indicated to exchange extremely large amounts of data, which should bring the node to its limits in the example chosen for explanation, so that the direct connection between the heartbeat signal transmitter 2 and heartbeat receiver 3 is then no longer available when the components II communicate with each other.
  • the nodes in the dash-dotted path and the computer marked III are part of a computer network used only on weekdays, so that on such working days a significantly higher network load is on the corresponding nodes of the dash-dotted path without these are assumed to be overloaded per se.
  • three operating states can be distinguished, namely the operating state I, in which only heartbeat transmitter and heartbeat receiver communicate with each other and otherwise no communication takes place in the network, the operating state I + II, in addition to the direct connection path through the very extensive communication between the components II is blocked and alternative paths must be found in the dot-dashed form, without the dotted path would be given a particularly high load of the network and the operating state I + II + III, in which by the communication of Computers III with each other additional load also on the node in the dotted path through the network. It is understood that the delay times of a heartbeat signal packet via the network are dependent on which operating state exists. This is shown in FIG. 2.
  • the delay via the network ⁇ t net / is significantly greater for the operating state (I + II + III) than for that operating state in which not all computers corrode via the network, but only on the one hand the heartbeat signal transmitter and the heartbeat signal receiver (I). and on the other hand communicate the dash-dotted line connection blocking computer II with each other, that is
  • the delay time ⁇ t ne t (i + ii) of the operating state in which the direct connection path is blocked is again significantly greater than the time when the direct connection is not blocked, that is to say for the operating state ⁇ t n e t (i). / that means overall the relationship applies
  • FIG. 2c shows how probability densities of the packet reception look for different network conditions. The curves are normalized such that after an infinitely long time, the integral of the probability densities over time is 1, that is, it is assumed that no packet is lost. Shown in Fig. 2c is also the time t 99 ⁇ 9 . These times t 99 (9 are shown for the different operating states.
  • FIG. 4a again shows the curve of FIG. 2c with the times recorded after 99.9% of all data packets have arrived, namely for. the different operating conditions.
  • Fig. 4b these 99.9% times are plotted against the network load observed with the operating conditions and the corresponding curve which results is drawn.
  • Fig. 4c, 4d are then drawn in an analogous manner, the delays that arise on the heartbeat signals, if a particularly high load of the central processing unit is present and / or a particularly high load in memory 12 RAM.
  • the component 3 is adapted to receive the heartbeat signals over the network 4, the network interface to the network 4 being also adapted to receive other data as shown at 14, this reference numeral being used for the input memory of the network interface to show that data can be received there without them having to be further processed immediately in the computer, for example because other tasks are first to be processed by the scheduler 15 of the component 3.
  • Component 3 again comprises a CPU 16, a timer 17 and, as required, further components of a standard computer system, without having to discuss these in detail below.
  • the individual means and signal processing stages to be described and / or already described, provided in component 3 can be implemented as usual by hardware and / or software means.
  • the component 3 further comprises a heartbeat signal decoupling stage 18 in which the heartbeat signal into which the sequence number Seq #, the generation time t sche d / the component component CPU load set in the component 2, the generation component memory utilization RAM%, the generation component file load File%, as well as the network load Net% of the network 4 used for the transmission are separated from the heartbeat signal packet.
  • the heartbeat signal - unpacking stage 18 is on the one hand for the unpacked sequence number associated with a sequence number evaluation stage 25, in which the sequence number of a received heartbeat signal packet the sequence number of previously received heartbeat signals is compared, and the load-indicative data, here indicated as CPU%, RAM%, File% and Net%, are fed to the inputs of the look-up tables LUT 3a, 3b, 3c, 3d.
  • the scheduled time t SC hed is fed to a Konsistenzprüfwork 19th
  • the look-up tables 3a to 3d are adapted to output allowable delays ⁇ t cpu / ⁇ t RAM , ⁇ t F ii e / or ⁇ t Net in response to load conditions for the CPU, RAM, etc.
  • the look-up tables 3a to 3d may implement curves such as those shown in FIGS. 4b to 4g.
  • the outputs of the lookup tables are fed to a delay time link 22, which determines therefrom a maximum allowable delay time.
  • the maximum delay time t Ma ⁇ is made available to the CPU via a suitable interface 23 such that the maximum permissible time when processing the heartbeat signal job in the scheduler 15 can be compared with the received actual time, ie with a time that has elapsed since receipt of a last valid time value.
  • the component 3 further has an alarm stage 24, which is designed to generate an alarm in the absence or inadmissible delay of a heartbeat signal and, if necessary, to activate reserves for components 2 and, if so desired, to deactivate component 2.
  • a malfunction detection method can be practiced as follows:
  • the network 4 is initially in state 1, al- so the two components 2 and 3 are the only ones communicating over the network. Further, assume that, as is preferred, timers 9 and 17 are first synchronized. The component 3 then specifies a maximum time between heartbeat signals that is chosen so that it can be complied with easily by the component 2, and communicates these via network 4 to the component 2. The component 2 also receives information about the current network load ,
  • component 2 the generation of a heartbeat signal is then regularly scheduled taking into account the specification of t m ax between two heartbeat signals.
  • the current load of the CPU, the memory RAM, the hard disks and the network load received via the network input / output interface 10 are packed into a heartbeat signal. This is fed to the network input / output interface 10, together with a sequential sequence number and the address of the receiving computer 3.
  • the monitor stage 11 is also checked whether the heartbeat signal generation time ti st is smaller than the legal time until the next heartbeat signal is generated. If this is the case, nothing needs to be done.
  • packet is then transmitted over the network 4 and enters the latches 14 of the network input interface of component 3, which monitors the heartbeat signal transmission.
  • the heartbeat signal is read in the scheduler 15 when the corresponding instructions are processed, unpacked and the unpacked values are fed to the look-up tables, the consistency check stage 19 or the sequence number evaluation stage 25 as required.
  • the lookup tables 3a to 3d then determine corresponding allowable delays 3 in response to the obtained load values for CPU, RAM, component 2 disk space, and the network load. These are linked together in the delay time linking stage 22, and for purposes of the present disclosure, it can be assumed that this linking occurs by addition; Significantly, other functions can be implemented, for example, when all components are at their load limit of 100%, in order then to avoid that the maximum permissible delay time is greater than that which is tolerable regardless of load under general safety aspects.
  • the times output by the look-up tables 3a to 3d are simultaneously output to the consistency check stage 19, which checks whether the time at which the generation of the heartbeat signal in the component 2 was scheduled by the scheduler, with the delay times, which are load-dependent allowed, taking into account the reception of the previous heartbeat signal is permitted or whether it may be necessary to correct the look-up tables, because about the Nachschautabellen provide short times that can not be met even in the generation of the heartbeat signal.
  • the maximum allowable time t max determined by the delay time linking stage 22 is then provided to the CPU. It is compared with the current actual time or the time elapsed since the last received heartbeat signal.
  • the heartbeat signal that was received is a newer heartbeat signal or whether an outdated heartbeat signal arrives very late; This evaluation is carried out in the sequence number evaluation stage 25. If a new heartbeat signal is involved, provided that the maximum permissible time between two heartbeat signals, which was determined on the basis of the transmitted heartbeat signals and the lastindicative data encoded therein, is greater than the time elapsed since the last evaluation, the timer Reset zero and do nothing except schedule a new heartbeat alert after a period of time.
  • this heartbeat signal reception delay is not critical because it is found in the look-up tables by evaluating the respective load states of, for example, CPU%, RAM%, File% and Net%, that larger individual-component-related delays are to be expected, resulting in an extension in the delay-time connection stage the maximum allowable waiting time for a new heartbeat signal.
  • the heartbeat signal now remains off, for example as a result of an error in component 2, then in the received component 3 it is first determined during processing of the heartbeat signal monitoring thread in the scheduler 15 that no newer heartbeat signals are present. This must be cause, especially in the final analysis, the startup of a replacement system for the assumed due to the absence of heartbeat signals as a component 2. However, before this happens, once again in the input / output memory of the network port 14 looked up, if not but in the meantime at the very last moment Heartbeat signals have arrived. If so, it is analyzed in the prescribed manner whether it is a newer heartbeat signal and apart from a shutdown of the component 2.
  • the corresponding look-up tables can be corrected in order to take account of such a situation for future cases, which is possible if the overall delay is not already so great that the delayed signal external fertilizer is based on a total system disturbance or overall misfire got to. In this way, a dispensable, avoidable shutdown of the component 2 is avoided. Only if no input of a newer heartbeat signal is detected in the case of the check of the network connection stack or fifo to be processed with a higher priority than the shutdown of component 2, an alarm is triggered in the alarm stage 24 and a reserve system is activated for the then presumed component 2 ,

Abstract

The invention relates to a malfunction detection method for a system of communicating components. According to said method, signals are repeatedly transmitted by a first component in order to be received by at least one other component, a system status is determined, and malfunctions are assumed to occur when reception of the signals is at least excessively delayed regarding said system status. According to the invention, individual conditions that influence the system status are determined, signal delays which are tolerable in accordance with individual conditions are defined, and a malfunction is assumed to occur in response to an at least excessively delayed reception regarding the signal delays that are tolerable in accordance with the individual conditions.

Description

Titel : FehlfunktionsdetektionsverfahrenTitle: Malfunction detection method
Beschreibungdescription
Die vorliegende Erfindung betrifft das Oberbegrifflieh Beanspruchte und befasst sich somit mit der Detektion von Fehl- funktionen in Anordnungen mit mehreren Komponenten, die miteinander kommunizieren.The present invention relates to the subject matter of the present invention, and is thus concerned with the detection of malfunctions in arrangements with multiple components communicating with one another.
Bei komplexen Systemen, wie sie insbesondere durch vernetzte Datenverarbeitungsanlagen oder dergleichen realisiert sind, gibt es eine Vielzahl von Anwendungen, bei denen ein einwandfreies Funktionieren sichergestellt sein muss. Hierzu gehören beispielsweise Rechnerfarmen für Internet-Handelsplattformen, Großdatenbankanwendungen, missionskritische Militär- oder Raumfahrtinstallationen usw. Kritisch kann sich hier sowohl der vollständige Ausfall einer oder mehrerer Komponenten auswirken als auch das temporäre oder dauerhafte Nichteinhalten zwingend erforderlicher oder zugesicherter Systemleistungen. Es ist üblich und bekannt, für derartige Fälle Vorsorge zu tragen, um auf einen Ausfall reagieren zu können. So werden schon seit langem in Raid-Systemen mehrere Festplatten zur Verfügung gestellt, um bei Ausfall einer einzelnen Platte die Daten sofort weiterhin zur Verfügung zu haben; in komplexeren Systemen können Reserverechner vorgesehen werden, die im Bedarfsfall zugeschaltet werden und jene Operationen übernehmen, die zuvor von defekt gewordenen Rechnern durchgeführt wurden.In complex systems, such as are realized in particular by networked data processing systems or the like, there are a variety of applications in which a proper functioning must be ensured. These include, for example, computer farms for Internet trading platforms, large database applications, mission-critical military or space installations, etc. Critically, both the complete failure of one or more components and the temporary or permanent failure to comply with mandatory or guaranteed system services. It is common and known to take precautions in such cases to respond to a failure. For example, a number of hard disks have been provided in RAID systems for a long time in order to continue to have the data immediately available in the event of a single disk failure; in more complex systems reserve computers can be provided, which are switched on if necessary and take over those operations that were previously performed by broken computers.
Es ist bekannt, eine Überwachung auf Defekte und Ausfälle dergestalt vorzusehen, dass eine erste Komponente zur Aussen- dung regelmäßig wiederholter Signale bestimmt wird und mit einer zweiten Komponente überprüft wird, ob diese regelmäßigen Signale, welche auch als „Herzschlag" (heartbeat) bezeichnet werden, rechtzeitig eingehen. Bleiben die Signale zu lange aus oder gelangen sie gar nicht zu der Empfängereinheit, so wird daraus geschlossen, dass eine Fehlfunktion vorliegen muss und es kann wie erforderlich darauf reagiert werden.It is known to provide monitoring for defects and failures in such a way that a first component for external is checked regularly and a second component is checked whether these regular signals, which are also referred to as "heartbeat", are received in good time If the signals remain too long or they do not reach the receiver unit, so it is concluded that a malfunction must be present and it can be responded to as necessary.
Herzschlagsignale werden jedoch in komplexen Systemen nie absolut gleichmäßig eintreffen. Vielmehr zeigt die Analyse der Eintreffzeiten von Herzschlagsignalen, die gleichmäßig eintreffen sollen, dass erhebliche Variationen auftreten können, ohne dass eine tatsächliche Fehlfunktion in einem Gerät vor- liegt.However, heartbeat signals will never arrive absolutely even in complex systems. Rather, the analysis of the arrival times of heartbeat signals, which should arrive evenly, shows that considerable variations can occur without an actual malfunction in a device being present.
Einerseits ist es nun gewünscht, schnell auf einen Ausfall reagieren zu können. Dies hat zur Folge, dass, ungeachtet einer gewissen statistischen Wahrscheinlichkeit verzögert ein- treffender Herzschlagsignale, nicht beliebig lange zugewartet werden kann, bis ein Ersatzsystem aktiviert wird. Kurze Reak- 'tionszeiten erfordern dabei besonders enge Restriktionen auf den Auszeit-Toleranzen. Andererseits ist es teuer, ein Reservesystem zu aktivieren, etwa weil bestimmte Daten dort nicht vollständig vorliegen, laufende Prozesse auf dem ausgefallenen System neu gestartet werden müssen usw. Um diese Kosten gering zu halten, ist es wünschenswert, die tolerierbaren Auszeiten möglichst groß zu wählen. Dies zeigt, dass Anforderungen an Systeme, in denen schnellstmöglich auf Fehlfunktio- nen reagiert wird, diametral entgegengesetzte Anforderungen stellen als solche, bei denen keine Falschalarme ausgelöst werden. Um hier Verbesserungen herbeizuführen, sind bereits Anordnungen vorgeschlagen worden, bei denen hinsichtlich der zulässigen Verzögerungen erwarteter Herzschlagsignale eine Anpassung an äußere Parameter wie das Alter eines sendenden oder überwachten Systems, dessen Temperatur als Maßstab für die aktuelle Arbeitslast usw. vorgesehen wird. Hingewiesen wird in dieser Hinsicht insbesondere auf die US-PS 6,782,496, die US- PS 5,699,511 oder die US-PS 6,590,868. Weiter sei noch ver- wiesen auf die folgenden Dokumente: US-PS 6,446,225, US-PSOn the one hand, it is now desired to be able to react quickly to a failure. As a result, regardless of a certain statistical probability of delaying incoming heartbeat signals, it is not possible to wait any length of time until a replacement system is activated. 'Tion times short response is required regarding particularly tight restrictions on the time-out tolerances. On the other hand, it is expensive to activate a backup system, for example because certain data is not completely there, ongoing processes on the failed system must be restarted, etc. In order to keep these costs low, it is desirable to set the tolerable timeouts as large as possible. This shows that requirements for systems that react as quickly as possible to malfunctions have diametrically opposed requirements than those for which no false alarms are triggered. In order to bring about improvements, arrangements have already been proposed in which, with regard to the permissible delays in expected heartbeat signals, adaptation to external parameters such as the age of a transmitting or monitored system, its temperature as a measure of the current workload, etc. is provided. Reference is made in this regard in particular to US Pat. No. 6,782,496, US Pat. No. 5,699,511 or US Pat. No. 6,590,868. Further, reference is made to the following documents: US Pat. No. 6,446,225, US-PS
5,682,470, US-PS 5,742,624, US-PS 6,360,333, US-PS 6,393,581, US-PS 5,978,939, US-PS 6,199,018, US-PS 6,037,868, US-PS 6,590,868, US-PS 6,782,496, US-PS 6,363,496, US-PS 6,199,069, US-PS 5,699,511, US-PS 6,820,221, US-PS 6,728,781, US-PS 6,687,847, US-PS 6,782,489, US-PS 6,370,656, THE RESEARCH OF FAULT DETECTION BASED ON HBM IN GRID COMPUTING ENVIRONMENT von Yu Hong und Shoubao Yang, Department of Computer Science and Technology, University of Science and Technology of China, IP CLUSTERING IN IPSO FAQ, Copyright 2002 Nokia, HARDWARE AND SOFTWARE ERROR DETECTION von Ravishankar K. Iyer,Nos. 5,682,470; 5,742,624; 6,360,333; 6,393,581; 5,978,939; 6,199,018; 6,037,868; 6,590,868; 6,782,496; 6,363,496; No. 6,199,069, US Pat. No. 5,699,511, US Pat. No. 6,820,221, US Pat. No. 6,728,781, US Pat. No. 6,687,847, US Pat. No. 6,782,489, US Pat. No. 6,370,656, THE RESEARCH OF FAULT DETECTION BASED ON HBM IN GRID COMPUTING ENVIRONMENT by Yu Hong and Shoubao Yang , CLUSTERING IN IPSO FAQ, Copyright 2002 Nokia, HARDWARE AND SOFTWARE ERROR DETECTION by Ravishankar K. Iyer, Department of Computer Science and Technology, University of Science and Technology of China
Zbigniew Kalbarczyk, Center for reliable and High-Performance Computing, Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, PROCEEDINGS OF THE 4th ANNUAL LINUX SHOWCASE & CONFERENCE, Atlanta, Giorgia, USA, October 10-14, 2000, DUPLEX: A REUSABLE FAULT TOLERANCE EXTENSIONZbigniew Kalbarczyk, Center for Reliable and High-Performance Computing, Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, PROCEEDINGS OF THE 4 th ANNUAL LINUX SHOWCASE & CONFERENCE, Atlanta, Giorgia, USA, October 10-14, 2000, DUPLEX: A REUSABLE FAULT TOLERANCE EXTENSION
FRAMEWORK FOR NETWORK ACCESS DEVICES von Srikant Sharma, Jia- wu Chen, Wei Li, Kartik Gopalan, Tzicker Chiueh, Computer Science Department, Stony Brook University, SCALABLE SECUR GROUP COMMUNICATION OVER IP MULTICAST von Suman Banerjee, Bobby Bhattacharjee, Department of Computer Science, University of Maryland, USA, AN ARCHITECTURAL FRAMEWORK FOR PROVI- DING RELIABILITY AND SECURITY SUPPORT von N. Nakka, Z. KaI- barczyk, R. K. Iyer, Coordinated Science Laboratory, Univer- sity of Illinois at Urbana-Champaign, A GOSSIP-STYLE FAILURE DETECTION SERVICE von Robert van Renesse, Yaron Minsky and Mark Hayden, Department of Computer Science, Cornell Univer- sity, Ithaca, USA, ERROR DETECTION TECHNIQUES & ERROR CORREC- TING CODES, Industrial Information Technology Laboratory, Helsinki University of Technology.FRAMEWORK FOR NETWORK ACCESS DEVICES by Srikant Sharma, Jawu Chen, Wei Li, Kartik Gopalan, Tzicker Chiueh, Computer Science Department, Stony Brook University, SCALABLE SECUR GROUP COMMUNICATION OVER IP MULTICAST by Suman Banerjee, Bobby Bhattacharjee, Department of Computer Science, University of Maryland, USA, to ARCHITECTURAL FRAMEWORK FOR PROVISION RELIABILITY AND SECURITY SUPPORT by N. Nakka, Z. KaI- Barczyk, RK Iyer, Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, GOSSIP-STYLE FAILURE DETECTION SERVICE by Robert van Renesse, Yaron Minsky and Mark Hayden, Department of Computer Science, Cornell University, Ithaca, USA , ERROR DETECTION TECHNIQUES & ERROR CORREC- TING CODES, Industrial Information Technology Laboratory, Helsinki University of Technology.
Es bleibt aber ungeachtet dieses bereits umfangreichen Stan- des der Technik weiterhin das Bedürfnis bestehen, unter Vermeidung von überflüssigen Fehlalarmen eine schnelle Auslösung auf Fehlfunktionen hin auslösen können.However, despite this already extensive state of the art, there remains the need to be able to trigger a rapid triggering on malfunctions while avoiding unnecessary false alarms.
Die Aufgabe der vorliegenden Erfindung besteht darin, Neues für die gewerbliche Anwendung bereitzustellen.The object of the present invention is to provide new products for commercial use.
Die Lösung dieser Aufgabe wird in unabhängiger Form beansprucht. Bevorzugt Ausführungsformen finden sich in den Unteransprüchen.The solution to this problem is claimed in an independent form. Preferred embodiments can be found in the subclaims.
Die vorliegende Erfindung schlägt somit in einem ersten Grundgedanken ein Fehlfunktionsdetektionsverfahren für eine Anordnung kommunizierender Komponenten vor, worin wiederholt Signale von einer ersten Komponente zum Empfang durch wenig- stens eine weitere abgesandt werden, ein Anordnungszustand bestimmt wird und Fehlfunktionen bei im Hinblick auf diesen zumindest übermäßig verzögerten Empfang angenommen werden, bei welchem vorgesehen ist, dass den Anordnungszustand beeinflussende Einzelbedingungen bestimmt, einzelbedingungsabhän- gig tolerierbare Signalverzδgerungen festgelegt und eineThe present invention thus proposes, in a first aspect, a malfunction detection method for an arrangement of communicating components in which signals are repeatedly sent from a first component for reception by at least one other, an arrangement state is determined and malfunctions are at least excessively delayed with respect thereto Reception are assumed, in which it is provided that determines the arrangement state influencing individual conditions, set conditionally tolerable signal delay conditions and a
Fehlfunktion im Ansprechen auf einen bezüglich der einzelbe- dingungsabhängig tolerierbaren Signalverzögerungen zumindest übermäßig verzögerten Empfang angenommen wird.Malfunction in response to a conditionally tolerable signal delays at least excessively delayed reception is assumed.
Wesentlich ist somit zunächst die Erkenntnis, dass die Fehl- abschaltungen ohne ungebührliche Wartezeitverlängerung signifikant verringert werden können, wenn detailliert für einzelne Bedingungen festgelegt wird, wie sie sich auf eine Überwachungssignalverzögerung in noch tolerierbarer Weise auswirken dürfen. Der Erfindung liegt dabei nicht nur die Erkenntnis zugrunde, dass sich unterschiedliche Einzelbedingungen auf die Verzögerung des Überwachungssignal unterschiedlich stark auswirken, sondern erkennt auch, dass durch genaue Betrachtung der einzelnen Bedingungen ohne Verringerung der Gesamt- Sicherheit eine Begrenzung der abzuwartenden Signalverzöge- rung ohne weiteres möglich wird. Es ist beispielsweise für ein Computernetzwerk einsichtig, dass Herzschlagsignalverzögerungen viel eher toleriert werden können, ohne dass eine Fehlfunktion einer Herzschlagsignale aussendenden Komponente angenommen werden muss, wenn aktuell die Last auf den Netz- leitungskomponenten, also beispielsweise Switches und Routern, so hoch ist, dass einzelne Datenpakete nur verzögert oder nicht ungestört mit voller Bandbreite übertragen werden können, während eine Verzögerung, die bei ungestörtem Netz und gleichzeitig überhöhter Arbeitstemperatur einer herz- schlagsignalsendenden Komponente unter dennoch geringer Arbeitslast auf einen sehr kritischen Zustand hindeutet, so dass Verzögerungen hier nicht ohne weiteres hinnehmbar sind, weil sie auf einen Systemausfall hindeuten. Indem im Beispiel etwa sowohl die Arbeitstemperatur der herzschlagsignalsenden- den Komponente als auch die Netzwerklast überwacht wird, kann zwischen beiden Fällen unterschieden werden und es kann eine schnelle Abschaltung bei Verzögerung unter ausschließlich ho- hen Temperaturen erreicht werden. Im Stand der Technik wäre für dieselbe Temperatur, die hier für einen kritischen Betriebszustand indikativ sein möge, noch erforderlich, gleichfalls jene per se für hohe Netzlasten tolerierbaren Verzöge- rungen abzuwarten, da dort nicht zwischen unterschiedlichen Einzelbedingungen, die zu Signalverzögerungen führen können, unterschieden wird.Thus, it is essential first of all to recognize that the faulty shutdowns can be significantly reduced without an undue wait time extension if it is determined in detail for individual conditions how they may still have a tolerable effect on a monitoring signal delay. The invention is based not only on the recognition that different individual conditions have different effects on the delay of the monitoring signal, but also recognizes that by carefully examining the individual conditions without reducing the overall safety, a limitation of waiting signal delay easily possible becomes. For example, it is reasonable for a computer network that heartbeat signal delays can be tolerated much sooner without having to assume a malfunction of a heartbeat-emitting component when the load on the power line components, such as switches and routers, is currently so high that individual ones Data packets can be transmitted only delayed or undisturbed with full bandwidth, while a delay, which indicates a very critical state with still undisturbed network and simultaneously excessive working temperature of a heartbeat signal transmitting component under still low workload, so that delays are not readily acceptable here because they indicate a system failure. By monitoring both the operating temperature of the heartbeat signal transmitting component and the network load in the example, a distinction can be made between the two cases, and a rapid switch-off under delay can be distinguished from exclusively temperatures are reached. In the prior art, it would still be necessary for the same temperature, which may here be indicative of a critical operating state, to wait for those tolerable delays per se for high network loads, since there is no distinction between different individual conditions which can lead to signal delays ,
Es sei darauf hingewiesen, dass das Fehlfunktionsdetektions- verfahren der vorliegenden Erfindung prinzipiell auf allenIt should be noted that the malfunction detection method of the present invention is basically applicable to all
Gebieten einsetzbar ist, bei denen unterschiedliche Einflüsse auf eine Überwachungssignalübertragung einwirken und die Feststellung einer Fehlfunktion kritisch ist. Dies kann beispielsweise bei analogen Funksystemen im Militärbereich oder dergleichen der Fall sein. Besonders bevorzugt ist jedoch die Anwendung für digitale und/oder Datenverarbeitungsgeräte, wo sogar ganze Netzwerke mit dem Fehlfunktionsdetektionsverfah- ren der vorliegenden Erfindung überwacht werden können, genauso wie Teile von Netzwerken, aber auch einzelne Datenver- arbeitungsgeräte mit insbesondere redundant vorgesehenen Komponenten, etwa um bei Festplattenanordnungen eine Sicherung gegen Ausfall zu erreichen; es muss sich hierbei auch keinesfalls um reine Rechneranwendungen handeln, sondern es können auch z.B. Gesamtanordnungen überwacht werden, bei denen z. B. neben einem Empfänger lediglich signalaussendende Komponenten vorhanden sind; als Beispiel für eine rechnerfremde Anwendung seien etwa „fly-by-wire"-Steueranlagen in Flugzeugen und dergleichen genannt.Can be used in areas where different influences act on a monitoring signal transmission and the detection of a malfunction is critical. This may for example be the case with analog radio systems in the military sector or the like. However, particularly preferred is the application for digital and / or data processing devices, where even entire networks can be monitored with the malfunction detection method of the present invention, as well as parts of networks, but also individual data processing devices with particular redundant components, such as at Hard disk arrangements to achieve a backup against failure; In no case must it be purely computer applications, but it can also be e.g. Overall arrangements are monitored, in which z. B. in addition to a receiver only signal emitting components are present; as an example for a non-computer application are called "fly-by-wire" control systems in aircraft and the like.
Besonders bevorzugt ist das Verfahren, wenn die einzelnen Bedingungen, die zu einer Verzögerung eines Überwachungssignals zwischen der Soll-Aussendezeit und dem Empfang am Signalem-The method is particularly preferred if the individual conditions which result in a delay of a monitoring signal between the desired transmission time and the reception at the signal
- e - pfänger führen, hinsichtlich der durch die unterschiedlichen Einzelbedingungen verursachten Verzögerung besonders stark differieren. Die Anordnung kann dabei insbesondere bezüglich der verbindenden Signalwege, bezüglich der Auslastung von Komponenten in den Signalwegen usw. variieren.- e - different in terms of the delay caused by the different individual conditions. The arrangement may in particular vary with regard to the connecting signal paths, with regard to the utilization of components in the signal paths, etc.
Es sei erwähnt, dass, wie auch die Erfindung selbst nicht beschränkt ist auf digitale Datenverarbeitungssysteme, obschon die Übertragung von Signalen als digitale Datenpakete beson- ders bevorzugt ist. Dies erlaubt es nämlich auf besonders einfache Weise, mittels eines einzigen Überwachungsempfängers eine Vielzahl von sendenden und missionskritischen, ausfall- trächtigen oder aus anderen Gründen zu überwachenden Komponenten vorzusehen. Zugleich ist der Einsatz digitaler Daten- pakete auch deshalb bevorzugt, weil mit ihnen auch Bedingungen erfasst und übermittelt werden können, die sonst für den Empfänger nicht zu berücksichtigen wären, etwa die Arbeitslast des Senders, die an ihm beobachtete Netzwerkbelastung, sein Alter, seine Betriebsspannung oder dergleichen.It should be noted that, as well as the invention itself is not limited to digital data processing systems, although the transmission of signals as digital data packets is particularly preferred. This makes it possible in a particularly simple manner to provide a multiplicity of transmitting and mission-critical, fail-safe or for other reasons to be monitored components by means of a single monitoring receiver. At the same time, the use of digital data packets is also preferred because they can also be used to record and transmit conditions that would otherwise not be taken into account by the receiver, such as the workload of the transmitter, the network load observed by it, its age, its operating voltage or similar.
Weiter können die digitalen Datenpakete nicht nur kodiert werden, um anzuzeigen, dass sie Herzschlägsignale als solche darstellen, sondern sie können darüber hinaus auch noch zusätzliche Informationen tragen, was ebenfalls hochgradig be- vorzugt ist. So können sie mit einer Senderkennung versehen sein, was insbesondere erlaubt, eine Mehrzahl von Komponenten durch ein und denselben Überwachungsempfänger zu überwachen, da dieser nunmehr die entsprechenden Herzschlagsignale unterschiedlicher Sender separieren kann.Further, the digital data packets may not only be encoded to indicate that they represent heartbeat signals as such, but they may also carry additional information, which is also highly preferred. Thus, they can be provided with a transmitter identification, which in particular allows to monitor a plurality of components by one and the same monitoring receiver, since this can now separate the corresponding heartbeat signals from different transmitters.
Weiter können die digitalen Datenpakete mit einer Sendeken- nung versehen sein, insbesondere einer Paketnummer, das heißt einer insbesondere typisch fortlaufend vergebenen Nummer, die von Herzschlagsignal zu Herzschlagsignal verändert wird, um Paketausfälle identifizieren zu können; die digitalen Datenpakete können darüberhinaus mit weiteren Informationen verse- hen werden, beispielsweise einer Absende-Ist- oder Absende- Soll-Zeit. Die Absende-Ist-Zeit kann entweder als Zeit der tatsächlichen Übergabe eines Datenpaketes von einem Rechner an ein Netzwerkkabel angegeben werden, sofern die entsprechenden Schnittstellenbausteine darauf ausgelegt sind, die respektive Information den Datenpaketen hinzuzufügen. Alternativ ist es möglich, die Zeit der Bearbeitung durch eine CPU in dem Rechner dem Datenpaket mitzugeben. Des weiteren kann zusätzlich oder alternativ auch die Absende-Soll-Zeit mit in das Datenpaket gepackt werden.Furthermore, the digital data packets can be provided with a transmission identifier, in particular a packet number, that is to say a particular typically sequentially assigned number that is changed from heartbeat signal to heartbeat signal to identify packet failures; In addition, the digital data packets can be provided with further information, for example, a send-actual or send-set time. The send-actual time can be specified either as the time of the actual transfer of a data packet from a computer to a network cable, provided that the corresponding interface modules are designed to add the respective information to the data packets. Alternatively, it is possible to give the time of processing by a CPU in the computer to the data packet. Furthermore, in addition or alternatively, the sender-target time can be packed into the data packet.
Wird ausschließlich die Absende-Soll-Zeit in das Datenpaket gepackt, so kann der Empfänger gegebenenfalls analysieren, ob der Sender mit jenen Intervallen Datenpakete abzusenden versucht, die am Empfänger vorgegeben oder angenommen werden. Wird sowohl die Absende-Ist- als auch die Absende-Soll-Zeit in die Datenpakete hinein kodiert, so ist es möglich, Verzögerungen des Absendens zu erkennen. Eine verzögerte HerzschlagsignalSendung kann beispielsweise auftreten, wenn der sogenannte Scheduler im Betriebssystem des herzschlagsignal- sendenden Rechners zunächst andere Aufgaben abarbeiten lässt oder unumgängliche Aufgaben mit sehr hoher Priorität abzuarbeiten sind. Gegebenenfalls kann auch Information in das Herzschlagsignaldatenpaket eingeschrieben werden, welche die Priorität der Herzschlagsignalsendung im Rechner relativ zu anderen Aufgaben, die dieser Rechner abzuarbeiten hat, angibt. So kann vermieden werden, dass ein Rechnersystem nur deshalb heruntergefahren wird, weil gerade sehr dringende, etwa missionskritische Aufgaben unverzüglich abzuarbeiten sind.If only the sender deadline time is packed in the data packet, then the receiver can optionally analyze whether the sender is attempting to send data packets with those intervals which are specified or accepted at the receiver. If both the send-actual and the send-set time are coded into the data packets, it is possible to detect delays in the sending. A delayed heartbeat signal transmission can occur, for example, if the so-called scheduler in the operating system of the heartbeat-signal-transmitting computer initially has other tasks executed or unavoidable tasks with very high priority are to be processed. Optionally, information can also be written into the heartbeat signal data packet indicating the priority of the heartbeat signal transmission in the computer relative to other tasks that this computer has to process. This avoids that a computer system is shut down only because very urgent mission-critical tasks have to be completed without delay.
Das Vorsehen einer Paketnummer ist gleichfalls bevorzugt, insbesondere dann, wenn keine Absende-Ist-Zeit , die als relative lokale Rechnerzeit oder absolute Zeit einer gemeinsamen Zeitbasis kodiert werden kann, mitübertragen wird. Die Paket- nummer erlaubt es dem empfangenden Rechner gleichwohl, zu überprüfen, ob die Herzschlagsignale vollständig, nacheinander und/oder mit vertauschter Reihenfolge eintreffen. Während bei analogen Systemen derartige Paketsequenzveränderungen nicht erwartet werden, kann dies insbesondere bei der Überwachung von Rechnern über ausgedehnte Netzwerke ohne weiteres passieren, da in ausgedehnten Netzwerken im Regelfall Router und Switches vorgesehen sind, welche intern weiterzuübertragende Datenpakete gegebenenfalls Zwischenspeichern, um früher eingegangene Daten zu übertragen. Wenn jetzt nicht alle Datenpakete stets denselben Weg nehmen müssen, etwa weil sich während der Datenübertragung durch andere Teilnehmer Veränderun- gen der Belastung von Datenübertragungswegen ergeben, kann es passieren, dass ältere Pakete noch in den ZwischenspeichernThe provision of a packet number is also preferred, especially if no sender actual time, which can be encoded as relative local computer time or absolute time of a common time base, is also transmitted. The packet number nevertheless allows the receiving computer to check whether the heartbeat signals arrive completely, one after the other and / or in a reversed order. While such packet sequence changes are not expected in analog systems, this can easily happen especially in the monitoring of computers over extended networks, as routers and switches are usually provided in extensive networks, which optionally caching data packets to be transferred internally in order to transmit previously received data , If now not all data packets always have to follow the same path, for example because changes in the load of data transmission paths occur during the data transmission by other subscribers, it is possible that older packets still remain in the buffer memories
(Stacks) von weitgehend aus- bzw. überlasteten Routern und(Stacks) of largely overloaded or overloaded routers and
Switches auf ihre Übertragung warten, während neuere Pakete schon über einen weniger belasteten Weg an den adressierten Empfangsrechner übertragen werden können. Zudem ist es bei überlasteten Netzen möglich, dass einzelne Pakete, die rechtzeitig abgesandt wurden, auf dem Weg nicht übertragen werden, sondern fallen gelassen werden. Dies kann z. B. auch bei als fehlerhaft übertragen erkannten Paketen geschehen.Switches wait for their transmission, while newer packets can already be transmitted via a less loaded way to the addressed receiving computer. In addition, it is possible for congested networks that individual parcels sent on time will not be transmitted along the way, but will be dropped. This can be z. B. happen even when detected as incorrect detected packets.
Beachtlich ist hierbei, dass die Paketnummer zu einer Verkürzung der AbschaltZeiten ohne Fehlinformationen führen kann. Herzschlagsignale werden nämlich ausgesandt, um dem Empfänger zu zeigen, dass der sendende Rechner noch aktiv ist. Wird nun etwa das fünfte Paket empfangen, nachdem bereits das siebte Paket eingegangen ist, so erfährt der empfangende Rechner Ie- diglich, dass der Rechner, der noch in der Lage war, das siebte Paket abzusenden, auch bei der Absendung des fünften Paketes noch aktiv gewesen ist. Dies ist aber keine Information, die zu der Annahme führen sollte, dass nach Absenden des später abgesetzten und letztempfangenen siebten Paketes der sendende Rechner noch aktiv war. Ein Auszeitmesser, der immer dann zurückgesetzt wird, wenn ein neues Herzschlagsignal empfangen wird und ein Warnsignal auf Grund einer angenommenen Fehlfunktion ausgibt, wenn Herzschlagsignale zu lange ausbleiben, braucht daher nicht auf den Empfang derarti- ger, obsoleter Herzschlagsignale zurückgesetzt zu werden. Zugleich kann aber auch eine weitere Reaktion außer dem vollständigen Ignorieren obsoleter Herzschlagsignale veranlasst werden. So ist der Empfang per se obsoleter Herzschlagsignale ein Indikator dafür, dass momentan eine hohe Netzlast vor- liegt. Diese aus dem Empfang obsoleter Herzschlagsignale gewonnene Information kann herangezogen werden, um die Auszeiten, ab welchen angenommen wird, dass ein sendender Rechner eine Fehlfunktion aufweist, zu verlängern. Alternativ und/ oder zusätzlich kann die Wartezeit auf Herzschlagsignale ver- längert werden, wenn der nicht-konsekutive Empfang von numerierten Herzschlagsignalpaketen und/oder das Ausbleiben von Herzschlagsignalen bzw. ein fehlerhaftes Paket anzeigen, dass eine momentan hohe Netzlast gegeben ist.It is noteworthy here that the parcel number can lead to a shortening of the shutdown times without misinformation. Heartbeat signals are actually sent to show the receiver that the sending computer is still active. If, for example, the fifth packet is received after the seventh packet has already been received, the receiving computer learns that the computer which was still able to send out the seventh packet is still active when the fifth packet is sent has been. However, this is not information that should lead to the assumption that the sending computer was still active after the sending of the later sent and last received seventh packet. Therefore, a timekeeper that is reset whenever a new heartbeat signal is received and outputs a warning signal due to a presumed malfunction, when heartbeat signals fail too long, does not need to be reset to receive such obsolete heartbeat signals. At the same time, however, a further reaction can be initiated in addition to completely ignoring obsolete heartbeat signals. Thus, receiving per se obsolete heartbeat signals is an indicator that there is currently a high network load. This information obtained from the receipt of obsolete heartbeat signals can be used to extend the time-outs, from which it is assumed that a transmitting computer has a malfunction. Alternatively and / or additionally, the waiting time for heartbeat signals can be extended if the non-consecutive receipt of numbered heartbeat signal packets and / or the absence of heartbeat signals or a faulty packet indicate that a currently high network load is present.
Überdies kann, wenn der empfangende, überwachende Rechner mehr als eine fremde Komponente beziehungsweise einen weiteren Rechner über das Netz überwacht, gegebenenfalls für alle anderen Rechner eine Anpassung vorgenommen werden. Wenn eine Vielzahl von herzschlagsignalsendenden Einheiten dicht beieinander angeordnet ist und der überwachende Rechner weit entfernt davon positioniert ist, ist anzunehmen, dass die Netzverzögerung für alle sendenden Rechner näherungsweise identisch ist. In einem solchen Fall kann eine Anpassung vorgenommen werden, die für alle sendenden Rechner identisch ist. Sind hingegen die überwachten, herzschlagsignalsendenden Rechner weit verteilt, so ist die Annahme gerechtfertigt, dass lediglich allenfalls ein Teil des Übertragungsnetzwerkes zwischen dem Empfangsrechner und den anderen Komponenten auch überlastet ist. Die Anpassung kann somit gegebenenfalls unter Berücksichtigung der Standorte anderer sendender Rechner erfolgen.Moreover, if the receiving supervisory computer monitors more than one foreign component or computer over the network, it may be possible for all other computers are made an adjustment. If a plurality of heartbeat signal transmitting units are arranged close to each other and the monitoring computer is positioned far away from it, it can be assumed that the network delay is approximately identical for all transmitting computers. In such a case, an adjustment can be made that is identical for all sending computers. On the other hand, if the monitored heartbeat signal transmitting computers are widely distributed, then the assumption is justified that only a part of the transmission network between the receiving computer and the other components is also overloaded. The adaptation can thus possibly take place taking into account the locations of other sending computers.
Es ist bevorzugt, wenn die Herzschlagsignalwiederholung selbst an eine oder mehrere Einzelbedingungen angepasst wird. Dies können gerätespezifische Einzelbedingungen oder auch fremdbestimmte Bedingungen sein. Bei Geräten gibt es bei- spielsweise kurz nach deren Inbetriebnahme eine hohe Versagenswahrscheinlichkeit, weil bestimmte Komponenten schon fehlerhaft bei der Herstellung sind. Treten während der ersten Betriebsphase hingegen keine Störungen oder Fehlfunktionen auf, ist es sehr wahrscheinlich, dass ein Rechnersystem wie ein Server oder dergleichen längere Zeit problemfrei arbeitet, bis abnutzungsbedingte Versagensfälle auftreten, beispielsweise auf Grund von fehlerhaft werdenden Lüfterlagern, Festplattenlagern, austrocknenden Elektrolytkondensatoren usw. Eine einzelbedingungsangepasste Herzschlagsignalwieder- holfrequenz kann somit zunächst z. B. während der ersten Inbetriebnahmewochen sehr hoch sein, um ein dort stark wahrscheinliches Ausfallen besonders schnell erkennen zu können,-It is preferred if the heartbeat signal repetition itself is adjusted to one or more individual conditions. These can be device-specific individual conditions or else externally determined conditions. With devices, for example, there is a high probability of failure shortly after their commissioning, because certain components are already defective during production. On the other hand, if no malfunctions or malfunctions occur during the first phase of operation, it is highly probable that a computer system such as a server or the like will operate without problems for a long time until wear-related failures occur, for example due to faulty fan bearings, hard disk storage, drying electrolyte capacitors, etc. single-rate-adapted heartbeat signal repetition frequency can thus initially z. B. be very high during the first commissioning weeks in order to detect a very likely failure there very quickly,
- Ii - tritt dies nicht auf, können die Herzschlagsignalwiederhol- frequenzen herabgesetzt werden, da nunmehr Fehlfunktionen primär etwa durch Betriebssysteminstabilitäten, Stromausfälle oder dergleichen auftreten können, was aber insgesamt weniger wahrscheinlich ist als ein schnelles frühes Versagen. Nach einer längeren Betriebsdauer kann gegen Ende der mittleren erwarteten Lebenszeit dann die Herzschlagsignalwiederholfre- quenz wieder hochgesetzt werden.- II - if this does not occur, the heartbeat signal repetition rates can be reduced since now malfunctions can occur primarily as a result of operating system instabilities, power failures or the like, but this is less likely overall than rapid early failure. After a longer period of operation, the heartbeat signal repetition frequency can then be increased again towards the end of the mean expected lifetime.
Daneben ist es auch möglich, die Herzschlagsignale an Betriebsbedingungen wie etwa die Betriebstemperatur des Sende- rechners, dessen Auslastung, den Zugriff auf externe Speicher, die CPU-Last, die Latenzzeit des Herzschlagsignalsche- duling usw. anzupassen. Dies ermöglicht es, entweder den Rechner dann zu entlasten, wenn er durch wichtige andere Aufgaben, die bekannt sind, so stark belastet ist, dass Herzschlagsignale ohnehin verzögert abgesetzt würden, wobei die Verringerung der Herzschlagsignalfrequenz hier sinnvoll ist, wenn die jeweiligen Bedingungen typisch nicht zu Ausfällen des Systems führen können; alternativ können durch solche Bedingungen auch die Herzschlagsignalwiederholfrequenzen erhöht werden, etwa dann, wenn zu erwarten ist, dass bestimmte, vom Betriebssystem auszuführende Aufgaben dieses vollständig blockieren und/oder in kritischer Weise verlangsamen.In addition, it is also possible to adjust the heartbeat signals to operating conditions such as the operating temperature of the transmitting computer, its load, the access to external memory, the CPU load, the latency of the heartbeat signal scheduler, etc. This makes it possible either to relieve the computer when it is so heavily loaded by important other tasks that are known that heartbeat signals would be delayed anyway, the reduction of the heartbeat signal frequency is useful here, if the respective conditions are not typical Failure of the system may result; Alternatively, such conditions may also increase the heartbeat repetition rates, such as when it is expected that certain tasks to be performed by the operating system will completely block and / or critically slow it down.
Prinzipiell ist es möglich, dass die Soll-Zeit zwischen zwei Herzschlagsignalen von Aussendung zu Aussendung verändert wird. Bevorzugt ist es jedoch, diese Zeiten nicht zu häufig zu ändern. Dies erlaubt insbesondere den einfacheren Aufbau einer EmpfangszeitStatistik respektive einer Verzögerungs- zeitstatistik am empfangenden Rechner. Bevorzugt ist zudem, wenn der Soll-Wiederholabstand von Herzschlagsignalen kommu- niziert wird. Dies kann einerseits vom Sender aus geschehen, etwa im Hinblick auf die derzeitige Auslastung, Temperatur, das Alter der Komponenten usw., oder es kann ein Soll-Wiederholabstand vom Empfänger befohlen werden, was es erlaubt, den Soll-Wiederholabstand auch anzupassen an Einzelbedingungen, die nicht direkt den Sender betreffen, etwa im Hinblick auf die Notwendigkeit, eine Vielzahl von Rechnersystemen mit dem Empfänger simultan zu überwachen, variierende Netzlasten und dergleichen.In principle, it is possible that the target time between two heartbeat signals is changed from emission to emission. However, it is preferable not to change these times too often. This allows in particular the simpler structure of a reception time statistics respectively a delay time statistics at the receiving computer. In addition, it is preferred if the nominal repetition distance of heartbeat signals is communicated. is nicked. This can be done on the one hand from the transmitter, for example, in view of the current load, temperature, the age of the components, etc., or it can be commanded a target repetition distance from the receiver, which also allows the target repetition distance to adapt to individual conditions, not directly related to the transmitter, such as the need to simultaneously monitor a variety of computer systems with the receiver, varying network loads, and the like.
Wenn es sich bei den herzschlagsignalempfangenden Komponenten um Rechnersysteme mit Betriebssystem handelt, die einen prio- risierenden Scheduler besitzen, also eine Einheit, die im Multitasking-, Multithreading- oder Hyperthreading-Betrieb unterschiedlichen Aufgaben unterschiedliche Prioritäten zuzuweisen vermag, ist es bevorzugt, im Empfänger der Verarbeitung eingehender Nachrichten eine höhere Priorität zuzuweisen als der Verarbeitung der Auszeitgeber. Dies kann vorteilhaft sein, um Fehlabschaltungen dann zu vermeiden, wenn Herz- schlagsignale zwar bereits eingegangen sind, aber noch imIf the heartbeat-signal-receiving components are computer systems with an operating system which have a prioritizing scheduler, that is to say a unit which can assign different priorities to different tasks in multitasking, multithreading or hyperthreading operation, it is preferred to use the receiver in the receiver Processing incoming messages to assign a higher priority than the processing of the timers. This can be advantageous in order to avoid erroneous shutdowns when heartbeat signals have already been received but are still present
Zwischenspeicher des Empfängers für aus dem Netzanschluss erhaltene Daten liegen. Indem sichergestellt wird, dass vor Abarbeitung einer Auszeitroutine erst alle Daten aus dem Speicher für empfangene Netzwerkdaten ausgelesen und zumindest darauf überprüft werden, ob neue Herzschlagsignale darin um- fasst sind, wird vermieden, dass eine Fehlfunktion lediglich deshalb angenommen werden muss, weil im Empfänger die Verarbeitung eingegangener Herzschlagsignale nicht rechtzeitig erfolgen konnte .Latch the receiver for data obtained from the network connection data. By ensuring that before processing a time-out routine, all data is first read from the memory for received network data and at least checked to see whether new heartbeat signals are included therein, it is avoided that a malfunction must be assumed only because in the receiver Processing of received heartbeat signals could not be timely.
Da die Verarbeitung von im Speicher für eingegangene Netzwerkdaten liegenden Informationen ausschließlich darauf be- schränkt sein rauss, zu überprüfen, ob es sich um Herzschlagsignale handelt, hat diese zusätzliche Verarbeitung lediglich eine sehr geringe Verzögerung zur Folge. Diese Verzögerung ist dann, wenn kein Herzschlagsignal vorliegt, sondern womöglich eine tatsächliche Fehlfunktion des überwachten Systems, ohne weiteres hinnehmbar, da die Wahrscheinlichkeit, eine überflüssige Abschaltung vornehmen zu müssen, signifikant gesenkt wird. Durch die bevorzugte Garantie des Empfängers, dass er alle empfangenen Nachrichten, die vom überwach- ten Sender abgesetzt wurden, verarbeitet, bevor er eine Auszeitroutine abarbeitet, wird somit die Empfänger-Scheduler- Latenz eliminierbar. In der praktischen Umsetzung kann dies bevorzugt geschehen, indem ein überwachter Sender ein Herzschlagsignal zur absoluten Zeit ts absetzt und der Empfänger diese zur absoluten Zeit tr empfängt. Die Differenz zwischen der Sende- und der Empfangszeit ist dann die Herzschlagverzögerung td = tr - ts, wobei die Verzögerung td sich aus drei Komponenten zusammensetzt, nämlich der Scheduler-Verzögerung tsENüERVERzόGERUNG im Sender als absoluter Differenz zwischen der Soll-Zeit, zu der das Herzschlagsignal generiert werden soll, und der Ist-Zeit, zu welcher das Herzschlagsignal vom Sender generiert werden soll; weiter umfasst die Herzschlagverzögerung die netzbezogene Komponente tNEτzwERκvERzöGERUNG, das heißt jene Zeit, die bedingt ist durch Verzögerungen in Switches, Routern, die Signalübertragung längs der diversen Kabel und anderer Übertragungswege usw. ; als dritte Komponente umfasst die Herzschlagverzögerung die Empfänger-Scheduler-Verzögerung tEMPFÄNGERVERZÖGERUNG, das heißt die absolute Zeitdifferenz zwischen der Zeit, zu welcher das Herzschlagsignal verarbei- tungsfähig im Speicher des Empfängers vorliegt, und der Zeit, zu welcher der Empfänger tatsächlich dieses Herzschlagsignal respektive sein Nichtvorhandensein auswertet. Es gilt also einerseitsSince the processing of information stored in memory for received network data is exclusively Restricting it to check if it's heartbeat signals, this extra processing will only result in a very small delay. This delay, when there is no heartbeat signal, and possibly an actual malfunction of the monitored system, is readily acceptable because the likelihood of having to perform a redundant shutdown is significantly reduced. The receiver's preferred guarantee of processing all received messages issued by the supervised transmitter before executing a time-out routine thus eliminates receiver scheduler latency. In practical implementation, this can preferably be done by a monitored transmitter sends a heartbeat signal at the absolute time t s and the receiver receives it at the absolute time t r . The difference between the transmission and the reception time is then the heartbeat delay td = t r -t s , wherein the delay t d consists of three components, namely the scheduler delay tsENENERVERzόGERUNG in the transmitter as an absolute difference between the target time, too the heartbeat signal is to be generated and the actual time at which the heartbeat signal is to be generated by the transmitter; further, the heartbeat delay includes the network-related component t NE τzwERκvERZöGERUNG, that is, the time due to delays in switches, routers, the signal transmission along the various cables and other transmission paths, etc.; as a third component, the heartbeat delay includes the receiver-scheduler delay DELTA DELAY, that is, the absolute time difference between the time the heartbeat signal is operable in the memory of the receiver and the time at which the receiver actually receives that heartbeat signal respectively evaluating his absence. It therefore applies on the one hand
td = tr - ts und td = t SENDERVERZÖGERUNG + tNETZWERKVERZÖGERUNG + t EMPFÄNGERVERZÖGERUNGtd = t r - t s and td = t TRANSFER DELAY + t NETWORK DELAY + t RECEIVER DELAY
Es kann nun die Situation auftreten, dass das Herzschlagsignal zu einer Zeit tr am Empfänger verarbeitbar ist, aber bis zu jener Zeit, zu welcher der Datenempfang verarbeitet werden soll, die Auszeit bereits eingetreten ist, das heißt, dass die Bedingung gilt :The situation may now arise that the heartbeat signal can be processed at the receiver at a time t r , but the timeout has already occurred by the time at which the data reception is to be processed, that is to say the condition applies:
tr < tAUSZEIT < tr + tEMppÄNGERVERZÖGERUNGt r <tAUSZEIT <t r + t EM PANEL DELAY
Wenn nun die Verarbeitung des Auszeitgebers eine höhere Priorität als die Verarbeitung hereinkommender Nachrichten bzw. Signale besitzt, wird, ungeachtet des bereits eingetretenen Empfanges, der Empfänger den Sender als fehlerhaft ungeachtet des rechtzeitigen Herzschlagsignalempfangs ansehen. Dies kann im Stand der Technik allenfalls dadurch vermieden werden, dass die Auszeit bestimmt wird alsNow, if the processing of the timeout timer has a higher priority than the processing of incoming messages, regardless of the reception already made, the receiver will regard the transmitter as faulty regardless of the timely heartbeat signal reception. At best, this can be avoided in the prior art by determining the time-out as
tAUSZEIT > Maximum ( tsENDERVERZÖGERUNG) + Maximum ( tNETZWERKVERZÖGERUNG)DAY TIME> Maximum (TENDER DELAY) + Maximum (NETWORK DELAY)
+ Maximum ( t EMPFÄNGERVERZÖGERUNG)+ Maximum (t RECIPIENT DELAY)
Indem nun zunächst empfangene Nachrichten mit höherer Priorität als der Auszeitgeber verarbeitet werden, treten keine Fehlabschaltungen mehr auf, die lediglich durch Nichtverar- beitung bereits empfangender Herzschlagsignale bedingt sind. Mit anderen Worten braucht tAUSzEiτ nur noch gesetzt werden aufBy first processing received messages with a higher priority than the time-out timer, there are no longer any erroneous shutdowns that are merely due to non-processing of already received heartbeat signals. In other words, t OFF z E iτ only needs to be set to
tAUSZEIT > Maximum ( t SENDERVERZÖGERUNG) + Maximum ( t NETZWERKVERZÖGERUNG) Es sei darauf hingewiesen, dass bei dem beschriebenen Vorgehen zwar der Auszeitgeber erst dann aufgerufen wird, wenn die zuvor eingegangenen Nachrichten abgearbeitet wurden; dies führt zwar per se zu einer geringen Verzögerung gegenüber ei- nem Fall, bei welchem diese Abarbeitungsreihenfolge nicht eingehalten wird; allerdings wird die durch die Veränderung der Abarbeitungsreihenfolge bedingte Zeiverzögerung regelmäßig kleiner als Maximum (tEMPFÄNGERVERzöGERUNG) sein, so dass sich insgesamt typisch eine Verkürzung der Auszeitsignalgenerie- rung unter Verringerung der Fehlabschaltwahrscheinlichkeit ergibt .tAUSZEIT> Maximum (t TRANSFER DELAY) + Maximum (t NETWORK DELAY) It should be noted that in the described procedure, although the off timer is called only when the previously received messages were processed; although this leads per se to a slight delay compared to a case in which this order of execution is not complied with; However, the delay caused by the change in the execution order will regularly be smaller than the maximum (t RECEIVER DELAY), so that the overall result is a shortening of the time-out signal generation while reducing the false switch-off probability.
Es sei darauf hingewiesen, dass die bevorzugte Abarbeitung des Netzwerk-Eingangsspeichers vor Auswertung eines Auszeit- Zeitgebers erforderlichenfalls Änderungen, wenn auch geringfügiger Art, im Betriebssystem erfordern kann. Bevorzugt wird ein Betriebssystem-Kernel auf diese zusätzlichen Aufgaben vorbereitet .It should be noted that the preferred processing of the network input memory prior to evaluation of a timeout timer may, if necessary, require changes, albeit minor, in the operating system. Preferably, an operating system kernel is prepared for these additional tasks.
Es sei darauf hingewiesen, dass zwar weitgehend in der vorliegenden Beschreibung davon die Rede ist, dass abgesandte Signale von einem Empfänger erfasst werden, dass dies aber nicht zu bedeuten hat, dass stets nur ein einzelner Empfänger angesprochen werden kann. Es kann vielmehr vorgesehen sein, dass ein Herzschlagsignal an mehrere Empfänger übertragen wird. Dies hat Vorteile, wenn etwa der Überwachungsempfänger auch ausfallgefährdet ist, weil dann eine Abschaltung bereits dann erfolgen kann, wenn einer der mehreren Empfänger keine Herzschlagsignale mehr empfängt; alternativ kann auch eine Abschaltung erst dann erfolgen, wenn keiner der adressierten Empfänger mehr Signale empfangen hat. Dies kann durch Kommunikation der mit dem Herzschlagsignal adressierten Empfänger untereinander festgestellt werden. Es könnten in Sonderfällen sogar Situationen eintreten, in denen eine Abschaltung dann erfolgt, wenn eine Mehrzahl oder einige Empfänger Signale nicht mehr empfangen können. Dies kann geschehen, selbst ob- wohl ein Signalempfang an vereinzelten der Adressaten noch darauf hindeutet, dass der Sender aktiv ist, wenn zu befürchten steht, dass das Ausbleiben des Signalempfangs an anderen, per se als aktiv bekannten Adressaten ein Indiz für ein partielles Netzversagen darstellt, also die Kommunikationswege zu dem noch aktiven, aber nicht mehr alle Soll-Adressaten erreichenden Sender als zu unzuverlässig eingestuft werden müssen.It should be noted that while it is largely in the present description of it is mentioned that sent signals are detected by a receiver, but that does not mean that always only a single receiver can be addressed. Rather, it can be provided that a heartbeat signal is transmitted to a plurality of recipients. This has advantages if, for example, the monitoring receiver is also at risk of failure, because then a disconnection can already take place when one of the several receivers no longer receives heartbeat signals; Alternatively, a shutdown can only take place when none of the addressed receiver has received more signals. This can be done by communicating the receiver addressed with the heartbeat signal be determined among themselves. In special cases, situations could occur in which a shutdown takes place when a plurality or some of the receivers can no longer receive signals. This can happen, even though a signal reception on a few of the addressees still indicates that the transmitter is active if it is to be feared that the absence of signal reception at other addressees known per se as being an indicator of a partial network failure Thus, the communication channels to the still active, but not all target addressee reaching stations must be classified as too unreliable.
Was die Einzelbedingungen angeht, die bei der Bestimmung ei- ner maximal zulässigen Herzschlagsignalverzögerung berücksichtigt werden, so ist deren Bestimmung einerseits möglich im Hinblick auf Messungen, die entweder aktuell oder langfristig vorgenommen wurden, beispielsweise bei Einkodierung von Herzschlagsignalabsendezeit und genauer Bestimmung der Herz- schlagempfangssignalzeit der netzwerkbedingten Verzögerung; alternativ und/oder zusätzlich können auch statistische Daten, wie sie aus „historischen" Beobachtungen über einen längeren Zeitraum erwartet werden, herangezogen werden. So ist es etwa zu erwarten, dass bei einem firmeninternen Netzwerk während der Kernarbeitszeiten höhere Belastungen im Netzwerk auftreten als an Wochenenden und Feiertagen. Hier kann unter Rückgriff auf allgemeine Beobachtungen für die Kernzeiten die Auszeit verlängert werden, um Fehlabsehaltungen zu vermeiden. Es sei zugleich darauf hingewiesen, dass auch zur Bestimmung einer einzelnen verzögerungsrelevanten Zeit wie der Verzögerung über ein Übertragungsnetzwerk mehrere Einflussparameter erfassbar sind, etwa, beim vorgenannten Beispiel, neben dem Wochentag noch weitere Korrekturen, etwa wenn durch Fernwar- tungsarbeiten an einer Vielzahl von Rechnern besonders hohe Netzwerklasten zu erwarten sind. Das letztgenannte Beispiel wurde zugleich musterhaft für eine prognostizierte Einzelbe- dingung bzw. eine aus einer Einzelbedingung prognostizierte zusätzliche Verzögerung erwähnt.As regards the individual conditions which are taken into account in the determination of a maximum permissible heartbeat signal delay, their determination is possible on the one hand with regard to measurements which were either current or long-term, for example when encoding the heartbeat signal sending time and accurately determining the heartbeat receiving signal time network delay; Alternatively and / or additionally, statistical data, as expected from "historical" observations over a longer period of time, can also be used: For example, it is to be expected that a network within the corporate network will experience higher network loads than at weekends Here, recourse to general observations for the core times may extend the time-out in order to avoid misbehavings It should also be noted that several influencing parameters can also be detected to determine a single delay-relevant time such as the delay over a transmission network. in the above example, in addition to the Further corrections are made on weekday, for example, if remote network maintenance on a large number of computers is expected to result in particularly high network loads. The latter example was also mentioned by way of example for a predicted individual condition or an additional delay predicted from an individual condition.
Es sei gerade im Hinblick auf Multikomponentensysteme erwähnt, dass vorteilhaft eine wechselweise Überwachung statt- finden kann. Wenn die Vorteile der vorliegenden Erfindung dahingehend genützt werden sollen, Fehlabschaltungen mit größerer Sicherheit zu vermeiden, statt bei gleichbleibender Fehl- abschaltungswahrscheinlichkeit die tolerierten Auszeiten zu verkürzen, kann besonders bevorzugt abgewartet werden, ob ei- ne überwachte Komponente, deren Herzschlagsignal an einem ersten Überwachungsempfänger nicht erfasst wurde, zumindest an einen zweiten noch Signale abgesetzt hat. In einem solchen Fall kann ein Herunterfahren gegebenenfalls unterbunden oder ein Anfahren eines Reservesystems beendet oder unterbrochen werden. Die Fehlfunktion kann einsichtigerweise dann angenommen werden, wenn innerhalb der vorgegebenen Zeit und/oder auch später noch ein Empfang eines Herzschlagsignals völlig ausbleibt; aber auch dann, wenn Herzschlagsignale noch empfangen werden, kann eine Fehlfunktion angenommen werden, so- fern auf Grund des Signalempfangs angenommen wird, dass zugesicherte oder benötigte Serviceeigenschaften nicht mehr einzuhalten sind. Wenn ein Rechner etwa im zeitkritischen Daten- Streaming-Modus wie für Sendeanwendungen von Audio- und/oder Videodaten eingesetzt wird und, aus welchen Gründen auch im- mer, Verzögerungen auftreten, die zu einer außernormmäßigen Datenübertragung bzw. -aussendung führen, kann es erforderlich sein, entweder Reserverechner zuzuschalten, um eine Lastverteilung zu erreichen und/oder eine normgemäße Übertragung der auszusendenden Daten herbeizuführen. Es ist demgemäß möglich, in solchen Anwendungen eine Obergrenze auf die maximale Auszeit zu legen im Hinblick auf zugesicherte oder benö- tigte Serviceeigenschaften, obgleich dies nicht zwingend erforderlich sein muss, und, sofern keine echtzeitkritischen bzw. quasi echtzeitkritischen Anwendungen laufen, können kritische Verzögerungen auch ausschließlich im Hinblick auf statistische Auswertungen und Ausfallwahrscheinlichkeiten erfol- gen.It should be mentioned, especially with regard to multicomponent systems, that advantageous alternation monitoring can take place. If the advantages of the present invention are to be used to avoid false shutdowns with greater certainty, instead of shortening the tolerated time-outs with the same probability of fault elimination, it is particularly preferable to wait and see whether a monitored component whose heartbeat signal is not present at a first monitoring receiver was detected, at least to a second still signals has settled. In such a case, a shutdown may be prevented or a startup of a backup system terminated or interrupted. The malfunction can be reasonably assumed if within the given time and / or even later a receipt of a heartbeat signal completely fails; but even if heartbeat signals are still received, a malfunction can be assumed if, on the basis of the signal reception, it is assumed that assured or required service properties can no longer be met. For example, when a computer is used in the time-critical data streaming mode as for transmitting audio and / or video data and, for whatever reason, there are delays that result in out-of-order data transmission, it may become necessary be to either switch reserve calculator to one To achieve load distribution and / or bring about a standard transmission of the data to be transmitted. It is accordingly possible in such applications to place an upper limit on the maximum time-out with regard to assured or required service characteristics, although this need not necessarily be necessary, and, if no real-time critical or virtually real-time critical applications run, critical delays may also occur exclusively with regard to statistical evaluations and default probabilities.
Es ist möglich und bevorzugt, dass die Einzelbedingungen, die bei der Fehlfunktionsdetektion ausgewertet werden, zumindest eine Bedingung umfassen aus der Gruppe Sendergesamtlast, Sen- derteilkomponentenlast, insbesondere CPU-Ausnutzung einer oder mehrerer Prozessoreinheiten in einem Sender, CPU-Taktung, sofern diese variabel ist, Speichernutzung und Nutzung des Auslagerungs- (Swap) -Speichers, CPU-Nutzung durch bestimmte Prozesse, Nutzung des File-Systems bzw. Aktivität des File-Systems, das heißt der Festplattenkomponenten, Netzwerkaktivität, Scheduling-Latenzzeit, Scheduling-Latenz-Statis- tiken des überwachten Rechners und/oder anderer überwachter Rechner mit vergleichbaren oder ähnlichen Aufgaben bzw. eines, des oder der überwachenden Rechner, Zustand ausgewählter Kernel-Aktivitäten, Länge der Netzwerk-Warteschlange, Herz- schlagsignalverlustdetektion bei unterscheidbaren Herzschlagsignalen, nicht-konsekutiv folgend empfangene, konsekutiv abgesetzte Signalkennungen, Eingangspufferstatus am Empfänger, aktuelle Signalwegauslastung, Signalwegauslastungs- verhalten, Empfängerlast, Empfängerteilkomponentenlast . Es sei darauf hingewiesen, dass, wo in der vorstehenden Aufstellung explizit Bezug genommen wurde auf Lastzustände eines Senders gleichermaßen auch Lastzustände eines Empfängers auswertbar sind, sofern sich nicht durch geeignete Priorisierung oder andere Maßnahmen dadurch bedingte Herzschlagsignalemp- fangsauswerteverzögerungen vermeiden lassen.It is possible and preferred that the individual conditions that are evaluated during the malfunction detection comprise at least one group of total transmitter load, transmitter component load, in particular CPU utilization of one or more processor units in a transmitter, CPU clocking, if this is variable , Memory usage and use of swap memory, CPU usage by certain processes, use of the file system or activity of the file system, ie the hard disk components, network activity, scheduling latency, scheduling latency statistics tiques of the monitored computer and / or other monitored computer with comparable or similar tasks or one, the or the monitoring computer, state of selected kernel activities, length of the network queue, Heartbeat loss detection for distinguishable heartbeat signals, non-consecutively received, consecutively separated signal identifiers, A Receive buffer status at the receiver, current signal path utilization, signal path utilization behavior, receiver load, receiver subcomponent load. It should be noted that, where in the above list was explicitly referred to load conditions of Transmitter equally load states of a receiver can be evaluated, unless it can be avoided by suitable prioritization or other measures thereby conditioned heartbeat signal retrieval evaluation delays.
Die Erfassung von Ξinzelbedingungen kann entweder durch Definition zulässiger Werte und/oder im Ansprechen auf gemessene Einzelbedingungen erfolgen. Die bestimmende Definition eines Soll-Wertes kann sich beispielsweise aus der Notwendigkeit ergeben, bestimmte Serviceeigenschaften sicher einzuhalten. Eine messende bzw. bestimmende Ermittlung tatsächlich gegebener Bedingungen kann etwa bei einer Systeminbetriebnahme komplexerer Systeme zunächst erfolgen und/oder im Laufe der Zeit angepasst werden.The detection of individual conditions can be done either by defining allowable values and / or in response to measured individual conditions. The determining definition of a desired value may, for example, result from the need to comply with certain service characteristics. A measuring or determining determination of actually given conditions can first take place, for example, during system commissioning of more complex systems and / or be adapted over time.
Besonders bevorzugt ist es, wenn eine tolerierbare Signalverzögerung immer wieder verändert und insbesondere an sich ändernde Einzelbedingungen angepasst und adaptiert wird. So kann auf ein allmähliches Wachsen einer Netzwerklast reagiert werden, auf temporär schwankende Belastungen von Sender und/oder Empfänger, auf durch erhöhte Temperaturen im Sommer schwankende und damit gefährlichere Betriebstemperaturen für Komponenten in nicht klimatisierten Umgebungen usw.It is particularly preferred if a tolerable signal delay is changed over and over again and adapted and adapted in particular to changing individual conditions. In this way, it is possible to react to a gradual increase in network load, to temporarily fluctuating loads from the transmitter and / or receiver, to fluctuating and thus more dangerous operating temperatures for components in non-air-conditioned environments due to increased temperatures in the summer.
Die einzelnen, Einzelbedingungen zugeordneten tolerierbaren Signalverzögerungen können auf unterschiedliche Weise verknüpft werden, um eine GesamtsignalVerzögerung im Ansprechen auf die und unter Berücksichtigung der Einzelbedingungen herzuleiten. So ist es möglich, zu jeder Einzelbedingung eine Maximalzeit zu bestimmen, die noch toleriert wird, bevor von einem Versagen auszugehen ist. Eine solche Maximalzeitverknüpfung wurde oben beispielhaft diskutiert. Alternativ und/oder zusätzlich können aber auch lineare oder alineare Verknüpfungen vorgenommen werden, etwa dann, wenn auf Grund einer hohen Netzwerklast anzunehmen ist, dass eine überwachte Komponente, beispielsweise ein herzschlagsignalaussendender Rechner unmittelbar davor steht, eine besonders hohe Belastung zu erfahren. Wenn der überwachte Rechner zugleich anzeigt, dass er bereits hochbelastet ist, ergibt sich unmittelbar, dass eine einfache Addition der zulässigen Maximal- Verzögerungen nicht ausreicht, da die aus der Netzwerklast prognostizierte Zusatzbelastung des Senderechners einen Anstieg auch der dortigen SignalVerzögerungen durch den Be- triebssystemscheduler des Senderechners erwarten lässt. Ein besonders bevorzugtes System wird unter Analyse derartiger wechselseitiger Abhängigkeiten eine zulässige Maximalzeit festlegen.The individual tolerable signal delays associated with individual conditions may be linked in different ways to derive a total signal delay in response to and taking into account the individual conditions. It is thus possible to determine a maximum time for each individual condition which is still tolerated before a failure can be assumed. Such a maximum time linkage has been discussed above by way of example. alternative and / or in addition, however, linear or alinear connections can also be made, for example if it is to be assumed on the basis of a high network load that a monitored component, for example a heartbeat signal emitting computer, is about to experience a particularly high load. If the monitored computer at the same time indicates that it is already heavily loaded, it immediately results that a simple addition of the permissible maximum delays is not sufficient, since the additional load of the transmitting computer predicted from the network load increases the signal delays there caused by the operating system scheduler of the transmitter Send computer expected. A particularly preferred system will determine an allowable maximum time by analyzing such interdependencies.
Auf das Erkennen einer Fehlfunktion hin können unterschiedliche Reaktionen ausgelöst werden. Eine erste Reaktion wäre eine Warnsignalausgäbe, mit der ein Administrator oder ein War- tungsservice auf eine Fehlfunktion hingewiesen wird. Es kann auch der überwachte Rechner aufgefordert werden, eine Status- ausgäbe zu erzeugen, sofern dies noch möglich ist. Weiter kann zusätzlich und/oder alternativ auf ein Reservesystem umgeschaltet werden und/oder es können, sollte ein solches nicht zur Verfügung stehen, die dem als womöglich fehlfunktionierend erkannten System zugeordneten Aufgaben umverteilt werden. Zugleich wird, wenn möglich, bevorzugt eine Datensicherung und ein Herunterfahren eines als womöglich fehlerhaft erkannten Rechners ausgelöst .Upon detection of a malfunction, different responses can be triggered. A first reaction would be a warning signal that alerts an administrator or a maintenance service to a malfunction. The supervised computer can also be requested to generate a status report, if this is still possible. Furthermore, it is additionally and / or alternatively possible to switch over to a reserve system and / or to be able to redistribute it to a task assigned to the system identified as possibly malfunctioning should it not be available. At the same time, if possible, it is preferable to trigger a data backup and a shutdown of a computer that is recognized as being possibly defective.
Wenn es darauf ankommt, besonders schnell auf nicht normgemäßes Verhalten reagieren zu können, braucht in einer besonders bevorzugten Variante der Erfindung der überwachte Rechner nicht ferngesteuert abgeschaltet zu werden. Vielmehr wäre es möglich, dann, wenn der zu überwachende Rechner erkennt, dass vorgegebene Spezifikationen nicht mehr eingehalten werden, etwa weil die Differenz zwischen Herzschlagsignalerzeugungs- Soll-Zeit und Herzschlagsignalerzeugungs-Ist-Zeit oder möglicher Herzschlagsignalerzeugungs-Ist-Zeit zu groß wird, von dem zu überwachenden Rechner selbst ein Umschalten auf ein Reservesystem, ein Auslagern von zugewiesenen Aktivitäten oder dergleichen zu veranlassen. Es sei darauf hingewiesen, dass ein solches Vorgehen übrigens nicht beschränkt ist auf missionskritische Komponenten, sondern dass dies in jedem Fall realisierbar ist. Die Selbstabschaltung oder Selbstentlastung braucht dabei nicht unbedingt erst dann einzutreten, wenn der zu überwachende Rechner eine Differenz zwischenWhen it comes to being able to react very quickly to non-standard behavior, one needs in one particular preferred variant of the invention, the monitored computer is not remotely switched off. Rather, it would be possible, if the computer to be monitored recognizes that predetermined specifications are no longer complied with, for example because the difference between heartbeat signal generation target time and heartbeat signal generation actual time or possible heartbeat signal generation actual time is too large, from the computer to be monitored itself a switch to a backup system, outsource assigned activities or the like to arrange. It should be noted that such an approach is not limited to mission-critical components, but that this is in any case feasible. The self-shutdown or self-relieving need not necessarily occur only when the computer to be monitored a difference between
Herzschlagsignalerzeugungs-Soll- und -Ist-Zeit erfasst, die größer ist als die Gesamtdauer, die für die Herzschlagsignal- Wiederholung zur Verfügung steht, sondern es können auch mittlere beobachtete Netzwerklasten und dergleichen mitbe- rücksichtigt werden, um eine Selbstabschaltung bereits dann vornehmen zu können, wenn ein nicht mehr rechtzeitig eingehender Empfang der stark verzögert abgesetzten Herzschlagsignale auf Grund einer zu hohen Netzwerklast oder dergleichen hochwahrscheinlich ist .Heartbeat signal generation target and Ist time is greater than the total duration, which is available for the heartbeat signal repetition, but also medium observed network loads and the like can be taken into account, in order to then make a self-shutdown can if an in-depth incoming reception of the strongly delayed heartbeat signals due to excessive network load or the like is highly probable.
Die Erfindung wird im folgenden nur beispielsweise anhand der Zeichnung beschrieben. In dieser ist gezeigt durch:The invention will now be described by way of example only with reference to the drawings. In this is shown by:
Fig. 1 eine Anordnung, mit der das Fehlfunktionsde- tektionsverfahren der vorliegenden Erfindung ausgeführt werden kann; Fig. Ia, b, c Detaildarstellungen zu Fig. 1; Fig. 2 ein Detail eines Netzwerkes, das in Fig. 1 beispielhaft zur Übertragung von Herzschlagsignalen verwendet wird;1 shows an arrangement with which the malfunction detection method of the present invention can be carried out; Fig. Ia, b, c detailed views to Fig. 1; Fig. 2 is a detail of a network used in Fig. 1 by way of example for the transmission of heartbeat signals;
Fig. 3a Wahrscheinlichkeitsdichten für die Ankunft von Herzschlagsignalen nach einer Übertragungszeit t für einen gering belasteten Netzwerkzustand;FIG. 3a shows probability densities for the arrival of heartbeat signals after a transmission time t for a lightly loaded network state; FIG.
Fig. 3b Wahrscheinlichkeitsdichten für unterschiedliche Lastzustände des in Fig. 2 gezeigten Netzwerkes;FIG. 3b shows probability densities for different load states of the network shown in FIG. 2; FIG.
Fig. 4a, b die Herleitung einer Netzlast-Verzögerungs- zeitkurve aus den Verteilungen von Fig. 3b;FIGS. 4a, b show the derivation of a network load delay time curve from the distributions of FIG. 3b;
Fig. 4c eine beispielhafte CPU-Last-Verzögerungszeitkurve ; Fig. 4c' eine Auslagerungsdatei-Verzögerungszeitkurve .Fig. 4c shows an exemplary CPU load delay time curve; Fig. 4c 'a swap file delay time curve.
Nach Fig. 1 ist zur Ausführung eines Fehlfunktionsdetektions- verfahrens eine allgemein mit 1 bezeichnete Anordnung 1 kommunizierender Komponenten 2, 3, worin wiederholt Signale von der ersten Komponente 2 zum Empfang durch wenigstens eine weitere Komponente 3 über eine Verbindung 4 abgesandt werden, ein Anordnungszustand bestimmt wird und Fehlfunktionen im Hinblick auf diesen zumindest übermäßig verzögertem Empfang angenommen werden, so ausgestaltet, dass den Anordnungszu- stand bestimmende Einzelbedingungen 5a, 5b, 5c bestimmt, ein- zelbedingungsabhängig tolerierbare Signalverzögerungen durch geeignete Mittel 3a, 3b, 3c, 3d festgelegt und eine Fehlfunktion auch im Ansprechen auf einen bezüglich der einzelbedin- gungsabhängig tolerierbaren SignalVerzögerung zumindest über- mäßig verzögerten Empfang angenommen wird. Bei der ersten Komponente 2, die wiederholt Signale zum Empfang durch wenigstens eine weitere absendet, handelt es sich im vorliegenden Fall um einen missionskritischen Rechner, der sukzessive unterschiedliche Aufgaben abzuarbeiten hat, wie durch die verschiedenen Aufgaben Job 1, Heartbeat, Job 3, Job 4, die in einem Scheduler 6 eingetragen sind, angedeutet ist. Mit missionskritisch ist hierbei gemeint, dass ein Ausfall des Systems derart negative Folgen für eine Anwendung und/oder einen Anwender haben kann, dass Maßnahmen sinnvoll erscheinen, um bei Ausfall der Komponente rechtzeitig für einen Ersatz zu sorgen. Dies geschieht durch die besondere Ausgestaltung des Senders, bei dem es sich ansonsten um einen weitgehend oder vollständig herkömmlichen Rechner, Server, PC oder eine andere, mit Fremdkomponenten kommunizierende Kompo- nente handeln kann. Im dargestellten Ausführungsbeispiel urn- fasst die Komponente 2 neben dem Scheduler 6 eine CPU 7, einen Plattenspeicher 8, einen Zeitgeber 9, eine Netzwerkeingabe-/-ausgabeschnittstelle 10 sowie eine Monitor- und Überwachungseinheit 11 zur Selbstüberwachung der Komponente. Weiter ist ein Speicher 12 vorgesehen, der in der Figur mit RAM bezeichnet ist und zur temporären Speicherung von Daten und/ oder Programmteilen und/oder zur Auslagerung derzeit nicht benötigter und/oder ausgeführter Programmteile und/oder Daten zumindest partiell verwendbar ist. Es sei darauf hingewiesen, dass die einzelnen Komponenten durch dedizierte Softwareprogrammteile, die regelmäßig oder ständig abgearbeitet werden, realisierbar sind, dass aber dessen ungeachtet gleichwohl auch dedizierte Hardware vorliegen kann.Referring to Fig. 1, for performing a malfunction detection method, an arrangement 1 of communicating components 2, 3 generally designated 1, in which signals are repetitively sent from the first component 2 for reception by at least one further component 3 via a connection 4, determines an arrangement condition and malfunctions are assumed with regard to this at least excessively delayed reception, such that individual conditions 5a, 5b, 5c determining the arrangement state determine signal delays which can be tolerated as a function of the condition by suitable means 3a, 3b, 3c, 3d and a malfunction is also assumed to be at least excessively delayed in response to a signal delay which is tolerable with regard to the individual conditions. In the case of the first component 2, which repeatedly sends signals for receipt by at least one other, in the present case it is a mission-critical computer which has successively to process different tasks, such as the various tasks Job 1, Heartbeat, Job 3, Job 4 , which are registered in a scheduler 6, is indicated. Mission-critical here means that a failure of the system can have such negative consequences for an application and / or a user that measures appear reasonable to ensure timely replacement in case of failure of the component. This is done by the special design of the transmitter, which may otherwise be a largely or completely conventional computer, server, PC or another component communicating with external components. In the illustrated embodiment, the component 2 comprises, in addition to the scheduler 6, a CPU 7, a disk memory 8, a timer 9, a network input / output interface 10 and a monitor and monitoring unit 11 for self-monitoring of the component. Further, a memory 12 is provided which is designated in the figure with RAM and for the temporary storage of data and / or program parts and / or for the removal of currently unneeded and / or executed program parts and / or data is at least partially usable. It should be noted that the individual components can be implemented by dedicated software program parts that are executed regularly or constantly, but that nonetheless dedicated hardware can nevertheless be present.
Der Scheduler 6 kann in herkömmlicher Weise als Teil eines Betriebssystems realisiert sein und gibt somit vor, wann die CPU 7 welche Aufgabe abzuarbeiten hat, und zwar im Ansprechen auf Signale vom Zeitgeber 9.The scheduler 6 can be implemented in a conventional manner as part of an operating system and thus specifies when the CPU 7 which task has to work, in response to signals from the timer. 9
Bei der zentralen Recheneinheit CPU 7 braucht es sich nicht um einen einzelnen Prozessor zu handeln, sondern es ist einsichtig, dass die vorliegende Erfindung auch in Mehrprozessorsystemen und dergleichen anwendbar ist .The central processing unit CPU 7 does not need to be a single processor, but it will be understood that the present invention is also applicable to multiprocessor systems and the like.
Der Datenspeicher 8 kann im vorliegenden Fall als Platten- Speicher wie als Raid-Feld oder dergleichen realisiert sein.The data memory 8 can be realized in the present case as a disk storage such as Raid field or the like.
Der Zeitgeber 9 ist dazu ausgebildet, innerhalb der Komponente 2 dafür zu sorgen, dass bestimmte abzuarbeitende Programmteile im Scheduler 6 nicht übermäßig lange Zeiten in der CPU in Anspruch nehmen, Zugriffe nicht übermäßig lange dauern usw. Im dargestellten Ausführungsbeispiel ist er, wie seine Darstellung als Uhr zeigt, auf eine globale Zeit synchronisiert, wozu ein Funksignalempfänger für Zentralzeitdaten in der Komponente 2 vorgesehen sein kann und/oder regelmäßig ei- ne Synchronisation mit einer an ein Netzwerk angeschlossenen Uhr erfolgt; dass eine GlobalSynchronisation nicht zwingend erforderlich ist, sondern z. B. auch eine lokale Synchronisation nur jener Uhren, die bei Sendern und/oder Empfängern vorgesehen sind, gleichfalls ausreicht, sei erwähnt. Auch ist eine Synchronisation nicht für alle Optimierungsschritte erforderlich, wie ersichtlich sein wird.The timer 9 is designed to ensure within the component 2 that certain program parts to be processed in the scheduler 6 do not take excessively long times in the CPU, accesses do not take excessively long etc. In the exemplary embodiment shown, it is like its representation Clock shows synchronized to a global time, for which purpose a radio signal receiver for central time data in the component 2 can be provided and / or regular synchronization takes place with a clock connected to a network; that a global synchronization is not mandatory, but z. As well as a local synchronization of those watches that are provided at transmitters and / or receivers, also sufficient, it should be mentioned. Also, synchronization is not required for all optimization steps, as will be apparent.
Der Netzanschluss-Eingangs-Ausgangsanschluss 10 ist dazu ausgebildet, über gebräuchliche Protokolle mit einem Netzwerk zu kommunizieren. Es kann sich um einen LAN-Anschluss, Interne- tanschluss, W-LAN-Anschluss oder dergleichen handeln. Die Verwendbarkeit für kommende oder nicht erwähnte Protokolle ist antizipiert. Im vorliegenden Fall relevant ist insbesondere die Verwendbarkeit des Netzanschluss-Eingangs-Ausgangs- anschlusses 10 zur Versendung von Herzschlagsignalen aus einer Herzschlaggeneriereinheit 13, bei der es sich insbesonde- re entweder um die CPU selbst und/oder um eine der verschiedenen Schichten eines typischen LAN-Anschlusses handeln kann, sowie zum Empfang von die Last eines Netzwerkes 4, an welches die Komponente 2 angeschlossen ist, anzeigenden Signales beziehungsweise zum, Empfang einer von der überwachenden Kompo- nente 3 zugelassenen maximalen Zeit tmax. Der Monitor 11 innerhalb der Komponente 2 empfängt einerseits Signale vom Zeitgeber 9, andererseits die maximal zulässige Zeit zwischen zwei Herzschlagsignalen, die über den Netzanschluss 10 von der Komponente 3 empfangen wurde und im Übrigen lastindikati- ve Signale über die Leitungen 5a, 5b, 5c, die etwa die prozentuale Auslastung der CPU, die prozentuale Füllung des Auslagerungsspeichers, die prozentuale Auslastung des Festplattencaches usw. andeuten. Der Monitor 11 empfängt weiter Signale, insbesondere von der CPU und/oder dem Netzanschluss 10, die angeben, wann ein Herzschlagsignal gesendet wird, und vergleicht diese Sendezeit mit der zuvor empfangenen, als maximal zulässig kommunizierten Zeit tmax/ um ein Selbstherun- terfahren der Komponente 2 zu bewirken, sofern die Ist-Zeit der Herzschlagsignalabsendung tl3t größer ist als die Maximal - zeit, die von der überwachenden Komponente zugelassen wurde. In einem solchen Fall wird veranlasst, dass ein Zweitsystem hochgefahren wird und/oder aktiv geschaltet.The power input input-output terminal 10 is configured to communicate with a network via common protocols. It can be a LAN connection, Internet connection, W-LAN connection or the like. The usability for upcoming or not mentioned protocols is anticipated. Particularly relevant in the present case is the usability of the mains connection input-output connection 10 for sending heartbeat signals from a heartbeat generation unit 13, which in particular is either the CPU itself and / or one of the different layers of a typical LAN. Terminal can act, as well as for receiving the load of a network 4, to which the component 2 is connected, indicating signal or for receiving a permitted by the monitoring component 3 maximum time t max . The monitor 11 within the component 2 receives on the one hand signals from the timer 9, on the other hand the maximum permissible time between two heartbeat signals, which was received via the network connection 10 from the component 3 and incidentally load-indicative signals via the lines 5a, 5b, 5c, which indicate, for example, the percentage utilization of the CPU, the percentage filling of the swap space, the percentage utilization of the hard disk cache, and so on. The monitor 11 further receives signals, in particular from the CPU and / or the network connection 10, which indicate when a heartbeat signal is transmitted, and compares this transmission time with the previously received, as maximum permitted time t max / to self-descend the Component 2, provided that the actual time of the heartbeat signal transmission t l3t is greater than the maximum time that has been approved by the monitoring component. In such a case, a secondary system is caused to start up and / or to be active.
Die Herzschlagsignalgenerierungseinheit 13 ist dazu ausgebil- det, Herzschlagsignaldatenpakete zusammenzustellen und an die Netzanschlusseinheit 10 zur Versendung über das Netz abzusenden. Die Herzschlagdatenpakete umfassen dabei die Adresse des angesprochenen Empfängers, ADR, eine fortlaufend zyklisch vergebene Nummer seq#, die aktuelle Zeit, zu der die Erzeugung des Herzschlagsignals im Scheduler vorgesehen war, tSChe/ die aktuelle Auslastung der CPU, CPU%, den Füllgrad des Spei- chers für wahlweisen Zugriff, RAM%, die Auslastung des Plattenspeichers File%, sowie die Netzauslastung Net%. Die so zusammengestellten Datenpakete sind in einen Sende-Speicher des Netzanschlusses 10 einschreibbar, wo sie schnellstmöglich und/oder der Reihe nach mit anderen, bereits vorliegenden Da- ten abgesendet werden.The heartbeat signal generation unit 13 is designed to compile heartbeat signal data packets and send them to the network connection unit 10 for transmission via the network. The heartbeat data packets include the address of the addressed receiver, ADR, a sequentially cyclically assigned number seq #, the current time at which the generation of the heartbeat signal was provided in the scheduler, t SC he / the current load of the CPU, CPU%, the degree of filling of the memory for random access , RAM%, Disk% Disk Usage, Net% Net Usage. The data packets compiled in this way can be written into a transmission memory of the network connection 10, where they are transmitted as quickly as possible and / or in sequence with other, already existing data.
Das in Fig. 1 schematisch dargestellte Netzwerk 4 kann ein ausgedehntes Netzwerk sein, in dem eine Vielzahl von Computern dargestellt über runde Kreise, über Knotenpunkte, darge- stellt als viereckige Kästchen verbunden sind. Im nur beispielhaft zur Erläuterung dargestellten Netz sind dabei einerseits zwei miteinander kommunizierende und sehr große Datenmengen austauschende Komponenten II vorgesehen, die über einen in der kürzestmöglichen Verbindung zwischen Herz- schlagsignalsender und Herzschlagsignalempfänger liegenden Verbindung angeordneten Knoten kommunizieren und, wie durch die sehr dicken Verbindungsleitungen 4a, 4b zu diesem Knoten 4c angedeutet, extrem große Datenmengen austauschen, was im zur Erläuterung gewählten Beispielfall den Knoten an die Grenzen seiner Leistungsfähigkeit bringen soll, so dass der direkte Verbindungsweg zwischen Herzschlagsignalsender 2 und Herzschlagempfänger 3 dann nicht mehr zur Verfügung steht, wenn die Komponenten II miteinander kommunizieren. In diesem Fall ist zur Verbindung der Komponenten 2 und 3 nicht mehr der strichpunktiert eingezeichnete Weg verfügbar, der den Netzzustand I kennzeichnet, sondern nur noch der punktierte Weg über den Knoten 4c umgehende Verbindungen. Dieser ist si- gnifikant länger und es sei darauf hingewiesen, dass über diesen strichpunktiert gezeichneten Verbindungsweg laufende Pakete größere Laufzeiten vom Herzschlagsignalsender zum Herzschlagsignalempfänger haben. Weiter eingezeichnet sind eine Vielzahl von einzelnen Rechnern III, die unter bestimmten Bedingungen gleichfalls die Verbindungsleitungen und Knoten insbesondere des punktiert gezeichneten Umgehungsweges belasten können. Zum Zwecke der nachfolgenden Erläuterungen wird dabei angenommen, dass die Knoten im strichpunktierten Weg und die mit III gekennzeichneten Rechner Teil eines nur an Werktagen benutzten Rechnernetzwerkes sind, so dass an solchen Werktagen eine signifikant höhere Netzlast auf den entsprechenden Knoten des strichpunktierten Weges liegt, ohne dass diese als per se überlastet angenommen werden.The network 4 shown diagrammatically in FIG. 1 can be an extensive network in which a plurality of computers represented by round circles, via nodes, are represented as square boxes. In the network illustrated by way of example only, two components II communicating with each other and exchanging very large amounts of data are provided which communicate via a node located in the shortest possible connection between heartbeat signal transmitter and heartbeat signal receiver and, as through the very thick connection lines 4a, 4b to this node 4c indicated to exchange extremely large amounts of data, which should bring the node to its limits in the example chosen for explanation, so that the direct connection between the heartbeat signal transmitter 2 and heartbeat receiver 3 is then no longer available when the components II communicate with each other. In this case, it is no longer possible to connect the components 2 and 3 to the dash-dotted path which identifies the network state I, but only the dotted path via the node 4c to immediate connections. This one is Significantly longer and it should be noted that running on this dash-dotted connection path running packets have longer maturities from the heartbeat signal transmitter to the heartbeat signal receiver. Also shown are a plurality of individual computers III, which under certain conditions can also burden the connecting lines and nodes in particular of the dotted marked bypass path. For the purposes of the following explanations, it is assumed that the nodes in the dash-dotted path and the computer marked III are part of a computer network used only on weekdays, so that on such working days a significantly higher network load is on the corresponding nodes of the dash-dotted path without these are assumed to be overloaded per se.
Für Zwecke der nachfolgenden Erläuterungen können also drei Betriebszustände unterschieden werden, nämlich der Betriebs- zustand I, bei welchem lediglich Herzschlagsender und Herzschlagempfänger miteinander kommunizieren und ansonsten im Netzwerk keine weitere Kommunikation stattfindet, der Betriebszustand I+II, bei dem zusätzlich der direkte Verbindungsweg durch die sehr umfangreiche Kommunikation zwischen den Komponenten II blockiert wird und Alternativpfade in der strichpunktierten Form gefunden werden müssen, ohne dass ent- lang des punktierten Pfades eine besonders hohe Belastung des Netzwerkes gegeben wäre und der Betriebszustand I+II+III, in welchem durch die Kommunikation von Rechnern III untereinander zusätzliche Last auch auf den Knoten im punktierten Weg durch das Netzwerk liegen. Es versteht sich, dass die Verzö- gerungszeiten eines Herzschlagsignalpaketes über das Netz abhängig davon sind, welcher Betriebszustand vorliegt. Dies ist in Fig. 2 dargestellt. Die Verzögerung über das Netz Δtnet/ ist dabei für den Betriebszustand (I+II+III) signifikant größer als für jenen Betriebszustand, in dem nicht alle Rechner über das Netz korarau- nizieren, sondern nur einerseits der Herzschlagsignalsender und der Herzschlagsignalempfänger (I) und andererseits die die strichpunktiert gezeichnete Verbindung blockierenden Rechner II miteinander kommunizieren, das heißtFor the purposes of the following explanations, therefore, three operating states can be distinguished, namely the operating state I, in which only heartbeat transmitter and heartbeat receiver communicate with each other and otherwise no communication takes place in the network, the operating state I + II, in addition to the direct connection path through the very extensive communication between the components II is blocked and alternative paths must be found in the dot-dashed form, without the dotted path would be given a particularly high load of the network and the operating state I + II + III, in which by the communication of Computers III with each other additional load also on the node in the dotted path through the network. It is understood that the delay times of a heartbeat signal packet via the network are dependent on which operating state exists. This is shown in FIG. 2. The delay via the network Δt net / is significantly greater for the operating state (I + II + III) than for that operating state in which not all computers corrode via the network, but only on the one hand the heartbeat signal transmitter and the heartbeat signal receiver (I). and on the other hand communicate the dash-dotted line connection blocking computer II with each other, that is
Δtnet (I+II+III) > >Δtnet (I+Ii) .Δt ne t (I + II + III)>> Δt net (I + Ii).
Die Verzögerungszeit Δtnet(i+ii) des Betriebszustandes, in dem der direkte Verbindungsweg blockiert ist, ist wiederum signifikant größer als jene Zeit, zu der die direkte Verbindung nicht blockiert ist, das heißt für den Betriebszustand Δtnet(i)/ das heißt es gilt insgesamt die BeziehungThe delay time Δt ne t (i + ii) of the operating state in which the direct connection path is blocked is again significantly greater than the time when the direct connection is not blocked, that is to say for the operating state Δt n e t (i). / that means overall the relationship applies
Δtnet d+II) >>Δtnet (I) •Δtnet d + II) >> Δtnet (I) •
Es sei darauf hingewiesen, dass die Verzögerung, die über Netzwerke gesendete Signale, auch Herzschlagsignale, erlei- den, gerade bei ausgedehnten Netzwerken von einer Vielzahl von statistischen Prozessen, wie beispielsweise der Sende- und Empfangsaktivität zu einem gegebenen Zeitpunkt von längs des Weges Knoten mitbenutzenden Rechnern usw., abhängig ist. Es ist daher nicht sinnvoll, von einer festen Verzögerung zu reden, die ein bestimmtes Paket unter bestimmten Bedingungen erleidet, sondern es ist vielmehr sinnvoll, von der Wahrscheinlichkeit zu sprechen, dass ein bestimmtes Paket nach einer bestimmten Zeit tatsächlich eingelaufen ist. Dies ist in Fig. 2b dargestellt anhand der Wahrscheinlichkeitsdichte- Verteilung des Signalempfangs über der Verzögerungszeit nach Absenden. Unmittelbar nach dem Absenden ist die Wahrscheinlichkeit, dass das Paket bereits empfangen werden kann, iden- tisch gleich Null, da in jedem Fall das Paket eine endliche Zeit auch bei ungestörter Weiterleitung benötigen wird. Es wird dann eine Vielzahl von Paketen geben, die sehr schnell und ohne Verzögerung durch das Netzwerk 4 übertragen werden können, und es wird einige Pakete geben, die längere Zeit benötigen, etwa weil noch andere Pakete über die Knoten gesendet werden müssen und daher Herzschlagsignale, statistischen Bedingungen unterworfen, erst verzögert zum Empfänger gelangen. Ein sinnvolles Maß für die zu erwartende Verzögerungs- zeit ist daher die Zeit, die unter gegebenen Bedingungen, beispielsweise unter gegebener Netzlast, verstrichen ist, bis 99,9% aller Pakete beim Empfänger angelangt sind. Selbstverständlich könnte stattdessen auch eine Zeit gewählt werden, die einem beliebigen anderen Prozentsatz zugeordnet wird. In Fig. 2c ist dargestellt, wie Wahrscheinlichkeitsdichten des Paketempfangs für unterschiedliche Netzbedingungen aussehen. Die Kurven sind dabei so normiert, dass nach einer unendlich langen Zeit das Integral der Wahrscheinlichkeitsdichten über die Zeit 1 beträgt, das heißt es wird davon ausgegangen, dass kein Paket verlorengeht. Eingezeichnet in Fig. 2c ist auch die Zeit t99ι9. Diese Zeiten t99(9 sind für die unterschiedlichen Betriebszustände dargestellt.It should be noted that the delay that network-transmitted signals, including heartbeat signals, experience sharing, even with extended networks, of a variety of statistical processes, such as transmit and receive activity, at a given point in time along the way Computers, etc., is dependent. Therefore, it does not make sense to talk about a fixed delay that a particular package suffers under certain conditions, but it makes sense to talk about the likelihood that a given package will actually have arrived after a certain amount of time. This is illustrated in FIG. 2b on the basis of the probability density distribution of the signal reception over the delay time after transmission. Immediately after sending, the probability that the packet can already be received is identical. tisch equal to zero, because in any case, the package will require a finite time even with undisturbed forwarding. There will then be a variety of packets that can be transmitted very fast and without delay through the network 4, and there will be some packets that take a longer time, perhaps because other packets need to be sent over the nodes and therefore heartbeat signals, Subject to statistical conditions, only delayed to reach the recipient. A reasonable measure of the expected delay time is therefore the time that has elapsed under given conditions, for example under a given network load, until 99.9% of all packets have arrived at the receiver. Of course, a time could be chosen instead, which is assigned to any other percentage. FIG. 2c shows how probability densities of the packet reception look for different network conditions. The curves are normalized such that after an infinitely long time, the integral of the probability densities over time is 1, that is, it is assumed that no packet is lost. Shown in Fig. 2c is also the time t 99ι9 . These times t 99 (9 are shown for the different operating states.
Fig. 4a zeigt noch einmal die Kurve von Fig. 2c mit den ein- gezeichneten Zeiten, nachdem 99,9% aller Datenpakete eingelaufen sind, und zwar für. die verschiedenen Betriebszustände . In Fig. 4b sind diese 99,9 %-Zeiten aufgetragen gegen die mit den Betriebszuständen beobachtete Netzlast und die entsprechende Kurve, die sich ergibt, ist eingezeichnet. In Fig. 4c, 4d sind dann in analoger Weise die Verzögerungen eingezeichnet, die sich auf die Herzschlagsignale ergeben, wenn eine besonders hohe Last der zentralen Prozessoreinheit vorliegt und/oder eine besonders hohe Last in Speicher 12 RAM.FIG. 4a again shows the curve of FIG. 2c with the times recorded after 99.9% of all data packets have arrived, namely for. the different operating conditions. In Fig. 4b these 99.9% times are plotted against the network load observed with the operating conditions and the corresponding curve which results is drawn. In Fig. 4c, 4d are then drawn in an analogous manner, the delays that arise on the heartbeat signals, if a particularly high load of the central processing unit is present and / or a particularly high load in memory 12 RAM.
Die Komponente 3 ist ausgebildet zum Empfang der Herz- Schlagsignale über das Netzwerk 4, wobei die Netzanschlußschnittstelle zum Netzwerk 4 auch zum Empfang anderer Daten ausgebildet ist, wie bei 14 dargestellt, wobei diese Bezugszahl verwendet wird für den Eingangsspeicher der Netzanschlußschnittstelle, um zu zeigen, dass Daten dort eingehen können, ohne dass diese sofort im Rechner weiterverarbeitet werden müssen, etwa weil zunächst andere Aufgaben vom Sched- uler 15 der Komponente 3 abzuarbeiten sind. Auch die Komponente 3 umfasst wieder eine CPU 16, einen Zeitgeber 17 und, wie erforderlich, weitere Komponenten eines Standardrechner- Systems, ohne dass auf diese im Nachfolgenden einzeln eingegangen werden muss. Es sei im übrigen auch hier darauf hingewiesen, dass die einzelnen, noch zu beschreibenden und/oder bereits beschriebenen, in der Komponente 3 vorgesehenen Mittel und Signalverarbeitungsstufen wie üblich durch Hard- und/oder Softwaremittel realisierbar sind.The component 3 is adapted to receive the heartbeat signals over the network 4, the network interface to the network 4 being also adapted to receive other data as shown at 14, this reference numeral being used for the input memory of the network interface to show that data can be received there without them having to be further processed immediately in the computer, for example because other tasks are first to be processed by the scheduler 15 of the component 3. Component 3 again comprises a CPU 16, a timer 17 and, as required, further components of a standard computer system, without having to discuss these in detail below. Incidentally, it should also be pointed out here that the individual means and signal processing stages to be described and / or already described, provided in component 3, can be implemented as usual by hardware and / or software means.
Die Komponente 3 umfasst weiter eine Herzschlagsignalentpak- kungsstufe 18, in der das Herzschlagsignal, in welches die Sequenznummer Seq#, die in der Komponente 2 angesetzte Erzeu- gungszeit tsched/ die Erzeugskomponenten-CPU-Last , die Erzeugungskomponenten-Speicherausnutzung RAM%, die Erzeugungskomponenten-Dateiauslastung File%, sowie die Netzlast Net% des zur Übertragung verwendeten Netzwerkes 4 aus dem Herzschlagsignalpaket aufgetrennt werden. Der Herzschlagsignal - entpackungsstufe 18 ist einerseits für die entpackte Sequenznummer eine Sequenznummer-Auswertestufe 25 zugeordnet, in der die Sequenznummer eines eingegangenen Herzschlagsignalpaketes verglichen wird reit der Sequenznummer zuvor empfangener Herzschlagsignale, und es werden die lastindikativen Daten, vorliegend angedeutet als CPU%, RAM%, File% und Net% gespeist an die Eingänge der Nachschautabellen LUT 3a, 3b, 3c, 3d. Die angesetzte Zeit tSChed wird an eine Konsistenzprüfstufe 19 gespeist. Die Nachschautabellen 3a bis 3d sind dazu ausgebildet, im Ansprechen auf die am Eingang eingegebenen Lastbedingungen für CPU, RAM usw. zulässige Verzögerungen Δtcpu/ ΔtRAM, ΔtFiie/ oder ΔtNet auszugeben; dass andere Parameter und/oder nicht alle der genannten Parameter verwendbar seien, sei erwähnt. Die Nachschautabellen 3a bis 3d können Kurven wie die in Fig. 4b bis Fig. 4g gezeigten implementieren. Die Ausgänge der Nachschautabellen werden an eine Verzögerungszeitverknüp- fungsstufe 22 gespeist, die daraus eine zulässige maximale Verzögerungszeit bestimmt. Die maximale Verzögerungszeit tMaχ wird über eine geeignete Schnittstelle 23 der CPU derart zur Verfügung gestellt, dass die maximale zulässige Zeit bei Abarbeiten des Herzschlagsignal -Jobs im Scheduler 15 mit der Empfangs-Ist-Zeit verglichen werden kann, d. h. mit einer Zeit, die seit dem Empfang eines letzten gültigen Zeitwertes verstrichen ist. Die Komponente 3 weist weiter eine Alarmstufe 24 auf, die dazu ausgebildet ist, bei Ausbleiben oder nichtzulässiger Verzögerung eines Herzschlagsignals einen Alarm zu generieren und erforderlichenfalls Reserven für Kom- ponenten 2 zu aktivieren und, sollte dies gewünscht sein, Komponente 2 zu deaktivieren.The component 3 further comprises a heartbeat signal decoupling stage 18 in which the heartbeat signal into which the sequence number Seq #, the generation time t sche d / the component component CPU load set in the component 2, the generation component memory utilization RAM%, the generation component file load File%, as well as the network load Net% of the network 4 used for the transmission are separated from the heartbeat signal packet. The heartbeat signal - unpacking stage 18 is on the one hand for the unpacked sequence number associated with a sequence number evaluation stage 25, in which the sequence number of a received heartbeat signal packet the sequence number of previously received heartbeat signals is compared, and the load-indicative data, here indicated as CPU%, RAM%, File% and Net%, are fed to the inputs of the look-up tables LUT 3a, 3b, 3c, 3d. The scheduled time t SC hed is fed to a Konsistenzprüfstufe 19th The look-up tables 3a to 3d are adapted to output allowable delays Δt cpu / Δt RAM , Δt F ii e / or Δt Net in response to load conditions for the CPU, RAM, etc. entered at the input. that other parameters and / or not all of the mentioned parameters can be used should be mentioned. The look-up tables 3a to 3d may implement curves such as those shown in FIGS. 4b to 4g. The outputs of the lookup tables are fed to a delay time link 22, which determines therefrom a maximum allowable delay time. The maximum delay time t Ma χ is made available to the CPU via a suitable interface 23 such that the maximum permissible time when processing the heartbeat signal job in the scheduler 15 can be compared with the received actual time, ie with a time that has elapsed since receipt of a last valid time value. The component 3 further has an alarm stage 24, which is designed to generate an alarm in the absence or inadmissible delay of a heartbeat signal and, if necessary, to activate reserves for components 2 and, if so desired, to deactivate component 2.
Mit einer Anordnung wie der vorstehend beschriebenen kann ein Fehlfunktionsdetektionsverfahren ausgeübt werden wie folgt:With an arrangement like that described above, a malfunction detection method can be practiced as follows:
Es sei angenommen, dass bei Inbetriebnahme der Komponenten 2 und 3 das Netzwerk 4 sich zunächst im Zustand 1 befindet, al- so die beiden Komponenten 2 und 3 die einzigen sind, die über das Netzwerk komrr.unizieren. Weiter sei davon ausgegangen, dass, wie bevorzugt, die Zeitgeber 9 und 17 zunächst synchronisiert werden. Die Komponente 3 gibt dann eine maximale Zeit zwischen Herzschlagsignalen vor, die so gewählt ist, dass sie von der Komponente 2 ohne weiteres eingehalten werden kann, und kommuniziert diese über Netzwerk 4 an die Komponente 2. Die Komponente 2 erhält überdies Informationen über die aktuelle Netzwerklast.It is assumed that when commissioning the components 2 and 3, the network 4 is initially in state 1, al- so the two components 2 and 3 are the only ones communicating over the network. Further, assume that, as is preferred, timers 9 and 17 are first synchronized. The component 3 then specifies a maximum time between heartbeat signals that is chosen so that it can be complied with easily by the component 2, and communicates these via network 4 to the component 2. The component 2 also receives information about the current network load ,
In der Komponente 2 wird dann unter Berücksichtigung der Vorgabe von tmax zwischen zwei Herzschlagsignalen regelmässig die Erzeugung eines Herzschlagsignals angesetzt.In component 2, the generation of a heartbeat signal is then regularly scheduled taking into account the specification of t m ax between two heartbeat signals.
Wenn die im Scheduler 6 angesetzte Herzschlagsignalerzeugung abgearbeitet wird, wird die aktuelle Last der CPU, des Speichers RAM, der Festplatten und die über die Netzeingangs-/- ausgangsschnittstelle 10 erhaltene Netzlast zu einem Herzschlagsignal gepackt. Dieses wird an die Netzeingangs-/-aus- gangsschnittstelle 10 gespeist, und zwar zusammen mit einer fortlaufenden Sequenznummer und der Adresse des Empfangsrechners 3. In der Monitorstufe 11 wird zugleich überprüft, ob die Herzschlagsignalerzeugungs-Ist-Zeit tist kleiner als die zugelassene Zeit bis zur Erzeugung des nächsten Herzschlagsi- gnals ist. Ist dies der Fall, so muss nichts unternommen werden. Ist dies nicht der Fall, das heißt ist die Bedingung t ≤ tmax nicht erfüllt und liefert somit eine entsprechende Abfrage einen logischen Wert „0", so wird sich das System 2 selbst herunterfahren, nachdem dies der überwachenden Kompo- nente 3 noch über das Netzwerk mitgeteilt wurde. Im vorliegenden Fall wird nachfolgend davon ausgegangen, dass die Soll-Sendezeiten stets eingehalten werden können. Das Daten- paket wird dann über das Netzwerk 4 übertragen und gelangt in den Zwischenspeicher 14 der Netzeingangsschnittstelle der Komponente 3, die die Herzschlagsignalaussendung überwacht. Dort wird das Herzschlagsignal bei Abarbeitung der entspre- chenden Anweisungen im Scheduler 15 gelesen, entpackt und die entpackten Werte wie erforderlich an die Nachschautabellen, die Konsistenzprüfungsstufe 19 oder die Sequenznummerauswer- testufe 25 gespeist. Die Nachschautabellen 3a bis 3d stellen dann im Ansprechen auf die erhaltenen Lastwerte für CPU, RAM, Festplattenspeicher der Komponente 2 sowie der Netzwerklast entsprechende zulässige Verzögerungen 3 fest . Diese werden in der Verzögerungszeitverknüpfungsstufe 22 miteinander verknüpft, wobei für Zwecke der vorliegenden Offenbarung angenommen werden kann, dass diese Verknüpfung durch Addition er- folgt; einleuchtenderweise sind andere Funktionen realisierbar, etwa dann, wenn alle Komponenten an ihrer Lastgrenze von 100% liegen, um dann zu vermeiden, dass die maximal zulässige Verzögerungszeit größer wird als jene, die noch unter allgemeinen Sicherheitsaspekten lastunabhängig tolerierbar ist .When the heartbeat signal generation scheduled in the scheduler 6 is executed, the current load of the CPU, the memory RAM, the hard disks and the network load received via the network input / output interface 10 are packed into a heartbeat signal. This is fed to the network input / output interface 10, together with a sequential sequence number and the address of the receiving computer 3. In the monitor stage 11 is also checked whether the heartbeat signal generation time ti st is smaller than the legal time until the next heartbeat signal is generated. If this is the case, nothing needs to be done. If this is not the case, that is, the condition t ≤ t max is not met and thus provides a corresponding query a logical value "0", the system 2 itself will shut down after this the monitoring component 3 still on the In this case, it is assumed below that the target transmission times can always be maintained. packet is then transmitted over the network 4 and enters the latches 14 of the network input interface of component 3, which monitors the heartbeat signal transmission. There, the heartbeat signal is read in the scheduler 15 when the corresponding instructions are processed, unpacked and the unpacked values are fed to the look-up tables, the consistency check stage 19 or the sequence number evaluation stage 25 as required. The lookup tables 3a to 3d then determine corresponding allowable delays 3 in response to the obtained load values for CPU, RAM, component 2 disk space, and the network load. These are linked together in the delay time linking stage 22, and for purposes of the present disclosure, it can be assumed that this linking occurs by addition; Significantly, other functions can be implemented, for example, when all components are at their load limit of 100%, in order then to avoid that the maximum permissible delay time is greater than that which is tolerable regardless of load under general safety aspects.
Die von den Nachschautabellen 3a bis 3d ausgegebenen Zeiten werden zugleich an die Konsistenzprüfungsstufe 19 ausgegeben, die überprüft, ob die Zeit, zu der die Erzeugung des Herzschlagsignals in der Komponente 2 vom Scheduler angesetzt war, mit den Verzögerungszeiten, die lastabhängig zulässig sind, unter Berücksichtigung des Empfangs des vorhergehenden Herzschlagsignals zulässig ist oder ob hier möglicherweise eine Korrektur der Nachschautabellen vorgenommen werden muss, weil etwa die Nachschautabellen kurze Zeiten vorsehen, die schon bei der Erzeugung des Herzschlagsignals nicht eingehalten werden können. Die von der Verzögerungszeitverknüpfungsstufe 22 ermittelte maximal zulässige Zeit tmax wird dann an der CPU bereitgestellt. Sie wird mit der aktuellen Ist-Zeit verglichen respektive der seit dem letzten empfangenen Herzschlagsignal verstrichenen Zeit. Weiter wird geprüft, ob es sich bei dem Herzschlagsignal, das empfangen wurde, um ein neueres Herzschlagsignal handelt oder ob ein veraltetes Herzschlagsignal sehr spät eintrifft; diese Auswertung wird in der Sequenznum- merauswertestufe 25 vorgenommen. Sofern es sich um ein neues Herzschlagsignal handelt, wird, sofern die maximal zulässige Zeit zwischen zwei Herzschlagsignalen, die anhand der übermittelten Herzschlagsignale und den darin codierten lastindi- kativen Daten ermittelt wurde, größer ist als die seit der letzten Auswertung verstrichenen Zeit, der Zeitgeber auf Null zurückgesetzt und nichts weiter unternommen, außer der Planung einer neuen Herzschlagsignalüberwachung nach einer entsprechenden Zeitspanne.The times output by the look-up tables 3a to 3d are simultaneously output to the consistency check stage 19, which checks whether the time at which the generation of the heartbeat signal in the component 2 was scheduled by the scheduler, with the delay times, which are load-dependent allowed, taking into account the reception of the previous heartbeat signal is permitted or whether it may be necessary to correct the look-up tables, because about the Nachschautabellen provide short times that can not be met even in the generation of the heartbeat signal. The maximum allowable time t max determined by the delay time linking stage 22 is then provided to the CPU. It is compared with the current actual time or the time elapsed since the last received heartbeat signal. It is further checked whether the heartbeat signal that was received is a newer heartbeat signal or whether an outdated heartbeat signal arrives very late; This evaluation is carried out in the sequence number evaluation stage 25. If a new heartbeat signal is involved, provided that the maximum permissible time between two heartbeat signals, which was determined on the basis of the transmitted heartbeat signals and the lastindicative data encoded therein, is greater than the time elapsed since the last evaluation, the timer Reset zero and do nothing except schedule a new heartbeat alert after a period of time.
Dies setzt sich fort, und wenn während dessen beispielsweise Laständerungen in der Komponente 2 durch Abarbeitung anderer Jobs oder im Netz 4 auftreten, so wird dies im Regelfall Verzögerungen des Herzschlagsignalempfangs an der Komponente 3 zur Folge haben. Diese Herzschlagsignalempfangsverzögerung ist jedoch unkritisch, da in den Nachschautabellen durch Aus- wertung der jeweiligen Lastzustände von beispielsweise CPU%, RAM%, File% und Net% festgestellt wird, dass mit größeren einzelkomponentenbedingten Verzögerungen zu rechnen ist, was sich in der Verzögerungszeitverknüpfungsstufe durch eine Verlängerung der maximal zulässigen Wartezeit auf ein neues Herzschlagsignal auswirkt. Wenn nun nach einer starken Belastung des Netzwerkes, das heißt beispielsweise einem Betrieb im Zustand (I+II+III) die miteinander kommunizierenden, die direkte Verbindung blockierenden Rechner II abgeschaltet werden, kann es vorkommen, dass zunächst sehr schnell Herzschlagsignale erfasst werden, die nicht in der Absendereihenfolge eintreffen, weil ältere Pakete noch über den längeren Weg im Netz unterwegs sind und dort erst weitergeleitet werden können, wenn die entsprechenden Knoten dies vorsehen. Dies kann dazu führen, dass später eintreffende Herzschlagsignale bereits überholt sind, das heißt es wird beispielsweise Herzschlagnummer 15 empfangen, nachdem bereits Herzschlagnummer 17 vorliegt. In einem solchen Fall wird bei Auswertung dieses Herzschlagsignals nichts weiter unternommen, das heißt insbesondere wird der Zeitgeber nicht zurückgesetzt, sondern es wird einfach eine neue Herzschlagsignalüberwachung ohne weitere Reaktion im Scheduler 15 vorgesehen, sofern tmax, die aus dem aktuellsten empfangenen Herzschlagsignal hergeleitete maximale Zeitverzögerung, noch nicht überschritten wurde , Bei ungestörtem Betrieb wird ty- pisch der Herzschlagsignaleingang öfter abgefragt, als Herzschlagsignale eintreffen. Dies führt dazu, dass die überholten Datenpakete 15 und 16 nach Empfang des über die frei gewordene direkte Verbindung empfangenen Paketes mit der Sequenznummer 17 verworfen werden können und durch den dann beispielhaft folgenden Empfang des 18. Herzschlagsignalpaketes der Zeitgeber zurückgesetzt wird.This continues, and if, for example, load changes in component 2 occur during processing of other jobs or in the network 4, this will normally result in delays in the heartbeat signal reception at component 3. However, this heartbeat signal reception delay is not critical because it is found in the look-up tables by evaluating the respective load states of, for example, CPU%, RAM%, File% and Net%, that larger individual-component-related delays are to be expected, resulting in an extension in the delay-time connection stage the maximum allowable waiting time for a new heartbeat signal. Now, if after a heavy load on the network, that is, for example, an operation in the state (I + II + III) communicating with each other, the direct connection blocking computer II are turned off, it may happen that initially very fast heartbeat signals are detected, not arrive in the send order because older packets are still traveling the longer way in the network and can be forwarded there only if the respective nodes provide for this. This can lead to later-arriving heartbeat signals being outdated, that is, for example, heartbeat number 15 is received after heartbeat number 17 has already been received. In such a case, no further action is taken in evaluating this heartbeat signal, that is, in particular, the timer is not reset, but it is simply a new heartbeat signal monitoring provided without further response in the scheduler 15, if t max , derived from the most recent received heartbeat signal maximum time delay , has not yet been exceeded. In undisturbed operation, the heartbeat signal input is typically interrogated more frequently than heartbeat signals arrive. As a result, the outdated data packets 15 and 16 can be discarded after receiving the packet with the sequence number 17 which has been released via the free connection and the timer is reset by the then exemplary reception of the 18th heartbeat signal packet.
Bleibt nun, beispielsweise durch einen Fehler in der Komponente 2, das Herzschlagsignal aus, so wird in der empfangenen Komponente 3 zunächst bei Abarbeitung des Herzschlagsignal- überwachungsthreads im Scheduler 15 festgestellt, dass noch keine neueren Herzschlagsignale vorliegen. Dies muss prinzi- piell Reaktionen auslösen, insbesondere in letzter Konsequenz das Herauffahren eines Ersatzsystems für die aufgrund des Ausbleibens von Herzschlagsignalen als defekt angenommene Komponente 2. Bevor dies jedoch geschieht, wird noch einmal im Eingangs-/Ausgangsspeicher der Netzanschlußstelle 14 nachgesehen, ob nicht doch zwischenzeitlich im allerletzten Augenblick Herzschlagsignale eingetroffen sind. Ist dies der Fall, so wird in der vorgeschriebenen Weise analysiert, ob es sich um ein neueres Herzschlagsignal handelt und von einem Herunterfahren der Komponente 2 abgesehen. Es können aber zugleich die entsprechenden Nachschautabellen korrigiert werden, um einer solchen Situation für künftige Fälle Rechnung zu tragen, was möglich ist, wenn nicht die Gesamtverzögerung bereits so groß ist, dass durch die verzögerten Signalaussen- düngen von einer Gesamtsystemstörung oder Gesamtmissionsstö- rung ausgegangen werden muss. Auf diese Weise wird ein entbehrliches, vermeidbares Herunterfahren der Komponente 2 vermieden. Erst wenn auch bei der mit höherer Priorität als dem Herunterfahren der Komponente 2 abzuarbeitenden Überprüfung des Netzanschlußstacks bzw. -fifos kein Eingang eines neueren Herzschlagsignals erfasst wird, wird ein Alarm in der Alarmstufe 24 ausgelöst und ein Reservesystem für die dann als ausgefallen vermutete Komponente 2 aktiviert .If the heartbeat signal now remains off, for example as a result of an error in component 2, then in the received component 3 it is first determined during processing of the heartbeat signal monitoring thread in the scheduler 15 that no newer heartbeat signals are present. This must be cause, especially in the final analysis, the startup of a replacement system for the assumed due to the absence of heartbeat signals as a component 2. However, before this happens, once again in the input / output memory of the network port 14 looked up, if not but in the meantime at the very last moment Heartbeat signals have arrived. If so, it is analyzed in the prescribed manner whether it is a newer heartbeat signal and apart from a shutdown of the component 2. At the same time, however, the corresponding look-up tables can be corrected in order to take account of such a situation for future cases, which is possible if the overall delay is not already so great that the delayed signal external fertilizer is based on a total system disturbance or overall misfire got to. In this way, a dispensable, avoidable shutdown of the component 2 is avoided. Only if no input of a newer heartbeat signal is detected in the case of the check of the network connection stack or fifo to be processed with a higher priority than the shutdown of component 2, an alarm is triggered in the alarm stage 24 and a reserve system is activated for the then presumed component 2 ,
Während vorstehend Bezug genommen wurde auf die Addition als eine mögliche Verknüpfung von einzelbedingungsabhängigen Verzögerungen, ist nicht ausschließlich eine solche sinnvoll. Statt dessen ist per se jede mathematische, insbesondere empirisch bestimmte und/oder erlernte Funktion verwendbar, und/oder Look-up-Tabellen und/oder Grenzwerte berücksichtigende Verknüpfungen. While reference has been made above to addition as a possible linkage of single-conditional delays, not only is it meaningful. Instead, any mathematical, in particular empirically determined and / or learned function can be used per se, and / or look-up tables and / or limit-taking relationships.

Claims

Patentansprüche claims
1. Fehlfunktionsdetektionsverfahren für eine Anordnung kommunizierender Komponenten, worin wiederholt Signale von einer ersten Komponente zum Empfang durch wenigstens eine weitere abgesandt werden, ein Anordnungszustand bestimmt wird und Fehlfunktionen bei im Hinblick auf diesen zumindest übermäßig verzögertem Empfang angenommen werden, dadurch gekennzeichnet, dass den Anordnungszustand beein- flussende Einzelbedingungen bestimmt, einzelbedingungsab- hängig tolerierbare Signalverzögerungen festgelegt und eine Fehlfunktion im Ansprechen auf einen bezüglich der einzelbedingungsabhängig tolerierbaren Signalverzögerungen zumindest übermäßig verzögerten Empfang angenommen wird.A malfunction detection method for an arrangement of communicating components wherein repeatedly signals are sent from a first component for reception by at least one other, an arrangement state is determined, and malfunctions are assumed in response to said at least excessively delayed reception, characterized in that the arrangement state is affected - Determines flowing individual conditions, individual condition-dependent tolerable signal delays set and a malfunction is assumed in response to a respect to the individual condition-dependent tolerable signal delays at least excessively delayed reception.
2. Fehlfunktionsdetektionsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Komponenten durch Datenverarbeitungsgeräte und/oder Teile derselben realisiert werden, insbesondere Rechnersysteme in einem gegen Ausfallen gesicherten System und/oder funktions- beziehungsweise missionskritische Teilekomponenten.Second malfunction detection method according to the preceding claim, characterized in that the components are realized by data processing equipment and / or parts thereof, in particular computer systems in a secured against failing system and / or functionally or mission critical parts components.
3. Fehlfunktionsdetektionsverfahren nach einem der vorherge- henden Ansprüche, worin die Anordnung bezüglich der kommunizierenden Komponenten und/oder bezüglich der sie verbindenden Signalwege und/oder bezüglich der Auslastung von Komponenten und/oder von Signalwegen variiert.3. The malfunction detection method according to claim 1, wherein the arrangement varies with respect to the communicating components and / or with respect to the signal paths connecting them and / or with respect to the utilization of components and / or signal paths.
4. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, worin die Signale durch digitale Datenpakete realisiert werden. A malfunction detection method according to any one of the preceding claims, wherein the signals are realized by digital data packets.
5. Fehlfunktionsdetektionsverfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die digitalen Datenpakete mit einer Sender- und/oder Sendekennung, insbe- sondere einer Paketnummer und/oder einer Absende-Ist- und/oder -Soll-Zeit versehen werden.5. malfunction detection method according to the preceding claim, characterized in that the digital data packets are provided with a transmitter and / or transmit identifier, in particular a packet number and / or a send-actual and / or -Soll-time.
6. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Signa- Ie angepasst an eine oder mehrere Einzelbedingungen wiederholt werden.6. malfunction detection method according to any one of the preceding claims, characterized in that the signals Ie are repeated adapted to one or more individual conditions.
7. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Signa- Ie zumindest für eine bestimmte Frist und/oder eine bestimmte Wiederholanzahl mit gleichbleibendem Soll-Abstand wiederholt werden.7. malfunction detection method according to any one of the preceding claims, characterized in that the Signa Ie be repeated at least for a certain period and / or a certain repetition number with a constant desired distance.
8. Fehlfunktionsdetektionsverfahren nach einem der vorherge- henden Ansprüche, dadurch gekennzeichnet, dass der SoIl-8. malfunction detection method according to one of the preceding claims, characterized in that the SoIl
Wiederholabstand von Signalen kommuniziert wird.Repeat pitch of signals is communicated.
9. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass im Si- gnaiübertragungsweg mehrere Stationen vorgesehen und Signale dazwischen erforderlichenfalls partiell und/oder vollständig wiederholt werden.9. malfunction detection method according to any one of the preceding claims, characterized in that in Si gnaiübertragungsweg several stations provided and signals between them, if necessary, partially and / or completely repeated.
10. Fehlfunktionsdetektionsverfahren nach einem der vorherge- henden Ansprüche, dadurch gekennzeichnet, dass die Komponenten durch mit einem Betriebssystem versehene Rechner realisiert werden und dieses mit einem priorisierenden Scheduler arbeitet, wobei, insbesondere empfängerseitig, der Nachrichten- bzw. Messageverarbeitung eine höhere Priorität als der Auszeit- bzw. Timerverarbeitung zugewiesen wird.10. malfunction detection method according to one of the preceding claims, characterized in that the components are realized by computer provided with an operating system and this with a prioritizing Scheduler operates, which, especially on the receiver side, the message or message processing is assigned a higher priority than the timeout or timer processing.
11. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass abgesandte Signale adressiert werden, insbesondere wiederholt an einen oder mehrere, insbesondere gleichbleibende (n) Adres- säten.11. malfunction detection method according to any one of the preceding claims, characterized in that the sent signals are addressed, in particular repeatedly to one or more, in particular constant (n) addresses.
12. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zumindest eine Einzelbedingung am Empfänger und/oder am Sender und/oder auf dem Signalweg bestimmt wird im Hinblick auf eine langfristig statistisch historisch zu erwartende, eine aus aktuellen vorgenommenen Messungen erwartete und/oder eine prognostizierte.12. malfunction detection method according to any one of the preceding claims, characterized in that at least one individual condition at the receiver and / or at the transmitter and / or on the signal path is determined with respect to a long-term statistically historically expected, one expected from current measurements and / or a predicted.
13. Fehlfunktiondetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein MuIti- komponentensystem mit wenigstens drei Komponenten vorliegt und wenigstens eine der Komponenten auf den regulären Empfang von wiederholt zu empfangenden Signalen einer Signale absendenden Komponente an eine dritte Komponente diesbezügliche Informationen sendet.13. malfunction detection method according to any one of the preceding claims, characterized in that a MuIti- component system is present with at least three components and sends at least one of the components to the regular reception of repeatedly received signals of a signal sending component to a third component in this respect information.
14. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Fehl- funktion angenommen wird, wenn ein Empfang völlig ausbleibt und/oder wenn ein Empfang so lange verzögert wird, dass zugesicherte oder benötigte Serviceeigenschaften nicht einzuhalten sinά, insbesondere wenn eine übermäßige Verzögerung mehrfach oder für die Einhaltung zugesicherter Serviceeigenschaften zu häufig zu lange verzögert wird oder völlig ausbleibt.14. malfunction detection method according to any one of the preceding claims, characterized in that a malfunction is assumed if a reception is completely absent and / or if a reception is delayed so long that the assured or required service characteristics are not to be adhered to sinά, especially if an excessive delay is delayed too many times or too often for compliance with assured service characteristics too long or completely absent.
15. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, das die Einzel - bedingungen zumindest eine Bedingung umfassen von Sendergesamtlast, Senderteilkomponentenlast, nicht und/oder nicht konsekutiv folgend empfangene konsekutive Signal- kennungen, Eingangspufferstatus am Empfänger, aktuelle Signalwegauslastung, Signalwegauslastungsverhalten, Empfängerlast, Empfängerteilkomponentenlast .A malfunction detection method according to any one of the preceding claims, characterized in that the individual conditions comprise at least one of total transmitter load, transmitter subcomponent load, non and / or consecutively received consecutive signal identifiers, receiver input buffer status, current signal path utilization, signal path utilization, receiver load, Receiver subcomponent load.
16. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Einzelbedingungsbestimmung eine bestimmende Definition eines Soll -Wertes und/oder eine bestimmende Ermittlung einer tatsächlich gegebenen Bedingung umfasst .16. malfunction detection method according to any one of the preceding claims, characterized in that the single condition determination comprises a determining definition of a desired value and / or a determining determination of an actually given condition.
17. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die tolerierbare Signalverzδgerung adaptiert wird.17. malfunction detection method according to any one of the preceding claims, characterized in that the tolerable Signalverzδgerung is adapted.
18. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die tolerierbare Signalverzögerung durch Addition mehrerer ein- zelbedingungsbezogener Maximalzeiten und/oder durch verknüpfende Berücksichtigung einzelbedingungsbezogener Ver- zögerungsfehlerwahrscheinlichkeitsbeziehungen festgelegt wird. 18. Malfunction detection method according to one of the preceding claims, characterized in that the tolerable signal delay is determined by adding a plurality of individual condition-related maximum times and / or by linking consideration of individual condition-related delay error likelihood relationships.
19. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass im Ansprechen auf einen Fehler zumindest einer der Schritte unternommen wird: Warnsignalausgäbe, Umschaltung auf Redun- danzsystem, . Veränderung des Sendekomponentenzustandes, Auslösung einer Datensicherung.19. Malfunction detection method according to one of the preceding claims, characterized in that, in response to an error, at least one of the steps is undertaken: warning signal output, switching to redundancy system,. Change of the transmission component state, triggering of a data backup.
20. Fehlfunktionsdetektionsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sendersei- tig bei Erkennen der Nichteinhaltbarkeit einer fristgerechten Soll-Signalwiederholung ein Reaktionsschritt ausgelöst wird, insbesondere ein Umschalten auf ein Redundanzsystem und/oder ein Selbstherunterfahren eines Sendersystems . 20. Malfunction detection method according to one of the preceding claims, characterized in that on the transmitter side, upon detection of the non-compliance of a timely desired signal repetition, a reaction step is triggered, in particular switching to a redundancy system and / or self-shutdown of a transmitter system.
PCT/DE2006/001287 2005-07-22 2006-07-24 Malfunction detection method WO2007009454A2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP05015972 2005-07-22
EP05015972.2 2005-07-22
DE102006016887.9 2006-04-11
DE102006016887A DE102006016887A1 (en) 2005-07-22 2006-04-11 Data processing system equipment malfunction detecting method, involves defining signal delays tolerable depending on individual requirements, and assuming malfunction to occur in response to delayed reception concerning delays

Publications (2)

Publication Number Publication Date
WO2007009454A2 true WO2007009454A2 (en) 2007-01-25
WO2007009454A3 WO2007009454A3 (en) 2007-06-07

Family

ID=37564041

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2006/001287 WO2007009454A2 (en) 2005-07-22 2006-07-24 Malfunction detection method

Country Status (1)

Country Link
WO (1) WO2007009454A2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2209258A1 (en) * 2009-01-20 2010-07-21 Siemens Aktiengesellschaft Method for operating a communication network and communication device
CN108011731A (en) * 2016-11-01 2018-05-08 湖南中车时代电动汽车股份有限公司 The fault information acquisition and transmission method of electric machine control system
CN109190259A (en) * 2018-09-07 2019-01-11 哈尔滨工业大学 Based on the digital microcurrent-controlled failure of chip restorative procedure for improving dijkstra's algorithm and IPSO combination
CN113965496A (en) * 2021-10-15 2022-01-21 上汽通用五菱汽车股份有限公司 Method for optimizing response of screen projection process
CN115964257A (en) * 2023-03-17 2023-04-14 上海谐振半导体科技有限公司 Alarm device and method based on system interrupt design

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERTIER M ET AL: "Implementation and performance evaluation of an adaptable failure detector" PROCEEDINGS INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS. DSN 2002. WASHINGTON, D.C., JUNE 23 - 26, 2002, INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS, LOS ALAMITOS, CA, IEEE COMP. SOC, US, 23. Juni 2002 (2002-06-23), Seiten 354-363, XP010600316 ISBN: 0-7695-1597-5 *
CARDWELL N ET AL: "Modeling TCP latency" INFOCOM 2000. NINETEENTH ANNUAL JOINT CONFERENCE OF THE IEEE COMPUTER AND COMMUNICATIONS SOCIETIES. PROCEEDINGS. IEEE TEL AVIV, ISRAEL 26-30 MARCH 2000, PISCATAWAY, NJ, USA,IEEE, US, Bd. 3, 26. März 2000 (2000-03-26), Seiten 1742-1751, XP010376113 ISBN: 0-7803-5880-5 *
KOCH R R ET AL: "A reliable many-to-many multicast protocol for group communication over ATM networks" DEPENDABLE SYSTEMS AND NETWORKS, 2000. DSN 2000. PROCEEDINGS INTERNATIONAL CONFERENCE ON NEW YORK, NY, USA 25-28 JUNE 2000, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 25. Juni 2000 (2000-06-25), Seiten 337-346, XP010504345 ISBN: 0-7695-0707-7 *
SHARMA S ET AL: "Duplex: a reusable fault tolerance extension framework for network access devices" PROCEEDINGS 2003 INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS. DSN 2003. SAN FRANCISCO, CA, JUNE 22 - 25, 2003, INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS, LOS ALAMITOS, CA : IEEE COMP. SOC, US, 22. Juni 2003 (2003-06-22), Seiten 501-510, XP010643886 ISBN: 0-7695-1952-0 in der Anmeldung erwähnt *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2209258A1 (en) * 2009-01-20 2010-07-21 Siemens Aktiengesellschaft Method for operating a communication network and communication device
CN108011731A (en) * 2016-11-01 2018-05-08 湖南中车时代电动汽车股份有限公司 The fault information acquisition and transmission method of electric machine control system
CN108011731B (en) * 2016-11-01 2020-10-30 湖南中车时代电动汽车股份有限公司 Fault information acquisition and transmission method of motor control system
CN109190259A (en) * 2018-09-07 2019-01-11 哈尔滨工业大学 Based on the digital microcurrent-controlled failure of chip restorative procedure for improving dijkstra's algorithm and IPSO combination
CN113965496A (en) * 2021-10-15 2022-01-21 上汽通用五菱汽车股份有限公司 Method for optimizing response of screen projection process
CN113965496B (en) * 2021-10-15 2023-11-17 上汽通用五菱汽车股份有限公司 Method for optimizing screen-throwing process response
CN115964257A (en) * 2023-03-17 2023-04-14 上海谐振半导体科技有限公司 Alarm device and method based on system interrupt design
CN115964257B (en) * 2023-03-17 2023-06-06 上海谐振半导体科技有限公司 Alarm device and method based on system interrupt design

Also Published As

Publication number Publication date
WO2007009454A3 (en) 2007-06-07

Similar Documents

Publication Publication Date Title
DE202018104604U1 (en) Overload prevention in a network switch device
DE102004052270B4 (en) Processing device management system
DE602005002713T2 (en) Information processing system with redundant paths and access methods
DE102015119643A1 (en) Methods and apparatus for providing redundancy in a process control system
WO2007009454A2 (en) Malfunction detection method
DE112016003242T5 (en) SYSTEM AND METHOD FOR HANDLING CONNECTION LOSS IN A NETWORK
CN107070753A (en) A kind of data monitoring method of distributed cluster system, apparatus and system
DE60316419T2 (en) Serialization of a distributed application of a router
EP3020162B1 (en) Semantic deduplication
DE102006054090A1 (en) Method for executing a service in a decentralized data network
EP3061213B1 (en) Method for transmitting messages in a computer network, and computer network
CN104331353A (en) Method for guaranteeing software high availability
WO2004071010A2 (en) Method and device for medium-redundant operation of a terminal in a network
DE102006016887A1 (en) Data processing system equipment malfunction detecting method, involves defining signal delays tolerable depending on individual requirements, and assuming malfunction to occur in response to delayed reception concerning delays
EP0720337A2 (en) Method for highly reliable and consistent message communication
WO2017036508A1 (en) Communication device for a redundantly operable industrial communication network and method for operating a communication network
WO2011051157A1 (en) Method and device for transmitting data
CN110413573B (en) Log storage control method and device, computer equipment and storage medium
DE102022100282A1 (en) DETECTION OF DEGRADATION OF COMPONENTS IN INDUSTRIAL PROCESS PLANTS BASED ON RESPONSIVENESS OF LOOP COMPONENTS
WO2023186888A1 (en) Method for preparing log messages in a computer network system, computer network system, computer program, and electronically readable data carrier
LU101163B1 (en) Methods and apparatus for load allocation and monitoring for a resource that is critical to the security of supply in a network
EP3910882B1 (en) Fail-safe operation of a network
EP3454222A1 (en) Method and automation component for transmission of control information in an industrial automation assembly
AT507204B1 (en) METHOD AND APPENDIX FOR DISTRIBUTING INSERTED DATA
EP1472891B1 (en) Method and product for routing messages with conditional logging

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 06775743

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 06775743

Country of ref document: EP

Kind code of ref document: A2