WO2006056506A1 - Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems - Google Patents

Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems Download PDF

Info

Publication number
WO2006056506A1
WO2006056506A1 PCT/EP2005/055173 EP2005055173W WO2006056506A1 WO 2006056506 A1 WO2006056506 A1 WO 2006056506A1 EP 2005055173 W EP2005055173 W EP 2005055173W WO 2006056506 A1 WO2006056506 A1 WO 2006056506A1
Authority
WO
WIPO (PCT)
Prior art keywords
active
resource group
hardware
system components
components
Prior art date
Application number
PCT/EP2005/055173
Other languages
English (en)
French (fr)
Inventor
Jonas HÖF
Norbert LÖBIG
Jürgen TEGELER
Michael Tinnacher
Dieter Wallner
Original Assignee
Nokia Siemens Networks Gmbh & Co. Kg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Siemens Networks Gmbh & Co. Kg filed Critical Nokia Siemens Networks Gmbh & Co. Kg
Priority to MX2007006291A priority Critical patent/MX2007006291A/es
Priority to EP05797253A priority patent/EP1820307B1/de
Priority to US11/791,689 priority patent/US7739542B2/en
Priority to AT05797253T priority patent/ATE553574T1/de
Publication of WO2006056506A1 publication Critical patent/WO2006056506A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2058Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using more than 2 mirrored copies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/54Store-and-forward switching systems 
    • H04L12/56Packet switching systems
    • H04L12/5601Transfer mode dependent, e.g. ATM
    • H04L2012/5625Operations, administration and maintenance [OAM]
    • H04L2012/5627Fault tolerance and recovery

Definitions

  • the invention relates to a method for detecting the Verheg ⁇ bility of system components of a redundantly designed communication system in which hardware devices that operate the system components of the communication system, Kursin- least are duplicated, wherein during normal operation of Kom ⁇ munikationssystems some system components active and for this redundant existing system components are operated in standby mode and in case of failure of one or more hardware devices the redundant system components take over the function of the previously actively operated system components.
  • a redundant structure of communication systems is used in order to continue to ensure the required system function by the corresponding redundant components in the event of a failure of individual components. This increases the availability and reliability of the overall system. Decisive for the proper function acceptance by the redundant components is of course their perfect function.
  • routine switching is mandatory in the United States of America.
  • the standby components periodically take over the function from the active components. If successful, the availability of the components previously operated in standby mode is thus demonstrated. In the event of an error, the system switches back to the previously active components. This is followed by a detailed analysis of the cause of the error.
  • the effort for routine switching alone will generally be lower than for a meaningful Uber ⁇ test of the standby components.
  • the switching is to be regarded per se, since it affects the function of the system, at least for a short time. For the duration of the switching, the function of the system is not or only partially available.
  • connection attempts can be rejected to a considerable extent during the switchover, or certain features, such as conference calls, that are already available for existing connections can no longer be available after the switchover. Such restrictions can be reduced, if at all, only with very considerable effort or even avoided.
  • Another disadvantage of pure active / standby operation is the acquisition and maintenance costs for the standby components, since they are held only to take over the function in case of failure of the active components.
  • acquisition and maintenance costs for the standby components since they are held only to take over the function in case of failure of the active components.
  • twice the hardware costs are already incurred, compared to operation without redundancy.
  • the inventor proposes the known methods for detecting the availability of system components of a redundantly designed communication system, software facilities in which Hard ⁇ that onssystems operate the system components of the Kommunikati ⁇ , are at least duplicated, wherein during normal operation of the communications system some Systemkom ⁇ components active and in the event of failure of one or more hardware devices, the redundant system components take on the function of the previously actively operated system components, in order to improve the system components and at least the system components used by them Communication channels, software processes and data function and / or task-dependent summarized and operated to resource groups and each Res ⁇ source group is executable on at least two hardware devices ⁇ running and i
  • a resource group is active on exactly one hardware device and the at least one redundant resource group is operated on at least one further hardware device in standby mode, the data of the active resource group being automatically to the data of the redundantly assigned resource group repli ⁇ be sheet.
  • the display option is example ⁇ be advantageous when certain hardware devices au ⁇ for repair purposes or to update the software out of service to be taken.
  • the standby mode located elements are the active system components and / or active resource groups if necessary in the standby mode or vice opposite ⁇ can be switched on. This may cause certain hardware to be taken out of service for repair or to update the software.
  • Switching from active to standby mode or vice versa can be carried out by the software processes or the system components used by the software process.
  • a failover control component can make the switchover. For reasons of redundancy, these failover control components should be distributed over the hardware devices, such as the resource groups. The distribution, in turn, requires that the failover control components know the status information relevant to the operation of the resource groups. If the failover control components are running on the hardware devices, where the resource groups are also running, they can retrieve the relevant status information, such as CPU performance, hardware availability, availability of the communication identify themselves and pass them to the partner failover control components on the other hardware devices.
  • the correct sequence of the failover control components and the data-out exchange between them itself requires at least CPU power and Kommunikati ⁇ onsbandbreite which tion by suitable measures, such as prioritization, reservation of budgets / bandwidth, dedicated / highly available communication channels, or the like,technischge ⁇ represents needs to be. This can also be achieved, for example, by running the failover control components on de- fined hardware devices that have no or to a much lesser extent to handle other tasks.
  • the failover control components can be decoupled as a decision-making entity from the logic of the role switching of the resource groups as an execution instance. This decoupling is an essential prerequisite for the problem-free scaling of the failover control components with a corresponding distribution.
  • the logic of the role switching of the resource groups is always limited to a hardware device. For example, it must ensure the correct order of switching of the individual resources, including monitoring and error handling.
  • the failover control components in turn, can operate at a significantly higher logical level and thus remain comparatively easy to implement and test, even for more complex distribution scenarios.
  • the hardware devices can be operated at least as a redundancy pair, preferably as a redundancy triple, wherein at least two resource groups are operated on a hardware device.
  • first hardware device 1.1: first resource group of the first hardware device; 1.1.1: data A; 1.1.2: data B; 1.1.3: data C; 1.1.4: first software process of the first Res ⁇ source group of the first hardware device; 1.1.5: Second process of the first software resource group of the first hard ware ⁇ means; 1.2: second resource group of the first hardware device; 1.2.1: replicated data X; 1.2.2: software process of the second resource group of the first hardware device ; 1.3: third resource group of the first hard ware ⁇ means; 1.4: failure of the first hardware device; 1.5: Failover control component (FO-CTRL) of the first hardware ; 2: second hardware device; 2.1: first resource group of the second hardware device; 2.1.1: replicated
  • FO-CTRL Failover control component
  • FIG. 3 Redundancy triplets with three resource groups in normal operation
  • FIG. 5 shows two redundancy pairs in which each redundancy pair is controlled by a failover control process of the other redundancy pair.
  • FIG. 1 shows two hardware units 1 and 2, which form a redundancy pair 10, in normal operation.
  • the redundant Absi ⁇ assurance of hardware units by duplicated construction, is already known.
  • both the first hardware unit 1 and the second hardware unit 2 each have two resource groups 1.1, 1.2 and 2.1, 2.2.
  • the individual resource groups 1.1, 1.2 and 2.1, 2.2 can thereby be task-specific by combining corresponding components are formed in a resource group 1.1, 1.2 and 2.1, 2.2, inter alia, certain data, these data using software processes and communication channels 5 are summarized.
  • two software processes 1.1.4 and 1.1.5 run on the first resource group 1.1 of the first hardware unit 1, the first software process 1.1.4 accessing the data 1.1.2 and 1.1.3 and the second software process 1.1.5 accessing the Data 1.1.1 accesses.
  • On the second resource group 1.2 of the first hardware unit 1 would run a software ⁇ process 1.2.2, which accesses the data 1.2.1.
  • the communication channels 5 are usually used to communicate the software processes with external communication partners.
  • the executable software processes the ducts Med ⁇ and the data of the first hardware unit 1 quasi "mirror-gelsymmetrisch" present on the second hardware unit. 2
  • a data replication 6 of all data, that is to say a data copy, of the active resource groups 1.1 and 2.2 to the resource groups 2.1 and 1.2 in standby mode takes place.
  • the data 1.1.1 to 1.1.3 of the first and active resource group 1.1 of the first hardware unit 1 are continuously replicated to the first and in standby resource group 2.1 of the second hardware unit 2.
  • the data 2.2.1 of the second and active resource group 2.1 of the second hardware unit 2 are continuously replicated to the second and standby resource group 1.2 of the first hardware unit 1.
  • ⁇ by this data are of a fault and / or failure in the event of one or more hardware units in the functional onsüber drown by the standby components of the redundant hardware unit.
  • FIG. 2 shows the redundancy pair 10 from FIG. 1, wherein the first hardware device 1 has failed.
  • the failure 1.4 of the first hardware device 1 is represented by the strike through this hardware device.
  • the resource group has been operated 2.1 in standby mode ⁇ .
  • Through the data replication of the food The failure or non-availability of the system due to switching is minimized.
  • both resource groups 2.1 and 2.2 of the hardware unit 2 are now in active mode. All functions are therefore available for the entire system.
  • FIG. 3 shows a redundancy triple 11, that is to say three redundantly arranged hardware units 1, 2 and 3 with three resource groups in normal operation.
  • the first resource group 1.1 is active and the second resource group 1.2 in standby mode.
  • the first resource group 2.1 is in standby mode and the third resource group 2.3 is active.
  • the third resource group 3.3 is in standby mode and the second resource group 3.2 is active.
  • the correct operation of the redundancy tripe 11 in normal operation is thus a clear indication of the correct functioning of all three hardware units 1, 2 and 3.
  • at least a first, a second and a third resource group must work actively. Due to the constant data replication 6, it is again possible the
  • the functions of the active second resource group 3.2 are taken over by the second resource group 1.2 of the hardware unit 2, which was previously in standby mode.
  • this third hardware unit 3 are still at least a first 1.1, a second 1.2 (both are on the first hardware unit 1) and a third resource group 2.3 active.
  • the function of the system is thus retained.
  • 4 shows a Redundanztripel 11, each with three resource groups per hardware unit 1, 2 and 3 operating in the normal ⁇ .
  • the first resource group 1.1 is active.
  • the second resource group 1.2 is in the second standby mode S2 and the third resource group 1.3 in the first standby mode S1.
  • a respective resource group 2.2 and 3.3 is active on the second and third hardware device, the respective other resource groups 2.1, 2.3 and 3.1, 3.2 are in standby mode.
  • FIG. 5 shows two redundancy pairs 10, in which each redundancy pair 10 is controlled by a failover control component
  • the arrangement in FIG. 5 consists of four hardware devices, of which in each case the first hardware device 1 and the second hardware device 2 the first redundancy pair 10 and the third hardware device 3 and the fourth hardware device 4, the second redundancy pair 10 bil ⁇ the.
  • Each hardware device 1, 2, 3 and 4 is operated with two resource groups each.
  • the failover control components 1.5, 2.5, 3.5, and 4.5 are themselves assigned to a resource group.
  • the faver control component 1.5 is assigned to the first hardware unit 1 of the first resource group 1.1.
  • the failover control component 2.5 of the second hardware unit 2 is assigned to the first resource group 2.1.
  • Control component 3.5 of the third hardware unit 3 is assigned to the third resource group 3.3.
  • the failover control component 4.5 of the fourth hardware unit 4 is assigned to the third resource group 4.3.
  • the failover control components 1.5, 2.5, 3.5, and 4.5 By assigning the failover control components 1.5, 2.5, 3.5, and 4.5 to the resource groups, they have an active or standby role themselves. Thus, only the Failo ⁇ ver-control components 1.5 and 3.5 enabled, the failover control components 2.5 and 4.5 are in standby mode. Only the failover control component in the active role handles control tasks, each for the resource groups of the other redundancy pair 10. Thus, the active failover control component 1.5 controls the hardware devices 3 and 4. The further active failover control component 3.5 controls the hardware devices 1 and 2. The respective controlling component is thus not affected by errors on the hardware devices which it controls and whose availability they thus determine. Reasons for a role switching can be in addition to the absence of the cyclically distributed status data targeted Problemmeldun ⁇ gene, for example, software errors or imminent Hardware ⁇ failures, such as temperature rise or failure of redundant ⁇ ter components.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Nachweis der Verfüg- barkeit von Systemkomponenten eines redundanten Kommunikati- onssystems, bei dem Hardwareeinrichtungen zumindest doppelt vorhanden sind und bei Ausfall (1.4) einer oder mehrerer Hardwareeinrichtungen (1, 2, 3, 4) die redundant vorhandenen Systemkomponenten die Funktion der bislang aktiv betriebenen Systemkomponenten übernehmen. Die Erfindung zeichnet sich dadurch aus, dass die Systemkomponenten in Ressource-Gruppen (1.1-1.3, 2.x, 3.x und 4.x) zu- sammengefasst betrieben werden und jede Ressource-Gruppe (1.1-1.3, 2.x, 3.x und 4.x) auf mindestens zwei Hardwareeinrichtungen (1, 2, 3, 4) ablauffähig ist und zum Nachweis der Verfügbarkeit der Systemkomponenten eine Ressource-Gruppe (1.1-1.3, 2.x, 3.x und 4.x) auf genau einer einzigen Hard- wareeinrichtung (1, 2, 3, 4) aktiv (A) und die mindestens ei- ne redundante Ressource-Gruppe (1.1-1.3, 2.x, 3.x und 4.x) auf mindestens einer weiteren Hardwareeinrichtung (1, 2, 3, 4) im Standbymodus (S, S1, S2) betrieben wird, wobei die Daten (1.1.1 bis 1.1.3) der aktiven Ressource-Gruppe (1.1) au- tomatisch repliziert werden.

Description

Beschreibung
Verfahren zum Nachweis der Verfügbarkeit von Systemkomponen¬ ten eines redundanten Kommunikationssystems
Die Erfindung betrifft ein Verfahren zum Nachweis der Verfüg¬ barkeit von Systemkomponenten eines redundant aufgebauten Kommunikationssystems, bei dem Hardwareeinrichtungen, die die Systemkomponenten des Kommunikationssystems betreiben, zumin- dest doppelt vorhanden sind, wobei im Normalbetrieb des Kom¬ munikationssystems manche Systemkomponenten aktiv und die für diese redundant vorhandenen Systemkomponenten im Standbymodus betrieben werden und bei Ausfall einer oder mehrerer Hard¬ wareeinrichtungen die redundant vorhandenen Systemkomponenten die Funktion der bislang aktiv betriebenen Systemkomponenten übernehmen.
Ein redundanter Aufbau von KommunikationsSystemen wird ein¬ gesetzt, um beim Ausfall einzelner Komponenten die geforder- te Systemfunktion durch die entsprechenden redundanten Kom¬ ponenten weiterhin sicherzustellen. Dadurch erhöht sich die Verfügbarkeit und die Zuverlässigkeit des Gesamtsystems. Entscheidend für die ordnungsgemäße Funktionsübernahme durch die redundanten Komponenten ist natürlich deren einwandfreie Funktion.
Da die redundanten Komponenten jedoch im Normalbetrieb nicht genutzt werden, können Fehler an beziehungsweise in ihnen bis zum Ausfall der gerade benutzten Komponenten unbemerkt bleiben. Diese Betriebsart wird üblicherweise als Ak¬ tiv/Standby-Redundanz bezeichnet. Dabei liefern die aktiven Komponenten die entsprechende Funktion. Die im Standbymodus befindlichen Komponenten stehen zur Verfügung, um im Fehler¬ fall die Funktion der gegenwärtig aktiven Komponenten zu übernehmen. Wenn ein oder mehrere Fehler der Standby-Komponenten jedoch erst dann erkennbar wird/werden, wenn sie die Funktion wegen Fehlern der aktiven Komponenten übernehmen sollen, führt dies zum Totalausfall des Systems.
Die Verfügbarkeit der Standby-Komponenten muss daher eben¬ falls laufend sichergestellt werden. Fehler der Standby- Komponenten müssen erkannt und durch entsprechende Repara¬ turmaßnahmen behoben werden, um die Verfügbarkeit des Ge- samtsystems zu gewährleisten.
Bisher wurde zum Nachweis der Verfügbarkeit der Standby- Komponenten beispielsweise ein periodischer Selbsttest die¬ ser Standby-Komponenten durchgeführt. Die Aussagekraft des Selbsttests hängt natürlich von den dazu verwendeten Prüfun¬ gen und der Prüfintensität ab. Je näher die Prüfbedingungen an der im Aktivbetrieb geforderten Funktion sind, um so eher ist sichergestellt, dass nicht trotz ständiger Prüfung die Übernahme der Funktion durch die Standby-Komponenten nach einem Fehler der aktiven Komponente fehlschlägt. Als haupt¬ sächlicher Nachteil ist hier der Aufwand für einen aussage¬ kräftigen Verfügbarkeitsnachweis zu nennen, zumal der Auf¬ wand ausschließlich für den Verfügbarkeitsnachweis erbracht werden muss.
Für Vermittlungssysteme, die in Aktiv/Standby-Redundanz be¬ trieben werden, wird in den Vereinigten Staaten von Amerika eine sogenannte Routineumschaltung zwingend gefordert. Die Standby-Komponenten übernehmen dazu periodisch die Funktion von den aktiven Komponenten. Im Erfolgsfall ist die Verfüg¬ barkeit der zuvor im Standbymodus betriebenen Komponenten somit nachgewiesen. Im Fehlerfall wird auf die bereits zuvor als aktiv betriebenen Komponenten zurückgeschaltet. Daran schließt sich eine detaillierte Analyse der Fehlerursache an. Der Aufwand für die Routineumschaltung alleine wird in aller Regel geringer sein als für einen aussagekräftigen Selbst¬ test der Standby-Komponenten. Als anhaftender Nachteil bei der Routineumschaltung ist jedoch die Umschaltung an sich anzusehen, da sie die Funktion des Systems zumindest kurz¬ zeitig beeinträchtigt. Für die Dauer der Umschaltung steht die Funktion des Systems nicht oder nur eingeschränkt zur Verfügung. Beispielsweise in VermittlungsSystemen können während der Umschaltung Verbindungsversuche in beachtlichem Umfang abgewiesen werden oder für bereits bestehende Verbin¬ dungen bestimmte Merkmale, wie Konferenzschaltung, nach dem Umschalten nicht mehr zur Verfügung stehen. Solche Ein¬ schränkungen sind, wenn überhaupt, nur mit ganz erheblichem Aufwand zu reduzieren oder gar zu vermeiden.
Ein weiterer Nachteil eines reinen Aktiv/Standby-Betriebs sind die Anschaffungs- und Unterhaltskosten für die Standby- Komponenten, da sie lediglich zur Übernahme der Funktion beim Ausfall der aktiven Komponenten vorgehalten werden. Bei einer strikten Redundanzpaarbildung, bei der jeder aktiven Komponente eine Standby-Komponente zugeordnet ist, fallen hierbei bereits die doppelten Hardwarekosten an, im Ver¬ gleich zum Betrieb ohne Redundanz.
Es ist daher Aufgabe der Erfindung, ein Verfahren zum Nach¬ weis der Verfügbarkeit von Systemkomponenten eines redundant aufgebauten KommunikationsSystems zur Verfügung zu stellen, das ohne Zusatzaufwand einen genaueren und zuverlässigeren Nachweis der Verfügbarkeit der Systemkomponenten ermöglicht und das die Nachteile der bisher eingesetzten Routineumschal¬ tung vollständig vermeidet.
Diese Aufgabe wird durch die Merkmale des unabhängigen Pa¬ tentanspruches 1 gelöst. Vorteilhafte Weiterbildungen der Er- findung sind Gegenstand untergeordneter Ansprüche. Der Erfinder hat erkannt, dass ein aussagekräftiger und zu¬ verlässiger Nachweis der Verfügbarkeit von Systemkompo-nenten eines redundant aufgebauten KommunikationsSystems ohne zu¬ sätzlichen Hard- und/oder Softwareaufwand erbracht werden kann, wenn die Systemkomponenten des Kommunikationssystems zu Ressource-Gruppen zusammengefasst werden und diese gezielt auf die Hardwareeinrichtungen verteilt werden. Beispielsweise in Vermittlungssystemen sind die Aufgaben der einzelnen Soft- und Hardwareeinheiten ähnlich oder sogar identisch, so dass eine Zusammenfassung zu aufgabespezifischen Ressource-Gruppen ermöglicht wird.
Demgemäss schlägt der Erfinder vor, das bekannte Verfahren zum Nachweis der Verfügbarkeit von Systemkomponenten eines redundant aufgebauten Kommunikationssystems, bei dem Hard¬ wareeinrichtungen, die die Systemkomponenten des Kommunikati¬ onssystems betreiben, zumindest doppelt vorhanden sind, wobei im Normalbetrieb des KommunikationsSystems manche Systemkom¬ ponenten aktiv und die für diese redundant vorhandenen Sys- temkomponenten im Standbymodus betrieben werden und bei Aus¬ fall einer oder mehrerer Hardwareeinrichtungen die redundant vorhandenen Systemkomponenten die Funktion der bislang aktiv betriebenen Systemkomponenten übernehmen, dahingehend zu verbessern, dass die Systemkomponenten und die von diesen zu- mindest verwendeten Kommunikationskanäle, Softwareprozesse und Daten funktions- und/oder aufgabenabhängig zu Ressource- Gruppen zusammengefasst und betrieben werden und jede Res¬ source-Gruppe auf mindestens zwei Hardwareeinrichtungen ab¬ lauffähig ist und im Normalbetrieb und zum Nachweis der Ver- fügbarkeit der Systemkomponenten eine Ressource-Gruppe auf genau einer einzigen Hardwareeinrichtung aktiv und die min¬ destens eine redundante Ressource-Gruppe auf mindestens einer weiteren Hardwareeinrichtung im Standbymodus betrieben wird, wobei die Daten der aktiven Ressource-Gruppe automatisch zu den Daten der redundant zugeordneten Ressource-Gruppe repli¬ ziert werden. Hierdurch wird erreicht, dass auf jeder Hardwareeinrichtung mindestens eine Ressource-Gruppe aktiv betrieben wird. Damit ist keine der Hardwareeinrichtungen ausschließlich im Stand- bymodus . Es werden also alle Hardwareeinrichtungen funktions- fähig und aktiv betrieben. Insbesondere werden die Nachteile der bisher eingesetzten Routineumschaltung vollständig ver¬ mieden, so zum Beispiel die unvermeidbare Beeinträchtigung der Systemfunktion im Normalbetrieb bei der Routineumschal¬ tung.
Die gezielte Verteilung der Ressource-Gruppen erlaubt weiter¬ hin eine bessere Ausnutzung der Hardwareeinrichtungen als im reinen Aktiv/Standby-Betrieb. Dies ist erkennbar günstig für mehr als zwei Hardwareeinrichtungen und mehr als zwei Res- source-Gruppen, die auf ihnen ablauffähig sind, weil die
Wahrscheinlichkeit sinkt, dass eine Hardwareeinrichtung alle Ressource-Gruppen in der aktiven Rolle betreiben muss. Jedoch selbst bei nur zwei Hardwareeinrichtungen als Redundanzpaar und jeweils zwei Ressource-Gruppen ergeben sich zum Beispiel auf Rechnern mit UNIX-ähnlichen Betriebssystemen Vorteile durch die Verteilung.
So laufen UNIX-Betriebssysteme bis zu einer bestimmten CPU- Auslastung deutlich stabiler als bei höherer Auslastung. Im reinen Aktiv/Standby-Betrieb muss man daher die Beschaltung so wählen, dass die CPU-Auslastung einen stabilen Langzeitbe¬ trieb erlaubt, da die jeweils aktive Hardwareeinrichtung stets die volle Last bewältigen muss. Bei zwei im Normalbe¬ trieb auf die beiden Hardwareeinrichtungen verteilten Res- source-Gruppen fällt die Summenlast dagegen nur bei Ausfall einer Hardwareeinrichtung auf der verbliebenen an und auch nur für die Dauer des Ausfalls beziehungsweise der Reparatur.
Das Risiko einer Instabilität durch die höhere Last steigt somit auch nur in diesem vergleichsweise kurzen Zeitraum, das heißt es müssen in diesem Zeitraum zum Beispiel noch Last¬ spitzen auftreten, um die Stabilität zu gefährden. Durch die gezielte Verteilung der Ressource-Gruppen ergibt sich also die Möglichkeit, im fehlerfreien Fall mehr Verkehr über jede der Hardwareeinrichtungen abwickeln zu können, oder zumindest bei gleicher Beschaltung, wie im reinen Ak- tiv/Standby-Betrieb, über mehr Reserve zum Abfangen von Last¬ spitzen zu verfügen.
Optional kann im Verfahren angezeigt werden, welche System¬ komponente und/oder Ressource-Gruppe gerade aktiv oder im Standbymodus betrieben wird. Die Anzeigeoption ist beispiels¬ weise dann vorteilhaft, wenn bestimmte Hardwareeinrichtungen zu Reparaturzwecken oder zur Aktualisierung der Software au¬ ßer Betrieb genommen werden sollen.
Alternativ oder ergänzend zum Anzeigen der aktiven bezie¬ hungsweise im Standbymodus befindlichen Elemente sollen die aktiven Systemkomponenten und/oder aktiven Ressource-Gruppen bei Bedarf in den Standbymodus oder entgegengesetzt umge¬ schaltet werden können. Hierdurch können bestimmte Hardware- einrichtungen zu Reparaturzwecken oder zur Aktualisierung der Software außer Betrieb genommen werden.
Das Umschalten vom aktiv in den Standbymodus beziehungsweise umgekehrt kann durch die Softwareprozesse oder die vom Soft- wareprozess verwendeten Systemkomponenten vorgenommen werden.
Beispielsweise kann eine Failover-Kontrollkomponente die Um- schaltung vornehmen. Diese Failover-Kontrollkomponenten soll¬ ten aus Redundanzgründen über die Hardwareeinrichtungen, wie die Ressource-Gruppen, verteilt sein. Durch die Verteilung ist es wiederum notwendig, dass die Failover- Kontrollkomponenten, die für den Betrieb der Ressource- Gruppen relevanten Statusinformationen kennen. Laufen die Failover-Kontrollkomponenten auf den Hardwareeinrichtungen, wo auch die Ressource-Gruppen betrieben werden, können sie die relevanten Statusinformationen, wie beispielsweise CPU- Leistung, Hardwareverfügbarkeit, Verfügbarkeit der Kommunika- tionskanäle, Replikationsstatus etc., selbst ermitteln und an die Partner-Failover-Kontrollkomponenten auf den anderen Hardwareeinrichtungen weitergeben. Der korrekte Ablauf der Failover-Kontrollkomponenten und der Datenaus-tausch zwischen ihnen benötigt selbst zumindest CPU-Leistung und Kommunikati¬ onsbandbreite, die durch geeignete Maßnahmen, wie Priorisie- rung, Reservierung von Budgets/Bandbreite, dedizierte/hoch- verfügbare Kommunikationskanäle oder dergleichen, sicherge¬ stellt sein muss. Dies kann beispielsweise auch dadurch er- reicht werden, dass die Failover-Kontrollkomponenten auf de- dizierten Hardwareeinrichtungen ablaufen, die keine oder in wesentlich geringerem Umfang andere Aufgaben zu bearbeiten haben.
Für das Verfahren ist es weiterhin von Vorteil, wenn nur die¬ jenige Failover-Kontrollkomponente eine Umschaltung vornimmt, die in der aktiven Rolle betrieben wird und jeweils die Res¬ source-Gruppe einer anderen Hardwareeinrichtung umschaltet. Hierdurch kann die Failover-Kontrollkomponenten als Entschei- dungsinstanz von der Logik der Rollenumschaltung der Ressour¬ ce-Gruppen als Ausführungsinstanz entkoppelt werden. Diese Entkopplung ist eine wesentliche Voraussetzung für die prob¬ lemlose Skalierung der Failover-Kontrollkomponenten bei ent¬ sprechender Verteilung. Die Logik der Rollenumschaltung der Ressource-Gruppen ist stets auf eine Hardwareeinrichtung be¬ schränkt. Sie muss beispielsweise die korrekte Reihenfolge der Umschaltung der einzelnen Ressourcen einschließlich Über¬ wachung und Fehlerbehandlung sicherstellen. Die Failover- Kontrollkomponenten wiederum können dadurch auf einer deut- lieh höheren logischen Ebene operieren und bleiben somit auch für komplexere Verteilungsszenarien vergleichsweise einfach zu implementieren und zu testen.
Die Hardwareeinrichtungen können zumindest als Redundanzpaar, vorzugsweise als Redundanztripel, betrieben werden, wobei auf einer Hardwareeinrichtung zumindest zwei Ressource-Gruppen betrieben werden. Im folgenden wird die Erfindung anhand der bevorzugten Aus¬ führungsbeispiele mit Hilfe der Figuren näher beschrieben, wobei darauf hingewiesen wird, dass nur die für das unmittelbare Verständnis der Erfindung wesentlichen Elemente gezeigt sind. Hierbei werden die folgenden Bezugszeichen ver¬ wendet:
1: erste Hardwareeinrichtung; 1.1: erste Ressource-Gruppe der ersten Hardwareeinrichtung; 1.1.1: Daten A; 1.1.2: Daten B; 1.1.3: Daten C; 1.1.4: erster Softwareprozess der ersten Res¬ source-Gruppe der ersten Hardwareeinrichtung; 1.1.5: zweiter Softwareprozess der ersten Ressource-Gruppe der ersten Hard¬ wareeinrichtung; 1.2: zweite Ressource-Gruppe der ersten Hardwareeinrichtung; 1.2.1: replizierte Daten X; 1.2.2: Soft- wareprozess der zweiten Ressource-Gruppe der ersten Hardware¬ einrichtung; 1.3: dritte Ressource-Gruppe der ersten Hard¬ wareeinrichtung; 1.4: Ausfall der ersten Hardwareeinrichtung; 1.5: Failover-Kontrollkomponente (FO-CTRL) der ersten Hard¬ ware; 2: zweite Hardwareeinrichtung; 2.1: erste Ressource- Gruppe der zweiten Hardwareeinrichtung; 2.1.1: replizierte
Daten A; 2.1.2: replizierte Daten B; 2.1.3: replizierte Daten C; 2.1.4:erster Softwareprozess der ersten Ressource-Gruppe der zweiten Hardwareeinrichtung; 2.1.5: zweiter Softwareprozess der ersten Ressource-Gruppe der zweiten Hardwareeinrichtung; 2.2: zweite Ressource-Gruppe der zweiten Hardwareeinrichtung; 2.2.1: Daten X; 2.2.2: Softwareprozess der zweiten Ressource- Gruppe der zweiten Hardwareeinrichtung; 2.3: dritte Ressour¬ ce-Gruppe der zweiten Hardwareeinrichtung; 2.5: Failover- Kontrollkomponente der zweiten Hardware; 3: dritte Hardware- einrichtung; 3.1: erste Ressource-Gruppe der dritten Hard¬ wareeinrichtung; 3.2: zweite Ressource-Gruppe der dritten Hardwareeinrichtung; 3.3: dritte Ressource-Gruppe der dritten Hardwareeinrichtung; 3.4: vierte Ressource-Gruppe der dritten Hardwareeinrichtung; 3.5: Failover-Kontrollkomponente der dritten Hardware; 4: vierte Hardwareeinrichtung; 4.1: erste
Ressource-Gruppe der vierten Hardwareeinrichtung; 4.2: zweite Ressource-Gruppe der vierten Hardwareeinrichtung; 4.3: dritte Ressource-Gruppe der vierten Hardwareeinrichtung; 4.4: vierte Ressource-Gruppe der vierten Hardwareeinrichtung; 4.5: Failo- ver-Kontrollkomponente der vierten Hardware; 5: Kommunikati¬ onskanäle; 6: Datenreplikation; 7: Aktive FO-CTRL der HW 1 steuert die Hardware 3 und 4; 8: Aktive FO-CTRL der HW 3 steuert die Hardware 1 und 2; 9: Zyklischer Austausch von Statusdaten; 10: Redundanzpaar; 11: Redundanztripel; A: Kom¬ ponenten sind aktiv; S: Komponenten sind im Standbymodus; Sl: erster Standbymodus; S2: zweiter Standbymodus.
Es zeigen im Einzelnen:
Figur 1: Redundanzpaar mit jeweils zwei Ressource-Gruppen im
Normalbetrieb; Figur 2: Redundanzpaar aus Figur 1 bei Ausfall der ersten
Hardwareeinrichtung;
Figur 3: Redundanztripel mit drei Ressource-Gruppen im Normalbetrieb;
Figur 4: Redundanztripel mit jeweils drei Ressource-Gruppen im Normalbetrieb; Figur 5: Zwei Redundanzpaare, bei denen jedes Redundanzpaar durch einen Failover-Kontrollprozess des anderen Redundanzpaares gesteuert wird.
Die Figur 1 zeigt zwei Hardwareeinheiten 1 und 2, die ein Re¬ dundanzpaar 10 bilden, im Normalbetrieb. Die redundante Absi¬ cherung von Hardwareeinheiten, durch gedoppelten Aufbau, ist bereits bekannt.
Im Unterschied zu bisher bekannten Redundanzpaaren verfügt im Redundanzpaar 10 aus Figur 1 sowohl die erste Hardwareeinheit 1 als auch die zweite Hardwareeinheit 2 über jeweils zwei Ressource-Gruppen 1.1, 1.2 und 2.1, 2.2. Die einzelnen Res¬ source-Gruppen 1.1, 1.2 und 2.1, 2.2 können dabei aufgaben¬ spezifisch durch Zusammenfassen entsprechender Komponenten gebildet werden, wobei in einer Ressource-Gruppe 1.1, 1.2 und 2.1, 2.2 unter anderem bestimmte Daten, diese Daten nutzende Softwareprozesse und Kommunikationskanäle 5 zusammengefasst werden.
Beispielsweise laufen auf der ersten Ressource-Gruppe 1.1 der ersten Hardwareeinheit 1 zwei Softwareprozesse 1.1.4 und 1.1.5, wobei der erste Softwareprozess 1.1.4 auf die Daten 1.1.2 und 1.1.3 zugreift und der zweite Softwareprozess 1.1.5 auf die Daten 1.1.1 zugreift. Auf der zweiten Ressource- Gruppe 1.2 der ersten Hardwareeinheit 1 würde ein Software¬ prozess 1.2.2 laufen, der auf die Daten 1.2.1 zugreift. Bei Vermittlungssystemen, wie zum Beispiel Media-Gateways, dienen die Kommunikationskanäle 5 in der Regel zur Kommunikation der Softwareprozesse mit externen Kommunikationspartnern.
Entsprechend dem redundanten Aufbau des Redundanzpaares 10 sind die lauffähigen Softwareprozesse, die Kommunikationska¬ näle und die Daten der ersten Hardwareeinheit 1 quasi „spie- gelsymmetrisch" auf der zweiten Hardwareeinheit 2 vorhanden.
Als weiterer Unterschied zu bekannten Redundanzpaaren befin¬ det sich bei dem Redundanzpaar 10 aus Figur 1 nicht eine Hardwareeinheit vollständig im aktiven und die andere Hard- wareeinheit vollständig im Standbymodus, sondern es wird ge¬ nau eine Ressource-Gruppe aktiv auf einer Hardwareeinheit be¬ trieben. Somit ist jede Hardwareeinheit aktiv.
Welche der Ressource-Gruppen 1.1, 1.2 und 2.1, 2.2 gerade ak- tiv und welche sich im Standbymodus befindet, wird durch ein A oder ein S in der rechten oder linken oberen Ecke der Res¬ source-Gruppe 1.1, 1.2 und 2.1, 2.2 symbolisiert. In der ers¬ ten Hardwareeinheit 1 ist die erste Ressource-Gruppe 1.1 ak¬ tiv und die zweite Ressource-Gruppe 1.2 im Standbymodus. In der zweiten Hardwareeinheit 2 ist die erste Ressource-Gruppe 2.1 im Standbymodus und die zweite Ressource-Gruppe 2.2 ak¬ tiv. Durch diesen besonderen Aktiv/Standby-Betrieb der beiden Hardwareeinheiten 1 und 2 und der Ressource-Gruppen 1.1, 1.2 und 2.1, 2.2 wird sichergestellt, dass im fehlerfreien Normalbetrieb des Redundanzpaares 10 mindestens eine Ressour¬ ce-Gruppe 1.1 und 2.2 auf jeder Hardwareeinheit in der akti- ven Rolle ist und sich somit keine Hardwareeinheit, weder die erste Hardwareeinheit 1 noch die zweite Hardwareeinheit 2, vollständig im Standbymodus befindet. Im Normalbetrieb werden also die korrekte Funktion und Verfügbarkeit aller Hardware¬ einheiten 1 und 2 gewährleistet und kontrolliert.
Weiterhin findet im Normalbetrieb des Redundanzpaares 10 eine Datenreplikation 6 aller Daten, also eine Datenkopie, der ak¬ tiven Ressource-Gruppen 1.1 und 2.2 zu den im Standbymodus befindlichen Ressource-Gruppen 2.1 und 1.2 statt. So werden die Daten 1.1.1 bis 1.1.3 der ersten und aktiven Ressource- Gruppe 1.1 der ersten Hardwareeinheit 1 kontinuierlich auf die der ersten und im Standbymodus befindlichen Ressource- Gruppe 2.1 der zweiten Hardwareeinheit 2 repliziert. Analog dazu werden die Daten 2.2.1 der zweiten und aktiven Ressour- ce-Gruppe 2.1 der zweiten Hardwareeinheit 2 kontinuierlich auf die der zweiten und im Standbymodus befindlichen Ressour¬ ce-Gruppe 1.2 der ersten Hardwareeinheit 1 repliziert. Hier¬ durch stehen diese Daten im Falle eines Fehlers und/oder dem Ausfall einer oder mehrerer Hardwareeinheiten bei der Funkti- onsübernahme durch die Standby-Komponenten der redundanten Hardwareeinheit zur Verfügung.
Die Figur 2 zeigt das Redundanzpaar 10 aus Figur 1, wobei die erste Hardwareeinrichtung 1 ausgefallen ist. Der Ausfall 1.4 der erste Hardwareeinrichtung 1 wird durch das Durchstreichen dieser Hardwareeinrichtung dargestellt. Bei Ausfall 1.4 der ersten Hardwareeinrichtung 1, der durch physischen Fehler o- der Softwarefehler bedingt sein kann, wird die bislang in der aktiven Rolle betriebene Ressource-Gruppe 1.1 (in Figur 1) und deren Funktion in Echtzeit auf die Hardwareeinrichtung 2 umgeschaltet, die die Ressource-Gruppe 2.1 bisher im Standby¬ modus betrieben hat. Durch die Datenreplikation der essen- tiellen Daten ist der Ausfall beziehungsweise die Nichtver- fügbarkeit des Systems durch die Umschaltung minimiert. Nach Ausfall 1.4 der Hardwareeinheit 1 sind nun beide Ressource- Gruppen 2.1 und 2.2 der Hardwareeinheit 2 im aktiven Modus. Für das Gesamtsystem stehen also alle Funktionen zur Verfü¬ gung.
Die Figur 3 zeigt ein Redundanztripel 11, also drei redundant angeordnete Hardwareeinheiten 1, 2 und 3 mit drei Ressource- Gruppen im Normalbetrieb. Innerhalb der ersten Hardware¬ einheit 1 ist die erste Ressource-Gruppe 1.1 aktiv und die zweite Ressource-Gruppe 1.2 im Standbymodus . Innerhalb der zweiten Hardwareeinheit 2 ist die erste Ressource-Gruppe 2.1 im Standbymodus und die dritte Ressource-Gruppe 2.3 aktiv. Innerhalb der dritten Hardwareeinheit 3 ist die dritte Ressource-Gruppe 3.3 im Standbymodus und die zweite Ressource-Gruppe 3.2 aktiv. Es ist also auf jeder der drei Hardwareeinheiten 1, 2 und 3 jeweils mindestens eine aktive Ressource-Gruppe 1.1, 2.3 und 3.2. Die korrekte Funktion des Redundanztripeis 11 im Normalbetrieb ist somit ein eindeutiges Indiz für die korrekte Funktion aller drei Hardwareeinheiten 1, 2 und 3. Damit das System korrekt funktioniert, muss mindestens eine erste, eine zweite und eine dritte Ressource-Gruppe aktiv arbeiten. Durch die ständige Datenreplikation 6 ist es wiederum möglich die
Funktion einer Hardwareeinheit bei Ausfall durch eine andere Hardwareeinheit zu übernehmen.
Beispielhaft wird bei einem Ausfall der dritten Hardware- einheit 3 die Funktionen der aktiven zweiten Ressource-Gruppe 3.2 durch die bislang im Standbymodus befindliche zweite Ressource-Gruppe 1.2 der Hardwareeinheit 2 übernommen. Trotz Ausfall dieser dritten Hardwareeinheit 3 sind immer noch mindestens eine erste 1.1, eine zweite 1.2 (beide sind auf der ersten Hardwareeinheit 1) und eine dritte Ressource- Gruppe 2.3 aktiv. Die Funktion des Systems bleibt also erhalten. Die Figur 4 zeigt ein Redundanztripel 11 mit jeweils drei Ressource-Gruppen pro Hardwareeinheit 1, 2 und 3 im Normal¬ betrieb. Auf der ersten Hardwareeinheit 1 ist die erste Ressource-Gruppe 1.1 aktiv. Die zweite Ressource-Gruppe 1.2 ist im zweiten Standbymodus S2 und die dritte Ressource- Gruppe 1.3 im ersten Standbymodus Sl. Ebenso ist auf der zweiten und dritten Hardwareeinrichtung jeweils eine Ressource-Gruppe 2.2 und 3.3 aktiv, die jeweiligen anderen Ressource-Gruppen 2.1, 2.3 und 3.1, 3.2 sind im Standbymodus.
Beim Ausfall der ersten Hardwareeinheit 1 würde zunächst die im ersten Standbymodus befindliche Ressource-Gruppe 2.1 der zweiten Hardwareeinheit 2 diese Funktion übernehmen, bei ei- nem weiteren Ausfall der zweiten Hardwareeinheit 2 würde Res¬ source-Gruppe 3.1 der dritten Hardwareeinheit 3 diese Funkti¬ on übernehmen.
Es werden also mehrere unterschiedliche Ressource-Gruppen auf einer Hardwareeinrichtung in der aktiven Rolle betrie¬ ben, die ihre Standby-Partner auf gleichen oder auch unter¬ schiedlichen Hardwareeinrichtungen haben.
Ebenso ist es auch möglich, mehr als eine Ressource-Gruppe auf mehr als einer Hardwareeinrichtung in der Standby-Rolle zu betreiben, um die Verfügbarkeit des Gesamtsystems auch bei weiter reichenden Ausfällen sicherzustellen.
Die Figur 5 zeigt zwei Redundanzpaare 10, bei denen jedes Redundanzpaar 10 durch eine Failover-Kontrollkomponente
(Abkürzung: FO-CTRL) 1.5 und 3.5 des anderen Redundanzpaares gesteuert wird.
Die Anordnung in Figur 5 besteht aus vier Hardware- einrichtungen, von denen jeweils die erste Hardwareeinrich¬ tung 1 und die zweite Hardwareeinrichtung 2 das erste Redun¬ danzpaar 10 und die dritte Hardwareeinrichtung 3 und die vierte Hardwareeinrichtung 4 das zweite Redundanzpaar 10 bil¬ den. Jede Hardwareeinrichtung 1, 2, 3 und 4 wird mit jeweils zwei Ressource-Gruppen betrieben.
Die Zuordnung und gegebenenfalls die Umschaltung der Ak- tiv/Standby-Rollen wird in dieser Anordnung durch die jewei¬ ligen Failover-Kontrollkomponenten 1.5 und 3.5 vorge-nommen, die auf jeder Hardwareeinrichtung aktiv laufen. Alle Failo¬ ver-Kontrollkomponenten 1.5, 2.5, 3.5 und 4.5 tauschen zyk- lisch Statusdaten aus, dargestellt durch die mit einem Strich verbundenen Doppelpfeile mit Bezugszeichen 9, die die Verfüg¬ barkeit der relevanten Ressourcen wiedergeben und als Ent¬ scheidungsgrundlage für die Rollenumschaltung dienen.
Die Failover-Kontrollkomponenten 1.5, 2.5, 3.5 und 4.5 sind ihrerseits einer Ressource-Gruppe zugeordnet. So ist die Fai- lover-Kontrollkomponente 1.5 der ersten Hardwareeinheit 1 der ersten Ressource-Gruppe 1.1 zugeordnet. Die Failover- Kontrollkomponente 2.5 der zweiten Hardwareeinheit 2 ist der ersten Ressource-Gruppe 2.1 zugeordnet. Die Failover-
Kontrollkomponente 3.5 der dritten Hardwareeinheit 3 ist der dritten Ressource-Gruppe 3.3 zugeordnet. Und die Failover- Kontrollkomponente 4.5 der vierten Hardwareeinheit 4 ist der dritten Ressource-Gruppe 4.3 zugeordnet.
Über diese Zuordnung der Failover-Kontrollkomponenten 1.5, 2.5, 3.5 und 4.5 zu den Ressource-Gruppen haben diese damit selbst eine Aktiv- oder Standby-Rolle. So sind nur die Failo¬ ver-Kontrollkomponenten 1.5, und 3.5 aktiv, die Failover- Kontrollkomponenten 2.5 und 4.5 sind im Standbymodus . Nur die Failover-Kontrollkomponente in der Aktiv-Rolle übernimmt Steuerungsaufgaben, und zwar jeweils für die Ressource- Gruppen des anderen Redundanzpaares 10. So steuert die aktive Failover-Kontrollkomponente 1.5 die Hardwareeinrichtungen 3 und 4. Die weitere aktive Failover-Kontrollkomponente 3.5 steuert die Hardwareeinrichtungen 1 und 2. Die jeweils steuernde Komponente wird somit von Fehlern, auf den Hardwareeinrichtungen die sie steuert und deren Verfüg¬ barkeit sie somit mitbestimmt, gerade nicht beeinträchtigt. Gründe für eine Rollenumschaltung können neben dem Ausbleiben der zyklisch verteilten Statusdaten gezielte Problemmeldun¬ gen, zum Beispiel über Softwarefehler oder drohende Hardware¬ ausfälle, sein, wie Temperaturanstieg oder Ausfall redundan¬ ter Komponenten.
Ebenso realisierbar sind natürlich einfache Paaranordnungen, bei denen die Failover-Kontrollkomponenten sich innerhalb des Redundanzpaares über die Aktiv/Standby-Rollenzuordnung ver¬ ständigen müssen. Hierdurch reduziert sich die erreichbare Verfügbarkeit des Systems natürlich.
Weiterhin denkbar ist die Addition zusätzlicher Redundanzpaa¬ re zur obigen Anordnung, die ihrerseits keine Steuerungsauf¬ gaben für andere Redundanzpaare wahrnehmen. Generell ist die Verteilung der zu steuernden Ressource-Gruppen über die Hard- Wareeinrichtungen praktisch unabhängig von der Verteilung der sie steuernden Failover-Kontrollkomponenten möglich, so dass auch die weiter oben beschriebenen, komplexeren Verteilungen die Komplexität der Failover-Kontrollkomponenten nicht nen¬ nenswert beeinflussen.
Es versteht sich, dass die vorstehend genannten Merkmale der Erfindung nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der Erfindung zu verlassen.

Claims

Patentansprüche
1. Verfahren zum Nachweis der Verfügbarkeit von System¬ komponenten eines redundant aufgebauten Kommunikationssys- tems, bei dem Hardwareeinrichtungen (1, 2, 3, 4), die die
Systemkomponenten des Kommunikationssystems betreiben, zumin¬ dest doppelt vorhanden sind, wobei im Normalbetrieb des Kom¬ munikationssystems manche Systemkomponenten aktiv (A) und die für diese redundant vorhandenen Systemkomponenten im Standby- modus (S, Sl und S2) betrieben werden und bei Ausfall (1.4) einer oder mehrerer Hardwareeinrichtungen (1, 2, 3, 4) die redundant vorhandenen Systemkomponenten die Funktion der bis¬ lang aktiv betriebenen Systemkomponenten übernehmen, dadurch gekennzeichnet, dass die Systemkomponenten und die von diesen zumindest ver¬ wendeten Kommunikationskanäle (5), Softwareprozesse (1.1.4 und 1.1.5) und Daten (1.1.1 bis 1.1.3) funktions- und/oder aufgabenabhängig zu Ressource-Gruppen (1.1-1.3, 2.x, 3.x und 4.x) zusammengefasst und betrieben werden und jede Ressource- Gruppe (1.1-1.3, 2.x, 3.x und 4.x) auf mindestens zwei Hard¬ wareeinrichtungen (1, 2, 3, 4) ablauffähig ist und im Normal¬ betrieb und zum Nachweis der Verfügbarkeit der Systemkompo¬ nenten eine Ressource-Gruppe (1.1-1.3, 2.x, 3.x und 4.x) auf genau einer einzigen Hardwareeinrichtung (1, 2, 3, 4) aktiv (A) und die mindestens eine redundante Ressource-Gruppe (1.1- 1.3, 2.x, 3.x und 4.x) auf mindestens einer weiteren Hard¬ wareeinrichtung (1, 2, 3, 4) im Standbymodus (S, Sl, S2) be¬ trieben wird, wobei die Daten (1.1.1 bis 1.1.3) der aktiven Ressource-Gruppe (1.1) automatisch zu den Daten (2.1.1 bis 2.1.3) der redundant zugeordneten Ressource-Gruppe (2.1) rep¬ liziert werden.
2. Verfahren nach dem voranstehenden Anspruch 1, dadurch gekennzeichnet, dass angezeigt wird, welche Systemkomponenten und/oder Res¬ source-Gruppen (1.1-1.3, 2.x, 3.x und 4.x) aktiv (A) oder im Standbymodus (S, Sl, S2) betrieben werden. 3. Verfahren nach einem der voranstehenden Ansprüche 1 und 2, dadurch gekennzeichnet, dass die aktiven Systemkomponenten und/oder aktiven Ressour- ce-Gruppen (1.1-1.3, 2.x,
3.x und 4.x) bei Bedarf in den Standbymodus (S, Sl, S2) oder entgegengesetzt umgeschaltet werden.
4. Verfahren nach dem voranstehenden Anspruch 3, dadurch gekennzeichnet, dass die Softwareprozesse (1.1.4 und 1.1.5) oder die von die¬ sen verwendeten Systemkomponenten die Umschaltung vom aktiven (A) in den Standbymodus (S, Sl, S2) oder umgekehrt vornehmen.
5. Verfahren nach einem der voranstehenden Ansprüche 3 und
4, dadurch gekennzeichnet, dass zumindest eine Failover-Kontrollkomponente (1.5, 2.5,
3.5 und 4.5) die Umschaltung vornimmt.
6. Verfahren nach einem der voranstehenden Ansprüche 3 bis
5, dadurch gekennzeichnet, dass nur eine Failover-Kontrollkomponente (1.5, 2.5, 3.5 und 4.5) eine Umschaltung vornimmt, die in der aktiven Rolle (A) betrieben wird und jeweils die Ressource-Gruppe (1.1-1.3,
2.x, 3.x und 4.x) einer anderen Hardwareeinrichtung (1, 2, 3,
4) umschaltet.
7. Verfahren nach einem der voranstehenden Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die Hardwareeinrichtungen (1, 2, 3, 4) zumindest als Re¬ dundanzpaar (10), vorzugsweise als Redundanztripel (11), be- trieben werden, wobei auf einer Hardwareeinrichtung (1, 2, 3, 4) zumindest zwei Ressource-Gruppen (1.1, 1.2 und 2.1, 2.2 und 3.1, 3.2 und 4.1,4.2) betrieben werden.
PCT/EP2005/055173 2004-11-26 2005-10-11 Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems WO2006056506A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
MX2007006291A MX2007006291A (es) 2004-11-26 2005-10-11 Procedimiento para detectar la disponibilidad de componentes de sistema de un sistema de comunicacion redundante.
EP05797253A EP1820307B1 (de) 2004-11-26 2005-10-11 Verfahren zum nachweis der verf]gbarkeit von systemkomponenten eines redundanten kommunikationssystems
US11/791,689 US7739542B2 (en) 2004-11-26 2005-10-11 Process for detecting the availability of redundant communication system components
AT05797253T ATE553574T1 (de) 2004-11-26 2005-10-11 Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004057209 2004-11-26
DE102004057209.7 2004-11-26

Publications (1)

Publication Number Publication Date
WO2006056506A1 true WO2006056506A1 (de) 2006-06-01

Family

ID=35344671

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/055173 WO2006056506A1 (de) 2004-11-26 2005-10-11 Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems

Country Status (5)

Country Link
US (1) US7739542B2 (de)
EP (1) EP1820307B1 (de)
AT (1) ATE553574T1 (de)
MX (1) MX2007006291A (de)
WO (1) WO2006056506A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080793A3 (de) * 2015-11-12 2017-08-17 Siemens Aktiengesellschaft Verfahren zum betrieb eines mehrkernprozessors

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE553574T1 (de) * 2004-11-26 2012-04-15 Nokia Siemens Networks Gmbh Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems
EP2418580B1 (de) * 2010-08-10 2012-10-10 Siemens Aktiengesellschaft Verfahren zum Betreiben eines Netzwerkes und Netzwerk
JP6307858B2 (ja) * 2013-11-29 2018-04-11 富士通株式会社 伝送装置、伝送システム、及び監視制御方法
CN110376875A (zh) * 2018-04-13 2019-10-25 沈阳中科博微科技股份有限公司 一种用于控制系统的硬件冗余技术实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974114A (en) * 1997-09-25 1999-10-26 At&T Corp Method and apparatus for fault tolerant call processing
EP1133197A1 (de) * 2000-03-08 2001-09-12 Tenovis GmbH & Co. KG Vermittlungseinrichtung
DE10040467A1 (de) * 2000-08-18 2002-02-28 Siemens Ag Verfahren und Vorrichtung zur Koordinierung von Umschalt- und Ablösevorgängen zwischen Teilfunktionen
US20020073409A1 (en) * 2000-12-13 2002-06-13 Arne Lundback Telecommunications platform with processor cluster and method of operation thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3794151B2 (ja) * 1998-02-16 2006-07-05 株式会社日立製作所 クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
US6343007B1 (en) * 2000-03-31 2002-01-29 Alcatel Usa Sourcing, L.P. System and method for providing system functions in a telecommunications network
US7058853B1 (en) * 2000-06-09 2006-06-06 Hewlett-Packard Development Company, L.P. Highly available transaction processing
ATE553574T1 (de) * 2004-11-26 2012-04-15 Nokia Siemens Networks Gmbh Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974114A (en) * 1997-09-25 1999-10-26 At&T Corp Method and apparatus for fault tolerant call processing
EP1133197A1 (de) * 2000-03-08 2001-09-12 Tenovis GmbH & Co. KG Vermittlungseinrichtung
DE10040467A1 (de) * 2000-08-18 2002-02-28 Siemens Ag Verfahren und Vorrichtung zur Koordinierung von Umschalt- und Ablösevorgängen zwischen Teilfunktionen
US20020073409A1 (en) * 2000-12-13 2002-06-13 Arne Lundback Telecommunications platform with processor cluster and method of operation thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080793A3 (de) * 2015-11-12 2017-08-17 Siemens Aktiengesellschaft Verfahren zum betrieb eines mehrkernprozessors
CN108351815A (zh) * 2015-11-12 2018-07-31 西门子股份公司 用于运行多核处理器的方法

Also Published As

Publication number Publication date
MX2007006291A (es) 2007-12-07
EP1820307B1 (de) 2012-04-11
US7739542B2 (en) 2010-06-15
ATE553574T1 (de) 2012-04-15
US20080178037A1 (en) 2008-07-24
EP1820307A1 (de) 2007-08-22

Similar Documents

Publication Publication Date Title
DE3486022T2 (de) System zur verteilten verarbeitung mit fehlerdiagnose.
DE69802833T2 (de) Diagnose redundanter steuerungen, die eine private lun verwenden
DE60019038T2 (de) Intelligente Fehlerverwaltung
DE69615611T2 (de) Externes Speichersystem mit redundanten Speichersteuerungen
DE69231452T2 (de) Fehlertolerantes Rechnersystem mit Verarbeitungseinheiten die je mindestens drei Rechnereinheiten haben
DE69228986T2 (de) Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren
DE3751231T2 (de) Symmetriebildung für redundante Kanäle.
DE60318468T2 (de) Verfahren zur lösung von entscheidungslosigkeiten in einem cluster-rechnersystem
DE19752792B4 (de) Einrichtung zur Selbstdiagnose von im wesentlichen sporadischen Fehlern in seriellen Übertragungssystemen
WO2006056506A1 (de) Verfahren zum nachweis der verfügbarkeit von systemkomponenten eines redundanten kommunikationssystems
DE19811864B4 (de) Redundante Steuervorrichtung und Fehlerbehebungsverfahren dafür
DE3024370A1 (de) Redundantes steuersystem
EP1231537A1 (de) Automatische Inbetriebnahme eines Clustersystems nach einem heilbaren Fehler
DE112020000145T5 (de) Redundantes Netzwerk-IP-intelligentes Umschaltverfahren und System basierend auf redundantem Computer
DE1802999B2 (de) Schaltungsanordnung fuer zentralgesteuerte vermittlungs anlagen insbesondere fernsprechvermittlungsanlagen mit jeweils mindestens einem programm und oder zustandsspeicher
DE60309012T2 (de) Verfahren und system zur sicherstellung eines busses und eines steuerservers
DE4302908A1 (de) Verfahren zur Ermittlung kritischer Fehler insbesondere für ein Kommunikationssystem und eine nach diesem Verfahren arbeitende Schaltungsanordnung
DE102004051130A1 (de) Verfahren und Automatisierungssystem zum Bedienen und/oder Beobachten mindestens eines Feldgerätes
DE102004033263B4 (de) Steuer-und Regeleinheit
EP2224340B1 (de) Verfahren und Managementsystem zum Konfigurieren eines dynamischen Informationssystems sowie Computerprogrammprodukt
EP1803261A1 (de) Verfahren zur fehlererkennung in einem paketbasierten nachrichtenverteilsystem
WO1990001246A1 (de) Verfahren zum erlangen von netzkenntnissen über ein digitales übertragungsnetz
DE3642851A1 (de) Fehlertolerantes rechensystem und verfahren zum erkennen, lokalisieren und eliminieren von fehlerhaften einheiten in einem solchen system
EP1262872B1 (de) Master-CPU und Reserve-CPU Synchronisationsschnittstelle
EP0902369B1 (de) Verfahren zur Isolation eines defekten Rechners in einem fehlertoleranten Mehrrechnersystem

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005797253

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: MX/a/2007/006291

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 1960/KOLNP/2007

Country of ref document: IN

WWP Wipo information: published in national office

Ref document number: 2005797253

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11791689

Country of ref document: US