WO2004086225A1 - Virtual computer system - Google Patents

Virtual computer system Download PDF

Info

Publication number
WO2004086225A1
WO2004086225A1 PCT/JP2003/003522 JP0303522W WO2004086225A1 WO 2004086225 A1 WO2004086225 A1 WO 2004086225A1 JP 0303522 W JP0303522 W JP 0303522W WO 2004086225 A1 WO2004086225 A1 WO 2004086225A1
Authority
WO
WIPO (PCT)
Prior art keywords
computer
cpu
computers
abnormality
computer system
Prior art date
Application number
PCT/JP2003/003522
Other languages
French (fr)
Japanese (ja)
Inventor
Hiroaki Otsuka
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2003/003522 priority Critical patent/WO2004086225A1/en
Publication of WO2004086225A1 publication Critical patent/WO2004086225A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit

Definitions

  • the present invention relates to a computer system including a plurality of computers and employing a hardware redundant configuration.
  • Patent Documents 1 to 4 Conventionally, as a general high availability system, for example, the technologies of Patent Documents 1 to 4 below are known.
  • a general-purpose computer server for example, combining multiple IA (Intel Architecture) servers to secure redundancy
  • IA Intelligent Architecture
  • the general-purpose servers that make up the virtual machine execute processing synchronously. Then, the status of each general-purpose server is monitored mutually, and if a difference in the status is detected, it is determined that an error has occurred.
  • the hardware status does not match between the computers, an abnormal status is detected.
  • the memory usage of each general-purpose server, the number of iZo accesses, the number of running processes, etc. must be the same.
  • the computers constituting the virtual machine execute processing in synchronization so that these states always match.
  • each general-purpose server is subject to mutual status monitoring as described above.
  • Such hardware status as the temperature of the CFU is excluded from mutual monitoring.
  • Such non-monitored hardware includes, for example, a fan of a CPU, a bit error of a memory accessed by the CPU, and the like. If a failure occurs in the hardware of each general-purpose server individually, synchronization is lost.
  • Non-patent document 1
  • Patent Document 1
  • Patent Document 2
  • Japanese Patent Application Laid-Open No. 11-27296 discloses the invention.
  • the present invention is such a virtual computer system, in which a plurality of computers execute a synchronization process to configure a virtual computer system and provide a normal function when each of the computers is in a synchronized state.
  • Each computer is A first processing unit that functions on the virtual computer system, and a second processing unit that individually functions on each of the computers,
  • the second processing unit has means for notifying the occurrence of the notified abnormality.
  • the first processing unit detects an abnormality on each computer as an abnormality on the virtual machine system.
  • the abnormality refers to, for example, an abnormality of hardware or the like attached to each computer.
  • the abnormality in the virtual computer system is not an abnormality in each of the computers to be subjected to the synchronization processing, but refers to, for example, an abnormality in such a single computer when the virtual computer system is regarded as a single computer.
  • the abnormality detected on the virtual machine is converted into information indicating the abnormality on the computer, and is notified to the second processing unit.
  • the information indicating the abnormality on the computer is, for example, information indicating an actual abnormality occurrence position on the computer. Therefore, the second processing unit can notify the user of the abnormality as an abnormality on the computer, for example.
  • the first processing unit and the second processing unit may be included in a computer constituting a single server device.
  • the first processing unit and the second processing unit may be included in different computers configuring different server devices.
  • a plurality of computers execute a synchronization process to configure a virtual computer system, and provide a normal function when each of the computers is in a synchronized state.
  • the abnormality detected on the virtual machine is converted into information indicating the abnormality on the computer. And notifying the information.
  • the present invention may be a program that causes a computer or other device, machine, or the like to realize any of the above functions.
  • a program may be recorded on a recording medium readable by a computer or the like.
  • FIG. 1 is a schematic diagram of a computer system according to an embodiment of the present invention
  • FIG. 2 is a diagram showing an outline of the operation of the computer system.
  • FIG. 3 is a hardware configuration diagram of the computer 1 (or the computer 2) shown in FIG.
  • FIG. 4 shows an outline of the synchronization process.
  • F I G. 5 is an example of a hardware management table on computer 1,
  • F I G. 6 is an example of the hardware management table on Computer 2,
  • FIG.7 is an example of a hardware management table on a virtual machine.
  • FIG. 8 is a flowchart showing the failure detection processing in the computer system.
  • FIG. 9 and FIG. 0 are computers according to a modification of the present embodiment
  • FIG. 3 is a diagram showing the configuration of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • Fig. 1 shows a schematic diagram of the computer system.
  • This computer system includes a computer 1 and a computer 2.
  • Calculator 1 and Calculator 2 both have similar components.
  • Calculator 1 has CPUs 1 and 1 and 2 and memories 13 and 14 and a hard disk It has 15 and 16 and network interfaces 17 and 18.
  • the computer 2 has CPUs 21 and 22, memories 23 and 24, hard disks 25 and 26, and network interfaces 27 and 28.
  • the CPUs 12 and 22 synchronize with each other to form a virtual computer system. That is, the CPU 12 executes information processing by the memory 14, the hard disk 16 and the network interface 18.
  • the CPU 22 uses the memory 24, the hard disk 26, and the network interface 28 to execute the same information processing as the CPU 12 in synchronization with the CPU 12.
  • access to input / output devices for example, hard disks 15 and 16 and network interfaces 17 and 18 is controlled by the CPU 11.
  • access to the hard disks 25 and 26, the network interfaces 27 and 28, etc. is controlled by the CPU 21. That is, both CPU 11 and PU 21 operate as input / output processors.
  • the CPU 12 accesses the hard disk 16 through the CPU 11.
  • the CPU 12 accesses the network interface 18 through the CPU 11.
  • the CPU 22 accesses the hard disk 26 through the CPU 21.
  • the CPU 22 accesses the network interface 28 through the CPU 21.
  • both the CPUs 12 and 22 provide information processing functions as main processors.
  • the terminal 30 on the network is connected to the computer system via one of the network interfaces 18 and 19 to the system.
  • the terminal 30 When the terminal 30 is connected to the computer system through the network interface 18, the terminal 30 is provided with the information processing function of the CPU 12 through the CPU 11. At this time, the network interface 28 is in the standby state ⁇ o.
  • the CPU The virtual computer system that operates on the CPU 12 and the CPU 22 uses the network interface 28 instead of the network interface 18 for communication with the network. Specifically, the CPUs 12 and 22 switch the interface of the data link layer corresponding to the node on the network of the computer system from the net hook interface 18 to 28.
  • the terminal 30 accesses the computer system through the network interface 28.
  • the terminal 30 is actually provided with the information processing function from the CPU 22 via the network interface 28 and the CPU 21.
  • the CPU 22 executes processing in synchronization with the CPU 12. Therefore, even if the route to the terminal 30 is switched from the network interface 18 to the network interface 28, the terminal 30 can continue to receive the information processing function provided before the switching.
  • the route to the terminal 30 is similarly switched from the network interface 18 to the network interface 28. For this reason, the terminal 30 can continuously receive the information processing function provided from the CPU 12 before the failure occurs.
  • the hard disk 16 has a mirror relationship with the hard disk 26. That is, the CPU 12 writes the same contents to the hard disk 16 and the hard disk 26 via the CPU 11 and the CPU 21. Therefore, for example, when a failure occurs in the hard disk 16, the CPU 12 can read data from the hard disk 26.
  • the terminal 30 continues to provide the information processing function executed before the failure from the CPU 12. This is the same also when the terminal 30 is provided with the information processing function from the CPU 22.
  • the terminal 30 can continue the information processing being executed before the failure occurs.
  • this system cannot monitor hardware attached to the CPU 12 itself, for example, the memory 14, or a temperature sensor (not shown) of the CPU 12, a fan (not shown) of the CPU 12, and the like. These hardware does not always have the same state as the hardware attached to the corresponding CPU 22 in normal operation in which no failure has occurred.
  • the temperature of the CPU 12 does not always match the temperature of the CPU 22 within a predetermined allowable range. Further, there may be a case where the fan of the CPU 12 stops in an allowable range and the fan of the CPU 22 does not stop.
  • the computer system according to the present embodiment has a function of monitoring resources attached to the CPUs 12 and 22 by placing the resources under the control of a program on the virtual computer system formed by the CPUs 12 and 22. provide.
  • Fig. 2 shows an overview of the operation of this computer system.
  • the virtual computer system is formed by the CPUs 12 and 22. Then, information processing is executed on this virtual computer system.
  • a resource management program for managing resources attached to the CPU 12 and the CPU 22 is executed on this virtual computer system. Then, the resource management program detects a hardware failure. This hardware failure is detected by the resource management program on the virtual machine via the CPU 12 or the CPU 22.
  • the resource management program on the virtual machine does not treat each resource as hardware having a redundant configuration. That is, the resource management program manages resources not as hardware subject to synchronization processing included in the redundantly configured CPUs 12 and 22, but as independent hardware on a virtual computer. Therefore, even if a failure occurs in the hardware attached to either the CPU 12 or the CPU 22, it is not determined that the synchronization is abnormal.
  • This hardware failure is notified to the OS on the virtual machine system (arrow A1). Then, the OS on the virtual computer system notifies the computer that manages the display devices such as light-emitting diodes (called a real computer in FIG. 2) of the hardware failure information (A2). The real computer turns on the light emitting diode and the like based on the notification (A3).
  • the OS on the virtual computer system notifies the computer that manages the display devices such as light-emitting diodes (called a real computer in FIG. 2) of the hardware failure information (A2).
  • the real computer turns on the light emitting diode and the like based on the notification (A3).
  • Fig. 3 shows the hardware configuration of computer 1 shown in Fig. 1.
  • the hardware configuration diagram of the computer 2 is the same as that of FIG. 3, and therefore, the description thereof is omitted.
  • Calculator 1 has CPUs 11 and 12, chipset 41 (Northbridge in FIG.3), and chipset 46.
  • the CPU 11 provides an information processing function.
  • the CPU 12 provides an input / output management function. Therefore, in the computer 1, the CPU 11 accesses various input / output devices via the CPU 12.
  • a memory slot 42 and an input / output chip 43 are connected to the chipset 41.
  • a memory board on which a DRAM is mounted is mounted in the memory slot 42.
  • Part of the memory connected to the memory slot 42 is under the control of the CPU 11, and part of the memory is under the control of the CPU 21.
  • PCI buses are connected to the input / output chip 43. These PCI buses are provided with a number of slots, one of which, for example, slot 44 has other slots. An interface card for communication with Computer 1 is installed.
  • the CPU 12 accesses the slot 44 through the CPU 11. Then, it communicates with the CPU of the computer 2 by the communication interface. With this configuration, computer 1 (CPU 12) synchronizes with computer 2 to form a virtual computer system.
  • an SCS I (Small Computer System Interface) controller 45 and the like are connected to the PC I node.
  • the chipset 41 is further connected to a chipset 46 via a PCI bus.
  • the chip set 46 is connected to a server management chip 51, an EE PROM (Electronically Erasable and Programmable Read Only Memory) 51, and a front panel 52 through an SM (Server Management) bus.
  • EE PROM Electrically Erasable and Programmable Read Only Memory
  • SM Server Management
  • the server management chip 51 monitors each hardware of the computer 1, and executes a test / maintenance function.
  • On the front panel 52 a light emitting diode and the like are mounted, and the state of the computer 1 is displayed.
  • the chipset 46 is further connected to a flash memory 53 storing BIOS and an extended input / output chip 54 via an Industrial Standard Architecture (ISA) bus.
  • the expansion input / output chip 54 is connected to a serial port, a parallel port, a port for a floppy disk (registered trademark), a keyboard, a mouse, and the like.
  • the chipset 46 includes an IDE (Integrated Drive Electronics) port, a USB (Universal Serial Bus) port, and the like.
  • a video controller 47, a LAN controller 48, and other PCI slots are connected on a PCI bus connecting the chipset 41 and 46.
  • Fig. 4 shows an overview of the synchronization process in this computer system.
  • a virtual computer is configured by the synchronous processing of the CPUs 12 and 22.
  • the hardware attached to the CPU 12, the memory 14, and the CPU 12 constitutes the real computer resources 51.
  • CPU22 S memory 24 and hardware attached to CPU22 Make up resource 52.
  • the CPU 11 functions as an input / output processor of the CPU 12.
  • the memory 13 stores a boot record, a device driver, and the like, and is executed by the CPU 11 together with the BIOS on the flash memory.
  • the hardware accessed by the CPU 11, the memory 13 and the CPU 11 constitutes the real computer resource 53.
  • the CPU 21 functions as an input / output processor of the CPU 22.
  • the memory 23 stores a boot record, a device driver, and the like, and is executed by the CPU 21 together with the BIOS on the flash memory.
  • the hardware accessed by the CPU 21, the memory 23, and the CPU 21 constitutes an actual computer resource 54.
  • a synchronous processing program for executing synchronous processing is installed in the CPU 12 and the CPU 22, and each constitutes a virtual machine.
  • This synchronous processing program is combined with the OS originally running on the CPU 12 (and 22) to function as a virtual machine OS.
  • Such a synchronization processing program is provided, for example, by Marathon Technologies Corporation of the United States.
  • the processing executed by the CPU 12 is notified to the CPU 22, and the same processing is executed by the CPU 22.
  • Input / output to / from hardware via CPU 11 (for example, writing to a hard disk, reading from a hard disk, etc.) is performed via CPU 11 and CPU 21 in a redundant manner. (Mirror). That is, the hard disks included in the real computer resources 53 and 54 constitute a mirror disk.
  • FI G. 5 is an example of a hardware management table on Calculator 1
  • FI G. 6 is
  • FIG. 7 is an example of a hardware management table on machine 2
  • FIG. 7 is an example of a hardware management table on a virtual machine.
  • FIGS. 5 to 7 has a field in which the No. and the target are paired.
  • No. is information that identifies the hardware managed in each field.
  • the target is information that specifies hardware managed in the field.
  • a to E etc. are, for example, information indicating a memory area (for example, a page of a physical memory).
  • a to E and the like may be, for example, a temperature sensor output unit of a CPU, a sensor indicating a fan state, and the like.
  • the numbers shown in FIG. 5, 6 etc. are, for example, the physical addresses on computer 1 (or 2) for these hardware.
  • FIG.5 and 6 indicate that the hardware information attached to each computer 1 and 2 is managed individually for each computer 1 and 2. As described above, when the hardware attached to the computers 1 and 2 is managed individually for each of the computers 1 and 2, the hardware status between the computers 1 and 2 may not be matched.
  • FIG. 7 is an example of a table for managing hardware on such a virtual machine system.
  • the table shown in FIG. 7 manages resources belonging to the CPUs 12 and 22 as common resources of the virtual machine system. For this reason, a function of managing the CPU 12 and the CPU 22 as resources of the virtual machine system without providing the object of the synchronization process is provided.
  • FIG. 8 is a flowchart showing a failure detection process in the computer system.
  • the processing of S1 to S3 is executed by a program on CPU 12 (or CPU 22) constituting the virtual machine system.
  • S4 and S5 are executed by a program on CPU 11 (or CPU 21) constituting the real computer.
  • the actual computer refers to a computer that executes the processing independently of the computer 1 (or 2) independently of the synchronous processing.
  • the CPU 14 manages the memory 14 (see FIG. 1), detects an abnormal value of the temperature sensor output (not shown) of the CPU 12, and detects an abnormality of the fan (not shown) of the CPU 12.
  • the CPU 12 constituting the virtual computer system polls the status of hardware attached to itself. Therefore, the above-mentioned fault is detected by this polling (S1). Then, the CPU 12 specifies the location of the failure based on, for example, the hardware management table shown in FIG. Therefore, the failure location is detected as a hardware failure on the virtual machine system.
  • the CPU 12 converts the detected fault location into an actual fault location in the CPU 12 (for example, information on the real address space of the CPU 12) (S2). Then, the CPU 12 notifies the data indicating the failure location to the CPU 22 constituting the real computer (S3). The CPU 22 receives the notified data (S4). Then, the CPU 22 displays an abnormality on an input / output interface, for example, a display lamp on the front panel 52 on the SM bus shown in FIG. 3 or a display device on the video interface 47 on the PCI bus ( S 5).
  • an input / output interface for example, a display lamp on the front panel 52 on the SM bus shown in FIG. 3 or a display device on the video interface 47 on the PCI bus ( S 5).
  • the resources attached to the CPU 12 or the CPU 22 constituting the virtual machine are managed as resources common to the virtual machines, and the state is detected. Therefore, the state of the resources attached to the CPU 12 or 22 can be detected without causing a failure in the synchronous processing of the virtual machine.
  • the computer system converts the failure from the management on the virtual machine to the actual management of the computer 1 (or the computer 2) alone, and hands it over to the real computer.
  • the fault location is converted from management information on the virtual machine to management information on the real machine. Therefore, the actual fault location on Computer 1 (or Computer 2) (for example, the location on Computers 1 and 2 based on the physical address) can be displayed on the front panel or display device.
  • FIG. 9 and FIG. 10 are diagrams showing the configuration of a computer system according to a modification of the present embodiment.
  • the computer system is configured by the computer 1 having the CPUs 11 and 12 and the computer 2 having the CPUs 21 and 22.
  • implementation of the present invention is not limited to such a configuration.
  • FIGS. 9 and 10 show examples in which a virtual computer is constituted by four computers 101 to 104.
  • the computers 101 to 104 are also called, for example, general-purpose servers.
  • the configuration of each of the computers 101 and 104 is the same as that shown in FIG.
  • the computer 101 when the computer 101 constitutes a virtual computer system, only the CPU and the memory function. Therefore, the computer 101 uses the resources of the computer 103 for the components including the input / output portion, for example, the input / output chip 43, the chipset 46, the LAN controller 48, etc. shown in FIG.
  • the computer 103 provides a hard disk, a network interface (equivalent to the LAN controller 48 of FIG. 3), etc. as the input / output processor that provides the input / output part. Offer.
  • the relationship between the computer 101 and the computer 103 as described above is the same in the computer 102 and the computer 104.
  • the computer 103 and the computer 104 provide the computer 101 with a hard disk having a mirror configuration. That is, the write instruction from the computer 101 to the hard disk of the computer 103 is also executed to the hard disk of the computer 104.
  • the computer 103 and the computer 104 provide the computer 102 with a hard disk having a mirror configuration. That is, the write command from the computer 102 to the hard disk of the computer 104 is also executed to the hard disk of the computer 103.
  • each of the computers 101 to 104 may be provided with a communication card 110.
  • the communication card 110 is mounted, for example, in a slot 44 on a PCI bus shown in FIG.
  • the calculation 101 communicates with the computers 103 and 104 via the communication card 110.
  • the computer 103 and the computer 104 function as an input / output processor.
  • the computer 101 also sends an input / output command to the computer 103 to the computer 104.
  • the computer 102 recognizes the processing to be executed in synchronization with the input / output processing in the computers 103 and 104.
  • the computer 101 and the computer 102 synchronize with each other through computers 103 and 104 which are input / output processors.
  • the computer 101 and the computer 102 constitute a virtual computer system.
  • Such a virtual computer system is provided by Marathon Technologies Corooration in the United States.
  • the computer 101 and the computer 102 may execute the processing from S1 to S3 shown in FIG. Further, when a failure location is detected, the computers 101 and 102 may notify the computers 103 and 104 of the failure location. The computer 103 and the computer 104 may receive the notification and display the failure location on the front panel or a display device.
  • a program that causes a computer or other device or machine (hereinafter, referred to as a computer, etc.) to realize any of the above functions can be recorded on a recording medium readable by a computer or the like.
  • the function can be provided by causing a computer or the like to read and execute the program on the recording medium.
  • a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read by a computer.
  • Examples of such a recording medium that can be removed from a computer include a flexible disk, a magneto-optical disk, a CD-R0M, a CD-R / W, a DVD, a DAT, an 8 ram tape, and a memory card.
  • a recording medium fixed to a computer or the like includes a hard disk and a ROM (read only memory).
  • the present invention can be used for monitoring a hardware attached to each computer in a computer system in which a plurality of computers realize a virtual machine having a redundant configuration.
  • a system that performs synchronous processing by statistical processing regardless of a majority decision it is possible to monitor the hardware of each computer without impairing the synchronous processing.
  • the present invention can be used in the information equipment industry such as a computer.

Abstract

A virtual computer system in which a plurality of computers (1, 2) execute synchronization processing to constitute the virtual computer system which provides a normal function when the computers are in the synchronized state. The computers (1, 2) include first processing units (12, 22) functioning on the virtual computer system and second processing units (11, 21) respectively functioning on the respective computers. The first processing units (12, 22) have means for detecting an error of the computers (1, 2) as an error of the virtual computer system and means for converting the error detected on the virtual computers into information indicating an error on the computers (1, 2) and reporting it to the second processing units (11, 21). The second processing units (11, 21) have means for notifying generation of the error reported.

Description

仮想計算機システム 技術分野 Virtual computer system technical field
本発明は、 複数のコンピュータを含み、 ハードウェアの冗長構成を採る計算機 システムに関する。  The present invention relates to a computer system including a plurality of computers and employing a hardware redundant configuration.
 Light
背景技術 田 Background technology
従来、 一般的な高可用性システムとしては、 例えば、 下記特許文献 1から 4の 技術が知られている。  Conventionally, as a general high availability system, for example, the technologies of Patent Documents 1 to 4 below are known.
—方、 近年、 フォールト トレラントシステムの一種として、 汎用のコンビユー タサーバ (以下、 汎用サーバという) 、 例えば、 I A (Intel Architecture) サ ーバを複数台組み合わせて冗長性を確保した上で、 1台の仮想計算機として機能 させるシステムが知られている (例えば、 下記非特許文献 1参照) 。  In recent years, as a kind of fault-tolerant system, a general-purpose computer server (hereafter referred to as a general-purpose server), for example, combining multiple IA (Intel Architecture) servers to secure redundancy A system that functions as a virtual machine is known (for example, see Non-Patent Document 1 below).
このシステムでは、 仮想計算機を構成する各汎用サーバは、 同期して処理を実 行する。 そして、 各汎用サーバ間で相互に状態を監視し、 状態の相違が検出され ると異常が発生したと見なす。  In this system, the general-purpose servers that make up the virtual machine execute processing synchronously. Then, the status of each general-purpose server is monitored mutually, and if a difference in the status is detected, it is determined that an error has occurred.
このシステムでは、 基本的には、 1対の計算機システムにより冗長構成が実現 される。 したがって、 このシステムでは、 異常か否かは禳数計算機の多数決によ るのではなく、 統計的手法により決定される。  In this system, basically, a redundant configuration is realized by a pair of computer systems. Therefore, in this system, whether or not there is an abnormality is determined by a statistical method, not by a majority decision of the number computer.
したがって、 計算機間でハードウエアの状態が一致しないと異常状態が検出さ れる。 例えば、 各汎用サーバのメモリの使用量、 i Zoアクセス回数、 起動中の プロセス数等は同一でなければならない。 逆に、 仮想計算機を構成する各計算機 は、 これらの状態が常に一致するように同期して処理を実行している。  Therefore, if the hardware status does not match between the computers, an abnormal status is detected. For example, the memory usage of each general-purpose server, the number of iZo accesses, the number of running processes, etc. must be the same. Conversely, the computers constituting the virtual machine execute processing in synchronization so that these states always match.
そして、 各汎用サーバ間で、 これらの状態に相違があると、 動作異常が発生し たと見なされる。 その場合には、 汎用サーバ間の同期が解除され、 各計算機が単 独で処理を実行し、 仮想計算機としての機能を消失する。  If there is a difference between these states between the general-purpose servers, it is considered that an operation error has occurred. In this case, the synchronization between the general-purpose servers is released, and each computer executes processing independently, losing its function as a virtual computer.
しかしながら、 各汎用サーバには、 上記のような相互の状態監視の対象として 管理することが困難な資源がある。 特定部分、 例えば、 CPUの温度を各汎用サ ーバ間で同一 (温度差を所定の許容値以内) に保つことは容易ではない。 したが つて、 温度を汎用サーバ間の相互監視の対象に含めると、 同期の取れない事態が 頻発する。 However, each general-purpose server is subject to mutual status monitoring as described above. There are resources that are difficult to manage. It is not easy to keep the temperature of a specific part, for example, CPU, the same (the temperature difference is within a predetermined allowable value) between general-purpose servers. Therefore, if the temperature is included in the target of mutual monitoring between general-purpose servers, it often happens that synchronization is not achieved.
このため、 従来のシステムでは、 このような C F Uの温度等、 ハードウエアの 状態は、 相互監視の対象から外されていた。 このような監視対象外のハードウヱ ァとして、 例えば、 CPUのファン、 CPUがアクセスするメモリのビットエラ 一等がある。 各汎用サーバのハードウユアに個別に障害が発生すると、 同期が取 れなくなるからである。  For this reason, in the conventional system, such hardware status as the temperature of the CFU is excluded from mutual monitoring. Such non-monitored hardware includes, for example, a fan of a CPU, a bit error of a memory accessed by the CPU, and the like. If a failure occurs in the hardware of each general-purpose server individually, synchronization is lost.
そこで、 本発明は、 仮想計算機による同期を維持しつつ、 仮想計算機を構成す る各汎用サーバのハードウエアを監視する技術を提供する。 非特許文献 1  Thus, the present invention provides a technique for monitoring the hardware of each general-purpose server configuring a virtual machine while maintaining synchronization by the virtual machine. Non-patent document 1
Marathon Endurance 6200 2003年 2月 7日検索、 インターフェースく U R L : http://www. ens. co. jp/public/tc3_0000. nsf/ product s/MarathonEndur anc e6200?0penDocument >  Marathon Endurance 6200 Searched February 7, 2003, interface URL: http://www.ens.co.jp/public/tc3_0000.nsf/products/MarathonEndur anc e6200? 0penDocument>
特許文献 1  Patent Document 1
日本特開 2002— 288050号公報  Japanese Unexamined Patent Publication 2002-288050
特許文献 2  Patent Document 2
日本特開 2001— 75837号公報  Japanese Patent Laid-Open No. 2001-75837
特許文献 3  Patent Document 3
日本特開 2000— 227910号公報  Japanese Patent Laid-Open No. 2000-227910
特許文献 4  Patent Document 4
日本特開平 1 1 -27296号公報 発明の開示 .  Japanese Patent Application Laid-Open No. 11-27296 discloses the invention.
本発明は、 複数のコンピュータが同期処理を実行して仮想計算機システムを構 成し、 上記各コンピュータが同期状態にあるときに正常な機能を提供する、 その ような仮想計算機システムであって、 上記各コンピュータは、 上記仮想計算機システム上で機能する第 1処理部と、 上記各コンピュータ上で 個々に機能する第 2処理部とを備え、 The present invention is such a virtual computer system, in which a plurality of computers execute a synchronization process to configure a virtual computer system and provide a normal function when each of the computers is in a synchronized state. Each computer is A first processing unit that functions on the virtual computer system, and a second processing unit that individually functions on each of the computers,
上記第 1処理部は、 上記コンピュータ上の異常を上記仮想計算機システム上の 異常として検知する手段と、  Means for detecting an abnormality on the computer as an abnormality on the virtual computer system,
上記仮想計算機上で検知された異常を、 上記コンピュータ上の異常を示す情 報に変換して上記第 2処理部に通知する手段とを有し、  Means for converting an abnormality detected on the virtual machine into information indicating an abnormality on the computer and notifying the information to the second processing unit,
上記第 2処理部は、 上記通知された異常の発生を報知する手段を有するもので め 。  The second processing unit has means for notifying the occurrence of the notified abnormality.
ここで、 第 1処理部は、 各コンピュータ上の異常を仮想計算機システム上の異 常として検知する。 ここで、 異常とは、 例えば、 各コンピュータに付属するハー ドウエア等の異常をいう。  Here, the first processing unit detects an abnormality on each computer as an abnormality on the virtual machine system. Here, the abnormality refers to, for example, an abnormality of hardware or the like attached to each computer.
また、 仮想計算機システム上の異常とは、 同期処理の対象となる個々のコンビ ユータ上の異常ではなく、 例えば、 仮想計算機システムを単独の計算機と見なし、 そのような単独の計算機における異常をいう。  Further, the abnormality in the virtual computer system is not an abnormality in each of the computers to be subjected to the synchronization processing, but refers to, for example, an abnormality in such a single computer when the virtual computer system is regarded as a single computer.
この仮想計算機上で検知された異常は、 上記コンビユータ上の異常を示す情報 に変換して上記第 2処理部に通知される。 コンピュータ上の異常を示す情報とは、 例えば、 コンピュータ上での実際の異常発生位置等を示す情報をいう。 したがつ て、 第 2処理部は、 例えば、 利用者に対し、 その異常を上記コンピュータ上の異 常として報知することができる。  The abnormality detected on the virtual machine is converted into information indicating the abnormality on the computer, and is notified to the second processing unit. The information indicating the abnormality on the computer is, for example, information indicating an actual abnormality occurrence position on the computer. Therefore, the second processing unit can notify the user of the abnormality as an abnormality on the computer, for example.
好ましくは、 上記第 1処理部と第 2処理部とが単一のサーバ装置を構成するコ ンピュータに含まれていてもよい。  Preferably, the first processing unit and the second processing unit may be included in a computer constituting a single server device.
好ましくは、 上記第 1処理部と第 2処理部とが各々異なるサーバ装置を構成す る異なるコンピュータに含まれていてもよい。  Preferably, the first processing unit and the second processing unit may be included in different computers configuring different server devices.
また、 本発明は、 複数のコンピュータが同期処理を実行して仮想計算機システ ムを構成し、 上記各コンピュータが同期状態にあるときに正常な機能を提供する、 そのような仮想計算機システムにおいて異常を検知する方法であり、  Further, according to the present invention, a plurality of computers execute a synchronization process to configure a virtual computer system, and provide a normal function when each of the computers is in a synchronized state. Is a method of detecting
上記コンピュータ上の異常を上記仮想計算機上の異常として、 同期処理の対象 から除外して検知するステップと、  Detecting an abnormality on the computer as an abnormality on the virtual machine by excluding the abnormality from a target of the synchronization process;
上記仮想計算機上で検知された異常を、 上記コンピュータ上での異常を示す情 報に変換して通知するステップとを備えるものでもよい。 The abnormality detected on the virtual machine is converted into information indicating the abnormality on the computer. And notifying the information.
以上述べたように、 本発明によれば、 コンピュータ間の同期状態を維持しつつ、 各コンピュータに付属するハードウエア等の異常を検知し、 報知することができ る  As described above, according to the present invention, it is possible to detect and report an abnormality of hardware or the like attached to each computer while maintaining the synchronization state between the computers.
また、 本発明は、 コンピュータその他の装置、 機械等に、 以上のいずれかの機 能を実現させるプログラムであってもよい。 また、 本発明は、 そのようなプログ ラムをコンピュータ等が読み取り可能な記録媒体に記録したものでもよい。 図面の簡単な説明  Further, the present invention may be a program that causes a computer or other device, machine, or the like to realize any of the above functions. In the present invention, such a program may be recorded on a recording medium readable by a computer or the like. BRIEF DESCRIPTION OF THE FIGURES
F I G. 1は 本発明の一実施の形態に係る計算機システムの概要図であり、 FIG. 1 is a schematic diagram of a computer system according to an embodiment of the present invention,
F I G. 2は 本計算機システムの動作概要を示す図であり、 FIG. 2 is a diagram showing an outline of the operation of the computer system.
F I G. 3は F I G. 1に示した計算機 1 (または計算機 2) のハードウヱ ァ構成図であり  FIG. 3 is a hardware configuration diagram of the computer 1 (or the computer 2) shown in FIG.
F I G. 4は 同期処理の概要を示す図であり、  FIG. 4 shows an outline of the synchronization process.
F I G. 5は 計算機 1上のハードウエア管理テーブルの例であり、  F I G. 5 is an example of a hardware management table on computer 1,
F I G. 6は 計算機 2上のハードウエア管理テーブルの例であり、  F I G. 6 is an example of the hardware management table on Computer 2,
F I G. 7は 仮想計算機上のハードウエア管理テーブルの例であり、  FIG.7 is an example of a hardware management table on a virtual machine.
F I G. 8は 本計算機システムにおける障害検出処理を示すフローチヤ一ト であり、  FIG. 8 is a flowchart showing the failure detection processing in the computer system.
F I G. 9および F I G. 0は、 本実施形態の変形例に係る計算機、:  FIG. 9 and FIG. 0 are computers according to a modification of the present embodiment,
の構成を示す図である。 発明を実施するための最良の形態 FIG. 3 is a diagram showing the configuration of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 図面を参照して、 本発明の好適な実施の形態を説明する。  Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
<仮想計算機システムの概要 > <Overview of virtual computer system>
F I G. 1に、 本計算機システムの概要図を示す。 この計算機システムは、 計 算機 1および計算機 2から構成される。 計算機 1と計算機 2とは、 共に同様の構 成要素を有する。  Fig. 1 shows a schematic diagram of the computer system. This computer system includes a computer 1 and a computer 2. Calculator 1 and Calculator 2 both have similar components.
例えば、 計算機 1は、 CPU1 1、 1 2、 メモリ 1 3、 14、 ハードディスク 1 5、 1 6およびネットワークインターフェース 1 7、 1 8を有している。 また、 計算機 2は、 C PU 21、 22、 メモリ 23、 24、 ハードディスク 25、 26 およぴネットワークインターフェース 27、 28を有している。 For example, Calculator 1 has CPUs 1 and 1 and 2 and memories 13 and 14 and a hard disk It has 15 and 16 and network interfaces 17 and 18. The computer 2 has CPUs 21 and 22, memories 23 and 24, hard disks 25 and 26, and network interfaces 27 and 28.
このうち、 CPU 1 2と CPU22とは互いに同期を取り、 仮想計算機システ ムを構成する。 すなわち、 CPU1 2は、 メモリ 14、 ハ一ドディスク 1 6およ ぴネットワークインターフェース 18により、 情報処理を実行する。  Of these, the CPUs 12 and 22 synchronize with each other to form a virtual computer system. That is, the CPU 12 executes information processing by the memory 14, the hard disk 16 and the network interface 18.
一方、 C PU 22は、 メモリ 24、 ハードディスク 26およびネットワークィ ンターフェース 28により、 CPU 1 2と同一の情報処理を C PU 1 2と同期し て実行する。  On the other hand, the CPU 22 uses the memory 24, the hard disk 26, and the network interface 28 to execute the same information processing as the CPU 12 in synchronization with the CPU 12.
なお、 本実施の形態の計算機システムでは、 入出力装置、 例えば、 ハードディ スク 1 5、 1 6、 ネットワークインターフェース 1 7、 18等へのアクセスは C PU 1 1により制御される。 また、 例えば、 ハードディスク 25、 26、 ネット ワークインターフェース 27、 28等へのアクセスは C PU 21により制御され る。 すなわち、 C PU 1 1およびひ PU 2 1は、 いずれも入出力プロセッサとし て動作する。  In the computer system according to the present embodiment, access to input / output devices, for example, hard disks 15 and 16 and network interfaces 17 and 18 is controlled by the CPU 11. Also, for example, access to the hard disks 25 and 26, the network interfaces 27 and 28, etc. is controlled by the CPU 21. That is, both CPU 11 and PU 21 operate as input / output processors.
したがって、 CPU 1 2は、 CPU 1 1を通じてハードディスク 1 6にァクセ スする。 また、 CPU 1 2は、 C PU 1 1を通じてネットワークインターフエ一 ス 1 8にアクセスする。 同様に、 CPU 22は、 C PU 21を通じてハードディ スク 26にアクセスする。 また、 CPU22は、 C PU 21を通じてネッ トヮー クインターフェース 28にアクセスする。  Therefore, the CPU 12 accesses the hard disk 16 through the CPU 11. The CPU 12 accesses the network interface 18 through the CPU 11. Similarly, the CPU 22 accesses the hard disk 26 through the CPU 21. The CPU 22 accesses the network interface 28 through the CPU 21.
一方、 C PU 1 2および C PU 22は、 いずれも、 主プロセッサとして、 情報 処理機能を提供する。 その場合、 ネットワーク上の端末 30は、 ネットワークィ ンターフェース 1 8または 1 9のいずれかを通じて、 本計算機システムにシステ ムに接続される。  On the other hand, both the CPUs 12 and 22 provide information processing functions as main processors. In that case, the terminal 30 on the network is connected to the computer system via one of the network interfaces 18 and 19 to the system.
端末 30がネットワークインターフェース 1 8を通じて本計算機システムに接 続される場合、 端末 30には、 CPU 1 1を通じて CPU 1 2の情報処理機能が 提供される。 このとき、 ネッ トワークインターフェース 28は、 スタンバイ状態 にあ <o。  When the terminal 30 is connected to the computer system through the network interface 18, the terminal 30 is provided with the information processing function of the CPU 12 through the CPU 11. At this time, the network interface 28 is in the standby state <o.
そして、 例えば、 ネットワークインターフェース 1 8が故障した場合、 CPU 1 2および CPU 22で動作する仮想計算機システムは、 ネットワークインター フェース 1 8に代えてネットワークインターフェース 28をネットワークとの通 信に使用する。 具体的には、 CPU 1 2および 22は、 本計算機システムのネッ トワーク上のノードに対応するデータリンク層のインターフェースをネットフー クインターフェース 18から 28に切り替える。 And, for example, if network interface 18 fails, the CPU The virtual computer system that operates on the CPU 12 and the CPU 22 uses the network interface 28 instead of the network interface 18 for communication with the network. Specifically, the CPUs 12 and 22 switch the interface of the data link layer corresponding to the node on the network of the computer system from the net hook interface 18 to 28.
これにより、 端末 30は、 ネットワークインターフェース 28により本計算機 システムにアクセスする。 この場合、 実際には、 端末 30は、 ネットワークイン ターフェース 28および CPU 21を介して CPU 22から情報処理機能の提供 を受ける。 CPU22は、 C PU 12と同期して処理を実行している。 このため、 端末 30との経路がネットワークインターフェース 1 8からネットワークインタ 一フェース 28に切り替わっても、 端末 30は、 切替前に提供されていた情報処 理機能をそのまま継続して受けることができる。  Thus, the terminal 30 accesses the computer system through the network interface 28. In this case, the terminal 30 is actually provided with the information processing function from the CPU 22 via the network interface 28 and the CPU 21. The CPU 22 executes processing in synchronization with the CPU 12. Therefore, even if the route to the terminal 30 is switched from the network interface 18 to the network interface 28, the terminal 30 can continue to receive the information processing function provided before the switching.
また、 メモリ 14の障害等により、 CPU1 2が動作不能となった場合も、 同 様に、 端末 30との経路がネットワークインターフェース 18からネットワーク インターフェース 28に切り替わる。 このため、 端末 30は、 障害発生前に CP U 1 2から提供されていた情報処理機能をそのまま継続して受けることができる。 また、 ハードディスク 1 6は、 ハードディスク 26とミラーの関係にある。 す なわち、 CPU 1 2は、 CPU 1 1および CPU 21を介して同一の内容をハー ドディスク 1 6およびハードディスク 26に書き込んでいる。 したがって、 例え ば、 ハードディスク 1 6に障害が発生した場合、 CPU 1 2は、 ハードディスク 26からデータを読み出すことができる。  Similarly, when the CPU 12 becomes inoperable due to a failure in the memory 14 or the like, the route to the terminal 30 is similarly switched from the network interface 18 to the network interface 28. For this reason, the terminal 30 can continuously receive the information processing function provided from the CPU 12 before the failure occurs. The hard disk 16 has a mirror relationship with the hard disk 26. That is, the CPU 12 writes the same contents to the hard disk 16 and the hard disk 26 via the CPU 11 and the CPU 21. Therefore, for example, when a failure occurs in the hard disk 16, the CPU 12 can read data from the hard disk 26.
このため、 ハードディスク 1 6が故障した場合も、 端末 30は、 故障前に実行 していた情報処理機能を CPU 12から継続して提供される。 これは、 端末 30 が CPU 22から情報処理機能を提供されていた場合も同様である。  For this reason, even when the hard disk 16 fails, the terminal 30 continues to provide the information processing function executed before the failure from the CPU 12. This is the same also when the terminal 30 is provided with the information processing function from the CPU 22.
以上のように、 本計算機システムによれば C PU 1 2 (または 22) 、 メモリ 14 (または 24) 、 ハードディスク 1 6 (または 26) 、 ネットワークインタ 一フェース 1 8 (または 28) 等に障害が発生しても、 端末 30は、 障害発生前 に実行中の情報処理をそのまま続行させることができる。  As described above, according to this computer system, failures occur in the CPU 12 (or 22), the memory 14 (or 24), the hard disk 16 (or 26), the network interface 18 (or 28), etc. Even so, the terminal 30 can continue the information processing being executed before the failure occurs.
本計算機システムでは、 通常状態では、 C PU 1 2と C PU 22は同一の処理 を実行する。 このため、 CPU21と CPU22の間で、 入出力の状態は完全一 致している。 一方、 CPU21と CPU 22の処理の間に不一致が発生した場合、 統計的な決定手法によりいずれが正しいかを決定する。 このような決定手法は、 すでに米国 Marathon Technologies Corporation社のコンピュータシステムとして 提供されている。 . In this computer system, under normal conditions, CPUs 12 and 22 perform the same processing. Execute Therefore, the input / output state between CPU 21 and CPU 22 is completely the same. On the other hand, when a mismatch occurs between the processes of the CPU 21 and the CPU 22, which is correct is determined by a statistical determination method. Such a decision method is already provided as a computer system by Marathon Technologies Corporation of the United States. .
しかしながら、 このシステムでは、 C PU 1 2自身に付属するハードウェア、 例えば、 メモリ 14、 または CPU 1 2の不図示の温度センサ、 CPU 1 2の不 図示のファン等を監視することはできない。 これらのハードウェアは、 障害の発 生していない通常の運転において、 対応する CPU 22に付属するハードウエア と必ずしも同一の状態にはならない。  However, this system cannot monitor hardware attached to the CPU 12 itself, for example, the memory 14, or a temperature sensor (not shown) of the CPU 12, a fan (not shown) of the CPU 12, and the like. These hardware does not always have the same state as the hardware attached to the corresponding CPU 22 in normal operation in which no failure has occurred.
そのため、 これらのハードウェアを C PU 1 2が監視すると、 CPU22との 同期処理に矛盾を生じる場合がある。 例えば、 メモリ 14に訂正可能なビット誤 りが発生した場合、 そのビット誤りがメモリ 24に発生するとは限らなレ、。  Therefore, if the CPU 12 monitors these hardware, inconsistency may occur in the synchronization processing with the CPU 22. For example, if a correctable bit error occurs in the memory 14, the bit error does not necessarily occur in the memory 24.
また、 CPU 1 2の温度が所定の許容値の範囲で C PU 22の温度と一致する とは限らない。 また、 CPU1 2のファンが許容可能な範囲で停止し、 CPU2 2のファンが停止していない場合も生じ得る。  Further, the temperature of the CPU 12 does not always match the temperature of the CPU 22 within a predetermined allowable range. Further, there may be a case where the fan of the CPU 12 stops in an allowable range and the fan of the CPU 22 does not stop.
このような場合に、 計算機システムの同期が異常であると判定され、 上記統計 的な決定手法による仮想計算機上の処理が正常に動作しないおそれがある。 この ため、 従来の冗長構成の計算機システムでは、 CPU1 2または CPU22に付 属するハードウェア (以下、 ハードウェアを資源ともいう) は、 監視の対象から 除外されていた。  In such a case, it is determined that the synchronization of the computer system is abnormal, and the processing on the virtual computer by the above-described statistical determination method may not operate normally. For this reason, in a conventional computer system having a redundant configuration, hardware attached to the CPU 12 or 22 (hereinafter, hardware is also referred to as a resource) has been excluded from monitoring.
本実施形態の計算機システムは、 CPU1 2および CPU 22に付属する資源 を CPU1 2および CPU 22によって形成される仮想計算機システム上のプロ グラムの管理下に置くことにより、 それらの資源を監視する機能を提供する。  The computer system according to the present embodiment has a function of monitoring resources attached to the CPUs 12 and 22 by placing the resources under the control of a program on the virtual computer system formed by the CPUs 12 and 22. provide.
F I G. 2に、 本計算機システムの動作概要を示す。 上述のように、 本計算機 システムでは、 CPU 1 2および CPU22によつて仮想計算機システムが形成 される。 そして、 この仮想計算機システム上で情報処理が実行される。 本実施形 態では、 この仮想計算機システム上で C PU 1 2および CPU 22に付属する資 源を管理する資源管理プログラムが実行される。 そして、 その資源管理プログラムがハードウェアの障害を検知する。 このハー ドウエアの障害は、 仮想計算機上の資源管理プログラムが CPU 12または CP U 22を介して検知する。 Fig. 2 shows an overview of the operation of this computer system. As described above, in the present computer system, the virtual computer system is formed by the CPUs 12 and 22. Then, information processing is executed on this virtual computer system. In the present embodiment, a resource management program for managing resources attached to the CPU 12 and the CPU 22 is executed on this virtual computer system. Then, the resource management program detects a hardware failure. This hardware failure is detected by the resource management program on the virtual machine via the CPU 12 or the CPU 22.
この場合、 仮想計算機上の資源管理プログラムは、 各資源を冗長構成のハード ウェアとして取り扱わない。 すなわち、 資源管理プログラムは、 冗長構成の CP U 1 2、 22に含まれる同期処理の対象のハードウェアとしてではなく、 仮想計 算機上の単独のハードウェアとして、 資源を管理する。 そのため、 CPU 1 2ま たは C P U 22のいずれかに付属するハードウェアに障害が発生しても同期が異 常であるとの判定がされない。  In this case, the resource management program on the virtual machine does not treat each resource as hardware having a redundant configuration. That is, the resource management program manages resources not as hardware subject to synchronization processing included in the redundantly configured CPUs 12 and 22, but as independent hardware on a virtual computer. Therefore, even if a failure occurs in the hardware attached to either the CPU 12 or the CPU 22, it is not determined that the synchronization is abnormal.
このハードウェアの障害は、 仮想計算機システム上の OSに通知される (矢印 A1) 。 すると、 仮想計算機システム上の OSは、 発光ダイオード等の表示装置 を管理する計算機 (F I G. 2では実計算機という) にそのハードウ アの障害 情報を通知する (A2) 。 実計算機は、 その通知に基づき、 発光ダイオード等を 点灯する (A3) 。  This hardware failure is notified to the OS on the virtual machine system (arrow A1). Then, the OS on the virtual computer system notifies the computer that manages the display devices such as light-emitting diodes (called a real computer in FIG. 2) of the hardware failure information (A2). The real computer turns on the light emitting diode and the like based on the notification (A3).
<ハードウエア構成 > <Hardware configuration>
F I G. 3に、, F I G. 1に示した計算機 1のハードウェア構成図を示す。 計 算機 2のハードウェア構成図は、 F I G. 3と同様であるので、 その説明を省略 する。  Fig. 3 shows the hardware configuration of computer 1 shown in Fig. 1. The hardware configuration diagram of the computer 2 is the same as that of FIG. 3, and therefore, the description thereof is omitted.
F I G. 3のように、 計算機 1は、 CPU1 1、 1 2、 チップセット 4 1 (F I G. 3では、 Northbridge) 、 チップセット 46を有している。 CPU 1 1は、 情報処理機能を提供する。 一方、 CPU 1 2は、 入出力の管理機能を提供する。 したがって、 本計算機 1では、 CPU 1 1は、 C PU 1 2を介して各種の入出力 装置にアクセスする。  Like FIG.3, Calculator 1 has CPUs 11 and 12, chipset 41 (Northbridge in FIG.3), and chipset 46. The CPU 11 provides an information processing function. On the other hand, the CPU 12 provides an input / output management function. Therefore, in the computer 1, the CPU 11 accesses various input / output devices via the CPU 12.
チップセット 41には、 メモリスロット 42、 入出力チップ 43が接続されて いる。 メモリスロット 42には、 DRAMを搭載したメモリ基板が装着される。 メモリスロット 42に接続されるメモリの一部は、 CPU 1 1の管理下にあり、 —部は C PU 21の管理下にある。  A memory slot 42 and an input / output chip 43 are connected to the chipset 41. In the memory slot 42, a memory board on which a DRAM is mounted is mounted. Part of the memory connected to the memory slot 42 is under the control of the CPU 11, and part of the memory is under the control of the CPU 21.
入出力チップ 43には、 2つの P C Iバスが接続される。 これらの PC Iバス には、 複数のスロットが設けられ、 その 1つ例えば、 スロット 44には、 他の計 算機 1との通信用のインターフェースカードが装着される。 Two PCI buses are connected to the input / output chip 43. These PCI buses are provided with a number of slots, one of which, for example, slot 44 has other slots. An interface card for communication with Computer 1 is installed.
CPU1 2は、 CPU1 1を通じて、 このスロット 44にアクセスする。 そし て、 通信用インターフェース力一ドにより、 計算機 2の CPUと通信する。 この 構成により、 計算機 1 (CPU12) は、 計算機 2と同期を取り、 仮想計算機シ ステムを構成する。  The CPU 12 accesses the slot 44 through the CPU 11. Then, it communicates with the CPU of the computer 2 by the communication interface. With this configuration, computer 1 (CPU 12) synchronizes with computer 2 to form a virtual computer system.
さらに、 P C Iノ スには、 SCS I (Small Computer System Interface)コント ローラ 45等が接続される。  Further, an SCS I (Small Computer System Interface) controller 45 and the like are connected to the PC I node.
チップセット 41は、 さらに、 PC Iバスを介してチップセット 46と接続さ れる。 チップセット 46は、 SM (Server Management) バスを通じてサーバマネ ージメン卜チップ 5 1、 EE PROM (Electronically Erasable and Programm able Read Only Memory) 5 1およびブロントパネル 52に接続される。  The chipset 41 is further connected to a chipset 46 via a PCI bus. The chip set 46 is connected to a server management chip 51, an EE PROM (Electronically Erasable and Programmable Read Only Memory) 51, and a front panel 52 through an SM (Server Management) bus.
サーバマネージメントチップ 51は、 計算機 1の各ハードウェアを監視し、 さ らに、 テスト ·メンテナンス機能を実行する。 フロントパネル 52には、 発光ダ ィオード等が搭載され、 計算機 1の状態が表示される。  The server management chip 51 monitors each hardware of the computer 1, and executes a test / maintenance function. On the front panel 52, a light emitting diode and the like are mounted, and the state of the computer 1 is displayed.
チップセット 46には、 さらに I S A (Industrial Standard Architecture ) バスを通じて B I OSを格納したフラッシュメモリ 53、 拡張入出力チップ 54 が接続される。 拡張入出力チップ 54には、 シリアルポート、 パラレルポート、 フロッピーディスク (登録商標) 用のポート、 キーボード、 マウス等が接続され る。 また、 チップセット 46には、 I DE (Integrated Drive Electronics) ポ ート、 USB (Universal Serial Bus) ポート等が備えられている。  The chipset 46 is further connected to a flash memory 53 storing BIOS and an extended input / output chip 54 via an Industrial Standard Architecture (ISA) bus. The expansion input / output chip 54 is connected to a serial port, a parallel port, a port for a floppy disk (registered trademark), a keyboard, a mouse, and the like. The chipset 46 includes an IDE (Integrated Drive Electronics) port, a USB (Universal Serial Bus) port, and the like.
さらに、 チップセット 41と 46とを接続する PC Iバス上には、 ビデオコン トローラ 47、 LANコントローラ 48、 および、 その他 P C Iスロットが接続 される。  Further, a video controller 47, a LAN controller 48, and other PCI slots are connected on a PCI bus connecting the chipset 41 and 46.
<同期処理 > <Synchronous processing>
F I G. 4に、 本計算機システムにおける同期処理の概要を示す。 上述のよう に、 本計算機システムは、 CPU 1 2と CPU22との同期処理により仮想計算 機を構成する。 また、 本計算機システムにおいて、 CPU 12、 メモリ 14およ ぴ CPU1 2に付属するハードウェアは、 実計算機資源 5 1を構成する。 さらに、 CPU22S メモリ 24および CPU 22 付属するハードウェアは、 実計算機 資源 52を構成する。 Fig. 4 shows an overview of the synchronization process in this computer system. As described above, in the present computer system, a virtual computer is configured by the synchronous processing of the CPUs 12 and 22. In this computer system, the hardware attached to the CPU 12, the memory 14, and the CPU 12 constitutes the real computer resources 51. In addition, CPU22 S memory 24 and hardware attached to CPU22 Make up resource 52.
一方、 CPU 1 1は、 C PU 1 2の入出力プロセッサとして機能する。 メモリ 1 3には、 ブートレコード、 デバイスドライバ等が格納され、 フラッシュメモリ 上の B I O Sとともに、 CPU 1 1で実行される。 本計算機システムにおいて、 CPU1 1、 メモリ 1 3および C PU 1 1がアクセスするハードウェアは、 実計 算機資源 53を構成する。  On the other hand, the CPU 11 functions as an input / output processor of the CPU 12. The memory 13 stores a boot record, a device driver, and the like, and is executed by the CPU 11 together with the BIOS on the flash memory. In this computer system, the hardware accessed by the CPU 11, the memory 13 and the CPU 11 constitutes the real computer resource 53.
同様に、 C P U 21は、 C PU 22の入出力プロセッサとして機能する。 メモ リ 23には、 ブートレコード、 デバイスドライバ等が格納され、 フラッシュメモ リ上の B I O Sとともに、 C PU 21で実行される。 本計算機システムにおいて C PU 2 1、 メモリ 23および CPU 2 1がアクセスするハードウエアは、 実計 算機資源 54を構成する。  Similarly, the CPU 21 functions as an input / output processor of the CPU 22. The memory 23 stores a boot record, a device driver, and the like, and is executed by the CPU 21 together with the BIOS on the flash memory. In this computer system, the hardware accessed by the CPU 21, the memory 23, and the CPU 21 constitutes an actual computer resource 54.
C PU 1 2および C PU 22には、 同期処理実行用の同期処理プログラムがィ ンストールされ、 各々仮想計算機を構成する。 この同期処理プログラムと本来 C PU 1 2 (および 22) で稼働していた OSとが結合し、 仮想計算機 OSとして 機能する。 このような同期処理プログラムは、 例えば、 米国 Marathon Technolog ies Corporation社から提供されている。  A synchronous processing program for executing synchronous processing is installed in the CPU 12 and the CPU 22, and each constitutes a virtual machine. This synchronous processing program is combined with the OS originally running on the CPU 12 (and 22) to function as a virtual machine OS. Such a synchronization processing program is provided, for example, by Marathon Technologies Corporation of the United States.
ただし、 計算機 1側において、 CPU 1 2に付属するハードウェア以外のハー ドウエアは、 実計算機資源 53に含まれ、 CPU 1 1を介してアクセスされる。 また、 計算機 2側において、 CPU22に付属するハードウェア以外のハードウ エアは、 実計算機資源 54に含まれ、 CPU21を介してアクセスされる。  However, on the computer 1 side, hardware other than the hardware attached to the CPU 12 is included in the real computer resources 53 and accessed via the CPU 11. On the computer 2 side, hardware other than the hardware attached to the CPU 22 is included in the real computer resources 54 and accessed via the CPU 21.
このような計算機システムにおいて、 C PU 1 2が実行する処理は、 CPU 2 2に通知され、 同一の処理の処理が CPU 22で実行される。 また、 CPU 1 1 を介したハードウェアへの入出力 (例えば、 ハードディスク等への書き込み、 ハ 一'ドディスク等からの読み出し) は、 CPU1 1および CPU2 1を介して、 冗 長化された処理 (ミラー) として実行される。 すなわち、 実計算機資源 53およ ぴ 54に含まれるハードディスクはミラーディスクを構成する。  In such a computer system, the processing executed by the CPU 12 is notified to the CPU 22, and the same processing is executed by the CPU 22. Input / output to / from hardware via CPU 11 (for example, writing to a hard disk, reading from a hard disk, etc.) is performed via CPU 11 and CPU 21 in a redundant manner. (Mirror). That is, the hard disks included in the real computer resources 53 and 54 constitute a mirror disk.
<データ構成 > <Data structure>
以下、 各計算機上でハードウェアを管理するためのデータ例を示す。 F I G. 5は、 計算機 1上のハードウェア管理テーブルの例であり、 F I G. 6は、 計算 機 2上のハードウェア管理テーブルの例であり、 F I G. 7は、 仮想計算機上の ハードウエア管理テーブルの例である。 The following is an example of data for managing hardware on each computer. FI G. 5 is an example of a hardware management table on Calculator 1, and FI G. 6 is FIG. 7 is an example of a hardware management table on machine 2, and FIG. 7 is an example of a hardware management table on a virtual machine.
F I G. 5から F I G. 7は、 いずれも No. と対象とを対にしたフィールド を有する。 No. は、 各フィールドで管理されるハードウェアを識別する情報で ある。 また、 対象は、 当該フィールドで管理されるハードウェアを特定する情報 である。  Each of FIGS. 5 to 7 has a field in which the No. and the target are paired. No. is information that identifies the hardware managed in each field. The target is information that specifies hardware managed in the field.
F I G. 5、 6では、 No. 1から 5に対応する各フィールドに、 対象として、 A、 B、 C、 D、 および Eの状態が記録されている。 ここで、 Aから E等は、 例 えば、 メモリの領域を示す情報 (例えば、 物理メモリのページ) である。 また、 Aから E等は、 例えば、 CPUの温度センサ出力部、 ファンの状態を示すセンサ 等であってもよい。 この場合、 F I G. 5、 6等に示す No. は、 例えば、 これ らのハードウェアに対する計算機 1 (または 2) 上の物理的なアドレスである。  In FIG.5,6, the status of A, B, C, D, and E is recorded in each field corresponding to No.1 to No.5. Here, A to E etc. are, for example, information indicating a memory area (for example, a page of a physical memory). Further, A to E and the like may be, for example, a temperature sensor output unit of a CPU, a sensor indicating a fan state, and the like. In this case, the numbers shown in FIG. 5, 6 etc. are, for example, the physical addresses on computer 1 (or 2) for these hardware.
F I G. 5、 6は、 各計算機 1、 2に付属するハードウェアの情報は、 計算機 1、 2ごとに個別に管理されることを示している。 このように、 計算機 1、 2に 付属するハードウェアを計算機 1、 2ごとに個別に管理した場合、 計算機 1、 2 間でハードウェアの状態を一致させることができなレ、場合がある。  FIG.5 and 6 indicate that the hardware information attached to each computer 1 and 2 is managed individually for each computer 1 and 2. As described above, when the hardware attached to the computers 1 and 2 is managed individually for each of the computers 1 and 2, the hardware status between the computers 1 and 2 may not be matched.
例えば、 F I G. 5、 6のようなテーブルにしたがい、 各物理メモリのページ 訂正可能なエラーの発生と、 エラーに対する訂正の記録を保持する場合を想定す る。 このようなエラーは、 計算機 1と計算機 2とで同期して発生することはない。 このため、 計算機 1上のテーブルの記録と、 計算機 2上のテーブルの記録を一致 させることは困難である。 この場合、 仮想計算機システムを構成する同期処理プ ログラムは、 計算機 1のテープルと計算機 2のテーブルのいずれが正しいかを判 定するこどができず、 仮想計算機システムの維持が困難となる。  For example, it is assumed that, according to a table such as FIG.5 or 6, a page correctable error occurs in each physical memory and a record of correction for the error is maintained. Such an error does not occur in synchronization between Computer 1 and Computer 2. For this reason, it is difficult to match the record of the table on Computer 1 with the record of the table on Computer 2. In this case, the synchronization processing program that configures the virtual computer system cannot determine which of the table of computer 1 and the table of computer 2 is correct, making it difficult to maintain the virtual computer system.
そこで、 本実施形態においては、 CPU12に付属するハードウヱエアおよび CPU 22に付属するハードウエアを仮想計算機システムの共通のハードウエア として管理する。 F I G. 7は、 このような仮想計算機システム上でハードゥェ ァを管理するテーブルの例である。  Therefore, in the present embodiment, the hardware attached to the CPU 12 and the hardware attached to the CPU 22 are managed as common hardware of the virtual machine system. FIG. 7 is an example of a table for managing hardware on such a virtual machine system.
このテーブルでは、 No. 1のフィールドには、 計算機 1の物理メモリページ Aの状態が仮想計算機の資源として記録される。 また、 No. 2のフィールドに は、 計算機 2の物理メモリページ Aの状態が仮想計算機 1の資源として記録され る。 No. 3以下のフィールドについてにも、 同様に、 計算機 1および 2の資源 が仮想計算機の資源として記録される。 In this table, in the field of No. 1, the state of the physical memory page A of the computer 1 is recorded as the resource of the virtual computer. In the field of No. 2 The state of the physical memory page A of the computer 2 is recorded as a resource of the virtual computer 1. Similarly, the resources of computers 1 and 2 are recorded as virtual computer resources in the fields of No. 3 and below.
以上のように、 F I G. 7に示すテーブルは、 C PU 1 2および C P U 22に 所属する資源を仮想計算機システムの共通の資源として管理する。 このため、 C PU1 2と CPU 22との同期処理の対象とせず、 仮想計算機システムの資源と して管理する機能を提供する。  As described above, the table shown in FIG. 7 manages resources belonging to the CPUs 12 and 22 as common resources of the virtual machine system. For this reason, a function of managing the CPU 12 and the CPU 22 as resources of the virtual machine system without providing the object of the synchronization process is provided.
<処理フロー > <Process flow>
F I G. 8は、 本計算機システムにおける障害検出処理を示すフローチャート である。 F I G. 8において、 S 1から S 3の処理は、 仮想計算機システムを構 成する CPU 1 2 (または CPU22) 上のプログラムにより実行される。 また、 S 4および S 5は、 実計算機を構成する CPU 1 1 (または CPU 21) 上のプ ログラムにより実行される。 ここで、 実計算機とは、 同期処理によらず、 計算機 1 (または 2) 単体で処理を実行する計算機をいう。  FIG. 8 is a flowchart showing a failure detection process in the computer system. In FIG. 8, the processing of S1 to S3 is executed by a program on CPU 12 (or CPU 22) constituting the virtual machine system. Also, S4 and S5 are executed by a program on CPU 11 (or CPU 21) constituting the real computer. Here, the actual computer refers to a computer that executes the processing independently of the computer 1 (or 2) independently of the synchronous processing.
ここでは、 CPU 1 2 (または CPU 22、 ただし、 CPU 22の処理は CP U1 2と同一であるので、 以下省略する) に付属するハードウェアに障害が発生 した場合を想定する。 例えば、 CPU1 2が管理するメモリ 14 (F I G. 1参 照) 、 CPU 1 2の不図示の温度センサ出力の異常値検出、 CPU 1 2の不図示 のファンの異常検出の場合を想定する。  Here, it is assumed that a failure has occurred in the hardware attached to the CPU 12 (or the CPU 22, however, the processing of the CPU 22 is the same as the CPU 12 and will be omitted below). For example, it is assumed that the CPU 14 manages the memory 14 (see FIG. 1), detects an abnormal value of the temperature sensor output (not shown) of the CPU 12, and detects an abnormality of the fan (not shown) of the CPU 12.
本実施形態の計算機システムでは、 仮想計算機システムを構成する CPU1 2 は、 自身に付属するハードウェアの状態をポーリングしている。 したがって、 上 記のような障害は、 このポーリングで検出される (S 1) 。 そして、 CPU 1 2 は、 例えば、 F I G. 7に示したハードウェア管理テーブルに基づいて障害箇所 を特定する。 したがって、 障害箇所は、 仮想計算機システム上のハードウェアの 障害として検出される。  In the computer system according to the present embodiment, the CPU 12 constituting the virtual computer system polls the status of hardware attached to itself. Therefore, the above-mentioned fault is detected by this polling (S1). Then, the CPU 12 specifies the location of the failure based on, for example, the hardware management table shown in FIG. Therefore, the failure location is detected as a hardware failure on the virtual machine system.
次に、 C PU 1 2は、 検出された障害箇所を実際の C PU 1 2における障害箇 所 (例えば、 CPU 1 2の実アドレス空間の情報) に変換する (S 2) 。 そして、 C P U 1 2は、 障害箇所を示すデータを実計算機を構成する C P U 22に通知す る (S 3) 。 CPU 22は、 通知されたデータを受信する (S 4) 。 そして、 CPU 22は、 入出力インターフェース、 例えば、 F I G. 3に示した SMバス上のフロントパ ネル 52の表示ランプ、 または、 P C Iバス上のビデオインターフェース 47上 の表示装置等に異常を表示する (S 5) 。 Next, the CPU 12 converts the detected fault location into an actual fault location in the CPU 12 (for example, information on the real address space of the CPU 12) (S2). Then, the CPU 12 notifies the data indicating the failure location to the CPU 22 constituting the real computer (S3). The CPU 22 receives the notified data (S4). Then, the CPU 22 displays an abnormality on an input / output interface, for example, a display lamp on the front panel 52 on the SM bus shown in FIG. 3 or a display device on the video interface 47 on the PCI bus ( S 5).
このように、 本実施形態の計算機システムによれば、 仮想計算機を構成する C PU 1 2または CPU22に付属する資源を仮想計算機共通の資源として管理し、 その状態を検知する。 したがって、 仮想計算機の同期処理に障害を発生させるこ となく、 CPU 1 2または CPU22に付属する資源の状態を検知できる。  As described above, according to the computer system of the present embodiment, the resources attached to the CPU 12 or the CPU 22 constituting the virtual machine are managed as resources common to the virtual machines, and the state is detected. Therefore, the state of the resources attached to the CPU 12 or 22 can be detected without causing a failure in the synchronous processing of the virtual machine.
さらに、 これらの資源に障害が発生した場合に、 本計算機システムは、 その障 害を仮想計算機上の管理から、 計算機 1 (または計算機 2) 単体の実際の管理に 変換し、 実計算機に引き渡す。 例えば、 障害発生位置を仮想計算機上の管理情報 から実計算機上の管理情報に変換する。 したがって、 実際の計算機 1 (または計 算機 2) 上の故障位置 (例えば、 物理的なアドレスに基づく計算機 1、 2上の位 置) をフロントパネルまたは表示装置等に表示することができる。  Further, when a failure occurs in these resources, the computer system converts the failure from the management on the virtual machine to the actual management of the computer 1 (or the computer 2) alone, and hands it over to the real computer. For example, the fault location is converted from management information on the virtual machine to management information on the real machine. Therefore, the actual fault location on Computer 1 (or Computer 2) (for example, the location on Computers 1 and 2 based on the physical address) can be displayed on the front panel or display device.
<変形例 > <Modified example>
F I G. 9および F I G. 10は、 本実施形態の変形例に係る計算機システム の構成を示す図である。 上記実施形態では、 CPU 1 1および CPU1 2を有す る計算機 1と、 CPU 21および CPU 22を有する計算機 2とにより計算機シ ステムを構成した。 しかし、 本発明の実施はこのような構成には限定されない。  FIG. 9 and FIG. 10 are diagrams showing the configuration of a computer system according to a modification of the present embodiment. In the above embodiment, the computer system is configured by the computer 1 having the CPUs 11 and 12 and the computer 2 having the CPUs 21 and 22. However, implementation of the present invention is not limited to such a configuration.
F I G. 9および F I G. 10は、 4台の計算機 101から 1 04により、 仮 想計算機を構成する例を示す。 計算機 101から 104は、 例えば、 汎用サーバ とも呼ばれる。 計算機 101および 104の各々構成は、 F I G. 3に示したも のと同様である。  FIGS. 9 and 10 show examples in which a virtual computer is constituted by four computers 101 to 104. The computers 101 to 104 are also called, for example, general-purpose servers. The configuration of each of the computers 101 and 104 is the same as that shown in FIG.
ただし、 計算機 101が仮想計算機システムを構成した状態では、 CPUとメ モリだけが機能する。 したがって、 計算機 101は、 入出力部分を含む構成要素、 例えば、 F I G. 3に示した入出力チップ 43、 チップセット 46、 LANコン トローラ 48等については、 計算機 103の資源を利用する。 一方、 計算機 10 3は、 入出力部分を提供する入出力プロセッサとして、 ハードディスク、 ネット ワークインターフェース (F I G. 3の LANコントローラ 48に相当) 等を提 供する。 以上のような計算機 1 0 1と計算機 1 0 3の関係は、 計算機 1 0 2と計 算機 1 0 4においても同様である。 However, when the computer 101 constitutes a virtual computer system, only the CPU and the memory function. Therefore, the computer 101 uses the resources of the computer 103 for the components including the input / output portion, for example, the input / output chip 43, the chipset 46, the LAN controller 48, etc. shown in FIG. On the other hand, the computer 103 provides a hard disk, a network interface (equivalent to the LAN controller 48 of FIG. 3), etc. as the input / output processor that provides the input / output part. Offer. The relationship between the computer 101 and the computer 103 as described above is the same in the computer 102 and the computer 104.
なお、 計算機 1 0 3と計算機 1 0 4は、 計算機 1 0 1に対してミラー構成のハ ードディスクを提供する。 すなわち、 計算機 1 0 1から計算機 1 0 3のハードデ イスクへの書き込み命令は、 計算機 1 0 4のハードディスクに対しても実行され る。 同様に、 計算機 1 0 3と計算機 1 0 4は、 計算機 1 0 2に対してミラー構成 のハードディスクを提供する。 すなわち、 計算機 1 0 2から計算機 1 0 4のハー ドディスクへの書き込み命令は、 計算機 1 0 3のハードディスクに対しても実行 される。  Note that the computer 103 and the computer 104 provide the computer 101 with a hard disk having a mirror configuration. That is, the write instruction from the computer 101 to the hard disk of the computer 103 is also executed to the hard disk of the computer 104. Similarly, the computer 103 and the computer 104 provide the computer 102 with a hard disk having a mirror configuration. That is, the write command from the computer 102 to the hard disk of the computer 104 is also executed to the hard disk of the computer 103.
このような処理を実現するため、 計算機 1 0 1から 1 0 4は、 各々、 通信カー ド 1 1 0を備えればよい。 この通信カード 1 1 0は、 例えば、 F I G . 3に示し た P C Iバス上のスロット 4 4に装着される。  In order to realize such processing, each of the computers 101 to 104 may be provided with a communication card 110. The communication card 110 is mounted, for example, in a slot 44 on a PCI bus shown in FIG.
計算 1 0 1は、 通信カード 1 1 0により計算機 1 0 3および 1 0 4と通信する。 ここで、 計算機 1 0 3および計算機 1 0 4は、 入出力プロセッサとして機能する。 計算機 1 0 1は、 計算機 1 0 3への入出力命令を計算機 1 0 4に対しても送信す る。 すると、 計算機 1 0 2は、 計算機 1 0 3および 1 0 4における入出力処理か ら、 同期を取って実行すべき処理を認識する。 すなねち、 計算機 1 0 1と計算機 1 0 2は、 入出力プロセッサである計算機 1 0 3および 1 0 4を通じて互いの同 期を取る。 このようにして、 計算機 1 0 1および計算機 1 0 2は、 仮想計算機シ ステムを構成する。 このような仮想計算機システムは、 米国 Marathon Technolog ies Corooration社から提供されている。  The calculation 101 communicates with the computers 103 and 104 via the communication card 110. Here, the computer 103 and the computer 104 function as an input / output processor. The computer 101 also sends an input / output command to the computer 103 to the computer 104. Then, the computer 102 recognizes the processing to be executed in synchronization with the input / output processing in the computers 103 and 104. In other words, the computer 101 and the computer 102 synchronize with each other through computers 103 and 104 which are input / output processors. In this way, the computer 101 and the computer 102 constitute a virtual computer system. Such a virtual computer system is provided by Marathon Technologies Corooration in the United States.
このような構成において、 計算機 1 0 1および計算機 1 0 2に F I G . 8に示 した S 1から S 3の処理を実行させればよい。 また、 障害箇所が検知された場合 に、 計算機 1 0 1および 1 0 2は、 その障害箇所を計算機 1 0 3および 1 0 4に 通知すればよい。 計算機 1 0 3および計算機 1 0 4は、 その通知を受けて、 障害 発生箇所をフロントパネルまたは表示装置等に表示すればよい。  In such a configuration, the computer 101 and the computer 102 may execute the processing from S1 to S3 shown in FIG. Further, when a failure location is detected, the computers 101 and 102 may notify the computers 103 and 104 of the failure location. The computer 103 and the computer 104 may receive the notification and display the failure location on the front panel or a display device.
以上述べたように、 4台の汎用サーバにより構成される仮想計算機システムに おいても、 F I G . 1のような 2台構成の場合と同様、 仮想計算機システムにお いて、 同期処理に障害を生じさることなく、 計算機 1 0 1または 1 0 2に付属す るハードウエアを監視することができる。 As described above, even in a virtual machine system composed of four general-purpose servers, as in the case of a two-computer configuration such as FIG. 1, failure occurs in synchronization processing in the virtual machine system. Without being attached to the calculator 101 or 102 Hardware can be monitored.
<コンピュータその他の装置、 機械等が読み取り可能な記録媒体 >  <Recording media readable by computers and other devices and machines>
コンピュータその他の装置、 機械等 (以下、 コンピュータ等という) に上記い ずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒 体に記録することができる。 そして、 コンピュータ等に、 この記録媒体のプログ ラムを読み込ませて実行させることにより、 その機能を提供させることができる。 ここで、 コンピュータ等が読み取り可能な記録媒体とは、 データやプログラム 等の情報を電気的、 磁気的、 光学的、 機械的、 または化学的作用によって蓄積し、 コンピュータから読み取ることができる記録媒体をいう。 このような記録媒体の 内コンピュータから取り外し可能なものとしては、 例えばフレキシブルデイスク、 光磁気ディスク、 CD- R0M、 CD- R/W、 DVD, DAT, 8 ramテープ、 メモリカード等があ る。  A program that causes a computer or other device or machine (hereinafter, referred to as a computer, etc.) to realize any of the above functions can be recorded on a recording medium readable by a computer or the like. The function can be provided by causing a computer or the like to read and execute the program on the recording medium. Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read by a computer. Say. Examples of such a recording medium that can be removed from a computer include a flexible disk, a magneto-optical disk, a CD-R0M, a CD-R / W, a DVD, a DAT, an 8 ram tape, and a memory card.
また、 コンピュータ等に固定された記録媒体としてハードディスクや R OM (リードオンリーメモリ) 等がある。 産業上の利用可能性  In addition, a recording medium fixed to a computer or the like includes a hard disk and a ROM (read only memory). Industrial applicability
本発明は、 複数のコンピュータが冗長構成の仮想計算機を実現するコンビユー タシステムにおいて、 各コンピュータに付属するハードゥエァの監視に利用でき る。 特に、 多数決によらず、 統計処理により同期処理を実行するシステムにおい て、 同期処理に障害を与えることなく、 各コンピュータのハードウェアを監視す ることができる。 本発明は、 このようなコンピュータ等の情報機器産業に利用で きる。  INDUSTRIAL APPLICABILITY The present invention can be used for monitoring a hardware attached to each computer in a computer system in which a plurality of computers realize a virtual machine having a redundant configuration. In particular, in a system that performs synchronous processing by statistical processing regardless of a majority decision, it is possible to monitor the hardware of each computer without impairing the synchronous processing. The present invention can be used in the information equipment industry such as a computer.

Claims

請求の範囲 The scope of the claims
1 . 複数のコンピュータで構成され、 前記各コンピュータが同期状態にあると きに正常な機能を提供する仮想計算機システムであって、  1. A virtual computer system comprising a plurality of computers and providing a normal function when each of the computers is in a synchronized state,
各コンピュータ上で個々に機能する第 2処理部と、  A second processing unit that functions individually on each computer;
前記コンピュータ上の異常を前記仮想計算機システム上の異常として検知する 手段と、  Means for detecting an abnormality on the computer as an abnormality on the virtual machine system;
前記仮想計算機上で検知された異常を、 前記コンピュータ上の異常を示す情 報に変換して前記第 2処理部に通知する手段とを備え、  Means for converting an abnormality detected on the virtual machine into information indicating an abnormality on the computer and notifying the information to the second processing unit,
前記第 2処理部は、 前記通知された異常の発生を報知する手段を有する仮想計 算機システム。  The virtual computer system, wherein the second processing unit has means for reporting occurrence of the notified abnormality.
2 . 前記第 2処理部と前記検知する手段および通知する手段とが単一のサーバ装 置を構成するコンピュータに含まれる請求項 1に記載の仮想計算機システム。 2. The virtual machine system according to claim 1, wherein the second processing unit, the detecting unit, and the notifying unit are included in a computer configuring a single server device.
3 . 前記第 2処理部と前記検知する手段およぴ通知する手段とが各々異なるサー バ装置を構成する、 異なるコンピュータに含まれる請求項 1に記載の仮想計算機 システム。 3. The virtual machine system according to claim 1, wherein the second processing unit and the means for detecting and the means for notifying are included in different computers, each constituting a different server device.
4 . 複数のコンピュータで構成され、 前記各コンピュータが同期状態にあるとき に正常な機能を提供する仮想計算機システムにおいて異常を検知する方法であり、 前記コンピュータ上の異常を前記仮想計算機上の異常として、 同期処理の対象 から除外して検知するステップと、 4. A method for detecting an abnormality in a virtual computer system comprising a plurality of computers and providing a normal function when each of the computers is in a synchronized state, wherein the abnormality on the computer is regarded as an abnormality on the virtual computer. , Detecting and excluding from synchronization processing;
前記仮想計算機上で検知された異常を、 前記コンピュータ上での異常を示す情 報に変換して通知するステップとを備える、 仮想計算機システムにおける異常検 知方法。  Converting the abnormality detected on the virtual machine into information indicating the abnormality on the computer and notifying the information, and a method of detecting the abnormality in the virtual computer system.
5 . 複数のコンピュータで構成され、 前記各コンピュータが同期状態にあるとき に正常な機能を提供するコンピュータにおいて実行されるプログラムであり、 前記コンピュータ上の異常を前記仮想計算機上の異常として、 同期処理の対象 から除外して検知するステップと、 5. A program that is executed by a computer that includes a plurality of computers and provides a normal function when each of the computers is in a synchronized state. Target of Excluding from the detection,
前記仮想計算機上で検知された異常を、 前記コンピュータ上での異常を示す情 報に変換して通知するステップとを備える、 プログラム。  Converting the abnormality detected on the virtual machine into information indicating the abnormality on the computer and notifying the information.
PCT/JP2003/003522 2003-03-24 2003-03-24 Virtual computer system WO2004086225A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/003522 WO2004086225A1 (en) 2003-03-24 2003-03-24 Virtual computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/003522 WO2004086225A1 (en) 2003-03-24 2003-03-24 Virtual computer system

Publications (1)

Publication Number Publication Date
WO2004086225A1 true WO2004086225A1 (en) 2004-10-07

Family

ID=33045114

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/003522 WO2004086225A1 (en) 2003-03-24 2003-03-24 Virtual computer system

Country Status (1)

Country Link
WO (1) WO2004086225A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7918483B2 (en) 2005-07-22 2011-04-05 Thyssenkrupp Presta Ag Adjustable steering column for a motor vehicle

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6282440A (en) * 1985-10-07 1987-04-15 Toshiba Corp Compound system electronic computer system
JPH05265790A (en) * 1992-03-19 1993-10-15 Yokogawa Electric Corp Microprocessor device
WO1999003038A1 (en) * 1997-07-11 1999-01-21 Marathon Technologies Corporation Active failure detection
JPH1185714A (en) * 1997-09-05 1999-03-30 Hitachi Ltd Execution resource control program for computer duplex system
WO1999026133A2 (en) * 1997-11-14 1999-05-27 Marathon Technologies Corporation Method for maintaining the synchronized execution in fault resilient/fault tolerant computer systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6282440A (en) * 1985-10-07 1987-04-15 Toshiba Corp Compound system electronic computer system
JPH05265790A (en) * 1992-03-19 1993-10-15 Yokogawa Electric Corp Microprocessor device
WO1999003038A1 (en) * 1997-07-11 1999-01-21 Marathon Technologies Corporation Active failure detection
JPH1185714A (en) * 1997-09-05 1999-03-30 Hitachi Ltd Execution resource control program for computer duplex system
WO1999026133A2 (en) * 1997-11-14 1999-05-27 Marathon Technologies Corporation Method for maintaining the synchronized execution in fault resilient/fault tolerant computer systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7918483B2 (en) 2005-07-22 2011-04-05 Thyssenkrupp Presta Ag Adjustable steering column for a motor vehicle

Similar Documents

Publication Publication Date Title
US7313717B2 (en) Error management
US20040221198A1 (en) Automatic error diagnosis
US10846159B2 (en) System and method for managing, resetting and diagnosing failures of a device management bus
US11349733B2 (en) Method and system for automatic detection and alert of changes of computing device components
US7797394B2 (en) System and method for processing commands in a storage enclosure
US9798615B2 (en) System and method for providing a RAID plus copy model for a storage network
US11228518B2 (en) Systems and methods for extended support of deprecated products
US20040255187A1 (en) Data synchronization for system controllers
Shibin et al. On-line fault classification and handling in IEEE1687 based fault management system for complex SoCs
US10853204B2 (en) System and method to detect and recover from inoperable device management bus
US11126486B2 (en) Prediction of power shutdown and outage incidents
JP6828558B2 (en) Management device, management method and management program
JP4640071B2 (en) Information processing apparatus, information processing restoration method, and information processing restoration program
WO2004086225A1 (en) Virtual computer system
JP4495248B2 (en) Information processing apparatus and failure processing method
US11307871B2 (en) Systems and methods for monitoring and validating server configurations
JP5335150B2 (en) Computer apparatus and program
JP2013254354A (en) Computer device, software management method and program
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
US11836100B1 (en) Redundant baseboard management controller (BMC) system and method
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health
WO2012114498A1 (en) Information processing apparatus
US11742054B2 (en) Memory power fault resilience in information handling systems
US11422744B2 (en) Network-wide identification of trusted disk group clusters
JP5832408B2 (en) Virtual computer system and control method thereof

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP