WO2006082657A1 - マルチcpuコンピュータおよびシステム再起動方法 - Google Patents

マルチcpuコンピュータおよびシステム再起動方法 Download PDF

Info

Publication number
WO2006082657A1
WO2006082657A1 PCT/JP2005/001770 JP2005001770W WO2006082657A1 WO 2006082657 A1 WO2006082657 A1 WO 2006082657A1 JP 2005001770 W JP2005001770 W JP 2005001770W WO 2006082657 A1 WO2006082657 A1 WO 2006082657A1
Authority
WO
WIPO (PCT)
Prior art keywords
cpu
error
operating system
processing
error information
Prior art date
Application number
PCT/JP2005/001770
Other languages
English (en)
French (fr)
Inventor
Ryo Tabei
Hiroshi Kondo
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2005/001770 priority Critical patent/WO2006082657A1/ja
Priority to JP2007501491A priority patent/JP4489802B2/ja
Publication of WO2006082657A1 publication Critical patent/WO2006082657A1/ja
Priority to US11/879,390 priority patent/US7716520B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Definitions

  • UNIX registered trademark
  • IA server machines equipped with Intel microprocessors
  • IA servers have improved performance through the use of multiprocessors. As for servers used in mission-critical systems, it is important to improve not only performance but also reliability. In particular, when a fatal hardware error occurs, it is necessary to prevent system runaway and data corruption. Therefore, when a fatal hardware error occurred, the system was stopped urgently.
  • the suspension period can not be extended! Therefore, even if the system is stopped suddenly due to a hardware error, the multiprocessor server separates only the part where the error occurred and restarts the system quickly and automatically. This is an important requirement.
  • An example of a hardware error that occurs in the server is a continuous occurrence of multi-bit errors in a CPU (Central Processing Unit) cache.
  • the CPU in which the error occurred sets error information in a register.
  • the CPU then generates a trap and notifies the operating system of the error.
  • the operating system executes trap processing on the CPU in which an error has occurred.
  • G In the wrap process, the operating system refers to the hardware register and obtains error information.
  • Panic processing is an emergency stop and restart of the system to prevent system runaway and data corruption.
  • the CPU displays / records error information, performs file system synchronization processing, collects a memory dump, and then restarts the system.
  • FIG. 8 is a diagram showing a conventional restart method when an error occurs.
  • the server 900 has a CPU 910 and a CPU 920.
  • the CPU number of CPU 910 is “CPU # 0”, and the CPU number of CPU 920 is “CPU # 1”.
  • the processes executed by the CPU 910 and the CPU 920 include a process executed by the hardware logic circuit 901 and a process executed by the operating system 902.
  • the CPU 910 and the CPU 920 have error notification circuits 911 and 921 as processing functions executed by the hardware logic circuit 901. Further, the error notification circuits 911 and 921 notify the operating system of information indicating a hardware error that has occurred in the CPU.
  • the notification of error information to the operating system is a process of passing error information to a process that performs error processing of the operating system.
  • the CPU 910, 920 sets error information in a predetermined register when a hardware error occurs, and generates a trap.
  • the error information includes the error type, CPU number, and the address of the data where the error occurred. Error information is notified by referring to a register that stores error information by a process based on the operating system.
  • the processing functions executed in accordance with the operating system 902 include trap processing machines 912 and 922 and non-processing machines 913 and 923.
  • the trap processors 912 and 922 are functions for acquiring an error type, a CPU number, an address, and the like by referring to a register in which error information is stored.
  • Panic processing functions 913 and 923 are functions that display and record error information, synchronize file systems, collect memory dumps, and restart the system.
  • the error notification circuit 911 of the CPU 9 10 gives error information to the operating system 902. Will be notified.
  • trap processing is performed by the trap processing function 912 executed according to the CPU 910 operating system 902, and information such as error type, CPU number, and address is acquired by the operating system 902.
  • the panic processing function 913 displays and records error information, performs file system synchronization processing, collects a memory dump, and then restarts the system.
  • the diagnostic processor that has collected the fault information of the faulty processor power notifies the host processor of the fault occurrence, and the host processor initializes the faulty processor and restarts it, thereby returning the faulty processor to the operating state.
  • Patent Document 2 Japanese Patent Document 2
  • failure information collection technique when a failure occurs in a multi-CPU system, there is a technique for shortening failure information collection time by executing failure information collection in parallel by a plurality of processors.
  • the processor power that has detected the occurrence of a fault also instructs other processors to collect fault information, and the other processor that receives the instruction collects fault information (see, for example, Patent Document 3).
  • Patent Document 1 Japanese Patent Laid-Open No. 4 340631
  • Patent Document 2 Japanese Patent Laid-Open No. 2-71336
  • Patent Document 3 Japanese Patent Laid-Open No. 11 338838
  • the diagnostic processor collects fault information from other processors, and the host processor initializes and restarts the faulty processor.
  • each processor is operating individually and can be restarted independently.
  • many multi-CPU computers run multiple CPUs with a common operating system. In such a multi-CPU computer, there is data shared by multiple CPUs and data consistency is required to restart one CPU. It is necessary to ensure processing. Therefore, it is difficult to apply the technique described in Patent Document 2 to a multi-CPU computer in which multiple CPUs operate with a common operating system.
  • failure information is collected by a processor different from the processor in which the failure has occurred, so failure information can be collected by a normal processor.
  • the system is restarted by the failed processor. As a result, even if the restart process is executed on a processor that does not operate normally, it may not be restarted correctly. If the restart fails, the system downtime will be prolonged and operational efficiency will deteriorate.
  • the present invention has been made in view of these points, and even when a fatal CPU error occurs, error processing can be reliably executed and the system can be restarted.
  • An object of the present invention is to provide a multi-CPU computer and a system restart method. Means for solving the problem
  • the present invention provides a multi-CPU computer equipped with a plurality of CPUs operating on a common operating system 4 as shown in FIG.
  • the multi-CPU computer has a nonvolatile storage device 1, a first CPU 2, and a second CPU 3.
  • the first CPU 2 includes a first error notification circuit 2a that notifies error information to other CPUs when a hardware error occurs.
  • the second CPU 3 incorporates a second error notification circuit 3a that acquires the error information notified from the first CPU 2 and notifies the operating system 4 of the error information.
  • the storage processing of the fault information including the error information to the storage device and the restart processing of the system are executed according to the operating system 4.
  • a hardware error occurs in the first CPU.
  • the first error notification circuit incorporated in the first CPU notifies the second CPU of error information, and the second error notification circuit power incorporated in the second CPU
  • the error information notified of the first CPU power is acquired, the error information is notified to the operating system, and the error information is notified to the operating system by the second error notification circuit
  • the second CPU stores the failure information including the error information in a nonvolatile storage device, and the system Executes the process of restarting, the system restarts wherein provided that.
  • the error information is notified to the PU, the second error notification circuit incorporated in the second CPU, the error information notified from the first CPU is acquired, and the error information is notified to the operating system.
  • the second CPU is a nonvolatile storage device for failure information including the error information according to the operating system.
  • the CPU power error information on which the hardware error has occurred is received.
  • the CPU now stores fault information and restarts the system. As a result, even if a fatal error occurs in one CPU, the fault information storage capability can be reliably processed up to the system restart.
  • FIG. 1 is a diagram showing an outline of the present embodiment.
  • FIG. 2 is a diagram showing an example of a hardware configuration of a server used for implementing the present invention.
  • FIG. 3 is a block diagram showing the main functions of the server.
  • FIG. 4 is a diagram showing the relationship between the CPU error notification circuit and the error handling function of the operating system.
  • FIG. 5 is a diagram showing an example data structure of error information.
  • FIG. 6 is a sequence diagram showing a case where error processing is normally executed by another CPU.
  • FIG. 7 is a sequence diagram showing a case where error processing by another CPU fails.
  • FIG. 8 is a diagram showing a conventional restart method when an error occurs.
  • FIG. 1 is a diagram showing an outline of the present embodiment.
  • FIG. 1 shows an outline of the functions of the multi-CPU computer according to the present embodiment.
  • the multi-CPU computer has a storage device 1, a first CPU 2, and a second CPU 3.
  • the first CPU 2 and the second CPU 3 operate on a common operating system 4! /
  • the storage device 1 is non-volatile and can retain data even when the power is shut off.
  • a magnetic storage device such as a hard disk drive can be used.
  • the first CPU 2 sends error information to other CPUs when a hardware error occurs.
  • a first error notification circuit 2a for notification is incorporated.
  • hardware errors include cache memory multi-bit errors.
  • the error information includes, for example, the error type, the CPU number of the CPU in which the error has occurred, and the address of the data in which the error has occurred.
  • the second CPU 3 incorporates a second error notification circuit 3 a that acquires error information notified from the first CPU 2 and notifies the operating system 4 of the error information.
  • the second CPU 3 stores the failure information including the error information in the storage device 1 according to the operating system 4 (step S1) and system restart processing (step S2) are executed.
  • the failure information can include, for example, memory dump information in addition to error information.
  • step S1 when a hardware error occurs in the first CPU 2, the error information is notified to the second CPU 3 by the first error notification circuit 2a of the first CPU 2. . Then, the error information notified from the first CPU 2 is acquired by the second error notification circuit 3a of the second CPU 3, and the error information is notified to the operating system 4. Then, according to the operating system 4, the second CPU 3 executes processing for storing fault information including error information in the storage device 1 (step S1) and system restart processing (step S2). This restarts the entire multi-CPU computer.
  • the first CPU 2 can stop the process executed by the first CPU 2 for a certain period of time in accordance with the operating system 4 after notifying the error information. In this way, by temporarily stopping the processing of the CPU in which the error has occurred, it is possible to prevent the first CPU 2 having a failure from affecting the normal processing of the second CPU 3. . as a result The error processing by the second CPU 3 can be surely performed.
  • the power is shown when an error occurs in the first CPU 2 and the error processing is executed in the second CPU 3.
  • the error notification circuit 2a and the second error notification circuit 3a can be incorporated. This makes it possible for other CPUs to perform error handling regardless of which CPU generates the error.
  • the details of the embodiment of the present invention will be described below by taking an example of a multi-CPU computer that can execute error processing based on error information of all CPU power and other CPU power.
  • FIG. 2 is a diagram illustrating a hardware configuration example of a server used in the present embodiment.
  • the servo 100 is a UNIX server, for example, and has a plurality of CPUs 110, 120, 130, and 140. Each CPU 110, 120, 130, 140 is set with a CPU number for uniquely identifying within the Sano 100.
  • the CPU number of the CPU 110 is “CPU # 0”.
  • the CPU number of CPU120 is “CPU # 1”.
  • the CPU number of the CPU 130 is “CPU # 2”.
  • the CPU number of the CP U140 is “CPU # 3”.
  • node disk drive HDD: Hard Disk Drive
  • shared memory 101 At least a part of a talent-operating system program or application program to be executed by CPUs 110, 120, 130, 140 is temporarily stored. In addition, various data necessary for processing by the CPUs 110, 120, 130, and 140 are stored in the shared memory 101.
  • the HDD 102 stores an operating system and application programs.
  • the communication interface 103 is connected to the network 10. The communication interface 103 transmits / receives data to / from other computers via the network 10.
  • a monitor 11 is connected to the graphic processing device 104.
  • Graphic processing unit 1 04 ⁇ , CPU110, 120, 130, 140 Display the image on the screen of the monitor 11 according to the instruction of the force.
  • a keyboard 12 and a mouse 13 are connected to the input interface 105.
  • the input interface 105 transmits signals sent from the keyboard 12 and mouse 13 via the system node 106 to the CPUs 110, 120, 130, and 140.
  • FIG. 3 is a block diagram showing the main functions of the server.
  • the server 100 has a function realized by the hardware logic circuit 100a and a function realized by the CPUs 110, 120, 130, and 140 executing software such as the operating system 200.
  • the hardware function is shown in the upper part, and the software function is shown in the lower part.
  • the functions of the hardware logic circuit 100a are mainly a processing operation function of each of the CPUs 110, 120, 130, 140, a data storage function of the shared memory 101, and a data storage function S of the HDD 102.
  • An error notification circuit 111, 121, 131, 141 is provided for each CPU 110, 120, 130, 140.
  • the error notification circuits 111, 121, 131, and 141 are processing functions that notify error information to the operating system 200 and exchange error information with other CPUs.
  • inter-CPU communication technology using the inter-CPU communication area 101a of the shared memory 101 is disclosed in, for example, Japanese Patent Laid-Open Nos. 6-243104, 6-243101, and 6-332864. Are listed.
  • the panic processing unit 220 includes an error information display Z recording unit 221, a file system synchronization unit 222, a memory dump unit 223, and a system restart unit 224.
  • the error information display / recording unit 221 displays error information and performs recording processing on the HDD 102.
  • the file system synchronization unit 222 performs processing such as checking file system consistency and correcting inconsistencies.
  • the memory dump unit 223 performs data dump processing in the shared memory 101.
  • the system restart unit 224 performs system restart processing.
  • Other functions of the operating system 200 include a file management unit 240, a memory management unit 241, a process management unit 242, an interrupt processing unit 243, a system call 244, a driver 245, a scheduler 246, and a shell 247. , Daemon 248, command processor 249, library 250, etc.
  • Each function of the operating system 200 is realized individually on the CPU 110, 120, 130, 140 by executing the program for the CPU 110, 120, 130, 140, respectively. Is done.
  • FIG. 4 is a diagram showing the relationship between the CPU error notification circuit and the operating system error processing function.
  • CPU110 and CPU120 and their CPU1 10 shows the error notification processing in the operating systems 201 and 202 executed by 10 and 120.
  • the error information 31 of the error occurring in the CPU 110 is notified to the operating system 202 executed by the CPU 120 via the error notification circuit 121 of the CPU 120 and also to the operating system 201 executed by the CPU 110. Be notified.
  • the error information 32 of the error occurring in the CPU 120 is notified to the operating system 201 executed by the CPU 110 and also to the operating system 202 executed by the CPU 120 via the error notification circuit 111 of the CPU 110. .
  • the trap processing unit 211 receives error information of an error that has occurred in the CPU 110. In that case, the trap processing unit 211 temporarily stops the process executed by the CPU 110. When stopping the processing of the CPU 110, the trap processing unit 211 can use the function if the hardware has a function of temporarily stopping the operation of the CPU, for example. In addition, the trap processing unit 211 can stop other processing in the CPU 110 by executing simple loop processing with software.
  • the processing of the CPU 110 is temporarily stopped in order to hold information at the time of the error occurrence. That is, if the CPU 110 continues normal operation after an error occurs, the cause of the error occurrence in the memory is specified. The valid information may be overwritten with other information. Therefore, by temporarily stopping the processing of the CPU 110, it is possible to obtain accurate information when an error occurs. In addition, by stopping the CPU 110 having a failure, it becomes possible to stably execute error processing in the CPU 120.
  • the trap processing unit 211 performs trap processing when it receives error information of another CPU 120 from the error notification circuit 111 of the CPU 110, and when it receives error information of the CPU 110 and resumes after temporarily stopping the processing. Execute. Specifically, the trap processing unit 211 refers to a predetermined register in the CPU 110 and acquires an error type, a CPU number, an address, and the like. The trap processing unit 211 passes error information to the panic processing unit 231 after completing the trap processing.
  • the panic processing unit 231 performs a panic process.
  • the error information display Z recording unit 221 displays the error information on the monitor and stores the error information in the HDD 102.
  • the file system synchronization unit 222 synchronizes the file system with the actual file contents (updates the structure data of the file system held in the HDD 102 in synchronization with the actual file update).
  • the memory dump unit 223 performs dump processing of the contents of the shared memory 101 (stores the contents of the shared memory 101 in the HDD 102).
  • the system restart unit 224 restarts the entire system of the server 100.
  • the operating system 202 executed by the CPU 120 also has the same processing function as the operating system 201 executed by the CPU 110.
  • FIG. 5 is a diagram illustrating an example data structure of error information.
  • Error information 31 includes error type, CPU number, address, and so on.
  • the error type is represented by an identification code that indicates the type of error that occurred.
  • the CPU number is the identification number of the CPU where the error occurred. is there.
  • the address is an address of data in which an error has occurred.
  • FIG. 6 is a sequence diagram showing a case where error processing is normally executed by another CPU.
  • the error notification circuit 111 of the CPU 110 searches for another normal CPU (step S 11). For example, when a fatal error such as a cache multi-bit error occurs in the CPU 110, the error notification circuit 111 searches for a normal CPU. Specifically, the error notification circuit 111 detects the error and selects the CPU with the smallest CPU number! / From among the CPUs as a normal CPU. CPUs that have not detected an error should be stored in the shared memory 101 to obtain information on the status of each CPU (whether or not normal operating power is set) and refer to that status. Can be judged.
  • the error notification circuit 111 of the CPU 110 notifies error information to the CPU 120 selected in step S 11 (step S 12). That is, the error notification circuit 111 writes error information in the inter-CPU communication area 101a of the shared memory 101, and the error notification circuit 121 of the CPU 120 reads the error information. As a result, the CPU 120 is notified of the occurrence of an error by the CPU 110.
  • the error notification circuit 111 of the CPU 110 notifies error information of an error that has occurred in the CPU 110 to the operating system 201 executed by the CPU 110 (step S13). Specifically, the error notification circuit 111 stores error information such as an error type, a CPU number in which an error has occurred, and an address in a predetermined register. After that, the error notification circuit 111 generates a trap (activates the trap processing unit 211 of the operating system 201). The trap processing unit 211 of the operating system 201 refers to the contents of the register in which the error information is written. To do. As a result, the error information is notified to the operating system 201.
  • the trap processing unit 211 suspends normal processing of CP Ul 10 (all processing except the minimum processing for resuming the stopped processing) (step S). 14).
  • the error notification circuit 121 The error information of U110 is notified to the operating system 202 executed by the CPU 120 (step S15). This is a process in which the normal CPU 120 sets error information such as the error type, CPU number and address where the error occurred in the register, generates a trap, and notifies the operating system of the occurrence of the error.
  • a panic process is performed by the operating system 202 (step S17).
  • each processing function in the panic processing unit 232 performs the following processing.
  • the error information display Z recording unit displays error information of the CPU 110 and records it.
  • the file system synchronization unit performs file system synchronization processing.
  • the memory dump unit collects the memory dump.
  • the system restart unit performs system restart processing after the completion of other panic processing. As a result, the server 100 is shut down and then restarted.
  • the error processing is executed by the other CPU 120, so that it is possible to reliably collect error information and a memory dump and restart the system.
  • the CPU 120 that requested the processing may not be able to execute error processing for some reason. In that case, the CPU 110 itself continues error processing.
  • FIG. 7 is a sequence diagram illustrating a case where error processing by another CPU has failed.
  • the panic process (step S17) in the CPU 120 has failed.
  • the processing from step S11 to step S17 is the same as in FIG.
  • the trap processing unit 211 in the operating system 201 of the CPU 110 resumes the processing in the CPU 110 after a predetermined time has elapsed (step S15).
  • trap processing is performed by the trap processing unit 211 of the operating system 201 executed by the CPU 110 (step S19). Further, panic processing is performed by the panic processing unit 231 (step S20). As a result, server 100 is restarted [0074]
  • post-processing such as recording error information is performed by an error-generating CPU in the conventional technology. However, according to the present embodiment, other processing is performed. The normal CPU of the error occurred Post-processing the CPU. By adopting this method, the reliability of the system can be improved.
  • the failure CPU can be replaced early, and the problem of repeatedly damaging the system due to the error of the same CPU can be prevented. As a result, it is possible to prevent file corruption and data corruption due to the inability to execute file system synchronization.
  • error processing such as trap processing and panic processing is executed on a CPU where no error is detected, but an error in another CPU is triggered by a CPU failure where no error is actually detected. Sometimes it is done. In such a case, an error may be detected on a normal CPU, trap processing and panic processing may be performed on the failed CPU, and the system may hang up.
  • trap processing and panic processing are executed even in the event of a CPu that detects an error after a certain time in case of an emergency. This ensures error information display Z recording, file system synchronization, memory dump collection, and system restart. it can.
  • the above processing functions can be realized by a computer.
  • a program that describes the processing contents of the functions realized on the server based on the operating system is provided.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory.
  • Magnetic recording devices include hard disk drives (HDD), flexible disks (FD), and magnetic tapes.
  • optical disc examples include a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only Memory), and a CD—R (Recordable) ZRW (Rewritable).
  • Magneto-optical recording media include MO (Magneto-Optical disk).
  • Portable recording media such as ROM are sold. It is also possible to store the program in a storage device of the server computer and transfer the program to other computers via the network.
  • a computer that executes a program stores, for example, a program recorded on a portable recording medium or a server computer-transferred program in its own storage device. Then, the computer reads its own storage device power program and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. The computer can also execute processing according to the received program sequentially each time the program is transferred to the server computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Retry When Errors Occur (AREA)

Abstract

 致命的なCPUのエラーが発生した場合であっても、エラー処理を確実に実行し、システムを再起動させることができるようにする。  第1のCPU(2)でハードウェアエラーが発生すると、第1のCPU(2)の第1のエラー通知回路(2a)により、第2のCPU(3)にエラー情報が通知される。すると、第2のCPU(3)の第2のエラー通知回路(3a)により、第1のCPU(2)から通知されたエラー情報が取得され、エラー情報に基づくエラー処理がオペレーティングシステム(4)に依頼される。そして、第2のCPU(3)により、オペレーティングシステム(4)に従って、エラー情報を含む障害情報の記憶装置(1)への格納処理、およびシステムの再起動処理が実行される。                                                                                 

Description

明 細 書
マルチ CPUコンピュータおよびシステム再起動方法
技術分野
[0001] 本発明は共通のオペレーティングシステムで動作する複数の CPUを搭載したマル チ CPUコンピュータおよびそのようなマルチ CPUコンピュータにおけるシステム再起 動方法に関し、特にハードウェアエラー発生時にシステムを緊急停止させるマルチ C PUコンピュータおよびそのようなマルチ CPUコンピュータにおけるシステム再起動方 法に関する。
背景技術
[0002] 近年、 UNIX (登録商標)サーバ、 IAサーバ(Intel社のマイクロプロセッサを搭載し たサーバ機)が基幹システムに導入されるようになっている。これらの UNIXサーバや
IAサーバの多くは、マルチプロセッサ化により性能向上が図られている。なお、基幹 システムに利用するサーバに関しては、性能向上のみならず信頼性の向上が重要視 されている。特に、致命的なハードウェアのエラーが発生した場合は、システムの暴 走やデータ破壊を防止する必要がある。そこで、致命的なハードウェアのエラーが発 生すると、システムを緊急停止させていた。
[0003] ただし、基幹システムの場合、停止期間を長期化させるわけには!、かな!/、。そのた め、マルチプロセッサのサーバでは、ハードウェアのエラーに起因してシステムを緊 急停止させた場合でも、エラーが発生した部分のみを切り離して、速やかにかつ自 動的にシステムを再起動することが重要な要件となっている。サーバで発生するハー ドウエアエラーとしては、例えば、 CPU (Central Processing Unit)キャッシュのマルチ ビットエラーの連続発生がある。
[0004] 従来の技術では、 CPUキャッシュのマルチビットエラーなどの致命的な CPUのエラ 一が発生した場合、次のような処理が行われていた。まず、エラーが発生した CPUが エラー情報をレジスタに設定する。そして、 CPUは、トラップを生成してオペレーティ ングシステムにエラーの発生を通知する。
[0005] オペレーティングシステムは、エラーが発生した CPUでトラップ処理を実行する。ト ラップ処理では、オペレーティングシステムによりハードウェアのレジスタが参照され、 エラー情報が取得される。
[0006] その後、エラーが発生した CPUがパニック処理を実行する。パニック処理とは、シス テムの暴走やデータ破壊を防止するために、システムを緊急停止して再起動すること である。パニック処理では、 CPUが、エラー情報を表示/記録し、ファイルシステムの 同期処理を実施してメモリダンプを採取した後、システムを再起動する。
[0007] 図 8は、従来のエラー発生時の再起動方法を示す図である。サーバ 900は、 CPU 910と CPU920とを有している。 CPU910の CPU番号は「CPU # 0」であり、 CPU9 20の CPU番号は「CPU # 1」である。 CPU910と CPU920とが実行する処理には、 ハードウェアロジック回路 901で実行される処理と、オペレーティングシステム 902に 従って実行される処理とがある。
[0008] CPU910と CPU920とは、ハードウェアロジック回路 901で実行する処理機能とし て、エラー通知回路 911, 921を有している。また、エラー通知回路 911, 921は、 C PU内で発生したノヽードウエアエラーを示す情報をオペレーティングシステムに通知 する。なお、オペレーティングシステムへのエラー情報の通知とは、オペレーティング システムのエラー処理を行うプロセスにエラー情報を渡す処理である。具体的には、 CPU910, 920は、ハードウェアエラー発生時に所定のレジスタにエラー情報を設定 し、トラップを発生させる。エラー情報には、エラーの種別、 CPU番号、エラーが発生 したデータのアドレスなどが含まれる。エラー情報が格納されたレジスタを、オペレー ティングシステムに基づくプロセスが参照することで、エラー情報が通知される。
[0009] オペレーティングシステム 902に従って実行される処理機能としては、トラップ処理 機會 912, 922とノ ニック処理機會 913, 923と力 ^ある。トラップ処理機會 912, 922 は、エラー情報が格納されたレジスタを参照して、エラー種別、 CPU番号、アドレスな どを獲得する機能である。パニック処理機能 913, 923は、エラー情報を表示すると 共に記録し、ファイルシステムの同期を取り、メモリダンプを採取し、システムを再起動 する機能である。
[0010] 図 8の例では、 CPU910でエラーが発生した場合を示している。この場合、 CPU9 10のエラー通知回路 911により、オペレーティングシステム 902に対してエラー情報 が通知される。そして、 CPU910力 オペレーティングシステム 902に従って実行す るトラップ処理機能 912によってトラップ処理が行われ、エラー種別、 CPU番号、アド レスなどの情報がオペレーティングシステム 902で獲得される。その後、パニック処理 機能 913により、エラー情報を表示 Z記録し、ファイルシステムの同期処理が実施さ れ、メモリダンプを採取した後、システムの再起動が行われる。
[0011] このようにオペレーティングシステムでエラー処理(トラップ処理やパニック処理)を 実行する場合、下位計算機のオペレーティングシステムで採取した障害情報を、上 位計算機に通知することもできる (特許文献 1参照)。
[0012] さらに、障害プロセッサ力 の障害情報を採取した診断プロセッサが上位プロセッ サに障害の発生を通知し、上位プロセッサが障害プロセッサを初期化し再起動する ことで、障害プロセッサを動作状態に復帰させる技術もある (例えば、特許文献 2参照
) o
[0013] また、マルチ CPUシステムにおける障害発生時の障害情報採取技術として、障害 情報採取を複数のプロセッサで並列に実行することで障害情報採取時間を短縮する 技術がある。この技術では、障害発生を検出したプロセッサ力も他のプロセッサに対 して、障害情報採取を指示し、指示を受けた他のプロセッサが障害情報の採取を行 う(例えば、特許文献 3参照)。
特許文献 1:特開平 4 340631号公報
特許文献 2:特開平 2-71336号公報
特許文献 3:特開平 11 338838号公報
発明の開示
発明が解決しょうとする課題
[0014] しかし、図 8に示した手順では、エラーが発生した CPUでトラップ処理、パニック処 理を行い、システムを再起動している。そのため、 CPUキャッシュのマルチビットエラ 一が連続発生した場合は、その CPUは、正常に動作できないことがある。正常に動 作できな 、CPUによって、システムのトラップ処理やパニック処理を実行させようとし ても、正しく処理できるとは限らない。そのため、ハードウェアエラー発生時に、動作 中のシステムがハングアップしたり、システムの再起動に失敗したりする虞がある。そ の結果、システムの運用が長時間停止するなどの深刻な問題を引き起こす危険があ つた o
[0015] システムのエラー処理が正しく実行されない場合、具体的には、以下の問題の発生 が予想される。
エラー情報が表示されない場合は、再発防止のために交換すべき CPUが特定で きない。この場合、問題発生後にシステムを手動で再起動しても、再度同じエラーに よる問題が再発する可能性がある。
[0016] ファイルシステムの同期処理が実施できな!/、場合は、ファイルキャッシュ(メモリ)上 に存在するデータをディスクに書き出すことができない。そのため、ファイル破壊、デ ータ破壊が発生する可能性がある。
[0017] メモリダンプの採取に失敗した場合は、メモリダンプから、いつ、どの処理を実行中 に、何のエラーが発生した力などの詳細情報を解析する作業ができない。例えば、 C PUのエラーに基づくエラー処理におけるパニック処理で再度 CPUのエラーが発生 して、正しくエラー情報を表示できない場合がある。この場合、メモリダンプの採取ま でも失敗していると、一次要因を特定する手段が無くなってしまう。
[0018] システムの再起動に失敗する場合は、システムの運用が長時間停止する深刻な問 題になることがある。基幹業務のシステムの運用停止期間が長期化すると、社会問題 に発展する可能性もある。
[0019] なお、特許文献 1に記載された技術では、障害が発生した下位計算機のオペレー ティングシステムにより障害情報を通知する。そのため、障害を有する下位計算機上 でオペレーティングシステムが正常に動作する保証はなぐ上位計算機に対して障 害情報が通知できない事態に陥る虞がある。
[0020] また、特許文献 2に記載された技術では、診断プロセッサが他のプロセッサから障 害情報を採取し、上位プロセッサが障害プロセッサの初期化および再起動を行う。す なわち、各プロセッサが個別に動作しており、単独で再起動可能であることが前提と なっている。ところが、多くのマルチ CPUコンピュータでは、共通のオペレーティング システムで複数の CPUが動作している。そのようなマルチ CPUコンピュータでは、複 数の CPUで共有するデータが存在し、 1つの CPUを再起動するにはデータの整合 性を確保する処理などが必要である。従って、共通のオペレーティングシステムで複 数の CPUが動作するマルチ CPUコンピュータに、特許文献 2に記載された技術を適 用するのは困難である。
[0021] さらに、特許文献 3に記載された技術では、障害が発生したプロセッサとは別のプロ セッサで障害情報を採取するため、障害情報の採取に関しては正常なプロセッサで 行うことができる。ただし、システムの再起動については、障害が発生したプロセッサ で行っている。その結果、正常に動作しないプロセッサで再起動処理を実行しても、 正しく再起動できない可能性がある。再起動に失敗すれば、システム停止時間が長 期化し、運用効率が悪化してしまう。
[0022] 本発明はこのような点に鑑みてなされたものであり、致命的な CPUのエラーが発生 した場合であっても、エラー処理を確実に実行し、システムを再起動させることができ るマルチ CPUコンピュータおよびシステム再起動方法を提供することを目的とする。 課題を解決するための手段
[0023] 本発明では上記課題を解決するために、図 1に示すような共通のオペレーティング システム 4で動作する複数の CPUを搭載したマルチ CPUコンピュータが提供される 。本発明に係るマルチ CPUコンピュータは、不揮発性の記憶装置 1と、第 1の CPU2 と第 2の CPU3とを有する。第 1の CPU2は、ハードウェアエラーが発生した場合に他 の CPUにエラー情報を通知する第 1のエラー通知回路 2aが組み込まれて 、る。第 2 の CPU3は、第 1の CPU2から通知されたエラー情報を取得し、エラー情報をォペレ 一ティングシステム 4に通知する第 2のエラー通知回路 3aが組み込まれており、第 2 のエラー通知回路 3aによりオペレーティングシステム 4に対してエラー情報が通知さ れた場合、オペレーティングシステム 4に従って、エラー情報を含む障害情報の記憶 装置への格納処理、およびシステムの再起動処理を実行する。
[0024] このようなマルチ CPUコンピュータによれば、第 1の CPU2でハードウェアエラーが 発生すると、第 1の CPU2の第 1のエラー通知回路 2aにより、第 2の CPU3にエラー 情報が通知される。すると、第 2の CPU3の第 2のエラー通知回路 3aにより、第 1の C PU2から通知されたエラー情報が取得され、エラー情報がオペレーティングシステム 4に通知される。そして、第 2の CPU3により、オペレーティングシステム 4に従って、 エラー情報を含む障害情報の記憶装置 1への格納処理、およびシステムの再起動 処理が実行される。
[0025] また、本発明では上記課題を解決するために、共通のオペレーティングシステムで 動作する複数の CPUを搭載したマルチ CPUコンピュータのシステム再起動方法に おいて、第 1の CPUにおいてハードウェアエラーが発生した場合に、前記第 1の CP Uに組み込まれた第 1のエラー通知回路が第 2の CPUにエラー情報を通知し、前記 第 2の CPUに組み込まれた第 2のエラー通知回路力 前記第 1の CPU力 通知され た前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通 知し、前記第 2のエラー通知回路により前記オペレーティングシステムに対して前記 エラー情報が通知された場合、前記第 2の CPUが前記オペレーティングシステムに 従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、お よびシステムの再起動処理を実行する、ことを特徴とするシステム再起動方法が提供 される。
[0026] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコ ンピュータのシステム再起動方法において、第 1の CPUにおいてハードウェアエラー が発生した場合、前記第 1の CPUに組み込まれた第 1のエラー通知回路が第 2の C
PUにエラー情報を通知し、前記第 2の CPUに組み込まれた第 2のエラー通知回路 力 前記第 1の CPUから通知された前記エラー情報を取得し、前記エラー情報を前 記オペレーティングシステムに通知し、前記第 2のエラー通知回路により前記オペレ 一ティングシステムに対してエラー情報が通知された場合、前記第 2の CPUが前記 オペレーティングシステムに従って、前記エラー情報を含む障害情報の不揮発性の 記憶装置への格納処理、およびシステムの再起動処理を実行する、ことを特徴とする システム再起動方法が提供される。
[0027] このようなシステム再起動方法によれば、第 1の CPUにおいてハードウェアエラー が発生した場合、第 1の CPUに組み込まれた第 1のエラー通知回路により、第 2の C PUにエラー情報が通知される。すると、第 2の CPUに組み込まれた第 2のエラー通 知回路により、第 1の CPU力 通知されたエラー情報が取得され、エラー情報がオペ レーティングシステムに通知される。そして、第 2の CPUにより、オペレーティングシス テムに従って、エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、 およびシステムの再起動処理が実行される。
発明の効果
[0028] 本発明では、ハードウェアエラーが発生した CPU力 エラー情報を受け取った他の
CPUで障害情報の格納およびシステムの再起動処理を実行するようにした。これに より、 1つの CPUに致命的なエラーが発生した場合でも、障害情報格納力もシステム 再起動までの処理を確実に行うことが可能となる。
[0029] 本発明の上記および他の目的、特徴および利点は本発明の例として好ま U、実施 の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
図面の簡単な説明
[0030] [図 1]本実施の形態の概略を示す図である。
[図 2]本発明の実施に用いるサーバのハードウェア構成例を示す図である。
[図 3]サーバの主な機能を示すブロック図である。
[図 4]CPUのエラー通知回路とオペレーティングシステムのエラー処理機能との関係 を示す図である。
[図 5]エラー情報のデータ構造例を示す図である。
[図 6]他の CPUで正常にエラー処理が実行された場合を示すシーケンス図である。
[図 7]他の CPUによるエラー処理が失敗した場合を示すシーケンス図である。
[図 8]従来のエラー発生時の再起動方法を示す図である。
発明を実施するための最良の形態
[0031] 以下、本発明の実施の形態を図面を参照して説明する。
図 1は、本実施の形態の概略を示す図である。図 1には、本実施の形態に係るマル チ CPUコンピュータの機能の概略が示されている。マルチ CPUコンピュータは、記 憶装置 1、第 1の CPU2、および第 2の CPU3を有している。第 1の CPU2と第 2の CP U3とは、共通のオペレーティングシステム 4で動作して!/、る。
[0032] 記憶装置 1は、不揮発性であり、電源遮断時もデータを保持することができる。記憶 装置 1としては、例えば、ハードディスクドライブなどの磁気記憶装置が使用できる。 第 1の CPU2は、ハードウェアエラーが発生した場合に他の CPUにエラー情報を 通知する第 1のエラー通知回路 2aが組み込まれて 、る。ハードウェアエラーとしては 、例えば、キャッシュメモリのマルチビットエラーがある。エラー情報には、例えば、ェ ラー種別、エラーが発生した CPUの CPU番号、エラーが発生したデータのアドレス が含まれる。
[0033] 第 2の CPU3は、第 1の CPU2から通知されたエラー情報を取得し、エラー情報を オペレーティングシステム 4に通知する第 2のエラー通知回路 3aが組み込まれている 。第 2のエラー通知回路 3aによりオペレーティングシステム 4に対してエラー情報が通 知された場合、第 2の CPU3は、オペレーティングシステム 4に従って、エラー情報を 含む障害情報の記憶装置 1への格納処理 (ステップ S1)、およびシステムの再起動 処理 (ステップ S2)を実行する。障害情報には、例えば、エラー情報以外にメモリダン プ情報を含めることができる。
[0034] このようなマルチ CPUコンピュータによれば、第 1の CPU2でハードウェアエラーが 発生すると、第 1の CPU2の第 1のエラー通知回路 2aにより、第 2の CPU3にエラー 情報が通知される。すると、第 2の CPU3の第 2のエラー通知回路 3aにより、第 1の C PU2から通知されたエラー情報が取得され、エラー情報がオペレーティングシステム 4に通知される。そして、第 2の CPU3により、オペレーティングシステム 4に従って、 エラー情報を含む障害情報の記憶装置 1への格納処理 (ステップ S1)、およびシステ ムの再起動処理 (ステップ S 2)が実行される。これにより、マルチ CPUコンピュータ全 体の再起動が行われる。
[0035] このように正常な CPUがオペレーティングシステムにエラー情報を通知するように すれば、エラー情報を含む障害情報の格納およびシステムの再起動を確実に行うこ とができる。例えば、 CPUキャッシュのマルチビットエラーが発生した場合は、 CPUキ ャッシュのマルチビットエラーの影響を受けず、確実にエラー情報の格納およびシス テムの再起動を行うことができる。
[0036] なお、第 1の CPU2では、エラー情報を通知後、オペレーティングシステム 4に従つ て、一定時間、第 1の CPU2で実行する処理を停止することができる。このように、ェ ラーの発生した CPUの処理を一時的に停止することにより、障害を有する第 1の CP U2が正常な第 2の CPU3の処理に影響を与えな 、ようにすることができる。その結果 、第 2の CPU3によるエラー処理を確実に行うことができる。
[0037] また、エラーの発生した第 1の CPU2は、処理を一定時間停止している間にシステ ムの再起動が行われなければ、処理を再開し、エラー処理を実行することができる。 すなわち、エラーが発生した CPUでも、念のため一定時間後にトラップ処理とパニツ ク処理を実行するようにする。これは、他の CPUで発生したエラーが伝播した場合な ど、エラーを検出した CPUは正常であり、本当に故障している CPUは他に存在する 場合を考慮した対策である。
[0038] ところで、図 1の例では、第 1の CPU2でエラーが発生し、第 2の CPU3でエラー処 理を実行する場合の構成を示している力 マルチ CPUコンピュータ内の各 CPUに第 1のエラー通知回路 2aと第 2のエラー通知回路 3aとを組み込むことができる。これに より、どの CPUでエラーが発生しても、他の CPUがエラー処理を実行できるようにな る。以下、全ての CPU力 他の CPU力ものエラー情報に基づいてエラー処理を実行 できるようなマルチ CPUコンピュータの例を採り、本発明の実施の形態の詳細を説明 する。
[0039] 図 2は、本実施の形態に用いるサーバのハードウェア構成例を示す図である。サー ノ 100は、例えば UNIXサーバであり、複数の CPU110, 120, 130, 140を有して いる。各 CPU110, 120, 130, 140には、サーノ 100内で一意に識另 Uするための C PU番号が設定されている。 CPU110の CPU番号は「CPU # 0」である。 CPU120 の CPU番号は「CPU # 1」である。 CPU 130の CPU番号は「CPU # 2」である。 CP U140の CPU番号は「CPU # 3」である。
[0040] CPU110, 120, 130, 140に ίま、システムノ ス 106を介して共有メモリ 101、ノヽー ドディスクドライブ(HDD:Hard Disk Drive) 102、通信インタフェース 103、グラフイツ ク処理装置 104、および入力インタフェース 105が接続されて!、る。
[0041] 共有メモリ 101には、 CPU110, 120, 130, 140に実行させる才ぺレーティングシ ステムのプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納さ れる。また、共有メモリ 101に ίま、 CPU110, 120, 130, 140による処理に必要な各 種データが格納される。 HDD102には、オペレーティングシステムやアプリケーショ ンプログラムが格納される。 [0042] 通信インタフェース 103は、ネットワーク 10に接続されている。通信インタフェース 1 03は、ネットワーク 10を介して、他のコンピュータとの間でデータの送受信を行う。
[0043] グラフィック処理装置 104には、モニタ 11が接続されている。グラフィック処理装置 1 04ίま、 CPU110, 120, 130, 140力らの命令に従って、画像をモニタ 11の画面に 表示させる。入力インタフェース 105には、キーボード 12とマウス 13とが接続されて いる。入力インタフェース 105は、キーボード 12やマウス 13から送られてくる信号を、 システムノ ス 106を介して CPU110, 120, 130, 140【こ送信する。
[0044] 以上のようなハードウェア構成のサーバ 100において、オペレーティングシステムが 実行される。この結果、オペレーティングシステムで定義されている各種機能が、サ ーノ 100内の各 CPU110, 120, 130, 140で実現される。
[0045] 図 3は、サーバの主な機能を示すブロック図である。サーバ 100には、ハードウェア ロジック回路 100aによって実現される機能と、オペレーティングシステム 200などのソ フトウェアを CPU110, 120, 130, 140が実行することによって実現される機能とが ある。図 3では、点線を境界にして上段にハードウ アの機能が示されており、下段に ソフトウェアの機能が示されて 、る。
[0046] ハードウェアロジック回路 100aの機能としては、主に各 CPU110, 120, 130, 14 0の処理演算機能、共有メモリ 101のデーター時記憶機能、 HDD102のデータ保存 機會 カ Sある。各 CPU110, 120, 130, 140に ίま、エラー通知回路 111, 121, 131, 141力設けられている。エラー通知回路 111, 121, 131, 141は、オペレーティング システム 200へのエラー情報の通知、および他の CPUとの間のエラー情報の受け渡 しを行う処理機能である。
[0047] 共有メモリ 101には、 CPU間通信領域 101aが設けられている。 CPU間通信領域 1 Olaには、 CPU110, 120, 130, 140力 ^互いに受け渡すべき†青報を格糸内するため の記憶領域である。
[0048] なお、共有メモリ 101の CPU間通信領域 101aを利用した CPU間通信技術は、例 えば、特開平 6— 243104号公報、特開平 6— 243101号公報、特開平 6— 332864号 公報に記載されている。
[0049] オペレーティングシステム 200には、ハードウェアエラー発生時のリカバリ機能とし て、トラップ処理部 210、およびパニック処理部 220が設けられている。トラップ処理 部 210は、ハードウェアエラー発生時にトラップ処理を実行する。パニック処理部 220 は、パニック処理を行う。
[0050] パニック処理部 220には、エラー情報表示 Z記録部 221、ファイルシステム同期部 222、メモリダンプ部 223、システム再起動部 224が含まれる。エラー情報表示/記 録部 221は、エラー情報の表示や HDD102への記録処理を行う。ファイルシステム 同期部 222は、ファイルシステムの整合性のチェックや不整合の修正などの処理を 行う。メモリダンプ部 223は、共有メモリ 101内のデータのダンプ処理を行う。システム 再起動部 224は、システムの再起動処理を行う。
[0051] また、オペレーティングシステム 200の他の機能としては、ファイル管理部 240、メモ リ管理部 241、プロセス管理部 242、割り込み処理部 243、システムコール 244、ドラ イノく 245、スケジューラ 246、シェル 247、デーモン 248、コマンド処理部 249、ライブ ラリ 250などがある。
[0052] ファイル管理部 240は、 HDD102内のファイルを管理する。メモリ管理部 241は、 共有メモリ 101内のデータを管理する。プロセス管理部 242は、各 CPUで実行される プロセスを管理する。割り込み処理部 243は、 CPUへの割り込み処理を管理する。 システムコール 244は、 CPUで実行されるプロセスからの要求に基づくオペレーティ ングシステムの呼び出し機能である。ドライバ 245は、周辺機器の制御機能である。 スケジューラ 246は、実行する処理のスケジュールを管理する機能である。シェル 24 7は、ユーザからの支持を OSに伝える機能である。デーモン 248は、メモリに常駐し て各種サービスを提供する機能である。コマンド処理部 249は、入力されたコマンド を解釈し、コマンドに応じた処理を実行する機能である。ライブラリ 250、他のプロダラ ムから利用できるように部品化された各種機能をまとめたものである。
[0053] なお、オペレーティングシステム 200の各機能は、 CPU110, 120, 130, 140力オ ペレ一ティングシステム 200用のプログラムを実行することで、それぞれ CPU110, 1 20, 130, 140上で個別に実現される。
[0054] 図 4は、 CPUのエラー通知回路とオペレーティングシステムのエラー処理機能との 関係を示す図である。なお、図 4では、 CPU110と CPU120、およびそれらの CPU1 10, 120で実行されるオペレーティングシステム 201, 202でのエラー通知処理を示 している。
[0055] CPU110のエラー通知回路 111は、 CPU110で発生したエラーのエラー情報 31 を他の CPU120へ通知する機能、他の CPU120で発生したエラーのエラー情報 32 を CPU110が実行するオペレーティングシステム 201へ通知する機能、および CPU 110で発生したエラーのエラー情報 31を CPUl 10が実行するオペレーティングシス テム 201へ通知する機能を有している。同様に、 CPU120のエラー通知回路 121は 、 CPU120で発生したエラーのエラー情報 32を他の CPU110へ通知する機能、他 の CPU110で発生したエラーのエラー情報 31を CPU120が実行するオペレーティ ングシステム 202へ通知する機能、および CPU120で発生したエラーのエラー情報 32を CPU120が実行するオペレーティングシステム 202へ通知する機能を有してい る。
[0056] これにより、 CPU110で発生したエラーのエラー情報 31は、 CPU120のエラー通 知回路 121を介して、 CPU120が実行するオペレーティングシステム 202に通知さ れると共に、 CPU110が実行するオペレーティングシステム 201にも通知される。ま た、 CPU120で発生したエラーのエラー情報 32は、 CPU110のエラー通知回路 11 1を介して、 CPU110が実行するオペレーティングシステム 201に通知されると共に、 CPU120が実行するオペレーティングシステム 202にも通知される。
[0057] CPU110が実行するオペレーティングシステム 201では、 CPU110で発生したェ ラーのエラー情報をトラップ処理部 211が受け取る。その場合、トラップ処理部 211は 、 CPU110で実行する処理を一時停止する。トラップ処理部 211は、 CPU110の処 理を停止する際には、例えば、ハードウェアに CPUの動作を一時的に停止する機能 があれば、その機能を使用することができる。また、トラップ処理部 211は、ソフトゥェ ァで単純なループ処理を実行させることで、 CPU110における他の処理を停止させ ることちでさる。
[0058] このように、 CPU110自身でエラーが発生した場合に CPU110の処理を一時停止 させるのは、エラー発生時の情報を保持させるためである。すなわち、エラー発生後 も CPU110が通常動作を継続して 、ると、メモリ内のエラー発生の原因を特定するた めの有効な情報が、他の情報で上書きされる可能性がある。そこで、 CPU110の処 理を一時的に停止させることで、エラー発生時の正確な情報取得を可能としている。 また、障害を有する CPU110を停止させることで、 CPU120におけるエラー処理を 安定して実行することが可能となる。
[0059] CPU110の処理を停止させた場合、トラップ処理部 211は所定の時間経過後、 CP U110の処理を再開させる。 CPU110の処理を再開させるのは、他の CPU120によ るエラー処理が失敗した場合、 CPU110自らがエラー処理を実行するためである。 なお、他の CPU120においてエラー処理が正常に実行された場合、エラー処理の 最後にシステムの再起動処理が実行される。その結果、 CPU110の内部パラメタも 初期化され、 CPU110におけるエラー処理はその時点で取りやめとなる。
[0060] トラップ処理部 211は、 CPU110のエラー通知回路 111から他の CPU120のエラ 一情報を受け取った場合、および CPU110のエラー情報を受け取り、処理を一時停 止させた後に再開した場合、トラップ処理を実行する。具体的には、トラップ処理部 2 11は、 CPU110内の所定のレジスタを参照してエラー種別、 CPU番号、アドレスな どを獲得する。トラップ処理部 211は、トラップ処理終了後、エラー情報をパニック処 理部 231に渡す。
[0061] パニック処理部 231は、パニック処理を行う。パニック処理では、エラー情報表示 Z 記録部 221が、エラー情報をモニタに表示すると共に、エラー情報を HDD102に格 納する。また、ファイルシステム同期部 222が、ファイルシステムと実際のファイルの内 容との同期をとる(HDD102内に保持されているファイルシステムの構造データを実 際のファイルの更新に同期させて更新する)。さらに、メモリダンプ部 223が、共有メ モリ 101の内容のダンプ処理を行う(共有メモリ 101の内容を HDD 102に格納する) 。最後に、システム再起動部 224が、サーバ 100全体のシステムを再起動させる。
[0062] CPU120で実行されるオペレーティングシステム 202も、 CPU110で実行されるォ ペレ一ティングシステム 201と同様の処理機能を有する。
図 5は、エラー情報のデータ構造例を示す図である。エラー情報 31には、エラー種 別、 CPU番号、アドレスなどが含まれる。エラー種別は、発生したエラーの種別を表 す識別コードによって表される。 CPU番号は、エラーが発生した CPUの識別番号で ある。アドレスは、エラーが発生したデータのアドレスである。
[0063] 次に、 CPU110でノヽードウエアエラーが発生した場合の処理手順を以下に示す。
図 6は、他の CPUで正常にエラー処理が実行された場合を示すシーケンス図であ る。 CPU番号が「CPU # 0」の CPU110でハードウェアエラーが発生すると、 CPU1 10のエラー通知回路 111にお 、て、正常な他の CPUの検索が行われる(ステップ S 11)。例えば、 CPU110でキャッシュのマルチビットエラーなどの致命的なエラーが 発生した場合に、エラー通知回路 111が正常な CPUを検索する。具体的には、エラ 一通知回路 111は、エラーを検出して ヽな 、CPUの中で最も CPU番号の小さ!/、も のを正常な CPUとして選択する。なお、エラーを検出していない CPUは、共有メモリ 101に格納されて 、る各 CPUのステータス(正常動作中力否かが設定されて 、る)の 情報を取得し、そのステータスを参照することで判断できる。
[0064] 次に、 CPU110のエラー通知回路 111は、ステップ S 11で選択された CPU 120に 対して、エラー情報を通知する (ステップ S 12)。すなわち、エラー通知回路 111が、 共有メモリ 101の CPU間通信領域 101aにエラー情報を書き込み、 CPU120のエラ 一通知回路 121がそのエラー情報を読み込む。これにより、 CPU110によるエラー の発生が CPU120に通知される。
[0065] CPU110のエラー通知回路 111は、 CPU110で発生したエラーのエラー情報を、 CPU110が実行するオペレーティングシステム 201に通知する(ステップ S13)。具 体的には、エラー通知回路 111は、エラー種別、エラーが発生した CPU番号、ァドレ スなどのエラー情報を所定のレジスタに格納する。その後、エラー通知回路 111は、 トラップを発生させる(オペレーティングシステム 201のトラップ処理部 211を起動する ) oすると、オペレーティングシステム 201のトラップ処理部 211が、エラー情報が書き 込まれたレジスタの内容を参照する。これにより、オペレーティングシステム 201にェ ラー情報が通知される。
[0066] CPU110が実行するオペレーティングシステム 201では、トラップ処理部 211が CP Ul 10の通常処理 (停止した処理を再開させるための最低限の処理を除く全ての処 理)を一時停止させる(ステップ S 14)。
[0067] CPU110からエラー情報を受け取った CPU120では、エラー通知回路 121が CP U110のエラー情報を CPU120が実行するオペレーティングシステム 202に通知す る(ステップ S15)。これは、正常な CPU120が、エラー種別、エラーが発生した CPU 番号、アドレスなどのエラー情報をレジスタに設定した後、トラップを生成してォペレ 一ティングシステムにエラーの発生を通知する処理である。
[0068] トラップの発生が通知されることにより、オペレーティングシステム 202によりトラップ 処理が行われる(ステップ S16)。トラップ処理では、オペレーティングシステム 202の トラップ処理部 212が、レジスタを参照して CPU110のエラー情報(エラー種別、 CP U番号、アドレスなど)を獲得する。
[0069] その後、オペレーティングシステム 202によりパニック処理が行われる(ステップ S17 )。パニック処理では、パニック処理部 232内の各処理機能力 次の処理を行う。エラ 一情報表示 Z記録部は、 CPU110のエラー情報を表示 Z記録する。ファイルシステ ム同期部は、ファイルシステムの同期処理を実施する。メモリダンプ部は、メモリダン プを採取する。システム再起動部は、他のパニック処理終了後にシステムの再起動 処理を行う。その結果、サーバ 100がシャットダウンされた後、再起動される。
[0070] このようにして、 CPU110でエラーが発生した場合、他の CPU120によってエラー 処理が実行されるため、エラー情報やメモリダンプの採取やシステムの再起動を確実 に行うことができる。なお、処理を依頼した CPU120が、何らかの原因でエラー処理 を実行できない場合もあり得る。その場合、 CPU110自らがエラー処理を続行する。
[0071] 図 7は、他の CPUによるエラー処理が失敗した場合を示すシーケンス図である。こ の例は、 CPU120でのパニック処理 (ステップ S 17)に失敗した場合である。ステップ S11からステップ S17までの処理は図 6と同様であるため、説明を省略する。
[0072] CPU120におけるパニック処理に失敗すると、システムの再起動が行われない。そ のため、 CPU110のオペレーティングシステム 201におけるトラップ処理部 211では 、処理の一時停止(ステップ S15)力 所定時間経過後、 CPU110での処理を再開 する(ステップ S 18)。
[0073] そして、 CPU110で実行されるオペレーティングシステム 201のトラップ処理部 211 によってトラップ処理が行われる(ステップ S 19)。さらに、パニック処理部 231によつ て、パニック処理が行われる(ステップ S20)。その結果、サーバ 100が再起動される [0074] 以上説明したように、マルチ CPUコンピュータシステムにお 、て、従来技術ではェ ラー発生 CPUでエラー情報の記録などの後処理を行って 、たが、本実施の形態に よれば、他の正常な CPUがエラー発生 CPUの後処理を行う。この方式を採ることで 、システムの信頼性を向上させることができる。
[0075] 具体的には、 CPUキャッシュのマルチビットエラーが連続発生する場合などに、トラ ップ処理やパニック処理で同じエラーが発生して、システムがハングアップしたり、シ ステムの再起動に失敗したりする問題を防止できる。これにより、システムの運用が長 時間停止する問題も防止できる。
[0076] し力も、故障 CPUを早期に交換することができ、同一 CPUのエラーにより、繰り返し システムに被害を及ぼす問題も防止できる。その結果、ファイルシステムの同期処理 が実行できな ヽことに起因するファイル破壊、データ破壊を防止できる。
[0077] また、メモリダンプが確実に採取できることで、メモリダンプが採取できないことにより 、エラーの一次要因を特定できない事態を防止できる。
また、エラーの発生した CPUの処理を一時停止させることにより、正常な CPUの処 理への影響を無くすことができ、確実、安全にトラップ処理、パニック処理を行うことが できる。
[0078] さらに、エラーの発生した CPUの処理を再開してトラップ処理、パニック処理を実行 することにより、万が一、エラーを検出していない CPUでのトラップ処理やパニック処 理がハングアップする場合でも、エラー処理を実行することができる。
[0079] すなわち、エラーを検出されていない CPUでトラップ処理、パニック処理などのエラ 一処理を実行するが、実際にはエラーが検出されていない CPUの障害で、他の CP Uにおけるエラーが誘発される場合もある。その場合、正常な CPUでエラーが検出さ れ、故障している CPUでトラップ処理、パニック処理が実行され、システムがハングァ ップしてしまう可能性もある。
[0080] そこで、本実施の形態では、万が一に備えて、一定時間後にエラーを検出した CP uでも、トラップ処理、パニック処理を実行する。これにより、エラー情報の表示 Z記 録、ファイルシステムの同期、メモリダンプの採取、システムの再起動を、確実に実施 できる。
[0081] なお、上記の処理機能は、コンピュータによって実現することができる。その場合、 オペレーティングシステムに基づいてサーバ上で実現される機能の処理内容を記述 したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上 記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コン ピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み 取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体 メモリなどがある。磁気記録装置には、ハードディスク装置 (HDD)、フレキシブルディ スク(FD)、磁気テープなどがある。光ディスクには、 DVD (Digital Versatile Disc)、 DVD-RAM (Random Access Memory)、 CD-ROM (Compact Disc Read Only Memory)、 CD— R (Recordable) ZRW (Rewritable)などがある。光磁気記録媒体に は、 MO (Magneto-Optical disk)などがある。
[0082] プログラムを流通させる場合には、例えば、そのプログラムが記録された DVD、 CD
ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータ の記憶装置に格納しておき、ネットワークを介して、サーバコンピュータ力 他のコン ピュータにそのプログラムを転送することもできる。
[0083] プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプロ グラムもしくはサーバコンピュータ力 転送されたプログラムを、 自己の記憶装置に格 納する。そして、コンピュータは、自己の記憶装置力 プログラムを読み取り、プロダラ ムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログ ラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンビュ ータは、サーバコンピュータ力もプログラムが転送される毎に、逐次、受け取ったプロ グラムに従った処理を実行することもできる。
[0084] 上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が 当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用 例に限定されるものではなぐ対応するすべての変形例および均等物は、添付の請 求項およびその均等物による本発明の範囲とみなされる。
符号の説明 記憶装置
第 1の CPU
a 第 1のエラー通知回路 第 2の CPU
a 第 2のエラー通知回路 オペレーティングシステム

Claims

請求の範囲
[1] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコ ンピュータにおいて、
不揮発性の記憶装置と、
ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラ 一通知回路が組み込まれた第 1の CPUと、
前記第 1の CPUから通知された前記エラー情報を取得し、前記エラー情報を前記 オペレーティングシステムに通知する第 2のエラー通知回路が組み込まれており、前 記第 2のエラー通知回路により前記オペレーティングシステムに対してエラー情報が 通知された場合、前記オペレーティングシステムに従って、前記エラー情報を含む障 害情報の前記記憶装置への格納処理、およびシステムの再起動処理を実行する第 2の CPUと、
を有することを特徴とするマルチ CPUコンピュータ。
[2] CPU間通信領域を有する共有メモリをさらに有し、
前記第 1の CPUの前記第 1のエラー通知回路は、前記エラー情報を前記共有メモ リの前記 CPU間通信領域に格納し、
前記第 2の CPUの前記第 2のエラー通知回路は、前記 CPU間通信領域力 前記 エラー情報を取得することを特徴とする請求の範囲第 1項記載のマルチ CPUコンビ ユータ。
[3] 前記第 1の CPUには、前記エラー情報を前記オペレーティングシステムに通知す る第 3のエラー通知回路が み込まれており、前記第 3のエラー通知回路により前記 オペレーティングシステムに対して前記エラー情報が通知された場合、前記第:!^のじ
PUは、前記オペレーティングシステムに従って処理を一時停止することを特徴とする 請求の範囲第 1項記載のマルチ CPUコンピュータ。
[4] 前記第 1の CPUは、処理の一時停止中にシステムが再起動されない場合、前記ォ ペレ一ティングシステムに従って、処理停止から所定期間経過後、前記エラー情報を 含むデータの前記記憶装置への格納処理、およびシステムの再起動処理を実行す ることを特徴とする請求の範囲第 3項記載のマルチ CPUコンピュータ。
[5] マルチ CPUコンピュータにおいて、
不揮発性の記憶装置と、
ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラ 一通知回路と、ハードウェアエラーが発生した他の CPU力 通知された被通知エラ 一情報を取得し、前記被通知エラー情報をオペレーティングシステムに通知する第 2 のエラー通知回路とが組み込まれており、前記第 2のエラー通知回路により前記オペ レーティングシステムに対して前記エラー情報が通知された場合、前記オペレーティ ングシステムに従って、前記他 CPUエラー情報を含む障害情報の前記記憶装置へ の格納処理、およびシステムの再起動処理を実行する、共通の前記オペレーティン グシステムで動作する複数の CPUと、
を有することを特徴とするマルチ CPUコンピュータ。
[6] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコ ンピュータのシステム再起動方法にぉ ヽて、
第 1の CPUにお 、てハードウェアエラーが発生した場合に、前記第 1の CPUに組 み込まれた第 1のエラー通知回路が第 2の CPUにエラー情報を通知し、
前記第 2の CPUに組み込まれた第 2のエラー通知回路力 前記第 1の CPU力 通 知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステム に通知し、前記第 2のエラー通知回路により前記オペレーティングシステムに対して 前記エラー情報が通知された場合、前記第 2の CPUが前記オペレーティングシステ ムに従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理 、およびシステムの再起動処理を実行する、
ことを特徴とするシステム再起動方法。
PCT/JP2005/001770 2005-02-07 2005-02-07 マルチcpuコンピュータおよびシステム再起動方法 WO2006082657A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2005/001770 WO2006082657A1 (ja) 2005-02-07 2005-02-07 マルチcpuコンピュータおよびシステム再起動方法
JP2007501491A JP4489802B2 (ja) 2005-02-07 2005-02-07 マルチcpuコンピュータおよびシステム再起動方法
US11/879,390 US7716520B2 (en) 2005-02-07 2007-07-17 Multi-CPU computer and method of restarting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/001770 WO2006082657A1 (ja) 2005-02-07 2005-02-07 マルチcpuコンピュータおよびシステム再起動方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/879,390 Continuation US7716520B2 (en) 2005-02-07 2007-07-17 Multi-CPU computer and method of restarting system

Publications (1)

Publication Number Publication Date
WO2006082657A1 true WO2006082657A1 (ja) 2006-08-10

Family

ID=36777052

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/001770 WO2006082657A1 (ja) 2005-02-07 2005-02-07 マルチcpuコンピュータおよびシステム再起動方法

Country Status (3)

Country Link
US (1) US7716520B2 (ja)
JP (1) JP4489802B2 (ja)
WO (1) WO2006082657A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205362A (ja) * 2008-02-27 2009-09-10 Nec Corp コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004052576A1 (de) * 2004-10-29 2006-05-04 Advanced Micro Devices, Inc., Sunnyvale Paralleler Verarbeitungsmechanismus für Multiprozessorsysteme
US20100088542A1 (en) * 2008-10-06 2010-04-08 Texas Instruments Incorporated Lockup recovery for processors
JP2010231619A (ja) * 2009-03-27 2010-10-14 Renesas Electronics Corp 情報処理装置
CN102971715B (zh) * 2010-07-06 2015-07-08 三菱电机株式会社 处理器装置以及程序
US8850262B2 (en) 2010-10-12 2014-09-30 International Business Machines Corporation Inter-processor failure detection and recovery
US8645969B2 (en) 2011-08-19 2014-02-04 Qualcomm Incorporated Method for dynamic discovery of processors and processor capabilities
US20150006978A1 (en) * 2012-02-13 2015-01-01 Mitsubishi Electric Corporation Processor system
US9104575B2 (en) 2012-08-18 2015-08-11 International Business Machines Corporation Reduced-impact error recovery in multi-core storage-system components
CN103839016A (zh) * 2012-11-21 2014-06-04 鸿富锦精密工业(武汉)有限公司 具有cpu保护功能的计算机
US20160301562A1 (en) * 2013-11-15 2016-10-13 Nokia Solutions And Networks Oy Correlation of event reports
WO2017052548A1 (en) * 2015-09-24 2017-03-30 Hewlett Packard Enterprise Development Lp Failure indication in shared memory
US10387260B2 (en) * 2015-11-26 2019-08-20 Ricoh Company, Ltd. Reboot system and reboot method
US10990468B2 (en) * 2016-03-14 2021-04-27 Hitachi, Ltd. Computing system and error handling method for computing system
US10536859B2 (en) 2017-08-15 2020-01-14 Charter Communications Operating, Llc Methods and apparatus for dynamic control and utilization of quasi-licensed wireless spectrum
US10459782B2 (en) * 2017-08-31 2019-10-29 Nxp Usa, Inc. System and method of implementing heartbeats in a multicore system
US10966073B2 (en) 2017-11-22 2021-03-30 Charter Communications Operating, Llc Apparatus and methods for premises device existence and capability determination
US11307921B2 (en) * 2017-12-08 2022-04-19 Apple Inc. Coordinated panic flow
US11475723B2 (en) * 2017-12-29 2022-10-18 Robert Bosch Gmbh Determining a fault in an electronic controller
US11129171B2 (en) 2019-02-27 2021-09-21 Charter Communications Operating, Llc Methods and apparatus for wireless signal maximization and management in a quasi-licensed wireless system
US11374779B2 (en) 2019-06-30 2022-06-28 Charter Communications Operating, Llc Wireless enabled distributed data apparatus and methods
US11182222B2 (en) * 2019-07-26 2021-11-23 Charter Communications Operating, Llc Methods and apparatus for multi-processor device software development and operation
US11528748B2 (en) 2019-09-11 2022-12-13 Charter Communications Operating, Llc Apparatus and methods for multicarrier unlicensed heterogeneous channel access
US11368552B2 (en) * 2019-09-17 2022-06-21 Charter Communications Operating, Llc Methods and apparatus for supporting platform and application development and operation
US11026205B2 (en) 2019-10-23 2021-06-01 Charter Communications Operating, Llc Methods and apparatus for device registration in a quasi-licensed wireless system
US11457485B2 (en) 2019-11-06 2022-09-27 Charter Communications Operating, Llc Methods and apparatus for enhancing coverage in quasi-licensed wireless systems
US11363466B2 (en) 2020-01-22 2022-06-14 Charter Communications Operating, Llc Methods and apparatus for antenna optimization in a quasi-licensed wireless system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0348940A (ja) * 1989-07-18 1991-03-01 Nec Corp 電子計算機システム
JPH04340631A (ja) * 1991-05-17 1992-11-27 Mitsubishi Electric Corp 分散処理システム
JP2000311155A (ja) * 1999-04-27 2000-11-07 Seiko Epson Corp マルチプロセッサシステム及び電子機器

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0271336A (ja) 1988-09-06 1990-03-09 Nec Corp プロセッサの障害状態監視方式
JPH06243104A (ja) 1993-02-10 1994-09-02 Fujitsu Ltd マルチプロセッサシステムにおけるcpu間通信方式
JPH06243101A (ja) 1993-02-10 1994-09-02 Fujitsu Ltd マルチプロセッサシステムにおけるcpu間通信方式
JPH06332864A (ja) 1993-05-27 1994-12-02 Fujitsu Ltd マルチプロセッサシステムにおけるcpu間通信方式
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
JPH11338838A (ja) 1998-05-22 1999-12-10 Nagano Nippon Denki Software Kk マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US6516429B1 (en) * 1999-11-04 2003-02-04 International Business Machines Corporation Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
US6622260B1 (en) * 1999-12-30 2003-09-16 Suresh Marisetty System abstraction layer, processor abstraction layer, and operating system error handling
US6725317B1 (en) * 2000-04-29 2004-04-20 Hewlett-Packard Development Company, L.P. System and method for managing a computer system having a plurality of partitions
US7082610B2 (en) * 2001-06-02 2006-07-25 Redback Networks, Inc. Method and apparatus for exception handling in a multi-processing environment
US6851071B2 (en) * 2001-10-11 2005-02-01 International Business Machines Corporation Apparatus and method of repairing a processor array for a failure detected at runtime
US7257734B2 (en) * 2003-07-17 2007-08-14 International Business Machines Corporation Method and apparatus for managing processors in a multi-processor data processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0348940A (ja) * 1989-07-18 1991-03-01 Nec Corp 電子計算機システム
JPH04340631A (ja) * 1991-05-17 1992-11-27 Mitsubishi Electric Corp 分散処理システム
JP2000311155A (ja) * 1999-04-27 2000-11-07 Seiko Epson Corp マルチプロセッサシステム及び電子機器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205362A (ja) * 2008-02-27 2009-09-10 Nec Corp コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム

Also Published As

Publication number Publication date
JPWO2006082657A1 (ja) 2008-06-26
US20080010506A1 (en) 2008-01-10
US7716520B2 (en) 2010-05-11
JP4489802B2 (ja) 2010-06-23

Similar Documents

Publication Publication Date Title
JP4489802B2 (ja) マルチcpuコンピュータおよびシステム再起動方法
US7853825B2 (en) Methods and apparatus for recovering from fatal errors in a system
JP4117262B2 (ja) 故障プロセッサを置き換える方法、媒体およびシステム
US8413133B2 (en) Software update management apparatus and software update management method
US6978398B2 (en) Method and system for proactively reducing the outage time of a computer system
TWI337304B (en) Method for fast system recovery via degraded reboot
Ruprecht et al. VM live migration at scale
TWI554875B (zh) 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復
US7752495B2 (en) System and method for predictive processor failure recovery
US20100325471A1 (en) High availability support for virtual machines
TW200414041A (en) Method and system for maintaining firmware versions in a data processing system
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
US20150309883A1 (en) Recording Activity of Software Threads in a Concurrent Software Environment
JP4903244B2 (ja) 計算機システム及び障害復旧方法
JP2009211517A (ja) 仮想計算機冗長化システム
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
JP2007133544A (ja) 障害情報解析方法及びその実施装置
JP3030658B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
US8977896B1 (en) Maintaining data integrity in data migration operations using per-migration device error flags
US8555105B2 (en) Fallover policy management in high availability systems
JP4992740B2 (ja) マルチプロセッサシステム、障害検出方法および障害検出プログラム
JP5716830B2 (ja) 情報処理装置及び方法、プログラム
JP2007080012A (ja) 再起動方法、システム及びプログラム
US20070234114A1 (en) Method, apparatus, and computer program product for implementing enhanced performance of a computer system with partially degraded hardware
JP4945774B2 (ja) ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007501491

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11879390

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 11879390

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 05709822

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 5709822

Country of ref document: EP