JPS6113626B2 - - Google Patents

Info

Publication number
JPS6113626B2
JPS6113626B2 JP54009125A JP912579A JPS6113626B2 JP S6113626 B2 JPS6113626 B2 JP S6113626B2 JP 54009125 A JP54009125 A JP 54009125A JP 912579 A JP912579 A JP 912579A JP S6113626 B2 JPS6113626 B2 JP S6113626B2
Authority
JP
Japan
Prior art keywords
program
register
backup
cpu
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54009125A
Other languages
Japanese (ja)
Other versions
JPS55102064A (en
Inventor
Shigeki Fukushima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP912579A priority Critical patent/JPS55102064A/en
Publication of JPS55102064A publication Critical patent/JPS55102064A/en
Publication of JPS6113626B2 publication Critical patent/JPS6113626B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【発明の詳細な説明】 本発明は複合計算機システムにおいて一方の計
算機が故障したときに他の計算機により走行の継
続を行なう複合計算機システムのバツクアツプ方
式に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a backup method for a compound computer system in which when one computer in the compound computer system fails, another computer continues running.

従来、複合計算機システムにおいて、一つのプ
ログラムを走行させるとき、一方の計算機が故障
しても他の計算機でそのプログラムを引きつづき
実行せしめるために同期方式を採用している。こ
の同期は命令の一つ一つの実行について同期させ
る場合(密結合という)と、プログラムの要所要
所でそのプログラムの実行経過をチエツクする場
合(粗結合)とがある。前者の場合には同期のた
めの特別なハードウエアが必要であり、一方の計
算機が何んらかの故障によつて渋帯したようなと
き、他の計算機も影響を受けて同期待ちで渋帯す
る。又、同期のための特別な時間が各命令毎にか
かる。
Conventionally, in compound computer systems, when running one program, a synchronization method has been adopted so that even if one computer fails, the program can continue to be executed on another computer. There are two types of synchronization: one is to synchronize the execution of each instruction (referred to as tight coupling), and the other is to check the execution progress of the program at important points in the program (loose coupling). In the former case, special hardware is required for synchronization, and when one computer is in trouble due to some kind of failure, other computers are also affected and become stuck waiting for synchronization. to wear. Also, extra time is required for synchronization for each instruction.

後者の場合にはプログラムにおいて同期のため
計算機相互の通信モジユール等を通じての手続き
が必要であり、プログラミング上やつかいであ
る。又、同期点をきめ細かくとると、同期に要す
る時間がかかり、応答時間が長くなる。又、複合
計算機システムのうち主計算機が故障した場合、
従側の計算機は一旦前回の同期ポイントまでさか
のぼつて実行を開始する必要がある。そのために
さらにプログラムの実行は遅れてしまうことにな
る。上記二つの場合とも実行時間上の問題とハー
ドウエア及びプログラミング上の複雑さはさけ得
ない問題がある。
In the latter case, the program requires a procedure through a communication module between computers for synchronization, which is difficult in terms of programming. Further, if the synchronization points are set finely, it takes time for synchronization and the response time increases. In addition, if the main computer in the compound computer system breaks down,
The slave computer needs to go back to the previous synchronization point and start execution. This further delays program execution. Both of the above cases have unavoidable problems in execution time and complexity in terms of hardware and programming.

本発明は上記のような従来の複合計算機システ
ムのバツクアツプ方式の欠点を除去するためにな
されたもので、複合計算機システムにバツクアツ
プ用レジスタを設けてバツクアツプを行なうこと
により完全な継続性をもつた複合計算機システム
のバツクアツプ方式を提供することを目的とす
る。
The present invention was made in order to eliminate the drawbacks of the conventional backup method of compound computer systems as described above, and by providing a backup register in the compound computer system and performing backup, it is possible to achieve complete continuity of compound computer systems. The purpose is to provide a backup method for computer systems.

以下本発明の詳細を図示した一実施例により説
明する。
The details of the present invention will be explained below with reference to an illustrated embodiment.

第1図において1及び2は計算機の演算制御装
置(以下CPUと略す)でそれぞれ主メモリ1
a,2aとレジスタ部3,4を有している。又
CPU1,2はそれぞれレジスタ部3,4と同一
構成のバツクアツプ用レジスタ5,6をもつ。
CPU1からバツクアツプ用レジスタ5の内容を
読み込めるように結ばれている。同様にCPU2
からバツクアツプ用レジスタ6の内容を読み込む
ことができる。バツクアツプ用レジスタ5,6に
はそれぞれ互いに他のCPU1,2のレジスタ部
3,4の内容が命令の実行度毎に移される。7は
CPU1,2に対する共通メモリである。8,9
は警報モジユールで、CPU1,2それぞれの故
障を検出する回路である。故障の種類としては例
えば主メモリ故障(パリテイエラー)、プログラ
ム渋帯、CPU電源異常等が含まれる。警報モジ
ユール8,9の出力はそれぞれ相手側のCPU
1,2に結ばれ、互に相手側のCPU1,2の故
障を検知することができるようになつている。
In Figure 1, 1 and 2 are computer arithmetic control units (hereinafter abbreviated as CPUs), each with main memory 1.
a, 2a and register sections 3, 4. or
The CPUs 1 and 2 have backup registers 5 and 6 having the same configuration as the register sections 3 and 4, respectively.
It is connected so that the contents of the backup register 5 can be read from the CPU 1. Similarly, CPU2
The contents of the backup register 6 can be read from. The contents of the register units 3 and 4 of the other CPUs 1 and 2 are transferred to the backup registers 5 and 6 each time an instruction is executed. 7 is
This is a common memory for CPUs 1 and 2. 8,9
is an alarm module, which is a circuit that detects a failure in each of CPU1 and CPU2. The types of failures include, for example, main memory failure (parity error), program failure, CPU power supply abnormality, etc. The outputs of alarm modules 8 and 9 are each output from the CPU on the other side.
1 and 2, so that each can detect failures in the other's CPUs 1 and 2.

第2図はCPU1,2のレジスタ部3,4バツ
クアツプ用レジスタ5,6の構成を示したもので
ある。レジスタ部3,4、バツクアツプ用レジス
タ5,6はそれぞれプログラム走行番地レジスタ
203,204,205,206、ステータスレ
ジスタ213,214,215,216、演算レ
ジスタ223,224,225,226とから構
成されている。
FIG. 2 shows the structure of the register sections 3 and 4 of the CPUs 1 and 2 and the backup registers 5 and 6. The register sections 3 and 4 and the backup registers 5 and 6 are respectively composed of program running address registers 203, 204, 205, 206, status registers 213, 214, 215, 216, and calculation registers 223, 224, 225, 226. There is.

第3図は共通メモリ7の使用状態の一例を示す
図で、30は現在走行中のプログラム番号を格納
する領域、31はプログラム走行スタート番地を
格納する領域、32はプログラムが実行されるに
従つて生ずる演算の途中結果を格納する領域であ
る。
FIG. 3 is a diagram showing an example of the usage state of the common memory 7, where 30 is an area for storing the currently running program number, 31 is an area for storing the program run start address, and 32 is an area for storing the program run start address as the program is executed. This is an area for storing intermediate results of operations.

次に本発明の作用について図面を用いて説明す
る。
Next, the operation of the present invention will be explained using the drawings.

第1図において、CPU1においてあるプログ
ラムが走行するとする。走行する前の手続きとし
て、共通メモリ7にそのプログラムの番号を領域
30に走行を許可された走行スタート番地を領域
31に格納する。しかる後にCPU1にそのプロ
グラムを実行する。プログラムの実行中、第2図
で示したようなレジスタの内容がレジスタ部3よ
りバツクアツプ用レジスタ6へ命令実行の度毎に
移される。もしそのプログラム実行中、CPU1
が故障した場合には、その故障はCPU2に警報
モジユール8を経由して知らされ、CPU2は共
通メモリ7の領域30から走行中のプログラム番
号を読み取り、そのプログラムの実行準備(例え
ばそのプログラムが図示しない補助記憶メモリに
ある場合はそのプログラムを主メモリ2aへ転送
する)し、さらにバツクアツプ用レジスタ6の内
容を読み取り、プログラム走行番地レジスタ20
6に格納されたCPU1における走行番地と、共
通メモリ7の領域31に格納された走行スタート
番地とにより、CPU2における新らしい再開走
行番地を求める。またレジスタ部6のステータレ
ジスタ216に格納されているステータスにより
CPU1におけるステータスと同一にし、さらに
演算レジスタ226の内容をCPU2のレジスタ
部4の演算レジスタ224に移して、そのプログ
ラムの実行を再開させる。これにより、プログラ
ムは完全にCPU1で実行された命令の次から完
全な形で再開始できる。又、CPU1でそのプロ
グラムの実行途中で生じた演算結果は共通メモリ
7の領域32の中にたくわえられているので、演
算途中のデータを失うことはない。
In FIG. 1, it is assumed that a certain program is running on the CPU 1. As a procedure before running, the number of the program is stored in the common memory 7, the running start address at which running is permitted is stored in the area 31, and the number of the program is stored in the area 30. After that, the program is executed on CPU1. During program execution, the contents of the registers shown in FIG. 2 are transferred from the register section 3 to the backup register 6 every time an instruction is executed. If the program is running, CPU1
If a failure occurs, the CPU 2 is notified of the failure via the alarm module 8, and the CPU 2 reads the running program number from the area 30 of the common memory 7 and prepares to execute the program (for example, if the program is (If the program is in the auxiliary memory that is not stored, the program is transferred to the main memory 2a), the contents of the backup register 6 are read, and the program run address register 20 is read.
Based on the running address in the CPU 1 stored in the CPU 6 and the running start address stored in the area 31 of the common memory 7, a new restart running address in the CPU 2 is determined. Also, depending on the status stored in the stator register 216 of the register section 6,
The status is set to be the same as that of the CPU 1, and the contents of the calculation register 226 are transferred to the calculation register 224 of the register section 4 of the CPU 2, and the execution of the program is restarted. This allows the program to restart completely from the instruction that was completely executed by CPU1. Further, since the calculation results generated during the execution of the program by the CPU 1 are stored in the area 32 of the common memory 7, the data during the calculation will not be lost.

上記説明はCPU1にてプログラムを実行させ
る場合であるが逆の場合も同様である。
The above explanation is for the case where the program is executed by the CPU 1, but the same applies to the reverse case.

上記説明はプログラムの走行時におけるCPU
故障に対するそのプログラムの再走行に関するも
のである。一方、オペレーテイングシステムの走
行中にどちらかのCPUが故障した場合は、健全
なCPUは上述のような手続きでプログラムの再
走行をしようとするが、オペレーテイングシステ
ム走行中においては第3図の領域30におけるプ
ログラム番号には例えば特殊な記号として“0”
を記憶させておくことにより、健全なCPUはこ
れを単に他のCPUの故障として認知するだけで
再開動作には入る必要はない。
The above explanation is about the CPU when running the program.
This relates to rerunning the program in response to a failure. On the other hand, if one of the CPUs fails while the operating system is running, a healthy CPU will try to rerun the program using the procedure described above, but while the operating system is running, only one of the CPUs will fail, as shown in Figure 3. For example, the program number in area 30 has a special symbol “0”.
By memorizing this, a healthy CPU will simply recognize this as a failure of another CPU and will not need to restart.

以上説明したように本発明は複合計算機システ
ムにバツクアツプ用レジスタを附加することによ
り、故障検出時に健全なCPUでそれを読み取
り、プログラムを正確に故障を起した次のステツ
プより再開させることが出来、従来のような実行
時間の問題及び同期に要するプログラミングのわ
ずらわしさを解決することができる。これにより
複合計算機システムにおけるダイナミツクな実行
負荷分配制御も容易に実現することが可能であ
り、複合計算機システムを有効に作動せしめるこ
とができる。
As explained above, the present invention adds a backup register to a compound computer system, so that when a failure is detected, a healthy CPU can read it and restart the program accurately from the next step where the failure occurred. It is possible to solve the conventional problem of execution time and the troublesome programming required for synchronization. As a result, dynamic execution load distribution control in a compound computer system can be easily realized, and the compound computer system can be operated effectively.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は複合計算機システムの一例を示すブロ
ツク図、第2図は第1図におけるレジスタ部3,
4、バツクアツプ用レジスタ5,6の構成を示す
図、第3図は第1図における共通メモリ7の使用
形態の一例を示す図である。 1,2…演算制御装置(CPU)、1a,2a…
主メモリ、3,4…レジスタ部、5,6…バツク
アツプ用レジスタ、7…共通メモリ、8,9…警
報モジユール、203〜206…プログラム走行
番地レジスタ、213〜216…ステータレジス
タ、223〜226…演算レジスタ、30,3
1,32…領域。
Fig. 1 is a block diagram showing an example of a compound computer system, and Fig. 2 shows the register section 3 in Fig. 1,
4. A diagram showing the structure of the backup registers 5 and 6. FIG. 3 is a diagram showing an example of how the common memory 7 in FIG. 1 is used. 1, 2... Arithmetic control unit (CPU), 1a, 2a...
Main memory, 3, 4...Register section, 5, 6...Backup register, 7...Common memory, 8, 9...Alarm module, 203-206...Program running address register, 213-216...Stator register, 223-226... Arithmetic register, 30,3
1, 32...area.

Claims (1)

【特許請求の範囲】[Claims] 1 複数の演算制御装置とバツクアツプ用レジス
タと共通メモリとを具備する複合計算機システム
において、一つの演算制御装置がプログラムを実
行する際に該プログラムの番号とスタート番地と
を前記共通メモリに格納し、プログラムを実行中
は該演算制御装置のレジスタ部の内容を命令実行
の度毎に前記バツクアツプ用レジスタに移し、該
演算制御装置が故障した場合他の演算制御装置は
前記バツクアツプ用レジスタの内容と前記共通メ
モリに格納された内容とを読みとつてプログラム
の再開番地と故障前のレジスタの内容とステータ
スとを求めてプログラムを再開することを特徴と
する複合計算機システムのバツクアツプ方式。
1. In a compound computer system comprising a plurality of arithmetic and control units, a backup register, and a common memory, when one arithmetic and control unit executes a program, the number and start address of the program are stored in the common memory, While a program is being executed, the contents of the register section of the arithmetic control unit are transferred to the backup register each time an instruction is executed, and if the arithmetic control unit fails, the other arithmetic control units transfer the contents of the backup register and the A backup method for a compound computer system characterized in that the program is restarted by reading the contents stored in a common memory to obtain the program restart address and the register contents and status before the failure.
JP912579A 1979-01-31 1979-01-31 Backup system in composite computer system Granted JPS55102064A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP912579A JPS55102064A (en) 1979-01-31 1979-01-31 Backup system in composite computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP912579A JPS55102064A (en) 1979-01-31 1979-01-31 Backup system in composite computer system

Publications (2)

Publication Number Publication Date
JPS55102064A JPS55102064A (en) 1980-08-04
JPS6113626B2 true JPS6113626B2 (en) 1986-04-14

Family

ID=11711908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP912579A Granted JPS55102064A (en) 1979-01-31 1979-01-31 Backup system in composite computer system

Country Status (1)

Country Link
JP (1) JPS55102064A (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5872267A (en) * 1981-10-26 1983-04-30 Hitachi Ltd Computer device for supervising dual system status
US4594660A (en) * 1982-10-13 1986-06-10 Honeywell Information Systems Inc. Collector
JPS6054052A (en) * 1983-09-02 1985-03-28 Nec Corp Processing continuing system
FR2649224B1 (en) * 1989-06-30 1995-09-01 Nec Corp INFORMATION PROCESSING SYSTEM CAPABLE OF EASILY SUPPORTING PROCESSING OF A FAULTY PROCESSOR
JP3158517B2 (en) * 1991-08-26 2001-04-23 富士通株式会社 Failure detection method
JP6067548B2 (en) * 2013-12-18 2017-01-25 トヨタ自動車株式会社 Information processing device

Also Published As

Publication number Publication date
JPS55102064A (en) 1980-08-04

Similar Documents

Publication Publication Date Title
US4965717A (en) Multiple processor system having shared memory with private-write capability
US5327553A (en) Fault-tolerant computer system with /CONFIG filesystem
US5317726A (en) Multiple-processor computer system with asynchronous execution of identical code streams
US5890003A (en) Interrupts between asynchronously operating CPUs in fault tolerant computer system
US5384906A (en) Method and apparatus for synchronizing a plurality of processors
EP0433979A2 (en) Fault-tolerant computer system with/config filesystem
JPH07117903B2 (en) Disaster recovery method
JPH08161279A (en) Multiprocessor system
JPH0950424A (en) Dump sampling device and dump sampling method
JP2000112584A (en) Computer system provided with countermeasure against power supply fault and its driving method
CN117389781B (en) Abnormality detection and recovery method and system for server equipment, server and medium
JPS6113626B2 (en)
JP2002229811A (en) Control method of logical partition system
JPS6229820B2 (en)
JP4853620B2 (en) Multiprocessor system and initial startup method and program
KR19990057809A (en) Error prevention system
JPS59206951A (en) Diagnostic system of circuit for detecting control storage error
JPH0462641A (en) Multiprocessor system
JPH10161879A (en) Computer system
JPS5837583B2 (en) information processing equipment
JPS6077252A (en) Input/output control device
JPH02122335A (en) Test method for ras circuit
JPS62237536A (en) Electronic computer
JPH05274169A (en) Computer
JPH11184722A (en) Automatic restoring function for service processor in distributed processing system