JPS63251840A - Control method for detection of multi-processor abnormality - Google Patents

Control method for detection of multi-processor abnormality

Info

Publication number
JPS63251840A
JPS63251840A JP62086329A JP8632987A JPS63251840A JP S63251840 A JPS63251840 A JP S63251840A JP 62086329 A JP62086329 A JP 62086329A JP 8632987 A JP8632987 A JP 8632987A JP S63251840 A JPS63251840 A JP S63251840A
Authority
JP
Japan
Prior art keywords
cpu
memory
processor
wait
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62086329A
Other languages
Japanese (ja)
Inventor
Jinichi Nakamura
仁一 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP62086329A priority Critical patent/JPS63251840A/en
Publication of JPS63251840A publication Critical patent/JPS63251840A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To prevent the progress of a fault and to improve the reliability of a multi-processor system by keeping an abnormal cycle under a waiting state when the fault occurs in the system. CONSTITUTION:When a memory has a fault, a flip-flop 2 is set by a NAND 8 when the abnormal cycle is equal to the cycle of a CPU-2 via a fault generation signal 3C. Then an interruption request 1F is supplied by the output of the flip-flop 2 against a CPU-1. At the same time, the output of a counter 3 is inhibited by a NAND 7, therefore, a waiting state 2E of the CPU-2 is not released. Then the state 2E is released when a control signal received from the CPU-1 is reset. Thus the state 2E is not released and a processor is kept under the state 2E when a fault occurs. Thus it is possible to prevent the progress of an error state and to improve the reliability of a multi-processor system.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は共有メモリを有するマルチプロセッサシステム
において発生した障害を検出し制御する方式、および1
処1!If装置と従弟IIII LQ ニで構成される
マルチプロセフサシ、ステムにおいて従処理装置に発生
した障害を検出し制御する方法に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention provides a system for detecting and controlling failures occurring in a multiprocessor system having a shared memory, and
Place 1! The present invention relates to a method for detecting and controlling a failure occurring in a slave processor in a multiprocessor system consisting of an If device and a cousin III LQ device.

(従来の技術〕 従来共作メそりを有するマルチプロセッサシステムにお
いては障害の発生をメモリの内容に反映しそれを各々の
プロセッサがセマフォを用いて読むことにより異常検出
していた(特開昭6O−254303)、又主処理装置
と従処理装置で構成されるマルチプロセッサシステムに
おいては主処理装置内に応答待ちタイマを設け、従処理
装置の状態を監視することにより障害発生を検出してい
た。また最近では障害検出時間の短縮化を計るためファ
ームウェアレベルで前記従処理装置のための吠自通知要
求コマンドを設は従処理装置からのレスポンスが予め決
められた時間内に得られるかどうかで判断する方式(特
開昭00−254338)であった。
(Prior art) Conventionally, in a multiprocessor system with a collaborative memory system, an error was detected by reflecting the occurrence of a failure in the memory contents and having each processor read the contents using a semaphore. -254303), and in a multiprocessor system composed of a main processing unit and a slave processing unit, a response waiting timer is provided in the main processing unit and the occurrence of a failure is detected by monitoring the status of the slave processing unit. Recently, in order to shorten the failure detection time, a self-notification request command for the slave processing device has been set at the firmware level, and the judgment is made based on whether a response from the slave processing device can be obtained within a predetermined time. (Japanese Unexamined Patent Publication No. 00-254338).

(発明が解決しようとする四履点) 従来の技術では共有メモリを有するマルチプロセッサシ
ステムに勿いても、主処理K Uと従処理lmで構成さ
れるマルチプロセッサシステムにおいても発生する障害
を瞬時に検出し得ない。即ち障害が発生してから何らか
の方法で障害に対処するまでにプロセッサは異常状態の
ままで動作を続行するので事態の悪化を招くことになる
。最悪の場合は障害の検出前にシステムダウンに致るこ
とも「る。
(Four Points to be Solved by the Invention) Conventional techniques can instantly resolve failures that occur not only in multiprocessor systems with shared memory, but also in multiprocessor systems composed of a main processor KU and a slave processor LM. Undetectable. In other words, the processor continues to operate in an abnormal state after a failure occurs until some method is taken to deal with the failure, resulting in a worsening of the situation. In the worst case, the system may go down before the failure is detected.

本発明は、上記の欠点を除去し、障害があった場合にそ
のエラー状態を進行させない信頓性の高いマルチプロセ
ッサの制御方法を提供することを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a highly reliable multiprocessor control method that eliminates the above-mentioned drawbacks and prevents the error state from progressing in the event of a failure.

〔問題点を解決するための手段〕[Means for solving problems]

本発明は少なくとも2つ以上のCPUが共有のメモリを
有するマルチプロセッサにおいて、前記プロセッサのう
ちの少なくとも1つが前記共有メモリをアクセスした際
、該CPUにウェイトがかけられ、前記共存メモリのエ
ラーをチェックするメモリ異常検出回路がエラーを検出
した場合には、前記ウェイト状信を11続せしめること
を特徴する。
The present invention provides a multiprocessor in which at least two or more CPUs have a shared memory, and when at least one of the processors accesses the shared memory, a wait is applied to the CPU to check for errors in the coexisting memory. If the memory abnormality detection circuit detects an error, it is characterized in that 11 of the wait messages are sent in succession.

(作用〕 この方式においては障害発生の時点でプロセラ、ザのサ
イクルをウェイト伏皿とする。そのため共有メモリを有
するマルチプロセッサシステムの各々のプロセッサ、及
び主処理装置と従処理装置で構成されるマルチプロセッ
サシステムの各々の処理装置内のプロセッサに対しサイ
クルの開始にまずウェイトをかける。障害の発生がない
場合にはすぐさまウェイトを解除するので無用のウェイ
トが入ることはない。障害発生時にはウェイトは解除さ
れず上記プロセッサ又は処理装置はウェイト状態のまま
であるので次の処理に移ることはない。また障害発生の
検出はハードウェアの信号により割り込み発生回路から
他のプロセッサ又は他の処理装ぎへの割り込みにより行
なう。
(Operation) In this method, the cycle of the processor and the processor is used as a wait table at the time of occurrence of a failure.Therefore, each processor of the multiprocessor system having a shared memory, and the multiprocessor system consisting of the main processing unit and the slave processing unit, First, a wait is placed on the processor in each processing unit of the processor system at the start of a cycle.If no failure occurs, the wait is immediately released, so no unnecessary wait is inserted.When a failure occurs, the wait is canceled. The processor or processing device remains in a wait state and does not move on to the next process.Furthermore, the occurrence of a failure is detected by sending a signal from the interrupt generation circuit to another processor or other processing device using a hardware signal. This is done by interrupt.

〔実施例〕〔Example〕

以下に添付図面を参照しながら本発明の詳細な説明する
The present invention will be described in detail below with reference to the accompanying drawings.

共イ「メモリを「するマルチプロセッサシステムにおい
て本発明を実施するシステム構成を第1図に示す。第1
図において1はメインプロセッサでCPU−1であり、
2はサブプロセッサCPU−2である。各々のプロセッ
サの共存メモリ5に対してのアクセス要求は1・のCP
 U −1がID12のCPU−2が20であり、競合
回路回路4で調停されIDの許可信号がIG、2Cの許
可信号が2Dとなりそれぞれ排他的に出力される。この
1Gと2Dのメモリアクセス許可信号により7のメモリ
アクセス制御回路からメモリに対する制御信号3Dが生
成される。この3Dの信号とアドレス3A、データ31
3により共存メモリ5はデータの人出力を行なう。また
このタイミングに同期してメモリ異邦゛検出回路6によ
り共有メモリ5に対するアクセスが正常であるかを判断
する。異常が検出された場合は異常発生検出信号3Cを
出力する0通常のシロ常検出はパリティチェックあるい
はCRCチェックにより行なう。
FIG. 1 shows a system configuration for implementing the present invention in a multiprocessor system that uses common memory.
In the figure, 1 is the main processor, CPU-1,
2 is a sub-processor CPU-2. An access request to the co-located memory 5 of each processor is CP of 1.
U-1 is ID12 and CPU-2 is 20, and after arbitration by the competition circuit 4, the permission signal for ID becomes IG, and the permission signal for 2C becomes 2D, which are respectively output exclusively. Based on the 1G and 2D memory access permission signals, the memory access control circuit 7 generates a control signal 3D for the memory. This 3D signal, address 3A, data 31
3, the coexistence memory 5 performs data output. Also, in synchronization with this timing, the memory foreign detection circuit 6 determines whether access to the shared memory 5 is normal. If an abnormality is detected, an abnormality occurrence detection signal 3C is output. Normally, abnormality detection is performed by a parity check or a CRC check.

1のCP U −1と20CPU−2が共存メモリ5に
対しアクセスする際のタイミングチャートを第2図に示
す。1のCI) U −1からの共存メモリ5に対する
アクセス要求IDが出力され、競合回避回路4で調停さ
れ1のCPU−1のアクセス許可信号IGが出力される
。その時2のCPU−2からの共有メモリ5に対するア
クセス要求2cはlDの要求が解除されるまで競合Ll
il 跡回路4に許可されないのでそのままの状態とな
る。1のcPU−1側ではアクセス許可信号IGにより
アドレスバッフ78、データパフフ78を開き共存メモ
リ5に対しアクセスを開始する。メモリアクセス11i
制御回路7から共有メモリ5にアクセス制御信号3Dが
出力されデータの人出力が行なわれlのCPU−1側の
アクセスが終了する。この時のアクセスデータを用いて
メモリ異邦゛検出回路6により異常検出が行なわれる。
A timing chart when CPU 1 and CPU 20 access the coexisting memory 5 is shown in FIG. 1's CI) The access request ID for the coexisting memory 5 from U-1 is output, and the contention avoidance circuit 4 arbitrates the access request ID, and the access permission signal IG for the 1's CPU-1 is output. At that time, the access request 2c to the shared memory 5 from CPU-2 of 2 is contention Ll until the request of LD is released.
il Since it is not permitted by trace circuit 4, it will remain in the same state. On the cPU-1 side, the address buffer 78 and data puff 78 are opened in response to the access permission signal IG, and access to the coexistence memory 5 is started. memory access 11i
An access control signal 3D is outputted from the control circuit 7 to the shared memory 5, data is outputted manually, and the access on the CPU-1 side of 1 is completed. Abnormality detection is performed by the memory foreign state detection circuit 6 using the access data at this time.

異常が検出された場合は検出信号3Cにより1のCPU
−1に人力される。lのCI) U −1のアクセス時
の障害は割り込みとしてICより人力され−111の例
外処理が行なわれる。
If an abnormality is detected, the CPU of 1 is activated by the detection signal 3C.
-1 is manually powered. 1) A failure during access to U-1 is manually generated by the IC as an interrupt, and -111 exception processing is performed.

1のCI’U−1のサイクルが終了すると競合回避回路
4から2のCPU−2のアクセス許可信号2Dが出力さ
れる。この信号によりアドレスバッフ113、データバ
ッフ112を開き共有メモリ5に対してのアクセスを開
始する。メモリ制御回路7から共有メモリ5にアクセス
制御信号3Dが出力されデータの人出力が行なわれる。
When the cycle of the first CI'U-1 ends, the contention avoidance circuit 4 outputs an access permission signal 2D for the second CPU-2. This signal opens the address buffer 113 and data buffer 112 and starts accessing the shared memory 5. An access control signal 3D is output from the memory control circuit 7 to the shared memory 5, and data is output manually.

2のCPU−2はアクセス要求信号2Cを出力した時点
でウェイト制御回路3により自分自身にウェイト2Eを
かける。このウェイト2Eはアクセス許可信号21)が
出力された後に解除するが、異常検出回路Gにより2の
CPU−2のアクセスに異常が検出された場合は解除さ
れずウェイト2Eは出力されたままとなるので、2のC
l) U −2はその異常サイクルのtまでウェイトを
g+/る。また2のCI) U −2のアクセス時の異
常検出信号はウェイト制御回路3より1のCI) U 
−1に対し割り込み信号I Fが出力されるので1のC
I) U −1は障害に対する処理を行ない2のCI)
 U −2に対する制御信号IEによりリセットをかけ
たり停止させたりすることができる。
When the CPU-2 outputs the access request signal 2C, the wait control circuit 3 applies a weight 2E to itself. This wait 2E is canceled after the access permission signal 21) is output, but if the abnormality detection circuit G detects an abnormality in the access of CPU-2, it is not canceled and the wait 2E remains output. Therefore, 2C
l) U -2 increases the weight by g+/ until t of the abnormal cycle. Also, the abnormality detection signal when accessing CI 2) U-2 is sent from the wait control circuit 3 to CI 1) U.
Since the interrupt signal IF is output for -1, C of 1
I) U-1 performs processing for the failure and CI of 2)
It can be reset or stopped by the control signal IE for U-2.

第3図にウェイト制御回路3の回路を示す、2のCPU
−2がメモリ、アクセス要求信号2cを出力すると6の
NANDが反転してフリップフロップ1をクリアしCP
U−2に対しウェイト信号2Eが出力される0M合回避
回路よりCPU−2のアクセス許可信号2Dが出力され
ると7リツプフロフプ1のクリアは解除される。さらに
カウンタ3のクリアも解除される。1紀カウンタ3と発
振器4はメモリに対するアクセスレディのタイミングを
作るもので予め設定しておいた時間になるとフリップフ
ロップ1のクロックをたたきCI) U −2に対する
ウェイト2Eを解除する。しかしメモリに障害が発生し
た場合、障害発生信号3cによりそのサイクルがCPU
−2のサイクルの時NAND8によりフリップフロップ
2がセットされその出力によりCPU−1に対する割り
込み要求IFが入力される。またAND7によりカウン
タ8の出力は禁止されるのでCI’U−2のウェイト2
Eは解除されない、このウェイトはCPU−1からの制
御信号例えばリセットにより解除される。
Figure 3 shows the circuit of the weight control circuit 3.
-2 is the memory, and when it outputs the access request signal 2c, the NAND of 6 is inverted, clearing the flip-flop 1, and CP
When the access permission signal 2D of the CPU-2 is outputted from the 0M event avoidance circuit which outputs the wait signal 2E to U-2, the clearing of the 7-rip-flop 1 is canceled. Further, the clearing of counter 3 is also canceled. The first period counter 3 and the oscillator 4 are used to create a ready timing for accessing the memory, and at a preset time, they strike the clock of the flip-flop 1 and release the wait 2E for CI) U-2. However, if a memory failure occurs, the failure occurrence signal 3c causes the cycle to be transferred to the CPU.
-2 cycle, the flip-flop 2 is set by the NAND 8, and its output inputs an interrupt request IF to the CPU-1. Also, since the output of counter 8 is prohibited by AND7, the weight 2 of CI'U-2 is
E is not canceled; this weight is canceled by a control signal from the CPU-1, such as a reset.

第4図に主処理装置と従処理装置で構成されるマルチプ
ロセッサシステムにおいて本発明を実施する他のシステ
ム構成を示す。lはメイ/プ「1セツサでCI’ U 
−1で2は従処理装置のプロセッサでCI) U −2
である。43は従処理装置のメモリ、44は従処理Hn
のIloである。2のCPU−2がメモリ43ヘアクセ
スする場合はメモリアクセス制御信号42Aによりメモ
リ43ヘアクヒスし、同時にウェイト制御回路47によ
り2のCI’U−2へウェイト信号42 IIを出力す
る。メモリアクセスに異常があるかどうかについてはメ
モリ異常検出回路45により判定し異’73がない場合
にはウェイト制御回路47は2のCPU−2に対するウ
ェイトを解除して2のCI) U −2はそのサイクル
を終結するが異゛ISが検出された場合はウェイト信号
4211は解除されず1のCI’U−1に対し異常を知
らせる割り込み信号41Bが入力される。2のCPU−
2がIloへアクセスする場合はI10アクセス制御信
号42Dにより110ヘアクセスし同時にウェイト制御
回路47により2のCPU−2へウェイト信号4211
を出力する。I10アクセスに異常があるかどうかにつ
いてはI10異常検出回路46により判定し異常がない
場合にはウェイト制御回路47は2のCPU−2に対す
るウェイト解除して2のCPU−2はそのI10アクセ
スサイクルは終結するが、異常が検出された場合はウェ
イト信号42Hは解除されず1のCPU−1に対し異常
を知らせる割り込み信号4111が入力される。このウ
ェイト制御回路47についてはftE3図と同じもので
ある。
FIG. 4 shows another system configuration in which the present invention is implemented in a multiprocessor system composed of a main processing unit and a slave processing unit. l is May/pu ``CI'U with 1 setsa''
-1 and 2 is the processor of the slave processing unit (CI) U -2
It is. 43 is the memory of the slave processing device, 44 is the slave processing Hn
This is Ilo. When the second CPU-2 accesses the memory 43, the memory 43 is accessed by the memory access control signal 42A, and at the same time, the wait control circuit 47 outputs the wait signal 42II to the second CI'U-2. The memory abnormality detection circuit 45 determines whether or not there is an abnormality in the memory access, and if there is no abnormality, the wait control circuit 47 releases the wait for CPU-2 of 2, and the CI of 2) U-2 is When the cycle is terminated, but a different IS is detected, the wait signal 4211 is not canceled and an interrupt signal 41B is inputted to CI'U-1 to notify the abnormality. 2 CPU-
When 2 accesses Ilo, the I10 access control signal 42D is used to access 110, and at the same time, the wait control circuit 47 sends a wait signal 4211 to the CPU-2 of 2.
Output. The I10 abnormality detection circuit 46 determines whether there is an abnormality in the I10 access, and if there is no abnormality, the wait control circuit 47 releases the wait for the CPU-2 of No. 2, and the CPU-2 of the No. 2 performs the I10 access cycle. However, if an abnormality is detected, the wait signal 42H is not canceled and an interrupt signal 4111 is input to the CPU-1 to notify the CPU-1 of the abnormality. This weight control circuit 47 is the same as in the ftE3 diagram.

〔発明の効果〕〔Effect of the invention〕

以上詳記したように本発明の異常検出制御方法によれば
、共有メモリを有するマルチプロセッサシステムや主処
理装置と従処理装置で構成するマルチプロセッサシステ
ムにおいて障害が発生した場合にその異常サイクルをウ
ェイト状態とするので次のサイクルを実行しないために
障害の進行を妨ぐことが出来、システムの信頼性を向上
させることが出来る。
As detailed above, according to the abnormality detection control method of the present invention, when a failure occurs in a multiprocessor system having a shared memory or a multiprocessor system consisting of a main processing unit and a slave processing unit, the abnormal cycle is suspended. Since the next cycle is not executed, the progress of the failure can be prevented, and the reliability of the system can be improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の実施例を示すブロック図、第2図は、
上記実施例の共有メモリへのアクセス動作を説明するタ
イミングチャート、第3図は、本発明のウェイトlli
制御回路の一例を示す図。第4図は、本発明の他の実施
例を示すブロック図。 1・・・CPU 2・・・CPU 3・・・ウェイト制御回路 以  上 第3図
FIG. 1 is a block diagram showing an embodiment of the present invention, and FIG. 2 is a block diagram showing an embodiment of the present invention.
A timing chart illustrating the access operation to the shared memory in the above embodiment, FIG. 3 shows the weight lli of the present invention.
The figure which shows an example of a control circuit. FIG. 4 is a block diagram showing another embodiment of the invention. 1...CPU 2...CPU 3...Wait control circuit and above Figure 3

Claims (1)

【特許請求の範囲】[Claims] 少なくとも2つ以上のCPUが共有のメモリを有するマ
ルチプロセッサにおいて、前記プロセッサのうちの少な
くとも1つが前記共有メモリをアクセスした際、該CP
Uにウエイトがかけられ、前記共有メモリのエラーをチ
ェックするメモリ異常検出回路がエラーを検出した場合
には、前記ウエイト状態を継続せしめることを特徴する
マルチプロセッサの異常検出制御方法。
In a multiprocessor in which at least two or more CPUs have a shared memory, when at least one of the processors accesses the shared memory, the CPU
1. An abnormality detection control method for a multiprocessor, characterized in that a wait state is applied to U, and when a memory abnormality detection circuit that checks errors in the shared memory detects an error, the wait state is continued.
JP62086329A 1987-04-08 1987-04-08 Control method for detection of multi-processor abnormality Pending JPS63251840A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62086329A JPS63251840A (en) 1987-04-08 1987-04-08 Control method for detection of multi-processor abnormality

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62086329A JPS63251840A (en) 1987-04-08 1987-04-08 Control method for detection of multi-processor abnormality

Publications (1)

Publication Number Publication Date
JPS63251840A true JPS63251840A (en) 1988-10-19

Family

ID=13883797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62086329A Pending JPS63251840A (en) 1987-04-08 1987-04-08 Control method for detection of multi-processor abnormality

Country Status (1)

Country Link
JP (1) JPS63251840A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4039013A1 (en) * 1989-12-08 1991-06-13 Hitachi Ltd Error function data detector in multiprocessor system - reduces load on processors with no errors by interrupting only affected units for data gathering

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS576956A (en) * 1980-06-16 1982-01-13 Hitachi Ltd Information processor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS576956A (en) * 1980-06-16 1982-01-13 Hitachi Ltd Information processor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4039013A1 (en) * 1989-12-08 1991-06-13 Hitachi Ltd Error function data detector in multiprocessor system - reduces load on processors with no errors by interrupting only affected units for data gathering

Similar Documents

Publication Publication Date Title
US5226152A (en) Functional lockstep arrangement for redundant processors
US4785453A (en) High level self-checking intelligent I/O controller
CA1311849C (en) Fault tolerant computer system with fault isolation and repair
US7225355B2 (en) Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof
EP0306209B1 (en) Dual rail processors with error checking at single rail interfaces
FI92262C (en) Flexible bus system
JPH0833874B2 (en) Device for synchronizing multiple processors
JPH01154242A (en) Double-zone failure-proof computer system
JPH01154243A (en) Interface between non failure-proof element and failure-proof system
JPH05128080A (en) Information processor
JPH07129426A (en) Fault processing system
US5500945A (en) Apparatus and method for controlling a system bus of a multiprocessor system
JPS63251840A (en) Control method for detection of multi-processor abnormality
JPS63251841A (en) Control method for detection of multi-processor abnormality
JP3127941B2 (en) Redundant device
JPS63251842A (en) Control method for detection of multi-processor abnormality
JP3415636B2 (en) Processor unit
JP2937857B2 (en) Lock flag release method and method for common storage
JP2906197B2 (en) Duplex bus device
JPH067379B2 (en) Direct memory access control circuit
JPH05265790A (en) Microprocessor device
JP3236459B2 (en) Error handling device in common bus data transfer
JP2903551B2 (en) Multiprocessor synchronization mechanism
JPH0247758A (en) Data processing system
JP2504552B2 (en) Commander method and apparatus for ensuring sufficient access to system resources in a multiprocessor computer system