JPS63138848A - Networm fault management system - Google Patents

Networm fault management system

Info

Publication number
JPS63138848A
JPS63138848A JP61284317A JP28431786A JPS63138848A JP S63138848 A JPS63138848 A JP S63138848A JP 61284317 A JP61284317 A JP 61284317A JP 28431786 A JP28431786 A JP 28431786A JP S63138848 A JPS63138848 A JP S63138848A
Authority
JP
Japan
Prior art keywords
node
center
network
failure
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61284317A
Other languages
Japanese (ja)
Inventor
Masayoshi Hagiwara
萩原 正義
Tsutomu Nakamura
勤 中村
Ryoichi Sasaki
良一 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61284317A priority Critical patent/JPS63138848A/en
Publication of JPS63138848A publication Critical patent/JPS63138848A/en
Pending legal-status Critical Current

Links

Landscapes

  • Monitoring And Testing Of Exchanges (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PURPOSE:To allow a small sized computer to recover a fault properly even with complicated network constitution or revision of constitution by using a network constitution table provided to a control management station so as to check the local of the management station. CONSTITUTION:A digital multiplexer or a multiplex store and forwarding proces sor 4 applying the control of a local state supervision and changeover of a network is connected to a centralized management station (center) 1 applying centralized control of the entire network via a control line 5. The center 1 is operated by a fault management task comprising a polling task to check the state of the station 4 and a main task or the like giving a constitution revision request to a node to apply fault detection and fault recovery. The state of the local station 4 to be received is discriminated quickly by the task and when a fault is detected, the constitution revision request instruction such as changeover is given to the relevant station 4.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は網管理方式に係り、特に網障害管理方式に好適
な障害検知9回復刃式に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a network management system, and particularly to a failure detection nine-recovery blade type suitable for a network failure management system.

〔従来の技術〕[Conventional technology]

網における障害回復は、障害発生箇所を検知した後は、
障害発生箇所を回避する切替え(ルーティング)が一般
に行われる。従来方式では、網の各ノードにルーティン
グ・テーブルを持たせ障害発生時の切替ルートを先にテ
ーブルに書込んでおく。したがって、障害発生時のルー
トの選択はテーブルの参照により実現できる。
For fault recovery in the network, after detecting the location of the fault,
Switching (routing) is generally performed to avoid the location where the failure occurs. In the conventional method, each node in the network has a routing table, and the switching route in the event of a failure is written in the table in advance. Therefore, route selection when a failure occurs can be achieved by referring to the table.

ところが、網が復雑化した場合のこのルーティング・テ
ーブルの修正や新規作成は、大部分のノードのルーティ
ング・テーブルの修正をする必要があったり、新規作成
するテーブルが多かったりして必ずしも保守性はよくな
い。
However, when the network becomes complex, modifying or creating a new routing table is not always easy to maintain because it requires modifying the routing tables of most nodes or creating many new tables. is not good.

また、障害回復が各ノードで分散的にルーティングする
ため、リード間の回復時刻のずれが別の障害発生を引き
起こしたり、あるいは回復時刻合せという同期操作に大
きな処理時間や復雑な手順を必要とする短所があった。
In addition, since failure recovery is routed in a distributed manner at each node, a difference in recovery time between reads may cause another failure, or the synchronization operation of adjusting the recovery time requires a large amount of processing time and complicated procedures. There were disadvantages to doing so.

そのため、各ノードの管理・制御に比較的大型な計算機
が要求され、網の規模が大きくなると、コストが高くな
る問題を持っている。
Therefore, a relatively large computer is required to manage and control each node, and as the scale of the network increases, the cost increases.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

上記従来技術は網構成が複雑になると障害検知の後の障
害回復を、小型の計算機の制御の下では適切にしかも、
迅速に行うことが困難となる。すなわち、小型の計算機
の制御の下では、障害回復のための回線の切替えに手間
取ったシ、切替え時刻のずれにより障害が他の箇所に発
生する危険性があった。
The above-mentioned conventional technology can perform failure recovery after failure detection when the network configuration becomes complex, and can perform failure recovery under the control of a small computer.
It becomes difficult to do it quickly. That is, under the control of a small computer, it took time to switch lines for failure recovery, and there was a risk that a failure would occur at another location due to a lag in the switching time.

また、網構成の拡張や結合等によシ網の関係が変わって
しまうと、障害回復がよシ複雑となって。
Furthermore, if the relationship between networks changes due to expansion or combination of network configurations, failure recovery becomes more complicated.

安全な網の運用が困難となる可能性があシ、網構成の容
易な変更はできなくなるという問題があった。
There are problems in that it may become difficult to operate the network securely, and the network configuration cannot be easily changed.

本発明の目的は、網構成が複雑化したりあるいは拡張等
の構成変更があったとしても、小型の計算機の制御下で
障害回復を適切に、かつ、迅速に行うことにある。
An object of the present invention is to appropriately and quickly perform failure recovery under the control of a small computer even if the network configuration becomes complicated or there is a configuration change such as expansion.

〔問題点を解決するための手段〕[Means for solving problems]

上記の目的は、網構成テーブルという2次元のマトリッ
クステーブルをセンター(網統括管理局)に用意し、構
成の変更を常にこのテーブルの書換えで追跡しておくこ
とで、網金体の関係を把握することにより達成される。
The purpose of the above is to prepare a two-dimensional matrix table called the network configuration table at the center (network general management station), and to track configuration changes by constantly rewriting this table to understand the relationship between the network elements. This is achieved by

障害検知はこの網構成テーブルにあるアドレスで表わす
ノード(網の局部的管理局)を1つずつ状態チェック(
ポーリング)することで行う。
Failure detection involves checking the status of each node (local management station of the network) represented by the address in this network configuration table (
This is done by polling).

障害回復は、センターが障害発生箇所とその周辺にある
構成上関係をもつノードに対して、切替え等の構成変更
要求命令を出し、指定時刻に、関連箇所を同時切替えす
ることで行う。そして、回復不可能な場合には、メツセ
ージ出力を行い、保守員による回復が行われる。
Fault recovery is performed by the center issuing a configuration change request command such as switching to nodes that are structurally related to the location where the fault occurred, and simultaneously switching the related locations at a specified time. If recovery is not possible, a message is output and maintenance personnel perform recovery.

〔作用〕[Effect]

センターはノードの状態チェックを行うポーリング・タ
スク、障害検知や障害回復のためのノードへの構成変更
要求を出すメイン・タスク、および構成テーブルの作成
やポーリングとメインのタスクの起動を行う初期化タス
ク、の3つの障害管理タスクにより動作する。それによ
って、ノードから受信する状態を迅速に判定し、構成テ
ーブルを使用して構成変更要求をノードに対して適切に
出すことができる。
The center has a polling task that checks the status of nodes, a main task that issues configuration change requests to nodes for failure detection and recovery, and an initialization task that creates configuration tables and starts polling and main tasks. It operates through three fault management tasks: . Thereby, the status received from the node can be quickly determined and the configuration table can be used to appropriately issue configuration change requests to the node.

ノードは、上記の構成テーブルをセンターに用意するこ
とで、ノードに接続する回線、装置のステータス判定を
センターに任せ、かつ、切替えによる回復時刻台ぜをセ
ンターの指示で実行するため、処理の簡単化、処理時間
の短縮化を可能とし、小型計算機での実行が容易となる
By preparing the above configuration table at the node, the node can leave the determination of the status of the lines and devices connected to the node to the center, and the recovery time due to switching can be executed according to the center's instructions, which simplifies the process. This makes it possible to reduce processing time and facilitate execution on a small computer.

〔実施例〕〔Example〕

以下、本発明の一実施例を第1図から第9図により説明
する。
An embodiment of the present invention will be described below with reference to FIGS. 1 to 9.

第1図(a)は本発明の対象とする計算機・通信システ
ムの網構成を委している。ノードと呼ぶ網の局部的な状
態の監視、切替え等の制御を行うディジタル多重化装置
あるいは多重集配信装置4と。
FIG. 1(a) shows the network configuration of a computer/communication system to which the present invention is applied. A digital multiplexing device or multiplexing and distribution device 4 that monitors the local state of the network and controls switching, etc., called a node.

ノードを制御線5で監視し、網金体の統括制御を行うセ
ンターと呼ぷ局1を設けている。ノード4には、それぞ
れ低・中速回線6と高速回線7が複数接続しており切替
えが可能である。また、高速回線側には、衛星通信地球
局8を接続し、衛星回線9を使用する場合もある。なお
、センターにはノードの監視、制御用にコンソール2お
よびディスク3が接続している。
A station 1 called a center is provided which monitors the nodes via a control line 5 and performs overall control of the mesh body. A plurality of low/medium speed lines 6 and a plurality of high speed lines 7 are connected to each node 4 and can be switched. Further, a satellite communication earth station 8 may be connected to the high-speed line side, and a satellite line 9 may be used. Note that a console 2 and a disk 3 are connected to the center for node monitoring and control.

第1図(b)は第1図(a)を模式的に図示したもので
ある。ここで、各ノードには16進のアドレス付けをし
ている。
FIG. 1(b) is a schematic illustration of FIG. 1(a). Here, each node is given a hexadecimal address.

本発明では回線等に故障による障害が発生した場合、そ
の回線の状態を監視するノードとセンターとの間での命
令、ステータス情報のやυとシを行い、障害回復を円滑
に実行する。すなわち、障害発生回線から別口線への切
替えを速やかに行うことを可能とする。なぜならば、障
害回復をセンターが要求する指定時間内にノードが実行
するからである。したがって、網を安全に運用すること
が可能となる。
In the present invention, when a failure occurs in a line or the like due to a failure, commands and status information are exchanged between the node that monitors the state of the line and the center to smoothly perform failure recovery. In other words, it is possible to quickly switch from a failed line to another line. This is because the nodes perform failure recovery within the specified time required by the center. Therefore, it becomes possible to operate the network safely.

以下順を追って本発明の実現方法を説明する。A method for implementing the present invention will be explained in order below.

第2図は本発明の障害回復に使用する基本的命令、およ
びノードの状態(ステータス)t−送信する時に使用す
る制御用の記号である。この記号はコードという16進
の数字で表わす。
FIG. 2 shows basic commands used for failure recovery according to the present invention and control symbols used when transmitting node status (t). This symbol is represented by a hexadecimal number called a code.

具体的には、活性要求10は指定アドレス回線の活性化
(回線確立)を要求する命令、切断要求11は指定アド
レス回線の切断を要求、マニュアル要求は指定アドレス
回線の手動チェック、保守を行う要求を示す。ノードの
ステータス送信には、ステータス送信13を使用する。
Specifically, activation request 10 is a command requesting activation (line establishment) of a designated address line, disconnection request 11 is a request to disconnect the designated address line, and manual request is a request for manual checking and maintenance of the designated address line. shows. Status transmission 13 is used for node status transmission.

第3図はセンターが網の障害を検知1回復する時、網の
現在の構成を知る上で使用する網の構成テーブルである
。構成テーブルは2次元マトリックとして表わし1行1
4にはIN(イン)、すなわち各ノードに入力する回線
に接続するノードのアドレス、列15にはOUT (ア
ウト)、すなわち各ノードより出力する回線に接続する
ノードのアドレス、を並べる。例えば、第1図(b)の
7−ドBの場合、ノードAからノードBに入力する回線
は(IN、0UT)=(AB、AA)18で示し、ここ
に現在のこの回線の状態、すなわち、切断中かどうか等
が16進の数字で入っている。逆に、17はノルドBよ
りノードAに入る回線を示す。
FIG. 3 is a network configuration table used by the center to know the current configuration of the network when detecting and recovering from a network failure. The configuration table is represented as a two-dimensional matrix, with one row per row.
Column 4 lists IN, that is, the address of the node connected to the line input to each node, and column 15 lists OUT, that is, the address of the node connected to the line output from each node. For example, in the case of 7-DoB in FIG. 1(b), the line input from node A to node B is shown as (IN, 0UT) = (AB, AA)18, and the current state of this line is shown here. That is, information such as whether or not cutting is in progress is entered in hexadecimal numbers. Conversely, 17 indicates a line entering node A from Nord B.

ノードB自体の状態は(IN、0UT)=(AA、AA
)、すなわち16で示す。19はノードA自体の状態を
示す。
The state of Node B itself is (IN, 0UT) = (AA, AA
), that is, indicated by 16. 19 indicates the status of node A itself.

構成テーブルはセンターが障害回復過程を開始する前に
、コンソールのキーボード入力によるデータより作成し
、ディスクに記憶しておく。
The configuration table is created from data input from the console's keyboard and stored on disk before the center starts the disaster recovery process.

第4図(a)は3つのノード21,22,23の網構成
において、ノード22−23間の回線にセンターが障害
20を検知した場合に、センターが各ノードにどのよう
な構成変更要求を出すかを説明した例である。ここで、
第4図(→には簡単化のために、各ノードに接続する他
ノードからの回線だけを示しであるが、実際は各ノード
はそれに接続する計算機2通信装置、端末等を局部的に
管理しているもので、そのための多くの回線が接続して
いる。
Figure 4(a) shows a network configuration of three nodes 21, 22, and 23, and when the center detects a fault 20 in the line between nodes 22-23, what kind of configuration change request does the center make to each node? This is an example explaining how to issue. here,
Figure 4 (→ shows only the lines connected to each node from other nodes for simplicity, but in reality, each node locally manages the computers 2 communication devices, terminals, etc. connected to it. There are many lines connected to it.

各ノードには16進のアドレスがセンターの構成テーブ
ルに、センターが障害回復過程を開始する前につけられ
る。第4図(a)では、ノード21゜22.23に対し
て、$AB、$AA、$35がつけられている。本実施
例では、このアドレスを1バイト長にしているが、構成
テーブルの大きさを変えるために2バイト以上への拡張
は可能である。
Each node is given a hexadecimal address in the center's configuration table before the center begins the disaster recovery process. In FIG. 4(a), $AB, $AA, and $35 are attached to the node 21°22.23. In this embodiment, this address has a length of 1 byte, but it can be expanded to 2 bytes or more in order to change the size of the configuration table.

以後、センターおよび各ノードはこのアドレスを読みと
ることで、センターや各ノードの識別を行う。
Thereafter, the center and each node identify the center and each node by reading this address.

第4図(b)は、障害回線22−23をセンターが検知
した場合に、センターが各ノードに変更要求の命令を送
信し、各ノードは変更要求命令の受信によりステータス
をセンターに対して送信する時に使用する命令の内容金
示したものである。
FIG. 4(b) shows that when the center detects a faulty line 22-23, the center sends a change request command to each node, and each node sends a status to the center upon receiving the change request command. This shows the contents of the commands used when doing this.

ノード22に対する変更要求を例にして説明する。まず
、ノード22は自己のアドレス24が$AA’tもつ命
令をとり出し、それを解読する。
A change request to the node 22 will be explained as an example. First, the node 22 takes out the instruction whose address 24 is $AA't and decodes it.

これを、ノードにおいてタスクを起動することで行う。This is done by starting tasks on the nodes.

解読は命令のlN23,0UT26部分から構成変更箇
所を読みとり、CNTL部分27とTIME部分28か
ら構成変更指定時刻と構成変更(切替え)方法を読みと
ることで行う。
The decoding is performed by reading the configuration change part from the IN23, 0UT26 part of the instruction, and reading the configuration change designated time and the configuration change (switching) method from the CNTL part 27 and TIME part 28.

構成変更箇所は(IN、0UT)= (AB、AA)の
時はノードB ($AA)から出てノードA ($AB
)に入る回線を、(IN、0UT)−(35,AA)の
時はノードB ($AA)から出てノードC($35)
に入る回線を示すことによシ読みとる。
When the configuration change point is (IN, 0UT) = (AB, AA), it goes from node B ($AA) to node A ($AB
), when (IN, 0UT) - (35, AA), the line goes out from node B ($AA) and goes to node C ($35).
It can be read by indicating the line entering the line.

構成変更指定時刻はTIMEの時刻より読みとる。1T
IMEのバイト長を1バイトとすれば。
The configuration change designated time is read from the time of TIME. 1T
If the byte length of IME is 1 byte.

$00から$FFまで256糧類の時刻を識別でき、例
えば、1日を10分おきに区別すると144種類あれば
よいので、どの時刻をどの16進に対応させるかをセン
ターとノード間で障害回復過程を開始する前に決定して
おけば、構成変更指定時刻の読みとりは可能となる。よ
り細かな時刻の指定は、TIME28のバイト長を1バ
イトより大きくすればよい。
It is possible to identify 256 types of times from $00 to $FF, and for example, if you differentiate one day every 10 minutes, you only need 144 types, so there is no problem between the center and the nodes as to which time corresponds to which hexadecimal number. If it is determined before starting the recovery process, the specified configuration change time can be read. A more detailed time can be specified by making the byte length of TIME28 larger than 1 byte.

構成変更(切替え)方法はCNTL27を読みとシ、O
Nの時は指定時刻に回線を活性化し。
For the configuration change (switching) method, read CNTL27.
If N, activate the line at the specified time.

OFFの時は指定時刻に回線を切断することを7−ドの
切替えプログラムに実行させ込ことである。
When it is OFF, the 7-mode switching program is made to disconnect the line at a specified time.

この場合も、CNTL27のバイト長をどう決定してお
くかでセンターがノードに送信する命令の種類を増やす
ことができる。すなわち1本実施例ではONとOF’F
を考えたが、例えば、ノードに接続する各回線の負荷を
分担させるために、ONとOFFの中間、すなわち1回
線の容量の何チを使用するように切替えるかを段階的に
16進で指示することなども可能となる。
In this case as well, the types of commands that the center sends to the nodes can be increased depending on how the byte length of the CNTL 27 is determined. In other words, in this embodiment, ON and OF'F
For example, in order to share the load of each line connected to a node, it is necessary to instruct in hexadecimal stages how much of the capacity of one line should be switched between ON and OFF. It is also possible to do the following.

他方、センターからの構成変更要求の受信に対して、ノ
ードは構成変更箇所のステータス・チェック・テストを
実行し、その結果をセンターに送信する。この場合のC
NTL27はSTSのシンボルを表わす16進コード(
数字)で表わす。このコード(数字)はセンターとノー
ドの間で障害回復過程を開始する前に決定しておけば何
であってもよい。TIMEにはステータス・チェックを
行った時刻を示す16進コードを入れる。(IN。
On the other hand, upon receiving a configuration change request from the center, the node performs a status check test on the configuration change location and sends the result to the center. C in this case
NTL27 is a hexadecimal code (
expressed in numbers). This code (number) may be of any value as long as it is determined before starting the failure recovery process between the center and the node. In TIME, enter a hexadecimal code indicating the time when the status check was performed. (IN.

0UT)にはセンターのアドレス($01とする。)に
対して送信するので、lN23は$01であり。
0UT) is sent to the center address (assumed to be $01), so IN23 is $01.

0UT26にはステータスを送信したノードアドレス(
8AA)を入れる。したがって、ノードBからのステー
タスには、(IN、0UT)=(01,AA)が入る。
0UT26 contains the node address (
8AA). Therefore, the status from Node B contains (IN, 0UT) = (01, AA).

そして、ステータス送信の場合には、第4図(b)にあ
るように、TIMEの後ろに5TAT部分29がつき、
この部分にノードのステータス、チェック・テストの結
果、得られたステータスを入れる。この8TATのバイ
ト長はステータスを格納するのに十分な大きさをとって
おく。
In the case of status transmission, as shown in FIG. 4(b), a 5TAT part 29 is added after TIME, and
Enter the node status, check/test results, and obtained status in this part. The byte length of 8TAT is set to be large enough to store the status.

第5図は、第4図(b)で決定した構成変更要求をセン
ターからノードに送信する時の命令の構成32を示す。
FIG. 5 shows a command structure 32 when transmitting the configuration change request determined in FIG. 4(b) from the center to a node.

先頭には、HDRというヘッダー30がつき、本発明に
使用する命令であることが識別できる。HDRも16進
コードでメジ、他の網管理上必要な制御、命令、データ
等のへツタ−と区別できれば何であってもよい。次のF
LN31は命令全体のバイト長を示す。FLNの領域の
大きさは、考えられる命令の大きさを表わすことができ
るだけの十分な大きさを確保しておけばよい。ノードは
FLNの内容よシ命令がどこまで続くのかを知ることが
でき、命令の解読時に使用される。そして、FLNO後
には、第4図(b)に示した要求を示す命令が、命令長
単位毎に続く。ノードからセンターに送信するステータ
ス33は、センターからノードに送信する命令の構成3
2とほぼ同じだが、CNTLの後に8TAT29という
ステータスを入れる領域がつく点が異なっている。
A header 30 called HDR is attached at the beginning, and it can be identified that this is an instruction used in the present invention. HDR may be any hexadecimal code as long as it can be distinguished from other hexadecimal codes such as controls, commands, data, etc. necessary for network management. next F
LN31 indicates the byte length of the entire instruction. The size of the FLN area should be large enough to represent the size of possible instructions. A node can know how long an instruction lasts based on the contents of the FLN, and this information is used when decoding the instruction. After the FLNO, instructions indicating the request shown in FIG. 4(b) continue for each instruction length unit. The status 33 sent from the node to the center is the configuration 3 of the command sent from the center to the node.
It is almost the same as 2, but the difference is that there is an area after CNTL to enter the status 8TAT29.

命令、ステータスのいずれの場合も構成は第5図のよう
にフレームというまとまシで送信するので、これを構成
変更要求フレーム32、ステータス・フレーム33と呼
ぶことにする。
In both cases of commands and status, the configuration is transmitted in a frame called a frame as shown in FIG. 5, so these will be referred to as a configuration change request frame 32 and a status frame 33.

第6図は網に障害が発生した場合に、センターがノード
に対してどのように障害を回復させるかを示した図であ
る。第6図は上から下に時間経過に従って、センターと
ノード間で行われるフレームの伝送を表わしている。以
下、34〜42の順序で段階的な説明を行う。
FIG. 6 is a diagram showing how the center causes nodes to recover from the failure when a failure occurs in the network. FIG. 6 shows frame transmission between the center and the nodes as time passes from top to bottom. Hereinafter, a step-by-step explanation will be given in the order of 34-42.

34 センターが周期的にノードの状態(ステータス)
を監視し、以下これをポーリングと言う、ノードのステ
ータスを調べて障害があることを知る。
34 The center periodically updates the node status (status)
This is called polling, which checks the status of the node and learns that there is a failure.

35 センターは障害が一定時間内に回復可能かどうか
を判定し、もし回復可能ならば該当ノード、および周辺
にある構成上関係をもつノードに対して、構成変更要求
フレームを送信する。ここで1回復までに許される時間
は、センターが障害管理タスクを実行する最初でキーボ
ード入力パラメータとして決定する。構成上関係をもつ
ノードは、現在センターが持つ構成テーブルに基づいて
決定するっもし回復不可能な障害ならば該当ノード、お
よび周辺にある構成上関係をもつノードに対して、マニ
ュアル要求フレームを送信する。このフレームを受信し
たノードは、メツセージ出力により保守員の手で障害回
復を行う必要があることを知る。
35 The center determines whether or not the failure can be recovered within a certain period of time, and if it is recoverable, it transmits a configuration change request frame to the node in question and nodes that have a configurational relationship in the vicinity. Here, the time allowed for one recovery is determined as a keyboard input parameter at the beginning when the center executes the fault management task. Nodes that have a structural relationship are determined based on the configuration table currently held by the center. If the failure is irrecoverable, a manual request frame is sent to the corresponding node and surrounding nodes that have a structural relationship. do. A node that receives this frame knows from the message output that failure recovery must be performed by maintenance personnel.

36 センターから構成変更要求フレームを受信したノ
ードは、構成変更がどの箇所であるかを調べ、ハードウ
ェア・チェック・プログラムを起動することで、構成変
更箇所のテストを行い、現在のステータスを読み出す。
36 The node that receives the configuration change request frame from the center checks where the configuration has changed, starts a hardware check program to test the configuration change, and reads the current status.

そして、この結果をステータス・フレームの送信でセン
ターに伝える。
This result is then communicated to the center by sending a status frame.

37.38  センターはステータス・7ンーム受信を
した時にその結果に障害があるかを判定する。障害があ
る場合(2重障害)の処理は、35と同じである。正常
の場合にはセンターは、構成変更指定時刻までは該当ノ
ードには何も要求せず、ポーリングだけを行う。
37.38 When the center receives the status/7-frame, it determines whether there is a problem with the result. The processing when there is a failure (double failure) is the same as in 35. In the normal case, the center does not make any requests to the relevant node until the specified time for configuration change, and only performs polling.

39.40  構成変更指定時刻までに、37のステー
タス・7レーム結果が正常であったにもかかわらず、何
らかの障害が該当ノードをポーリングした時に発見され
る場合がある。その場合の処理は35と同じである。
39.40 Even though the status of 37 and the result of 7 frames were normal by the specified time of configuration change, some kind of failure may be discovered when polling the relevant node. The processing in that case is the same as 35.

41 構成変更指定時刻となり、ノードがハードウェア
切替プログラムを起動し、構成を変更した時、ノードは
構成変更が正確に行われ、障害が回復できたかを、ハー
ドウェア・チェック・プログラムを起動して、構成変更
箇所のテストを行い、この結果をステータス・フレーム
の送信でセンターに伝える。
41 When the specified configuration change time arrives and the node starts the hardware switching program and changes the configuration, the node starts the hardware check program to check whether the configuration change was performed correctly and the failure has been recovered. , tests the configuration changes, and reports the results to the center by sending a status frame.

42 センターはステータス・フレーム受信をした時に
その結果に障害があるかを判定する。障害がないときは
、指定時刻に構成変更が完了したと見なし、障害がある
場合には、既に指定時刻を過ぎてしまったので、回復不
可能な障害として該当ノードにマニュアル要求フレーム
を送信する。
42 When the center receives the status frame, it determines whether there is a fault in the result. If there is no failure, it is assumed that the configuration change was completed at the specified time, and if there is a failure, the specified time has already passed, and a manual request frame is sent to the corresponding node as an unrecoverable failure.

第7図は第6図の障害回復過程を実行するセンターのア
ルゴリズムである。処理のまとまりに応じて、3つの障
害管理プログラム(タスク)により構成した。3つのタ
スクとは、処理の起動や初期構成入力2回復までに許す
時間等のパラメータ入力を実行する初期化タスク(第7
図(a))、ノードのポーリングを実行するPOLL 
(第7図(b))。
FIG. 7 is an algorithm of the center that executes the failure recovery process of FIG. 6. It is composed of three fault management programs (tasks) depending on the processing group. The three tasks are the initialization task (7th
Figure (a)), POLL that performs node polling
(Figure 7(b)).

ノードからのステータス・フレームの受信や、ポーリン
グの結果により、構成変更要求フレーム送信やマニュア
ル要求フレーム送信を実行するMAIN(第7図(C)
)、である。なお、センターがノードのステータスを読
み、障害分検知するため、5TATU8(第7図(d)
)サブルーチンを用いている。[−これらのタスクを動
作させるためには、フレームの記憶2作成、送信、受信
といった、ファイル管理や入出力管理、また、タスクを
起動するタスク管理−eタイムア゛ウドをとるタイマ管
理等の機能が必要である。通常、こ几らはセンターのオ
ペレーティング・システムが実行する。
MAIN (Figure 7 (C)
), is. In addition, in order for the center to read the node status and detect failures, 5TATU8 (Figure 7(d)
) using subroutines. [- In order to operate these tasks, file management and input/output management such as frame memory 2 creation, transmission, and reception, task management for starting tasks, and timer management for taking e-time logs, etc. is necessary. These are typically executed by the center's operating system.

次に、第7図にしたがってセンターの動作を説明する。Next, the operation of the center will be explained according to FIG.

センターの起動は、センター設え付けのキーボードより
初期化タスクを実行すること(0)による。初期化タス
クは続いて、画面に構成定義入力を要求し、この入力が
終了することでセンターの構成テーブルが作成−)する
。更に、障害回復に必要なパラメータの入力を行い、す
べての入力が終了したところで、MAINタスクを起動
(45)する。最初は、ノードからのステータス・フレ
ーム受信や構成変更要求等がないので、タスクは休止状
態(52)にある。MAINタスクの起動が完了すると
次にPOLLタスクを周期起動(46)する。起動周期
は構成ノード数や障害回復要求レスポンス時間等に依存
し、パラメータ入力で決定する。これらの準備が終了す
ると、初期化タスクは自ら消滅(47)する。
The center is activated by executing an initialization task (0) from the keyboard installed in the center. The initialization task then requests configuration definition input on the screen, and upon completion of this input, the center configuration table is created. Furthermore, parameters necessary for failure recovery are inputted, and when all inputs are completed, the MAIN task is activated (45). Initially, the task is in a dormant state (52) because there is no status frame reception or configuration change request from the node. When the activation of the MAIN task is completed, the POLL task is activated periodically (46). The activation cycle depends on the number of constituent nodes, failure recovery request response time, etc., and is determined by parameter input. When these preparations are completed, the initialization task disappears (47).

第7図にしたがって、例えば、ポーリングにより障害が
検知されたとしよう。障害の検知は、5TATUSサブ
ルーチン(62)で実行する。つまり、第7図(d)で
、ステータスが正常ではない場合(64)である。この
時には、得られたステータスが回復可能な障害かのかを
判定(6カし、パラメータ入力で決定した一定時間内で
の回復が可能(70)ならば、構成変更要求(71)を
出す。一方、その他、回復不可能な障害(74)、ある
いは、障害回復時間が長くかかるもの(72)はマニュ
アル要求(73)となる。障害回復時間の予想は、経験
的なデータの蓄積による。したがって、障害回復時間が
長いと思っていても、実際は簡単に障害回復ができる場
合や、逆に、障害回復時間が短いと思っていても、実際
は障害回復不可能という誤判断がある。前者は、マニュ
アル要求フレームの送信(60)で、ノードの保9員が
簡単に回復する。また、後者は、センターが構成変更要
求フレームを送信(58) して、ノードが構成変更を
行う試みをするが、その際行うステータス・チェック(
79)による結果をセンターが受信する(53)ことで
、ノード側が障害回復不可能であったこと(74)を知
る。その結果、センターは今度は、マニュアル要求フレ
ームを送信(59) L 、ノードの障害は保守員によ
シ回復する。つまり、いずれの場合も、障害への対応は
可能である。
For example, suppose that a failure is detected by polling according to FIG. Failure detection is executed by the 5TATUS subroutine (62). That is, in FIG. 7(d), the status is not normal (64). At this time, it is determined whether the obtained status is a recoverable failure (6 checks), and if recovery is possible within a certain time determined by parameter input (70), a configuration change request (71) is issued. , and other unrecoverable failures (74) or those that require a long recovery time (72) will require a manual request (73).The prediction of failure recovery time is based on the accumulation of empirical data.Therefore, Even if you think that the failure recovery time is long, you may actually be able to recover from the failure easily, or conversely, even if you think that the failure recovery time is short, you may mistakenly think that it is actually impossible to recover from the failure. By sending a request frame (60), the node's maintenance status is easily recovered.Also, in the latter case, the center sends a configuration change request frame (58), and the node attempts to change the configuration. At that time, the status check (
When the center receives (53) the result of step 79), it learns (74) that the node side was unable to recover from the failure. As a result, the center in turn sends a manual request frame (59) L, and the failure of the node is recovered by maintenance personnel. In other words, in either case, it is possible to deal with the failure.

構成変更要求(71)やマニュアル要求(73)がポー
リングにより出されると、休止中のタスクMAIN(5
2)が起動し、要求がめったこと(54)を知り要求に
合ったフレームをポーリングした該当ノードとその周辺
にある構成上関係をもつノードに送信(58,59)す
る。送信後は再び休止状態(52)となる。
When a configuration change request (71) or manual request (73) is issued by polling, the dormant task MAIN (5
2) is activated, learns that a request is rare (54), and transmits a frame that meets the request to the polled node and nodes that have a structural relationship in the vicinity thereof (58, 59). After the transmission, it becomes dormant again (52).

構成変更要求フレームあるいはマニュアル要求フレーム
の受(1(76)によシ、ノードはセンターに対してス
テータス・フレームを送信(80)する。センターがこ
のステータス・フレームを受信した時は、休止中のタス
クMA I N (52)が起動し、ステータス・フレ
ームの内容を5TATU8サブルーチンで判定(55)
する。その判定結果で、構成変更要求、マニュアル要求
が出された場合には1判定後休止したMAIN(52)
は、直ちに再起動−)し、要求に合ったフレームをステ
ータス・フレームを受信し九ノードとその周辺にある構
成上関係をもつノードに送信する。この場合、構成上の
関係は。
Upon receipt of a configuration change request frame or a manual request frame (1 (76)), the node sends a status frame (80) to the center. When the center receives this status frame, it Task MA I N (52) starts and the contents of the status frame are determined by the 5TATU8 subroutine (55)
do. If a configuration change request or manual request is issued as a result of the judgment, MAIN (52) is suspended after 1 judgment.
The node immediately restarts (-), receives the status frame, and transmits the frame matching the request to the node 9 and the nodes that are structurally related to it in the periphery. In this case, the compositional relationship is.

センターの構成テーブルで調べる。Check the configuration table in the center.

以上がセンターの障害回復動作である。The above is the failure recovery operation of the center.

第8図はセンターがノードをポーリングする場合の構成
テーブルの参照を示している。参照にはポーリング用の
ポインタ(75)を使用し、INにある各ノード(14
)に対して、そこに入るOUTの周辺ノード(15)の
ポーリングを順に実行する。ポーリング順は図のように
アドレス順(76)でもよいし。
FIG. 8 shows reference to the configuration table when the center polls a node. The polling pointer (75) is used for reference, and each node (14) in the IN is
), polling of the OUT peripheral nodes (15) entering there is performed in order. The polling order may be the address order (76) as shown in the figure.

特別のアルゴリズムを使用してもよい。Special algorithms may be used.

第9図はノードの障害回復過程t−笑行するアルゴリズ
ムである。処理は、センターとは異なり、1タスクと簡
単化している。これは、ステータス判定等はすべてセン
ターが実行するためである。
FIG. 9 shows an algorithm for carrying out the node failure recovery process. Unlike the center, the processing is simplified to just one task. This is because the center performs all status determination and the like.

九だし、ノードのアルゴリズムを動作させるKは。It's 9, and the K that runs the node algorithm is.

接続するハードウェアのループテストを実行するチェッ
ク・プログラム、構成変更を実行するハードウェア切替
えプログラム、ステータス・フレーム送信や要求フレー
ム受信、構成変更箇所(ノード等)の情報の記憶、タイ
ムアウトをとるタイマ管理等、センターと同様にオペレ
ーティング・システムが必要となる。
A check program that executes a loop test of connected hardware, a hardware switching program that executes configuration changes, status frame transmission and request frame reception, storage of information on configuration changes (nodes, etc.), and timer management for timeouts. etc., an operating system is required as well as the center.

次に、第9図にしたがってノードの動作を説明する。ノ
ードのタスクは、構成変更要求フレームやマニュアル要
求フレームの受信で起動(76)する。
Next, the operation of the node will be explained according to FIG. A node task is activated (76) upon reception of a configuration change request frame or a manual request frame.

なお、センターからのポーリングでは、ハードウェア・
ステータスの読出しのみが行われ、タスクの起動はない
Note that polling from the center requires hardware
Only the status is read and no tasks are started.

マニュアル要求フレーム受信の場合は、単にメツセージ
を出力する(87)のみでタスクは休止(86)する。
In the case of receiving a manual request frame, the task simply outputs a message (87) and pauses (86).

他方、構成変更要求フレーム受信の場合は、フレームか
ら構成変更時刻を読み、その時刻がタイムアウトとなる
ようにタイマを起動(78)する。次に、フレームより
構成変更箇所(ノード)を読み、その箇所のハードウェ
ア・チェック・テストをプログラムで実行σ9)する。
On the other hand, in the case of receiving a configuration change request frame, the configuration change time is read from the frame, and a timer is started so that the time is a timeout (78). Next, a configuration change location (node) is read from the frame, and a hardware check/test of that location is executed by a program σ9).

そして、この結果のステータスを読みとり、ステータス
・フレーム1−作成して、センターに送信β0)する。
Then, the resulting status is read, a status frame 1- is created, and it is sent to the center β0).

その後は構成変更時刻タイムアウトになるまで構成変更
待ち(81)に入る。もし、この間にセンターにおいて
、ノードが送信したステータス・フレームの結果に障害
が検知されたり、ポーリングによる障害検知があると、
センターから構成変更要求フレームまたはマニュアル要
求フレームの送信がある。それにより、ノードは構成変
更待ちを解除(82)L、構成変更要求フレーム受信の
場合は、再び構成変更時刻を設定しなおして(78)、
構成変更箇所のステータス・チェック・テストを実行(
79) して、ステータス・フレーム送信(80)を行
った後、構成変更箇所(81)に入る。マニュアル要求
フレーム受信の場合は、メツセージ出力(89)後、タ
スクは休止(86)する。
Thereafter, the process waits for configuration change (81) until the configuration change time times out. If the center detects a failure in the status frame sent by the node during this time, or if a failure is detected by polling,
A configuration change request frame or manual request frame is sent from the center. As a result, the node releases the configuration change waiting state (82)L, and in the case of receiving a configuration change request frame, resets the configuration change time again (78).
Run status check tests for configuration changes (
79) After transmitting a status frame (80), the system enters the configuration change area (81). In the case of receiving a manual request frame, the task is suspended (86) after outputting a message (89).

構成変更待ちの間に何の要求もない場合は、構成変更指
定時刻にタイムアウトが発生(83)L、指定された構
成変更箇所の変更がハードウェア切替えプログラムで実
行(84)される。実行後は、もう一度、構成変更箇所
のステータス・チェック・テストを実行し、その結果を
ステータス・フレームにしてセンターに送信(85)L
、ノードのタスクは休止(86)する。このステータス
・フレームの結果、センターが障害を検知したとしても
、それは必ず、既に指定変更時刻を過ぎてしまった回復
不可能な障害であるので、ノードはマニュアル要求フレ
ームの受信という結果となり、ノードのタスクは再起動
(76)するが、メツセージ出力(8力後直ちに休止す
る(86)ことになる。
If there is no request while waiting for a configuration change, a timeout occurs at the configuration change designated time (83)L, and the specified configuration change location is changed by the hardware switching program (84). After execution, execute the status check test of the configuration change location again, and send the result to the center as a status frame (85)L
, the node's tasks are paused (86). As a result of this status frame, even if the center detects a failure, it is always an unrecoverable failure whose override time has already passed, resulting in the node receiving a manual request frame, which causes the node to The task is restarted (76), but immediately halts (86) after outputting the message (86).

以上がノードの障害回復動作である。The above is the failure recovery operation of the node.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、網統括管理局が網の局部的管理局のス
テータス情報の結果に基づいて、網障害の検知、および
障害回復の切替え要求の送信を行うので、網構成の変更
や拡張に対しても、網の局部的管理局は何も知らずに、
ハードウェアのチェックと切替えを統括管理局の指示の
みで実行すればよい。さらに、切替え時刻が統括管理局
より指定されるので、切替えの同期処理が網の局部的管
理局には不要となる。
According to the present invention, the network central management station detects a network failure and sends a switching request for failure recovery based on the status information of the local network management station, so that it is possible to change or expand the network configuration. On the other hand, the network's local management station does not know anything about it.
Checking and switching hardware can be performed only by instructions from the central management station. Furthermore, since the switching time is specified by the central management station, synchronization processing for switching is not required at the local management station of the network.

したがって、網構成の変更、拡張に対して、網統括管理
局の構成定義のみを変更すればよく局部的管理局の変更
は不要で、網構成の変更、拡張が容易となる。
Therefore, when changing or expanding the network configuration, it is only necessary to change the configuration definition of the network general management station, and there is no need to change the local management station, making it easy to change or expand the network configuration.

また5障害検知、tS害回復の切替えの同期処理が不要
のため、網の局部的管理局の処理の簡単化。
In addition, there is no need to synchronize the switching of 5 failure detection and tS damage recovery, which simplifies the processing at the local management station of the network.

処理時間の短縮化が可能で、経済性が向上する。Processing time can be shortened, improving economic efficiency.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例の網構成図、第2図ハ要求命
令、ステータスのCNTL部のシンボルの種別、第3図
はセンターの構成テーブル、第4図は網で障害が発生し
た時の構成変更要求CNTL部とステータス・CNTL
部の一例、第5図は構成変更要求フレームとステータス
・フレームの構成図、第6図はセンターとノード間の障
害回復過程の要求とステータスのやりとりを表した図、
第7図において、(a)はセンターの初期化タスク%(
b)はポーリング・タスク、(C)はステータス判定お
よび要求送信を行うメイン・タスク、(d)はステータ
ス判定の結果要求送信を決定する5TATUSサブルー
チン、をそれぞれ表す、センターの障害回復アルゴリズ
ムの一例、第8図はセンター〇ノード全ポーリングする
方法の説明図、第9図はノードの障害回復アルゴリズム
の一例である。
Fig. 1 is a network configuration diagram of an embodiment of the present invention, Fig. 2 is a request command, types of symbols in the CNTL section of status, Fig. 3 is a center configuration table, and Fig. 4 is a diagram showing a failure in the network. Configuration change request CNTL section and status/CNTL
FIG. 5 is a configuration diagram of a configuration change request frame and a status frame, and FIG. 6 is a diagram showing the exchange of requests and status in the failure recovery process between the center and nodes.
In Figure 7, (a) represents the center initialization task %(
An example of the center's failure recovery algorithm, in which b) represents a polling task, (C) a main task that performs status determination and request transmission, and (d) a 5TATUS subroutine that determines request transmission as a result of status determination. FIG. 8 is an explanatory diagram of a method of polling all nodes at the center, and FIG. 9 is an example of a node failure recovery algorithm.

Claims (1)

【特許請求の範囲】 1、網の局部的管理局と統括管理局をもつ網構成におい
て、統括管理局に網構成を定義した網構成テーブルを設
け、網構成テーブルを使用して局部的管理局の状態のチ
ェックを行うことで、障害の検知を行う網障害管理方式
。 2、上記の障害検知の結果、障害発生時は統括管理局が
局部的管理局に対して、時刻を指定して障害発生箇所お
よびその周辺にある構成上関係をもつ箇所に回線、装置
の切替え要求を出し、指定時刻に同時の切替えを行う第
1項記載の網障害管理方式。
[Claims] 1. In a network configuration that has a local management station and a central management station, the central management station is provided with a network configuration table that defines the network configuration, and the network configuration table is used to control the local management station. A network fault management method that detects faults by checking the status of the network. 2. As a result of the above failure detection, if a failure occurs, the central management station will specify a time to the local management station to switch lines and equipment to the location where the failure has occurred and to locations around it that are structurally related. 2. The network failure management method according to claim 1, in which a request is issued and simultaneous switching is performed at a specified time.
JP61284317A 1986-12-01 1986-12-01 Networm fault management system Pending JPS63138848A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61284317A JPS63138848A (en) 1986-12-01 1986-12-01 Networm fault management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61284317A JPS63138848A (en) 1986-12-01 1986-12-01 Networm fault management system

Publications (1)

Publication Number Publication Date
JPS63138848A true JPS63138848A (en) 1988-06-10

Family

ID=17676983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61284317A Pending JPS63138848A (en) 1986-12-01 1986-12-01 Networm fault management system

Country Status (1)

Country Link
JP (1) JPS63138848A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0396028A (en) * 1989-09-07 1991-04-22 Fujitsu Ltd Supervision disable detection system
JPH03280776A (en) * 1990-03-29 1991-12-11 Nec Corp Line switching control system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0396028A (en) * 1989-09-07 1991-04-22 Fujitsu Ltd Supervision disable detection system
JPH03280776A (en) * 1990-03-29 1991-12-11 Nec Corp Line switching control system

Similar Documents

Publication Publication Date Title
US4979108A (en) Task synchronization arrangement and method for remote duplex processors
JPS62102342A (en) Decentralized file recovery system
US5463763A (en) Apparatus and method for supervising multiprocessor communications using messages transmitted between processors in a circular fashion
JPH07212371A (en) Common control redundancy system changeover method
CN111654384A (en) Main/standby switching method, BRAS (broadband remote Access Server) equipment and storage medium
JPH09149061A (en) Communication controller, communication network and its contention control method
CN110333973B (en) Multi-machine hot standby method and system
JPH03204258A (en) Fault detection system, transmission line reconstitution system and communication system
JPS63138848A (en) Networm fault management system
JP2004007930A (en) System and program for controlling power system monitoring
JPS62139442A (en) Backing up method for master control station
JP2000020336A (en) Duplex communication system
JP2000215074A (en) Operation system for system and automatic fault recovery system
US11853175B2 (en) Cluster system and restoration method that performs failover control
JPH0430218B2 (en)
JP2859229B2 (en) Monitoring and control equipment
CN115665779A (en) Method, device, equipment and medium for managing, upgrading and detecting 5G network equipment
JPH0827735B2 (en) Back-up method in distributed system
CN117640349A (en) Fault recovery method and device for network additional storage system cluster and host equipment
JPH0468456A (en) Manager device for network control system
JPH0340623A (en) Communication controller
CN114528156A (en) Database switching method of heterogeneous disaster tolerance scheme, electronic device and medium
JPS6354266B2 (en)
CN116614347A (en) Disaster recovery switching method of message storage node and message middleware system
JPH02216931A (en) Fault information reporting system