KR950001942B1 - 부분적인 재시동에 의한 장애(Fault)의 복원 방법 - Google Patents

부분적인 재시동에 의한 장애(Fault)의 복원 방법 Download PDF

Info

Publication number
KR950001942B1
KR950001942B1 KR1019910026070A KR910026070A KR950001942B1 KR 950001942 B1 KR950001942 B1 KR 950001942B1 KR 1019910026070 A KR1019910026070 A KR 1019910026070A KR 910026070 A KR910026070 A KR 910026070A KR 950001942 B1 KR950001942 B1 KR 950001942B1
Authority
KR
South Korea
Prior art keywords
processor
dcca
control
board
interrupt
Prior art date
Application number
KR1019910026070A
Other languages
English (en)
Other versions
KR930014016A (ko
Inventor
박준철
이충근
김영시
Original Assignee
한국전기통신공사
이해욱
재단법인 한국전자통신연구소
경상현
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전기통신공사, 이해욱, 재단법인 한국전자통신연구소, 경상현 filed Critical 한국전기통신공사
Priority to KR1019910026070A priority Critical patent/KR950001942B1/ko
Publication of KR930014016A publication Critical patent/KR930014016A/ko
Application granted granted Critical
Publication of KR950001942B1 publication Critical patent/KR950001942B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

내용없음.

Description

부분적인 재시동에 의한 장애(Fault)의 복원 방법
제1도는 본 발명이 적용되는 하드웨어 시스템의 구성도.
제2도는 본 발명이 적용되는 하드웨어의 세부 동작도.
제3도는 본 발명의 흐름도.
* 도면의 주요부분에 대한 부호의 설명
PU : 프로세서 유니트 MPMA : 주 처리 및 메모리 관리보드
CPU : 중앙처리장치 PCCA : 프로세서 통신 제어보드
CR : 제어 레지스터 MFP : 다기능 주변 제어 칩
DCCA : 이중화 운용 제어 D-ch : D-채널
C-ch : C-채널 S-ch : S-채널
본 발명은 대용량 전전자 교환 시스템의 이중화된 프로세서 운용중에 프로세서가 운용중 제어 능력을 상실하게 스스로 절체 요구를 하지 못하고 외부에서 강제로 절체를 요구하는 장애(fault)가 발생하는 경우에 부분적인 재시동을 통해 서비스의 중단을 최소한으로 줄이면서 장애를 복원하는 방법에 관한 것이다.
동작(active)및 대기(standby) 프로세서의 이중화로 운용되는 시스템에 있어서, 동작측 프로세서의 소프트웨어적인 비그(bug)에 의한 장애, 혹은 프로세서가 즉각 장애를 감지할 수 없으며 제어권을 잃어 대기 프로세서 등 외부에서 판단하게 되는 장애, 그리고 주기적인 시험의 결과에 의해 감지되는 장애의 발생시 정확한 수행 재개 시점을 알 수 없기 때문에 현재 수행되고 있는 사용자 프로그램에의 영향을 최소화하면서 최대한 빨리 이중화 절체를 수행하는 방법이 필수적으로 요구된다. 전전자 교환 시스템을 이중화로 운영하는 이유중의 하나는 위와 같은 상황에서 서비스의 연속성을 최대한 보장할 수 있도록 하기 위함이다.
여타의 전전자 교환 시스템에서와는 달리 본 발명이 적용되는 전전자 교환 시스템(TDX-10)은 이중화를 위한 하드웨어를 공유하지 않고 동작, 대기의 양 프로세서가 각각을 운용하여 어느 한쪽 프로세서의 고장이 다른 프로세서에 영향을 주지 않으므로 이중화 절체를 위한 장애 분리(fault isolation)가 쉽다. 또한 D-채널을 통해 향상 동일한 상태를 유지하고 있으므로 절체 후 재시동할 시점을 찾기에 유리하다.
이와 같이 본 발명은 동작 프로세서가 제어권을 잃고 오동작을 하는 경우 신속히 대기 프로세서가 상태를 이어 받아 동작함으로써 수행의 연속성을 최대한 보장하고 그 결과 교환 시스템의 가장 큰 요구 사항중 하나인 가용성(availability)을 높이는데 그 목적이 있다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
제1도는 본 발명이 적용되는 하드웨어 시스템의 구성도로서 각 프로세서 유니트(1 : Processor Unit, 이하 PU)는 주 처리 및 메모리 관리 보드(Main Processong and Memory Management Assembly, 이하 MPMA), 즉 중앙 처리 장치(CPU)와 메모리가 있고 본 발명의 소프트웨어가 탑재되어 동작하는 보드, 주 처리 및 메모리 관리 보드의 제어를 받아 타 프로세서와의 통신을 담당하는 프로세서 통신 제어보드(Processor Communication Control Assembly, 이하 PCCA), 이중화 운용에 관련된 제어 레지스터(Control Register, 이하 CR), 인터럽트 관리를 위한 다기능 주변 제어 칩(Multi -Functions Peripheral, 이하 MFP)을 포함하여 이중화 관련 제어를 담당하는 이중화 운용 제어보드(Dujplication Control Channel Assembly, 이하 DCCA)가 장착되어 있으며, 이들 보드 사이에는 시스템 버스가 연결되어 있고, 또한 인터럽트를 이용한 상호 통신이 가능하다.
또한 이러한 프로세서 유니트가 쌍(pair)으로 구성되어 양 이중화 운용 제어 보드는 양측 프로세서간의 동기를 위한 D-채널(D-ch), 통신을 위한 C-채널(C-ch)로 연결되고, 양 주 처리 및 메모리 관리 보드사이에는 통신을 위한 S-채널(S-ch)이 설치되어 있다.
제2도는 이중화된 양측의 MPMA가 소프트웨어 및 하드웨어 고장으로 제어 능력을 상실하는 경우 DCCA의 MFP를 통하여 인터럽트가 감지되고 이 인터럽트가 상대측에 전달되는 과정을 나타낸 도면이다.
일단 동작(active)으로 지정된 프로세서의 DCCA는 제어 레지스터(CR)를 주가적으로 읽어 주어야만 위치 독(watch dog) 인터럽트를 발생시키지 않게 설계되었으며, 현재 본 발명이 적용되는 전전자 교환기(TDX-10)는 500ms 동안 제어 레지스터를 읽지 않는 경우 인터럽트를 발생시킨다. 편의상 도면의 좌측을 동작(active), 우측을 대기(standby)측이라 하면 동작측이 각종 장애 발생으로 제어 능력을 상실한 경우 MPMA는 DCCA의 제어 레지스터 (CR)를 읽지 못하게 되고 500ms가 지난후 DCCA내의 MFP의 CROUT 인터럽트선이 구동되어 인터럽트가 발생하며, 이 인터럽트선은 대기 측 MFP의 CROUT인터럽트와 연결되어 대기 측에도 동시에 인터럽트가 발생한다.
제3도는 본 발명의 전체 흐름도, 즉 이중화된 프로세서에서 동작측이 제어 능력을 상실하는 경우 대기측이 이를 감지하고 부분적인 재시동으로 장애의 영향을 최소로 줄이는 방법의 처리 흐름도이다.
흐름을 보면, 동작 프로세서에서 500ms MPMA 보드의 CPU가 DCCA 보드의 제어 레지스터를 읽지 못하는 경우, 즉 제어 능력을 상실한 경우 CROUT 인터럽트가 동작 및 대기 양 측 프로세서에서 동시에 발생한다(31), 이후 대기측은 정확한 수행 재개시점을 모르기 때문에 프로세스 관련 정보(TCB 정보등 )만을 이용하여 재시동 위치를 설정한다. 우선 PCCA 및 DCCA 보드를 동작으로 초기화하며(32), DCCA의 인터럽트와 관련된 MFP칩 레지스터의 초기화를 수행한다(33). 이후 수행의 연속성을 보장하기 위해 절체전 동작 측에서 동작(running)중이면 프로세스를 죽이고 (kill) 다시 수행(rus)시킨다.
이를 위해 먼저 동작중이던 프로세스가 시스템 프로세스인지 사용자 프로세스인지 구분하고 (34), 시스템 프로세스인 경우 항상 살아 있어야 하므로 재 초기화시켜 수행 상태로 만든다(35).
만약 사용자 프로세스라면 다시 자신의 내부(inner) 프로세서를 가지는 최외부 (outermost)프로세서인지 아닌지를 구분하여(36), 최외부 프로세스인 경우 관련된 모든 내부 프로세서를 죽이고 (37), 상기 최외부 프로세서를 다시 수행시킨다(38), 만약 내부 프로세스라면 이를 죽이고 다시 수행시킨다(39).
이와 같이 동작중이면 프로세스와 재수행 과정에서 여타의 프로세스는 이와 같은 사실을 알지 못하기 때문에 상호 교환되는 시그널(signal),전체 변수(global variable)등에 관련된 문제가 발생한 소지가 있고, 이들 방지하기 위해 운영체계이 시그널방송(broadcast)기능을 이용해 여타의 프로세스에 동작중이던 프로세스의 이름과 재수행 사실을 알린다(40).
따라서, 본 발명은 상기와 같이 구성되어 이중화로 운용되는 교환 시스템에서 동작측 프로세서가 제어 능력을 상실하는 경우 최대한 연속성을 보장할 수 있는 이중화 절체 방법을 실현하였으며, 이 방법은 대기측의 메모리 내용이 파손되지 않는한 통화중인 호의 유지, RBT(Ring Back Tone) 송출중인 호의 유지, 절체 순간 숫자를 입력한 호를 제외한 다이얼링(dialing)중인 호의 유지 등 높은 수준의 서비스 연속성을 보장할 수 있는 효과를 가진다.

Claims (2)

  1. CPU와 메모리를 구비하고 제어 소트 웨어를 탑재한 주 처리 및 메모리 관리 보드(이하, MPNA라 함), 상기 MPMA의 제어를 받아 타 프로세서와의 통신을 담당하는 프로세서 통신 제어보드(이하, PCCA라 함), 이중화 운용에 관련된 제어 레지스터(CR)와 인터럽트 관리를 위한 다기능 주변 제어 칩(이하, MFP라함)을 구비하여 이중화 관련 제어를 담당하는 이중화 운용 제어보드(이하, DCCA라함)가 장착되어 있으며, 이들 보드 사이에는 시스템 버스가 연결되어 있고, 또한 인터럽트를 이용한 상호 통신이 가능하도록 된 이중화된 프로세서를 포함하고 있는 전전자 교환 시스템의 이중화 절체 방법중 부분적인 재시동을 통해 장애를 복원하는 방법에 있어서, 상기 DCCA 보드에서 MPMA보드내의 CPU의 오동작을 인터럽트를 통해 감지하는 제1단계와, 상기 1단계 이후 각종 보드의 초기화 및 DCCA내의 인터럽트 관련 다기능주변 베어 칩의 초기화를 수행하는 제2단계, 상기 제2 단계 이후 대기측에서 동작 측에서 동작중이던 프로세스를 죽이고 다시 수행시키는 제3단계, 및 상기 제3단계 수행후, 동작중이던 프로세서가 재수행된 사실을 시그널을 통해 타 프로세스에 알리는 제4단계를 포함하고 있는 것을 특징으로 하는 이중화된 프로세서에서 부분적인 재시동을 통해 장애를 복원하는 방법.
  2. 제1항에 있어서, 상기 제3단계는, 먼저 동작중이던 프로세스가 시스템 프로세스인지 사용자 프로세스인지 구분하고, 시스템 프로세스인 경우 항상 살아 있어야 하므로 제초기화시켜 수행상태로 만들고, 만약 사용자 프로세스라면 다시 자신의 내부 프로세스를 가지는 최외부 프로세스인지 아닌지를 구분하여 최외부 프로세스인 경우 관련된 모든 내부 프로세스를 죽이고 상기 최외부 프로세스를 다시 수행시키면, 만약 내부 프로세스라면 이를 죽이고 다시 수행시키는 단계를 포함하고 있는 것을 특징으로 하는 이중화된 프로세스에서 부분적인 재시동을 통해 장애를 복원하는 방법.
KR1019910026070A 1991-12-30 1991-12-30 부분적인 재시동에 의한 장애(Fault)의 복원 방법 KR950001942B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019910026070A KR950001942B1 (ko) 1991-12-30 1991-12-30 부분적인 재시동에 의한 장애(Fault)의 복원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910026070A KR950001942B1 (ko) 1991-12-30 1991-12-30 부분적인 재시동에 의한 장애(Fault)의 복원 방법

Publications (2)

Publication Number Publication Date
KR930014016A KR930014016A (ko) 1993-07-22
KR950001942B1 true KR950001942B1 (ko) 1995-03-07

Family

ID=19327485

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910026070A KR950001942B1 (ko) 1991-12-30 1991-12-30 부분적인 재시동에 의한 장애(Fault)의 복원 방법

Country Status (1)

Country Link
KR (1) KR950001942B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100394553B1 (ko) * 1998-12-24 2003-11-28 엘지전자 주식회사 아이피씨시스템에서특정프로세서에대한재시동장치및방법
KR100426841B1 (ko) * 2001-12-20 2004-04-14 엘지전자 주식회사 프로세서간의 이중화 절체 방법

Also Published As

Publication number Publication date
KR930014016A (ko) 1993-07-22

Similar Documents

Publication Publication Date Title
US5155729A (en) Fault recovery in systems utilizing redundant processor arrangements
US5896523A (en) Loosely-coupled, synchronized execution
US20020152425A1 (en) Distributed restart in a multiple processor system
JP3595033B2 (ja) 高信頼化コンピュータシステム
JPH11143729A (ja) フォールトトレラントコンピュータ
US5742851A (en) Information processing system having function to detect fault in external bus
US20030105988A1 (en) Rolling software upgrades for fault tolerant systems
CN101009684B (zh) 分布式系统中单板工作状态监控装置及方法
KR950001942B1 (ko) 부분적인 재시동에 의한 장애(Fault)의 복원 방법
US5455940A (en) Method for abnormal restart of a multiprocessor computer of a telecommunication switching system
JP2000066913A (ja) 任意プロセッサのプログラム・データ無中断更新システム
KR950010490B1 (ko) 전전자 교환 시스템에서의 제어시스템의 이중화 운용 방법
JP2998804B2 (ja) マルチマイクロプロセッサシステム
JP2606107B2 (ja) プロセッサ冗長化方式
KR930010952B1 (ko) 메모리 장애 처리 방법
JPH0652130A (ja) マルチプロセッサシステム
JPH10133963A (ja) 計算機の故障検出・回復方式
JP3363579B2 (ja) 監視装置及び監視システム
KR930007464B1 (ko) 이중화된 프로세서의 이중화 절체방법
JPH1165868A (ja) 冗長化起動方式
JPS60134942A (ja) 異常状態におけるバツクアツプシステム
JPH0630069B2 (ja) 多重化システム
JPH02238529A (ja) デュプレックスシステム
CN116820837A (zh) 一种关于系统组件的异常处理方法及装置
CN114817908A (zh) 一种双机热备软件的自我隔离方法、系统、终端及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19990306

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee