KR20010010293A - 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법 - Google Patents

고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법 Download PDF

Info

Publication number
KR20010010293A
KR20010010293A KR1019990029096A KR19990029096A KR20010010293A KR 20010010293 A KR20010010293 A KR 20010010293A KR 1019990029096 A KR1019990029096 A KR 1019990029096A KR 19990029096 A KR19990029096 A KR 19990029096A KR 20010010293 A KR20010010293 A KR 20010010293A
Authority
KR
South Korea
Prior art keywords
module
error
management
agent
hardware
Prior art date
Application number
KR1019990029096A
Other languages
English (en)
Inventor
박혜숙
여환근
이광선
박동선
이상백
신진욱
Original Assignee
정선종
한국전자통신연구원
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원, 이계철, 한국전기통신공사 filed Critical 정선종
Priority to KR1019990029096A priority Critical patent/KR20010010293A/ko
Publication of KR20010010293A publication Critical patent/KR20010010293A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/0016Arrangements providing connection between exchanges
    • H04Q3/0062Provisions for network management
    • H04Q3/0075Fault management techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/0016Arrangements providing connection between exchanges
    • H04Q3/0062Provisions for network management
    • H04Q3/0087Network testing or monitoring arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13521Indexing scheme relating to selecting arrangements in general and for multiplex systems fault management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/167Redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명은 핫 스탠바이 스페어링 구조를 기반으로 하는 다중화 교환제어시스템의 신뢰성 및 가용성을 향상시키기 위하여 시스템의 오류를 검출하고 그 검출된 오류를 자동으로 복구함으로써, 오류검출 및 그에 대한 대처뿐만 아니라 오류 모듈의 정상화 기능을 제공하는 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류복구방법에 관한 것이다.
본 발명에서 제안한 오류관리시스템은, 입출력 프로세서 모듈에 위치하는 매니저(manager) 모듈(510)과 교환제어 모듈인 마스터 및 스탠바이 프로세서 모듈에 위치하는 에이전트(agent) 모듈(520)로 분산 구성되어 있다. 그 오류복구방법은, 시스템이 가동되면 에이전트 모듈(520)의 감시모듈(523)에서 교환제어 하드웨어의 상태를 감시하고 매니저 모듈(510)의 핵심모듈(512)에서 그 상태를 분석하여 오류 발생여부를 판별한다. 오류 판별 결과, 오류가 발생된 프로세서 모듈과는 다른 기능을 갖는 마스터 또는 스탠바이 프로세서 모듈로 변경하고 그 오류모듈의 상태를 오프라인으로 변경한다. 그 오류모듈 처리후, 오류 모듈의 자체복구가 불가능할 경우 인위적 복구를 수행하고, 자체복구가 가능할 경우 오류 모듈의 에이전트측에 요청하여 기본 동기화를 하고나서 최종 동기화를 수행한 후 오류 모듈의 역할을 스탠바이로 설정하고 온라인화하는 오류모듈의 오류복구과정을 수행한다. 이러한 본 발명은 교환제어 시스템을 구성하는 제어 모듈 수의 증가에 따른 관리 구조의 확장이 용이한 장점을 제공하고, 또한, 서비스를 중단없이 제공하고, 아울러 교환제어 시스템의 디버깅 방안으로도 이용될 수 있을 것으로 기대된다.

Description

고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류복구방법{Fault management system and Method for recovering fault of the Configuration Management System in the fault tolerant switching control system}
본 발명은 다중화 구조를 기반으로 하는 교환제어 시스템에 관한 것으로서, 특히 핫 스탠바이 스페어링(hot standby sparing) 구조를 기반으로 하는 다중화 교환제어 시스템에서의 고장 감내 능력을 향상시키기 위해, 오류 검출 및 대처 뿐만 아니라, 오류 모듈의 정상화 기능을 제공하는 고장감내 교환제어 시스템내 관리시스템에서의 오류 관리시스템 및 오류복구방법에 관한 것이다.
교환제어 시스템은 고성능(high performance) 및 고 가용성(high availability)이 요구되는 시스템으로서 고장(fault)을 감지하고 이를 복구하기 위한 고장 감내형(fault tolerant) 구조와 이를 위한 일련의 동작이 요구된다. 일반 시스템에서는 고장이 발생하였을 경우, 이를 감지하여 시스템의 동작을 일시 중지시키고 고장의 복구에 필요한 동작을 수행한 후 시스템을 재가동시킨다. 그러나 서비스의 요청 및 제공이 끊임없이 이루어지는 교환제어 시스템에서는 이러한 오류복구 방식이 적합치 못하다.
일반적으로 교환제어 시스템에 적용되고 있는 고장 감내형 구조는 동일한 기능을 수행하는 두개 이상의 모듈로 구성되는 다중화 시스템 구조이다. 다중화 시스템은 실제 서비스 기능을 수행하는 액티브(active) 모듈과 액티브 모듈의 오류 발생시 이를 대신하는 스탠바이(standby) 모듈들로 구성된다. 현재까지 제시된 다중화 시스템 구조 및 기법은 콜드 스탠바이 스페어링(cold standby sparing)과 웜 스탠바이 스페어링(warm standby sparing), 핫 스탠바이 스페어링(hot standby sparing)이 있으며, 현재 널리 이용되고 있는 기법은 웜 스탠바이 스페어링이다.
그러나 웜 스탠바이 스페어링 기법에서는 감지되지 못한 액티브 모듈에서의 오류가 전체 시스템에 확산될 수 있는 문제점을 내포하고 있다. 이러한 이유에서 최근에는 시스템 내부 동작 수행시 액티브 모듈과 스탠바이 모듈이 정상적으로 동작하고, 다중화된 모듈의 상태와 내용이 시스템의 동기화를 통해서 항상 동일하게 유지되는 핫 스탠바이 스페어링 기법에 관심이 집중되고 있다.
현재까지 발표된 핫 스탠바이 스페어링 구조 기반의 시스템에서는 고장 감내를 위한 기능으로서 오류의 감지와 스탠바이 모듈의 활성화(activation)만을 제공한다. 따라서 오류 모듈의 정상화는 시스템 관리자의 직접적인 제어를 통해서만이 수행될 수 있었다. 그러나 물리적으로 하드웨어 장치에 고장이 발생하지 않는한 오류 모듈의 정상화는 시스템 관리자가 아닌 관리 시스템에 의한 자동적인 절차를 통해서도 진행될 수 있다.
또한, 종래의 핫 스탠바이 스페어링 구조 기반의 교환제어 시스템에서는 오류의 검출과 대처 측면만이 고려되었을 뿐, 오류 모듈의 정상화 측면은 인위적인 절차에 의존하고 있었다.
이러한 이유에서 본 발명에서는 자동적인 오류복구를 가능하게 하고자 한다.
본 발명은 핫 스탠바이 스페어링 구조를 기반으로 하는 다중화 교환제어 시스템의 신뢰성 및 가용성을 향상시키기 위하여 시스템의 오류를 검출하고 그 검출된 오류를 자동으로 복구함으로써, 오류검출 및 그에 대한 대처뿐만 아니라 오류 모듈의 정상화 기능을 제공하는 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류복구방법에 관한 것이다.
이러한 본 발명은 상술한 종래의 핫 스탠바이 스페어링 기법에서 발생할 수 있는 문제점을 해결하기 위하여, 고 신뢰성과 고 가용성을 요하는 교환제어 시스템의 고장감내 능력을 향상시키는데 목적이 있는 것으로서, 더 나아가서는 본 발명을 이용하여 앞으로 개발될 교환제어 시스템의 신뢰성과 가용성을 향상시킴으로써 네트워크를 기반으로 하는 다양한 서비스의 안정성을 확보하고, 사용자의 손실을 감소시키는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 고장감내 교환제어 시스템에서의 오류관리시스템은, 핫 스탠바이 스페어링(hot standby sparing) 구조를 기반으로 하고, 교환 제어 기능을 수행하는 마스터 프로세서 모듈(110)과 스탠바이 프로세서 모듈(120)이 오류발생시 오류모듈의 상태를 정상모듈과 동일하게 만들기 위해 이용되는 X 버스(150)를 통해 연결되고, 상기 프로세서 모듈들이 고장감내형 입출력 버스(140)를 통해 입출력 기능을 수행하는 입출력 프로세서 모듈(130 또는 421)과 연결되는 다중화 교환제어시스템에서, 상기 마스터/스탠바이 프로세서 모듈에 각기 위치하고, 자신이 위치한 프로세서 모듈 내부의 상태를 감시하여 그 상태 정보를 매니저 모듈에게 알리고, 그 매니저 모듈의 지시에 따라 오류를 복구하는 에이전트 모듈(412 또는 520)과, 상기 입출력 프로세서 모듈에 위치하고, 상기 각 에이전트 모듈로부터의 상태정보를 분석하여 오류가 발생하였을 경우 해당 오류 발생 프로세서 모듈에 위치한 해당 에이전트 모듈에게 오류복구를 수행토록 지시하는 매니저 모듈(411 또는 510)이 분산형으로 구성되어, 오류 발생시에도 서비스가 중단없이 정상화되도록 하는 것을 특징으로 한다.
또한, 본 발명의 다른 특징인 오류 관리시스템에서의 오류복구방법은, 시스템이 가동되면 에이전트 모듈(520)의 감시모듈(523)에서 교환제어 하드웨어의 상태를 감시하고 매니저 모듈(510)의 핵심모듈(512)에서 그 상태를 분석하여 오류 발생여부를 판별하는 오류 분석과정과, 오류 판별 결과, 오류가 발생된 프로세서 모듈과는 다른 기능을 갖는 마스터 또는 스탠바이 프로세서 모듈로 변경하고 그 오류모듈의 상태를 오프라인으로 변경하는 오류모듈 처리과정과, 그리고 오류모듈 처리후, 오류 모듈의 자체복구가 불가능할 경우(물리적인 하드웨어의 손상) 인위적 복구를 수행하고, 자체복구가 가능할 경우(일시적 오류) 오류 모듈의 에이전트측에 요청하여 기본 동기화를 하고나서 최종 동기화를 수행한 후 상기 오류 모듈의 역할을 스탠바이로 설정하고 온라인화하는 오류모듈의 오류복구과정으로 이루어진 것을 특징으로 한다.
도 1은 다중화 구조 기반 교환제어 시스템의 개념도,
도 2는 본 발명에 따른 오류 관리 시스템의 개념도,
도 3은 도 2의 내부 구성도,
도 4는 관리정보 모듈의 구성도,
도 5는 본 발명의 오류복구 흐름도.
이하, 본 발명을 첨부된 도면에 의거하여 상세히 설명한다.
도 1은 본 발명의 대상 시스템인 다중화 구조 기반 교환제어 시스템의 개념도이다.
교환제어 시스템은 교환제어 기능을 담당하는 물리적인 하드웨어 모듈(100)과 하드웨어 모듈의 관리를 담당하는 소프트웨어 모듈(200, 300)로 구성된다.
교환제어 시스템의 하드웨어 모듈(100)은 교환제어 기능을 담당하는 교환 제어 프로세서 모듈(Processor Module; 110, 120)과, 이들의 입출력을 관리하는 입출력 프로세서 모듈(130)로 구성된다. 교환제어 프로세서 모듈은 실질적인 교환제어 기능을 수행하는 마스터 프로세서 모듈(Master PM)(110)과, 마스터 프로세서 모듈(110)의 오류시 이를 대신할 스탠바이 프로세서 모듈(standby PM)(120)로 구분된다. 마스터와 스탠바이 프로세서 모듈은 동일한 교환요청에 대하여 각각이 내부적인 절차를 수행함으로써 상호 동일한 상태를 유지한다. 따라서 마스터 프로세서 모듈(110)에 오류가 생기면 동일한 상태를 유지하고 있던 스탠바이 프로세서 모듈(120)이 즉시 이를 대신할 수 있게 된다. 마스터 프로세서 모듈(110)과 스탠바이 프로 세서 모듈(120)은 동일한 입출력 장치(131)를 공유한다. 이는 각각의 프로세서 모듈에서 발생하는 데이터 입출력의 경로를 각 프로세서 모듈의 가상 입출력 장치(111, 121)가 아닌 입출력 프로세서 모듈(130) 내부의 입출력 장치(131) 쪽으로 변경하는 방법을 이용하여 제공된다. 이 입출력 동작시에 전달되는 입출력 데이터는 FT (Fault Tolerant) I/O 버스(140)를 경유하여 입출력 프로세서 모듈(130) 측으로 전달되며, S2F 하드웨어(112, 122)는 프로세서 모듈 내부의 S버스 신호를 FT I/O 버스 신호로 변환하는 기능을 수행한다. S2F 하드웨어(112, 122)는 이러한 버스 변환기능과 함께 교환제어 프로세서 모듈(110, 120)간의 데이터 비교 기능을 수행하며, 이를 통하여 교환제어 프로세서 모듈(110, 120)에서 발생한 오류를 검출한다. X(eXtension) 버스(150)는 교환제어 프로세서 모듈(110, 120)의 오류발생시에 오류모듈의 상태를 정상모듈과 동일하게 만들기 위해 이용된다.
교환제어 시스템의 소프트웨어 모듈은 교환제어기능을 하는 마스터 프로세서 모듈(110)과 스탠바이 프로세서 모듈(120)에 각각 위치하는 구성 관리 시스템(CMS; Configuration Management System) 에이전트(Agent)(210, 220)와, 입출력 프로세서 모듈(130)에 위치하는 구성관리시스템(CMS) 매니저(300)로 구성된다. 각 에이전트(210, 220)는 각각의 교환제어 프로세서 모듈(110, 120)의 상태를 감시하여 이를 매니저(300)에게 알리는 기능을 수행하며, 매니저(300)는 교환제어 프로세서 모듈(110, 120)의 상태를 시스템 관리자에게 통보하고 오류복구나 상태 변경과 같은 명령을 CMS 에이전트(210, 220)에게 전달하는 기능을 수행한다.
도 2는 교환제어 시스템의 구성관리 및 오류관리를 담당하는 구성 관리 시스템의 개념도이다.
구성 관리 시스템(CMS)은 계층적으로 물리적인 하드웨어의 상위에 위치하는 소프트웨어 시스템이다. 구성 관리 시스템(400)은 관리 모듈(421)(=입출력 모듈, 도 1의 '130')상에 위치하는 매니저(411)와 각각의 교환제어 모듈(422, 423; 도 1의 '110', '120')상에 위치하는 에이전트(412)들로 구성되며, 각 구성요소는 디바이스 드라이버(413)를 통하여 물리적인 하드웨어 장치와의 인터페이스를 수행한다. 구성 관리 시스템(400)의 매니저(411)는 하드웨어 장치들의 위치정보를 에이전트들(412)에게 알리고, 에이전트로부터 오류가 발생하였음이 통보되었을 때 적절한 조치를 에이전트에게 지시하거나 사용자에게 복구를 요청하는 기능을 담당한다. 에이전트(412)는 자신이 위치한 하드웨어 모듈(420) 내부의 상태를 감시하며, 오류가 발생하였을 때 이를 매니저(411)에게 알리고 매니저의 지시에 따라 오류를 복구하는 기능을 담당한다.
도 3은 상기 도 2에 나타낸 관리 시스템의 내부 구조도이다.
매니저 모듈(510)은 사용자 인터페이스 모듈(511)과, 구성관리 시스템 핵심모듈(CMS Core)(512)과, 오류관리 모듈(FMM; Fault Management Module)(513)과, 구성관리 모듈(CMM; Configuration Management Module)(514)과, 감시 모듈(AM; Audit Module)(515)로 구성된다.
위에서, 사용자 인터페이스 모듈(511)은 제어시스템 내부의 하드웨어 상태 변화와 오류의 발생을 사용자에게 알리고, 사용자에 의한 시스템 설정 변경 및 오류제어 신호를 하부로 전달한다. 구성 관리 시스템 핵심 모듈(512)은 매니저를 구성하는 각 모듈간의 인터페이스 중재 기능과 함께, 매니저의 제어 기능을 담당한다. 오류관리 모듈(513)은 그 교환제어 모듈의 오류복구를 위한 제어 기능을 담당하고, 구성관리 모듈(514)은 각각의 교환제어 모듈인 마스터 프로세서 모듈(422)과 스탠바이 프로세서 모듈(423)에 위치하는 하드웨어 장치들의 설치정보를 관리하며, 감시 모듈(515)은 에이전트로부터 전달되는 오류 또는 하드웨어 장치 상태정보를 수신하는 기능을 담당한다.
한편, 에이전트 모듈(520)은, 관리정보 모듈(MIB; Management Information Base)(521)과, 관리 에이전트 핵심 모듈(MA Core; 522)과, 감시 모듈(523)과, 구성관리 모듈(CMM; 524)과, 오류관리 모듈(525)로 구성된다.
위에서, 관리정보 모듈(521)은 각각의 교환제어 모듈 내부에 존재하는 하드웨어 장치(526)들의 설치정보와 이들의 상태정보 및 각각의 오류에 대한 대처 방법에 관한 정보를 관리하고, 감시 모듈(523)은 하드웨어 장치(526)들의 상태감시 및 오류검출과 함께 매니저 모듈(510)의 구성관리시스템 핵심모듈(512)로부터 전달되는 제어신호의 수신 기능을 담당한다. 구성관리 모듈(524)은 하드웨어 장치(526)의 상태에 따라 관리정보 모듈(MIB; 521)의 내용을 변경하는 기능을 담당하며, 오류관리 모듈(525)은 하드웨어의 오류 발생시 관리정보 모듈(521)에 정의된 내용에 따라 오류를 복구하는 기능을 담당한다. 관리 에이전트 핵심 모듈(522)은 에이전트를 구성하는 각 모듈간의 인터페이스 중재 기능과 함께, 에이전트의 전반적인 제어 기능을 담당한다.
도 4는 상기 도 3에서 보여진 관리정보 모듈(MIB)(521)의 구성도이다.
그 관리정보 모듈(521)은, 구성관리 정보(521a)와 오류관리 정보(521b)로 구성된다. 구성관리 정보(521a)에서 표현되는 내용에는, 교환제어 모듈에 설치된 하드웨어의 종류(Device_Type)와 해당 장치의 개수(Max_Num), 해당 장치와 연관된 요소(Constituents), 장치가 설치된 위치(Location), 표현될 수 있는 장치의 상태 종류(Condition), 요구되는 장치의 상태(Req_Condition), 장치의 현재 상태(State), 오류 발견 가능 여부(Fault_Acknowledged), 장치에 대한 설명(Description) 정보가 있으며 각각의 정보의 표현 형태는 다음과 같다.
* 하드웨어 종류(Device_Type)
-프로세서 모듈(Process Module)
-중앙처리장치(CPU)
-하드디스크(Hard Disk)
-이더넷 카드(Ethernet Card)
-SBus
-고장감내(Fault Tolerant) I/O Bus
*장치의 개수(Max_Num) : 교환제어 시스템에 설치된 해당 장치의 개수
*해당 장치와 연관된 요소(Constituents)
-프로세서 모듈의 경우 : 중앙처리장치, SBus, 하드디스크, 이더넷 카드.
-중앙처리장치의 경우 : 프로세서 모듈, SBus, 고장감내 I/O Bus.
-하드 디스크의 경우 : 프로세서 모듈, SBus, 고장감내 I/O Bus.
-이더넷 카드의 경우 : 프로세서 모듈, SBus, 고장감내 I/O Bus.
-SBus의 경우 : 프로세서 모듈, 중앙처리장치, 고장감내 I/O Bus, 하드디 스크, 이더넷 카드.
-고장감내 I/O Bus의 경우 : 프로세서 모듈, 중앙처리장치, SBus, 하드 디스크, 이더넷 카드.
* 해당 장치가 설치된 위치(Location): 장치의 슬롯 번호 또는 프로세서 모듈
* 장치의 상태 종류(Condition)
-프로세서 모듈의 경우 : 온라인(On-line) 또는 오프라인(Off-line), 마스터 (Master) 또는 슬레이브(Slave).
-기타 장치의 경우 : 온라인 또는 오프라인.
* 요구되는 장치의 상태(Req_Condition) : 장치의 상태 종류 중 한가지.
* 장치의 현재 상태(State) : 장치의 상태 종류 중 한가지.
* 오류의 발견 가능 여부(Fault_Acknowledged) : 가능(Enable) 또는 불가능 (Disable).
* 설명(Description) : 장치에 대한 세부 설명.
오류관리 정보(521b)에서 표현되는 내용에는, 장치의 종류(Device_Type)와 오류의 종류(Fault_Type), 자동복구 여부(Auto_Fixing), 자동 복구시의 수행 루틴(Response) 정보가 있으며, 표현 정보는 다음과 같다.
* 하드웨어 종류(Device_Type) : 상기 구성관리정보(521a)의 설명과 동일함.
* 오류의 종류(Fault_Type)
-프로세서 모듈의 경우 : 전원 오류(Power Fault ; 전원 공급 오류), 시간 초과(Time Out ; 응답 시간 초과 오류), 비교 오류(Comparison Error : 프로세서 모듈간 응답 결과 불일치).
-중앙처리장치의 경우 : 시간 초과
-하드디스크의 경우 : 읽기/쓰기(Read/Write) 오류(데이터 입출력 오류)
-이더넷 카드의 경우 : 읽기/쓰기 오류(데이터 입출력 오류)
-SBus의 경우 : 내부 오류(Internal Fault ; SBus 내부에서 검출 가능한 오류), 시간 초과(외부 장치와의 인터페이스시 응답 시간 초과 오류
-고장감내 I/O Bus : 내부 오류(SBus 내부에서 검출 가능한 오류), 시간 초과(외부 장치와의 인터페이스시 응답 시간 초과 오류).
* 자동 복구 여부(Auto_Fixing) : 가능 또는 불가능
* 수행 루틴(Response)
-시간 초과(Time Out) 및 버스 내부 고장(Bus Internal Fault)의 경우 : 재시도(Retry ; 현재 작업의 재실행 요구).
-비교 에러(Comparison Error)의 경우
·Find_Error_Module( ): 오류가 발생한 오류 검출
·Swap_Module_Role( ): 마스터 모듈의 오류시 스탠바이를 마스터로 변경
· Change_State(on-line 또는 off-line): 모듈의 상태 변경
·Synchronize( ): 기본 동기화
·Reintegration( ): 시스템 재구성 - 최종 동기화 및 오류 모듈의 온 라인화
도 5는 교환제어 모듈의 오류 발생시 진행되는 오류복구 흐름도이다.
시스템이 가동되면 각 에이전트의 감시모듈(도 3의 '515', '523')은 교환제어 하드웨어의 상태를 감시한다(S1). 각 에이전트의 감시모듈은 관리 에이전트 핵심모듈(522)과 매니저의 감시모듈(515)을 경유하여 매니저 핵심모듈(512)측에 하드웨어의 상태 정보를 전달한다. 상태정보를 전달받은 매니저 핵심모듈(512)에서는 해당 정보를 분석한다(S2).
이때 매니저 핵심모듈(512)은 해당 상태정보가 오류를 나타내고 있는지를 판별(S3)한다. 하드웨어상에 오류가 발생하지 않았을 경우는 하드웨어의 상태정보를 업데이트(Update)(S4)하고 하드웨어의 상태를 사용자 인터페이스 모듈(511)측에 전달한 후, 하드웨어 상태 감시 동작을 수행한다. 하드웨어 상에 오류가 발생하였을 경우는 해당 오류를 분석한다(S5).
오류분석 단계(S5)에서는 해당 오류가 발생한 장치와 오류 종류를 분석하며, 해당 오류가 프로세서 모듈(110, 120)에서 발생하였는지를 판별한다(S6). 발생한 오류가 프로세서 모듈에서의 오류가 아닌 경우는 오류가 발생된 시점의 작업 재실행(S7)을 에이전트(520)의 오류 관리모듈(525)에게 지시한 후, 오류의 재발 여부를 판별한다(S8).
이 판별(S8)에 의해 오류가 재발하지 않았다면 정상상태의 하드웨어 상태감시(S1)를 수행하며, 오류가 재발하였다면 치유 불가능한 오류로 판단하고 사용자 인터페이스 모듈(511) 측에 이를 통보하여 사용자의 오류복구를 요청한다. 도 5의 S6 단계에서 해당 오류가 프로세서 모듈(110, 120)의 오류로 판별되었을 경우 해당 프로세서 모듈이 마스터 모듈인지를 판별한다(S9).
이 판별(S9)에 의해 오류모듈이 스탠바이 모듈일 경우는 스탠바이 모듈의 상태를 오프라인으로 변경하고, 해당 오류의 자체복구 가능여부를 판별한다(S11). 오류모듈이 마스터 프로세서 모듈(110)일 경우는 스탠바이 프로세서 모듈(120)을 마스터 모듈로 변경하고, 오류모듈의 상태를 오프라인으로 변경한 후(S10), 오류의 자체복구 가능여부를 판별한다(S11).
이 단계 S11에서 자체 복구가 가능한 오류(물리적인 하드웨어의 고장이 아닌 일시적인 오류)로 판별되었을 경우는 기본 동기화 단계(S13)를 수행하며, 자체복구가 불가능한 오류(물리적인 하드웨어의 손상)로 판별되었을 경우는 인위적인 복구(S12)를 매니저 모듈의 감시모듈(AM)을 통해서 사용자에게 하드웨어의 교체를 요청하게 된다. 교환시스템에서는 하드웨어의 LED상에 하드웨어의 고장여부를 디스플레이하거나, 방송으로 알리거나, 사용자 모니터에 디스플레이하는 방법으로 사용자에게 인위적인 하드웨어 교체를 하도록 요구한다.
위에서, 기본 동기화 단계(S13)는 오류모듈의 에이전트측에 기본 동기화를 요청함으로써 개시되며, 프로세서 모듈간의 동기화는 정상모듈의 메모리 내용이 XBus를 통하여 오류모듈 측에 복사되는 방식으로 수행된다. 이러한 기본 동기화 단계(S13)를 통해서는 오류모듈과 정상모듈의 상태를 동일하게 만들 수 없다. 이는 동기화 수행중에도 정상 모듈은 서비스 기능을 지속하고 있어, 메모리의 상태가 계속 변화되는데서 기인한다. 따라서 기본 동기화 단계(S13)에서는 일정비율 만큼의 메모리 동일화만을 수행한다.
기본 동기화가 종료되면 최종 동기화 단계(S14)를 수행한다. 최종 동기화 단계(S14)에서는 정상 모듈의 서비스 제공이 일시 중단되며, 기본 동기화 단계(S14)에서 동일화하지 못한 정상모듈의 프로세서 상태를 오류모듈측에 복사하는 작업을 수행한다.
최종 동기화 단계(S14)가 수행된 이후에는 오류모듈의 역할을 스탠바이로 설정하고, 해당 모듈의 온라인화 및 서비스의 재개 단계(S15)가 수행된다.
이상과 같은 본 발명은 다음과 같은 효과들을 얻을 수 있다.
첫째로, 본 발명은 교환제어 시스템에서 발생하는 오류를 검출하고 이를 복구하는 방법으로써, 오류의 발생시에도 교환제어 시스템의 서비스가 중단없이 제공될 수 있도록 하는, 즉 고가용성을 획득할 수 있다.
둘째로, 본 발명을 이용하므로써, 교환제어 시스템의 불안정으로 인한 네트워크 기반 통신 서비스의 품질 저하를 방지할 수 있고, 완벽한 안정성이 요구되는 전자상거래와 같은 상업활동 또한 안정적으로 수행될 수 있도록 하는 효과를 기대할 수 있다.
세째로, 본 발명을 이용하므로써, 교환제어 시스템의 개발자는 개발중인 교환제어 시스템에서 빈번하게 발생하는 하드웨어 장치를 발견하여, 이를 수정함으로써 교환제어 시스템의 오류를 사전에 예방할 수 있도록 할 수 있다. 즉, 교환제어 시스템의 디버깅 방안으로 이용될 수 있다.

Claims (8)

  1. 핫 스탠바이 스페어링(hot standby sparing) 구조를 기반으로 하고, 교환 제어 기능을 수행하는 마스터 프로세서 모듈(110)과 스탠바이 프로세서 모듈(120)이 오류발생시 오류모듈의 상태를 정상모듈과 동일하게 만들기 위해 이용되는 X 버스(150)를 통해 연결되고, 상기 프로세서 모듈들이 고장감내형 입출력 버스(140)를 통해 입출력 기능을 수행하는 입출력 프로세서 모듈(130 또는 421)과 연결되는 다중화 교환제어시스템에서,
    상기 마스터/스탠바이 프로세서 모듈에 각기 위치하고, 자신이 위치한 프로세서 모듈 내부의 상태를 감시하여 그 상태 정보를 매니저 모듈에게 알리고, 그 매니저 모듈의 지시에 따라 오류를 복구하는 에이전트 모듈(412 또는 520)과;
    상기 입출력 프로세서 모듈에 위치하고, 상기 각 에이전트 모듈로부터의 상태정보를 분석하여 오류가 발생하였을 경우 해당 오류 발생 프로세서 모듈에 위치한 해당 에이전트 모듈에게 오류복구를 수행토록 지시하는 매니저 모듈(411 또는 510)이 분산 구성되어, 오류 발생시에도 서비스가 중단없이 정상화되도록 하는 것을 특징으로 하는 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템.
  2. 제 1 항에 있어서,
    상기 매니저 모듈은,
    상기 제어시스템 내부의 하드웨어 상태변화와 오류발생을 사용자에게 알리고, 사용자에 의한 시스템 설정 및 오류 제어신호를 전달하는 사용자 인터페이스 모듈(511);
    상기 마스터/스탠바이 프로세서 모듈의 오류복구를 제어하는 오류관리 모듈(513);
    상기 마스터/스탠바이 프로세서 모듈에 구비된 하드웨어 장치들의 설치정보를 관리하는 구성관리 모듈(514);
    상기 에이전트 모듈로부터 전달되는 오류 또는 하드웨어 장치 상태 정보를 수신하는 감시 모듈(515); 및
    상기 모듈들(511, 513, 514, 515)간의 인터페이스 중재와 본 매니저 모듈의 제어를 담당하는 관리 시스템 핵심모듈(512)로 구성된 것을 특징으로 하는 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 에이전트 모듈은,
    상기 마스터/스탠바이 프로세서 모듈 내부에 존재하는 하드웨어 장치(526)들의 설치정보와 이들의 상태정보 및 각각의 오류에 대한 대처방법에 관한 정보를 관리하는 관리정보 모듈(521);
    상기 하드웨어 장치(526)들의 상태감시 및 오류검출과 함께 상기 매니저 모듈(510)의 관리시스템 핵심모듈(512)로부터 전달되는 제어신호를 수신하는 감시모듈(523);
    상기 하드웨어 장치(526)의 상태에 따라 상기 관리정보 모듈(521)의 내용을 변경하는 구성관리 모듈(524);
    상기 하드웨어 장치의 오류 발생시 관리정보 모듈(521)에 정의된 내용에 따라 오류를 복구하는 오류관리 모듈(525); 및
    상기 각 모듈간의 인터페이스 중재와 함께, 본 에이전트 모듈을 전체적으로 제어하는 관리 에이전트 핵심 모듈(522)로 구성된 것을 특징으로 하는 고장감내 교환제어 시스템내 관리시스템에서의 오류 관리시스템.
  4. 제 3 항에 있어서,
    상기 관리정보 모듈(521)은,
    시스템의 설치관리를 위하여 구성한 하드웨어의 종류와 장치의 개수, 해당 장치와 연관된 장치, 장치의 설치위치, 장치의 상태의 정보와;
    시스템의 오류관리를 위하여 구성한 오류의 종류와, 자동복구 여부, 자동복구 수행 루틴의 정보가 포함된 것을 특징으로 하는 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템.
  5. 교환 제어 기능을 수행하는 마스터 프로세서 모듈(110)과 스탠바이 프로세서 모듈(120)에 위치하여 그 프로세서 모듈의 각 상태를 감시하여 그 감시한 상태정보를 에이전트 모듈(520)과, 입출력 프로세서 모듈(130)에 위치하여 상기 에이전트 모듈로부터 전달된 상태정보를 분석하여 오류 발생시 상기 에이전트 모듈에게 오류복구를 지시하는 매니저 모듈(510)로 구성되는 핫 스탠바이 스페어링(hot standby sparing) 구조를 기반으로 하는 다중화 교환제어시스템내 관리시스템에서의 오류관리시스템에서,
    시스템이 가동되면 상기 에이전트 모듈(520)의 감시모듈(523)에서 교환제어 하드웨어의 상태를 감시하고 상기 매니저 모듈(510)의 핵심모듈(512)에서 그 상태를 분석하여 오류 발생여부를 판별하는 오류 분석과정;
    상기 오류 판별 결과, 오류가 발생된 프로세서 모듈과는 다른 기능을 갖는 마스터 또는 스탠바이 프로세서 모듈로 변경하고 그 오류모듈의 상태를 오프라인으로 변경하는 오류모듈 처리과정; 및
    상기 오류모듈 처리후, 상기 오류 모듈의 자체복구가 불가능할 경우(물리적인 하드웨어의 손상) 인위적 복구를 수행하고, 자체복구가 가능할 경우(일시적 오류) 오류 모듈의 에이전트측에 요청하여 기본 동기화를 하고나서 최종 동기화를 수행한 후 상기 오류 모듈의 역할을 스탠바이로 설정하고 온라인화하는 오류모듈의 오류복구과정을 수행하여, 오류발생시 서비스를 중단하지 않고 제공하는 것을 특징으로 하는 오류복구방법.
  6. 제 5 항에 있어서,
    상기 오류 판별결과, 하드웨어상에 오류가 발생하지 않았을 경우 하드웨어의 상태정보를 업데이트하고 그 상태정보를 사용자 인터페이스 모듈(511)에 전달하는 것을 특징으로 하는 오류복구방법.
  7. 제 5 항에 있어서,
    상기 프로세서 모듈에서의 오류가 아닌 경우는 오류가 발생된 시점의 작업 재실행을 상기 에이전트 모듈(520)의 오류관리모듈(525)에게 지시한 후 오류의 재발여부를 판별하는 것을 특징으로 하는 오류복구방법.
  8. 제 5 항에 있어서,
    상기 최종 동기화 수행시에는, 정상 모듈의 서비스 제공을 일시 중단시킨 후 상기 기본 동기화 수행시에 동일화하지 못한 정상모듈의 프로세서 상태를 오류모듈측에 복사하는 것을 특징으로 하는 오류복구방법.
KR1019990029096A 1999-07-19 1999-07-19 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법 KR20010010293A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990029096A KR20010010293A (ko) 1999-07-19 1999-07-19 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990029096A KR20010010293A (ko) 1999-07-19 1999-07-19 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법

Publications (1)

Publication Number Publication Date
KR20010010293A true KR20010010293A (ko) 2001-02-05

Family

ID=19602645

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990029096A KR20010010293A (ko) 1999-07-19 1999-07-19 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법

Country Status (1)

Country Link
KR (1) KR20010010293A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056290A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 이중화된 시스템에서의 프로세스의 이중화를 통한프로세스 장애 복구방법
KR100940488B1 (ko) * 2005-07-07 2010-02-04 삼성탈레스 주식회사 다중화 모드를 이용한 고장 복구 시스템의 운용 방법
KR101064434B1 (ko) * 2004-08-02 2011-09-14 주식회사 케이티 인터넷 프로토콜 장비를 위한 원격 컨피그레이션 관리시스템
US11036595B2 (en) 2017-10-11 2021-06-15 Electronics And Telecommunications Research Institute Semiconductor system including fault manager

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030056290A (ko) * 2001-12-28 2003-07-04 한국전자통신연구원 이중화된 시스템에서의 프로세스의 이중화를 통한프로세스 장애 복구방법
KR101064434B1 (ko) * 2004-08-02 2011-09-14 주식회사 케이티 인터넷 프로토콜 장비를 위한 원격 컨피그레이션 관리시스템
KR100940488B1 (ko) * 2005-07-07 2010-02-04 삼성탈레스 주식회사 다중화 모드를 이용한 고장 복구 시스템의 운용 방법
US11036595B2 (en) 2017-10-11 2021-06-15 Electronics And Telecommunications Research Institute Semiconductor system including fault manager

Similar Documents

Publication Publication Date Title
US6363497B1 (en) System for clustering software applications
US6816951B2 (en) Remote mirroring with write ordering sequence generators
KR100297906B1 (ko) 동적인구성변화를지원하는방법및그장치
US6134673A (en) Method for clustering software applications
EP0760503B1 (en) Fault tolerant multiple network servers
EP1437658B1 (en) Coordinating persistent status information with multiple file servers
US7392421B1 (en) Framework for managing clustering and replication
AU2002231167B2 (en) Method of "split-brain" prevention in computer cluster systems
US20100036885A1 (en) Maintaining Data Integrity in Data Servers Across Data Centers
US20050125557A1 (en) Transaction transfer during a failover of a cluster controller
KR20010072379A (ko) 내고장성 컴퓨터 시스템
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP3595033B2 (ja) 高信頼化コンピュータシステム
JP2008052407A (ja) クラスタシステム
JP4182948B2 (ja) フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
CN113849136A (zh) 一种基于国产平台的自动化fc块存储处理方法和系统
US7437445B1 (en) System and methods for host naming in a managed information environment
KR20010010293A (ko) 고장감내 교환제어 시스템내 관리시스템에서의 오류관리시스템 및 오류 복구방법
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JPH07306794A (ja) 分散システム及び分散システムの高信頼化方法
CN114706714A (zh) 一种同步计算机内存分割快照的方法
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JPH06195318A (ja) 分散処理システム
KR100198416B1 (ko) 이중화 제어시스템에서의 동기제어를 위한 동기신호 감시회로

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application