KR19980030107A - 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법 - Google Patents

행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법 Download PDF

Info

Publication number
KR19980030107A
KR19980030107A KR1019960049466A KR19960049466A KR19980030107A KR 19980030107 A KR19980030107 A KR 19980030107A KR 1019960049466 A KR1019960049466 A KR 1019960049466A KR 19960049466 A KR19960049466 A KR 19960049466A KR 19980030107 A KR19980030107 A KR 19980030107A
Authority
KR
South Korea
Prior art keywords
status
remote
message
routine
failure
Prior art date
Application number
KR1019960049466A
Other languages
English (en)
Inventor
김재민
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019960049466A priority Critical patent/KR19980030107A/ko
Publication of KR19980030107A publication Critical patent/KR19980030107A/ko

Links

Landscapes

  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

본 발명은 시스템 콘트롤 모듈(System Control Module)보드에 있는 콘솔포트를 이용하여 각각의 시스템의 스테터스를 모니터링하고 장애가 발생하면 장애가 발생한 시스템은 격리시키고 데드 록(Dead Lock)상황의 정보를 제공하여 정상적인 다른 시스템은 지속적으로 서비스가 유지되도록 하여 시스템의 가용도를 향상토록 한 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법에 관한 것이다.
이러한 본 발명은 장애 발생을 상대편 시스템으로 알리기 위해 사용되는 메시지와 상대편 시스템의 스테터스를 수신하기 위해 사용되는 메시지 및 상대 시스템의 스테터스 보고에 대한 응답 메시지를 초기화한후 메시지가 수신될때 수행될 루틴과 인지 메시지가 도착하면 수행되는 루틴을 핸들러 테이블에 등록하는 제 1과정과; 상기 제 1과정후 로컬 스테터스 정보를 주기적으로 리모트 시스템으로 전송하는 제 2과정과; 상기 리모트 상태 정보를 주기적으로 리드하고 그 상태를 체크하는 제 3 과정과; 상기 제 3과정의 체크결과 리모트 시스템에 장애가 발생되면 리모트 시스템을 격리 및 복구하는 제 4과정을 순차 실행시키게 되는 것이다.

Description

행정 전산망 주전산기 시스템으 장애 검출 및 처리 방법
본 발명은 행정 전산망 주전산기 Ⅲ 클러스터 시스템의 장애 검출 및 처리에 관한 것으로, 특히 시스템 콘트롤 모듈(System Control Module)보드에 있는 콘솔포트를 이용하여 각각의 시스템의 스테터스를 모니터링하고 장애가 발생하면 장애가 발생한 시스템은 격리시키고 데드 록(Dead Lock)상황의 정보를 제공하며 정상적인 다른 시스템은 지속적으로 서비스가 유지되도록 하여 시스템의 가용도를 향상토록 한 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법에 관한 것이다.
종래 행정 전산망 주전산기 시스템은 제 1도에 도시된 바와 같이, 밀 결합 다중 프로세서 구조로 이루어지며, 프로세스 보드(1)와, 입출력 프로세서(2)와, 시스템 자원에 대한 제어를 행하는 시스템 콘트롤 모듈(3)로 구성 되었다.
도면중 미설명 부호 4는 로컬 콘솔이고, 5는 리모트 콘솔이며, 6은 메모리 보드이고, 7은 랜 콘트롤러이며, 8은 원(WAN) 콘트롤러이고, 9는 다른 기종의 데이타를 인터페이스하기 위한 인터페이스부이며, 10은 터미널 콘드롤러이다.
이와같이 구성된 종래 행정 전산망 주전산기 시스템의 동작을 설명하면 다음과 같다.
먼저, 시스템 콘트롤 보드(3)에 있는 콘솔 포트는 일반적인 터미널 포트로서의 기능만을 가지고 있으며, 이 콘솔 포트는 터미널로부터 오는 데이타를 리드하기 위해 사용자 프로세스가 수행되면 콘솔 스트림 드라이버의 리드 함수를 호출하게 된다.
이후 리드 함수는 터미널로부터 입력된 데이타가 있는지를 체크하여, 입력된 데이타가 있으면 데이타를 사용자 프로세서에게 전달하고, 입력된 데이타가 없으면 캐릭터가 입력될때까지 슬리프하게 된다.
한편, 터미널에서 데이타가 입력되면 콘솔 인터럽트 루틴이 수행되어 입력된 내용을 처리하게 된다.
그러나 이러한 종래의 행정 전산망 주전산기 시스템은 운영중인 한 시스템에 장애가 발생하면 시스템 복구전까지는 모든 서비수가 중단이 되는 문제점이 있었다.
즉, 운영중인 한 시스템에 장애가 발생하면 정상 상태에 있는 시스템도 장애 시스템에 의해 데드 록되어 시스템 행(Hang)상태가 되므로 모든 서비스가 중단되는 것이다.
이러한 문제는 논-스탑(Non-Stop)을 요하는 업무에 있어서 더욱더 큰 문제로 작용한다.
따라서 본 발명은 상기와 같은 종래 행정 전산망 주전산기 시스템의 제반 문제점을해결하기 위해서 제안된 것으로서, 본 발명의 목적은 시스템 콘트롤 모듈(System Control Module)보드에 있는 콘솔포트를 이용하여 각각의 시스템의 스테터스를 모니터링하고 장애가 발생하면 장애가 발생한 시스템은 격리시키고 데드 록(Dead Lock)상황의정보를 제공하며 정상적인 다른 시스템은 지속적으로 서비스가 유지되도록 하여 시스템의 가용도를 향상토록 한 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법을 제공하는데 있다.
이러한 본 발명의 목적을 달성하기 위한 방법은, 장애 발생을 상대편 시스템으로 알리기 위해 사용되는 메시지와 상대편 시스템의 수테터스를 수신하기 위해 사용되는 메시지 및 상대 시스템의 스테터스 보고에 대한 응답 메시지를 초기화한후 메시지가 수신될때 수행될 루틴과 인지 메시지가 도착하면 수행되는 루틴을 핸들러 테이블에 등록하는 제 1과정과; 상기 제 1과정후 로컬 스테터스 정보를 주기적으로 리모트 시스템으로 전송하는 제 2과정과; 상기 리모트 상태 정보를 주기적으로 리드하고 그 상태를 체크하는 제 3과정과; 상기 제 3과정의 체크결과 리모트 시스템에 장애가 발생되면 리모트 시스템을 격리 및 복구하는 제 4과정으로 이루어진다.
이하, 본 발명을 첨부한 도면에 의거 상세히 설명하면 다음과 같다.
제 1도는 일반저인 행정 전산망 주전산기 시스템 블록 구성도.
제 2도는 본 발명이 적용되는 행정 전산망 주전산기 Ⅲ 클러스터 시스템 블록 구성도.
제 3도는 본 발명에 의한 행정 전산망 주전산기 시스템의 장애 검출 및 처리방법을 보인 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
100,101 : 제 1 및 제 2 시스템 콘트롤 모듈, 102,103 : 제 1 및 제 2 프로세서 보드, 104,105 : 제 1 및 제 2 메모리 보드, 106,107 : 제 1 및 제 2 입출력 프로세서
제 2도는 본 발명이 적용되는 행정 전산망 주전산기 Ⅲ 클러스터 시스템 블록 구성도이다.
도시된 바와 같이, 각각의 시스템내에 구비되어 장애 발생시 사용되는 자료구조 및 두 시스템간의 메시지 전송에 필요한 자료를 초기화하고 리모트 및 로컬 스테터스를 감시하는 프로세스를 포크(FORK)하는 초기화 모듈과, 콘솔포트를 이용하여 리모트 시스템의 스테터스를 모니터링하고 리모트 스테터스를 서비스 모듈에게 보고하는 리모트 모니터링 모듈과, 리모트 스테터스에 따라 리모트 시스템 격리 및 로컬 시스템 행 방지를 위한 조치를 취하는 서비스 모듈로 이루어진 제 1 및 제 2 시스템 콘크롤 모듈(100)(101)과; 제 1 및 제 2 프로세서 보드(102)(103)와; 데이타 저장을 위한 제 1 및 제 2 메모리 보드(104)(105)와; 데이타의 입출력을 관장하는 제 1 및 제 2 입출력 프로세서(106)(107)와; 제 1 및 제 2 랜 콘트롤러(108)(109)로 구성되었다.
제 3도는 본 발명에 의한 행정 전산망 주전산기 시스템의 장애 검출 및 처리방법을 보인 흐름도이다.
도시된 바와같이, 장애 발생을 상대편 시스템으로 알리기 위해 사용되는 메시지와 상대편 시스템의 스테터스를 수신하기 위해 사용되는 메시지를 초기화시키는 단계(ST1)와, 상대 시스템의 스테터스 보고에 대한 응답 메시지를 초기화하는 단계(ST2)와, 메시지가 수신될때 수행될 루틴과 인지 메시지가 도착하면 수행되는 루틴을 핸들러 테이블에 등록하는 단계(ST4)와, 상기 단계후 콘솔 포트를 이용하여 리모트 로컬 스테터스를 다른 시스템으로 전송하고 전송 에러를 체크한 후 에러가 없으면 일정시간 지연후에 다시 상기 로컬 스테터스를 전송하는 단계로 리턴하는 단계(ST5-ST7)와, 상기 단계(ST4)에서 포크가 되면 con_rccvm()함수를 수행하는 단계(ST8)와, 상기 단계후 데이타가 수신되면 인지 메시지인지를 체크하는 단계(ST9)(ST10)와, 상기 단계(ST10)에서 인지 메시지이면 conackh()함수를 수행하고 스테터스가 정상인지를 확인하는 단계(ST11)(ST12)와, 상기 스테터스가 비정상이면 장애 서비스 루틴을 수행하고 리모트에 스테터스를 요구하는 단계(ST13)(ST14)와, 상기 단계(ST10)에서 인지 메시지가 아닐 경우conshandler()루틴을 수행하고 전송에러 여부를 체크하는 단계(ST16)(ST17)와, 상기 전송 에러가 없으면 리모트 인지 메시지를 전송하는 단계(ST18)와, 상기 전송 에러가 발생하면 리모트 시스템 장애로 인식하는 단계(ST19)와, 상기 리모트시스템 장애로 인식되면 리모트 시스템 격리를 위한 루틴을 수행하는 단계(ST20)로 이루어진다.
이와 같이 이루어지는 본 발명에 의한 행정 전산망 주전산기 시스템의 장애 검출 및 처리 과정을 설명하면 다음과 같다.
먼저, 각각의 시스템에 전원이 공급되면 각각의 시스템에 구비된 시스템 콘트롤 모듈은 장애 발생을 상대편 시스템에게 알리기 위해 사용되는 메시지 con-send와 상대편 시스템의 스테터스를 수신하기 위해 사용되는 con-rec메시지를 초기화한다(ST1).
이후 상대 시스템의 스테터스 보고에 대한 응답을 위해 사용되는 콘솔 인지 메시지(con-ack)를 초기화하고 (ST2), 메시지가 수신될때 수행될 conhandler()루틴과 인지 메시지가 수신되었을때 수행되는 cons ackh()루틴을 핸들러 테이블에 등록한다(ST3).
이후 일정한 간격으로 상대 시스템에게 로컬 스테터스를 보고하는 con-inth()를 수행시키고, 리모트 스테터스를 수신하는 con-recvh()를 수행시킨다(ST4-ST8).
상기한 con-inth()를 일정한 간격으로 로컬 시스템의 스테터스를 con-send메시지에 넣어 리모트 시스템으로 전송하고, 리모트 시스템이 전송 메시지를 정상적으로 수신하면 다시 일정한 시간후에 로컬 스테터스를 리모트로 보내며 이를 반복하게 된다.
상기에서 con-sendh()에서 에러가 발생하면 리모트 시스템이 장애가 발생한 것으로 인식하고, Reconfig()루틴을 수행하여 이전 스테터스를 보고 리모트의 스테터스를 파악한 다음 리모트 시스템을 클러스터 시스템에서 격리시키고 데드 록 지원을 풀어주기 위한 준비 작업을 하거나 리모트 시스템이 복구되었을때 정상상태로 복구시키는 기능을 수행한다(ST16-ST20).
아울러 포크된 con-recvm()루틴은 리모트에서 보내주는 리모트 스테터스 메시지를 받아 con-recv메시지에 저장하고, 메시지를 보낸 리모트 시스템으로 인지 메시지를 보낸다(ST8-ST9).
인지 메시지를 수신한 리모트 시스템은 상대편 시스템이 정상임을 수신 메시지에 등록한다.
정상적으로 완료됐으면 다시 전술한 con-recvm()루틴을 수행하여 리모트로부터 오는 메시지를 수신한다.
콘솔 핸들러 루틴에서는 일정 시간 동안 응답이 없으면 타이머 루틴에 의해 에러로 취급되고, 리모트 시스템에 장애가 발생한 것으로 인식하고 Reconfig()루틴을 수행하여 해당 조치를 취한다.
만약, cons ackh()루틴을 수행하는 도중에 리모트 시스템의 스테터스가 체인지되면 장애-서비스루틴을 수행시켜 다시 한번 더 리모트 시스템으로 리모트 스테터스 전송을 요청하고, 그래도 응답이 없으면 장애로 간주하고 리모트 시스템을 격리시키기 위한 루틴을 수행하게 되는 것이다.
이상에서 설명한 바와 같이 본 발명은 한 시스템에 장애가 발생되면 장애가 발생된 시스템을 격리시키므로서 정상 상태에 있는 시스템까지도 행(HANG)되는 현상을 방지할 수 있는 효과가 있다.
또한, 상기와 같은 효과에 의해 정상상태에 있는 시스템은 지속적인 서비스가 가능하므로 시스템의 가용도(Availbility)를 향상시킬 수 있는 효과도 있다.

Claims (1)

  1. 장애 발생을 상대편 시스템으로 알리기 위해 사용되는 메시지와 상대편 시스템의 스테터스를 수신하기 위해 사용되는 메시지 및 상대 시스템의 스테터스 보고에 대한 응답 메시지를 초기화한후 메시지가 수신될때 수행될 루틴과 인지 메시지가 도착하면 수행되는 루틴을 핸들러 테이블에 등록하는 제 1과정; 상기 제 1과정후 로컬 스테터스 정보를 주기적으로 리모트 시스템으로 전송하는 제 2과정과; 상기 리모트 상태 정보를 주기적으로 리드하고 그 상태를 체크하는 제 3과정과; 상기 제 3과정의 체크결과 리모트 시스템에 장애가 발생되면 리모트 시스템을 격리 및 복구하는 제 4과정으로 이루어짐을 특징으로 하는 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법.
KR1019960049466A 1996-10-29 1996-10-29 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법 KR19980030107A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960049466A KR19980030107A (ko) 1996-10-29 1996-10-29 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960049466A KR19980030107A (ko) 1996-10-29 1996-10-29 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법

Publications (1)

Publication Number Publication Date
KR19980030107A true KR19980030107A (ko) 1998-07-25

Family

ID=66315979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960049466A KR19980030107A (ko) 1996-10-29 1996-10-29 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법

Country Status (1)

Country Link
KR (1) KR19980030107A (ko)

Similar Documents

Publication Publication Date Title
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
US20060150009A1 (en) Computer system and method for dealing with errors
KR20000011834A (ko) 고장-허용오차를계산하는컴퓨터시스템및이를동작시키는방법,고장-관리컴퓨터장치,및고장-허용오차계산장치
KR20000011835A (ko) 네트워크의분산애플리케이션에대한고장검출및소정의복제스타일로복구하는방법및장치
WO2004004158A1 (en) System and method for supporting automatic protection switching between multiple node pairs using common agent architecture
US20120272091A1 (en) Partial fault processing method in computer system
JPH10154085A (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法および二重化監視/制御プロセッサ・システム
US5583986A (en) Apparatus for and method of duplex operation and management for signalling message exchange no. 1 system
KR19980030107A (ko) 행정 전산망 주전산기 시스템의 장애 검출 및 처리 방법
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JP2001331330A (ja) プロセス異常検知及び復旧システム
KR100310297B1 (ko) 프로세서간통신메시지를이용한상태관리방법
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH08287030A (ja) 多重系計算機システムの自動再起動装置および方法
EP0860777A2 (en) Fault tolerant data processing system and method therefor
KR100257162B1 (ko) 이중화 시스템에서 상대 시스템의 감시방법 및 장치
KR950012383B1 (ko) 장애정도에 따라 비상정상상태를 유지할 수 있는 이중화제어방법 및 이중화장치
JPH06290126A (ja) 計算機システム障害監視方式
KR20230112207A (ko) 인공지능기반의 업무자동화 방법 및 그 시스템
JP2000349900A (ja) 交換装置の障害処理方式
JPH0844637A (ja) データ転送制御機能を有した計算機システム
KR930007469B1 (ko) 프로세서 정합 운용시 장애진단 및 복구방법
JPH1049450A (ja) 遠隔監視システムの異常時の復旧方式
JPH02310755A (ja) ヘルスチェック方式
KR19990050461A (ko) 고 가용성 시스템의 오류 처리방법

Legal Events

Date Code Title Description
A201 Request for examination
SUBM Submission of document of abandonment before or after decision of registration