KR20060127545A - 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법 - Google Patents

멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법 Download PDF

Info

Publication number
KR20060127545A
KR20060127545A KR1020050048595A KR20050048595A KR20060127545A KR 20060127545 A KR20060127545 A KR 20060127545A KR 1020050048595 A KR1020050048595 A KR 1020050048595A KR 20050048595 A KR20050048595 A KR 20050048595A KR 20060127545 A KR20060127545 A KR 20060127545A
Authority
KR
South Korea
Prior art keywords
module
error
message
lower layer
alarm information
Prior art date
Application number
KR1020050048595A
Other languages
English (en)
Other versions
KR100676462B1 (ko
Inventor
박승원
Original Assignee
서울통신기술 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울통신기술 주식회사 filed Critical 서울통신기술 주식회사
Priority to KR1020050048595A priority Critical patent/KR100676462B1/ko
Publication of KR20060127545A publication Critical patent/KR20060127545A/ko
Application granted granted Critical
Publication of KR100676462B1 publication Critical patent/KR100676462B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 본 발명에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.
PC, 서버, 멀티 프로세서, 에러 로깅, 디버깅

Description

멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법{DIAGNOSIS AMONG MULTI-PROCESSORS AND ERROR LOGGING SYSTEM AND METHOD}
도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면.
도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 일예를 나타내는 도면.
도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 다른 예를 나타내는 도면.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : HW 모듈 20 : FW 모듈
30 : 장치 드라이버 모듈 40 : 서비스 모듈
50 : DLL 모듈 60 : AP 모듈
70 : AP 모니터링 모듈 80 : 경보음 모듈
본 발명은 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것이다.
일반적으로 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)된다.
만약, DSP(Digital Signal Processor)가 죽은 경우 상위 계층의 모듈인 FW(Firmware)가 체크(check)하지 않고 계속 프로세서(Processor)를 진행시키게 되면 기능 오류 및 버스 에러(Bus Error)를 일으켜 시스템 전체가 다운(Down)된다.
따라서, 상위 계층의 모듈에서 하위 계층의 러닝(Running) 상태를 주기적으로 체크(check)하며, 하위 계층의 모듈은 주기적인 진단 메시지(Message)를 상위 계층의 모듈로 전송하여 러닝(Running) 상태를 알려주는 안정된 시스템이 요구되고 있는 실정이다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)되는 현상을 방지하고, 필요시 에러 로깅(Error Logging)을 남겨 디버깅(Debbuging)을 할 수 있도록 한 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법을 제공함에 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.
상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.
상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 전송되는 얼라이브 메시지(Alive Message)를 일정 시간동안 수신하지 못한 경우, 상기 상위 계층 모듈의 명령에 따라 상기 하위 계층의 모듈을 리셋시킨 후, 리셋 메시지를 상기 상위 계층의 모듈로 전송한다.
상기 오류검출모듈은, 상기 멀티 프로세서 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장한다.
상기 알람정보 생성모듈의 동작 상태를 실시간으로 체크하여 다운된 상태인 경우, 상기 알람정보 생성모듈을 재실행시키고 알람정보 메시지를 생성하는 시스템 모니터링 모듈을 더 포함한다.
상기 알람정보 생성모듈이나 시스템 모니터링 모듈로부터 생성된 알람정보를 전송받는 경우, 경보음(Alarm)을 발생시키는 경보음 모듈을 더 포함한다.
한편, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅하는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 재부팅 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.
상기 제 1과정에서, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.
상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.
상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.
또한, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 상기 하위 계층 모듈을 리셋시키는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 리셋 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 하위 계층 모듈의 리셋 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.
상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.
상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.
이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 참조번호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다. 하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 시스템은 하드웨어 모듈(HardWare module, 이하 "HW 모듈" 라 칭함)(10)과, 펌웨어 모듈(FirmWare module, 이하 "FW 모듈" 라 칭함)(20)과, 장치 드라이버 모듈(Device Driver module)(30)과, 서비스 모듈(Service module)(40)과, DLL(Dynamic Llink Library) 모듈(50)과, 어플리케이션 모듈(Application module, 이하 "AP 모듈" 라 칭함)(60)과, 어플리케이션 모니터링 모듈(Application monitoring module)(70) 및 경보음 모듈(80)을 포함하여 구성된다.
HW 모듈(10)은 PC나 서버내에 설치되는 하드웨어 장치로서, 다양한 기능을 수행하는 보드(Board) 등이 포함되어질 수 있다.
FW 모듈(20)은 상기 PC나 서버내에 설치되는 하드웨어 장치들을 제어하기 위한 모듈로서, 상기 HW 모듈(10)과 통신을 수행할 뿐만 아니라, 상위층의 장치 드라이버 모듈(Device Driver module)(30)과도 통신을 수행하게 된다.
특히, FW 모듈(20)은 디지털 신호처리장치(Digital Signal Processor: DSP)(21)를 포함한다.
장치 드라이버 모듈(Device Driver module)(30)은 상기 PC나 서버내에 장착되는 장치들을 상기 서비스 모듈(Service module)(40)이 인식할 수 있도록 하는 모듈로서, 하위층의 FW 모듈(20)과 통신을 수행할 뿐만 아니라 상위층의 서비스 모듈 (Service module)(40)과도 통신을 수행하게 된다.
서비스 모듈(Service module)(40)은 상기 PC나 서버내에 설치되는 서비스 프로그램이 저장되는 모듈로서, 서비스 프로그램으로는 예를 들면, 윈도우즈(Windows)나 리눅스(Rinux), 유닉스(Unix), 솔라리스(Solaris) 등의 OS 프로그램이 여기에 속하게 된다.
이와 같은 서비스 모듈(Service module)(40) 역시 하위층의 장치 드라이버 모듈(Device Driver module)(30)과 통신하며, 상위층의 DLL(Dynamic Llink Library) 모듈(50)과도 통신을 수행하게 된다.
특히, 이러한 서비스 모듈(Service module)(40)은 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장하게 된다.
DLL(Dynamic Llink Library) 모듈(50)은 작은 프로그램들의 집합으로서, PC나 서버 내에서 실행되고 있는 큰 프로그램에서 필요로 할 때 호출되어 특정한 기능을 수행하게 된다.
이와 같은, DLL(Dynamic Llink Library) 모듈(50) 역시 하위층의 서비스 모듈(Service module)(40)과 통신하며, 상위층의 AP 모듈(60)과도 통신을 수행하게 된다.
AP 모듈(60)은 사용자에 의해 호출되어 사용되는 응용 프로그램으로서, 다양한 어플리케이션이 이에 속하며, 하위층의 DLL(Dynamic Llink Library) 모듈(50)과 통신하게 된다.
AP 모니터링 모듈(Application monitoring module)(70)은 상기 AP 모듈(60) 의 상태를 감시하기 위한 모듈로서, 상기 AP 모듈(60)의 러닝(Running) 상태를 모니터링한 결과 오류로 인하여 AP 모듈(60)이 다운(Down)된 경우, AP 모듈(60)을 리부팅(Rebooting)하여 재실행시키게 된다.
경보음 모듈(80)은 상기 AP 모니터링 모듈(Application monitoring module)(70)로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 된다.
이에 따라, 시스템 관리자는 상기 경보음 모듈(80)로부터 발생된 경보음을 듣고 멀티 프로세서 모듈에서의 오류 추적을 할 수 있게 된다.
도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 DSP 모듈로부터 오류가 발생한 경우 FW 모듈과 DSP 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.
도 2에 도시된 바와 같이, 먼저, DSP는 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하게 된다.
이에 따라, FW 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.
확인 결과, FW 모듈은 일정 시간동안 예를 들어, 1초 동안 카운트(Count)가 바뀌지 않으면 DSP를 리부팅(Rebooting)(S30)하여 재시작될 수 있도록 한다.
이어서, FW 모듈은 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S40)시키고, DSP Reboot Message를 장치 드라이버 모듈로 전송(S50)하게 된다.
이에 따라, 상기 장치 드라이버 모듈은 상기 FW 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S60)시키고, DSP Reboot Message를 서비스 모듈로 전송(S70)하게 된다.
이에 따라, 서비스 모듈 역시 상기 드라이버 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S80)시키고, DSP Reboot Message를 DLL 모듈로 전송(S90)하게 된다.
이어서, DLL 모듈은 상기 서비스 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)시키고(S100), DSP Reboot Message를 AP 모듈로 전송(S110)하게 된다.
이어서, AP 모듈은 상기 DLL 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S120)시킨 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S130)하게 된다.
도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 FW 모듈로부터 오류가 발생한 경우 FW 모듈과 드라이버 모듈 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.
도 3에 도시된 바와 같이, 먼저, FW 모듈은 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하고, 20초 주기로 얼라이브 메시지(Alive Message)를 상위층의 드라이버 모듈로 전송하게 된다.
이에 따라, 드라이버 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.
확인 결과, 드라이버 모듈은 일정 시간동안 예를 들어 30초 동안 카운트(Count)가 바뀌지 않으면 FW 모듈을 리셋(Reset)(S30)시킨 후, 해당 CH들(해당 보드)을 클리어(Clear)(S40)하고, 상위층의 서비스 모듈로 FW Reset Message를 전송(S50)하게 된다.
이에 따라, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.
이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.
이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.
한편, 상기 카운트가 변경되었는지 확인하는 S20 과정에서, 만약 정상적으로 카운트가 변경된 경우, 상기 서비스 모듈은 상기 FW 모듈로부터 전송되어지는 얼라이브 메시지(Alive Message)의 수신 여부를 확인(S120)하게 된다.
확인 결과, 상기 서비스 모듈은 일정시간동안 예를 들어, 1분 동안 상기 드라이버 모듈로부터 얼라이브 메시지(Alive Message)를 수신하지 못하게 되면 FW Reset CMD 커맨드를 상기 드라이버 모듈로 전송(S130)하게 된다.
이에 따라, 상기 드라이버 모듈은 상기 서비스 모듈로부터 FW Reset CMD 커 맨드를 전송받게 되면 FW 모듈을 리셋(Reset)시킨 후, 다시 서비스 모듈로 FW Reset Message를 전송하게 된다.
이어서, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.
이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.
이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.
이에 따라, 경보음 모듈에서는 상기 AP 모듈로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 되며, 시스템 관리자는 발생된 경보음(Alarm)을 듣고 멀티 프로세서 모듈에서의 진단 및 에러 로깅을 할 수 있게 된다.
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.
본 발명에 따르면, 멀티 프로세서 모듈의 각 모듈간 감시를 통하여 특정 모듈에 이상이 생기는 경우 해당 모듈만 리셋(Reset)시킨 후 리셋 정보를 상위로 전송함으로써, 시스템이 에러 상태(Error State)로 빠지는 경우 없이 다음 서비스를 정상적으로 수행할 수 있는 효과가 있다.

Claims (13)

  1. 멀티 프로세서간 진단 및 에러 로깅 시스템에 있어서,
    상기 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과,
    상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  2. 제 1항에 있어서,
    상기 오류검출모듈은,
    상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  3. 제 1항에 있어서,
    상기 오류검출모듈은,
    상기 하위 계층의 모듈로부터 전송되는 얼라이브 메시지(Alive Message)를 일정 시간동안 수신하지 못한 경우, 상기 상위 계층 모듈의 명령에 따라 상기 하위 계층의 모듈을 리셋시킨 후, 리셋 메시지를 상기 상위 계층의 모듈로 전송하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  4. 제 1항에 있어서,
    상기 오류검출모듈은,
    상기 멀티 프로세서 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  5. 제 1항에 있어서,
    상기 알람정보 생성모듈의 동작 상태를 실시간으로 체크하여 다운된 상태인 경우, 상기 알람정보 생성모듈을 재실행시키고 알람정보 메시지를 생성하는 시스템 모니터링 모듈을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  6. 제 5항에 있어서,
    상기 알람정보 생성모듈이나 시스템 모니터링 모듈로부터 생성된 알람정보를 전송받는 경우, 경보음(Alarm)을 발생시키는 경보음 모듈을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.
  7. 멀티 프로세서간 진단 및 에러 로깅 방법에 있어서,
    멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅하는 제 1과정과,
    상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과,
    상기 하위 계층 모듈의 재부팅 메시지를 상위 계층의 모듈로 전송하는 제 3과정과,
    상기 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  8. 제 7항에 있어서,
    상기 제 1과정에서,
    상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  9. 제 7항에 있어서,
    상기 제 1과정에서,
    상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  10. 제 7항에 있어서,
    상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  11. 멀티 프로세서간 진단 및 에러 로깅 방법에 있어서,
    상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 상기 하위 계층 모듈을 리셋시키는 제 1과정과,
    상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과,
    상기 하위 계층 모듈의 리셋 메시지를 상위 계층의 모듈로 전송하는 제 3과정과,
    상기 하위 계층 모듈의 리셋 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  12. 제 11항에 있어서,
    상기 제 1과정에서,
    상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
  13. 제 11항에 있어서,
    상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.
KR1020050048595A 2005-06-07 2005-06-07 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법 KR100676462B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050048595A KR100676462B1 (ko) 2005-06-07 2005-06-07 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050048595A KR100676462B1 (ko) 2005-06-07 2005-06-07 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20060127545A true KR20060127545A (ko) 2006-12-13
KR100676462B1 KR100676462B1 (ko) 2007-01-30

Family

ID=37730590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050048595A KR100676462B1 (ko) 2005-06-07 2005-06-07 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100676462B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101017296B1 (ko) * 2008-06-02 2011-02-28 후지쯔 가부시끼가이샤 정보 처리 장치, 에러 통지 프로그램, 에러 통지 방법
KR101673865B1 (ko) * 2016-02-05 2016-11-08 (주)서울기전 통합 모듈형 버스정보 안내 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000044391A (ko) * 1998-12-30 2000-07-15 윤종용 마이크로 프로세서에서 소프트웨어 오류 기록 및 출력방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101017296B1 (ko) * 2008-06-02 2011-02-28 후지쯔 가부시끼가이샤 정보 처리 장치, 에러 통지 프로그램, 에러 통지 방법
KR101673865B1 (ko) * 2016-02-05 2016-11-08 (주)서울기전 통합 모듈형 버스정보 안내 시스템

Also Published As

Publication number Publication date
KR100676462B1 (ko) 2007-01-30

Similar Documents

Publication Publication Date Title
US7424666B2 (en) Method and apparatus to detect/manage faults in a system
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
US6425094B1 (en) Diagnostic cage for testing redundant system controllers
US20070088988A1 (en) System and method for logging recoverable errors
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
US7672247B2 (en) Evaluating data processing system health using an I/O device
US20150220411A1 (en) System and method for operating system agnostic hardware validation
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
US7877643B2 (en) Method, system, and product for providing extended error handling capability in host bridges
US20030221141A1 (en) Software-based watchdog method and apparatus
US7281171B2 (en) System and method of checking a computer system for proper operation
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
KR100676462B1 (ko) 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법
US20080216057A1 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
JP4495248B2 (ja) 情報処理装置、障害処理方法
US20140164650A1 (en) System, method and computer program product for monitoring and alerting the health of sub-system connectors
RU2710288C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
US20060230196A1 (en) Monitoring system and method using system management interrupt
US11797368B2 (en) Attributing errors to input/output peripheral drivers
KR102221436B1 (ko) 컴퓨터 프로그램 자동 실행 방법
CN109101353B (zh) 一种电子设备部件的特性检测方法和电子设备
KR20240143256A (ko) 컨테이너 기반의 가상화 플랫폼을 모니터링하는 컴퓨팅 장치의 장애 대응 방법 및 이를 이용하는 컴퓨팅 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140103

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141231

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151228

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee