KR100676462B1 - Diagnosis among multi-processors and error logging system and method - Google Patents
Diagnosis among multi-processors and error logging system and method Download PDFInfo
- Publication number
- KR100676462B1 KR100676462B1 KR1020050048595A KR20050048595A KR100676462B1 KR 100676462 B1 KR100676462 B1 KR 100676462B1 KR 1020050048595 A KR1020050048595 A KR 1020050048595A KR 20050048595 A KR20050048595 A KR 20050048595A KR 100676462 B1 KR100676462 B1 KR 100676462B1
- Authority
- KR
- South Korea
- Prior art keywords
- module
- error
- lower layer
- message
- processor
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
본 발명은 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 본 발명에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.The present invention provides a multi-processor diagnosis for detecting an error when a system checks a running state of each module in a hierarchical structure such as DSP / FW / Device Driver / Service / DLL / AP. The present invention relates to an error logging system and a method thereof. According to the present invention, when an error occurs in a module of a lower layer of a multiprocessor, a module of the lower layer in which the error occurs is detected and rebooted, and a reboot message is generated. An error detection module for transmitting to the module, and the alarm information generating module for generating an alarm information message after clearing the error occurrence channel when receiving a reboot message from the error detection module.
PC, 서버, 멀티 프로세서, 에러 로깅, 디버깅 PC, Server, Multiprocessor, Error Logging, Debugging
Description
도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면.1 is a diagram showing the configuration of a multi-processor diagnostic and error logging system according to the present invention.
도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 일예를 나타내는 도면.2 is a diagram illustrating an example of a diagnostic and error logging flow between multi-processors according to the present invention.
도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 다른 예를 나타내는 도면.3 is a diagram illustrating another example of a diagnostic and error logging flow between multi-processors according to the present invention.
* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings
10 : HW 모듈 20 : FW 모듈10: HW module 20: FW module
30 : 장치 드라이버 모듈 40 : 서비스 모듈30: device driver module 40: service module
50 : DLL 모듈 60 : AP 모듈50: DLL module 60: AP module
70 : AP 모니터링 모듈 80 : 경보음 모듈70: AP monitoring module 80: alarm sound module
본 발명은 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것이다.The present invention relates to a multi-processor diagnostic and error logging system and method thereof, and more particularly, a system in which a system is running in a hierarchical structure such as DSP / FW / Device Driver / Service / DLL / AP. The present invention relates to a multi-processor diagnostic and error logging system and method for detecting an error when there is an error.
일반적으로 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)된다.In general, when an error occurs in one of the running modules in a hierarchical system such as DSP / FW / Device Driver / Service / DLL / AP, the entire system is down.
만약, DSP(Digital Signal Processor)가 죽은 경우 상위 계층의 모듈인 FW(Firmware)가 체크(check)하지 않고 계속 프로세서(Processor)를 진행시키게 되면 기능 오류 및 버스 에러(Bus Error)를 일으켜 시스템 전체가 다운(Down)된다.If the DSP (Digital Signal Processor) is dead, if the upper layer module FW (Firmware) does not check and proceeds to the processor, it causes a functional error and a bus error, causing the entire system to fail. Down.
따라서, 상위 계층의 모듈에서 하위 계층의 러닝(Running) 상태를 주기적으로 체크(check)하며, 하위 계층의 모듈은 주기적인 진단 메시지(Message)를 상위 계층의 모듈로 전송하여 러닝(Running) 상태를 알려주는 안정된 시스템이 요구되고 있는 실정이다.Therefore, the module of the upper layer periodically checks the running state of the lower layer, and the module of the lower layer sends the periodic diagnostic message to the module of the upper layer to check the running state. There is a need for a stable system.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)되는 현상을 방지하고, 필요시 에러 로깅(Error Logging)을 남겨 디버깅(Debbuging)을 할 수 있도록 한 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법을 제공함에 있다.An object of the present invention for solving the above problems is, when an error occurs in one of the modules (Running) in a hierarchical system such as DSP / FW / Device Driver / Service / DLL / AP, the entire system is down The present invention provides a multi-processor diagnostic and error logging system and a method for preventing a down phenomenon and allowing debugging by leaving error logging when necessary.
상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.According to an aspect of the multi-processor diagnostic and error logging system according to the present invention for achieving the above object, when an error occurs in the module of the lower layer of the multi-processor, the module of the lower layer in which the error occurs By rebooting, and the error detection module for transmitting the reboot message to the module of the upper layer, and when receiving the reboot message from the error detection module, generating alarm information message after clearing the error occurrence channel (clear) Contains modules
상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.The error detecting module diagnoses an error generating module when the count value incremented from the lower layer module does not change for a predetermined time.
상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 전송되는 얼라이브 메시지(Alive Message)를 일정 시간동안 수신하지 못한 경우, 상기 상위 계층 모듈의 명령에 따라 상기 하위 계층의 모듈을 리셋시킨 후, 리셋 메시지를 상기 상위 계층의 모듈로 전송한다.If the error detection module does not receive an Alive message transmitted from the lower layer module for a predetermined time, the error detection module resets the lower layer module according to a command of the upper layer module and then resets the reset message. Transmit to the higher layer module.
상기 오류검출모듈은, 상기 멀티 프로세서 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장한다.The error detection module stores error logging information about an error generated from a module of each layer of the multiprocessor.
상기 알람정보 생성모듈의 동작 상태를 실시간으로 체크하여 다운된 상태인 경우, 상기 알람정보 생성모듈을 재실행시키고 알람정보 메시지를 생성하는 시스템 모니터링 모듈을 더 포함한다.The system may further include a system monitoring module which re-executes the alarm information generating module and generates an alarm information message when the operating state of the alarm information generating module is down in real time.
상기 알람정보 생성모듈이나 시스템 모니터링 모듈로부터 생성된 알람정보를 전송받는 경우, 경보음(Alarm)을 발생시키는 경보음 모듈을 더 포함한다.When receiving the alarm information generated from the alarm information generation module or the system monitoring module, further comprises an alarm sound module for generating an alarm (Alarm).
한편, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅하는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 재부팅 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.On the other hand, according to an aspect of the multi-processor diagnostic and error logging method according to the present invention for achieving the above object, when an error occurs in the module of the lower layer of the multi-processor, the module of the lower layer in which the error occurs A first process of detecting and rebooting a second process, a second process of clearing error-producing channels of the lower layer module, a third process of transmitting a reboot message of the lower layer module to a higher layer module, and In the case where the reboot message is received, a fourth process of generating an alarm information message after clearing the error occurrence channel is cleared.
상기 제 1과정에서, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.In the first step, if the count value incremented from the lower layer module does not change for a predetermined time, the module generates an error.
상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.In the first process, if an Alive message is not transmitted from the lower layer module of the multi-processor for a predetermined time, the error generation module is diagnosed.
상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.The method may further include generating an alarm by receiving the alarm information message generated in the fourth process.
또한, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 상기 하위 계층 모듈을 리셋시키는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 리셋 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 하위 계층 모듈의 리셋 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.In addition, according to an aspect of the multi-processor diagnostic and error logging method according to the present invention for achieving the above object, when the Alive message (Alive Message) is not transmitted for a predetermined time from the lower layer module of the multi-processor, A first process of resetting the lower layer module, a second process of clearing error-producing channels of the lower layer module, a third process of transmitting a reset message of the lower layer module to a higher layer module, and And a fourth process of generating an alarm information message after clearing an error occurrence channel when receiving a reset message of the lower layer module.
상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.In the first process, if an Alive message is not transmitted from the lower layer module of the multi-processor for a predetermined time, the error generation module is diagnosed.
상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.The method may further include generating an alarm by receiving the alarm information message generated in the fourth process.
이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 참조번호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다. 하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, detailed descriptions of preferred embodiments of the present invention will be described with reference to the accompanying drawings. It should be noted that reference numerals and like elements among the drawings are denoted by the same reference numerals and symbols as much as possible even though they are shown in different drawings. In the following description of the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.
도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면이다.1 is a view showing the configuration of a multi-processor diagnostic and error logging system according to the present invention.
도 1에 도시된 바와 같이, 본 발명의 시스템은 하드웨어 모듈(HardWare module, 이하 "HW 모듈" 라 칭함)(10)과, 펌웨어 모듈(FirmWare module, 이하 "FW 모듈" 라 칭함)(20)과, 장치 드라이버 모듈(Device Driver module)(30)과, 서비스 모듈(Service module)(40)과, DLL(Dynamic Llink Library) 모듈(50)과, 어플리케이션 모듈(Application module, 이하 "AP 모듈" 라 칭함)(60)과, 어플리케이션 모니터링 모듈(Application monitoring module)(70) 및 경보음 모듈(80)을 포함하여 구성된다.As shown in FIG. 1, the system of the present invention includes a hardware module (HardWare module, hereinafter referred to as "HW module") 10, a firmware module (hereinafter referred to as "FW module") 20, , A
HW 모듈(10)은 PC나 서버내에 설치되는 하드웨어 장치로서, 다양한 기능을 수행하는 보드(Board) 등이 포함되어질 수 있다.The
FW 모듈(20)은 상기 PC나 서버내에 설치되는 하드웨어 장치들을 제어하기 위한 모듈로서, 상기 HW 모듈(10)과 통신을 수행할 뿐만 아니라, 상위층의 장치 드라이버 모듈(Device Driver module)(30)과도 통신을 수행하게 된다.The
특히, FW 모듈(20)은 디지털 신호처리장치(Digital Signal Processor: DSP)(21)를 포함한다.In particular, the FW
장치 드라이버 모듈(Device Driver module)(30)은 상기 PC나 서버내에 장착되는 장치들을 상기 서비스 모듈(Service module)(40)이 인식할 수 있도록 하는 모듈로서, 하위층의 FW 모듈(20)과 통신을 수행할 뿐만 아니라 상위층의 서비스 모듈 (Service module)(40)과도 통신을 수행하게 된다.The
서비스 모듈(Service module)(40)은 상기 PC나 서버내에 설치되는 서비스 프로그램이 저장되는 모듈로서, 서비스 프로그램으로는 예를 들면, 윈도우즈(Windows)나 리눅스(Rinux), 유닉스(Unix), 솔라리스(Solaris) 등의 OS 프로그램이 여기에 속하게 된다.The
이와 같은 서비스 모듈(Service module)(40) 역시 하위층의 장치 드라이버 모듈(Device Driver module)(30)과 통신하며, 상위층의 DLL(Dynamic Llink Library) 모듈(50)과도 통신을 수행하게 된다.The
특히, 이러한 서비스 모듈(Service module)(40)은 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장하게 된다.In particular, such a
DLL(Dynamic Llink Library) 모듈(50)은 작은 프로그램들의 집합으로서, PC나 서버 내에서 실행되고 있는 큰 프로그램에서 필요로 할 때 호출되어 특정한 기능을 수행하게 된다.The DLL (Dynamic Llink Library)
이와 같은, DLL(Dynamic Llink Library) 모듈(50) 역시 하위층의 서비스 모듈(Service module)(40)과 통신하며, 상위층의 AP 모듈(60)과도 통신을 수행하게 된다.As such, the DLL (Dynamic Llink Library)
AP 모듈(60)은 사용자에 의해 호출되어 사용되는 응용 프로그램으로서, 다양한 어플리케이션이 이에 속하며, 하위층의 DLL(Dynamic Llink Library) 모듈(50)과 통신하게 된다.The
AP 모니터링 모듈(Application monitoring module)(70)은 상기 AP 모듈(60) 의 상태를 감시하기 위한 모듈로서, 상기 AP 모듈(60)의 러닝(Running) 상태를 모니터링한 결과 오류로 인하여 AP 모듈(60)이 다운(Down)된 경우, AP 모듈(60)을 리부팅(Rebooting)하여 재실행시키게 된다.Application monitoring module (70) is a module for monitoring the state of the
경보음 모듈(80)은 상기 AP 모니터링 모듈(Application monitoring module)(70)로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 된다.The
이에 따라, 시스템 관리자는 상기 경보음 모듈(80)로부터 발생된 경보음을 듣고 멀티 프로세서 모듈에서의 오류 추적을 할 수 있게 된다.Accordingly, the system administrator can listen to the alarm sound generated from the
도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 DSP 모듈로부터 오류가 발생한 경우 FW 모듈과 DSP 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.FIG. 2 is a diagram illustrating a diagnosis and error logging flow between multi-processors according to the present invention. In particular, FIG. 2 illustrates a diagnosis and error logging method between an FW module and a DSP when an error occurs from a DSP module. Let's explain.
도 2에 도시된 바와 같이, 먼저, DSP는 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하게 된다.As shown in FIG. 2, first, the DSP periodically increments a count in a status register S10.
이에 따라, FW 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.Accordingly, the FW module checks whether the count changes for a predetermined time (S20).
확인 결과, FW 모듈은 일정 시간동안 예를 들어, 1초 동안 카운트(Count)가 바뀌지 않으면 DSP를 리부팅(Rebooting)(S30)하여 재시작될 수 있도록 한다.As a result of the check, the FW module may reboot the DSP by rebooting (S30) if the count does not change for a certain time, for example, for 1 second.
이어서, FW 모듈은 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S40)시키고, DSP Reboot Message를 장치 드라이버 모듈로 전송(S50)하게 된다.Subsequently, the FW module clears the corresponding CHs (16CH per DSP) (S40) and transmits a DSP Reboot message to the device driver module (S50).
이에 따라, 상기 장치 드라이버 모듈은 상기 FW 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S60)시키고, DSP Reboot Message를 서비스 모듈로 전송(S70)하게 된다.Accordingly, when the device driver module receives the DSP Reboot message from the FW module, the device driver module clears the corresponding CHs (16CH per DSP) (S60), and transmits the DSP Reboot message to the service module (S70). Done.
이에 따라, 서비스 모듈 역시 상기 드라이버 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S80)시키고, DSP Reboot Message를 DLL 모듈로 전송(S90)하게 된다.Accordingly, when the service module also receives the DSP Reboot Message from the driver module, the corresponding CHs (16CH per DSP) are cleared (S80), and the DSP Reboot Message is transmitted to the DLL module (S90). .
이어서, DLL 모듈은 상기 서비스 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)시키고(S100), DSP Reboot Message를 AP 모듈로 전송(S110)하게 된다.Subsequently, when receiving the DSP Reboot Message from the service module, the DLL module clears the corresponding CHs (16CH per DSP) (S100) and transmits the DSP Reboot Message to the AP module (S110).
이어서, AP 모듈은 상기 DLL 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S120)시킨 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S130)하게 된다.Subsequently, when the AP module receives the DSP Reboot message from the DLL module, the AP module clears the corresponding CHs (16CH per DSP) (S120), and then transmits alarm information to the alarm sound module. S130).
도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 FW 모듈로부터 오류가 발생한 경우 FW 모듈과 드라이버 모듈 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.3 is a diagram illustrating a diagnostic and error logging flow between multi-processors according to the present invention. In particular, FIG. 3 is a diagram illustrating a diagnostic and error logging method between an FW module and a driver module when an error occurs from an FW module. This will be explained.
도 3에 도시된 바와 같이, 먼저, FW 모듈은 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하고, 20초 주기로 얼라이브 메시지(Alive Message)를 상위층의 드라이버 모듈로 전송하게 된다.As shown in FIG. 3, first, the FW module periodically increases the count in the Status Register (S10), and transmits an Alive message to the upper layer driver module every 20 seconds. do.
이에 따라, 드라이버 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.Accordingly, the driver module checks whether the count changes for a predetermined time (S20).
확인 결과, 드라이버 모듈은 일정 시간동안 예를 들어 30초 동안 카운트(Count)가 바뀌지 않으면 FW 모듈을 리셋(Reset)(S30)시킨 후, 해당 CH들(해당 보드)을 클리어(Clear)(S40)하고, 상위층의 서비스 모듈로 FW Reset Message를 전송(S50)하게 된다.As a result of the check, the driver module resets the FW module (S30) if the count does not change for a predetermined time, for example, 30 seconds, and then clears the corresponding CHs (the corresponding board) (Clear) (S40). Then, the FW Reset Message is transmitted to the service module of the higher layer (S50).
이에 따라, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.Accordingly, when receiving the FW Reset Message from the driver module, the service module clears the corresponding CHs (the corresponding boards) (S60), and transmits the FW Reset message to the DLL module of the upper layer (S70). .
이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.Subsequently, when receiving the FW Reset Message from the service module, the DLL module clears the corresponding CHs (the corresponding boards) (S80) and transmits the FW Reset Message to the upper layer AP module (S90).
이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.Subsequently, when the AP module receives the FW Reset Message from the DLL module, after clearing the corresponding CHs (the corresponding boards) (S100), the AP module transmits alarm information to the alarm sound module (S110). Done.
한편, 상기 카운트가 변경되었는지 확인하는 S20 과정에서, 만약 정상적으로 카운트가 변경된 경우, 상기 서비스 모듈은 상기 FW 모듈로부터 전송되어지는 얼라이브 메시지(Alive Message)의 수신 여부를 확인(S120)하게 된다.On the other hand, in step S20 of checking whether the count has been changed, if the count is normally changed, the service module checks whether or not to receive an Alive message transmitted from the FW module (S120).
확인 결과, 상기 서비스 모듈은 일정시간동안 예를 들어, 1분 동안 상기 드라이버 모듈로부터 얼라이브 메시지(Alive Message)를 수신하지 못하게 되면 FW Reset CMD 커맨드를 상기 드라이버 모듈로 전송(S130)하게 된다.As a result of the check, the service module transmits an FW Reset CMD command to the driver module (S130) if it fails to receive an Alive Message from the driver module for a certain time, for example, for one minute.
이에 따라, 상기 드라이버 모듈은 상기 서비스 모듈로부터 FW Reset CMD 커 맨드를 전송받게 되면 FW 모듈을 리셋(Reset)시킨 후, 다시 서비스 모듈로 FW Reset Message를 전송하게 된다.Accordingly, when the driver module receives the FW Reset CMD command from the service module, the driver module resets the FW module and transmits the FW Reset message to the service module again.
이어서, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.Subsequently, when the FW Reset Message is received from the driver module, the service module clears the corresponding CHs (the corresponding boards) (S60) and transmits the FW Reset Message to the upper level DLL module (S70).
이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.Subsequently, when receiving the FW Reset Message from the service module, the DLL module clears the corresponding CHs (the corresponding boards) (S80) and transmits the FW Reset Message to the upper layer AP module (S90).
이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.Subsequently, when the AP module receives the FW Reset Message from the DLL module, after clearing the corresponding CHs (the corresponding boards) (S100), the AP module transmits alarm information to the alarm sound module (S110). Done.
이에 따라, 경보음 모듈에서는 상기 AP 모듈로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 되며, 시스템 관리자는 발생된 경보음(Alarm)을 듣고 멀티 프로세서 모듈에서의 진단 및 에러 로깅을 할 수 있게 된다.Accordingly, the alarm sound module generates an alarm when alarm information is transmitted from the AP module, and the system manager listens to the generated alarm sound and diagnoses the error in the multiprocessor module. Error logging is enabled.
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.In the above, specific preferred embodiments of the present invention have been illustrated and described. However, the present invention is not limited to the above-described embodiment, and various modifications can be made by any person having ordinary skill in the art without departing from the gist of the present invention attached to the claims. will be.
본 발명에 따르면, 멀티 프로세서 모듈의 각 모듈간 감시를 통하여 특정 모듈에 이상이 생기는 경우 해당 모듈만 리셋(Reset)시킨 후 리셋 정보를 상위로 전송함으로써, 시스템이 에러 상태(Error State)로 빠지는 경우 없이 다음 서비스를 정상적으로 수행할 수 있는 효과가 있다.According to the present invention, when an abnormality occurs in a specific module through monitoring of each module of a multiprocessor module, the system falls into an error state by resetting only the corresponding module and transmitting reset information to a higher level. The following services can be normally executed without.
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050048595A KR100676462B1 (en) | 2005-06-07 | 2005-06-07 | Diagnosis among multi-processors and error logging system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050048595A KR100676462B1 (en) | 2005-06-07 | 2005-06-07 | Diagnosis among multi-processors and error logging system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060127545A KR20060127545A (en) | 2006-12-13 |
KR100676462B1 true KR100676462B1 (en) | 2007-01-30 |
Family
ID=37730590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050048595A KR100676462B1 (en) | 2005-06-07 | 2005-06-07 | Diagnosis among multi-processors and error logging system and method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100676462B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5141381B2 (en) * | 2008-06-02 | 2013-02-13 | 富士通株式会社 | Information processing apparatus, error notification program, and error notification method |
KR101673865B1 (en) * | 2016-02-05 | 2016-11-08 | (주)서울기전 | Integrated and Economical Module Type Bus Information Terminal System |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000044391A (en) * | 1998-12-30 | 2000-07-15 | 윤종용 | Recording and output method for microprocessor's software error |
-
2005
- 2005-06-07 KR KR1020050048595A patent/KR100676462B1/en not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000044391A (en) * | 1998-12-30 | 2000-07-15 | 윤종용 | Recording and output method for microprocessor's software error |
Also Published As
Publication number | Publication date |
---|---|
KR20060127545A (en) | 2006-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7424666B2 (en) | Method and apparatus to detect/manage faults in a system | |
US6425094B1 (en) | Diagnostic cage for testing redundant system controllers | |
US7756048B2 (en) | Method and apparatus for customizable surveillance of network interfaces | |
US20070088988A1 (en) | System and method for logging recoverable errors | |
WO2017063505A1 (en) | Method for detecting hardware fault of server, apparatus thereof, and server | |
US20070260910A1 (en) | Method and apparatus for propagating physical device link status to virtual devices | |
US20150220411A1 (en) | System and method for operating system agnostic hardware validation | |
US7672247B2 (en) | Evaluating data processing system health using an I/O device | |
JP2002278848A (en) | Method, apparatus, and program for cache threshold processing for predictively reporting fault of array bit line or driver | |
US8977889B2 (en) | Method for increasing reliability in monitoring systems | |
US7318171B2 (en) | Policy-based response to system errors occurring during OS runtime | |
US7877643B2 (en) | Method, system, and product for providing extended error handling capability in host bridges | |
US20170344420A1 (en) | Discovery and Remediation of a Device via a Peer Device | |
US10102088B2 (en) | Cluster system, server device, cluster system management method, and computer-readable recording medium | |
US7281171B2 (en) | System and method of checking a computer system for proper operation | |
KR100676462B1 (en) | Diagnosis among multi-processors and error logging system and method | |
US20050033952A1 (en) | Dynamic scheduling of diagnostic tests to be performed during a system boot process | |
JP2011145208A (en) | Substrate | |
CN109828855B (en) | Multiprocessor error detection system and method thereof | |
CN101458624A (en) | Loading method of programmable logic device, processor and apparatus | |
JP2007028118A (en) | Failure judging method of node device | |
JP4495248B2 (en) | Information processing apparatus and failure processing method | |
JP6217086B2 (en) | Information processing apparatus, error detection function diagnosis method, and computer program | |
US20150127996A1 (en) | Information processing apparatus and method for monitoring device | |
US11797368B2 (en) | Attributing errors to input/output peripheral drivers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130103 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140103 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20141231 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20151228 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |