KR100676462B1 - Diagnosis among multi-processors and error logging system and method - Google Patents

Diagnosis among multi-processors and error logging system and method Download PDF

Info

Publication number
KR100676462B1
KR100676462B1 KR1020050048595A KR20050048595A KR100676462B1 KR 100676462 B1 KR100676462 B1 KR 100676462B1 KR 1020050048595 A KR1020050048595 A KR 1020050048595A KR 20050048595 A KR20050048595 A KR 20050048595A KR 100676462 B1 KR100676462 B1 KR 100676462B1
Authority
KR
South Korea
Prior art keywords
module
error
lower layer
message
processor
Prior art date
Application number
KR1020050048595A
Other languages
Korean (ko)
Other versions
KR20060127545A (en
Inventor
박승원
Original Assignee
서울통신기술 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울통신기술 주식회사 filed Critical 서울통신기술 주식회사
Priority to KR1020050048595A priority Critical patent/KR100676462B1/en
Publication of KR20060127545A publication Critical patent/KR20060127545A/en
Application granted granted Critical
Publication of KR100676462B1 publication Critical patent/KR100676462B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 본 발명에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.The present invention provides a multi-processor diagnosis for detecting an error when a system checks a running state of each module in a hierarchical structure such as DSP / FW / Device Driver / Service / DLL / AP. The present invention relates to an error logging system and a method thereof. According to the present invention, when an error occurs in a module of a lower layer of a multiprocessor, a module of the lower layer in which the error occurs is detected and rebooted, and a reboot message is generated. An error detection module for transmitting to the module, and the alarm information generating module for generating an alarm information message after clearing the error occurrence channel when receiving a reboot message from the error detection module.

PC, 서버, 멀티 프로세서, 에러 로깅, 디버깅 PC, Server, Multiprocessor, Error Logging, Debugging

Description

멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법{DIAGNOSIS AMONG MULTI-PROCESSORS AND ERROR LOGGING SYSTEM AND METHOD}DIAGNOSIS AMONG MULTI-PROCESSORS AND ERROR LOGGING SYSTEM AND METHOD}

도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면.1 is a diagram showing the configuration of a multi-processor diagnostic and error logging system according to the present invention.

도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 일예를 나타내는 도면.2 is a diagram illustrating an example of a diagnostic and error logging flow between multi-processors according to the present invention.

도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)의 다른 예를 나타내는 도면.3 is a diagram illustrating another example of a diagnostic and error logging flow between multi-processors according to the present invention.

* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

10 : HW 모듈 20 : FW 모듈10: HW module 20: FW module

30 : 장치 드라이버 모듈 40 : 서비스 모듈30: device driver module 40: service module

50 : DLL 모듈 60 : AP 모듈50: DLL module 60: AP module

70 : AP 모니터링 모듈 80 : 경보음 모듈70: AP monitoring module 80: alarm sound module

본 발명은 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 시스템이 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조에서 각 모듈별 러닝(Running) 상태를 체크(check)하여 오류가 있을 때 오류를 검출하는 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법에 관한 것이다.The present invention relates to a multi-processor diagnostic and error logging system and method thereof, and more particularly, a system in which a system is running in a hierarchical structure such as DSP / FW / Device Driver / Service / DLL / AP. The present invention relates to a multi-processor diagnostic and error logging system and method for detecting an error when there is an error.

일반적으로 DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)된다.In general, when an error occurs in one of the running modules in a hierarchical system such as DSP / FW / Device Driver / Service / DLL / AP, the entire system is down.

만약, DSP(Digital Signal Processor)가 죽은 경우 상위 계층의 모듈인 FW(Firmware)가 체크(check)하지 않고 계속 프로세서(Processor)를 진행시키게 되면 기능 오류 및 버스 에러(Bus Error)를 일으켜 시스템 전체가 다운(Down)된다.If the DSP (Digital Signal Processor) is dead, if the upper layer module FW (Firmware) does not check and proceeds to the processor, it causes a functional error and a bus error, causing the entire system to fail. Down.

따라서, 상위 계층의 모듈에서 하위 계층의 러닝(Running) 상태를 주기적으로 체크(check)하며, 하위 계층의 모듈은 주기적인 진단 메시지(Message)를 상위 계층의 모듈로 전송하여 러닝(Running) 상태를 알려주는 안정된 시스템이 요구되고 있는 실정이다.Therefore, the module of the upper layer periodically checks the running state of the lower layer, and the module of the lower layer sends the periodic diagnostic message to the module of the upper layer to check the running state. There is a need for a stable system.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, DSP/FW/Device Driver/Service/DLL/AP 등과 같은 계층적 구조의 시스템에서 러닝(Running) 중 한 모듈에서 오류가 발생하면 시스템 전체가 다운(Down)되는 현상을 방지하고, 필요시 에러 로깅(Error Logging)을 남겨 디버깅(Debbuging)을 할 수 있도록 한 멀티 프로세서간 진단 및 에러 로깅 시스템 및 그 방법을 제공함에 있다.An object of the present invention for solving the above problems is, when an error occurs in one of the modules (Running) in a hierarchical system such as DSP / FW / Device Driver / Service / DLL / AP, the entire system is down The present invention provides a multi-processor diagnostic and error logging system and a method for preventing a down phenomenon and allowing debugging by leaving error logging when necessary.

상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과, 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함한다.According to an aspect of the multi-processor diagnostic and error logging system according to the present invention for achieving the above object, when an error occurs in the module of the lower layer of the multi-processor, the module of the lower layer in which the error occurs By rebooting, and the error detection module for transmitting the reboot message to the module of the upper layer, and when receiving the reboot message from the error detection module, generating alarm information message after clearing the error occurrence channel (clear) Contains modules

상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.The error detecting module diagnoses an error generating module when the count value incremented from the lower layer module does not change for a predetermined time.

상기 오류검출모듈은, 상기 하위 계층의 모듈로부터 전송되는 얼라이브 메시지(Alive Message)를 일정 시간동안 수신하지 못한 경우, 상기 상위 계층 모듈의 명령에 따라 상기 하위 계층의 모듈을 리셋시킨 후, 리셋 메시지를 상기 상위 계층의 모듈로 전송한다.If the error detection module does not receive an Alive message transmitted from the lower layer module for a predetermined time, the error detection module resets the lower layer module according to a command of the upper layer module and then resets the reset message. Transmit to the higher layer module.

상기 오류검출모듈은, 상기 멀티 프로세서 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장한다.The error detection module stores error logging information about an error generated from a module of each layer of the multiprocessor.

상기 알람정보 생성모듈의 동작 상태를 실시간으로 체크하여 다운된 상태인 경우, 상기 알람정보 생성모듈을 재실행시키고 알람정보 메시지를 생성하는 시스템 모니터링 모듈을 더 포함한다.The system may further include a system monitoring module which re-executes the alarm information generating module and generates an alarm information message when the operating state of the alarm information generating module is down in real time.

상기 알람정보 생성모듈이나 시스템 모니터링 모듈로부터 생성된 알람정보를 전송받는 경우, 경보음(Alarm)을 발생시키는 경보음 모듈을 더 포함한다.When receiving the alarm information generated from the alarm information generation module or the system monitoring module, further comprises an alarm sound module for generating an alarm (Alarm).

한편, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅하는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 재부팅 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.On the other hand, according to an aspect of the multi-processor diagnostic and error logging method according to the present invention for achieving the above object, when an error occurs in the module of the lower layer of the multi-processor, the module of the lower layer in which the error occurs A first process of detecting and rebooting a second process, a second process of clearing error-producing channels of the lower layer module, a third process of transmitting a reboot message of the lower layer module to a higher layer module, and In the case where the reboot message is received, a fourth process of generating an alarm information message after clearing the error occurrence channel is cleared.

상기 제 1과정에서, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단한다.In the first step, if the count value incremented from the lower layer module does not change for a predetermined time, the module generates an error.

상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.In the first process, if an Alive message is not transmitted from the lower layer module of the multi-processor for a predetermined time, the error generation module is diagnosed.

상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.The method may further include generating an alarm by receiving the alarm information message generated in the fourth process.

또한, 상기한 목적을 달성하기 위한 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 방법의 일 측면에 따르면, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 상기 하위 계층 모듈을 리셋시키는 제 1과정과, 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과, 상기 하위 계층 모듈의 리셋 메시지를 상위 계층의 모듈로 전송하는 제 3과정과, 상기 하위 계층 모듈의 리셋 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함한다.In addition, according to an aspect of the multi-processor diagnostic and error logging method according to the present invention for achieving the above object, when the Alive message (Alive Message) is not transmitted for a predetermined time from the lower layer module of the multi-processor, A first process of resetting the lower layer module, a second process of clearing error-producing channels of the lower layer module, a third process of transmitting a reset message of the lower layer module to a higher layer module, and And a fourth process of generating an alarm information message after clearing an error occurrence channel when receiving a reset message of the lower layer module.

상기 제 1과정에서, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단한다.In the first process, if an Alive message is not transmitted from the lower layer module of the multi-processor for a predetermined time, the error generation module is diagnosed.

상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함한다.The method may further include generating an alarm by receiving the alarm information message generated in the fourth process.

이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 참조번호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다. 하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, detailed descriptions of preferred embodiments of the present invention will be described with reference to the accompanying drawings. It should be noted that reference numerals and like elements among the drawings are denoted by the same reference numerals and symbols as much as possible even though they are shown in different drawings. In the following description of the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.

도 1은 본 발명에 따른 멀티 프로세서간 진단 및 에러 로깅 시스템의 구성을 나타내는 도면이다.1 is a view showing the configuration of a multi-processor diagnostic and error logging system according to the present invention.

도 1에 도시된 바와 같이, 본 발명의 시스템은 하드웨어 모듈(HardWare module, 이하 "HW 모듈" 라 칭함)(10)과, 펌웨어 모듈(FirmWare module, 이하 "FW 모듈" 라 칭함)(20)과, 장치 드라이버 모듈(Device Driver module)(30)과, 서비스 모듈(Service module)(40)과, DLL(Dynamic Llink Library) 모듈(50)과, 어플리케이션 모듈(Application module, 이하 "AP 모듈" 라 칭함)(60)과, 어플리케이션 모니터링 모듈(Application monitoring module)(70) 및 경보음 모듈(80)을 포함하여 구성된다.As shown in FIG. 1, the system of the present invention includes a hardware module (HardWare module, hereinafter referred to as "HW module") 10, a firmware module (hereinafter referred to as "FW module") 20, , A device driver module 30, a service module 40, a dynamic link library (DLL) module 50, an application module (hereinafter referred to as an "AP module"). ), An application monitoring module (70) and an alarm sound module (80).

HW 모듈(10)은 PC나 서버내에 설치되는 하드웨어 장치로서, 다양한 기능을 수행하는 보드(Board) 등이 포함되어질 수 있다.The HW module 10 is a hardware device installed in a PC or a server, and may include a board that performs various functions.

FW 모듈(20)은 상기 PC나 서버내에 설치되는 하드웨어 장치들을 제어하기 위한 모듈로서, 상기 HW 모듈(10)과 통신을 수행할 뿐만 아니라, 상위층의 장치 드라이버 모듈(Device Driver module)(30)과도 통신을 수행하게 된다.The FW module 20 is a module for controlling hardware devices installed in the PC or the server. The FW module 20 not only communicates with the HW module 10 but also has an upper layer Device Driver module 30. Communicate.

특히, FW 모듈(20)은 디지털 신호처리장치(Digital Signal Processor: DSP)(21)를 포함한다.In particular, the FW module 20 includes a digital signal processor (DSP) 21.

장치 드라이버 모듈(Device Driver module)(30)은 상기 PC나 서버내에 장착되는 장치들을 상기 서비스 모듈(Service module)(40)이 인식할 수 있도록 하는 모듈로서, 하위층의 FW 모듈(20)과 통신을 수행할 뿐만 아니라 상위층의 서비스 모듈 (Service module)(40)과도 통신을 수행하게 된다.The device driver module 30 is a module that allows the service module 40 to recognize devices mounted in the PC or the server, and communicates with the lower layer FW module 20. In addition to performing the communication with the service module (Service module) 40 of the upper layer.

서비스 모듈(Service module)(40)은 상기 PC나 서버내에 설치되는 서비스 프로그램이 저장되는 모듈로서, 서비스 프로그램으로는 예를 들면, 윈도우즈(Windows)나 리눅스(Rinux), 유닉스(Unix), 솔라리스(Solaris) 등의 OS 프로그램이 여기에 속하게 된다.The service module 40 is a module in which service programs installed in the PC or server are stored. As a service program, for example, Windows, Linux, Unix, or Solaris OS programs such as Solaris) belong to this category.

이와 같은 서비스 모듈(Service module)(40) 역시 하위층의 장치 드라이버 모듈(Device Driver module)(30)과 통신하며, 상위층의 DLL(Dynamic Llink Library) 모듈(50)과도 통신을 수행하게 된다.The service module 40 also communicates with the device driver module 30 of the lower layer and also communicates with the DLL (Dynamic Llink Library) module 50 of the upper layer.

특히, 이러한 서비스 모듈(Service module)(40)은 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장하게 된다.In particular, such a service module 40 stores error logging information on errors generated from modules of each layer.

DLL(Dynamic Llink Library) 모듈(50)은 작은 프로그램들의 집합으로서, PC나 서버 내에서 실행되고 있는 큰 프로그램에서 필요로 할 때 호출되어 특정한 기능을 수행하게 된다.The DLL (Dynamic Llink Library) module 50 is a set of small programs, and is called when needed by a large program running in a PC or a server to perform a specific function.

이와 같은, DLL(Dynamic Llink Library) 모듈(50) 역시 하위층의 서비스 모듈(Service module)(40)과 통신하며, 상위층의 AP 모듈(60)과도 통신을 수행하게 된다.As such, the DLL (Dynamic Llink Library) module 50 also communicates with the service module 40 of the lower layer and also communicates with the AP module 60 of the upper layer.

AP 모듈(60)은 사용자에 의해 호출되어 사용되는 응용 프로그램으로서, 다양한 어플리케이션이 이에 속하며, 하위층의 DLL(Dynamic Llink Library) 모듈(50)과 통신하게 된다.The AP module 60 is an application program that is called and used by a user, and various applications belong to this, and communicate with the DLL (Dynamic Llink Library) module 50 of the lower layer.

AP 모니터링 모듈(Application monitoring module)(70)은 상기 AP 모듈(60) 의 상태를 감시하기 위한 모듈로서, 상기 AP 모듈(60)의 러닝(Running) 상태를 모니터링한 결과 오류로 인하여 AP 모듈(60)이 다운(Down)된 경우, AP 모듈(60)을 리부팅(Rebooting)하여 재실행시키게 된다.Application monitoring module (70) is a module for monitoring the state of the AP module 60, AP module 60 due to an error as a result of monitoring the running (Running) state of the AP module 60. ) Is down, the AP module 60 is rebooted and then re-executed.

경보음 모듈(80)은 상기 AP 모니터링 모듈(Application monitoring module)(70)로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 된다.The alarm sound module 80 generates an alarm sound when alarm information is transmitted from the AP monitoring module 70.

이에 따라, 시스템 관리자는 상기 경보음 모듈(80)로부터 발생된 경보음을 듣고 멀티 프로세서 모듈에서의 오류 추적을 할 수 있게 된다.Accordingly, the system administrator can listen to the alarm sound generated from the alarm sound module 80 and perform error tracking in the multiprocessor module.

도 2는 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 DSP 모듈로부터 오류가 발생한 경우 FW 모듈과 DSP 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.FIG. 2 is a diagram illustrating a diagnosis and error logging flow between multi-processors according to the present invention. In particular, FIG. 2 illustrates a diagnosis and error logging method between an FW module and a DSP when an error occurs from a DSP module. Let's explain.

도 2에 도시된 바와 같이, 먼저, DSP는 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하게 된다.As shown in FIG. 2, first, the DSP periodically increments a count in a status register S10.

이에 따라, FW 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.Accordingly, the FW module checks whether the count changes for a predetermined time (S20).

확인 결과, FW 모듈은 일정 시간동안 예를 들어, 1초 동안 카운트(Count)가 바뀌지 않으면 DSP를 리부팅(Rebooting)(S30)하여 재시작될 수 있도록 한다.As a result of the check, the FW module may reboot the DSP by rebooting (S30) if the count does not change for a certain time, for example, for 1 second.

이어서, FW 모듈은 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S40)시키고, DSP Reboot Message를 장치 드라이버 모듈로 전송(S50)하게 된다.Subsequently, the FW module clears the corresponding CHs (16CH per DSP) (S40) and transmits a DSP Reboot message to the device driver module (S50).

이에 따라, 상기 장치 드라이버 모듈은 상기 FW 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S60)시키고, DSP Reboot Message를 서비스 모듈로 전송(S70)하게 된다.Accordingly, when the device driver module receives the DSP Reboot message from the FW module, the device driver module clears the corresponding CHs (16CH per DSP) (S60), and transmits the DSP Reboot message to the service module (S70). Done.

이에 따라, 서비스 모듈 역시 상기 드라이버 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S80)시키고, DSP Reboot Message를 DLL 모듈로 전송(S90)하게 된다.Accordingly, when the service module also receives the DSP Reboot Message from the driver module, the corresponding CHs (16CH per DSP) are cleared (S80), and the DSP Reboot Message is transmitted to the DLL module (S90). .

이어서, DLL 모듈은 상기 서비스 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)시키고(S100), DSP Reboot Message를 AP 모듈로 전송(S110)하게 된다.Subsequently, when receiving the DSP Reboot Message from the service module, the DLL module clears the corresponding CHs (16CH per DSP) (S100) and transmits the DSP Reboot Message to the AP module (S110).

이어서, AP 모듈은 상기 DLL 모듈로부터 DSP Reboot Message를 전송받는 경우, 해당 CH들(1 DSP 당 16CH)을 클리어(Clear)(S120)시킨 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S130)하게 된다.Subsequently, when the AP module receives the DSP Reboot message from the DLL module, the AP module clears the corresponding CHs (16CH per DSP) (S120), and then transmits alarm information to the alarm sound module. S130).

도 3은 본 발명에 따른 멀티 프로세서(Multi-Processor)간 진단 및 에러 로깅 플로우(Error Logging Flow)를 나타내는 도면으로, 특히 FW 모듈로부터 오류가 발생한 경우 FW 모듈과 드라이버 모듈 간 진단 및 에러 로깅 방법에 대해 설명하기로 한다.3 is a diagram illustrating a diagnostic and error logging flow between multi-processors according to the present invention. In particular, FIG. 3 is a diagram illustrating a diagnostic and error logging method between an FW module and a driver module when an error occurs from an FW module. This will be explained.

도 3에 도시된 바와 같이, 먼저, FW 모듈은 상태 레지스터(Status Register)에 주기적으로 카운트(Count)를 증가(S10)하고, 20초 주기로 얼라이브 메시지(Alive Message)를 상위층의 드라이버 모듈로 전송하게 된다.As shown in FIG. 3, first, the FW module periodically increases the count in the Status Register (S10), and transmits an Alive message to the upper layer driver module every 20 seconds. do.

이에 따라, 드라이버 모듈은 일정 시간동안 카운트(Count)가 바뀌는지를 확인(S20)한다.Accordingly, the driver module checks whether the count changes for a predetermined time (S20).

확인 결과, 드라이버 모듈은 일정 시간동안 예를 들어 30초 동안 카운트(Count)가 바뀌지 않으면 FW 모듈을 리셋(Reset)(S30)시킨 후, 해당 CH들(해당 보드)을 클리어(Clear)(S40)하고, 상위층의 서비스 모듈로 FW Reset Message를 전송(S50)하게 된다.As a result of the check, the driver module resets the FW module (S30) if the count does not change for a predetermined time, for example, 30 seconds, and then clears the corresponding CHs (the corresponding board) (Clear) (S40). Then, the FW Reset Message is transmitted to the service module of the higher layer (S50).

이에 따라, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.Accordingly, when receiving the FW Reset Message from the driver module, the service module clears the corresponding CHs (the corresponding boards) (S60), and transmits the FW Reset message to the DLL module of the upper layer (S70). .

이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.Subsequently, when receiving the FW Reset Message from the service module, the DLL module clears the corresponding CHs (the corresponding boards) (S80) and transmits the FW Reset Message to the upper layer AP module (S90).

이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.Subsequently, when the AP module receives the FW Reset Message from the DLL module, after clearing the corresponding CHs (the corresponding boards) (S100), the AP module transmits alarm information to the alarm sound module (S110). Done.

한편, 상기 카운트가 변경되었는지 확인하는 S20 과정에서, 만약 정상적으로 카운트가 변경된 경우, 상기 서비스 모듈은 상기 FW 모듈로부터 전송되어지는 얼라이브 메시지(Alive Message)의 수신 여부를 확인(S120)하게 된다.On the other hand, in step S20 of checking whether the count has been changed, if the count is normally changed, the service module checks whether or not to receive an Alive message transmitted from the FW module (S120).

확인 결과, 상기 서비스 모듈은 일정시간동안 예를 들어, 1분 동안 상기 드라이버 모듈로부터 얼라이브 메시지(Alive Message)를 수신하지 못하게 되면 FW Reset CMD 커맨드를 상기 드라이버 모듈로 전송(S130)하게 된다.As a result of the check, the service module transmits an FW Reset CMD command to the driver module (S130) if it fails to receive an Alive Message from the driver module for a certain time, for example, for one minute.

이에 따라, 상기 드라이버 모듈은 상기 서비스 모듈로부터 FW Reset CMD 커 맨드를 전송받게 되면 FW 모듈을 리셋(Reset)시킨 후, 다시 서비스 모듈로 FW Reset Message를 전송하게 된다.Accordingly, when the driver module receives the FW Reset CMD command from the service module, the driver module resets the FW module and transmits the FW Reset message to the service module again.

이어서, 서비스 모듈은 상기 드라이버 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S60)하고, FW Reset Message를 상위층의 DLL 모듈로 전송(S70)하게 된다.Subsequently, when the FW Reset Message is received from the driver module, the service module clears the corresponding CHs (the corresponding boards) (S60) and transmits the FW Reset Message to the upper level DLL module (S70).

이어서, DLL 모듈은 상기 서비스 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S80)하고, FW Reset Message를 상위층의 AP 모듈로 전송(S90)하게 된다.Subsequently, when receiving the FW Reset Message from the service module, the DLL module clears the corresponding CHs (the corresponding boards) (S80) and transmits the FW Reset Message to the upper layer AP module (S90).

이어서, AP 모듈은 상기 DLL 모듈로부터 FW Reset Message를 전송받는 경우, 해당 CH들(해당 보드)들을 클리어(Clear)(S100)한 후, 알람 정보(Alarm information)를 경보음 모듈로 전송(S110)하게 된다.Subsequently, when the AP module receives the FW Reset Message from the DLL module, after clearing the corresponding CHs (the corresponding boards) (S100), the AP module transmits alarm information to the alarm sound module (S110). Done.

이에 따라, 경보음 모듈에서는 상기 AP 모듈로부터 알람 정보(Alarm information)가 전송되는 경우 경보음(Alarm)을 발생시키게 되며, 시스템 관리자는 발생된 경보음(Alarm)을 듣고 멀티 프로세서 모듈에서의 진단 및 에러 로깅을 할 수 있게 된다.Accordingly, the alarm sound module generates an alarm when alarm information is transmitted from the AP module, and the system manager listens to the generated alarm sound and diagnoses the error in the multiprocessor module. Error logging is enabled.

이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.In the above, specific preferred embodiments of the present invention have been illustrated and described. However, the present invention is not limited to the above-described embodiment, and various modifications can be made by any person having ordinary skill in the art without departing from the gist of the present invention attached to the claims. will be.

본 발명에 따르면, 멀티 프로세서 모듈의 각 모듈간 감시를 통하여 특정 모듈에 이상이 생기는 경우 해당 모듈만 리셋(Reset)시킨 후 리셋 정보를 상위로 전송함으로써, 시스템이 에러 상태(Error State)로 빠지는 경우 없이 다음 서비스를 정상적으로 수행할 수 있는 효과가 있다.According to the present invention, when an abnormality occurs in a specific module through monitoring of each module of a multiprocessor module, the system falls into an error state by resetting only the corresponding module and transmitting reset information to a higher level. The following services can be normally executed without.

Claims (13)

멀티 프로세서간 진단 및 에러 로깅 시스템에 있어서,In the multi-processor diagnostic and error logging system, 상기 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅시키고, 재부팅 메시지를 상위 계층의 모듈로 전송하는 오류검출모듈과,If an error occurs in the module of the lower layer of the multi-processor, the error detection module for detecting and rebooting the module of the lower layer that the error occurs, and sends a reboot message to the module of the upper layer; 상기 오류검출모듈로부터 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 알람정보 생성모듈을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.When receiving the reboot message from the error detection module, the multi-processor diagnostic and error logging system comprising an alarm information generating module for generating an alarm information message after clearing (error) the error occurrence channel. 제 1항에 있어서,The method of claim 1, 상기 오류검출모듈은,The error detection module, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.The multi-processor diagnostic and error logging system, characterized in that the diagnosis by the error generating module, if the count value incremented from the module of the lower layer does not change for a predetermined time. 제 1항에 있어서,The method of claim 1, 상기 오류검출모듈은,The error detection module, 상기 하위 계층의 모듈로부터 전송되는 얼라이브 메시지(Alive Message)를 일정 시간동안 수신하지 못한 경우, 상기 상위 계층 모듈의 명령에 따라 상기 하위 계층의 모듈을 리셋시킨 후, 리셋 메시지를 상기 상위 계층의 모듈로 전송하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.If the Alive message transmitted from the lower layer module is not received for a predetermined time, the module of the lower layer is reset according to the command of the higher layer module, and then the reset message is sent to the higher layer module. Multiprocessor diagnostic and error logging system, characterized in that for transmitting. 제 1항에 있어서,The method of claim 1, 상기 오류검출모듈은,The error detection module, 상기 멀티 프로세서 각 계층의 모듈로부터 발생된 오류에 대한 에러 로깅 정보(Error Logging information)를 저장하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.Error logging information (Error Logging information) for the error generated from the module of each of the multi-processor layer. 제 1항에 있어서,The method of claim 1, 상기 알람정보 생성모듈의 동작 상태를 실시간으로 체크하여 다운된 상태인 경우, 상기 알람정보 생성모듈을 재실행시키고 알람정보 메시지를 생성하는 시스템 모니터링 모듈을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.In the case of the down state by checking the operation state of the alarm information generation module in real time, the multi-processor diagnosis and error, characterized in that it further comprises a system monitoring module for re-executing the alarm information generation module to generate an alarm information message. Logging system. 제 5항에 있어서,The method of claim 5, 상기 알람정보 생성모듈이나 시스템 모니터링 모듈로부터 생성된 알람정보를 전송받는 경우, 경보음(Alarm)을 발생시키는 경보음 모듈을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 시스템.When receiving the alarm information generated from the alarm information generation module or the system monitoring module, the multi-processor diagnostic and error logging system further comprises an alarm sound module for generating an alarm (Alarm). 멀티 프로세서간 진단 및 에러 로깅 방법에 있어서,In the multi-processor diagnostic and error logging method, 멀티 프로세서의 하위 계층의 모듈에서 오류가 발생된 경우, 상기 오류가 발생된 하위 계층의 모듈을 검출하여 재부팅하는 제 1과정과,A first step of detecting and rebooting a module of a lower layer in which the error occurs when an error occurs in a module of a lower layer of a multiprocessor; 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과,A second process of clearing faulty channels of the lower layer module; 상기 하위 계층 모듈의 재부팅 메시지를 상위 계층의 모듈로 전송하는 제 3과정과,Transmitting a reboot message of the lower layer module to a module of an upper layer; 상기 재부팅 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.And a fourth step of generating an alarm information message after clearing an error occurrence channel when the reboot message is received. 제 7항에 있어서,The method of claim 7, wherein 상기 제 1과정에서,In the first step, 상기 하위 계층의 모듈로부터 증가되는 카운트 값이 일정 시간동안 변경되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.The multi-processor diagnosis and error logging method, characterized in that the diagnosis by the error generating module, if the count value incremented from the module of the lower layer does not change for a predetermined time. 제 7항에 있어서,The method of claim 7, wherein 상기 제 1과정에서,In the first step, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.If an Alive message is not transmitted for a predetermined time from the lower layer module of the multi-processor, the diagnosis between the multi-processor and error logging method characterized in that the diagnostic module. 제 7항에 있어서,The method of claim 7, wherein 상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.And receiving an alarm information message generated in the fourth process to generate an alarm. 10. 멀티 프로세서간 진단 및 에러 로깅 방법에 있어서,In the multi-processor diagnostic and error logging method, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 상기 하위 계층 모듈을 리셋시키는 제 1과정과,A first process of resetting the lower layer module when an Alive message is not transmitted from the lower layer module of the multiprocessor for a predetermined time; 상기 하위 계층 모듈의 오류 발생 채널들을 클리어(clear)하는 제 2과정과,A second process of clearing faulty channels of the lower layer module; 상기 하위 계층 모듈의 리셋 메시지를 상위 계층의 모듈로 전송하는 제 3과정과,Transmitting a reset message of the lower layer module to a module of an upper layer; 상기 하위 계층 모듈의 리셋 메시지를 전송받는 경우, 오류 발생 채널을 클리어(clear)한 후 알람정보 메시지를 생성하는 제 4과정을 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.And receiving a reset message of the lower layer module, and generating an alarm information message after clearing an error occurrence channel. 제 11항에 있어서,The method of claim 11, 상기 제 1과정에서,In the first step, 상기 멀티 프로세서의 하위 계층 모듈로부터 얼라이브 메시지(Alive Message)가 일정시간동안 전송되지 않는 경우, 오류 발생 모듈로 진단하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.If an Alive message is not transmitted for a predetermined time from the lower layer module of the multi-processor, the diagnosis between the multi-processor and error logging method characterized in that the diagnostic module. 제 11항에 있어서,The method of claim 11, 상기 제 4과정에서 생성된 알람정보 메시지를 전송받아 경보음(Alarm)을 발생시키는 과정을 더 포함하는 것을 특징으로 하는 멀티 프로세서간 진단 및 에러 로깅 방법.And receiving an alarm information message generated in the fourth process to generate an alarm. 10.
KR1020050048595A 2005-06-07 2005-06-07 Diagnosis among multi-processors and error logging system and method KR100676462B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050048595A KR100676462B1 (en) 2005-06-07 2005-06-07 Diagnosis among multi-processors and error logging system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050048595A KR100676462B1 (en) 2005-06-07 2005-06-07 Diagnosis among multi-processors and error logging system and method

Publications (2)

Publication Number Publication Date
KR20060127545A KR20060127545A (en) 2006-12-13
KR100676462B1 true KR100676462B1 (en) 2007-01-30

Family

ID=37730590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050048595A KR100676462B1 (en) 2005-06-07 2005-06-07 Diagnosis among multi-processors and error logging system and method

Country Status (1)

Country Link
KR (1) KR100676462B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5141381B2 (en) * 2008-06-02 2013-02-13 富士通株式会社 Information processing apparatus, error notification program, and error notification method
KR101673865B1 (en) * 2016-02-05 2016-11-08 (주)서울기전 Integrated and Economical Module Type Bus Information Terminal System

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000044391A (en) * 1998-12-30 2000-07-15 윤종용 Recording and output method for microprocessor's software error

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000044391A (en) * 1998-12-30 2000-07-15 윤종용 Recording and output method for microprocessor's software error

Also Published As

Publication number Publication date
KR20060127545A (en) 2006-12-13

Similar Documents

Publication Publication Date Title
US7424666B2 (en) Method and apparatus to detect/manage faults in a system
US6425094B1 (en) Diagnostic cage for testing redundant system controllers
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
US20070088988A1 (en) System and method for logging recoverable errors
WO2017063505A1 (en) Method for detecting hardware fault of server, apparatus thereof, and server
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
US20150220411A1 (en) System and method for operating system agnostic hardware validation
US7672247B2 (en) Evaluating data processing system health using an I/O device
JP2002278848A (en) Method, apparatus, and program for cache threshold processing for predictively reporting fault of array bit line or driver
US8977889B2 (en) Method for increasing reliability in monitoring systems
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
US7877643B2 (en) Method, system, and product for providing extended error handling capability in host bridges
US20170344420A1 (en) Discovery and Remediation of a Device via a Peer Device
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
US7281171B2 (en) System and method of checking a computer system for proper operation
KR100676462B1 (en) Diagnosis among multi-processors and error logging system and method
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
JP2011145208A (en) Substrate
CN109828855B (en) Multiprocessor error detection system and method thereof
CN101458624A (en) Loading method of programmable logic device, processor and apparatus
JP2007028118A (en) Failure judging method of node device
JP4495248B2 (en) Information processing apparatus and failure processing method
JP6217086B2 (en) Information processing apparatus, error detection function diagnosis method, and computer program
US20150127996A1 (en) Information processing apparatus and method for monitoring device
US11797368B2 (en) Attributing errors to input/output peripheral drivers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140103

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141231

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151228

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee