KR20140105034A - 프로세서 시스템 - Google Patents

프로세서 시스템 Download PDF

Info

Publication number
KR20140105034A
KR20140105034A KR1020147020828A KR20147020828A KR20140105034A KR 20140105034 A KR20140105034 A KR 20140105034A KR 1020147020828 A KR1020147020828 A KR 1020147020828A KR 20147020828 A KR20147020828 A KR 20147020828A KR 20140105034 A KR20140105034 A KR 20140105034A
Authority
KR
South Korea
Prior art keywords
abnormality
core
wdt
storage device
processor unit
Prior art date
Application number
KR1020147020828A
Other languages
English (en)
Other versions
KR101581608B1 (ko
Inventor
도시로 도쿠나가
신이치 오치아이
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20140105034A publication Critical patent/KR20140105034A/ko
Application granted granted Critical
Publication of KR101581608B1 publication Critical patent/KR101581608B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

메모리(225)는, 각 코어(116∼118)의 로그 정보를 기억하고 있다. 어느 하나의 코어에 이상이 발생했을 경우에, 각 코어는, 메모리(225)에 기억되어 있는, 자신의 코어의 로그 정보를 백업 기억 장치(126)에 기입한다. 이에 의해, 이상이 발생한 코어 이외의 코어의 로그 정보를 백업 기억 장치(116)에 보존할 수 있다.

Description

프로세서 시스템{PROCESSOR SYSTEM}
본 발명은, 복수의 프로세서 유닛이 포함되는 프로세서 시스템에 관한 것이다.
본 명세서에서는, 이후, 1개의 CPU(Central Processing Unit) 패키지 내에 복수의 처리계(CPU 코어, 이하, 간단히 코어라고 함)가 배치되어 있는 멀티 코어 CPU를 중심으로 하여 설명을 진행하지만, 복수의 CPU(싱글 코어 CPU 또는 멀티 코어 CPU)가 배치되어 있는 멀티 CPU 시스템, 멀티 프로세서 시스템에도 본 명세서에 기재된 설명이 적용된다.
즉, 이하에서 나타내는 멀티 코어 CPU의 「코어」는, 멀티 CPU 시스템, 멀티 프로세서 시스템에 있어서의 개개의 「CPU」, 「프로세서」라고 달리 기재할 수 있다.
또한, 「프로세서 유닛」이라는 말은, 멀티 코어 CPU에 있어서의 「코어」와, 멀티 CPU 시스템, 멀티 프로세서 시스템에 있어서의 「CPU」 및 「프로세서」 모두를 포함하는 개념으로서 이용하고 있다.
RAS 방식(RAS: Reliability, Availability, Serviceability))는, 멀티 코어 CPU의 하나의 코어의 이상을 watchdog timer(이하, 「WDT」라고 약기함)로 검지하여, 메모리상의 로그 정보(이하, 간단히 「로그」라고도 함)를 백업 기억 장치에 보존하는 이상 대처 방식이다.
WDT는 컴퓨터의 하드웨어 시간 계측기이다.
RAS 방식에서는, 메인의 프로그램이 행업(hang-up) 등의 부정한(false) 상태로 빠져 버려 규칙적인 와치 도그 조작(WDT의 리셋 조작)이 행해지지 않았던(WDT 타임 아웃) 경우에, 예외 처리(WDT 예외)가 실행된다.
예외 처리는, 행업한 시스템을 정상 동작으로 되돌리는 것을 목적으로 하여 시스템을 리셋하는 경우에 실행시키는 경우가 많지만, 시스템을 강제 정지시키는 경우나 전원을 절단한 후의 재투입시에 실행되는 경우도 있다.
장해를 일으킨 문제의 디버그에 도움이 되는 정보 등을 매체에 보존하는 기능을 가지는 RAS 방식의 경우, WDT는 보다 복잡한 처리를 행한다.
예를 들어, WDT의 타임 아웃에 의해 개시된 로그 정보의 보존 처리가 임의의 시간 내에 완료하지 않았던 경우에, 로그 정보가 보존되어 있지 않아도, WDT는, 일정한 지연 시간 경과 후에 시스템을 확실히 리셋시킨다.
WDT가 가장 많이 사용되고 있는 것은 내장 시스템(built-in system)으로, 마이크로 콘트롤러에 WDT가 내장되는 경우도 있다.
단일의 CPU 뿐만이 아니라, 멀티 코어 CPU, 멀티 프로세서 등 복수의 CPU를 가지는 시스템에 대해서 WDT를 적용하는 방법도 제안되어 있다.
또한, 특허 문헌 1에서는, 멀티 프로세서 시스템에 있어서, 임의의 프로세서가, 자신의 프로세서가 동작 이상 상태인 것을 다른 프로세서에게 WDT 예외로 통지하고, 그 다른 프로세서가 동작 이상 상태의 프로세서에게 이상 회복 동작의 트리거가 되는 인터럽트를 통지하고, 동작 이상 상태의 프로세서가 인터럽트를 접수하지 않는 경우에는, 그 다른 프로세서가 동작 이상 상태의 프로세서를 리셋하는 방식이 개시되어 있다.
(선행 기술 문헌)
(특허 문헌)
특허 문헌 1 : 일본 특개 제2000-311155호 공보
임의의 프로세서에 이상이 발생했을 경우에, 이상이 발생한 프로세서의 로그 정보에 부가하여, 이상이 발생하고 있지 않은 다른 프로세서의 로그 정보도 장해 해석이나 시스템 복구를 위한 중요한 단서가 된다.
특허 문헌 1의 기술에서는, 이상이 발생한 프로세서의 로그 정보는 백업 기억 장치에 보존되지만, 이상이 발생하고 있지 않은 다른 프로세서의 로그 정보는 보존되지 않는다.
본 발명은, 이러한 점을 감안하여 이루어진 것으로, 어느 하나의 프로세서 유닛에 이상이 발생했을 경우에, 이상이 발생하고 있지 않은 다른 프로세서 유닛의 로그 정보를 보존할 수 있도록 하는 것을 주된 목적으로 한다.
본 발명에 따른 프로세서 시스템은,
복수의 프로세서 유닛과,
각 프로세서 유닛의 로그 정보를 기억하는 제 1 기억 장치와,
상기 제 1 기억 장치와는 상이한 제 2 기억 장치를 갖고,
각 프로세서 유닛은,
어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 상기 제 1 기억 장치에 기억되어 있는, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 한다.
본 발명에 의하면, 각 프로세서 유닛은, 어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 제 1 기억 장치의 자신의 프로세서 유닛의 로그 정보를 제 2 기억 장치에 기입한다.
이 때문에, 이상이 발생하고 있지 않은 프로세서 유닛의 로그 정보를 보존할 수 있다.
도 1은 실시 형태 1에 따른 CPU 보드의 구성예를 나타내는 도면.
도 2는 실시 형태 1에 따른 정상시의 동작예를 설명하는 도면.
도 3은 실시 형태 1에 따른 이상 발생시의 동작예를 설명하는 도면.
도 4는 실시 형태 1에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 5는 실시 형태 1에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 6은 실시 형태 1에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 7은 실시 형태 2에 따른 CPU 보드의 구성예를 나타내는 도면.
도 8은 실시 형태 2에 따른 정상시의 동작예를 설명하는 도면.
도 9는 실시 형태 2에 따른 이상 발생시의 동작예를 설명하는 도면.
도 10은 실시 형태 2에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 11은 실시 형태 2에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 12는 실시 형태 2에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 13은 실시 형태 2에 따른 이상 발생시의 동작예를 나타내는 플로우차트도.
도 14는 실시 형태 2에 따른 하이퍼바이저(hypervisors)와 OS, 코어, 애플리케이션과의 관계를 나타내는 도면.
이하에 나타내는 실시 형태 1 및 실시 형태 2에서는, 어느 하나의 코어에 이상이 발생했을 경우에, 이상이 발생하고 있지 않은 다른 코어의 로그 정보를 백업 기억 장치에 보존할 수 있는 구성을 설명한다.
또한, 실시 형태 1 및 실시 형태 2에서는, 이상 발생이 발생한 이상 발생 코어의 이상 대처 기능(RAS 기능)이 정상적으로 동작하지 않는 경우에서도, 이상 발생 코어의 로그 정보를, 백업 기억 장치에 보존할 수 있는 구성을 설명한다.
종래의 기술에서는, 멀티 코어 CPU의 하나의 코어의 이상을 WDT로 검지하여 메모리상의 로그를 백업 기억 장치에 보존하여 최종적으로 보드 리셋하도록 하는 이상 대처 방식(RAS 방식)에 있어서, 이상 발생 코어상의 RAS 기능이 정상적으로 동작하지 않는 경우, 이상 발생 코어의 이상 발생시의 로그를 보존할 수 없다고 하는 과제가 있다.
예를 들면, 특허 문헌 1의 기술에서는, WDT로 검지한 1개의 프로세서의 이상을 다른 프로세서에 통지하고, 다른 프로세서를 경유하여 이상 발생 프로세서에 대해서 이상 회복 동작의 트리거를 가하지만, 이 이상 회복 동작은 이상 발생 프로세서 자신이 행하기 때문에, 이 이상 회복 동작이 정상적으로 동작하지 않는 경우, 이상 발생 프로세서의 로그를 백업 기억 장치에 보존할 수 없다.
실시 형태 1 및 실시 형태 2에서는, 이러한 점을 감안하여, 이상 발생 코어의 로그를, 이상 발생 코어의 RAS 기능이 정상적으로 동작하지 않는 경우에서도, 백업 기억 장치에 보존할 수 있도록 하는 구성, 및, 이상이 발생하고 있지 않은 다른 코어의 로그를 백업 기억 장치에 보존할 수 있는 구성을 설명한다.
(실시 형태 1)
[실시 형태 1: 구성의 설명]
도 1은, 본 실시 형태에 따른 CPU 보드(100)의 구성예를 나타내는 블럭도이다.
CPU 보드(100)의 하드웨어 구성요소는, N개의 코어(116∼118)와, 각 코어에 대응하는 N개의 WDT(120∼122)와, 메모리(125)와, 백업 기억 장치(126)와, 인터럽트 콘트롤러(119)와, 지연 장치(123)와, 보드 리셋 장치(124)이다.
코어(116∼118)는, 각각, 프로세서 유닛의 예에 상당한다.
또한, 메모리(125)는, 제 1 기억 장치의 예에 상당한다.
또한, 백업 기억 장치(126)는, 제 2 기억 장치의 예에 상당한다.
또한, 인터럽트 콘트롤러(119)는, 이상 통지 장치의 예에 상당한다.
코어(116∼118)의 소프트웨어 구성요소는, WDT를 주기적으로 리셋하는 애플리케이션(주기 처리 APP)(101∼103)과, OS(Operating System)(104∼106)와, RAS 처리부(107∼109)와, WDT 드라이버(110∼112)와, WDT 예외 핸들러(113∼115)이다.
또한, WDT(120∼122) 대신에, 타이머 동작을 하여, CPU의 이상 발생을 통지하는 구조를 가지는 외부 WDT를 이용해도 좋다.
또한, 후술에서는, 「각 WDT는, WDT 타임 아웃이 발생하면 코어 총 개수만큼의 WDT 예외를 인터럽트 콘트롤러(119)에 통지하도록 설정된다」는 취지를 설명하고 있지만, WDT(120∼122) 대신에, 동일한 동작을 행하는 하드웨어를 이용해도 좋다.
[실시 형태 1: 설정의 설명]
실시 형태 1에 있어서의, WDT(120∼122)와 인터럽트 콘트롤러(119)의 하드웨어 설정에 대해 설명한다.
각 WDT는, WDT 타임 아웃이 발생하면 코어 총 개수만큼의 WDT 예외를 인터럽트 콘트롤러(119)에 통지하도록 설정된다.
인터럽트 콘트롤러(119)는, WDT 예외를 접수하면, 라운드 로빈으로 모든 코어에 대해서 WDT 예외를 통지하도록 설정된다.
[실시 형태 1: 동작의 개요 설명]
다음에 동작에 대해 설명한다.
실시 형태 1에서는, WDT 예외 발생시에 모든 코어의 RAS 처리부에 순차적으로 이상 발생이 통지되고, 각 코어의 RAS 처리부는, 자신의 코어의 로그를 백업 기억 장치(126)에 보존한다.
또한, 이상 발생 코어의 RAS 처리부가 정상적으로 동작하지 않는 경우에는, 정상 동작하는 다른 코어의 RAS 처리부가 대신하여 이상 발생 코어의 로그의 보존을 행한다.
본 실시 형태에 따른 동작의 개요는 이하와 같다.
i) 전술의[실시 형태 1: 설정의 설명]과 같이, WDT는, WDT 타임 아웃이 발생하면 코어 총 개수만큼의 WDT 예외를 인터럽트 콘트롤러(119)에 통지한다.
즉, WDT는, 1회의 WDT 타임 아웃 발생에 대해서, 코어 개수만큼의 WDT 예외 발생 통지(N개의 WDT 예외 발생 통지)를 인터럽트 콘트롤러(119)에 출력한다.
인터럽트 콘트롤러(119)는, WDT로부터의 WDT 예외 발생 통지를 입력하면, 각 코어에 라운드 로빈으로 순차적으로 이상 발생의 통지를 행한다.
이들에 의해, 1회의 WDT의 타임 아웃 발생에 대해서, 모든 코어에 순차적으로 이상의 발생이 통지된다.
ii) 이상 발생 통지를 수신한 각 코어의 RAS 처리부에서는, 각자의 코어의 로그를 백업 기억 장치(126)에 보존한다.
iii) 이상 발생 통지를 수신한 각 코어의 RAS 처리부는, 어떤 코어의 WDT가 WDT 예외 발생 통지를 출력했는지를 WDT 예외의 종류로 알 수 있다.
이상 발생 코어 이외의 코어의 RAS 처리부는, 이상 발생 코어의 로그의 백업 기억 장치(126)로의 보존이 개시되어 있는지 여부를 판정한다.
그리고, 이상 발생 코어의 로그의 보존이 개시되어 있지 않은 경우에는, 이상 발생 코어 이외의 코어의 RAS 처리부는, 이상 발생 코어의 로그의 백업 기억 장치(126)로의 보존을 행한다.
[실시 형태 1: 동작의 상세 설명]
다음에, 본 실시 형태에 따른 동작의 상세에 대하여 설명한다.
(동작의 상세 설명: 정상시의 동작)
우선 정상시의 동작을, 도 2를 이용하여 설명한다.
코어 1(116)의 주기 처리 APP-1(101)은 주기적으로 WDT 리셋을 행한다.
주기 처리 APP-1(101)은, WDT 드라이버(110)를 경유하여 WDT-1(120)을 리셋한다.
정상시에는 WDT 타임 아웃이 발생하기 전에 WDT 리셋이 행해지기 때문에, WDT 예외는 발생하지 않는다.
코어 2(117), 코어 N(118)에 있어서도 동일한 처리(102→111→121, 103→112→122의 화살표)가 행해진다.
(동작의 상세 설명: 이상 발생시의 동작)
다음에, 이상 발생시의 동작을, 도 4, 도 5 및 도 6의 플로우차트를 이용하여 설명한다.
이 때의 블럭도상에서의 처리의 흐름은 도 3을 사용하여 보충한다.
여기에서는, 코어 1(116)에 이상이 발생하여, WDT-1(120)에서 WDT 예외가 발생한 예로 설명한다.
S111에 있어서, WDT 타임 아웃이 발생한다.
S112에 있어서, WDT-1(120)은 일정 시간 지연 후에 보드 리셋을 행하는 처리를 호출한다(도 3의 (120)으로부터 (123)으로의 화살표).
S101에 있어서 일정 시간 지연한 후에, 보드 리셋 처리 S102가 호출된다(도 3의 (123)으로부터 (124)로의 화살표).
이 지연 시간은 RAS 처리부가 모든 코어의 로그를 백업 기억 장치(126)에 보존을 종료하는 시간에 비해 충분히 큰 시간으로 한다.
S113에 있어서, WDT-1(120)은 코어 개수만큼의 WDT 예외를 인터럽트 콘트롤러(119)에 통지한다(도 3의 (120)으로부터 (119)로의 화살표).
S171에 있어서, 인터럽트 콘트롤러(119)는 WDT-1(120)로부터 코어 총 개수만큼의 WDT 예외 통지를 입력하여, 라운드 로빈으로 각 코어의 WDT 예외 핸들러에 WDT-1(120)의 예외를 통지한다(도 3의 (119)로부터 (113, 114, 115)로의 화살표).
다음에, 코어 1(116)로의 예외 통지 후의 동작(S120: 로그 백업 처리)을, 도 5를 참조하여 설명한다.
S121에 있어서 이상 발생 코어(코어 1)의 WDT 예외 핸들러(113)가 정상적으로 동작하지 않고, 이상 발생 코어의 RAS 처리부 1(107)이 실행되지 않았던 경우에는, 이상 발생 코어의 RAS 처리부 1(107)에 의한 이상 발생 코어의 로그의 백업 기억 장치(126)로의 보존은 할 수 없다(S122).
S121에 있어서 이상 발생 코어의 WDT 예외 핸들러(113)가 정상적으로 동작했을 경우, S123에 있어서, WDT 예외 핸들러(113)는, 자신의 코어의 RAS 처리부 1(107)에 이상을 통지한다(도 3의 (113)으로부터 (107)로의 화살표).
S124에 있어서, RAS 처리부 1(107)은, 이상 발생 코어의 로그의 백업 기억 장치(126)로의 카피가 개시되어 있는지 여부를 판단하여, 카피가 개시되어 있지 않은 경우에는, S125에서 이상 발생 코어의 로그를 백업 기억 장치에 카피한다(도 3의 (107)로부터 (127, 130)으로의 화살표).
여기서 각 코어의 로그의 백업 기억 장치(126)로의 카피가 개시되었는지 여부는, 메모리(125)상의 플래그나 세마포어(semaphore) 등의 공유 자원을 사용하여 확인할 수 있는 것으로 한다.
전술한 바와 같이, 인터럽트 콘트롤러(119)는 라운드 로빈에 의해 각 코어의 WDT 예외 핸들러에 WDT 예외의 발생을 통지하기 때문에, 이상 발생 코어(코어 1)의 RAS 처리부 1(107)보다도 앞서, 다른 코어의 RAS 처리가, 이상 발생 코어의 로그의 카피를 개시하고 있는 경우가 있다(도 6의 S135).
이 때문에, RAS 처리부 1(107)은, S124에서 다른 코어의 RAS 처리부에 의해 로그의 카피가 개시되어 있는지 여부를 확인한다.
다음에, RAS 처리부 1(107)은, S126에 있어서, 모든 코어의 로그 카피가 완료하고 있는지 여부의 판단을 행하여, 어느 하나의 코어에서 로그 카피가 완료하고 있지 않은 경우에는, RAS 처리부 1(107)의 처리가 완료한다.
한편, S125에 있어서 모든 코어의 로그 카피가 완료하고 있었던 경우에는, RAS 처리부 1(107)은, S102의 보드 리셋 처리를 호출한다(도 3에서는 코어 N의 RAS 처리부가 모두 카피 완료한 것을 확인한 예이며, (109)로부터 (124)로의 화살표가 됨).
여기서, 모든 코어의 로그 카피가 완료했는지 여부는, 메모리(125)상의 플래그나 세마포어 등의 공유 자원을 사용하여 확인할 수 있는 것으로 한다.
또한, 도 3의 보드 리셋 장치(124)의 보드 리셋 처리는, 지연 장치(123)의 지연 후에도 호출되지만, 모든 RAS 처리의 완료를 확인한 시점에서 보드 리셋을 행하는 쪽이, 지연을 기다리지 않고 그만큼 빠르게 보드 리셋할 수 있는 효과가 있다.
다음에, 코어 2(117) 및 코어 N(118)로의 예외 통지 후의 동작(S130: 로그 백업 처리)을, 도 6을 참조하여 설명한다.
이하에서는, 코어 2(117)의 처리로서 설명하지만, 코어 N(118)에서도 마찬가지의 처리가 행해진다.
S131에 있어서, 코어 2(117)의 RAS 처리부 2(108)가 WDT 드라이버(111)를 경유하여 WDT-2(121)를 리셋한다(도 3의 (108)으로부터 (111)을 경유하여 (121)로의 화살표).
이것은, WDT-1(120)의 예외 발생 통지의 수신에 의한 RAS 처리를 행하고 있는 동안에, 이상 발생 코어 이외의 WDT 타임 아웃이 발생하지 않도록 하기 위한 처리이다.
다음에, S132에 있어서, 코어 2(117)의 WDT 예외 핸들러(114)가 코어 2(117)의 RAS 처리부 2(108)에 이상을 통지한다(도 3의 (114)로부터 (108)로의 화살표).
다음에, RAS 처리부 2(108)는, S133에 있어서, 코어 2(117)의 로그를 백업 기억 장치(126)에 카피한다(도 3의 (108)로부터 (128, 131)로의 화살표).
다음에, RAS 처리부 2(108)는, S134에 있어서 이상 발생 코어(코어 1)의 로그의 백업 기억 장치(126)로의 카피가 개시되어 있는지 확인하고, 개시되어 있지 않으면, S135에서 이상 발생 코어의 로그를 백업 기억 장치(126)에 카피한다(도 3의 (127)로부터 (130)으로의 화살표를 코어 2의 RAS 처리부 2(108)가 대신하여 실시).
이에 의해, 이상 발생 코어 이외의 RAS 처리부가 대신하여 이상 발생 코어의 로그를 백업 기억 장치(126)에 카피할 수 있다.
다음에, S136에 있어서, RAS 처리부 2(108)는, 모든 로그 카피가 완료하고 있는지 여부의 판단을 행하여, 어느 하나의 코어에서 로그 카피가 완료하고 있지 않은 경우에는, RAS 처리부 2(108)의 처리가 완료한다.
한편, S136에 있어서 모든 코어의 로그 카피가 완료하고 있었던 경우에는, RAS 처리부 2(108)는, S102의 보드 리셋 처리를 호출한다.
[실시 형태 1: 효과]
이상과 같이, 모든 코어의 RAS 처리부에 순차적으로 이상 발생을 통지하여, 각 코어의 RAS 처리부가, 자신의 코어의 로그 정보를 백업 기억 장치에 보존한다.
이 때문에, 이상 발생 코어 이외의 다른 코어의 로그 정보도, 백업 기억 장치에 보존할 수 있고, 보드 전체의 장해 해석에 대해 사용될 수 있다.
또한, 이상 발생 코어의 RAS 처리부가 정상적으로 동작하지 않는 경우에서도, 이상 발생 코어의 로그 정보의 보존을 정상 동작하는 다른 코어가 대신함으로써, 이상 발생 코어의 로그 정보를 백업 기억 장치에 보존할 수 있다.
또한, 본 실시 형태에서는, WDT의 설정이나 인터럽트 콘트롤러의 설정은 기존의 기술을 이용하고 있기 때문에, 본 실시 형태에 따른 구조를 간이하고 염가로 실현하는 것이 가능하다.
(실시 형태 2)
이상의 실시 형태 1에서는, 1회의 WDT 예외를 코어 총 개수만큼 발생시켰지만, 본 실시 형태에서는, 하이퍼바이저가 존재하여, 1개의 코어가 수취한 WDT 예외를 하이퍼바이저를 경유하여 다른 코어에 통지함으로써, 모든 코어에 WDT 이상 통지를 행하는 예를 설명한다.
또한, 본 실시 형태에 있어서의 하이퍼바이저는, 내장 기기용 하이퍼바이저를 나타내고, 멀티 코어상에서 복수의 OS를 동시 실행하고, 또한 OS 간의 제휴와 실행 환경 보호를 실현하는 소프트웨어이다.
도 14에, 2 코어 CPU에 있어서의 내장 하이퍼바이저의 간단한 블럭도를 나타낸다.
도 14에 나타낸 바와 같이, 하이퍼바이저 1은, 코어 1에서 동작하여, 코어 1에서 OS1과의 제휴를 행하고, 하이퍼바이저 2는, 코어 2에서 동작하여, 코어 2에서 OS2와의 제휴를 행한다.
또한, 하이퍼바이저 1과 하이퍼바이저 2의 사이에서도 제휴가 도모된다.
[실시 형태 2: 구성의 설명]
도 7은, 본 실시 형태에 따른 CPU 보드(200)의 구성예를 나타내는 블럭도이다.
CPU 보드(200)의 하드웨어 구성요소는, 실시 형태 1에서 설명한 것 것과 동일하기 때문에, 설명을 생략한다.
코어(216∼218)의 소프트웨어 구성요소에 대해서는, 실시 형태 1과 동일한 명칭의 요소는 실시 형태 1에서 설명한 것과 마찬가지이기 때문에, 설명을 생략하고, 실시 형태 1과 상이한 요소만을 설명한다.
각 코어와 OS의 사이에는 하이퍼바이저(하이퍼바이저 전체는 250, 하이퍼바이저 전체를 구성하는 각 코어상의 하이퍼바이저는 251∼253)가 존재한다.
각 하이퍼바이저에는 WDT 예외 핸들러로부터 수취한 이상 통지를 다른 하이퍼바이저에 통지하기 위한 이상 통지 수수부(254∼256)가 포함되어 있다.
또한, 실시 형태 1에 있어서 설명한 바와 같이, WDT(220∼222) 대신에, 타이머 동작을 하여, CPU의 이상 발생을 통지하는 구조를 가지는 외부 WDT를 이용해도 좋다.
또한, 하이퍼바이저도, 각 CPU 간에 이상 통지를 교환하는 구조를 가지는 다른 수단으로 대체해도 좋다.
[실시 형태 2: 설정의 설명]
실시 형태 2에 있어서의, 인터럽트 콘트롤러(219)의 하드웨어 설정에 대해 설명한다.
인터럽트 콘트롤러(219)는, WDT 예외 발생 통지를 입력하면, 멀티 캐스트로 모든 코어에 대해서 WDT 예외를 통지하도록 설정된다.
[실시 형태 2: 동작의 개요 설명]
다음에 동작에 대해 설명한다.
본 실시 형태에서는, 멀티 캐스트에 의해, 하이퍼바이저를 경유하여 모든 코어의 RAS 처리부에 이상 발생이 통지되고 각 코어의 RAS 처리부는, 자신의 코어의 로그를 백업 기억 장치(226)에 보존한다.
또한, 이상 발생 코어의 RAS 처리부가 정상적으로 동작하지 않는 경우에는, 정상 동작하는 다른 코어의 RAS 처리부가 대신하여 이상 발생 코어의 로그의 보존을 행한다.
본 실시 형태에 따른 동작의 개요는 이하와 같다.
i) 전술의[실시 형태 2: 구성의 설명]과 같이, 인터럽트 콘트롤러(219)는, WDT 예외의 발생이 통지되면, 각 코어에 멀티 캐스트로 동시에 이상 통지한다.
ii) 코어의 상위에는 하이퍼바이저가 존재한다.
상기의 인터럽트 콘트롤러(219)로부터 각 코어로의 이상 통지는, 각 코어의 WDT 예외 핸들러에 대해서 행해진다.
WDT 예외 핸들러는 선착순으로 그 이상 통지를 수취한다.
최초로 이상 통지를 수신한 WDT 예외 핸들러는, 자신의 코어의 하이퍼바이저내의 이상 통지 수수부에 대해서 이상을 통지한다.
이상 통지 수수부는, 다른 코어의 하이퍼바이저내의 이상 통지 수수부에 대해서 이상을 통지한다.
각 코어의 하이퍼바이저내의 이상 통지 수수부는, 그 코어의 RAS 처리부에 이상을 통지하여, 각 코어의 RAS 처리부는 동시 병행으로 처리 실행을 개시한다.
iii) 이상 통지를 수신한 각 코어의 RAS 처리부는, 각자의 코어의 로그를 백업 기억 장치(226)에 보존한다.
iv) 이상 통지를 수신한 각 코어의 RAS 처리부는, 어떤 코어의 WDT가 이상 통지를 행했는지를 WDT 예외의 종류로 알 수 있다.
이상 발생 코어 이외의 코어의 RAS 처리부는, 이상 발생 코어의 로그의 백업 기억 장치로의 보존이 개시되어 있는지 여부를 판정한다.
그리고, 이상 발생 코어의 로그의 보존이 개시되어 있지 않은 경우에는, 이상 발생 코어 이외의 코어의 RAS 처리부는, 이상 발생 코어의 로그의 백업 기억 장치로의 보존을 행한다.
[실시 형태 2: 동작의 상세 설명]
다음에, 본 실시 형태에 따른 동작의 상세에 대하여 설명한다.
(동작의 상세 설명: 정상시의 동작)
우선 정상시의 동작을, 도 8을 이용하여 설명한다.
코어 1(216)의 주기 처리 APP-1(201)은 주기적으로 WDT 리셋을 행한다.
주기 처리 APP-1(201)은, WDT 드라이버(210)를 경유하여 WDT-1(220)을 리셋한다.
정상시에는 WDT 타임 아웃이 발생하기 전에 WDT 리셋이 행해지기 때문에, WDT 예외는 발생하지 않는다.
코어 2(217), 코어 N(218)에 있어서도 마찬가지의 처리(202→211→221, 203→212→222의 화살표)가 행해진다.
(동작의 상세 설명: 이상 발생시의 동작)
다음에, 이상 발생시의 동작을, 도 10∼도 13의 플로우차트를 이용하여 설명한다.
이 때의 블럭도상에서의 처리의 흐름은 도 9를 사용하여 보충한다.
여기에서는, 코어 1(216)에 이상이 발생하고, WDT-1(220)에서 WDT 예외가 발생하여, 인터럽트 콘트롤러(219)로부터의 WDT 예외를 최초로 수취하는 것은 코어 2(217)인 예로 설명한다.
S211에 있어서, WDT 타임 아웃이 발생한다.
S212에 있어서, WDT-1(220)은 일정 시간 지연 후에 보드 리셋을 행하는 처리를 호출한다(도 9의 (220)으로부터 (223)으로의 화살표).
S201에 있어서 일정 시간 지연한 후에, 보드 리셋 처리 S202가 호출된다(도 9의 (223)으로부터 (224)로의 화살표).
이 지연 시간은 RAS 처리부가 모든 코어의 로그를 백업 기억 장치(226)에 보존을 종료하는 시간에 비해 충분히 큰 시간으로 한다.
S213에 있어서, WDT-1(220)은 WDT 예외를 인터럽트 콘트롤러(219)에 통지한다(도 9의 (220)로부터 (219)로의 화살표).
S271에 있어서, 인터럽트 콘트롤러(219)는 WDT-1(220)로부터 WDT 예외를 수신하여, 멀티 캐스트로 각 코어의 WDT 예외 핸들러에 WDT-1(220)의 예외를 통지한다(도 9의 (219)로부터 (213, 214, 215)로의 화살표).
본 실시 형태에서는, 코어 2(217)가 최초로 WDT 예외를 받았을 경우에 대해 설명한다(이 때문에 도 9의 (219)로부터 (213)로의 화살표는 실선, (219)로부터 (213)의 화살표와 (219)로부터 (215)의 화살표는 점선으로 하고 있음).
다음에, 코어 1(116)의 동작(S220: 로그 백업 처리)를, 도 11을 참조하여 설명한다.
S221에 있어서 이상 발생 코어(코어 1)의 WDT 예외 핸들러(213)가 정상적으로 동작하지 않고, 이상 발생 코어의 RAS 처리부 1(207)이 실행되지 않았던 경우에는, 이상 발생 코어의 RAS 처리부 1(207)에 의한 이상 발생 코어의 로그의 백업 기억 장치(126)로의 보존은 할 수 없다(S222).
S221에 있어서 이상 발생 코어의 WDT 예외 핸들러(213)가 정상적으로 동작했을 경우, 본 예에서는, S223 및 S224에 있어서, RAS 처리부 1(207)은 아무것도 하지 않는다.
본 예에서는, 코어 2(217)가 최초로 WDT 예외를 수신하므로, RAS 처리부 1(207)은 아무것도 하지 않는다.
이후, 코어 1(216)은, 최초로 WDT 예외를 수취한 하이퍼바이저(본 예에서는 코어 2의 하이퍼바이저)로부터의 이상 통지를 수취하고 나서 동작한다(후술).
다음에, 코어 N(218)의 동작(S250: 로그 백업 처리)를, 도 13을 참조하여 설명한다.
S251에 있어서, 본 예에서는 코어 2가 최초로 WDT 예외를 수취하므로, RAS 처리부 N(209)는 아무것도 하지 않는다(S252).
이후, 코어 N(218)는, 최초로 WDT 예외를 수취한 하이퍼바이저(본 예에서는 코어 2의 하이퍼바이저)로부터의 이상 통지를 수취하고 나서 동작한다(후술).
다음에, WDT 예외를 최초로 수취한 코어 2(217)의 동작(S230: 로그 백업 처리)를, 도 12를 참조하여 설명한다.
S231에 있어서, 본 예에서는 코어 2(217)의 WDT 예외 핸들러(214)가 WDT 예외를 최초로 수취하므로, S233으로 진행되고, WDT 예외 핸들러(214)는 자신의 코어의 이상 통지 수수부(255)에 WDT-1(220)의 이상을 통지한다(도 9의 (214)로부터 (255)로의 화살표).
S234에 있어서, 이상 통지 수수부(255)는 다른 코어의 이상 통지 수수부(254, 256)에 WDT-1(220)의 예외 발생을 전한다(도 9의 (255)로부터 (254, 256)으로의 2개의 화살표).
또한, 예외 발생을 수취한 후의, 코어 1과 코어 N의 동작은 후술한다.
S235에 있어서, RAS 처리부 2(208)는, 자신의 코어의 WDT-2(221)를 리셋한다(도 9의 (208)로부터 (211)을 경유하여 (221)로의 화살표).
이것은, WDT-1(220)의 예외 발생 통지의 수신에 의한 RAS 처리를 행하고 있는 동안에, 이상 발생 코어 이외의 WDT 타임 아웃이 발생하지 않도록 하기 위한 처리이다.
다음에, S236에 있어서, 이상 통지 수수부(255)는 자신의 코어의 RAS 처리부 2(208)에 이상을 통지한다(도 9의 (255)로부터 (208)로의 화살표).
다음에, S237에 있어서, RAS 처리부 2(208)는 자신의 코어의 로그를 백업 기억 장치(226)에 카피한다(도 9의 (208)로부터 (227, 230)으로의 화살표).
다음에, RAS 처리부 2(208)는, S238에 있어서 이상 발생 코어의 로그의 카피가 개시되어 있는지 확인하고, 개시되어 있지 않으면, S239에서 이상 발생 코어의 로그를 백업 기억 장치(226)에 카피한다(도 9의 (226)으로부터 (229)로의 화살표를 코어 2의 RAS 처리부 2(208)가 대신하여 실시).
이에 의해, 이상 발생 코어 이외의 RAS 처리부가 대신하여 이상 발생 코어의 로그를 백업 기억 장치(226)에 카피할 수 있다.
다음에, S240에 있어서, RAS 처리부 2(208)는, 모든 코어의 로그 카피가 완료하고 있는지 여부의 판단을 행하고, 어느 하나의 코어에서 로그 카피가 완료하고 있지 않은 경우에는, RAS 처리부 2(208)의 처리가 완료한다.
한편, S240에 있어서 모든 코어의 로그 카피가 완료하고 있었던 경우에는, RAS 처리부 2(108)는, S102의 보드 리셋 처리를 호출한다(도 9는 코어 N가 이 처리를 호출하고 있는 예이며 (209)로부터 (224)로의 화살표).
다음에, 도 12의 S234의 처리에 의해 WDT-1(220)의 이상을 통지받은 코어 1(216)의 처리를, 도 11을 참조하여 설명한다.
S226에 있어서 코어 1의 이상 통지 수수부(254)가 정상적으로 동작하지 않으면, 이상 발생 코어(코어 1)의 RAS 처리부 1(207)은 동작하지 않는다.
한편, 이상 통지 수수부(254)가 정상적으로 동작하면, S227∼S229 및 S280의 처리가 행해진다.
S227은 S236과 동일하고, S228은 S238과 동일하고, S229는 S237과 동일하고, S280은 S240과 동일하다.
이 때문에, 각 스텝의 설명을 생략한다.
또한, 코어 1(216)의 WDT 예외 핸들러(213)가 WDT 예외를 최초로 취득했을 경우에는, S223에서 YES로 되어, S225에 나타낸 바와 같이, 도 12의 S233 및 S234의 처리가 행해진다.
그 후, S227 이후의 처리가 행해진다.
다음에, 도 12의 S234의 처리에 의해 WDT-1(220)의 이상을 통지받은 코어 N(218)의 처리를, 도 13을 참조하여 설명한다.
S254에 있어서, 이상 통지 수수부(256)는 WDT-1(220)의 이상 통지를 수취한다.
이후에는, S255∼S260의 처리가 행해진다.
또한, S255∼S260은, 도 12의 S235∼S240와 동일하다.
이 때문에, 각 스텝의 설명을 생략한다.
또한, 코어 N(218)의 WDT 예외 핸들러(215)가 WDT 예외를 최초로 취득했을 경우에는, S251에서 YES로 되어, S253에 나타낸 바와 같이, 도 12의 S233 및 S234의 처리가 행해진다.
그 후, S255 이후의 처리가 행해진다.
[실시 형태 2: 효과]
실시 형태 1의 방식에서는 각 코어에 순차적으로 이상 통지하기 위해 예외 통지의 지연이 발생하는 것에 대해, 실시 형태 2의 방식에서는 각 코어로의 이상 통지는 동시에 행해지기 때문에, 이 지연이 발생하지 않고, RAS 처리부의 동시 병렬 처리를 빨리 완료할 수 있는 효과가 있다.
그 이외의 효과는 실시 형태 1의 효과와 마찬가지이다.
100 : CPU 보드 101 : 주기 처리 APP-1
102 : 주기 처리 APP-2 103 : 주기 처리 APP-N
104 : OS-1 105 : OS-2
106 : OS-N 107 : RAS 처리부 1
108 : RAS 처리부 2 109 : RAS 처리부 N
110 : WDT 드라이버 111 : WDT 드라이버
112 : WDT 드라이버 113 : WDT 예외 핸들러
114 : WDT 예외 핸들러 115 : WDT 예외 핸들러
116 : 코어 1 117 : 코어 2
118 : 코어 N 119 : 인터럽트 콘트롤러
120 : WDT-1 121 : WDT-2
122 : WDT-N 123 : 지연 장치
124 : 보드 리셋 장치 125 : 메모리
126 : 백업 기억 장치 200 : CPU 보드
201 : 주기 처리 APP-1 202 : 주기 처리 APP-2
203 : 주기 처리 APP-N 204 : OS-1
205 : OS-2 206 : OS-N
207 : RAS 처리부 1 208 : RAS 처리부 2
209 : RAS 처리부 N 210 : WDT 드라이버
211 : WDT 드라이버 212 : WDT 드라이버
213 : WDT 예외 핸들러 214 : WDT 예외 핸들러
215 : WDT 예외 핸들러 216 : 코어 1
217 : 코어 2 218 : 코어 N
219 : 인터럽트 콘트롤러 220 : WDT-1
221 : WDT-2 222 : WDT-N
223 : 지연 장치 224 : 보드 리셋 장치
225 : 메모리 226 : 백업 기억 장치
250 : 하이퍼바이저 251 : 하이퍼바이저 1
252 : 하이퍼바이저 2 253 : 하이퍼바이저 N
254 : 이상 통지 수수부 255 : 이상 통지 수수부
256 : 이상 통지 수수부

Claims (7)

  1. 복수의 프로세서 유닛과,
    각 프로세서 유닛의 로그 정보를 기억하는 제 1 기억 장치와,
    상기 제 1 기억 장치와는 상이한 제 2 기억 장치를 갖고,
    각 프로세서 유닛은,
    어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 상기 제 1 기억 장치에 기억되어 있는, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는
    것을 특징으로 하는 프로세서 시스템.
  2. 제 1 항에 있어서,
    각 프로세서 유닛은,
    자신의 프로세서 유닛에 이상이 발생하고 있지 않아도, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 하는 프로세서 시스템.
  3. 제 1 항에 있어서,
    각 프로세서 유닛은,
    다른 프로세서 유닛에 있어서 이상이 발생했을 경우에, 상기 제 1 기억 장치에 기억되어 있는, 이상이 발생한 이상 발생 프로세서 유닛의 로그 정보의 상기 제 2 기억 장치로의 기입이 개시하고 있는지 여부를 판정하고,
    상기 이상 발생 프로세서 유닛의 로그 정보의 상기 제 2 기억 장치로의 기입이 개시하고 있지 않은 경우에, 상기 제 1 기억 장치에 기억되어 있는 상기 이상 발생 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 하는 프로세서 시스템.
  4. 제 1 항에 있어서,
    상기 프로세서 시스템은,
    어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 라운드 로빈에 의해, 이상의 발생을 각 프로세서 유닛에 통지하는 이상 발생 통지 장치를 더 갖고,
    각 프로세서 유닛은,
    상기 이상 발생 통지 장치에 의해 이상의 발생이 통지되었을 때에, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 하는 프로세서 시스템.
  5. 제 1 항에 있어서,
    상기 프로세서 시스템은,
    어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 멀티 캐스트에 의해, 이상의 발생을 각 프로세서 유닛에 통지하는 이상 발생 통지 장치를 더 갖고,
    각 프로세서 유닛은,
    상기 복수의 프로세서 유닛 중에서 최초로 상기 이상 발생 통지 장치로부터의 통지를 취득했을 경우에, 이상의 발생을 다른 프로세서 유닛에 통지하고, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 하는 프로세서 시스템.
  6. 제 5 항에 있어서,
    각 프로세서 유닛은,
    어느 하나의 프로세서 유닛에 있어서 이상이 발생한 것을 다른 프로세서 유닛으로부터 통지받은 때에, 자신의 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는 것을 특징으로 하는 프로세서 시스템.
  7. 복수의 프로세서 유닛과,
    각 프로세서 유닛의 로그 정보를 기억하는 제 1 기억 장치와,
    어느 하나의 프로세서 유닛에 있어서 이상이 발생했을 경우에, 상기 제 1 기억 장치에 기억되어 있는 로그 정보가 기입되는 제 2 기억 장치를 갖고,
    각 프로세서 유닛은,
    다른 프로세서 유닛에 있어서 이상이 발생했을 경우에, 상기 제 1 기억 장치에 기억되어 있는, 이상이 발생한 이상 발생 프로세서 유닛의 로그 정보의 상기 제 2 기억 장치로의 기입이 개시하고 있는지 여부를 판정하고,
    상기 이상 발생 프로세서 유닛의 로그 정보의 상기 제 2 기억 장치로의 기입이 개시하고 있지 않은 경우에, 상기 제 1 기억 장치에 기억되어 있는 상기 이상 발생 프로세서 유닛의 로그 정보를 상기 제 2 기억 장치에 기입하는
    것을 특징으로 하는 프로세서 시스템.
KR1020147020828A 2012-02-13 2012-02-13 프로세서 시스템 KR101581608B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/053236 WO2013121502A1 (ja) 2012-02-13 2012-02-13 プロセッサシステム

Publications (2)

Publication Number Publication Date
KR20140105034A true KR20140105034A (ko) 2014-08-29
KR101581608B1 KR101581608B1 (ko) 2015-12-30

Family

ID=48983668

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147020828A KR101581608B1 (ko) 2012-02-13 2012-02-13 프로세서 시스템

Country Status (7)

Country Link
US (1) US20150006978A1 (ko)
EP (1) EP2816480A4 (ko)
JP (1) JP5726340B2 (ko)
KR (1) KR101581608B1 (ko)
CN (1) CN104137077B (ko)
TW (1) TW201333686A (ko)
WO (1) WO2013121502A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5877533B2 (ja) * 2013-01-31 2016-03-08 三菱電機株式会社 計算機装置及び計算機装置の制御方法
JP6816345B2 (ja) * 2015-04-24 2021-01-20 富士電機株式会社 駆動制御装置
WO2016204070A1 (ja) * 2015-06-16 2016-12-22 オリンパス株式会社 Cpu監視装置
US10585755B2 (en) * 2016-11-29 2020-03-10 Ricoh Company, Ltd. Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality
US11150973B2 (en) * 2017-06-16 2021-10-19 Cisco Technology, Inc. Self diagnosing distributed appliance
JP6919597B2 (ja) * 2018-03-01 2021-08-18 オムロン株式会社 コンピュータおよびその制御方法
CN112527541A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 一种确定多核处理器中故障计算核的方法及电子设备
CN110673976A (zh) * 2019-09-20 2020-01-10 Oppo广东移动通信有限公司 一种多核系统的异常检测方法、异常检测装置及电子设备
US11354182B1 (en) * 2019-12-10 2022-06-07 Cisco Technology, Inc. Internal watchdog two stage extension

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159136A (ja) * 2010-02-02 2011-08-18 Seiko Epson Corp 制御装置、制御装置の異常検出・復旧方法および電子機器
WO2012004854A1 (ja) * 2010-07-06 2012-01-12 三菱電機株式会社 プロセッサ装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761739A (en) * 1993-06-08 1998-06-02 International Business Machines Corporation Methods and systems for creating a storage dump within a coupling facility of a multisystem enviroment
JP2821418B2 (ja) * 1996-04-24 1998-11-05 北海道日本電気ソフトウェア株式会社 マルチプロセッサシステムの障害情報記録方式
US5790772A (en) * 1996-04-30 1998-08-04 International Business Machines Corporation Communications method involving groups of processors of a distributed computing environment
JP2000181890A (ja) * 1998-12-15 2000-06-30 Fujitsu Ltd マルチプロセッサ交換機及びその主プロセッサ切替方法
JP2000311155A (ja) 1999-04-27 2000-11-07 Seiko Epson Corp マルチプロセッサシステム及び電子機器
JP4489802B2 (ja) * 2005-02-07 2010-06-23 富士通株式会社 マルチcpuコンピュータおよびシステム再起動方法
US7984341B2 (en) * 2008-02-25 2011-07-19 International Business Machines Corporation Method, system and computer program product involving error thresholds
CN101650674A (zh) * 2009-09-11 2010-02-17 杭州中天微系统有限公司 主处理器与协处理器接口之间的异常处理方法及实现装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159136A (ja) * 2010-02-02 2011-08-18 Seiko Epson Corp 制御装置、制御装置の異常検出・復旧方法および電子機器
WO2012004854A1 (ja) * 2010-07-06 2012-01-12 三菱電機株式会社 プロセッサ装置及びプログラム

Also Published As

Publication number Publication date
CN104137077A (zh) 2014-11-05
EP2816480A1 (en) 2014-12-24
US20150006978A1 (en) 2015-01-01
KR101581608B1 (ko) 2015-12-30
JPWO2013121502A1 (ja) 2015-05-11
WO2013121502A1 (ja) 2013-08-22
EP2816480A4 (en) 2016-05-04
JP5726340B2 (ja) 2015-05-27
CN104137077B (zh) 2017-07-14
TW201333686A (zh) 2013-08-16

Similar Documents

Publication Publication Date Title
KR101581608B1 (ko) 프로세서 시스템
US10585755B2 (en) Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality
US8365012B2 (en) Arrangements detecting reset PCI express bus in PCI express path, and disabling use of PCI express device
US8219851B2 (en) System RAS protection for UMA style memory
US9026865B2 (en) Software handling of hardware error handling in hypervisor-based systems
EP2518627B1 (en) Partial fault processing method in computer system
US20170147422A1 (en) External software fault detection system for distributed multi-cpu architecture
US10379931B2 (en) Computer system
US9148479B1 (en) Systems and methods for efficiently determining the health of nodes within computer clusters
US20210081234A1 (en) System and Method for Handling High Priority Management Interrupts
JP2009223582A (ja) 情報処理装置、情報処理装置の制御方法および制御プログラム
CN115576734B (zh) 一种多核异构日志存储方法和系统
WO2008004330A1 (fr) Système à processeurs multiples
JP4867896B2 (ja) 情報処理システム
US20210390022A1 (en) Systems, methods, and apparatus for crash recovery in storage devices
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
US9176806B2 (en) Computer and memory inspection method
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
JP5299681B2 (ja) プログラム検査方法
JP6024742B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び記録媒体
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JP2007004364A (ja) デバッグシステム、デバッグ方法およびプログラム
CN116627702A (zh) 虚拟机的宕机重启方法及装置
TW201820134A (zh) 電子裝置及電子裝置之操作方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee