KR20230033927A - 디바이스 결함 방지 강화 방법 및 장치 - Google Patents

디바이스 결함 방지 강화 방법 및 장치 Download PDF

Info

Publication number
KR20230033927A
KR20230033927A KR1020210116914A KR20210116914A KR20230033927A KR 20230033927 A KR20230033927 A KR 20230033927A KR 1020210116914 A KR1020210116914 A KR 1020210116914A KR 20210116914 A KR20210116914 A KR 20210116914A KR 20230033927 A KR20230033927 A KR 20230033927A
Authority
KR
South Korea
Prior art keywords
event
information
determining
failures
processor
Prior art date
Application number
KR1020210116914A
Other languages
English (en)
Inventor
방병우
김성범
송의석
안재형
이준연
장우석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210116914A priority Critical patent/KR20230033927A/ko
Priority to US17/881,793 priority patent/US20230076106A1/en
Publication of KR20230033927A publication Critical patent/KR20230033927A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • G06F1/305Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations in the event of power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/002Error detection; Error correction; Monitoring protecting against parasitic influences, e.g. noise, temperatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2015Redundant power supplies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Retry When Errors Occur (AREA)
  • Tests Of Electronic Circuits (AREA)

Abstract

디바이스 결함 방지 강화 방법 및 장치가 개시된다. 일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하는 단계, 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하는 단계, 및 소프트 에러 극복 정책을 디바이스에 전달하는 단계를 포함한다.

Description

디바이스 결함 방지 강화 방법 및 장치{METHOD AND APPARATUS FOR PROGRAMMING A NATURAL NEURONAL NETWORK INTO SOLID-STATE ELECTRONIC MEMORIES NETWORK AND CIRCUITS}
아래 실시예들은 디바이스 결함 방지 강화 방법 및 장치에 관한 것이다.
디바이스를 구성하는 CPU, DRAM, 스토리지 등의 컴포넌트(component)는 하드웨어 자체의 오류로 인해 문제가 발생하기도 하지만, 우주에서 날아들어오는 우주선(cosmic ray)으로 인해 발생하는 소프트 에러(soft error)로 인해 문제가 발생하기도 한다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하는 단계; 상기 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하는 단계; 및 상기 소프트 에러 극복 정책을 디바이스에 전달하는 단계를 포함한다.
상기 소프트 에러 극복 정책을 결정하는 단계는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 평균 무고장 시간(MTBF; Mean Time Between Failure)을 결정하는 단계; 및 상기 평균 무고장 시간에 기초하여, 상기 디바이스의 체크 포인트(checkpoint) 주기를 결정하는 단계를 포함할 수 있다.
상기 평균 무고장 시간을 결정하는 단계는 상기 디바이스의 제1 평균 무고장 시간을 수신하는 단계; 및 상기 이벤트에 관한 정보를 고려하여, 상기 제1 평균 무고장 시간을 수정하는 단계를 포함할 수 있다.
상기 소프트 에러 극복 정책을 결정하는 단계는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스에 인가되는 전압(supply voltage)의 크기를 결정하는 단계를 포함할 수 있다.
상기 소프트 에러 극복 정책을 결정하는 단계는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 동작 모드를 결정하는 단계를 포함할 수 있다.
상기 이벤트에 관한 정보를 획득하는 단계는 상기 우주선과 관련된 데이터를 획득하는 단계; 및 상기 우주선과 관련된 데이터를 인공 신경망에 입력하여 발생할 수 있는 상기 이벤트에 관한 정보를 예측하는 단계를 포함할 수 있다.
상기 이벤트에 관한 정보를 예측하는 단계는 상기 디바이스의 위치 정보에 기초하여, 상기 인공 신경망의 출력을 보정하는 단계를 포함할 수 있다.
상기 이벤트에 관한 정보를 예측하는 단계는 상기 디바이스의 위치에 따른 상기 이벤트의 에너지 레벨 정보를 예측하는 단계; 상기 디바이스의 위치에 따른 상기 이벤트의 발생 기간(period) 정보를 예측하는 단계 및 상기 디바이스의 위치에 따른 상기 이벤트의 도달 시간 정보를 예측하는 단계를 포함할 수 있다.
상기 이벤트에 관한 정보를 획득하는 단계는 상기 이벤트에 관한 정보를 수신하는 단계를 포함할 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하고, 상기 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하고, 상기 소프트 에러 극복 정책을 디바이스에 전달하는 프로세서를 포함한다.
상기 프로세서는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 평균 무고장 시간(MTBF; Mean Time Between Failure)을 결정하고, 상기 평균 무고장 시간에 기초하여, 상기 디바이스의 체크 포인트(checkpoint) 주기를 결정할 수 있다.
상기 프로세서는 상기 디바이스의 제1 평균 무고장 시간을 수신하고, 상기 이벤트에 관한 정보를 고려하여, 상기 제1 평균 무고장 시간을 수정할 수 있다.
상기 프로세서는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스에 인가되는 전압(supply voltage)의 크기를 결정할 수 있다.
상기 프로세서는 상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 동작 모드를 결정할 수 있다.
상기 프로세서는 상기 우주선과 관련된 데이터를 획득하고, 상기 우주선과 관련된 데이터를 인공 신경망에 입력하여 발생할 수 있는 상기 이벤트에 관한 정보를 예측할 수 있다.
상기 프로세서는 상기 디바이스의 위치 정보에 기초하여, 상기 인공 신경망의 출력을 보정할 수 있다.
상기 프로세서는 상기 디바이스의 위치에 따른 상기 이벤트의 에너지 레벨 정보를 예측하고, 상기 디바이스의 위치에 따른 상기 이벤트의 발생 기간(period) 정보를 예측하고, 상기 디바이스의 위치에 따른 상기 이벤트의 도달 시간 정보를 예측할 수 있다.
상기 프로세서는 상기 이벤트에 관한 정보를 수신할 수 있다.
도 1은 일 실시예에 따른 우주선(cosmic ray)으로 인해 발생할 수 있는 이벤트에 관한 예시를 도시한 도면이다.
도 2는 일 실시예에 따른 디바이스 결함 방지 강화 방법을 설명하기 위한 순서도이다.
도 3은 일 실시예에 따른 디바이스의 위치에 따른 이벤트에 관한 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 4a 및 도 4b는 일 실시예에 따른 디바이스 결함 방지 강화 시스템의 동작을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 디바이스 결함 방지 강화 장치의 블록도이다.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실제로 구현된 형태는 다양한 다른 모습을 가질 수 있으며 본 명세서에 설명된 실시예로만 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의"와 "바로~간의" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 우주선(cosmic ray)으로 인해 발생할 수 있는 이벤트에 관한 예시를 도시한 도면이다.
일 실시예에 따른 우주선은 다양하고 많은 에너지를 가지는 고에너지 입자들의 총칭으로, 우주선의 양성자(proton)들이 지상으로 내려오면서 파이온(pion) 중간자로 붕괴되고, 나아가 중간자는 질량이 좀 더 가벼운 뮤온(muon)입자를 거쳐 전자(또는 양전자), 중성미자(neutrion), 광자(photon)등으로의 붕괴과정을 거칠 수 있다.
일 실시예에 따른 우주선은 은하 우주선(Galactic cosmic ray)와 태양 우주선(solar cosmic ray)를 포함할 수 있다. 아래에서는 설명의 편의를 위해 태양 우주선을 기준으로 예시로 설명한다.
도 1을 참조하면, 다양한 태양활동(예를 들어, 플레어, 태양 양성자 이벤트, 코로나 질량 방출, 고속 태양풍)으로 인해 우주선이 생길 수 있고, 디바이스가 우주선에 노출될 경우 소프트 에러를 유발하는 다양한 이벤트가 발생될 수 있다. 예를 들어, 강력한 흑점 폭발이 발생하면 먼저 X선과 자외선 같은 빛이 약 8분 만에 지구에 도달하고, 이로 인해 디바이스의 단파통신 두절 및 위성수신 성능 저하의 이벤트가 발생할 수 있다.
일 실시예에 따른 태양 우주선은 태양의 활동에 의해 크게 변화할 수 있다. 예를 들어, 흑점으로 인해 코로나 질량 방출이 발생하게 되는데, 흑점의 극대기 때의 코로나 질량 방출 크기는 흑점의 극소기때에 비해 50배에 달한다. 이렇게 태양 활동이 크게 활성화되면 소프트 에러에 의한 문제 발생이 증가할 수 있다.
특히, 슈퍼 컴퓨터의 경우 더욱 더 복잡한 문제(Single Large Problem)를 해결하기 위하여 슈퍼 컴퓨터의 크기는 지속적으로 커지고 있다. 즉 노드의 수가 지속 증가되고 있다. 기존 수 백대에 불과했던 노드의 수가 10만대 이상으로 증가하기에 이르렀고, 복잡한 문제를 해결하기 위해 필요로 하는 노드의 수 또한 증가하고 있다. 하지만 노드의 수가 증가함에 따라 소프트 에러에 의한 문제 발생 또한 증가하게 되고, 연산 수행 도중 불시에 소프트 에러가 발생하게 된다면 프로그램을 완료할 수 없게 될 수 있다.
아래에서, 도 2 내지 도 5를 참조하여, 우주선으로 인해 발생할 수 있는 소프트 에러를 극복할 수 있는 방법을 상세히 설명한다.
도 2는 일 실시예에 따른 디바이스 결함 방지 강화 방법을 설명하기 위한 순서도이다.
도 2를 참조하면, 단계들(210 내지 230)은 일 실시예에 따른 디바이스 결함 방지 강화 장치에 의해 수행될 수 있다. 일 실시예에 따른 디바이스 결함 방지 강화 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다.
도 2의 동작은 도시된 순서 및 방식으로 수행될 수 있지만, 도시된 실시예의 사상 및 범위를 벗어나지 않으면서 일부 동작의 순서가 변경되거나 일부 동작이 생략될 수 있다. 도 2에 도시된 다수의 동작은 병렬로 또는 동시에 수행될 수 있다.
단계(210)에서, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득한다. 아래에서 상세히 설명하겠지만, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선과 관련된 데이터를 수신하여, 직접 이벤트에 관한 정보를 예측할 수도 있고, 다른 주체(예를 들어, 우주활동 분석기)로부터 이벤트에 관한 정보를 수신할 수도 있다.
일 실시예에 따른 이벤트에 관한 정보는 해당 이벤트의 에너지 레벨 정보, 해당 이벤트의 발생 기간(period) 정보 및/또는 해당 이벤트의 도달 시간(time to arrive) 정보를 포함할 수 있다. 나아가, 일 실시예에 따른 이벤트에 관한 정보는 디바이스의 위치에 따라 달라질 수 있다. 디바이스의 위치는 위도 및 경도로 표현될 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 테이블 형태의 이벤트에 관한 정보를 획득할 수 있다. 아래 표 1은 테이블 형태의 이벤트에 관한 정보의 예시이다.
Figure pat00001
단계(220)에서, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 이벤트에 관한 정보에 기초하여, 소프트 에러 극복 정책을 결정한다. 일 실시예에 따른 디바이스 결함 방지 강화 장치는 이벤트에 관한 정보를 고려하여, 디바이스의 평균 무고장 시간(MTBF; Mean Time Between Failure)을 결정하고, 평균 무고장 시간에 기초하여, 디바이스의 체크 포인트(checkpoint) 주기를 결정할 수 있다.
보다 구체적으로, 체크 포인팅(checkpointing) 기술은 지속적으로 디바이스의 컨텍스트(context)를 주기적으로 저장하여, 예상치 못한 시스템 오류가 발생하였을 때 그것들을 복구하여 해당 컨텍스트를 활용하는 기술일 수 있다.
즉, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 이러한 에러 발생을 대비하여 일정 시간 간격으로 체크 포인팅하여 프로그램의 중간 상태를 저장하고, 에러 발생시에도 중간부터 다시 재시작(restart)할 수 있도록 한다. 이 때 시스템 오버헤드 및 유효성(availability)을 고려한 합리적인 체크 포인트 주기를 결정하는 것이 중요하다. 일 실시예에 따른 디바이스 결함 방지 강화 장치는 기존 체크 포인트 주기 결정 방식에 포함되어 있지 않은 우주선으로 인해 발생할 수 있는 소프트 에러를 반영하여 동적으로 결정할 수 있다.
일 실시예에 따른 체크 포인트 주기는 디바이스의 평균 무고장 시간을 기준으로 결정될 수 있다. 체크 포인트 주기는 디바이스의 평균 무고장 시간보다 짧아야 에러 발생에 따른 복구의 효율성이 높아질 수 있다. 평균 무고장 시간은 디바이스의 고장 발생 평균 시간을 나타내는 것으로, 어떤 기간에서의 평균 무고장 시간은 그 기간중의 총 동작 시간을 총 고장수로 나눈 값으로 계산될 수 있다. 예를 들어, 600시간 중에 3회의 고장이 발생했을 때 그 기간의 평균 무고장 시간은 200(600/3)일 수 있다.
종래에 사용되는 평균 무고장 시간은 소프트 에러에 대한 실패율(failure rate)을 0으로 근사하고 하드웨어 에러를 기준으로 만들어진다. 따라서, 종래의 평균 무고장 시간에 기초하여 결정된 체크 포인트 주기는 소프트 에러가 빈번히 발생하는 상황에서는 적절하지 못할 수 있다. 이에, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 소프트 에러가 반영된 평균 무고장 시간을 결정하고, 이에 기초하여 체크 포인트 주기를 포함하는 소프트 에러 극복 정책을 결정할 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 디바이스의 제1 평균 무고장 시간을 수신하고, 이벤트에 관한 정보를 고려하여 제1 평균 무고장 시간을 수정할 수 있다. 제1 평균 무고장 시간은 소프트 에러를 고려하지 않고, 하드웨어 에러를 기준으로 계산된 평균 무고장 시간일 수 있다. 디바이스 결함 방지 강화 장치는 제1 평균 무고장 시간을 수정하여, 소프트 에러가 반영된 최종 평균 무고장 시간을 결정할 수 있다.
보다 구체적으로, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선의 플럭스(flux)에 따른 디바이스의 평균 무고장 시간 테이블을 획득할 수 있다. 우주선의 플럭스에 따른 디바이스의 평균 무고장 시간 테이블은 가속 실험을 통해 미리 준비될 수 있다. 가속 실험은 장치에 인위적으로 많은 양의 중성자 및 양성자를 조사하여 우주선로 인하여 얼마나 자주 고장 날지 측정하는 실험으로, 디바이스 결함 방지 강화 장치가 직접 가속 실험을 통해 평균 무고장 시간 테이블을 생성할 수도 있고, 다른 장치에서 생성한 평균 무고장 시간 테이블을 수신할 수도 있다.
평균 무고장 시간 테이블을 획득한 일 실시예에 따른 디바이스 결함 방지 강화 장치는 평균 무고장 시간 테이블을 이용하여 이벤트에 관한 정보(예를 들어, 현재 디바이스 위치에서 수신되는 우주선의 플럭스 정보)에 대응하는 평균 무고장 시간을 획득할 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 평균 무고장 시간에 기초하여 체크포인트 주기를 결정할 수 있다. 중성자로 인한 소프트 에러가 큰 폭으로 증가하면, 체크 포인트 주기를 짧게 변경할 수 있다(예를 들어, 기존 체크 포인트 주기: 300 스텝에 1회, 변경된 체크 포인트 주기: 180 스텝에 1회).
나아가, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 이벤트에 관한 정보를 고려하여, 상기 디바이스에 인가되는 전압(supply voltage)의 크기를 결정할 수 있다. 일 실시예에 따른 디바이스 결함 방지 강화 장치는 소프트 에러가 큰 폭으로 증가하면 디바이스가 방전(discharge)되지 않도록 디바이스에 인가되는 전압을 허용 전압 이내에서 상승시킬 수 있다.
나아가, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 이벤트에 관한 정보를 고려하여, 상기 디바이스의 동작 모드를 결정할 수 있다. 예를 들어, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 소프트 에러가 큰 폭으로 증가하면 디바이스의 동작 모드를 퍼포먼스(performance) 모드에서 신뢰성(reliability) 모드로 변경할 수 있다.
단계(230)에서, 일 실시예에 따른 디바이스 결함 방지 강화 장치는 소프트 에러 극복 정책을 디바이스에 전달한다. 일 실시예에 따른 디바이스는 슈퍼 컴퓨터, 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품을 포함할 수 있다. 다만, 아래에서 설명의 편의를 위해 슈퍼 컴퓨터를 기준으로 설명한다.
일 실시예에 따른 복수의 노드를 포함하는 대규모 병렬 시스템 클러스터 형태의 슈퍼 컴퓨터는 잡 스케쥴러(job scheduler)를 포함할 수 있고, 잡 스케쥴러를 통해 소프트 에러 극복 정책을 수신할 수 있다. 소프트 에러 극복 정책을 수신한 슈퍼 컴퓨터는 각 노드로 소프트 에러 극복 정책을 전달할 수 있다. 일 실시예에 따른 슈퍼 컴퓨터는 각 노드별로 현재 동작 여부를 판단하고, 동작 중이라면 현재 동작 중인 잡을 정상적으로 정지하고 체크 포인트 주기를 변경할 수 있고, 동작 중이 아니라면 추후 잡 진행 시에 체크 포인트 주기를 찾도록 변경할 수 있다. 나아가, 일 실시예에 따른 슈퍼 컴퓨터는 체크 포인트 주기 뿐만 아니라 소프트 에러 극복 정책에 따라 전압 조건, 동작 모드 등을 변경할 수 있다. 예를 들어, 일 실시예에 따른 슈퍼 컴퓨터는 전 서버 내 컴포넌트에 인가되는 전압을 증가시킬 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 이벤트의 도달 시간을 우주선과 관련된 데이터를 획득하는데 걸리는 시간 및 해당 이벤트에 관한 정보를 예측하는데 걸리는 시간의 합과 비교하여, 해당 이벤트와 관련된 소프트 에러 극복 정책의 전달 여부를 결정할 수 있다.
예를 들어, 태양풍이 디바이스에 도달하는데 1일 걸리고, 이미지 관측까지 8분이 소요되고, 이미지를 분석하는데 15분이 소요되는 경우, 태양풍이 디바이스에 도달하기 전에 이미지 관측 및 분석이 가능하므로 태양풍으로 인한 소프트 에러 극복 정책은 디바이스에 전달될 수 있다.
반면에, 강력한 흑점 폭발로 x선과 자외선이 디바이스에 8분만에 도달하는 경우, 이미지 관측 및 분석이 완료되기 전에 x선과 자외선이 디바이스에 도달하기 때문에 해당 이벤트와 관련된 소프트 에러 극복 정책은 디바이스에 전달되지 않을 수 있다.
도 3은 일 실시예에 따른 디바이스의 위치에 따른 이벤트에 관한 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시예에 따른 인공 신경망(320)은 우주선과 관련된 데이터(310)를 수신하여 출력 데이터(330)를 출력할 수 있다.
일 실시예에 따른 인공 신경망(320)은 입력 레이어, 히든 레이어, 및 출력 레이어를 포함할 수 있다. 각 레이어는 복수의 노드들을 포함하고, 인접한 레이어 사이의 노드들은 연결 가중치를 가지고 서로 연결될 수 있다. 각 노드들은 활성화 모델에 기초하여 동작할 수 있다. 활성화 모델에 따라 입력 값에 대응하는 출력 값이 결정될 수 있다. 임의의 노드의 출력 값은 해당 노드와 연결된 다음 레이어의 노드로 입력될 수 있다. 다음 레이어의 노드는 복수의 노드들로부터 출력되는 값들을 입력 받을 수 있다. 임의의 노드의 출력 값이 다음 레이어의 노드로 입력되는 과정에서, 연결 가중치가 적용될 수 있다. 다음 레이어의 노드는 활성화 모델에 기초하여 입력 값에 대응하는 출력 값을 해당 노드와 연결된 그 다음 레이어의 노드로 출력할 수 있다. 출력 레이어는 복수의 원소들에 대응하는 노드들을 포함할 수 있다. 출력 레이어의 노드들은 복수의 원소들에 대응하는 특징 값들을 출력할 수 있다.
모델 파라미터는 학습을 통해 결정되는 파라미터를 의미하며, 시냅스 연결의 가중치와 뉴런의 편향 등이 포함될 수 있다. 그리고, 하이퍼 파라미터는 머신 러닝 알고리즘에서 학습 전에 설정되어야 하는 파라미터를 의미하며, 학습률(Learning Rate), 반복 횟수, 미니 배치 크기, 초기화 함수 등이 포함될 수 있다.
인공 신경망(320)의 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다. 손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표로 이용될 수 있다.
일 실시예에 따른 인공 신경망(320)은 우주선과 관련된 학습 데이터(예를 들어, 실시간 수집된 코로나 그래프)와 이에 대응하는 이벤트 데이터(예를 들어, 코로나 질량 방출 발생량) 쌍(pair)에 기초하여 학습될 수 있다. 보다 구체적으로, 인공 신경망(320)은 우주선과 관련된 학습 데이터에 기초하여 예측된 출력 데이터와 정답 데이터 사이의 차이를 손실 함수로 결정할 수 있고, 해당 손실 함수를 최소화하는 모델 파라미터를 결정할 수 있다.
일 실시예에 따른 디바이스의 위치에 따라 이벤트의 도달 시간, 효과가 달라질 수 있다. 그러나, 일 실시예에 따른 출력 데이터(330)는 디바이스의 위치가 고려되지 않은 데이터일 수 있다.
일 실시예에 따른 디바이스 결함 방지 강화 장치(또는, 우주활동 분석기)는 디바이스의 위치 정보 데이터(340)에 기초하여, 인공 신경망(320)의 출력 데이터(330)를 보정하여 디바이스의 위치 정보 데이터(340)를 획득할 수 있다.
일 실시예에 따른 디바이스의 위치 정보 데이터(340)는 디바이스의 위치에 따른 에너지 레벨 정보, 이벤트의 발생 기간(period) 정보 및/또는 이벤트의 도달 시간 정보를 포함할 수 있다.
도 4a 및 도 4b는 일 실시예에 따른 디바이스 결함 방지 강화 시스템의 동작을 설명하기 위한 도면이다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 우주선과 관련된 데이터를 수신하여, 직접 이벤트에 관한 정보를 예측할 수도 있고, 다른 주체(예를 들어, 우주 활동 분석기)로부터 이벤트에 관한 정보를 수신할 수도 있다. 아래에서, 도 4a는 우주 활동 분석기에서 이벤트에 관한 정보를 수신하는 실시예를, 도 4b는 디바이스 결함 방지 강화 장치가 직접 이벤트에 관한 정보를 예측하는 실시예를 도시한다. 도 1 내지 도 3의 설명은 도 4a 내지 도 4b에도 적용 가능하므로, 중복되는 내용은 생략할 수 있다.
도 4a를 참조하면, 일 실시예에 따른 디바이스 결함 방지 강화 시스템은 관측소(411), 우주 활동 분석기(412), 서버(413) 및 디바이스(414)를 주체로 포함할 수 있다.
일 실시예에 따른 관측소(411)는 태양을 포함한 천체 활동을 관측하여 우주선과 관련된 데이터를 획득할 수 있다. 예를 들어, 관측소(411)는 카메라, 위성 등을 이용하여 태양의 흑점 수, 코로나 그래프 등을 획득할 수 있다.
일 실시예에 따른 우주 활동 분석기(412)는 우주선과 관련된 데이터를 인공 신경망에 입력하여 발생할 수 있는 이벤트에 관한 정보를 예측할 수 있다. 예를 들어, 일 실시예에 따른 우주 활동 분석기(412)는 우주선과 관련된 데이터에 기초하여 우주에서 들어올 우주선의 양을 예측할 수 있다.
일 실시예에 따른 서버(413)는 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하고, 소프트 에러 극복 정책을 디바이스(414)에 전달할 수 있다. 일 실시예에 따른 서버(413)는 도 1 내지 도 3을 참조하여 전술한 디바이스 결함 방지 강화 장치일 수 있다.
도 4b를 참조하면, 다른 실시예에 따른 디바이스 결함 방지 강화 시스템은 관측소(421), 서버(422) 및 디바이스(423)를 주체로 포함할 수 있다.
일 실시예에 따른 관측소(421) 및 디바이스(423)는 각각 도 4a의 관측소(411) 및 디바이스(414)와 동일하게 동작할 수 있다. 일 실시예에 따른 서버(422)는 관측소(421)로부터 우주선과 관련된 데이터를 수신하여 직접 이벤트에 관한 정보를 예측할 수 있다.
도 5는 일 실시예에 따른 디바이스 결함 방지 강화 장치의 블록도이다.
일 실시예에 따른 디바이스 결함 방지 강화 장치는 화자 인식 동작 중에 등록 음성을 확보할 수 있기 때문에, 화자 인식을 위한 디바이스 결함 방지 강화 장치(500)로 지칭될 수 있다.
도 5를 참조하면, 일 실시예에 따른 디바이스 결함 방지 강화 장치(500)는 프로세서(510)를 포함한다. 디바이스 결함 방지 강화 장치(500)는 메모리(530), 통신 인터페이스(550), 및 센서들(570)을 더 포함할 수 있다. 프로세서(510), 메모리(530), 통신 인터페이스(550), 및 센서들(570)은 통신 버스(505)를 통해 서로 통신할 수 있다.
프로세서(510)는 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하고, 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하고, 소프트 에러 극복 정책을 디바이스에 전달한다.
메모리(530)는 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보, 디바이스의 평균 무고장 시간 테이블을 저장할 수 있다. 메모리(530)는 휘발성 메모리 또는 비 휘발성 메모리일 수 있다.
센서들(570)은 예를 들어, 우주선과 관련된 데이터를 획득하기 위한 카메라 센서 등을 포함할 수 있다.
이 밖에도, 프로세서(510)는 도 1 내지 도 4b을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(510)는 프로그램을 실행하고, 디바이스 결함 방지 강화 장치(500)를 제어할 수 있다. 프로세서(510)에 의하여 실행되는 프로그램 코드는 메모리(530)에 저장될 수 있다. 디바이스 결함 방지 강화 장치(500)는 입출력 장치(미도시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 디바이스 결함 방지 강화 장치(500)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (19)

  1. 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하는 단계;
    상기 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하는 단계; 및
    상기 소프트 에러 극복 정책을 디바이스에 전달하는 단계
    를 포함하는 디바이스 결함 방지 강화 방법.
  2. 제1항에 있어서,
    상기 소프트 에러 극복 정책을 결정하는 단계는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 평균 무고장 시간(MTBF; Mean Time Between Failure)을 결정하는 단계; 및
    상기 평균 무고장 시간에 기초하여, 상기 디바이스의 체크 포인트(checkpoint) 주기를 결정하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  3. 제2항에 있어서,
    상기 평균 무고장 시간을 결정하는 단계는
    상기 디바이스의 제1 평균 무고장 시간을 수신하는 단계; 및
    상기 이벤트에 관한 정보를 고려하여, 상기 제1 평균 무고장 시간을 수정하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  4. 제1항에 있어서,
    상기 소프트 에러 극복 정책을 결정하는 단계는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스에 인가되는 전압(supply voltage)의 크기를 결정하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  5. 제1항에 있어서,
    상기 소프트 에러 극복 정책을 결정하는 단계는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 동작 모드를 결정하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  6. 제1항에 있어서,
    상기 이벤트에 관한 정보를 획득하는 단계는
    상기 우주선과 관련된 데이터를 획득하는 단계; 및
    상기 우주선과 관련된 데이터를 인공 신경망에 입력하여 발생할 수 있는 상기 이벤트에 관한 정보를 예측하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법,.
  7. 제6항에 있어서,
    상기 이벤트에 관한 정보를 예측하는 단계는
    상기 디바이스의 위치 정보에 기초하여, 상기 인공 신경망의 출력을 보정하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  8. 제6항에 있어서,
    상기 이벤트에 관한 정보를 예측하는 단계는
    상기 디바이스의 위치에 따른 상기 이벤트의 에너지 레벨 정보를 예측하는 단계;
    상기 디바이스의 위치에 따른 상기 이벤트의 발생 기간(period) 정보를 예측하는 단계; 및
    상기 디바이스의 위치에 따른 상기 이벤트의 도달 시간 정보를 예측하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  9. 제1항에 있어서,
    상기 이벤트에 관한 정보를 획득하는 단계는
    상기 이벤트에 관한 정보를 수신하는 단계
    를 포함하는, 디바이스 결함 방지 강화 방법.
  10. 하드웨어와 결합되어 제1항 내지 제9항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  11. 우주선(cosmic ray)으로 인해 발생할 수 있는 적어도 하나의 이벤트에 관한 정보를 획득하고, 상기 이벤트에 관한 정보에 기초하여, 소프트 에러(soft error) 극복 정책을 결정하고, 상기 소프트 에러 극복 정책을 디바이스에 전달하는 프로세서
    를 포함하는 디바이스 결함 방지 강화 장치.
  12. 제11항에 있어서,
    상기 프로세서는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 평균 무고장 시간(MTBF; Mean Time Between Failure)을 결정하고, 상기 평균 무고장 시간에 기초하여, 상기 디바이스의 체크 포인트(checkpoint) 주기를 결정하는, 디바이스 결함 방지 강화 장치.
  13. 제12항에 있어서,
    상기 프로세서는
    상기 디바이스의 제1 평균 무고장 시간을 수신하고, 상기 이벤트에 관한 정보를 고려하여, 상기 제1 평균 무고장 시간을 수정하는, 디바이스 결함 방지 강화 장치.
  14. 제11항에 있어서,
    상기 프로세서는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스에 인가되는 전압(supply voltage)의 크기를 결정하는, 디바이스 결함 방지 강화 장치.
  15. 제11항에 있어서,
    상기 프로세서는
    상기 이벤트에 관한 정보를 고려하여, 상기 디바이스의 동작 모드를 결정하는, 디바이스 결함 방지 강화 장치.
  16. 제11항에 있어서,
    상기 프로세서는
    상기 우주선과 관련된 데이터를 획득하고, 상기 우주선과 관련된 데이터를 인공 신경망에 입력하여 발생할 수 있는 상기 이벤트에 관한 정보를 예측하는, 디바이스 결함 방지 강화 장치.
  17. 제16항에 있어서,
    상기 프로세서는
    상기 디바이스의 위치 정보에 기초하여, 상기 인공 신경망의 출력을 보정하는, 디바이스 결함 방지 강화 장치.
  18. 제16항에 있어서,
    상기 프로세서는
    상기 디바이스의 위치에 따른 상기 이벤트의 에너지 레벨 정보를 예측하고, 상기 디바이스의 위치에 따른 상기 이벤트의 발생 기간(period) 정보를 예측하고, 상기 디바이스의 위치에 따른 상기 이벤트의 도달 시간 정보를 예측하는, 디바이스 결함 방지 강화 장치.
  19. 제11항에 있어서,
    상기 프로세서는
    상기 이벤트에 관한 정보를 수신하는, 디바이스 결함 방지 강화 장치.

KR1020210116914A 2021-09-02 2021-09-02 디바이스 결함 방지 강화 방법 및 장치 KR20230033927A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210116914A KR20230033927A (ko) 2021-09-02 2021-09-02 디바이스 결함 방지 강화 방법 및 장치
US17/881,793 US20230076106A1 (en) 2021-09-02 2022-08-05 Method and apparatus with cosmic ray fault protection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210116914A KR20230033927A (ko) 2021-09-02 2021-09-02 디바이스 결함 방지 강화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230033927A true KR20230033927A (ko) 2023-03-09

Family

ID=85385090

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210116914A KR20230033927A (ko) 2021-09-02 2021-09-02 디바이스 결함 방지 강화 방법 및 장치

Country Status (2)

Country Link
US (1) US20230076106A1 (ko)
KR (1) KR20230033927A (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901532B2 (en) * 2002-03-28 2005-05-31 Honeywell International Inc. System and method for recovering from radiation induced memory errors
US7689814B2 (en) * 2004-12-20 2010-03-30 Sony Computer Entertainment Inc. Methods and apparatus for disabling error countermeasures in a processing system
US20160065243A1 (en) * 2014-08-27 2016-03-03 Arizona Board Of Regents On Behalf Of Arizona State University Radiation hardening architectural extensions for a radiation hardened by design microprocessor
CN106464533B (zh) * 2015-04-09 2020-03-10 华为技术有限公司 基于网络功能虚拟化的故障处理方法和装置
US11314579B2 (en) * 2019-09-03 2022-04-26 International Business Machines Corporation Application protection from bit-flip effects

Also Published As

Publication number Publication date
US20230076106A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
Sha Using simplicity to control complexity
Rech et al. Impact of GPUs parallelism management on safety-critical and HPC applications reliability
RU2385484C2 (ru) Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткой конфигурации
CN108874571B (zh) 高数据完整性处理系统、方法和交通工具
JP4671507B2 (ja) 過渡エラー制約を受ける電子システムのための処理手順
CN103562873B (zh) 用于在计算机系统中处理数据的方法和系统
US20200151065A1 (en) Determining a recovery mechanism in a storage system using a machine learning module
Oliveira et al. GPGPUs ECC efficiency and efficacy
Sotgiu et al. Control and data acquisition software of the high‐energy particle detector on board the China Seismo‐Electromagnetic Satellite space mission
Santos et al. Scrubbing mechanism for heterogeneous applications in reconfigurable devices
Wilson et al. Hybrid, adaptive, and reconfigurable fault tolerance
Schagaev et al. Software design for resilient computer systems
Foucard et al. Reliability limits of TMR implemented in a SRAM-based FPGA: Heavy ion measures vs. fault injection predictions
US9280383B2 (en) Checkpointing for a hybrid computing node
Ibrahim et al. Reconfigurable fault tolerant avionics system
KR20230033927A (ko) 디바이스 결함 방지 강화 방법 및 장치
LaMeres et al. RadSat-Radiation Tolerant SmallSat Computer System
US11016851B2 (en) Determine recovery mechanism in a storage system by training a machine learning module
Fuchs et al. Dynamic fault tolerance through resource pooling
Guertin et al. Radiation specification and testing of heterogenous microprocessor socs
Samson et al. Post-TRL6 dependable multiprocessor technology developments
Liu A study of flight-critical computer system recovery from space radiation-induced error
Major et al. Radpc: A novel single-event upset mitigation strategy for field programmable gate array–based space computing
Libano Analyzing and Improving the Reliability of Matrix Multiplication and Neural Networks on FPGAs
Sha et al. On the design of reliable heterogeneous systems via checkpoint placement and core assignment