KR102263947B1

KR102263947B1 - 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법

Info

Publication number: KR102263947B1
Application number: KR1020210021651A
Authority: KR
Inventors: 양회석; 김범식
Original assignee: 아주대학교산학협력단
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-06-10
Also published as: US20220261305A1; US11615011B2

Abstract

하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법이 개시되며, 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은, 상기 위성 시스템에 탑재되는 프로세서의 하드웨어 정보를 획득하는 단계, 상기 프로세서에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득하는 단계, 상기 하드웨어 정보 및 상기 워크로드 정보에 기초하여 상기 태스크에 대한 스케줄링 정책을 수립하는 단계 및 상기 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화하는 단계를 포함할 수 있다.

Description

하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법{APPARATUS AND METHOD FOR OPTIMIZING RELIABILITY OF SATELLITE SYSTEM CONSIDERING BOTH HARD ERROR AND SOFT ERROR}

본원은 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법에 관한 것이다. 예를 들어, 본원은 인공위성 같이 온도가 크게 변하거나 방사선에 노출되는 혹독한 환경에서 동작하는 프로세서의 소프트에러 안정성 및 하드에러 안정성을 통합적으로 분석 및 최적화하기 위한 기법에 관한 것이다.

실시간 내장형 시스템에서 안정성(신뢰성, reliability) 요구사항은 점차 중요해지고 있으며, IEC-61508, DO-178B, ISO-26262 등 시스템의 안정성(신뢰성) 요구사항을 반영하는 다양한 기능안전표준(functional safety standard)들이 정의되어 있다. 특히, 내장형 시스템에서 고려되는 안정성(신뢰성)은 소프트에러 안정성 및 하드에러 안정성으로 구분될 수 있다.

먼저, 소프트에러 안정성은 주로 일시적인 결함(single-event upset, SEU)의 영향을 받으며, 일시적 결함이란 반도체의 영구적인 손상 없이 저장된 비트 값이 0에서 1로 또는 1에서 0으로 일시적으로 바뀌는 현상을 의미한다. 이러한 결함은 주로 중성자인 우주 방사선(cosmic rays)이나 알파 입자(alpha particle)에 의해 발생하는 것으로 알려져 있으며, 반도체 공정 단위가 매우 작아지고, 동작 전압이 낮아지면서 소프트에러의 취약성이 더욱 증가하고 있다. 특히, 높은 신뢰성이 요구되는 항공, 위성, 자동차, 의료기기 등의 시스템에서는 이러한 소프트에러를 감내하지 못하면 오작동으로 인해 자산 또는 인명 피해와 같은 심각한 결과를 초래할 수 있다.

이와 관련하여, 소프트에러의 감지, 감내를 위한 하드웨어 및 소프트웨어를 이용한 다양한 보호, 강화 기법으로서 하드웨어의 이중화, 삼중화, watchdog 타이머, 소프트웨어 중복 연산, 에러 정정 코드(error-correction code, ECC), CFC(Control Flow Checking), 메모리 스크러빙 등의 보호 기법이 적용되고 있으나 이러한 보호 기술은 추가적인 하드웨어 또는 연산 오버헤드를 수반한다는 한계가 있다.

또한, 하드에러 안정성은 하드웨어의 영구적인 손상의 영향을 받으며, CMOS ICs(integrated circuits)에서 하드에러 신뢰성에 영향을 미치는 주된 요인은 온도이며, 구체적으로 고장 메커니즘으로 EM(electromigration), TDDB(time-dependent dielectric breakdown), SM(stress migration), TC(thermal cycling, 열주기) 등이 있다. 이러한 메커니즘에 의한 손상은 반도체의 최대 온도에 크게 의존적이며, 온도가 높을수록 수명에 악영향을 끼친다. 이 중 열주기(TC) 메커니즘은 시스템의 최대 온도뿐만 아니라 열주기의 진폭, 주기에도 영향을 받는 특성이 있다.

이와 관련하여, 하드에러 안정성(신뢰성)을 향상시키기 위한 대부분의 종래 기법들은 프로세서의 동작 온도를 줄이는(낮추는) 것에 주로 중점을 둔다.

한편, 인공위성이 동작하는 우주 환경은 온도가 굉장히 크게 변하고, 우주 방사선이 존재하는 혹독한 환경으로서, 이러한 극한의 환경에서 인공위성의 고장 없이 긴 운용 시간을 보장하기 위해서는 높은 안정성(신뢰성)을 갖도록 시스템을 설계하는 것이 매우 중요하다.

이와 관련하여, 도 1은 지구 저궤도(Low Earth Orbit, LEO) 위성의 주기적인 주변 온도의 변화를 나타낸 도면이다. 도 1을 참조하면, SwissCube 등의 저궤도(low Earth orbit, LEO) 위성의 주변 온도는 시간의 흐름에 따라 온도가 매우 큰 폭으로 변하며 일정한 주기를 갖는다는 특징을 갖는다.

도 1을 참조하여 이해될 수 있는 위성 시스템이 동작하는 환경에서는 주변의 큰 온도 변화로 인해 프로세서의 하드에러 안정성 악화가 예상됨은 물론이고, 우주 방사선에 의하여 소프트에러 안정성 역시 중요하게 고려되어야 한다.

한편, 인공위성 환경에서 우주 방사선에 의한 소프트에러 안정성의 향상을 위해 소프트웨어를 이용한 보호 기법을 적극적으로 적용하면, 이로 인한 연산 오버헤드의 증가로 프로세서의 소비전력이 증가하게 되고, 이에 따라 발열량이 증가하여 하드에러 안정성의 악화를 초래한다. 반대로, 하드에러 안정성만을 고려하여 위성의 주변 온도를 기초로 프로세서의 발열량만을 조절하게 되면, 소프트에러 안정성 향상을 위한 연산이 충분히 수행되지 못하여 소프트에러 안정성이 악화되게 된다.

즉, 인공위성 환경에서 프로세서의 소프트에러 안정성과 하드에러 안정성을 동시에 고려하여 시스템의 기능안전 관련 요구사항 등에 부합하도록 위성 시스템을 최적화할 수 있는 기법의 개발이 요구된다.

본원의 배경이 되는 기술은 한국공개특허공보 제10-2017-0133545호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 인공위성과 같이 지속적인 유지보수나 개선이 불가능하고, 오랜 시간 고장 없이 작동해야 하는 시스템 내 프로세서의 태스크 스케줄링을 조절하여 소프트에러 안정성과 하드에러 안정성을 분석하여 시스템을 최적화하는 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법을 제공하려는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은, 상기 위성 시스템에 탑재되는 프로세서의 하드웨어 정보를 획득하는 단계, 상기 프로세서에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득하는 단계, 상기 하드웨어 정보 및 상기 워크로드 정보에 기초하여 상기 태스크에 대한 스케줄링 정책을 수립하는 단계 및 상기 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화하는 단계를 포함할 수 있다.

또한, 상기 정량화하는 단계는, 상기 스케줄링 정책을 고려하여 상기 소프트에러 안정성과 연계된 에러 발생 확률을 연산하는 단계 및 상기 하드웨어 정보, 상기 스케줄링 정책 및 상기 위성 시스템의 주변 온도 정보에 기초하여 상기 하드에러 안정성과 연계된 시스템 수명을 연산하는 단계를 포함할 수 있다.

또한, 상기 스케줄링 정책을 수립하는 단계는, 상기 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 상기 태스크 각각에 대한 반복 수행 수준을 결정할 수 있다.

또한, 상기 하드웨어 정보는, 태스크 수행에 따른 상기 프로세서의 발열 패턴에 대한 정보 및 전력 소모 패턴에 대한 정보를 포함할 수 있다.

또한, 상기 시스템 수명을 연산하는 단계는, 상기 반복 수행 수준에 기초하여 변화되는 상기 발열 패턴 및 상기 전력 소모 패턴을 반영하여 상기 시스템 수명을 연산할 수 있다.

또한, 소정의 태스크에 대한 상기 반복 수행 수준은, 상기 탐지 동작 또는 상기 교정 동작의 빈도가 변화함에 따라 증감할 수 있다.

또한, 상기 교정 동작의 빈도 변화에 따른 상기 반복 수행 수준의 증감폭은 상기 탐지 동작의 빈도 변화에 따른 증감폭 대비 큰 것일 수 있다.

또한, 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은, 상기 위성 시스템에 대한 동작 요구 사항을 획득하는 단계 및 정량화된 상기 소프트에러 안정성 및 상기 하드에러 안정성이 상기 동작 요구 사항에 부합하도록 상기 스케줄링 정책을 갱신하는 단계를 포함할 수 있다.

또한, 상기 스케줄링 정책을 갱신하는 단계는, 상기 주변 온도 정보에 기초하여 복수의 구간으로 분할되는 상기 위성 시스템의 동작 주기의 구간에 따라 상기 반복 수행 수준을 결정할 수 있다.

한편, 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치는, 상기 위성 시스템에 탑재되는 프로세서의 하드웨어 정보 및 상기 프로세서에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득하는 수집부, 상기 하드웨어 정보 및 상기 워크로드 정보에 기초하여 상기 태스크에 대한 스케줄링 정책을 수립하는 계획부 및 상기 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화하는 평가부를 포함할 수 있다.

또한, 상기 평가부는, 상기 스케줄링 정책을 고려하여 상기 소프트에러 안정성과 연계된 에러 발생 확률을 연산하는 제1평가부 및 상기 하드웨어 정보, 상기 스케줄링 정책 및 상기 위성 시스템의 주변 온도 정보에 기초하여 상기 하드에러 안정성과 연계된 시스템 수명을 연산하는 제2평가부를 포함할 수 있다.

또한, 상기 계획부는, 상기 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 상기 태스크 각각에 대한 반복 수행 수준을 결정할 수 있다.

또한, 상기 제2평가부는, 상기 반복 수행 수준에 기초하여 변화되는 상기 발열 패턴 및 상기 전력 소모 패턴을 반영하여 상기 시스템 수명을 연산할 수 있다.

또한, 상기 제2평가부는, 상기 주변 온도 정보, 상기 발열 패턴 및 상기 전력 소모 패턴에 기초하여 Electromigration(EM), Time-Dependent Dielectric Breakdown(TBBD), Stress Migration(SM) 및 Thermal Cycling(TC) 중 적어도 하나의 고장 메커니즘을 고려하여 상기 시스템 수명을 연산할 수 있다.

또한, 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치는, 상기 위성 시스템에 대한 동작 요구 사항을 획득하고, 정량화된 상기 소프트에러 안정성 및 상기 하드에러 안정성이 상기 동작 요구 사항에 부합하도록 상기 스케줄링 정책을 갱신하는 적용부를 포함할 수 있다.

또한, 상기 적용부는, 상기 주변 온도 정보에 기초하여 복수의 구간으로 분할되는 상기 위성 시스템의 동작 주기의 구간에 따라 상기 반복 수행 수준을 결정할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 인공위성과 같이 지속적인 유지보수나 개선이 불가능하고, 오랜 시간 고장 없이 작동해야 하는 시스템 내 프로세서의 태스크 스케줄링을 조절하여 소프트에러 안정성과 하드에러 안정성을 분석하여 시스템을 최적화하는 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치 및 방법을 제공할 수 있다.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.

도 1은 지구 저궤도(Low Earth Orbit, LEO) 위성의 주기적인 주변 온도의 변화를 나타낸 도면이다.
도 2는 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치를 포함하는 위성 시스템의 개략적인 구성도이다.
도 3은 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 기법의 전체 프로세스를 설명하기 위한 개념도이다.
도 4는 스케줄링 정책의 변화에 따른 소프트에러 안정성 및 하드에러 안정성의 정량화 결과를 예시적으로 나타낸 그래프이다.
도 5는 위성 시스템에 대한 동작 요구 사항과 관련한 기능안전 표준을 예시적으로 나타낸 도표이다.
도 6은 온도를 기준으로 위성 시스템의 동작 주기를 복수의 구간으로 분할하여 나타낸 도면이다.
도 7a 및 도 7b는 위성 시스템의 열주기(Thermal Cycling) 안정성을 고려하여 위성 시스템의 온도에 따라 상이한 스케줄링 정책을 적용할 경우의 소프트에러 안정성 및 하드에러 안정성의 정량화 결과를 예시적으로 나타낸 그래프이다.
도 8은 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치의 개략적인 구성도이다.
도 9는 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법에 대한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 2는 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치를 포함하는 위성 시스템의 개략적인 구성도이다.

도 2를 참조하면, 본원의 일 실시예에 따른 위성 시스템(10)은 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치(100)(이하, '최적화 장치(100)'라 한다.) 및 프로세서(200)를 포함할 수 있다.

최적화 장치(100) 및 프로세서(200) 상호간은 네트워크(미도시)를 통해 통신할 수 있다. 네트워크(미도시)는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(미도시)의 일 예에는, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), wifi 네트워크, 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

또한, 도 2를 참조하면, 위성 시스템(10)은 지구 저궤도(Low Earth Orbit, LEO) 위성(1)에 탑재되는 프로세서(200)의 하드웨어 정보, 프로세서(200)를 통해 수행되는 위성(1)의 구동을 위한 태스크의 워크로드 정보(미션 정보) 등을 고려하여 태스크를 수행하기 위한 스케줄링 정책을 수립하고, 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 통합 분석(정량화)하는 최적화 장치(100)를 포함할 수 있다.

달리 말해, 본원에서 개시하는 위성 시스템(10)은 지구 저궤도(Low Earth Orbit, LEO) 위성(1)에 대하여 구현되는 것일 수 있으나, 이에만 한정되는 것은 아니고, 본원에서 개시하는 스케줄링 기법은 저온의 동작 구간이 존재하는 위성, 차량, 운송 수단 등의 다양한 시스템에 대하여 폭넓게 적용될 수 있다.

이하에서는 도 3을 참조하여, 최적화 장치(100)의 구체적인 기능 및 동작을 상세히 설명하도록 한다.

도 3은 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 기법의 전체 프로세스를 설명하기 위한 개념도이다.

도 3을 참조하면, 최적화 장치(100)는 위성 시스템(10)의 제반 정보(Satellite System Info)를 획득하여 워크로드 모델(Workload Model), 전력/발열 모델(Power/Temperature Model) 등 위성 시스템(10)에서 수행되는 태스크와 태스크에 의한 위성 시스템(10)의 변화를 모델링할 수 있다.

또한, 최적화 장치(100)는 모델링 결과를 반영하여 위성 시스템(10)에서 수행되는 태스크에 대하여 소프트에러를 감내하기 위한 태스크 스케줄링 정책을 수립하는 프로세스를 의미하는 태스크 레벨 소프트에러 제어(Task-Level Soft-Error Handling)를 수행할 수 있다.

이와 관련하여, 최적화 장치(100)는 실시간 응용 프로그램을 위해 개발된 운영 체제인 실시간 운영 체제(real-time operating system, RTOS)와 연계된 것일 수 있다. 구체적으로, 최적화 장치(100)는 운영 체제의 기능 중 프로세서(CPU 등)의 시간 관리 부분에 초점을 맞추어 설계되되, 경성(hard) 실시간 운영 체제와 연성(soft) 실시간 운영 체제로 구분되는 실시간 운영 체제를 통해 선점형(preemptive) 비율 단조(rate-monotonic, RM) 스케줄링을 예시적으로 적용할 수 있으나, 이에만 한정되는 것은 아니다.

또한, 최적화 장치(100)는 수립된 스케줄링 정책에 대응하여 위성 시스템(10)의 소프트에러 안정성 및 하드에러 안정성의 변화를 평가(정량화)하기 위하여 구축되는 소프트에러 안정성 모델(Soft-Error Reliability Model) 및 하드에러 안정성 모델(Hard-Error Reliability Model)을 통해 위성 시스템(10)의 기능안전표준(Safety Standard)와 연계된 소프트에러 안정성 정량화 결과 및 위성 시스템(10)의 기대 수명(Expected Lifetime)과 연계된 하드에러 안정성 정량화 결과를 각각 도출할 수 있다.

구체적으로, 최적화 장치(100)는 위성 시스템(10)에 탑재되는 프로세서(200)의 하드웨어 정보를 획득할 수 있다. 본원의 일 실시예에 따르면, 프로세서(200)의 하드웨어 정보는 프로세서(200)의 태스크 수행에 따른 발열 패턴에 대한 정보 및 전력 소모 패턴에 대한 정보를 포함할 수 있다.

보다 구체적으로, 최적화 장치(100)는 프로세서(200)의 태스크 수행에 따른 전력을 소모 패턴을 도출하는 전력 모델 및 전력 모델에 의해 도출되는 전력 소모 패턴과 위성 시스템(10)의 주변 온도 정보를 기초로 프로세서(200)의 태스크 수행에 따른 발열 패턴을 도출하는 발열(온도 변화) 모델을 보유할 수 있다.

본원의 일 실시예에 따르면, 프로세서(200)의 소비 전력 모델링은 프로세서(200)의 동작주파수 및 이용률에 기초하여 수행될 수 있다. 본원의 일 실시예에 따르면, 최적화 장치(100)는 하기 식 1에 기초하여 전력 모델링을 수행할 수 있다.

[식 1]

여기서, f는 프로세서(200)의 동작주파수이고, UI 및 UF는 프로세서(200)의 이용률(보다 구체적으로, 프로세서(200)의 정수 연산 장치(Integer Unit)의 이용률 및 프로세서(200)의 부동 소수점 장치(FPU)의 이용률)을 나타낼 수 있다. 또한, 상기 식 1을 참조하면, 프로세서(200)의 동작주파수가 높을수록 프로세서(200)의 소비 전력이 증가하고, 이용률이 커질수록 프로세서(200)의 소비 전력이 증가하는 것을 확인할 수 있다.

또한, 본원의 일 실시예에 따르면, 프로세서(200)의 동작에 따른 온도(발열) 모델링은 RC 회로 모델링 기법을 통해 수행될 수 있다. 이와 관련하여, 최적화 장치(100)는 전술한 전력 모델링 결과 도출되는 프로세서(200)의 소비 전력 및 위성 시스템(10)의 주변 온도에 따라 프로세서(200)의 발열(온도 변화)이 달라지도록 온도(발열) 모델링을 수행할 수 있다. 본원의 일 실시예에 따르면, 최적화 장치(100)는 하기 식 2-1 및 식 2-2에 기초하여 발열 모델링을 수행할 수 있다.

[식 2-1]

[식 2-2]

여기서, G는 프로세서(200)의 코어에서 외부로 방출되는 열의 전도율이고, T_amb는 위성 시스템(10)의 주변(환경) 온도이고, P(t)는 상기 식 1에 따른 프로세서(200)의 소비 전력이고, T_ss는 프로세서(200)의 정상 상태 온도이고, T(t)는 프로세서(200)의 온도 모델링 결과이고, T(to)는 프로세서(200)의 초기 온도를 의미할 수 있다.

또한, 최적화 장치(100)는 프로세서(200)에서 수행되는 태스크를 포함하는 워크로드 정보를 획득할 수 있다.

구체적으로, 본원의 일 실시예에 따르면, 최적화 장치(100)는 프로세서(200)에서 실행되는 복수의 태스크 각각을 최악연산시간(worst-case execution time, WCET) 및 주기 p를 기초로 모델링할 수 있다. 이와 관련하여, 소프트에러에 대한 감내를 고려하지 않고 정상적으로 실행되는 일반적(Basic) 태스크는 미리 결정된 연산 동작만을 수행하지만, 불측의 소프트에러를 감내하기 위한 기법이 추가로 적용되는 경우 해당 태스크는 추가적인 작업(에러의 감지 또는 교정 등)을 수행하게 된다. 이렇듯, 소프트에러를 감지 또는 교정하기 위해 하드웨어 또는 소프트웨어의 관련 기능을 이용할 수 있으며, 이러한 소프트에러 발생을 고려한 작업을 추가로 수행하는 경우 해당 태스크에 대한 최악연산시간은 추가적인 연산 오버헤드로 인하여 증가할 수 있다.

또한, 최적화 장치(100)는 획득한 하드웨어 정보 및 워크로드 정보에 기초하여 프로세서(200)에서 수행되는 각각의 태스크에 대한 스케줄링 정책을 수립할 수 있다. 구체적으로, 최적화 장치(100)는 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 태스크 각각에 대한 반복 수행 수준을 결정하는 스케줄링 정책을 수립할 수 있다.

구체적으로, 최적화 장치(100)는 워크로드 정보로부터 도출된 태스크 각각에 대한 파라미터(주기, 수행시간 등) 및 위성 시스템(10)의 하드웨어 정보(스펙)에 따라 하드웨어 기법 또는 소프트웨어 기법을 적용하여 에러(소프트에러)를 감지(Detection)하거나 감지된 에러(소프트에러)를 교정(Correction)하기 위하여 요구되는 특정 태스크의 반복 수행 횟수를 전술한 반복 수행 수준으로서 결정할 수 있다.

하드웨어에 내재된 기능을 활용하여 에러를 탐지 또는 교정하는 경우에는 추가적인 연산에 따른 오버헤드가 발생하지 않는 반면, 소프트웨어 기반의 에러 탐지 또는 교정 기법은 해당 태스크에 대한 반복적인 수행을 통해 달성될 수 있다. 즉, 소프트웨어 기반 에러 탐지를 위해서는 해당 태스크를 두 번 반복 수행을 하고, 두 수행의 결과값이 일치하지 않은 경우 에러가 있음을 탐지하게 되고, 소프트웨어 기반 에러 교정의 경우에는 세 번 이상 해당 태스크를 반복 수행하여 다수결을 통해 해당 태스크에 대한 올바른 출력값을 도출하도록 동작한다. 이와 관련하여, 다수의 결과가 모두 에러를 나타낼 확률은 극히 낮으므로 대부분의 낮은 확률로 발생하는 소프트에러는 반복 수행 결과를 비교하는 다수결 방식을 통해 극복될 수 있다. 이러한 에러 탐지/교정 프로세서를 바탕으로 할 때, 본원의 최적화 장치(100)는 어느 태스크를 에러 탐지/교정을 위하여 얼마나 많이 반복적으로 수행할 것인가에 대한 스케줄링 정책을 수립할 수 있다.

이러한, 반복 수행 수준을 결정하는 기법으로서 최적화 장치(100)는 특정 태스크에 대한 연속된 k번의 수행 중 m개의 수행을 반복적으로 수행하는 패턴을 결정하는 (m, k) 패턴을 스케줄링 정책으로서 수립할 수 있다. 달리 말해, 최적화 장치(100)는 k번의 수행 중 소프트에러의 탐지 또는 교정을 위해 해당 태스크를 반복 수행하는 횟수(수준)인 m값을 변화시킬 수 있다.

보다 구체적으로, 소정의 태스크에 대한 반복 수행 수준은 에러(소프트에러)의 탐지 동작 또는 교정 동작의 빈도가 변화함에 따라 증감할 수 있다. 한편, 교정(Correction) 동작의 빈도 변화에 따른 반복 수행 수준의 증감폭은 탐지(Detection) 동작의 빈도 변화에 따른 반복 수행 수준의 증감폭 대비 클 수 있다. 달리 말해, 최적화 장치(100)가 소프트에러를 고려하여 수립한 스케줄링 정책에 의할 때, 1회의 교정 동작을 수행하기 위하여는 해당 태스크에 대하여 적어도 2회 이상의 반복 수행이 필요하고, 1회의 탐지 동작을 수행하기 위하여는 해당 태스크에 대하여 적어도 1회 이상의 반복 수행이 필요하므로, 교정(Correction) 동작이 많이 수행되도록 스케줄링 정책이 결정될수록 탐지(Detection) 동작 대비 반복 수행 수준이 크게 증가할 수 있다.

또한, 최적화 장치(100)는 수립된 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화할 수 있다.

구체적으로, 최적화 장치(100)는 수립된 스케줄링 정책을 고려하여 소프트에러 안정성과 연계된 에러 발생 확률을 연산할 수 있다. 이와 관련하여 본원의 일 실시예에 따르면, 최적화 장치(100)는 수집된 스케줄링 정책을 적용하여 소정의 태스크를 스케줄링 정책에 따라 결정된 반복 수행 수준을 기초로 하여 반복 수행하더라도 여전히 발생할 수 있는 해당 태스크에 대한 에러(소프트에러)의 발생 확률을 위성 시스템(10)의 소프트에러 안정성을 나타내는 지표로서 도출할 수 있다.

달리 말해, 최적화 장치(100)에 의해 도출되는 위성 시스템(10)의 소프트에러 안정성은 수립된 스케줄링 정책에 의할 때 단위 시간 당 에러가 발생할 확률에 기초하여 연산될 수 있으며, 이러한 에러 발생 확률은 기능안전표준에서 PFH(probability of failure per hour), FIT(failure in time) 등으로 정량화 될 수 있다.

보다 구체적으로, 최적화 장치(100)는 전술한 (m, k) 패턴 기반의 스케줄링 정책에 의할 때, 탐지 또는 교정을 위한 반복 시행이 추가되는 m번의 태스크 수행에서 l_h개의 에러가 교정되지 않을 확률을 하기 식 3-1에 의해 계산하고, 탐지 또는 교정을 위한 반복 시행이 추가되지 않는 k-m번의 태스크 수행에서 l_n개의 에러가 발생할 확률을 하기 식 3-2에 의해 각각 계산할 수 있다.

[식 3-1]

[식 3-2]

또한, 최적화 장치(100)는 상기 식 3-1 및 식 3-2를 기초로 하여 전체 태스크 수행(k번의 태스크 수행)에서 l=l_h+l_n 개의 에러가 발생할 확률을 하기 식 3-3에 의해 종합 도출할 수 있다.

[식 3-3]

여기서, v_n은 태스크의 통상적인 단일 수행 시의 에러 발생확률(failure probability)이고, vh_n은 태스크의 에러 탐지 또는 교정을 위한 반복 수행의 추가에 따른 에러 발생확률(failure probability)일 수 있다. 또한, v_n은 해당 태스크에 대한 파라미터인 최악연산시간에 기초하여 연산되며, vh_n은 v_n에 기초하여 연산될 수 있다.

또한, 최적화 장치(100)는 (m, k) 패턴에 기초한 스케줄링 정책이 본질적으로 특정 횟수의 잘못된 시행(faulty execution)에 대하여 내성이 있다고 가정하여 최대 s개의 인스턴스(instance)를 견딜 수 있는 (m, k) 패턴 기반의 에러 발생 확률을 하기 식 3-4에 기초하여 연산할 수 있다.

[식 3-4]

한편, 최적화 장치(100)는 도출된 에러 발생 확률(Fr_(m,k))에 기초하여 기능안전표준에 대응하여 정의된 표준화된 에러 발생 수준인 PFH(시간당 에러 발생 확률, probability of failure per hour) 및 FIT(시간당 실패, failure in time) 중 적어도 하나를 연산할 수 있다.

구체적으로, 하기 식 4-1 및 식 4-2에 의하여, FIT가 연산될 수 있으며, PFH와 FIT는 FIT=PFH*10⁹의 관계를 만족할 수 있다.

[식 4-1]

여기서,

는 초(s) 단위의 (m, k) 패턴에 대한 스케줄링 길이를 의미할 수 있다.

[식 4-2]

여기서, N은 위성 시스템(10) 내에서 수행되는 전체 워크로드(태스크)의 수에 대응되는 것일 수 있다.

또한, 최적화 장치(100)는 하드웨어 정보, 앞서 수립된 스케줄링 정책 및 위성 시스템(10)의 주변 온도 정보에 기초하여 하드에러 안정성과 연계된 시스템 수명을 연산하여 위성 시스템(10)의 하드에러 안정성을 정량화할 수 있다.

구체적으로, 본원의 일 실시예에 따르면, 최적화 장치(100)는 스케줄링 정책 수립 시 결정된 반복 수행 수준에 기초하여 변화되는 프로세서(200)의 발열 패턴 및 전력 소모 패턴을 반영하여 위성 시스템(10)의 시스템 수명을 연산할 수 있다. 이와 관련하여, 최적화 장치(100)는 전술한 전력 모델링 결과 및 발열(온도) 모델링 결과에 고려하여 반복 수행 수준에 따른 위성 시스템(10)의 시스템 수명의 변화를 예측할 수 있다.

또한, 본원의 일 실시예에 따르면, 최적화 장치(100)는 주변 온도 정보, 프로세서(200)의 발열 패턴 및 프로세서(200)의 전력 소모 패턴에 기초하여 Electromigration(EM), Time-Dependent Dielectric Breakdown(TBBD), Stress Migration(SM) 및 Thermal Cycling(TC) 중 적어도 하나의 고장 메커니즘을 고려한 시스템 수명을 위성 시스템(10)의 하드에러 안정성을 나타내는 지표로서 연산할 수 있다.

먼저, Electromigration(EM) 메커니즘은 전자 전류에 의해 전달된 운동량으로 인한 연결부(interconnect)에서의 금속 원자의 전위를 의미하며, 이러한 EM은 연결부(interconnect) 저항 또는 개방 회로를 증가시키며, EM으로 인한 위성 시스템(10)의 수명(MTTF)은 하기 식 5-1과 같이 모델링 될 수 있다.

[식 5-1]

또한, Time-Dependent Dielectric Breakdown(TBBD) 메커니즘은 게이트 유전체가 시간의 흐름에 따라 마모되어 트랜지스터의 고장을 유발하는 현상에 의한 것으로서, TDDB로 인한 위성 시스템(10)의 수명(MTTF)은 하기 식 5-2와 같이 모델링 될 수 있다.

[식 5-2]

여기서, A_TDDB는 피팅 상수이고, V는 전압이고, a, b, X, Y, Z는 경험적 피팅 매개 변수를 의미한다.

또한, Stress Migration(SM) 메커니즘은 서로 다른 물질(재료) 간의 열적 불일치로 인한 연결부(interconnect)에서의 금속 원자 이동에 의한 것이며, SM으로 인한 위성 시스템(10)의 수명(MTTF)은 하기 식 5-3과 같이 모델링 될 수 있다.

[식 5-3]

또한, Thermal Cycling(TC) 메커니즘은 주로 인접한 물질(재료) 간의 열팽창 계수의 차이로 인해 발생하여 TC는 전술한 고장 메커니즘과 다른 경향으로 작용할 수 있다. 구체적으로, TC에 의한 누적된 손상은 패키지, 솔더, 연결부, 유전체 물질 등에 영구적 인 고장을 일으킬 수 있으므로, TC 메커니즘에서는 위성 시스템(10)에 대한 시간에 따른 온도 구배가 중요한 요소로 작용하며, TC로 인한 MTTF는 하기 식 5-4와 같이 모델링 될 수 있다.

[식 5-4]

특히, TC를 제외한 나머지 고장 메커니즘은 주로 높은 온도에서 더 심하게 발생하는 것으로 알려져 있기 때문에 일반적인 반도체 기반 시스템 구동 시에 저전력 구동을 통해 최대한 발열을 줄이면 자동적으로 수명도 길어지는 효과를 도모할 수 있었던 것과 달리, TC의 경우는 단순히 온도의 절대값이 중요한 것이 아니라 온도 변화의 차이가 중요하기 때문에 큰 온도변화를 겪는 위성 시스템(10)에서는 매우 치명적으로 작용할 수 있다.

이와 관련하여, 본원에서 개시하는 최적화 장치(100)는 위성 시스템(10)의 TC 메커니즘을 고려하여 열주기 진폭을 줄이는 스케줄링 정책을 수립하도록 동작할 수 있으며, 이러한 스케줄링 정책을 수립(결정)하는 과정에서 소프트에러 안정성 및 하드에러 안정성이 함께 고려될 수 있다. 이러한, TC 메커니즘을 고려한 스케줄링 정책의 수립은 도 6 내지 도 7b를 참조하여 후술하도록 한다.

도 4는 스케줄링 정책의 변화에 따른 소프트에러 안정성 및 하드에러 안정성의 정량화 결과를 예시적으로 나타낸 그래프이다.

도 4의 (a)는 반복 수행 수준(k번(도 4를 기준으로 하면, 16번)의 태스크의 시행 중 반복 수행되는 횟수를 나타내는 m값)의 변화에 따른 프로세서(200)의 이용률의 변화를 나타내고, 도 4의 (b)는 반복 수행 수준의 변화에 따른 프로세서(200)의 전력 소모의 변화를 나타내고, 도 4의 (c)는 반복 수행 수준의 변화에 따른 하드에러 안정성(시스템 수명)의 변화를 나타내고, 도 4의 (d)는 반복 수행 수준의 변화에 따른 소프트에러 안정성(에러 발생 확률)의 변화를 나타낸 것이다.

또한, 도 4의 SW/SW는 에러의 탐지 및 교정을 소프트웨어에 기반하여 수행할 경우를 나타내고, HW/SW는 에러의 탐지는 하드웨어에 기반하여 수행하고 에러의 교정은 소프트웨어에 기반하여 수행할 경우를 나타내고, HW/HW는 에러의 탐지 및 교정을 하드웨어에 기반하여 수행하는 경우를 나타내는 것일 수 있다.

도 4를 참조하면, HW/HW의 경우, 하드웨어를 통한 에러의 탐지 및 교정은 반복 수행 수준(도 4의 경우, 태스크의 16번의 수행 중 반복 수행되는 m 값)의 영향을 크게 받지 않고 수행될 수 있으므로, 반복 수행 수준의 변화에도 불구하고 소프트에러 안정성 또는 하드에러 안정성의 변화가 미비하게 나타날 수 있다.

반면, 도 4를 참조하면, 소프트웨어에 의해 에러의 탐지 및 교정이 수행되는 경우(SW/SW)에는, 반복 수행 수준이 증가할수록(달리 말해, m값이 커질수록) 프로세서(200)의 이용률이 증가하고, 프로세서(200)의 전력 소모가 증가하며, 하드에러 안정성(시스템 수명)이 악화되고, 소프트에러 안정성(에러 발생 확률)은 향상되는 경향을 보이는 것을 확인할 수 있다.

반대로, 도 4를 참조하면, 소프트웨어에 의해 에러의 탐지 및 교정이 수행되는 경우(SW/SW), 반복 수행 수준이 감소할수록(달리 말해, m값이 작아질수록) 프로세서(200)의 이용률이 감소하고, 프로세서(200)의 전력 소모가 감소하며, 하드에러 안정성(시스템 수명)이 개선되고, 소프트에러 안정성(에러 발생 확률)은 악화되는 경향을 보이는 것을 확인할 수 있다.

즉, 최적화 장치(100)에 의해 도출된 소프트에러 안정성 및 하드에러 안정성에 대한 정량화 결과를 종합하면, 소프트에러 안정성과 하드에러 안정성 간에는 명확한 트레이드 오프(Trade-off) 관계가 나타내는 것을 확인할 수 있다. 이와 관련하여, 최적화 장치(100)는 정량화된 소프트에러 안정성 및 하드에러 안정성의 상대적 관계와 태스크의 유형, 위성 시스템(10)에 대한 동작 요구 사항 등을 고려하여 해당 태스크의 반복 수행 수준을 포함하는 스케줄링 정책을 결정(채택)할 수 있다.

구체적으로, 본원의 일 실시예에 따르면, 최적화 장치(100)는 위성 시스템(10)에 대한 동작 요구 사항을 획득하고, 정량화된 소프트에러 안정성 및 하드에러 안정성이 동작 요구 사항에 부합하도록 스케줄링 정책을 갱신할 수 있다. 여기서, 동작 요구 사항이란 위성 시스템(10)과 연계된 기능안전표준에서 요구하는 안정성 수준에 대응될 수 있다.

도 5는 위성 시스템에 대한 동작 요구 사항과 관련한 기능안전 표준을 예시적으로 나타낸 도표이다.

도 4 및 도 5를 참조하면, 예시적으로 위성 시스템(10)에 대한 동작 요구 사항이 IEC-61508 표준의 'SIL 2' 요구사항에 대응되면, FIT 값이 1000이하를 만족하여야 하므로, 이 때, 반복 수행 수준은 동작 요구 사항을 만족하면서 위성 시스템(10)의 수명을 최대화할 수 있는 m=6으로 결정될 수 있다.

다른 예로, 위성 시스템(10)에 대한 동작 요구 사항이 IEC-61508 표준의 'SIL 3' 요구사항에 대응하도록 강화되면, FIT 값이 100 이하를 만족하여야 하므로, 이 경우 최적화 장치(100)는 m=15이상에서 동작 요구 사항을 만족하는 것을 판단하여 반복 수행 수준을 m=15로 결정할 수 있다.

도 6은 온도를 기준으로 위성 시스템의 동작 주기를 복수의 구간으로 분할하여 나타낸 도면이다.

도 6을 참조하면, 위성 시스템(10)의 동작 주기는 위성 시스템(10)의 온도를 기준으로 구간(interval) 1로부터 구간(interval) 10까지 분할될 수 있다. 이와 관련하여, 전술한 TC 메커니즘 등을 고려할 때 위성 시스템(10)의 절대적인 온도가 아닌 온도의 진폭이 위성 시스템(10)의 하드에러 안정성에 주요하게 영향을 미칠 수 있으므로, 위성 시스템(10)의 온도가 상대적으로 높은 지점(구간)과 온도가 상대적으로 낮은 지점(구간)에서는 서로 다른 스케줄링 정책이 수립될 수 있다.

또한, 본원의 일 실시예에 따르면, 최적화 장치(100)는 위성 시스템(10)의 주변 온도 정보에 기초하여 복수의 구간으로 분할되는 위성 시스템(10)의 동작 주기의 구간에 따라 반복 수행 수준을 결정할 수 있다. 이하에서는, 도 7a 및 도 7b를 참조하여 본원에서 개시하는 최적화 장치(100)가 위성 시스템(10)의 TC(Thermal Cycling) 효과를 극적으로 감소시키면서도 소프트에러 안정성을 강화할 수 있도록 온도를 기준으로 분할되는 위성 시스템(10)의 동작 주기 내 복수의 구간 각각에 대하여 태스크의 반복 수행 수준을 상이하게 결정하는 실시예에 대하여 설명하도록 한다.

도 7a 및 도 7b는 위성 시스템의 열주기(Thermal Cycling) 안정성을 고려하여 위성 시스템의 온도에 따라 상이한 스케줄링 정책을 적용할 경우의 소프트에러 안정성 및 하드에러 안정성의 정량화 결과를 예시적으로 나타낸 그래프이다.

구체적으로, 도 7a는 가장 높은 온도 구간(구간 10)에 대하여 반복 수행 수준을 변화시키면서 이용률, 전력 소비, 예상 수명 및 에러 발생 확률의 변화를 나타낸 그래프이다.

도 4 및 도 7a를 함께 참조하면, 도 7a에서와 같이 가장 높은 온도 구간(구간 10)에 대하여 반복 수행 수준을 조절하는 경우, 보다 큰 수명 개선을 획득할 수 있음을 확인할 수 있다. 이는, 최대 온도 구간(구간 10)에서는 위성 시스템(10)에서 발열이 적게 발생할수록 수명이 큰 폭으로 향상될 수 있으며, 반대로 최대 온도 구간(구간 10)에서 온도가 오히려 커지게 되면 열주기 진폭에 직접적인 영향을 미쳐 수명을 크게 악화시킬 수 있음을 의미한다. 특히, 도 7a를 참조하면, 가장 높은 온도 구간에 대하여 반복 수행 수준을 조정하는 경우, 동작 요구 사항이 'SIL 3' 에 대응할 때 m=8 이상의 반복 수행 수준으로도 기능안전표준을 만족시키는 것을 확인할 수 있다.

또한, 도 7b는 가장 높은 온도 구간(구간 10)에서는 반복 수행 수준을 최소(m=0)로 유지하고, 가장 낮은 온도 구간(구간 1)에서는 반복 수행 수준을 최대(m=16)로 유지하도록 설정하되, 나머지 구간(구간 2 내지 구간 9)에서 반복 수행 수준을 변화시키면서 이용률, 전력 소비, 예상 수명 및 에러 발생 확률의 변화를 나타낸 그래프이다.

도 7b를 참조하면, 반복 수행 수준을 위성 시스템(10)의 열주기를 고려하여 위성 시스템(10)의 최대 온도 구간에서는 발열을 최소화하고, 최저 온도 구간에서는 반대로 발열을 최대화할 수 있는 수준으로 결정하면, 중간 구간(구간 2 내지 구간 9)에서는 반복 수행 수준의 변화에 따른 안정성의 변화가 크지 않지만, 시스템 수명이 일관되게 높은 수준을 유지하는 것을 확인할 수 있다. 특히, 도 7b를 참조하면, 가장 높은 온도 구간에 대하여 반복 수행 수준을 최소값으로 적용하고, 가장 낮은 온도 구간에 대하여 반복 수행 수준을 최대값으로 적용하는 경우, 동작 요구 사항이 'SIL 2' 에 대응할 때 m=6 이상의 반복 수행 수준으로도 기능안전표준을 만족시키는 것을 확인할 수 있다.

달리 말해, 본원의 일 실시예에 따른 최적화 장치(100)는 위성 시스템(10)의 열주기를 고려하여 반복 수행 수준을 온도에 따른 시간 구간 별로 개별 설정할 수 있다.

보다 구체적으로, 최적화 장치(100)는 위성 시스템(10)이 상대적으로 낮은 온도에 해당하는 구간에 대하여 적용될수록 반복 수행 수준이 높아지도록(달리 말해, 높은 강도로 재수행하도록) 스케줄링 정책을 결정할 수 있다. 또한, 최적화 장치(100)는 반대로 위성 시스템(10)이 상대적으로 높은 온도에 해당하는 구간에 대하여 적용될수록 반복 수행 수준이 낮아지도록(달리 말해, 낮은 강도로 재수행하도록) 스케줄링 정책을 결정할 수 있다. 이와 관련하여 본원의 일 실시예에 따르면, 최적화 장치(100)는 위성 시스템(10)의 최저 온도에 대응하는 시간 구간에 대하여 반복 수행 수준이 최대가 되도록 하고, 최고 온도에 대응하는 시간 구간에 대하여 반복 수행 수준이 최소가 되도록 하는 스케줄링 정책을 수립함으로써, Thermal Cycling(TC)에 의한 영향을 극적으로 감소시킬 수 있다.

도 8은 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치의 개략적인 구성도이다.

도 8을 참조하면, 최적화 장치(100)는 수집부(110), 계획부(120), 평가부(130) 및 적용부(140)를 포함할 수 있다. 또한, 도 8을 참조하면, 평가부(130)는 제1평가부(131) 및 제2평가부(132)를 포함할 수 있다.

수집부(110)는 위성 시스템(10)에 탑재되는 프로세서(200)의 하드웨어 정보 및 프로세서(200)에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득할 수 있다.

계획부(120)는 획득된 하드웨어 정보 및 워크로드 정보에 기초하여 태스크에 대한 스케줄링 정책을 수립할 수 있다. 구체적으로, 계획부(120)는 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 태스크 각각에 대한 반복 수행 수준을 결정할 수 있다.

평가부(130)는 수립된 스케줄링 정책에 따른 위성 시스템(10)의 소프트에러 안정성 및 하드에러 안정성을 정량화할 수 있다.

구체적으로, 제1평가부(131)는 스케줄링 정책을 고려하여 소프트에러 안정성과 연계된 에러 발생 확률을 연산할 수 있다.

또한, 제2평가부(132)는 하드웨어 정보, 스케줄링 정책 및 위성 시스템(10)의 주변 온도 정보에 기초하여 하드에러 안정성과 연계된 시스템 수명을 연산할 수 있다. 구체적으로, 제2평가부(132)는 주변 온도 정보, 프로세서(200)의 발열 패턴 및 전력 소모 패턴에 기초하여 Electromigration(EM), Time-Dependent Dielectric Breakdown(TBBD), Stress Migration(SM) 및 Thermal Cycling(TC) 중 적어도 하나의 고장 메커니즘을 고려하여 시스템 수명을 연산할 수 있다.

적용부(140)는 위성 시스템에 대한 동작 요구 사항을 획득하고, 정량화된 소프트에러 안정성 및 하드에러 안정성이 상기 동작 요구 사항에 부합하도록 상기 스케줄링 정책을 갱신할 수 있다.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.

도 9는 본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법에 대한 동작 흐름도이다.

도 9에 도시된 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은 앞서 설명된 최적화 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 최적화 장치(100)에 대하여 설명된 내용은 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법에 대한 설명에도 동일하게 적용될 수 있다.

도 9를 참조하면, 단계 S11에서 수집부(110)는 위성 시스템(10)에 탑재되는 프로세서(200)의 하드웨어 정보를 획득할 수 있다.

다음으로, 단계 S12에서 수집부(110)는 프로세서(200)에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득할 수 있다.

다음으로, 단계 S13에서 계획부(120)는 하드웨어 정보 및 워크로드 정보에 기초하여 태스크에 대한 스케줄링 정책을 수립할 수 있다. 구체적으로, 단계 S13에서 계획부(120)는 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 태스크 각각에 대한 반복 수행 수준을 결정할 수 있다.

다음으로, 단계 S14에서 평가부(130)는 수립된 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화할 수 있다.

구체적으로, 단계 S14에서 제1평가부(131)는 스케줄링 정책을 고려하여 소프트에러 안정성과 연계된 에러 발생 확률을 연산할 수 있다.

또한, 단계 S14에서 제2평가부(132)는 하드웨어 정보, 스케줄링 정책 및 위성 시스템(10)의 주변 온도 정보에 기초하여 하드에러 안정성과 연계된 시스템 수명을 연산할 수 있다.

다음으로, 단계 S15에서 적용부(140)는 위성 시스템(10)에 대한 동작 요구 사항을 획득할 수 있다.

다음으로, 단계 S16에서 적용부(140)는 정량화된 소프트에러 안정성 및 하드에러 안정성이 획득된 동작 요구 사항에 부합하도록 스케줄링 정책을 갱신(결정)할 수 있다.

상술한 설명에서, 단계 S11 내지 S16은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

본원의 일 실시예에 따른 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 전술한 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

10: 위성 시스템
100: 하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치
110: 수집부
120: 계획부
130: 평가부
131: 제1평가부
132: 제2평가부
140: 적용부
200: 프로세서

Claims

하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 방법에 있어서,
상기 위성 시스템에 탑재되는 프로세서의 하드웨어 정보를 획득하는 단계;
상기 프로세서에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득하는 단계;
상기 하드웨어 정보 및 상기 워크로드 정보에 기초하여 상기 태스크에 대한 스케줄링 정책을 수립하는 단계; 및
상기 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화하는 단계,
를 포함하고,
상기 정량화하는 단계는,
상기 스케줄링 정책을 고려하여 상기 소프트에러 안정성과 연계된 에러 발생 확률을 연산하는 단계; 및
상기 하드웨어 정보, 상기 스케줄링 정책 및 상기 위성 시스템의 주변 온도 정보에 기초하여 상기 하드에러 안정성과 연계된 시스템 수명을 연산하는 단계,
를 포함하는 것인, 최적화 방법.
삭제
제1항에 있어서,
상기 스케줄링 정책을 수립하는 단계는,
상기 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 상기 태스크 각각에 대한 반복 수행 수준을 결정하는 것인, 최적화 방법.
제3항에 있어서,
상기 하드웨어 정보는,
태스크 수행에 따른 상기 프로세서의 발열 패턴에 대한 정보 및 전력 소모 패턴에 대한 정보를 포함하는 것인, 최적화 방법.
제4항에 있어서,
상기 시스템 수명을 연산하는 단계는,
상기 반복 수행 수준에 기초하여 변화되는 상기 발열 패턴 및 상기 전력 소모 패턴을 반영하여 상기 시스템 수명을 연산하는 것인, 최적화 방법.
제5항에 있어서,
상기 시스템 수명을 연산하는 단계는,
상기 주변 온도 정보, 상기 발열 패턴 및 상기 전력 소모 패턴에 기초하여 Electromigration(EM), Time-Dependent Dielectric Breakdown(TBBD), Stress Migration(SM) 및 Thermal Cycling(TC) 중 적어도 하나의 고장 메커니즘을 고려하여 상기 시스템 수명을 연산하는 것인, 최적화 방법
제3항에 있어서,
소정의 태스크에 대한 상기 반복 수행 수준은,
상기 탐지 동작 또는 상기 교정 동작의 빈도가 변화함에 따라 증감하되,
상기 교정 동작의 빈도 변화에 따른 상기 반복 수행 수준의 증감폭은 상기 탐지 동작의 빈도 변화에 따른 증감폭 대비 큰 것을 특징으로 하는, 최적화 방법.
제3항에 있어서,
상기 위성 시스템에 대한 동작 요구 사항을 획득하는 단계; 및
정량화된 상기 소프트에러 안정성 및 상기 하드에러 안정성이 상기 동작 요구 사항에 부합하도록 상기 스케줄링 정책을 갱신하는 단계,
를 더 포함하는 것인, 최적화 방법.
제8항에 있어서,
상기 스케줄링 정책을 갱신하는 단계는,
상기 주변 온도 정보에 기초하여 복수의 구간으로 분할되는 상기 위성 시스템의 동작 주기의 구간에 따라 상기 반복 수행 수준을 결정하는 것인, 최적화 방법.
하드에러 안정성과 소프트에러 안정성을 고려한 위성 시스템 최적화 장치에 있어서,
상기 위성 시스템에 탑재되는 프로세서의 하드웨어 정보 및 상기 프로세서에 의해 수행되는 태스크를 포함하는 워크로드 정보를 획득하는 수집부;
상기 하드웨어 정보 및 상기 워크로드 정보에 기초하여 상기 태스크에 대한 스케줄링 정책을 수립하는 계획부; 및
상기 스케줄링 정책에 따른 소프트에러 안정성 및 하드에러 안정성을 정량화하는 평가부,
를 포함하고,
상기 평가부는,
상기 스케줄링 정책을 고려하여 상기 소프트에러 안정성과 연계된 에러 발생 확률을 연산하는 제1평가부; 및
상기 하드웨어 정보, 상기 스케줄링 정책 및 상기 위성 시스템의 주변 온도 정보에 기초하여 상기 하드에러 안정성과 연계된 시스템 수명을 연산하는 제2평가부,
를 포함하는 것인, 최적화 장치.
삭제
제10항에 있어서,
상기 계획부는,
상기 태스크의 수행 도중 발생 가능한 에러의 탐지 동작 및 교정 동작 중 적어도 하나를 수행하기 위한 상기 태스크 각각에 대한 반복 수행 수준을 결정하는 것인, 최적화 장치.
제12항에 있어서,
상기 하드웨어 정보는,
태스크 수행에 따른 상기 프로세서의 발열 패턴에 대한 정보 및 전력 소모 패턴에 대한 정보를 포함하고,
상기 제2평가부는,
상기 반복 수행 수준에 기초하여 변화되는 상기 발열 패턴 및 상기 전력 소모 패턴을 반영하여 상기 시스템 수명을 연산하는 것인, 최적화 장치.
제13항에 있어서,
상기 제2평가부는,
상기 주변 온도 정보, 상기 발열 패턴 및 상기 전력 소모 패턴에 기초하여 Electromigration(EM), Time-Dependent Dielectric Breakdown(TBBD), Stress Migration(SM) 및 Thermal Cycling(TC) 중 적어도 하나의 고장 메커니즘을 고려하여 상기 시스템 수명을 연산하는 것인, 최적화 장치
제13항에 있어서,
상기 위성 시스템에 대한 동작 요구 사항을 획득하고, 정량화된 상기 소프트에러 안정성 및 상기 하드에러 안정성이 상기 동작 요구 사항에 부합하도록 상기 스케줄링 정책을 갱신하는 적용부,
를 더 포함하는 것인, 최적화 장치.
제15항에 있어서,
상기 적용부는,
상기 주변 온도 정보에 기초하여 복수의 구간으로 분할되는 상기 위성 시스템의 동작 주기의 구간에 따라 상기 반복 수행 수준을 결정하는 것인, 최적화 장치.