KR102526368B1

KR102526368B1 - 멀티벤더를 지원하는 서버 관리 시스템

Info

Publication number: KR102526368B1
Application number: KR1020220124122A
Authority: KR
Inventors: 유세권
Original assignee: 주식회사 지니에이아이
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-05-02
Also published as: JP7436737B1; US20240111584A1; JP2024050522A

Abstract

본 발명은 멀티벤더를 지원하는 서버 관리 시스템에 관한 것으로서, 상기 서버 관리 시스템을 관리하는 관리자가 사용하는 관리자 단말, 관리 대상 서버를 의뢰한 각 고객이 사용하는 고객 단말 및 상기 관리 대상 서버로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 관리 서버를 포함한다.
본 발명에 의하면, 멀티벤더를 지원하는 서버 관리 시스템을 제안함으로써, 보다 편리하고 효율적으로 다수의 서버들을 관리할 수 있는 효과가 있다.

Description

멀티벤더를 지원하는 서버 관리 시스템 {Server management system supporting multi-vendor}

본 발명은 서버들을 관리하기 위한 서버 관리 시스템에 관한 것으로서, 더욱 상세하게는 멀티벤더(multi-vendor)를 지원하는 서버 관리 시스템에 관한 것이다.

최근 컴퓨터가 대용량화, 고속화됨에 따라, 시스템의 에러나 바이러스 등에 의한 컴퓨터 장애가 자주 발생되고 있다. 특히 대용량의 서버의 경우 다양한 응용 프로그램의 동작과 데이터 저장, 독출 및 전송 등 여러 요인에 의한 장애가 빈번하게 발생할 수 있다. 따라서 각 기업에서는 이러한 서버를 관리하는 별도의 서버 관리자를 상주시켜 서버를 관리하고, 장애 발생시 이를 처리하도록 하고 있다.

그런데, 서버 관리에는 전문적인 기술이 요구되며, 그러한 전문 인력을 채용하기에는 상당한 비용이 요구된다. 따라서 특히 소규모의 기업 등에서는 해당 서버 관리자로서 전문 기술자를 채용하는 것이 아니라, 사내 기존 인력 중에서 적절한 사람을 선택하여 서버 관리자로서 두고 있는 실정이다. 그럴 경우에는 서버 관리가 원활히 이루어지기 힘들며, 더구나 서버 장애 발생시에 원활히 대처하기가 거의 불가능하다.

또한, 서버 관리를 위해 전문 기술을 가진 서버 관리자를 채용하였을 경우에도, 서버 관리자가 출장 등의 이유로 서버에서 원격지에 있을 경우에는 서버의 장애 발생시 이러한 서버의 상황이 관리자에 신속히 통보되기가 힘들어서 서버 장애 발생시에 원활히 대처하기가 힘들었다 더욱이 서버 관리자가 해당 서버의 장애 발생을 통보 받았을 경우에도, 원격지에 있는 관계로 이에 대한 즉각적인 대처가 어려워서, 결국 서버가 다운되는 등 막대한 손실이 초래될 수 있다.

종래에는 다수의 서버들을 통합하여 관리하는 서버 통합 관리 시스템에서 어떤 서버에 장애가 발생하면, 이를 감지하고, 사후에 장애를 복구하는 방식이다. 그러나, 이러한 종래의 사후 장애 복구 방식은, 장애가 발생한 서버를 복구하는 기간 동안 해당 서버의 동작이 중단되고, 서버 사용 중단에 따른 손실이 발생하고, 복구하는데 드는 인력과 비용에 따른 손해가 크다는 문제점이 있다.

대한민국 공개특허 10-2015-0124642

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 멀티벤더를 지원하고 더 신속하게 자동화할 수 있는 서버 관리 시스템을 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명은 멀티벤더를 지원하는 서버 관리 시스템에 관한 것으로서, 상기 서버 관리 시스템을 관리하는 관리자가 사용하는 관리자 단말, 관리 대상 서버를 의뢰한 각 고객이 사용하는 고객 단말 및 상기 관리 대상 서버로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 관리 서버를 포함한다.

상기 관리 서버는 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 정보를 수집하여 저장하고, 저장한 정보를 조회하고 이용할 수 있도록 상기 관리자 단말 및 상기 고객 단말에 제공할 수 있다.

상기 관리 서버는 등록된 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 인벤토리 정보를 수집하여 저장할 수 있다.

상기 관리 서버는 긴급 펌웨어(firmware) 업데이트를 포함한 펌웨어 업데이트 이벤트가 있으면, 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행할 수 있다.

상기 관리 서버는 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면 로그 및 패턴을 분석하고, 분석한 데이터를 저장하고, 장애 이슈가 해결되면, 해당 장비와 유사한 장비를 분류하고, 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시할 수 있다.

상기 관리 서버는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.

본 발명에 의하면, 멀티벤더를 지원하는 서버 관리 시스템을 제안함으로써, 보다 편리하고 효율적으로 다수의 서버들을 관리할 수 있는 효과가 있다.

또한, 본 발명에 의하면, 서버를 소유하고 있는 고객에게 장애 패턴을 분석하여 선제적으로 장애를 미리 대응토록 하고, 서버 관리 기능을 제공함으로써, 고객의 니즈(needs)에 맞는 데이터를 가공하여 전달할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 서버 관리 시스템의 전반적인 구성을 개념적으로 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 멀티벤더를 지원하여 서버를 관리하는 방법을 예시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 로그 및 패턴을 분석하여 장애를 사전 예방하는 방법을 예시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 Redfish API를 활용하여 멀티벤더를 지원하는 동작 모델을 예시한 것이다.
도 5 내지 도 18는 본 발명의 일 실시예에 따른 서버 관리 시스템의 화면예를 도시한 것이다.
도 19는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이다.
도 20 및 도 21은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다.
도 22 내지 도 23는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 본 발명의 일 실시예에 따른 서버 관리 시스템의 전반적인 구성을 개념적으로 도시한 것이다.

도 1을 참조하면, 본 발명의 서버 관리 시스템은 관리 서버(110), 관리자 단말(120), 고객 단말(130)을 포함한다.

관리자 단말(120)은 서버 관리 시스템을 관리하는 관리자가 사용하는 단말이다.

고객 단말(130)은 관리 대상 서버(10, 20, 30, 40)를 의뢰한 각 고객이 사용하는 단말이다.

본 발명의 일 실시예에서 관리자 단말(120)과 고객 단말(130)은 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 PC, 핸드폰, 휴대폰, 스마트 폰 등 유무선 통신이 가능한 다양한 단말 형태로 구현될 수 있다.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 관리자 단말(120)과 고객 단말(130)에 제공한다.

관리 서버(110)는 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 정보를 수집하여 저장하고, 저장한 정보를 조회하고 이용할 수 있도록 관리자 단말(120) 및 고객 단말(130)에 제공할 수 있다.

관리 서버(110)는 등록된 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 인벤토리 정보를 수집하여 저장할 수 있다.

관리 서버(110)는 긴급 펌웨어(firmware) 업데이트를 포함한 펌웨어 업데이트 이벤트가 있으면, 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행할 수 있다.

관리 서버(110)는 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면 로그 및 패턴을 분석하고, 분석한 데이터를 저장하고, 장애 이슈가 해결되면, 해당 장비와 유사한 장비를 분류하고, 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시할 수 있다.

관리 서버(110)는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 장애 패턴을 분석하여 유사한 장애가 발생하는 것을 예방하는 예방 분석 기능을 제공하며, 예방 분석 기능을 통해 관리 대상 서버(10, 20, 30, 40)에서 미리 정해진 이벤트 발생시, 발생된 이벤트에 따른 장애가 발생할 수 있음을 경고하는 예상 장애 발생 메시지를 해당 관리 대상 서버를 의뢰한 고객 단말에 선제적으로 송신할 수 있다.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 설치, 장애, 기술지원 이력을 관리하는 이력 관리 기능을 제공할 수 있다.

관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 납품 이력을 관리하는 납품 관리 기능을 제공할 수 있다.

관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 미리 정해진 분류 기준에 따라 위험 장비를 분류하고, 해당 위험 장비에 대한 경고 메시지를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 위험 장비에 대한 사전 장애 대응 조치를 수행할 수 있다.

관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 해당 장비의 장애 증상을 파악하고, 해당 장애 증상에 대응하는 장애 코드에 따라 원인을 분석하고, 장애 대응 방안을 포함하는 리포트를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 장비에 대한 장애 대응 조치를 수행할 수 있다.

본 발명에서 관리 서버(110)는 고객 단말(130)의 요청에 따라 관리 대상 서버의 관리와 관련한 데이터를 가공하여 전달하는 데이터 딜리버리 서비스(data delivery service) 기능을 제공할 수 있다.

또한, 관리 서버(110)는 관리 대상 서버의 크리티컬(Critical) 장애를 분석하고, 동일 사례를 전파하여 서버 장애를 사전에 예방할 수 있으며, 분기 별 각 서버의 장애 통계를 관리자 단말(120) 및 고객 단말(130)에 제공할 수 있다.

본 발명에서 관리 서버는 납품한 서버 관련 장비에 대한 이력을 관리할 수 있으며, 설치/장애/기술지원 이력관리 서비스를 제공하고, 파츠(parts)별 이슈(issue)를 관리할 수 있다.

본 발명은 고객으로부터 의뢰받은 다수의 관리 대상 서버(10, 20, 30, 40)를 관리하는 서버 관리 시스템에 관한 것이다.

본 발명의 일 실시예에서 관리 대상이 되는 서버인 관리 대상 서버는 다양한 서버일 수 있으며, 예를 들어 Dell 서버(10), HP 서버(20), Lenovo 서버(30), X86 서버(40)일 수 있다.

관리 대상 서버(10, 20, 30, 40)와 관리 서버(110)는 다양한 유무선 통신 방식을 통해 통신하며, 예를 들어 HTTP 통신이나 JSON 형식의 POST 전송 방식으로 통신할 수 있다.

또한, 관리 대상 서버(10, 20, 30, 40)는 대규모 전산환경의 다양한 x86 서버에서 정해진 스케쥴링에 따라 스크립트를 자동 실행할 수 있다.

관리자는 관리자 단말(120)을 통해 관리 서버(110)에 접속하고, 관리 서버(110)에 정해진 스케쥴링에 따라 배치(BATCH) 프로그램을 실행하여, 기존 데이터와 비교하여 변경 이력을 관리한다.

관리 서버(110)는 자동으로 관리 대상 서버(10, 20, 30, 40)의 하드웨어 정보 및 소프트웨어 정보를 수집하고, 이를 기반으로 각 서버의 현황을 파악하고, 각 서버의 요구 상황에 맞춰 관리 서비스를 제공한다.

관리 서버(110)는 관리 대상 서버의 BBU(Backup Battery Unit) 주기를 점검하여, 미리 정해진 주기가 되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 전송할 수 있다.

또한, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 미리 정해진 수치 이하로 감소하면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 40% 이하로 감소되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.

관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 미리 정해진 수치 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 10% 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.

또한, 관리 서버(110)는 관리 대상 서버의 BBU 쓰기 정책(Write Policy)을 점검하여, 쓰기 정책이 변경되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.

본 발명의 다수의 서버를 통합하여 관리하는 서버 통합 관리 시스템에 대한 것으로서, 서버의 다양한 기능을 진단하고, 장애를 미리 예측하여 경고하고, 해결 방법을 함께 제시한다. 본 발명에서는 서버의 다양한 기능 중에서 BBU(Backup Battery Unit)를 예시하여 설명하기로 한다.

Dell 서버를 예시하면, RAID 컨트롤러의 배터리 실패(failure)로 인한 캐쉬(cache) 데이터의 손실 방지를 위해, BBU의 배터리 상태 점검 및 선제적 교체 진행이 필요하다. 이를 위하여, Dell 서버의 로그(log) 확인을 통해 배터리 완전 충전(Full Charging) 효율(%)을 확인하고, 완전 충전 효율이 50% 미만인 장비를 확인하고, 배터리 교체를 진행한다. 36개월 이후의 배터리 충전 효율은 대략 70% 전후로 자연적으로 감소되며, 이를 감안하여 대략 20% 정도 추가적인 감소가 있는 배터리에 대해 충전효율 불량으로 판정할 수 있다.

본 발명의 서버 통합 관리 시스템은 BBU 주기 점검, 충전용량 점검, 잔여 용량 점검, 쓰기 정책(Write Policy) 점검을 수행하며, 이를 통해 캐쉬 데이터 손실을 방지하고, 배터리 상태에 대한 위험 요인을 사전에 방지할 수 있다.

본 발명의 서버 관리 시스템에서는 어떤 이벤트가 발생할 때, 해당 이벤트를 통해 서버에 장애가 발생할 수 있음을 진단하여, 미리 해당 서버의 시스템에 경고하고, 해결 방법에 대한 정보를 함께 전달한다. 이와 관련하여, 서버에서 발생하는 이벤트는 매우 다양하고, 전에 없던 이벤트가 새롭게 발생할 수도 있다. 이제 본 발명에서는 이러한 서버에서 발생할 수 있는 이벤트 중에서 몇 가지 이벤트를 예시하기로 한다.

1. iDRAC7 버전 1.51.51 에 적용된 제품 Dell R720 서버에서 팬(FAN) 소음(Reading 12,000 RPM 이상).

이에 대한 해결 방법은 iDRAC7 1.46.45 버전으로 다운그레이드(Downgrade) 할 것을 권장한다.

2. 랙 PDU#1 및 PDU#2에서 전력 사용률이 PDU#1으로 쏠림 현상이 발생.

도 21을 참조하면, Dell 서버뿐만 아니라, HP 서버도 마찬가지로 파워 서플라이(Power Supply)의 디폴트(Default)로 액티브 스탠바이(Active Standby)로 작동되게끔 셋팅되어 있으며, 이로 인해 전력이 랙(Rack) PDU의 한쪽으로 몰리는 상황이 발생하는데 밸런스(Balance)를 맞추기 위해서는 Primary - PSU 의 비율을 맞춰줄 필요가 있다.

3. Dell 서버 제품 12세대 ~ 14세대 커널 업데이트(kernel update) 후 OS 이상 작동.

이때, 관리 서버(110)는 델(dell) 서버에서 커널(Kernel) 업데이트(update) 후, OS(Operating system) 상에서 이상 작동이 발견되면, 이로 인해 발생할 수 있는 예상 장애 발생 메시지를 해당 관리 대상 서버에 송신하고, 이와 함께 예상 장애에 대한 해결 방법을 해당 관리 대상 서버에 전달한다.

4. TCP/IP 포트(Port) 부족으로 인한 서비스 불가.

이는 윈도우(windows) 2008에서 업타임(Uptime)이 497일 이상 일 때, 네트워크(Network) TIME_WAIT 세션(session)이 클로즈(close)되지 못하고 남아 있는 현상이다. 이로 인하여 포트(port)를 점유하게 되고 더 이상의 포트(port)가 없을 때 문제가 된다. 윈도우(windows) 2008 서버와 윈도우(Windows) 2012 서버가 대상이 되며, 업데이트된 패치를 제거함으로써 장애를 해결할 수 있다.

5. 윈도우(Windows) 2003 ~ 2022 이벤트 로그 발생.

6. 메모리(Memory) 생산 주기 진단.

이는 특정 메모리의 특정 생산주기가 불량인 것을 확인하는 것으로서, 장애 대상은 13세대 장비(R730, R930, R630)이고, 장애 OS는 윈도우(Windows) 2012 R2 서버(Server)에서 KB3064209 hotfix가 포함된 서버이고, 해결 방법은 해당 hotfix를 제거하는 것이다.

본 발명에서 관리 서버(110)는 관리 대상 서버의 메모리 생산 주기를 진단하고, 미리 정해진 메모리 생산 주기를 불량으로 판정하고, 이 내용을 해당 관리 대상 서버에 알린다.

7. PCIe Type의 SSD를 사용하고 있는 경우 장치설정에서 응답이 멈추는 현상.

이에 대한 해결 방법은 BIOS 1.1.4 -> 1.2.10으로 업데이트하는 것이다.

8. 12G 서버(Server) BIOS 업데이트 이후 온도(Temperature) 센서가 정상 작동하지 않아 경고음(Alert_)이 계속 발생하는 이슈.

이에 대한 해결 방법은 BIOS 2.5.2 버전을 진단하고 최신 펌웨어로

업데이트하는 것이다.

9. 패치 Update후 BSOD 발생후 부팅(Booting) 불가 현상

이 이벤트는 2014년 8월 Patch Tuesday update 윈도우 오류 KB2982791로 인한 현상이다.

장애 대상은 windows2008 서버이고, 패치 업데이트를 통해 장애를 해결할 수 있다.

10. 윈도우(Windows) 2012 Active Director를 사용한 클라이언트(Client)에서 DNS 연결 오류 발생.

서버에서 도메인 계정으로 로그인 시 계정과 암호가 정상적임에도 “사용자 이름 또는 암호가 올바르지 않습니다” 는 오류가 발생한다.

윈도우 서버(Windows Server) 2008 R2 / Windows 7 부터 DES-CBC-MD5 및 DES-CBC-CRC 암호화를 사용하지 않고, AES256-CTS-HMAC-SHA1-96, AES128-CTS-HMAC-SHA1-96, RC4-HMAC 암호화만을 사용하게 되는데, AD 서버가 윈도우 서버(Windows Server) 2012 R2이고, 도메인 멤버(Domain Member)가 윈도우 서버(Windows Server) 2008 R2 또는 윈도우(Windows) 7 일 경우, 컴퓨터 계정에 대한 암호 갱신 시에 AES 키 생성이 실패하는 제품 상의 이슈로 인해 발생한 현상이다.

11. GNU Bash 4.3 Shell에 존재하는 취약점.

Bash 취약점을 이용해 공격자는 웹 서버의 콘텐츠 및 코드 변경, 웹사이트 변조, 사용자 데이터 유출 및 DDoS 공격 수행이 가능한 것으로 알려져 있다. 이 외에도 SSH, DHCP 프로토콜 등 다양한 환경 하에서의 Bash 코드 인젝션 취약점 공격 시나리오도 제기되고 있는 상황이다.

장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 Bash 업데이트이다.

12. GNU C 라이브러리(glibc)의 버퍼 오버플로우 취약점.

네트워크 연결 시 자주 쓰이는 gethostbyname(), gethostbyname2() 함수 호출 시, 취약한 함수가 호출되는 현상으로서, 외부의 공격자는 취약한 서버에서 원격으로 임의의 코드를 실행시킬 수 있다.

장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 GLIBC 업데이트이다.

13. Radhat V5 및 V6 계열 OS의 버그.

Intel CPU를 사용하는 Red Hat Enterprise Linux 6 or 5 모든 버전에서 208.5일 이후 Reboot 현상이 발생하는 버그이다.

장애 대상은 Red Hat Enterprise Linux 5,6 서버이고, 장애 해결 방법은 커널 업데이트이다.

14. 레이드 컨트롤러 배터리 페일(Raid Controller Battery Fail).

레이드 컨트롤러 캐쉬(Raid Controller Cache) 사용 불가로 인한 I/O 성능이 저하된다. 장애 대상은 Dell Perc 5i, 6i용 Raid Controller Battery이고, 장애 해결 방법은 Dell Perc 5i, 6i용 Raid Controller Battery의 사용 주기 4~5년마다 사전 교체하는 것이다.

15. CPU IERR 에러(Error) 발생으로 인한 시스템 다운(SYSTEM DOWN).

장애 대상은 인텔 아이브릿지 V2 사용 CPU 사용 서버(PE R720, PE R920)이고, 장애 해결 방법은 BIOS 세팅(Setting)을 변경하는 것이다.

예를 들어, 시스템 프로파일 세팅(System Profile Settings)을 시스템 프로파일(System Profile)을 Custom으로 설정하고, CPU 파워 매니지먼트(Power Management)를 Maximum Performance로 하고, C1E를 Disabled C States Disabled로 하고, Monitor/Mwait를 Disabled로 설정한다.

16. iDrac 1.50.50 F/W(Firmware)(해당 버전 검색) 사용시 관리 Web 접속 불가.

iDrac F/W(Firmware) OS상에서의 F/W 업그레이드(Upgrade)하거나, 일상 생활에서의 미디어를 통한 업그레이드(Upgrade)를 통해 1.51.51로 업그레이드(Upgrade)한다.

본 발명은 멀티벤더를 지원하는 서버 관리 시스템을 제안한다. 예를 들어, 본 발명에서는 Dell, HP, Lenovo 등 3사의 하드웨어 시스템에 대한 정보를 하나의 인벤토리(Inventory)에 저장하고, 인벤토리에 저장된 정보를 이용하여 하드웨어에 대한 모든 정보를 조회할 수 있고, 기능을 활용할 수 있도록 구현한다.

본 발명에서 설명의 편의를 위하여, Dell, HP, Lenovo 등의 제조사를 예시하여 멀티벤더를 지원하는 서버 관리 시스템에 대해 설명하고자 한다.

도 2는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 멀티벤더를 지원하여 서버를 관리하는 방법을 예시한 흐름도이다. 도 2에서 각 단계의 수행 주체는 관리 서버(110)이다.

도 2를 참조하면, 관리 대상 서버를 등록한다(S201). 이때, 각 서버의 관리 IP 정보를 이용하여 대상 서버를 등록할 수 있다. 예를 들어, Dell의 경우 iDRAC, HP의 경우 iLO, Lenovo의 경우 iMM을 이용하여 대상 서버를 등록할 수 있다.

다음, 각 서버별 연결 여부를 파악하고(S203), 멀티벤더 하드웨어 인벤토리 정보를 수집한다(S205). 본 발명의 일 실시예에서 하드웨어 공통 표준인 Redfish API(Application Programming Interface)를 이용하여 제조사 구분없이 x86 서버의 하드웨어 시스템에 대한 인벤토리 정보를 수집할 수 있다.

그리고, 수집한 인벤토리 정보를 저장한다(S207).

긴급 펌웨어(firmware) 업데이트를 포함하여 펌웨어 업데이트 이벤트가 있으면, 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행한다(S209). 그리고, 변경된 업데이트 정보를 확인한다(S211). 본 발명의 일 실시예에서 Redfish API를 통해 펌웨어 업데이트 정보를 확인할 수 있다.

그리고, 각 서버의 안전도, 점검대상 여부, 중요도 등에 따라 그룹을 설정하고(S215), 실시간으로 서버 정보를 확인한다(S217).

이처럼 본 발명의 일 실시예에서 Redfish API를 이용하여 각 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보, 드라이버 정보 등 운영중인 x86 서버에 대한 다양한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.

도 3은 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 로그 및 패턴을 분석하여 장애를 사전 예방하는 방법을 예시한 흐름도이다. 도 3에서 각 단계를 수행하는 주체는 관리 서버(110)이다.

도 3을 참조하면, 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면(S401), 로그 및 패턴을 분석한다(S403). 그리고, 분석한 데이터를 저장한다(S405).

장애 이슈가 해결되면(S407), 해당 장비와 유사한 장비를 분류하고(S409), 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시한다(S411).

이처럼 본 발명에서 장애 이슈 발생시 로그 및 패턴을 분석하여 자동으로 유사 장비를 분류함으로써, 유사한 장비에서 발생하는 장애를 사전에 예방할 수 있다.

도 4는 본 발명의 일 실시예에 따른 서버 관리 시스템에서 Redfish API를 활용하여 멀티벤더를 지원하는 동작 모델을 예시한 것이다.

도 4에서 보는 바와 같이, 본 발명에서는 Redfish API를 이용하여 Dell, HP, Lenovo 등 제조사 구별없이 x86 서버 하드웨어 시스템에 대한 인벤토리 정보를 수집하고, 수집한 정보를 조회하고 활용할 수 있다. 예를 들어, Dell의 경우 iDRAC를 이용하여 데이터를 수집하고, HP의 경우 iLO를 이용하여 데이터를 수집하고, Lenovo의 경우 iMM을 이용하여 데이터를 수집한다. 그리고, Redfish API를 이용하여 다수의 서버에 OS 및 펌웨어를 배포하고 설치할 수 있다.

그리고, 본 발명에서 Redfish API를 이용하여 각 서버의 하드웨어 스펙, OS 정보, 펌웨어 정보 등을 신속하게 확인할 수 있다.

그리고, 본 발명에서 패턴을 분석하여 장애를 예측할 수 있고, 하드웨어 로그를 이용하여 패턴분석을 진행할 수 있다.

Redfish API는 2015년에 최초로 릴리즈된 이후 지속적인 업데이트가 진행되고 있으며, 여러 서버 제조 벤더사를 지원하고, IPMI와 동일한 기능을 제공하고 있다. 또한, Redfish API는 BIOS 및 Secure Boot 설정 기능을, 펌웨어 업데이트 기능, 스토리지와 서버의 네트워킹 설정 기능을 지원한다. 그리고, Open Compute Platform, Open stack, SNIA(Storage Networking Industry Association) 등을 지원하고, 네트워크 스위치 매니지먼트, 외장형 스토리지 매니지먼트 등을 지원한다.

파워에지(Power edge) 서버의 관리 툴(tool)인 iDRAC은 Redfish를 활용하여, Redfish RESTful API를 지원한다. 예를 들어, iDRAC은 서버 전원(Reset, Reboot, Power Control), 서버 하드웨어 인벤토리, 서버 모니터링 및 상태 체크, 시스템 로그 수집, 서버의 상태 변화 체크 및 알람을 수행할 수 있다.

파워에지 서버는 Redfish를 통하여 서버 초기 세팅을 자동화 할 수 있다. 그리고, iDRAC 초기 세팅, BIOS, RAID 컨트롤러, 네트워크 카드 등 다양한 구성 정보를 템플릿화하여 서버의 자동화 배포를 할 수 있다.

파워에지 서버의 iDRAC에서 Redfish 활용예 중에서 서버 구성 자동화(Auto deployment)를 예시하면 다음과 같다. 서버가 갖는 고유한 설정 값이 SCP(Server configuration profile)의 메타 데이터로 저장되며, 이는 Redfish API로 구성될 수 있다. 그리고, Redfish API를 통하여 BIOS, iDRAC/LC, PERC RAID Controller, NIC, HBA 등 각종 설정 정보를 설정할 수 있다. SCP는 Export, Preview, Import가 가능하며, 새로 구축되는 서버에 구성 정보를 자유롭게 적용할 수 있다. SCP는 HTTS, NFS, CIFS 등의 방식으로 공유될 수 있으며, XML과 JSON 파일 형식 등으로 구현될 수 있다.

도 5 내지 도 18는 본 발명의 일 실시예에 따른 서버 관리 시스템의 화면예를 도시한 것이다.

도 5는 초기 화면예이고, 관리 대상 서버에 대해 자동으로 수집한 인벤토리 및 로그에 대한 정보를 한눈에 볼 수 있도록 대시보드를 통해 지원하는 화면예이다.

도 6은 관리 대상 서버의 인벤토리 정보를 실시간으로 확인 할 수 있는 화면예로서, 이 화면예에서 변경된 정보에 대해서도 자동으로 인벤토리 정보가 변경된다.

도 7의 화면예에서, 관리 대상 서버의 이슈가 확인 될 시, 알아보기 쉽게 각 파트별로 붉은 색으로 표시되고, 정상적인 파트는 초록색으로 표시된다.

도 8는 펌웨어(F/W) 정보를 포함한 전체 관리 대상 서버의 실시간 매니지먼트(management) 정보를 확인 할 수 있는 화면예이다.

도 9은 전체 관리 대상 서버의 실시간 CPU 상세정보 및 현재 상태를 확인 할 수 있는 화면예이다.

도 10은 전체 관리 대상 서버의 실시간 메모리 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.

도 11은 전체 관리 대상 서버의 실시간 Raid Controller 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.

도 12는 전체 관리 대상 서버의 실시간 Disk 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.

도 13은 전체 관리 대상 서버의 PSU(Power supply) 실시간 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.

도 14 및 도 15는 전체 관리 대상 서버의 수집 로고에 대한 실시간 상세 정보를 확인 할 수 있는 화면예로서, 실시간 Vendor HW 에러코드를 수집하고 자동으로 분류하며, 에러코드 별 이슈 장비 확인이 가능하다.

도 16은 장애분석 화면예로서 장애 원인, 결론, 교체시기를 포함한 장애 분석 정보가 표시되어 있다.

도 17은 고객사와 비교한 각 서버별 장애 분석 분포도를 예시한 화면예이다.

도 18은 서비스 리포트 기능을 예시한 화면예로서, 발생 시기, 이슈사항, 문제해결 및 재발방지 조치 사항을 포함한 리포트 내용이 예시되어 있다.

도 19는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이고, 도 20 및 도 21은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다.

도 22 내지 도 23은 본 발명의 일 실시예에 따른 서버 관리 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다.

도 22을 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S101), 도 19의 분류표를 참조하여 장애 발생 가능성이 높은 유사 장비를 위험 장비로 분류한다(S103).

그리고, 분류된 위험 장비에 대한 경고 메시지를 발송하고(S105), 장애 사전 대응 조치를 수행한다(S107).

도 19의 분류표를 참조하면, 본 발명의 일 실시예에서 시스템 장비의 구체적 유사 판단 기준이 예시되어 있으며, 동일 클래스 장비 분류, 동일 CPU 장비 분류, 동일 Memory 장비 분류, 동일 NIC 장비 분류, 동일 Disk 장비 분류, 동일 HBA 장비 분류, 동일 BIOS 장비 분류, 동일 Driver 버전 장비 분류, 동일 OS 장비 분류, 동일 Firmware 버전 장비 분류 등이 예시되어 있다.

도 23을 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S301), 장애 증상을 파악한다(S303).

그리고, 도 20 및 도 21의 도표를 참조하여 장애 증상에 따른 증상 코드를 확인한다(S305). 그리고, 증상 코드에 대응하는 원인을 확인하고(S307), 이에 따라 대응 방안 리포트를 발송한다(S309). 그리고, 장애 원인에 대응하는 장애 대응 조치를 수행한다(S311).

S305 단계에서 장애 증상에 대응하는 증상 코드가 없으면 새로운 증상 코드를 생성하여 도 20 및 도 21의 리스트에 추가한다(S313).

도 20 및 도 21을 참조하면, 본 발명의 일 실시예에 따른 장애 증상별 증상 코드에 대응하는 장애 원인이 예시되어 있다. 즉, RAC1198는 iDrac 펌웨어 이슈, 커넥터블 메모리 장애는 메모리 이슈 및 바이오스 펌웨어 이슈, Link Failure 발생은 NIC 장애 및 펌웨어 이슈, Link Failure Count 다수 발생은 NIC 드라이버 및 펌웨어 이슈, NIC Link is Down은 NIC 드라이버 및 펌웨어 이슈, Link 상태 및 서버 점검 요청은 NIC 드라이버 및 펌웨어 이슈, HOST_DOWN 발생은 NIC 드라이버 및 펌웨어 이슈, 서버 전면 황색 점등 발생은 iDrac 펌웨어 이슈, SWC5008:critical 메시지 출력은 iDrac 펌웨어 이슈, NO_PARTITION 알람 발생은 디스크 장애, Reset adapte은 바이오스 펌웨어 이슈, Correctable memory error는 메모리 이슈 및 바이오스 펌웨어 이슈, CPU 성능 저하는 바이오스 펌웨어 이슈, Memory 및 Slot 표시 안됨은 메모리 이슈 및 바이오스 펌웨어 이슈, Disk fault error는 디스크 장애, disk predicted fail은 디스크 BadBlock으로 인한 장애, 주기적 FAN 6 인식 문제는 Fan 6 장애, 광량 400이하로 인한 Fault는 Gbic 장애, NIC GBIC 통신불가는 Gbic 장애, System 무한 리부팅은 바이오스 펌웨어 이슈, LCD Panel 특정 메세지 출력은 iDrac 펌웨어 이슈, iDRAC에서 반복적인 에러메세지 발생은 iDrac 펌웨어 이슈, vCenter 에이전트와 동기화 오류는 EXSi 버전 및 OS 버전 이슈, 서버 Reboot 현상은 바이오스 펌웨어 이슈, HBA Write 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Read 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Link Down은 HBA Gbic 및 Card 이슈, HBA 이중화 절체 장애는 HBA Gbic 및 Card 이슈, Riser1 인식 불량은 Riser Card 이슈, Riser2 인식 불량은 Riser Card 이슈, 네트워크 이중화 장애는 Network Card 이슈, PSU Alert 황색 LED 점등은 PSU 장애, 저전압으로 인한 이상발생은 PSU 장애, PXE 부팅 불가는 바이오스 설정 및 NIC 펌웨어/드라이버 이슈, POST 부팅 불가는 메인보드 장애, LifeCycle 접속 불가는 메인보드 장애, iDRAC Hang 증상은 iDrac 펌웨어 이슈, iDRAC Network 단절은 메인보드 장애 및 iDrac 펌웨어 이슈, iDRAC SNMP 서비스 장애 발생은 iDrac 펌웨어 이슈, 서버 사용중 갑자기 서버 꺼짐증상은 메인보드 이슈, Medium Error 발생은 디스크 장애, ERROR Event 확인 요청은 Error Event에 따른 이슈, CMC 접속 불가는 CMC 펌웨어 이슈가 원인으로 대응된다.

그리고, DSET 분석 요청은 분석에 따른 장애, TSR Log 분석 요청은 분석에 따른 장애, NFS Service 기동 실패는 NFS 설정 및 OS 설정 점검, vCenter 접속 불가는 EXSi 버전 및 OS 버전 이슈, NIC Reset은 Network Card 이슈, GPU 인식 불가는 GPU Card 장애, OS Crash 발생은 OS Dump 분석, Network error/dropped packets 발생은 Network Card 이슈, CRC에러 발생은 Network Card 이슈, 서버-스위치 끊어진 현상은 Network Card 이슈, Network(Bonding)에 통신이 원활이 되지 않는 문제는 Network Card 이슈, 메모리 교체 후 동일 슬롯 이벤트 발생은 메모리 장애 또는 메인보드 장애, Disk Read Only 상태로 접근 불가는 디스크 장애 또는 RAID 구성 이슈, 스위치 한달에 3~4회 Hang 증상은 메인보드 또는 OS 버전 이슈, LACP Network Speed 문제가 발생하는 것은 Network Card 이슈, 클러스터 페일 오버 발생은 클러스터 설정 이슈 또는 HW 장애, RTSP 동기화 실패는 OS 설정 또는 Network 장애, 세션 저하 현상 발생은 Network Card 또는 Gbic 이슈, 알 수 없는 전원 차단은 PSU 장애, 서버 느려짐 및 행 현상은 어플리케이션 또는 HW 장애, Network Ping Loss는 Network Card 또는 Gbic 이슈, LoadAvg 상승은 CPU 점검 필요, Fatal Error 발생은 PCI Card 또는 Riser Card 이슈, PXE설치 중 멈춤 또는 퍼포먼스 저하는 Network Card 또는 Gbic 이슈, Blue Screen 발생(0x00004f)은 메인보드/바이오스/디스크/메모리 장애, Blue Screen은 메인보드/바이오스/디스크 장애, OS Booting 실패는 메인보드/바이오스/디스크 장애, 프로세스 Down 및 OS설치 중 패닉은 메인보드/바이오스/디스크 장애, 서버에서 타는 냄새는 팬/메인보드/PSU 이슈, NAS 접속 불가 조치는 네트워크/OS 설정 이슈, KVM 연결 불가는 메인보드/KVM케이블/KVM 이슈, Disk Amber LED는 디스크 장애, Post 부팅시 Delay는 메인보드/팬/PCI/메모리 이슈, 전원 공급 불량 조치는 PSU 장애, Teaming 성능 저하는 네트워크/OS 설정 이슈, VD Bad Block은 디스크 장애, HBA Loop는 HBA 장애, Raid 구성정보가 보이지 않음은 펌웨어/디스크 드라이버 이슈, Volume 인식불가는 펌웨어/디스크 드라이버 이슈, Kernel Panic은 OS/App 이슈, 최대 성능 사용시 서버 rebooting은 CPU/PSU/메인보드/메모리 이슈, 서버 처리 속도가 현저하게 늦어짐은 CPU/PSU/메인보드/메모리/디스크 이슈, 서버 전원 안들어옴은 PSU 장애가 원인으로 대응된다.

이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

110 관리 서버 120 관리자 단말
130 고객 단말 10, 20, 30, 40 관리 대상 서버

Claims

멀티벤더를 지원하는 서버 관리 시스템에서,
상기 서버 관리 시스템을 관리하는 관리자가 사용하는 관리자 단말;
관리 대상 서버를 의뢰한 각 고객이 사용하는 고객 단말; 및
상기 관리 대상 서버로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 관리 서버를 포함하며,
상기 관리 서버는 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 정보를 수집하여 저장하고, 저장한 정보를 조회하고 이용할 수 있도록 상기 관리자 단말 및 상기 고객 단말에 제공하고,
상기 관리 서버는 관리 대상 서버의 BBU(Backup Battery Unit) 주기를 점검하여, 미리 정해진 주기가 되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 전송하고,
상기 관리 서버는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 미리 정해진 수치 이하로 감소하면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알리고,
상기 관리 서버는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 미리 정해진 수치 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알리고,
상기 관리 서버는 관리 대상 서버의 BBU 쓰기 정책(Write Policy)을 점검하여, 쓰기 정책이 변경되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알리고,
상기 관리 서버는 관리 대상 서버의 로그(log) 확인을 통해 배터리 완전 충전(Full Charging) 효율(%)을 확인하고, 완전 충전 효율이 미리 정해진 수치 미만인 장비에 대한 배터리 교체를 알리는 메시지를 해당 관리 대상 서버의 고객 단말에 알리고,
상기 관리 서버는 각 관리 대상 서버로부터 멀티벤더 하드웨어 인벤토리 정보를 수집하여 저장하고, 긴급 펌웨어(firmware) 업데이트를 포함하여 펌웨어 업데이트 이벤트가 있으면 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행하고, 펌웨어 업데이트 진행 후 변경된 업데이트 정보를 확인하고, 각 관리 대상 서버의 안전도, 점검대상 여부, 중요도에 따라 그룹을 설정하고, 실시간으로 서버 정보를 확인하고,
상기 관리 서버는 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면 로그 및 패턴을 분석하고, 분석한 데이터를 저장하고, 장애 이슈가 해결되면, 해당 장비와 유사한 장비를 분류하고, 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시하고,
상기 관리 서버는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행하며,
상기 관리 서버는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면, 분류표를 참조하여 장애 발생 가능성이 높은 유사 장비를 위험 장비로 분류하고, 분류된 위험 장비에 대한 경고 메시지를 발송하고, 장애 사전 대응 조치를 수행하고,
이때 상기 분류표는 시스템 장비의 구체적 유사 판단 기준을 포함하되, 동일 클래스 장비 분류, 동일 CPU 장비 분류, 동일 Memory 장비 분류, 동일 NIC 장비 분류, 동일 Disk 장비 분류, 동일 HBA 장비 분류, 동일 BIOS 장비 분류, 동일 Driver 버전 장비 분류, 동일 OS 장비 분류, 동일 Firmware 버전 장비 분류를 포함하며,
상기 관리 서버는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면, 장애 증상을 파악하고, 장애 증상별 증상 코드에 대응하는 장애 원인을 포함하는 리스트를 참조하여 장애 증상에 따른 증상 코드를 확인하고, 증상 코드에 대응하는 원인을 확인하고, 이에 따라 대응 방안 리포트를 발송하고, 장애 원인에 대응하는 장애 대응 조치를 수행하고, 장애 증상에 대응하는 증상 코드가 없으면 새로운 증상 코드를 생성하여 상기 리스트에 추가하고,
이때, 상기 리스트는 RAC1198는 iDrac 펌웨어 이슈, 커넥터블 메모리 장애는 메모리 이슈 및 바이오스 펌웨어 이슈, Link Failure 발생은 NIC 장애 및 펌웨어 이슈, Link Failure Count 다수 발생은 NIC 드라이버 및 펌웨어 이슈, NIC Link is Down은 NIC 드라이버 및 펌웨어 이슈, Link 상태 및 서버 점검 요청은 NIC 드라이버 및 펌웨어 이슈, HOST_DOWN 발생은 NIC 드라이버 및 펌웨어 이슈, 서버 전면 황색 점등 발생은 iDrac 펌웨어 이슈, SWC5008:critical 메시지 출력은 iDrac 펌웨어 이슈, NO_PARTITION 알람 발생은 디스크 장애, Reset adapte은 바이오스 펌웨어 이슈, Correctable memory error는 메모리 이슈 및 바이오스 펌웨어 이슈, CPU 성능 저하는 바이오스 펌웨어 이슈, Memory 및 Slot 표시 안됨은 메모리 이슈 및 바이오스 펌웨어 이슈, Disk fault error는 디스크 장애, disk predicted fail은 디스크 BadBlock으로 인한 장애, 주기적 FAN 6 인식 문제는 Fan 6 장애, 광량 400이하로 인한 Fault는 Gbic 장애, NIC GBIC 통신불가는 Gbic 장애, System 무한 리부팅은 바이오스 펌웨어 이슈, LCD Panel 특정 메세지 출력은 iDrac 펌웨어 이슈, iDRAC에서 반복적인 에러메세지 발생은 iDrac 펌웨어 이슈, vCenter 에이전트와 동기화 오류는 EXSi 버전 및 OS 버전 이슈, 서버 Reboot 현상은 바이오스 펌웨어 이슈, HBA Write 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Read 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Link Down은 HBA Gbic 및 Card 이슈, HBA 이중화 절체 장애는 HBA Gbic 및 Card 이슈, Riser1 인식 불량은 Riser Card 이슈, Riser2 인식 불량은 Riser Card 이슈, 네트워크 이중화 장애는 Network Card 이슈, PSU Alert 황색 LED 점등은 PSU 장애, 저전압으로 인한 이상발생은 PSU 장애, PXE 부팅 불가는 바이오스 설정 및 NIC 펌웨어/드라이버 이슈, POST 부팅 불가는 메인보드 장애, LifeCycle 접속 불가는 메인보드 장애, iDRAC Hang 증상은 iDrac 펌웨어 이슈, iDRAC Network 단절은 메인보드 장애 및 iDrac 펌웨어 이슈, iDRAC SNMP 서비스 장애 발생은 iDrac 펌웨어 이슈, 서버 사용중 갑자기 서버 꺼짐증상은 메인보드 이슈, Medium Error 발생은 디스크 장애, ERROR Event 확인 요청은 Error Event에 따른 이슈, CMC 접속 불가는 CMC 펌웨어 이슈, DSET 분석 요청은 분석에 따른 장애, TSR Log 분석 요청은 분석에 따른 장애, NFS Service 기동 실패는 NFS 설정 및 OS 설정 점검, vCenter 접속 불가는 EXSi 버전 및 OS 버전 이슈, NIC Reset은 Network Card 이슈, GPU 인식 불가는 GPU Card 장애, OS Crash 발생은 OS Dump 분석, Network error/dropped packets 발생은 Network Card 이슈, CRC에러 발생은 Network Card 이슈, 서버-스위치 끊어진 현상은 Network Card 이슈, Network(Bonding)에 통신이 원활이 되지 않는 문제는 Network Card 이슈, 메모리 교체 후 동일 슬롯 이벤트 발생은 메모리 장애 또는 메인보드 장애, Disk Read Only 상태로 접근 불가는 디스크 장애 또는 RAID 구성 이슈, 스위치 한달에 3~4회 Hang 증상은 메인보드 또는 OS 버전 이슈, LACP Network Speed 문제가 발생하는 것은 Network Card 이슈, 클러스터 페일 오버 발생은 클러스터 설정 이슈 또는 HW 장애, RTSP 동기화 실패는 OS 설정 또는 Network 장애, 세션 저하 현상 발생은 Network Card 또는 Gbic 이슈, 알 수 없는 전원 차단은 PSU 장애, 서버 느려짐 및 행 현상은 어플리케이션 또는 HW 장애, Network Ping Loss는 Network Card 또는 Gbic 이슈, LoadAvg 상승은 CPU 점검 필요, Fatal Error 발생은 PCI Card 또는 Riser Card 이슈, PXE설치 중 멈춤 또는 퍼포먼스 저하는 Network Card 또는 Gbic 이슈, Blue Screen 발생(0x00004f)은 메인보드/바이오스/디스크/메모리 장애, Blue Screen은 메인보드/바이오스/디스크 장애, OS Booting 실패는 메인보드/바이오스/디스크 장애, 프로세스 Down 및 OS설치 중 패닉은 메인보드/바이오스/디스크 장애, 서버에서 타는 냄새는 팬/메인보드/PSU 이슈, NAS 접속 불가 조치는 네트워크/OS 설정 이슈, KVM 연결 불가는 메인보드/KVM케이블/KVM 이슈, Disk Amber LED는 디스크 장애, Post 부팅시 Delay는 메인보드/팬/PCI/메모리 이슈, 전원 공급 불량 조치는 PSU 장애, Teaming 성능 저하는 네트워크/OS 설정 이슈, VD Bad Block은 디스크 장애, HBA Loop는 HBA 장애, Raid 구성정보가 보이지 않음은 펌웨어/디스크 드라이버 이슈, Volume 인식불가는 펌웨어/디스크 드라이버 이슈, Kernel Panic은 OS/App 이슈, 최대 성능 사용시 서버 rebooting은 CPU/PSU/메인보드/메모리 이슈, 서버 처리 속도가 현저하게 늦어짐은 CPU/PSU/메인보드/메모리/디스크 이슈, 서버 전원 안들어옴은 PSU 장애가 원인으로 대응되는 것을 포함하는 것을 특징으로 하는 서버 관리 시스템.
삭제
삭제
삭제
삭제