KR20210108874A

KR20210108874A - 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치

Info

Publication number: KR20210108874A
Application number: KR1020210005232A
Authority: KR
Inventors: 친링 쩡; 니마 엘야시; 비카스 신하; 최창호
Original assignee: 삼성전자주식회사
Priority date: 2020-02-26
Filing date: 2021-01-14
Publication date: 2021-09-03
Also published as: US11657300B2; US20230281489A1; US20210264294A1

Abstract

본 개시의 실시 예에 따른, 타겟 스토리지 장치의 장애 시간(time-to-failure)을 예측하는 방법에 있어서, 하나 이상의 스토리지 장치로들부터 작동 및 장애 데이터의 시계열 데이터 세트로 기계 학습 스킴(scheme)을 훈련시키는 단계, 타겟 스토리지 장치로부터 원격 측정(telemetry) 데이터를 수신하는 단계, 및 기계 학습 스킴에 원격 측정 데이터를 입력하는 단계를 포함하고, 기계 학습 스킴은 원격 측정 데이터에 응답하여 타겟 스토리지 장치에 대한 장애 시간 예측에 기반한 시간-윈도우(time-window)를 출력한다.

Description

기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치{SYSTEMS AND METHODS FOR PREDICTING STORAGE DEVICE FAILURE USING MACHINE LEARNING}

본 개시는 일반적으로 장애 예측에 관한 것으로, 특히 기계 학습을 사용할 수 있는 장애 시간(time-to-failure) 예측들에 관한 것이다.

스토리지 시스템에서 스토리지 장치의 장애는 데이터 손상(corruption) 및/또는 영구적인 데이터 손실뿐만 아니라 손상된 데이터를 복원 및/또는 재구성하는 것과 관련된 시간 및/또는 재정 자원들의 지출로 이어질 수 있다. 이러한 문제들을 방지하기 위해 스토리지 시스템들은 다단계 리던던시(redundancy)들 및/또는 스토리지 장치들의 적시 교체를 채택할 수 있다. 그러나 이러한 관행들은 비용 증가로 이어질 수 있다.

본 발명의 목적은 기계 학습을 사용하여 스토리지 장치의 장애 시간을 예측하는 시스템 및 장치를 제공하는데 있다.

본 개시의 실시 예에 따른, 타겟 스토리지 장치의 장애 시간(time-to-failure)을 예측하는 방법에 있어서, 하나 이상의 스토리지 장치로들부터 작동 및 장애 데이터의 시계열 데이터 세트로 기계 학습 스킴(scheme)을 훈련시키는 단계, 타겟 스토리지 장치로부터 원격 측정(telemetry) 데이터를 수신하는 단계, 및 기계 학습 스킴에 원격 측정 데이터를 입력하는 단계를 포함하고, 기계 학습 스킴은 원격 측정 데이터에 응답하여 타겟 스토리지 장치에 대한 장애 시간 예측에 기반한 시간-윈도우(time-window)를 출력한다. 기계 학습 스킴은 적어도 두 개의 클래스들을 출력하고, 적어도 두 클래스들 중 하나 이상은 시간 윈도우들을 포함한다. 기계 학습 스킴을 훈련시키는 단계는, 시계열 데이터 세트를 시간 윈도우들로 분할하는 단계를 포함하고, 클래스는 시간 윈도우에 대응한다. 작동 및 장애 데이터는 장애 시간을 기반으로 시간 윈도우들로 분할된다.

본 개시의 실시 예에 따른, 스토리지 장치의 장애 시간을 예측하기 위한 기계 학습 스킴을 훈련하는 방법에 있어서, 하나 이상의 스토리지 장치들로부터 작동 및 장애 데이터의 시계열 데이터 세트를 전처리하고, 전처리된 데이터 세트를 생성하는 단계, 및 전처리된 데이터 세트로 기계 학습 스킴을 훈련하는 단계를 포함하고, 기계 학습 스킴은 장애 시간 예측을 기반으로 시간-윈도우를 생성한다. 방법은 적어도 2 개의 특성들을 순위화(rank)하는 단계를 더 포함하고, 시계열 데이터 세트는 스토리지 장치와 관련된 하나 이상의 특성들을 포함한다. 방법은 전처리된 데이터 세트에 포함된 특성들의 개수를 제한하여, 전처리된 데이터 세트의 차원을 줄이는 단계를 더 포함한다. 방법은 재귀적 특성 제거, 상관 속성 평가, 이득 비율 속성 평가, 또는 정보 이득 속성 평가 중 적어도 하나에 의해 특성들을 순위화하는 단계를 더 포함한다. 방법은 시계열 데이터 세트의 적어도 일부로부터 노이즈를 제거하는 단계를 더 포함한다. 방법은 데이터 변환, 데이터 집계(aggregation) 또는 데이터 표준화 중 적어도 하나에 의해 시계열 데이터 세트의 적어도 일부를 수정하는 단계를 더 포함한다. 방법은 특성들의 적어도 하나의 중복된 특성을 제거하는 단계를 더 포함한다.

본 개시의 실시 예에 따른, 스토리지 장치의 장애 시간을 예측하기 위한 기계 학습 스킴을 훈련하는 방법에 있어서, 하나 이상의 스토리지 장치들에서 작동 및 장애 데이터의 시계열 데이터 세트를 수신하는 단계, 시계열 데이터 세트의 제1 부분으로 기계 학습 스킴을 훈련하는 단계, 시계열 데이터 세트의 제2 부분으로 기계 학습 스킴을 테스트하는 단계, 및 기계 학습 스킴을 평가하는 단계를 포함한다. 기계 학습 스킴을 평가하는 단계는 성능 점수를 계산하는 단계를 포함한다. 성능 점수는 정밀도 구성요소, 리콜(recall) 구성요소 또는 F-점수 구성요소 중 하나 이상을 포함한다. 성능 점수는 둘 이상의 구성요소들을 기반으로 하고, 둘 이상의 구성요소들 중 최대 값이 성능 점수로 사용된다. 둘 이상의 구성 요소들 중 하나 이상이 가중된다. 기계 학습 스킴은 비용 함수로 평가된다. 방법은 사용자 정의된 비용 함수를 최소화하는 단계를 더 포함하고, 비용 함수는 상기 사용자 정의된 비용 함수를 포함한다. 비용 함수는 혼동 행렬(confusion matrix)에 기초한다. 혼동 행렬은 각각 초기 또는 늦은 예측들과 관련된 보상들 또는 페널티들에 대한 하나 이상의 가중치 클래스들을 포함한다.

본 발명의 실시 예에 따르면, 기계 학습을 사용하여 스토리지 장치의 장애 시간을 예측하는 시스템 및 장치가 제공된다.

도면들은 반드시 일정한 비율로 그려진 것은 아니며 유사한 구조들 또는 기능들의 요소들은 일반적으로 도면들 전체에 걸쳐 예시를 위해 유사한 참조 번호들로 표시된다. 도면들은 본 명세서에 설명된 다양한 실시 예들의 설명을 용이하게 하기 위한 것일 뿐이다. 도면들은 본 명세서에 개시된 교시들의 모든 측면을 설명하지 않으며 청구 범위의 범위를 제한하지 않는다. 도면이 모호해는 것을 방지하기 위해, 모든 구성 요소들, 연결부들 등이 표시되지 않을 수 있으며, 모든 구성요소들이 참조 번호들을 갖지 않을 수 있다. 그러나 구성요소 구성들의 패턴들은 도면들에서 쉽게 알 수 있다. 명세서와 함께 첨부된 도면들은 본 개시의 예시적인 실시 예들을 예시하고, 설명과 함께 본 개시의 실시 예들을 설명한다.
도 1은 본 개시에 따른 방법의 실시 예의 흐름도를 보여준다.
도 2는 본 개시에 따른 모니터링 시스템의 실시 예를 도시한다.
도 3은 본 개시에 따른 DQIF(data quality improvement framework)의 예시적인 실시 예에서 일부 구성요소들 및 데이터 흐름을 도시한다.
도 4는 본 개시에 따른 다중-클래스 기계 학습 분류 구조 및 데이터 라벨링 프로세스의 예시적인 실시 예를 도시한다.
도 5는 본 개시에 따른 데이터 분할 및 라벨링의 예시적인 실시 예를 도시한다.
도 6은 본 개시에 따른 작동 장치에 대한 데이터 분할의 예시적인 실시 예들을 도시한다.
도 7은 본 개시에 따른 훈련-테스트 데이터 분할의 예시적인 실시 예를 도시한다.
도 8은 본 개시에 따른 훈련/검증 동작의 예시적인 실시 예를 도시한다.
도 9는 본 개시에 따른 훈련/검증 동작으로부터 얻어질 수 있는 결과들의 예를 보여주는 혼동 행렬을 도시한다.
도 10은 본 개시에 따른 테스트 동작의 예시적인 실시 예를 도시한다.
도 11은 본 개시에 따른 테스트 동작으로부터 얻어질 수 있는 결과들의 예를 보여주는 혼동 행렬을 예시한다.
도 12는 본 개시에 따른 기계 학습 스킴을 평가하기 위한 비용 함수를 구현하는데 사용될 수 있는 혼동 행렬의 예시적인 실시 예를 도시한다.
도 13은 본 개시에 따른 컴퓨팅 시스템의 실시 예를 도시한다.

본 개시의 발명의 특징들은 스토리지 장치와 같은 장치에 대한 장애 시간(time-to-failure, 장애 발생시까지의 시간)을 예측하기 위해 시간에 따라 수집된 데이터를 분석하기 위한 기계 학습의 사용에 관한 것이다. 장애 시간을 예측하기 위한 기계 학습 스킴(scheme)의 구현은 하나 이상의 도전들을 제시할 수 있다. 예를 들어, 스토리지 장치의 일부 동작 파라미터들은 장애 시점(또는 포인트(point))에서 예상 값들에 도달할 수 있다. 그러나 일부 파라미터들의 복잡성은 기계 학습 스킴이 파라미터가 예상 값에 도달할 수 있는 시기를 예측하기 어렵게 할 수 있다. 또한 다른 잠재적인 어려움은 여러 유형들의 장치 장애(또는 고장, 실패)들이 있을 수 있으며, 각 장애는 장애와 관련된 하나 이상의 파라미터들을 가질 수 있다. 또한 일부 파라미터들의 진행(progression)은 선형이 아닐 수 있다. 예를 들어, 장애 및/또는 하나 이상의 수반되는 파라미터들의 심각도(severity)의 진행은 장치가 장애들에 접근함에 따라 더 빠른 속도로 증가할 수 있다. 또한 스토리지 장치들에 대해 시간이 지남에 따라 수집된 데이터 세트들은 예를 들어 제한된 장애 데이터 포인트들로 인해 불균형이 있을 수 있기 때문에, 기계 학습 스킴을 훈련(train)하는데 사용하기 어려울 수 있다.

임의의 수의 이러한 및/또는 다른 도전들을 해결하기 위해, 본 개시는 기계 학습 시스템들을 훈련 및/또는 사용하기 위한 시계열(time-series) 데이터의 사용, 시간 윈도우(time-window based time-to-failure predictions) 기반의 장애 시간 예측들의 사용, 다중 클래스 분류 시스템들의 사용, 스킴 성능을 평가하기 위한 다양한 기술들의 사용, 데이터 품질 향상을 위한 다양한 기술들의 사용, 및/또는 다른 발명의 특징들을 포함하는 수많은 발명의 특징들을 포함한다. 본 명세서에 설명된 발명의 특징들은 독립적인 유용성을 가지며 독립적으로 구현될 수 있다. 그러나 발명의 특징들은 시너지 효과들을 낼 수 있는 다양한 조합들로 구현될 수도 있다.

본 개시의 일부 실시 예에 따르면, 일부 실시 예들에서, 스토리지 장치와 같은 장치의 장애 시간은 특정 장애 시점 이라기 보다는, 혹은 이에 추가하여 장애 이전에 하나 이상의 시간 윈도우(time window)들에 의해 예측될 수 있다. 예를 들어, 스토리지 장치가 다음 며칠 또는 몇 주 내에 장애가 발생할 수 있다고 예측하면, 사용자 또는 데이터 센터는 데이터 손상, 손실 등을 발생하기 전에 적시에 장치를 수리하거나 교체할 수 있다.

본 개시 내용의 일부 추가의 실시 예들은 기계 학습을 위한 하나 이상의 다중-클래스 분류 스킴들을 사용할 수 있는 장애 시간 예측들에 관한 것이다. 예를 들어, 일부 실시 예들에서, 개시된 시스템들은 시간 윈도우들로 구현된 하나 이상의 클래스들을 가질 수 있는 다중 클래스 분류를 사용할 수 있으며, 여기서 상이한 시간 윈도우들은 예측된 장애 시점까지 상이한 시간 양들을 나타낼 수 있다. 일부 실시 예들에서, 예를 들어, 정적 및/또는 히스토리컬(historical) 데이터의 하나 이상의 시계열 데이터 세트들, 및/또는 작동 및/또는 장애 장치들로부터 획득된 데이터 관찰들을 사용하여 시간 윈도우 스킴이 훈련될 수 있다. 일부 실시 예들에서, 시간 윈도우 스킴은 장치와 관련된 특정 특성들의 상대적 중요성 및/또는 효과들에 추가 정보를 제공할 수 있는데, 이는 예를 들어, 그러한 특성들의 순위를 매기기 위해서 이다.

본 개시의 일부 추가의 실시 예들은 장애 예측들을 위한 기계 학습 스킴의 성능을 평가하기 위한 기술들에 관한 것이다. 일부 실시 예들에서, 방법과 관련된 성능 점수를 계산함으로써, 스킴의 성능이 평가될 수 있다. 성능 점수를 계산하는 데 사용될 수 있는 요소들의 예들은 정밀도(precision), 리콜(recall, 재현도), F-점수, 등 중 하나 이상을 포함한다. 일부 실시 예들에서, 스킴의 성능은, 예를 들어, 보상들 및/또는 페널티(penalty)들에 대한 하나 이상의 가중치 클래스들을 갖는 혼동(오차) 행렬(confusion matrix)을 사용하여 하나 이상의 보상/페널티 비용 함수(cost function)들로 평가될 수 있다.

본 개시의 일부 추가의 실시 예들은 장애 예측들을 위한 기계 학습 스킴에 대한 데이터를 훈련하기 위한 데이터 품질 개선(DQI; data quality improvement)을 위한 기술에 관한 것이다. 일부 실시 예들에서, DQI기술은 기계 학습 알고리즘에 부정적 영향 및/또는 과부하를 초래할 수 있는 정보를 제거하기 위해, 예를 들어, 대용량 원격 측정 데이터(telemetry data)와 같은 데이터를 처리하는데 사용될 수 있다. 본 개시에 따른 DQI 프레임워크(DQIF; DQI framework)의 실시 예에서 구현 될 수 있는 실시 예들은 데이터 소스 관리, 데이터 정리(cleansing), 데이터 변환, 데이터 집계(aggregation), 데이터 표준화(standardization), 데이터 일반화(generalization), 데이터 특성 순위화(data feature ranking), 데이터 특성 선택, 데이터 라벨링(labeling), 이들의 조합들 등 중 하나 이상을 포함한다.

도 1은 본 개시에 따른 방법의 실시 예의 흐름도를 보여준다. 도 1에 도시된 방법(100)은 기계 학습 스킴을 훈련하기 위한 시계열 데이터 세트를 제공하기 위해 일정 기간 동안 스토리지 장치들과 같은 하나 이상의 장치들로부터 시계열 데이터가 수집될 수 있는 데이터 수집 동작(102)을 포함할 수 있다. 예를 들어, 자체 모니터링 속성들은 일, 주, 월 및/또는 연도 및/또는 기타 적절한 주기 또는 비주기적인 시간 프레임의 기간에 걸쳐 하나 이상의 HDD(hard disk drive)들 및/또는 SSD(solid state drive)들에서 수집될 수 있다.

방법(100)은 또한 전처리된 데이터 세트를 생성하기 위해 시계열 데이터 세트를 개선할 수 있는 DQI 동작(104)을 포함할 수 있다. 방법(100)은 또한 데이터 수집 동작(102)으로부터의 시계열 데이터 세트 및/또는 DQI 동작(104)로부터의 전처리된 데이터 세트를 사용하여, 하나 이상의 기계 학습 스킴들을 훈련, 검증 및/또는 테스트하기 위한 훈련/검증/테스트 동작(106)을 포함할 수 있다.

방법(100)은 또한 평가 동작(108)을 포함할 수 있다. 평가 동작(108)에서, 예를 들어, 성능 점수를 계산함으로써 및/또는 예를 들어, 혼동 행렬을 사용하여 정의될 수 있는 비용함수를 사용함으로써, 하나 이상의 훈련된 기계 학습 스킴들의 성능이 평가될 수 있다. 방법(100)은 또한 모니터링 동작(110)을 포함할 수 있다. 모니터링 동작(110)에서, 스토리지 장치와 같은 작동(operating) 타겟 장치로부터의 순간 및/또는 시계열 데이터는 타겟 장치에 대한 장애 시간을 예측할 목적으로 수집될 수 있다. 예를 들어, 작동 스토리지 장치에서 자체 모니터링 속성들과 같은 원격 측정 데이터가 수집될 수 있다.

방법(100)은 또한 예측 동작(112)을 포함할 수 있다. 예측 동작(112)에서, 타겟 장치에 대해 수집된 데이터는 타겟 장치에 대한 장애 시간 예측을 제공하기 위해 기계 학습 스킴에 입력될 수 있다. 예를 들어, 수집된 데이터는 훈련/검증/테스트 동작(106)에서 훈련, 검증 및/또는 테스트된 하나 이상의 기계 학습 스킴에 입력될 수 있다.

일부 실시 예에서, 일부 동작들은 제외될 수 있고/있거나 다른 동작들은 추가될 수 있고/있거나 동작의 순서는 변경될 수 있다. 예를 들어, 일부 실시 예들에서, 데이터 수집 동작(102)은 이용 가능한 데이터 세트, 또는 더 많은 데이터를 수집하는 것과 결합하여 이용 가능한 데이터 세트의 일부를 사용하는 것에 기초하여 부분적으로 또는 전체적으로 생략될 수 있다. 다른 예로서, DQI 동작(104)은 하나 이상의 기계 학습 스킴들, 또는 수집되거나 사용 가능한 데이터를 사용할 수 있는 하나 이상의 기계 학습 스킴들의 특정 유형 및/또는 구현에 의해 사용 가능한 방식으로 전처리 및/또는 수집되는 수집된 데이터에 기초하여 부분적으로 또는 전체적으로 생략될 수 있다. 또 다른 예로서, 훈련/검증/테스트 동작(106)은 생략될 수 있는데, 이는 예를 들어 기계 학습 스킴이 사전 훈련, 검증, 및/또는 테스트될 수 있기 때문이다. 평가 동작(108)은 예를 들어 원하는 정확도(또는 정확성) 수준, 하나 이상의 스킴들에 대한 사전 경험 및/또는 등에 기초하여 생략될 수 있다. 도 1에 도시된 동작들은 예시적인 동작일 뿐이며, 실시 예들은 명시적으로 다루지 않은 다양한 추가 단계들을 포함할 수 있다.

도 1에 도시된 방법(100)의 동작들은 단일 장치, 시스템, 플랫폼, 프로그램, 프로세스 등 내에서 또는 다중의 이러한 엔티티(entity)들 사이에 분산되어 하드웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 일부 실시 예들에서, 원격 측정 데이터는 스토리지 장치와 함께 랙(rack)에 위치한 스토리지 컨트롤러에 의해 스토리지 장치들로부터 수집될 수 있다. 그런 다음 원격 측정 데이터는 DQI, 훈련, 검증, 테스트 및 평가를 위해 클라우드 기반 플랫폼으로 전송될 수 있다. 그런 다음 완전히 훈련된 기계 학습 스킴이 스토리지 섀시, 랙, 데이터 센터 등의 감독(supervisory) 프로세서에 배치될 수 있으며, 여기서 모니터링 및 예측은 스킴을 기반으로 수행될 수 있다. 다른 실시 예들에서, 모든 동작들은 클라우드 기반 플랫폼에서 원격으로 수행될 수 있다. 일부 실시 예들에서, 도 1에 도시된 하나 이상의 동작들이 도 13과 관련하여 아래에서 설명되는 것과 같은 시스템에서 수행될 수 있다. 본 개시의 실시 예들에 따라 수많은 다른 배치(arrangement)들이 구현될 수 있다.

도 2는 본 개시에 따른 모니터링 시스템의 실시 예를 도시한다. 시스템(120)은 장애 시간에 대해 모니터링되는 하나 이상의 장치들(121)로부터 시계열 원격 측정 데이터를 수신할 수 있는 모니터링 모듈(122)을 포함할 수 있다. 모니터링 모듈(122)은 원격 측정 데이터에 기초하여 장치들(121) 중 하나 이상에 대한 장애 시간을 예측하도록 훈련될 수 있는 기계 학습 스킴(124)을 포함할 수 있다. 모니터링 모듈(122)은 하나 이상의 장애 시간 예측들을 사용자, 데이터 센터 관리자 등에 전송할 수 있다. 시스템(120)은 도 13와 관련하여 아래에서 설명되는 것과 같은 시스템을 포함하여, 단일 장치, 시스템, 플랫폼, 프로그램, 프로세스 등 내에서 또는 다중의 이러한 엔티티들 사이에 분산되어 하드웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있다.

예를 들어, 일부 실시 예들에서, 모니터링 모듈(122)은 스토리지 장치들을 수용하는 섀시 내의 BMC(baseboard management controller)와 같은 감독 장치에서 실행되는 소프트웨어 모듈로서 구현될 수 있다. 일부 다른 실시 예들에서, 모니터링 모듈(122)은 저장(스토리지) 영역 네트워크를 관리하기 위한 클라우드 기반 플랫폼상에서 소프트웨어 프로세스로서 구현될 수 있다. 일부 다른 실시 예들에서, 모니터링 모듈(122)은 장애 시간에 대해 모니터링되는 장치에서(at) 또는 장치내에서(in) 구현될 수 있다. 예를 들어, 모니터링 모듈(122)은 스토리지 장치에서 구현될 수 있으며, 예를 들어, SSD 내의 저장 처리 장치(SPU; storage processing unit)상에서 실행될 수 있다. 이러한 실시 예에서, 장치의 하나 이상의 특성(파라미터)들을 모니터링하는데 사용되는 데이터는 비록 장치를 떠나지 않더라도 여전히 원격 측정 데이터로 지칭될 수 있다. 따라서 원격 측정 데이터는 장치의 장애 시간을 예측하기 위해 장치의 상태를 모니터링하는데 사용되는 모든 데이터를 지칭할 수 있다.

본 개시에 따른 일부 가능한 구현 세부 사항들을 예시하는 시스템들, 프로세스들, 방법들 등의 일부 예시적인 실시 예들이 아래에 설명된다. 이들 예들은 본 개시의 실시 예들을 예시하기 위해 제공되지만, 이러한 실시 예들은 구현 세부 사항들 등에 제한되지 않는다.

DQI (Data Quality Improvement)

일부 실시 예들에서, 자체 모니터링 속성들과 같은 원시(raw) 원격 측정 데이터는, 예를 들어, 수년 기간 동안 비교적 큰 스토리지 장치 풀로부터 수집되어, 기계 학습 스킴 훈련을 위한 대용량 시계열 데이터 세트를 제공할 수 있다. 이러한 데이터 세트들은 기계 학습 스킴과 관련이 없고 및/또는 중복될 수 있는 일부 데이터를 포함할 수 있다. 본 개시에 따라 DQIF(data quality improvement framework)를 시계열 데이터 세트에 적용하면, 이러한 원치 않는 데이터의 일부 또는 전부를 제거할 수 있다. 더욱이, 본 개시에 따른 DQIF는 또한 데이터의 일부 또는 전부를 일반화 및/또는 특성 랭킹(ranking)(또는 순위화), 선택 및/또는 라벨링을 제공할 수 있다. 따라서, 본 개시에 따른 DQIF는 구현 세부 사항들에 따라 훈련, 검증, 테스트 및/또는 스킴 예측 정확도를 포함하는 임의의 수의 다운스트림(downstream) 프로세스들 및/또는 결과들을 개선할 수 있는 전처리된 데이터 세트를 생성할 수 있다.

도 3은 본 개시에 따른 DQIF의 예시적인 실시 예에서 일부 구성요소들 및 데이터 흐름을 도시한다. 프레임워크(130)는, 예를 들어, 원격 측정 데이터베이스(TMDB)(132)로부터 입력 시계열 데이터 세트를 수신할 수 있는 데이터 소스 관리(DSM; data source management) 동작(134)을 포함할 수 있다. DSM 동작(134)은 장애를 예측하는데 도움이 될 수 있는 데이터를 유지하면서 무관하거나 중복 등이 될 수 있는 데이터를 제거할 수 있다. 즉, DSM 동작(134)은 시계열 데이터 세트의 적어도 일부에서 노이즈를 제거할 수 있다. 제거될 수 있는 데이터의 예들은 WWN(World Wide Name), 시스템 모델 식별자 등과 같은 속성들을 포함한다. 보존될 수 있는 데이터의 예들은 타임 스탬프(오류 로그 타임 스탬프와 같은) 및 파워-온(power on) 시간(hours)/일(days)(POH days)을 포함한다. 보존될 수 있는 데이터의 추가 예들은 총 온도 스로틀(throttle) 수(카운트), 드라이브 수명 비율, 정정 불가능한 오류 수정 코드(UECC; uncorrectable error correction code) 섹터 수(카운트), 총 소거 오류, 총 복구되지 않은 읽기 오류, 총 프로그램 오류, 및/또는 총 복구된 읽기 오류를 포함한다.

DSM 동작(134)은, 구현 세부 사항들에 따라 훈련, 검증, 테스트 및/또는 스킴 예측 정확도를 포함한 임의의 수의 다운스트림 프로세스들 및/또는 결과들을 개선할 수 있는 일반화된 데이터(140)를 얻기 위해 데이터 변환, 데이터 집계 및/또는 데이터 표준화를 적용할 수 있는 일반화 동작(138)에 의해 처리될 수 있는 정리된(cleansed) 데이터(136)를 출력할 수 있다.

일반화된 데이터(140)는 구현 세부 사항들에 따라 계산 시간을 줄이고, 예측 성능을 개선하고, 데이터 세트가 어떻게 기계 학습 스킴에 영향을 미칠 수 있는지에 대한 이해를 제공 등을 할 수 있는 하나 이상의 특성 선택 프로세스들을 구현할 수 있는 특성 선택 동작(142)에 의해 처리될 수 있다. 일부 실시 예들에서, 이러한 특성 프로세스들 중 하나 이상은, 예를 들어, 개선된 정확도로 장치에 대한 장애 시간을 예측할 수 있는 전체 데이터 세트의 서브 세트를 선택함으로써, 관련 없는 잡음(또는 노이즈(noise)) 특성들과 함께 고차원 데이터에 묻힐 수 있는 관련 특성들의 세트를 선택하는데 도움을 줄 수 있다.

본 개시에 따라 구현될 수 있는 특성 선택 프로세스의 한 예는 입력 데이터 세트의 전부 또는 일부에 대해 거의 또는 전혀 변화가 없을 수 있는 특성들일 수 있는 정지(still) 특성들의 제거이다. 예로서, 변형이 거의 또는 전혀 없는 것을 보여주는 특성들에 대해 스캔될 수 있는 평행 좌표 플롯(plot)을 사용하여, 하나 이상의 특성들은 플롯될 수 있다. 일부 실시 예들에서, 그리고 구현 세부 사항에 따라, 스토리지 장치가 곧 고장 날 수 있는지 여부를 나타내는 중요한 지표들로 일반적으로 간주될 수 있는 하나 이상의 특성들인데도 불구하고 특정 입력 데이터 세트에 대한 변동을 거의 또는 전혀 나타내지 않을 수 있고, 따라서, 특정 데이터 세트의 데이터로 훈련될 때, 스킴의 정확성에 큰 영향을 주지 않고 안전하게 제거될 수 있다.

본 개시에 따라 구현될 수 있는 특성 선택 프로세스의 또 다른 예는 특성 순위화이다. 특성 순위화는 감독(지도, supervised) 및/또는 감독되지 않은(비지도, unsupervised) 순위화 접근 방식들로 실현될 수 있다. 순위화 접근방식들은 재귀적 특성 제거(RFE; recursive feature elimination), 이득 비율 특성(또는 속성) 평가, 상관(correlation) 속성 평가, 정보 이득(gain) 속성 평가, 정보 이득 순위화 필터링 등을 포함한다.

일부 실시 예들에서, 둘 이상의 특성 순위화(feature ranking) 접근 방식이 사용될 수 있고, 하나 이상의 접근 방식을 사용하여 상대적으로 높은 순위를 갖는 하나 이상의 특성들이 유지(보유)될 수 있다. 예를 들어, 하나 이상의 트리 기반 분류기(classifier)들이 기계 학습 스킴에 사용될 수 있는 일부 실시 예들에서, 더 작고 더 작은 특성들의 세트를 재귀적으로 고려함으로써 특성들을 선택할 수 있는, RFE 접근법이 특성들의 1순위 테이블을 생성하는데 사용될 수 있다. 클래스에 대한 정보 이득을 측정하여 속성(attribute)을 평가할 수 있는 정보 이득 순위화 필터는 특성들의 2순위 테이블을 생성하는데 사용될 수 있다. 클래스에 대한 이득 비율을 측정하여 속성을 평가할 수 있는 이득 비율 특성 평가기는 특성들의 3순위 테이블을 생성하는데 사용될 수 있다. 예를 들어. 특성이 세 테이블들 중 적어도 두 개에서 중요한 위치에 있는 경우 그 특성은 유지될 수 있다.

본 개시에 따라 구현될 수 있는 또 다른 특성 선택 프로세스는 중복(redundancy) 제거이다. 예를 들어, 자체 구성 신경망 맵(SOM; self-organizing neural network map)은 중복될 수 있는 종속 특성들의 쌍들 또는 클러스터들을 식별하는데 사용될 수 있다. 따라서, 하나 이상의 기계 학습 스킴들의 정확성에 큰 영향을 미치지 않으면서 데이터 세트의 차원을 감소시킬 수 있는 중복 특성들 중 하나 이상이 제거될 수 있다.

따라서, 전처리된 데이터(144)일 수 있는 특성 선택 동작(142)의 출력은 구현 세부 사항들에 따라, 계산 시간을 줄이고, 예측 성능을 개선하고, 장애 파라미터들 및/또는 장치의 특성들 등에 대한 추가 정보를 제공할 수 있다.

일부 실시 예들에서, 134, 138 및/또는 142 동작들 중 하나 이상은 본 개시에 따른 DQIF를 향상시키기 위해 하나 이상의 사용자들의 도메인(domain) 지식과 결합될 수 있다. 예를 들어, 데이터 소스 관리 동작(134)동안, 사용자는 해당 특성에 대한 사용자의 경험에 기초하여, 그렇지 않으면(달리) 제거될 수 있었던 특성을 보유하고 및/또는 그렇지 않으면(달리) 보유될 수 있었던 특성을 제거할 수 있다. 마찬가지로, 특성 선택 동작(142)동안, 사용자는 해당 특성에 대한 사용자의 경험을 고려하여, 하나 이상의 순위화 테이블들에서의 특성들의 위치에 기초하여, 그렇지 않으면(달리) 결정될 수 있었던 특징의 선택 또는 거부를 무시할 수 있다. 예를 들어, 특성 정리 및/또는 선택 프로세스를 표시하고 사용자가 프로세스에 개입할 수 있도록 하는 커맨드 라인(command line) 또는 GUI(graphical user interface)의 사용을 통해 도메인 지식이 수용될 수 있다.

분류

본 개시의 실시 예들에 따르면, 일부 상황들에서, 장치에 대한 장애 시간은 높은 정확도 및/또는 먼 미래에 예측될 필요가 없을 수 있다. 예를 들어, 데이터 센터와 같은 사용자는, 장치가 고장 나기 전에 장치가 교체될 수 있도록, 상대적으로 짧은 시간의 양 내에 장치가 고장날 가능성이 있는지 여부만 아는 것이 필요할 수 있다. 따라서, 본 개시에 따르면, 고장 전의 하나 이상의 시간 윈도우들의 측면에서 장애 시간이 예측될 수 있다. 이를 통해 하나 이상의 기계 학습 분류 스킴들을 사용하여 장치의 장애 시간을 예측할 수 있다. 예를 들어, 일부 실시 예들에서, 이진 분류 스킴은 다른 장치들의 시계열 데이터 세트를 사용한 훈련에 기초하여, 장치가 다음 30일 이내에 고장 날 가능성이 있는지 여부에 대한 예/아니오 예측을 제공하도록 훈련될 수 있다. 일부 다른 실시 예들에서, 하나 이상의 다중-클래스 분류 스킴들은 장애 시점 이전의 다중 시간 윈도우들에서 하나 이상의 장애 시간 예측들을 제공하도록 훈련될 수 있다.

도 4는 본 개시에 따른 다중-클래스 기계 학습 분류 구조 및 데이터 라벨링 프로세스의 예시적인 실시 예를 도시한다. 도 4에 도시된 실시 예에서, 시간은 삼각형의 느낌표로 표시된 예상된 장애 시점과 함께 수평 축을 갖는 타임 라인에 표시된다. 작동 장치들은 타임 라인의 왼쪽에 표시된 대로 O 형 장치들로 라벨링될 수 있다. 예상된 장애 시점 이전에 4 개의 다른 1 주 시간 윈도우들 중 하나에서 고장날 가능성이 있는 장치들은 유형 Fn(n = 1, 2, 3, 4)으로 라벨링될 수 있다. 따라서 기계 학습 스킴은 시계열 데이터 세트(또는 데이터 세트의 전처리된 버전)로 학습되어, 장치로부터 기계 학습 스킴으로 원격 측정 데이터 적용에 대한 응답으로, O, F1, F2, F3 또는 F4의 다섯 가지 클래스들 중 하나로 장치를 분류할 수 있다. 4 개의 장애(또는 실패) 클래스들, 단일 작동 클래스, 및 1 주 시간 윈도우들의 사용은 단지 설명을 위한 것이다. 다른 실시 예들에서, 임의의 수의 작동 및/또는 장애 클래스들 및/또는 시간 윈도우들이 사용될 수 있다.

본 개시의 실시 예들은 작동 및/또는 고장난 장치들의 임의의 특정한 정의에 제한되지 않지만, 일부 실시 예들에서, 스토리지 장치는, 예를 들어 기본 이벤트, 장애 등이 대응하는 스토리지 컨트롤러에 전파되어 개입 및/또는 조사를 위해 종료(shut down)되는 경우, 스토리지 장치는 고장난 것으로 간주될 수 있다. 따라서, 일부 실시 예들에서, 스토리지 장치는 대응하는 시스템 다운타임(downtime)을 야기한다면, 고장난 장치로 간주될 수 있다. 일부 다른 실시 예에서, 장치가 하나 이상의 미리 결정된 오류 이벤트들을 보고하는 경우, 장치가 읽기 커맨드에 대한 응답으로 올바른 데이터를 반환하지 못하는 경우, 장치가 쓰기 커맨드에 대한 응답으로 쓰기 승인 및/또는 기타 적절한 실패 표시(indicia)를 제공하지 못한 경우, 장치는 고장난 장치로 간주될 수 있다.

스킴 훈련, 검증, 및 테스트

도 5 내지 도 11은 본 개시에 따른 기계 학습 스킴을 훈련, 검증 및 테스트하기 위한 프로세스의 예시적인 실시 예 및 구현 세부사항들을 도시한다. 예시의 목적으로, 예시적인 실시 예 및 세부사항들은 랜덤 포레스트(random forest) 알고리즘을 사용하는 다중 클래스 분류 스킴의 맥락(또는 컨택스트(context))에서 설명되지만, 로지스틱 회귀(logistic regression), 나이브 베이즈(na

ve Bayes), 경사 하강법(gradient descent), k-최근접 이웃들(k-nearest neighbors), 모든 유형의 의사 결정 트리들(decision trees), 지원 벡터 머신(support vector machine) 등과 같은 다른 스킴 및/또는 알고리즘이 사용될 수 있다.

도 5는 본 개시에 따른 데이터 분할 및 라벨링의 예시적인 실시 예를 도시한다. 도 5에 도시된 데이터 분할은 일정 기간 동안의 스토리지 장치들의 집단에서 수집된 원격 측정 데이터를 기반으로 전처리된 시계열 데이터 세트에서 장애가 발생한 장치에 대한 수평 타임 라인에서 장애 전 1, 2, 3 및 4주의 윈도우들에 대한 데이터를 표시할 수 있다. 각 실패 유형에 대해, 각 주(week)의 데이터는 예를 들어, 5 일 훈련 부분(훈련-Fn(Train-Fn), 여기서 n = 1, 2, 3, 4)과 2 일 테스트 부분(테스트-Fn(Test-Fn), 여기서 n = 1, 2, 3, 4)으로 시간 윈도우 방식으로(time-window wise) 분할될 수 있다. 시간 윈도우 분할(예를 들어, 무작위 분할과 반대되는)의 사용은 학습(훈련) 데이터 세트에서 테스트 데이터 세트로 정보가 유출되는 것을 방지할 수 있으며, 이는 성능 테스트 결과의 공정성을 보장할 수 있다. 일부 실시 예들에서, 그리고 구현 세부사항들에 따라, 무작위 피크(peak)들을 테스트하는 것(즉, 5/2 일 윈도우들과 같은 고정된 윈도우가 아닌)는 개선된 테스트 결과들을 제공할 수 있다.

도 6은 본 개시에 따른 작동 장치에 대한 데이터 분할의 예시적인 실시 예들을 도시한다. 도 6에 도시된 데이터 분할은, 작동 장치들에 대한 가장 최근의 4 주간의 데이터를 가진 4-주 테스트 부분(테스트-O(Test-O))으로 작동 장치들이 분할될 수 있는 수평 타임 라인에 표시될 수 있다. 데이터 분할은 또한 훈련 부분(훈련-O(Train-O))도 가질 수 있다. 훈련-O는 데이터 세트에 대한 데이터 수집 윈도우의 처음에서 시작하고, 5 주(즉 테스트-O 부분의 시작)에서 끝나는 작동 장치들에 대한 데이터를 포함할 수 있다.

도 7은 본 개시에 따른 훈련-테스트 데이터 분할의 예시적인 실시 예를 도시한다. 도 7에 예시된 실시 예는, 예를 들어, 전처리된 시계열 데이터 세트에 대한 훈련 및 검증 동작 및 테스트 동작에 사용될 수 있다. 데이터 세트의 훈련 부분은 훈련-O 데이터와 훈련-Fn 데이터가(여기서 n = 1, 2, 3, 4) 포함될 수 있고, 반면 데이터 세트의 테스트 부분은 테스트-O 데이터와 테스트-Fn 데이터가(여기서 n = 1, 2, 3, 4) 포함될 수 있다. 일부 실시 예들에서, 훈련-테스트 데이터 분할은 도 7에서 도시된 바와 같이, 훈련 및 테스트 세트들의 작동 데이터 사이에 겹침(overlap)이 없고, 훈련 및 테스트 세트들의 장애 데이터 사이에 겹침이 없도록 처리(또는 배열)될 수 있다.

도 8은 본 개시에 따른 훈련/검증 동작의 예시적인 실시 예를 도시한다. 예시의 목적을 위해 도 8에 도시된 실시 예는, 도 5 내지 도 7에 도시된 데이터 분할들로부터 훈련 데이터 세트를 사용할 수 있고, 정확도를 개선하고/하거나 과적 합 또는 오버피팅(overfitting)을 방지하기 위해 K-폴드 교차(K-fold cross) 검증 프로세스를 구현할 수 있다. "K"는 교차 검증에 사용되는 섹션(section)들 또는 폴드들의 개수를 나타낼 수 있으며, 임의의 적절한 수(예를 들어, 5, 10, 100 등)일 수 있다.

도 9는 도 8에 도시된 훈련/검증 동작으로부터 얻어질 수 있는 결과들의 예를 보여줄 수 있는 본 개시에 따른 혼동 행렬을 도시한다. 설명을 위해, 훈련/검증 동작은, 여러 해에 걸쳐 스토리지 장치들의 풀에서 자체-모니터링 원격 측정 데이터로부터 얻어진 전처리된 훈련 데이터 세트에서 수행되었다고 가정될 수 있다. 원시 데이터 세트는, 정보 이득 순위화 필터, 이득 비율 특성 평가기, 및 상관 순위화 필터를 포함한 세 가지 순위화 접근 방식들을 사용한 DQIF를 통해 전처리되었을 수 있어서, 자체-모니터링 특성들을 순위화 하고 그리고 순위화된 특성들을 기계 학습 스킴과 함께 사용을 위해, 예를 들어 총 18개의 특성들로 줄일 수 있다. 설명을 위해, 기계 학습 스킴은 도 9에서 도시된 바와 같이, O, F1, F2, F3, 및 F4의 다섯 가지 출력 클래스들를 갖는 다중 클래스 랜덤 포레스트 알고리즘으로 구현될 수 있다. O 클래스는 작동 장치를 나타낼 수 있고, F1, F2, F3 및 F4 클래스들은 각각 다음 1 주, 2 주, 3 주 또는 4 주 내에 고장 날 수 있는 드라이브들을 나타낼 수 있다.

도 9를 참조하면, 훈련/검증 동작으로부터의 정확한 결과들은 왼쪽 상단에서 오른쪽 하단으로 대각선으로 위치한 셀(cell)들, 즉 예측된 클래스가 실제 클래스와 일치하는 셀들에 속할 수 있다. 이 예에서, 훈련 세트의 총 816,164 개의 데이터 포인트들 중 하나를 제외한 모든 데이터가 올바르게 분류되었다. 하나의 잘못된 데이터 포인트는 F2 클래스(1 ~ 2 주 윈도우에 실패할 가능성이 있음)에 있을 것으로 예상되었지만 실제 클래스는 F1 (1 주 내에 실패 할 가능성이 있음) 였을 수 있다.

도 10은 본 개시에 따른 테스트 동작의 예시적인 실시 예를 도시한다. 설명을 위해, 도 10에 도시된 실시 예는 도 5 내지 도 7에 도시된 데이터 분할들로부터 테스트 데이터 세트를 사용할 수 있다.

도 11은 도 10에 도시된 테스트 동작으로부터 얻어질 수 있는 결과들의 예를 보여주는 혼동 행렬을 예시한다. 테스트 세트에서 총 17,235 개의 데이터 포인트들 중 27 개를 제외하고 모두 올바르게 분류되었다. 게다가 잘못 분류된 데이터 포인트들 중에서도 하나 이상의 클래스에서 벗어난 것은 없다. 도 11에 도시된 결과들은, 예를 들어, 아래에 설명된 공식들을 사용하여 정밀도 0.71, 리콜(재현도) 0.663 및 F-점수 0.651에 해당할 수 있다.

성능 평가

본 개시에 따른 기계 학습 스킴의 성능을 평가하기 위해 사용될 수 있는 점수는 수학식 1에 제공된다.

정밀도 구성요소

은 다음과 같이 주어질 수 있다.

리콜 구성요소

은 다음과 같이 주어질 수 있다.

F-점수 구성요소

은 다음과 같이 주어질 수 있다.

여기서

는 구성요소에 할당된 가중치를 나타낼 수 있고,

은 클래스들의 개수를 나타낼 수 있으며,

,

및

은 각각 참(true) 양성, 거짓(false) 양성 및 거짓(false) 음성을 나타낼 수 있으며,

는 정밀도 및 리콜 구성요소들의 상대적 가중치들을 조정하는데 사용될 수 있는 파라미터를 나타낼 수 있고, 아래 첨자

은 매크로(macro)(마이크로(micro)에 반대되는) 구성요소를 나타낼 수 있다. 일부 실시 예들에서, 매크로 구성요소들의 사용은, 예를 들어, SSD들에서 발생할 수 있는 것처럼 데이터 세트가 작동(O) 및 고장난(Fi) 장치들 간에 불균형한 곳에서 성능 점수의 정확도를 개선하는데 도움이 될 수 있다.

도 12는 본 개시에 따른 기계 학습 스킴을 평가하기 위한 비용 함수를 구현하는데 사용될 수 있는 혼동 행렬의 예시적인 실시 예를 도시한다. 도 12에 도시된 실시 예는 장치의 벤더(vendor) 및 소비자 모두의 관점에서 예측들의 정확성에 기초한 보상들 및 패널티들의 시스템을 구현할 수 있다. 설명을 위해, 도 12에 도시된 실시 예는, 도 11에 도시된 실시 예와 동일한 개수의 총 데이터 포인트들을 사용할 수 있지만, 예측들의 분포는 다를 수 있다. 그러나, 도 12와 관련하여 예시된 특징들은, 임의의 수의 클래스들 등을 갖는 임의의 비용 함수 및/또는 혼동 행렬을 갖는 임의의 결과들에 적용될 수 있다.

일부 실시 예들에서, 예를 들어, 벤더는 작동 장치가 계속 작동하도록 허용하는 인센티브(incentive)를 가질 수 있기 때문에, 행렬의 좌측 상단 셀은 벤더에 대해 무거운(heavy) 또는 큰 보상(어두운 음영으로 표시됨)을 수반할 수 있다. 예를 들어 임박한 고장을 정확하게 예측하는 것은 소비자가 데이터 손상, 데이터 손실, 및/또는 시스템 다운타임을 일으키기 전에 장치를 수리하거나 교체할 수 있기 때문에, 오른쪽 하단으로 대각선으로 확장하는 4 개의 셀들(밝은 음영으로 표시됨)은 소비자에게 큰 보상을 수반할 수 있다.

반대로, 예를 들어, 작동 장치가 보증에 따라 반환될 수 있고, 이에 따라 벤더에 대해 불필요한 비용이 발생할 수 있기 때문에, 작동 장치를 F1, F2, F3 또는 F4 클래스 (크로스-해칭으로 표시됨)로 잘못 분류하는 것은 벤더에 큰 페널티가 부과될 수 있다. 그러나, 예를 들어, 소비자는 예상치 못한 장치의 고장으로 인해 데이터 손상, 데이터 손실, 및/또는 시스템 다운타임을 경험할 수 있기 때문에, F1, F2, F3 또는 F4 장치(각각 1 주, 2 주, 3 주 또는 4 주 내에 고장 날 수 있음)를 작동 장치(대각선 해칭으로 표시됨)로 잘못 분류하는 것은 큰 페널티가 소비자에게 부과될 수 있다.

기계 학습 스킴이 장치가 실제로 고장 날 수 있는 것보다 더 일찍 고장 날 수 있다고 예측할 수 있기 때문에, 영역(154)에 위치한 셀들은 "조기(이른)" 예측들로 특징될 수 있다. 기계 학습 스킴이 장치가 실제로 고장 날 수 있는 것보다 더 늦게 고장 날 수 있다고 예측할 수 있기 때문에, 영역(156)에 위치한 셀들은 "늦은" 예측들로 특징될 수 있다.

일부 실시 예들에서, 조기 영역(154)에서 예측들은 가벼운(light) 또는 작은 보상을 수반할 수 있다. 일부 실시 예들에서, 영역을 통해 대각선으로 이어지는 바(bar)들의 상대적 두께에 의해 도시된 바와 같이, 보상의 레벨은 영역(154)의 정확도가 더 높은 레벨일수록 더 클 수 있다. 예를 들어, 실제 F2 클래스(2 주 장애 윈도우)인 장치가 F1 클래스(1 주 장애 윈도우)로 분류되면, 이는 3 레벨 가벼운 보상을 수반할 수 있다. 그러나 실제 F4 클래스 장치(4 주 장애 윈도우)가 F1 클래스 장치(1 주 장애 윈도우)로 분류되면, 1 레벨(최저 레벨) 가벼운 보상을 수반할 수 있다.

일부 실시 예들에서, 늦은 영역(156)에서 예측들은 가벼운 페널티를 수반할 수 있다. 일부 실시 예들에서, 영역을 통해 대각선으로 이어지는 바들의 상대적 두께에 의해 도시된 바와 같이, 페널티의 레벨은 영역(156)에 대한 정확도가 더 낮을수록 더 클 수 있다. 예를 들어, 실제 F1 클래스(1 주 장애 윈도우)인 장치가 F4 클래스(4 주 장애 윈도우)로 분류되면, 3 레벨 가벼운 페널티가 수반될 수 있다. 그러나 실제 F1 클래스 장치(1 주 장애 윈도우)가 F2 클래스 장치(2 주 장애 윈도우)로 분류되면, 1 레벨(최저 레벨) 가벼운 페널티가 수반될 수 있다.

일부 실시 예들에서, 위에서 설명된 성능 점수, 정밀도 값, 리콜 값, F-점수, 비용 함수 및/또는 혼동 행렬은 사용자가 기계 학습 스킴의 성능뿐만 아니라 스킴에서 훈련, 검증, 테스트 등에 관한 데이터 세트의 효과를 평가하게 할 수 있고, 사용자가 다른 스킴들, 데이터 세트들 등을 비교할 수 있도록 할 수 있다. 또한, 소비자 정의된 비용 함수를 줄이거나 최소화하는 것은 스킴의 예측 성능을 개선시키거나 최적화할 수 있다.

일부 실시 예들에서, 본 개시에서 설명된 다양한 기술들은 또한 반복적으로 사용될 수 있다. 예를 들어, 기계 학습 스킴의 첫 번째 반복은 DQIF를 데이터 세트에 적용하여 스킴을 훈련, 검증 및 테스트하는데 사용될 수 있는 전처리된 데이터 세트를 생성하도록 개발될 수 있다. 성능 점수, 비용 함수 및/또는 혼동 행렬과 같은 성능 평가 기술들 중 하나 이상이 스킴에 대한 추가 정보를 제공하기 위해 스킴에 적용될 수 있다. 이 추가 정보를 사용하여, 사용자는 기계 학습 모드를 더 구체화 또는 정제(refine)하기 위해 하나 이상의 다른 동작들을 한 번 이상 반복할 수 있다.

도 13은 본 개시에 따른 컴퓨팅 시스템의 실시 예를 도시한다. 예를 들어, 도 13의 시스템(300)은 본 개시에서 설명된 방법 및/또는 장치의 일부 또는 전부를 구현하기 위해 사용될 수 있다. 시스템(300)은 중앙 처리 장치(CPU; central processing unit)(302), 메모리(304), 스토리지(306), 그래픽 처리 장치(GPU; graphics processing unit)(307), 사용자 인터페이스(308) 및 네트워크 인터페이스(310)를 포함할 수 있다. 다른 실시 예들에서, 본 개시에 설명된 임의의 방법 및/또는 장치를 구현하기 위해, 시스템은 이들 구성요소들 중 임의의 것을 생략할 수 있거나, 임의의 다른 유형의 구성요소들뿐만 아니라 임의의 구성요소들의 중복 또는 임의의 추가 수들을 포함할 수 있다.

일부 실시 예들에서, GPU(307)는 DQI 동작들, 훈련, 검증, 테스트, 성능 평가 등과 같은 기계 학습 동작에 사용될 수 있다.

CPU(302)는 임의의 수의 코어들, 캐시들, 버스 및/또는 인터커넥트 인터페이스(interconnect interface) 및/또는 컨트롤러들을 포함할 수 있다. 메모리(304)는 동적 및/또는 정적 RAM(DRAM, SRAM), 불휘발성 메모리(예를 들어, 플래시 메모리) 등의 임의의 장치를 포함할 수 있다. 스토리지(306)는 하드 디스크 드라이브(HDD; hard disk drive)들, 솔리드 스테이트 드라이브(SSD; solid state drive)들 및/또는 임의의 다른 유형의 데이터 스토리지 장치들 또는 임의의 그것의 조합을 포함 할 수 있다. 사용자 인터페이스(308)는 키보드들, 마우스들, 모니터들, 비디오 캡처 또는 전송 장치들, 마이크들, 스피커들, 터치 스크린들 등과 같은 임의의 유형의 휴먼 인터페이스 장치들뿐 만 아니라 이러한 장치들의 임의의 가상화 또는 원격 버전들을 포함할 수 있다. 네트워크 인터페이스(310)는 구성요소들이 인트라넷, 인터넷, 근거리 통신망(local area network)들, 광역 통신망(wide area network)들 등과 같은 물리적 및/또는 논리적 네트워크들을 통해 통신할 수 있도록 이더넷(Ethernet), Wi-Fi, 블루투스(Bluetooth) 또는 임의의 다른 컴퓨터 네트워킹 설비를 통해 통신하는 하나 이상의 어댑터들 또는 기타 장치를 포함할 수 있다.

시스템(300)의 구성요소들 중 일부 또는 전부는, 전력 버스, 주소 및 데이터 버스, SATA(Serial AT Attachment), PCI(Peripheral Component Interconnect), PCI-e(Peripheral Component Interconnect Express), SMB(System Management Bus) 및 구성요소들이 한 위치에서 로컬로 및/또는 서로 다른 위치들 사이에 분산되어 작동하게 할 수 있는 기타 유형의 인터페이스 같은 고속 인터커넥터들을 포함하는 다양한 인터페이스들을 집합적으로 지칭할 수 있는 시스템 버스(301)를 통해 상호 연결될 수 있다.

시스템(300)은 또한 다양한 칩셋, 인터페이스, 어댑터, 글루-로직, 프로그래머블 또는 비-프로그래밍 로직 장치 또는 어레이와 같은 임베디드 컨트롤러들, ASIC(application specific integrated circuits), 임베디드 컴퓨터, 스마트 카드 등, 시스템(300)의 다양한 구성요소와 함께 작동하여 본 발명에서 설명된 방법 및/또는 장치의 일부 또는 전부를 구현할 수 있도록 구성된 것을 포함할 수 있다. 시스템(300)의 임의의 구성 요소는 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 일부 실시 예들에서, 구성요소들의 일부 또는 전부는 가상화 된 형태 및/또는 예를 들어 데이터 센터 내에서 자원의 유연한 프로비저닝을 통해 클라우드 기반 구현으로 실현되거나 여러 데이터 센터에 분산될 수 있다.

본 명세서에 개시된 실시 예와 관련하여 설명된 방법 또는 알고리즘 및 기능들의 동작들은 하드웨어, 프로세서에 의해 실행되는 하나 이상의 소프트웨어 모듈, 또는 시스템(300)을 포함하여 이 둘의 조합으로 직접 구현될 수 있다. 소프트웨어로 구현되는 경우, 기능은 유형의 비일시적 컴퓨터 판독 가능 매체에 하나 이상의 명령 또는 코드로 저장되거나 이를 통해 전송될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), 플래시 메모리, ROM(Read Only Memory), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 레지스터, 하드 디스크, 이동식 디스크, CD ROM 또는 다른 형태의 저장 매체에 있을 수 있다. 본 명세서에 개시된 임의의 시스템, 또는 그 구성 요소 또는 일부는 더 큰 시스템, 예를 들어 그래픽 처리 장치(GPU) 또는 다른 더 큰 시스템의 소프트웨어 스택의 일부로서 구현될 수 있다. 여기에 개시된 임의의 시스템, 또는 그 구성요소 또는 일부는 자체 소프트웨어 스택으로 구현될 수 있다.

본 명세서에 개시된 실시 예는 다양한 구현 세부사항들의 맥락에서 설명될 수 있지만, 본 개시의 실시 예들은 이들 또는 임의의 다른 특정 세부사항들로 제한되지 않는다. 예를 들어, 스토리지 장치들에 대한 장애 시간 예측들의 맥락에서 일부 실시 예들이 설명되었지만, 본 발명의 실시 예들은 다른 유형의 장치들에도 적용될 수 있다. 일부 기능은 특정 구성 요소들에 의해 구현되는 것으로 설명되었지만, 다른 실시 예들에서, 기능은 서로 다른 위치들에 있고 다양한 사용자 인터페이스들을 갖는 서로 다른 시스템들 및 구성요소들 간에 분산될 수 있다. 특정 실시 예들은 특정 프로세스들, 단계들, 이들의 조합 등을 갖는 것으로 설명되었지만, 이러한 용어들은 특정 프로세스, 단계, 이들의 조합 등이 다수의 프로세스들, 단계들, 이들의 조합들로 구현될 수 있는 실시 예들을 포함할 수 있고, 다수의 프로세스들, 단계들, 이들의 조합들 등이 단일 프로세스, 단계, 이들의 조합 등으로 통합될 수 있는 실시 예들을 포함할 수 있다. 구성요소 또는 요소에 대한 참조는 구성요소 또는 요소의 일부만 참조할 수 있다. 본 개시 및 청구 범위에서 "제 1"및 "제 2"와 같은 용어의 사용은 그들이 수정하는 것을 구별하기 위한 목적 일 뿐이며, 문맥에서 달리 명백하지 않는 한 어떤 공간적 또는 시간적 순서를 나타내지 않을 수 있다. 첫 번째 것에 대한 언급은 두 번째 것의 존재를 의미하지 않을 수 있다. 더욱이, 위에서 설명된 다양한 세부 사항 및 실시 예는 본 특허 개시의 실시 예들에 따라 추가적인 실시 예를 생성하기 위해 결합될 수 있다. 편의상 섹션 표제와 같은 다양한 조직 지원이 제공될 수 있지만, 이러한 지원 및 본 개시의 특징에 따라 배열된 주제는 이러한 조직 지원에 의해 제한되지 않다.

본 특허 개시의 실시 예들은 본 발명의 개념을 벗어나지 않고 배열 및 세부적으로 수정될 수 있기 때문에, 그러한 변경 및 수정은 다음의 청구 범위의 범주 내에 속하는 것으로 간주된다.

Claims

타겟 스토리지 장치의 장애 시간(time-to-failure)을 예측하는 방법에 있어서,
하나 이상의 스토리지 장치로들부터 작동 및 장애 데이터의 시계열 데이터 세트로 기계 학습 스킴(scheme)을 훈련시키는 단계;
상기 타겟 스토리지 장치로부터 원격 측정(telemetry) 데이터를 수신하는 단계; 및
상기 기계 학습 스킴에 상기 원격 측정 데이터를 입력하는 단계를 포함하고,
상기 기계 학습 스킴은 상기 원격 측정 데이터에 응답하여 상기 타겟 스토리지 장치에 대한 장애 시간 예측에 기반한 시간-윈도우(time-window)를 출력하는 방법.
제 1 항에 있어서,
상기 기계 학습 스킴은 적어도 두 개의 클래스들을 출력하고,
상기 적어도 두 클래스들 중 하나 이상은 시간 윈도우들을 포함하는 방법.
제 2 항에 있어서,
상기 기계 학습 스킴을 훈련시키는 단계는, 상기 시계열 데이터 세트를 시간 윈도우들로 분할하는 단계를 포함하고, 클래스는 시간 윈도우에 대응하는 방법.
제 3 항에 있어서,
상기 작동 및 장애 데이터는 장애 시간을 기반으로 시간 윈도우들로 분할되는 방법.
스토리지 장치의 장애 시간을 예측하기 위한 기계 학습 스킴을 훈련하는 방법에 있어서,
하나 이상의 스토리지 장치들부터 작동 및 장애 데이터의 시계열 데이터 세트를 전처리하고, 그에 따라 전처리된 데이터 세트를 생성하는 단계; 및
상기 전처리된 데이터 세트로 상기 기계 학습 스킴을 훈련하는 단계를 포함하고,
상기 기계 학습 스킴은 장애 시간 예측을 기반으로 시간-윈도우를 생성하는 방법.
제 5 항에 있어서,
적어도 2 개의 특성들을 순위화(rank)하는 단계를 더 포함하고,
상기 시계열 데이터 세트는 스토리지 장치와 관련된 하나 이상의 상기 특성들을 포함하는 방법.
제 6 항에 있어서,
상기 전처리된 데이터 세트에 포함된 특성들의 개수를 제한하여, 상기 전처리된 데이터 세트의 차원을 줄이는 단계를 더 포함하는 방법.
제 6 항에 있어서,
재귀적 특성 제거, 상관 속성 평가, 이득 비율 속성 평가, 또는 정보 이득 속성 평가 중 적어도 하나에 의해 상기 특성들을 순위화하는 단계를 더 포함하는 방법.
제 5 항에 있어서,
상기 시계열 데이터 세트의 적어도 일부로부터 노이즈를 제거하는 단계를 더 포함하는 방법.
제 5 항에 있어서,
데이터 변환, 데이터 집계(aggregation) 또는 데이터 표준화 중 적어도 하나에 의해 상기 시계열 데이터 세트의 적어도 일부를 수정하는 단계를 더 포함하는 방법.