TWI510916B - 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 - Google Patents

儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 Download PDF

Info

Publication number
TWI510916B
TWI510916B TW104103877A TW104103877A TWI510916B TW I510916 B TWI510916 B TW I510916B TW 104103877 A TW104103877 A TW 104103877A TW 104103877 A TW104103877 A TW 104103877A TW I510916 B TWI510916 B TW I510916B
Authority
TW
Taiwan
Prior art keywords
storage device
life
log
module
operational behavior
Prior art date
Application number
TW104103877A
Other languages
English (en)
Other versions
TW201629766A (zh
Inventor
陳志明
承億 張
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW104103877A priority Critical patent/TWI510916B/zh
Priority to CN201510092859.4A priority patent/CN105988910B/zh
Priority to US14/719,319 priority patent/US10147048B2/en
Application granted granted Critical
Publication of TWI510916B publication Critical patent/TWI510916B/zh
Publication of TW201629766A publication Critical patent/TW201629766A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

儲存裝置壽命監控系統以及其儲存裝置壽命監控方法
本發明是有關於一種儲存裝置壽命監控系統,且特別是用於監控資料中心的多個儲存裝置的儲存裝置壽命監控系統以及其所使用的儲存裝置壽命監控方法。
近年來,隨著科技的日新月異,資料量的爆炸性發展已經影響科技業界在資料儲存硬體上的需求。因為必須藉由諸多非揮發性儲存裝置來儲存大量資料,此些儲存裝置的容量的大小以及管理上的複雜性也相應提高。
一般來說,為了掌握資料中心的運作情形以進行安全性維護,在開發與設計管理資料中心的伺服器系統時,多半會配置管理模組對系統內部的風扇運轉狀況、溫度或是電壓等資訊進行監控。藉此,伺服器系統可在接收到系統的儲存裝置的異常狀態的回報(例如,接收對應每一儲存裝置的日誌檔)之後,被動地做出 資料救援或是硬體替換的處置。
由於資料中心的每一儲存裝置的大容量,故,在儲存裝置毀損(或是發生嚴重錯誤)之後,對此毀損的儲存裝置所需要的資料回復時間,或是資料備份時間也會對應提高許多,進而導致資料中心維護成本的大量增加。然而,隨著高速存取資料的趨勢發展之下,資料中心也逐漸引進傳統硬碟(HDD)以外的儲存裝置(例如,可高速存取資料的固態硬碟(SSD))來儲存資料。也因為如此,舊有的僅適用於傳統硬碟的自我監測分析及報告技術逐漸地不能滿足資料中心對於多種儲存裝置的維護需求。基此,如何準確地預測儲存裝置的壽命,主動地提早預測儲存裝置的壽命來進行預防性的處置,以節省因為裝置毀損所導致的大量維護成本,為本領域人員所致力的目標。
本發明提供一種儲存裝置壽命監控系統以及其所使用的儲存裝置壽命監控方法,其能夠有效地預測儲存裝置的壽命。
本發明的一範例實施例提出一種用於監控多個儲存裝置之壽命的儲存裝置壽命監控系統。所述儲存裝置壽命監控系統包括儲存裝置狀態偵測與分析模組、資料庫、壽命估計訓練模組與壽命預測模組。資料庫耦接至儲存裝置狀態偵測與分析模組。壽命估計訓練模組耦接至儲存裝置狀態偵測與分析模組。壽命預測模組耦接至儲存裝置狀態偵測與分析模組與壽命估計訓練模組。 資料庫記錄多個訓練資料,其中每一訓練資料包括運作行為資訊及對應運作壽命值。儲存裝置狀態偵測與分析模組擷取對應此些儲存裝置的運作行為資訊。壽命估計訓練模組依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型。壽命預測模組將此些儲存裝置的運作行為資訊輸入至儲存裝置壽命預測模型以產生對應每一儲存裝置的預估壽命值。
在本發明的一範例實施例中,壽命估計訓練模組依據每一儲存裝置的運作行為資訊與預估壽命值來重新架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,其中當此些儲存裝置之中的第一儲存裝置損壞時,儲存裝置狀態偵測與分析模組記錄第一儲存裝置的實際壽命值,並且壽命估計訓練模組依據第一儲存裝置的運作行為資訊與實際壽命值來重新架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,其中儲存裝置狀態偵測與分析模組包括日誌蒐集模組與運作行為識別模組,並且在上述儲存裝置狀態偵測與分析模組擷取對應該些儲存裝置的運作行為資訊的運作中,日誌蒐集模組蒐集對應每一儲存裝置的至少一個運作日誌,並且運作行為識別模組剖析每一儲存裝置的至少一個運作日誌以建立每一儲存裝置的運作行為資訊。
在本發明的一範例實施例中,上述運作日誌包括系統日誌、應用程式日誌、資料庫日誌與自我監測分析及報告技術日誌。
在本發明的一範例實施例中,運作行為識別模組識別對應每一儲存裝置的系統日誌中的系統存取錯誤、應用程式日誌中的應用程式存取錯誤、資料庫日誌中的資料庫存取錯誤和自我監測分析及報告技術日誌中的磁碟存取錯誤,計算系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存取錯誤的數目,並且依據系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存取錯誤的數目來建立每一儲存裝置的運作行為資訊。
在本發明的一範例實施例中,在上述壽命估計訓練模組依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型的運作中,壽命估計訓練模組使用K分群演算法、線性回歸分析或支援向量機來架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,在上述壽命估計訓練模組依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型的運作中,壽命估計訓練模組將此些訓練資料與此些預測資料分割為多個資料集合,分別地依據此些資料集合來架構多個子預測模型,並且合併此些子預測模型以形成儲存裝置壽命預測模型。
本發明的一範例實施例提供一種用於監控多個儲存裝置之壽命的儲存裝置壽命監控方法。所述儲存裝置壽命監控方法包括建立資料庫,其中資料庫記錄多個訓練資料,其中每一訓練資料包括運作行為資訊及對應運作壽命值;以及擷取對應此些儲存 裝置的運作行為資訊。所述儲存裝置壽命監控方法更包括依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型;將此些儲存裝置的運作行為資訊輸入至儲存裝置壽命預測模型以產生對應每一儲存裝置的預估壽命值。
在本發明的一範例實施例中,所述儲存裝置壽命監控方法還包括依據每一儲存裝置的運作行為資訊與預估壽命值來重新架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,所述儲存裝置壽命監控方法還包括當此些儲存裝置之中的第一儲存裝置損壞時,記錄第一儲存裝置的實際壽命值;以及依據第一儲存裝置的運作行為資訊與實際壽命值來重新架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,上述擷取對應此些儲存裝置的運作行為資訊的步驟包括蒐集對應每一儲存裝置的至少一個運作日誌;以及剖析每一儲存裝置的至少一個運作日誌以建立每一儲存裝置的運作行為資訊。
在本發明的一範例實施例中,所述儲存裝置壽命監控方法還包括識別對應每一儲存裝置的系統日誌中的系統存取錯誤、應用程式日誌中的應用程式存取錯誤、資料庫日誌中的資料庫存取錯誤和自我監測分析及報告技術日誌中的磁碟存取錯誤;計算系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存取錯誤的數目;以及依據系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存 取錯誤的數目來建立每一儲存裝置的運作行為資訊。
在本發明的一範例實施例中,所述依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型的步驟包括使用K分群演算法、線性回歸分析或支援向量機來架構儲存裝置壽命預測模型。
在本發明的一範例實施例中,所述依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型的步驟包括將此些訓練資料與此些預測資料分割為多個資料集合;分別地依據此些資料集合來架構多個子預測模型;以及合併此些子預測模型以形成儲存裝置壽命預測模型。
基於上述,本發明所提供的一種儲存裝置壽命監控系統以及其所使用的儲存裝置壽命監控方法,可辨識對應多個儲存裝置的運作行為資訊,根據此些儲存裝置的運作行為資訊經由儲存裝置壽命預測模型來預測每一儲存裝置的壽命,更依據每一儲存裝置的運作行為資訊與所預測的壽命所構成的多個預測資料來重新架構儲存裝置壽命預測模型。如此一來,本發明可產生大量且成本低的訓練資料來增進預測儲存裝置的壽命的精確度,進而提高管理此些儲存裝置的效率。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
10‧‧‧資料中心
100‧‧‧伺服器
310‧‧‧處理單元
320‧‧‧儲存裝置壽命監控系統
330‧‧‧連接介面單元
340‧‧‧記憶體單元
200(0)~200(N)‧‧‧儲存裝置
110‧‧‧儲存裝置狀態偵測與分析模組
120‧‧‧資料庫
130‧‧‧壽命估計訓練模組
140‧‧‧壽命預測模組
111‧‧‧日誌蒐集模組
112‧‧‧運作行為識別模組
R301、R303、R305、R307、R309‧‧‧儲存裝置壽命監控的運作路徑
D1~D10‧‧‧訓練資料
A、B、Y‧‧‧預測曲線
R1、R2、R3、R4‧‧‧架構儲存裝置壽命預測模型的運作路徑
610、620、630、631、632‧‧‧叢集運算伺服器
S701、S703、S705、S707、S709‧‧‧儲存裝置壽命監控方法的步驟
圖1是根據一範例實施例所繪示的資料中心的示意圖。
圖2是根據一範例實施例所繪示的儲存裝置壽命監控系統的程式碼的關係示意圖。
圖3是根據一範例實施例所繪示的使用訓練資料、預測資料與實際資料來架構儲存裝置壽命預測模型的運作示意圖。
圖4與圖5是根據一範例實施例所繪示的自我學習方法的示意圖。
圖6是根據一範例實施例所繪示的使用訓練資料與預測資料來架構儲存裝置壽命預測模型的運作示意圖。
圖7是根據一範例實施例所繪示的儲存裝置壽命監控方法的流程圖。
圖8是根據一範例實施例所繪示的使用訓練資料與預測資料來架構儲存裝置壽命預測模型的運作示意圖。
圖9是根據一範例實施例所繪示的儲存裝置壽命監控方法的流程圖。
圖1是根據一範例實施例所繪示的資料中心的示意圖。
請參照圖1,在本範例實施例中,資料中心10包括伺服器100與多個儲存裝置200(0)~200(N)。伺服器100是耦接儲存裝 置200(0)~200(N),並且伺服器100用來監控儲存裝置200(0)~200(N)的裝置狀態。特別是,在本範例實施例中,伺服器100會藉由儲存裝置壽命監控系統(Storage Device Lifetime Monitoring System)320來監控儲存裝置200(0)~200(N)的裝置狀態並且預測每一儲存裝置200(0)~200(N)的壽命。必須了解的是,本發明並不限定儲存裝置200(0)~200(N)的數量。
儲存裝置200(0)~200(N),用以儲存資料中心10的資料。例如,所儲存的資料包括由使用者傳送至資料中心10進行存取的使用者資料、用於管理的資料中心系統資料,以及對應的使用者資料或資料中心系統資料的備份資料,或是適於儲存在資料中心10的任何型態的資料,本發明不限於此。在本範例實施例中,儲存裝置200(0)~200(N)例如是任何型態的硬碟機(hard disk drive,HDD)或非揮發性記憶體儲存裝置(SSD)。
在本範例實施例中,伺服器100除了監控儲存裝置200(0)~200(N)的壽命之外,伺服器100還用以控管資料中心10中的儲存裝置200(0)~200(N)的分配。在本範例實施例中,伺服器100包括處理單元(Processing Unit)310、儲存裝置壽命監控系統320、連接介面單元(Connection Interface Unit)330與記憶體單元(Memory Unit)340。
處理單元310用以控制伺服器100的整體運作。在本範例實施例中,處理單元310,例如是中央處理單元(Central Processing Unit,CPU)、微處理器(micro-processor)、或是其他可 程式化之處理單元(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。在本範例實施例中,處理單元310為基板管理控制器(Baseboard Management Controller,BMC),除了負責伺服器100的整體運作之外,處理單元310還可對資料中心10內部的風扇運轉狀況、溫度或是電壓等資訊進行監控。一般來說,處理單元310可以直接整合在伺服器100的基板上,亦或是以插卡的形式配置在伺服器100中。
連接介面單元330是耦接於處理單元310,並且處理單元310可透過連接介面單元330連接儲存裝置200(0)~200(N)來存取資料或是下達控制指令。連接介面單元330,例如是相容於序列式小型電腦系統介面(Serial Attached SCSI,SAS)標準、雙線介面(Two Wire Interface,TWI)標準、序列先進附件(Serial Advanced Technology Attachment,SATA)標準、並列先進附件(Parallel Advanced Technology Attachment,PATA)標準、電氣和電子工程師協會(Institute of Electrical and Electronic Engineers,IEEE)1394標準、高速周邊零件連接介面(Peripheral Component Interconnect Express,PCI Express)標準、通用序列匯流排(Universal Serial Bus,USB)標準、整合式驅動電子介面(Integrated Device Electronics,IDE)標準或其他適合的標準的實體介面,本發明不限 於此。
在本範例實施例中,儲存裝置壽命監控系統320用以表示儲存在耦接於處理單元310的儲存單元中的程式碼或資料的組合(亦稱,系統),其用以實行監控資料中心10中的多個儲存裝置200(0)~200(N)的功能。在本範例實施例中,儲存單元例如是硬碟(Hard Disk Drive,HDD)、可抹除可編程唯讀記憶體(Erasable Programmable Read Only Memory,EPROM)、電子抹除式可複寫唯讀記憶體(Electrically Erasable Programmable Read Only Memory,EEPROM)或快閃記憶體(Flash memory)等可複寫式非揮發性記憶體,或是具有儲存資料的功能的電路。應注意的是,儲存單元亦儲存伺服器100的其他資料,例如,用以管理伺服器100本身的軔體或是軟體。
記憶體單元340是耦接至處理單元310,並且用以暫存伺服器100的資料。在本範例實施例中,記憶體單元340例如是動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)、靜態隨機存取記憶體(Static Random Access Memory,SRAM)等揮發性記憶體。在本範例實施例中,為了實行儲存裝置壽命監控系統的功能,當伺服器100上電時,處理單元310會從儲存裝置壽命監控系統320讀取此些程式碼,將所讀取的程式碼載入至記憶體單元340,執行此些程式碼以完成伺服器100的多個功能。換言之,處理單元310會執行此些程式碼以實行伺服器100所使用的儲存裝置壽命監控方法。
圖2是根據一範例實施例所繪示的儲存裝置壽命監控系統的程式碼的關係示意圖。以下藉由圖2來說明儲存裝置壽命監控系統320所儲存的此些程式碼以及資料庫的功能與其之間的互動關係。
請參照圖2,儲存裝置壽命監控系統320包括實行儲存裝置壽命監控方法的此些程式碼與資料庫120。在本範例實施例中,此些程式碼包括儲存裝置狀態偵測與分析模組(Storage Device Status Detecting and Analyzing Module)110、壽命估計訓練模組(Lifetime Estimation Training Module)130、壽命預測模組(Lifetime Predicting Module)140。
儲存裝置狀態偵測與分析模組110用以擷取對應此些儲存裝置200(0)~200(N)的運作行為資訊。在一範例實施例中,儲存裝置狀態偵測與分析模組100包括日誌蒐集模組(Log Collecting Module)111與運作行為識別模組(Operation Activity Identifying Module)112。
日誌蒐集模組111會蒐集對應每一儲存裝置的至少一個運作日誌(LOG)。具體來說,在本範例實施例中,每一儲存裝置在進行任何運作時,都會將有關目前運作的資訊記錄在運作日誌中。舉例來說,假設儲存裝置進行資料讀取運作,此儲存裝置便會記錄此資料讀取運作的開始時間、結束時間、目標資料的大小與位址以及在讀取資料的運作中是否有錯誤發生等任何關於此資料讀取運作的資訊於對應此資料讀取運作的運作日誌中。在本範 例實施例中,日誌蒐集模組111蒐集對應每一儲存裝置的至少一個運作日誌的方式例如是處理單元310從儲存裝置讀取所記錄的運作日誌,並將運作日誌輸入至日誌蒐集模組,但本發明不限於此。例如,日誌蒐集模組111也可主動對儲存裝置發出請求來獲得運作日誌。
在本範例實施例中,運作日誌包括系統日誌(System Log)、應用程式日誌(Application Log)、資料庫日誌(Database Log)與自我監測分析及報告技術日誌(S.M.A.R.T.Log)。系統日誌會記錄關於儲存裝置200(0)~200(N)在處理系統運作的相關資訊。應用程式日誌會記錄關於應用程式對於儲存裝置200(0)~200(N)的存取運作的相關資訊。資料庫日誌會記錄客戶端對於儲存裝置200(0)~200(N)的資料庫所進行的存取運作。自我監測分析及報告技術日誌是記錄對應在儲存裝置200(0)~200(N)中屬於硬碟的儲存裝置的自我監測分析及報告技術的資訊。
在本範例實施例中,運作行為識別模組112用以剖析對應每一儲存裝置的運作日誌以建立每一儲存裝置的運作行為資訊。具體來說,運作行為識別模組112會識別對應每一儲存裝置的系統日誌中的系統存取錯誤、應用程式日誌中的應用程式存取錯誤、資料庫日誌中的資料庫存取錯誤和自我監測分析及報告技術日誌中的磁碟存取錯誤。此外,運作行為識別模組112還會計算對應每一儲存裝置的系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存取錯誤的數目,並且依 據對應每一儲存裝置的系統存取錯誤的數目、應用程式存取錯誤的數目、資料庫存取錯誤的數目與磁碟存取錯誤的數目來建立每一儲存裝置的運作行為資訊。
舉例來說,假設日誌蒐集模組111從儲存裝置200(2)蒐集到系統日誌、應用程式日誌、資料庫日誌與自我監測分析及報告技術日誌。運作行為識別模組112從儲存裝置200(2)的系統日誌辨識到3個系統存取錯誤;從儲存裝置200(2)的應用程式日誌辨識到30個應用程式存取錯誤;從儲存裝置200(2)的資料庫日誌辨識到300個資料庫錯誤;從儲存裝置200(2)的自我監測分析及報告技術日誌辨識到0個磁碟存取錯誤。運作行為識別模組112會建立儲存裝置200(2)的運作行為資訊,例如,運作行為識別模組112將儲存裝置200(2)的運作行為資訊記錄為“3,30,300,0”。
再例如,假設日誌蒐集模組111之後再從儲存裝置200(2)蒐集到系統日誌、應用程式日誌、資料庫日誌與自我監測分析及報告技術日誌中辨識到3個系統存取錯誤、30個應用程式存取錯誤、300個資料庫錯誤以及0個磁碟存取錯誤時,運作行為識別模組112將儲存裝置200(2)的運作行為資訊更新為“6,60,600,0”。也就是說,運作行為識別模組112會持續更新儲存裝置200(2)的運作行為資訊。
在本範例實施例中,儲存裝置壽命監控系統320包括資料庫120,其中資料庫120記錄多個訓練資料,並且每一訓練資料 包括運作行為資訊及對應運作壽命值。在此,訓練資料為依據先前所使用的儲存裝置的使用狀態所記錄之其運作行為資訊及對應運作壽命值。每一筆訓練資料是對應一個先前所使用之儲存裝置的資訊。關於運作行為資訊的說明已詳述於上,在此不贅述於此。而對應運作壽命值,是指在儲存裝置從出廠後至發生損壞而無法使用之間運作時間的總和(亦稱儲存裝置的壽命)。但必須了解的是,本發明不限於此定義。廠商可依據需求來設計對應運作壽命值的定義。對應運作壽命值的單位,例如是小時等適用的時間單位。舉例來說,假設其中一筆訓練資料為“0,0,0,100,50000”,則此筆訓練資料即可用來表示,某個儲存裝置的運作行為資訊為“0,0,0,100”,並且其壽命為50000小時。應注意的是,上述訓練資料的格式僅為說明之用,不限定本發明。
壽命估計訓練模組130用以依據此些訓練資料的運作行為資訊及對應運作壽命值來訓練(亦稱架構)儲存裝置壽命預測模型。更進一步地說,廠商在設計儲存裝置壽命監控系統320時,會根據舊有的資料中心(或是另一資料中心)的每一儲存裝置的(以前發生的)運作行為資訊與運作壽命來做為多個訓練資料,並且利用儲存裝置壽命監控系統320的資料庫120來記錄此些訓練資料,以讓壽命估計訓練模組依據此些訓練資料來架構儲存裝置壽命預測模型。
壽命預測模組140用以將從儲存裝置狀態偵測與分析模組110所接收的儲存裝置200(0)~200(N)的運作行為資訊輸入至壽 命估計訓練模組130所架構的儲存裝置壽命預測模型,並產生每一儲存裝置的預估壽命值。以下將配合圖3來說明本發明的儲存裝置壽命監控系統的整體概念。
圖3是根據一範例實施例所繪示的使用訓練資料、預測資料與實際資料來架構儲存裝置壽命預測模型的運作示意圖。
首先,在本範例實施例中,處理單元310會將儲存裝置壽命監控系統320的資料庫120中的訓練資料輸入至壽命估計訓練模組130,以架構儲存裝置壽命預測模型(路徑R301)。壽命估計訓練模組130會提供架構後的儲存裝置壽命預測模型給壽命預測模組140(路徑303)。架構後的儲存裝置壽命預測模型可用來預測資料中心10的儲存裝置200(0)~200(N)的壽命。
儲存裝置狀態偵測與分析模組110會(即時地)蒐集儲存裝置200(0)~200(N)的運作行為資訊,並且將此些運作行為資訊輸入至壽命預測模組140(路徑R305)。
壽命預測模組140將所接收的儲存裝置200(0)~200(N)的運作行為資訊輸入至儲存裝置壽命預測模型,並產生每一儲存裝置的預估壽命值。具體來說,壽命預測模組140將所建立的對應每一儲存裝置的運作行為資訊輸入至已架構的儲存裝置壽命預測模型以產生對應每一儲存裝置的預估壽命值。所述對應每一儲存裝置的預估壽命值是指示儲存裝置壽命預測模型所預測的對應每一儲存裝置的可運作時間的總和。舉例來說,假設儲存裝置200(2)的運作行為資訊為“6,60,600,0”。壽命預測模組140將儲存 裝置200(2)的運作行為資訊為“6,60,600,0”輸入至已架構的儲存裝置壽命預測模型,並且儲存裝置壽命預測模型會對應運作行為資訊“6,60,600,0”產生“5000”(小時)的預估壽命值。換言之,在儲存裝置200(2)目前的對應運作行為資訊為“6,60,600,0”的狀態下,儲存裝置壽命預測模型會預測儲存裝置200(2)總共可以運作的時間為5000小時。
接著,壽命預測模組140還會將對應每一儲存裝置的運作行為資訊與預估壽命值所構成的預測資料傳送至壽命估計訓練模組130(路徑R307),以重新架構儲存裝置壽命預測模型。具體來說,儲存裝置壽命預測模型可經由自我學習的方式來被架構。例如,壽命預測模組140還會將每一儲存裝置的運作行為資訊與預估壽命值所構成的多個預測資料傳送至壽命估計訓練模組130以重新架構儲存裝置壽命預測模型。藉此,壽命預測模組130可以自我學習的方式來獲得大量且成本低的資料(即,對應每一儲存裝置的預測資料)以架構儲存裝置壽命預測模型,進而強化儲存裝置壽命預測模型的預測能力。本發明的自我學習的機制將在以下配合圖式做更詳細的說明。
此外,當儲存裝置200(0)~200(N)中有儲存裝置毀損時,儲存裝置狀態偵測與分析模組110會將此毀損的儲存裝置的當前的運作行為資訊與實際壽命值所構成的實際資料傳送給壽命估計訓練模組130,以重新架構儲存裝置壽命預測模型(路徑R309)。例如,當此些儲存裝置之中的儲存裝置(以下稱為第一儲存裝置) 損壞時,儲存裝置狀態偵測與分析模組110會記錄第一儲存裝置的實際壽命值,並且將第一儲存裝置的運作行為資訊與實際壽命值所構成的實際資料傳送給壽命估計訓練模組130以重新架構儲存裝置壽命預測模型。換言之,當第一儲存裝置損壞時,如上所述,儲存裝置狀態偵測與分析模組110會將第一儲存裝置的運作行為資訊與實際壽命值作為一個架構用的資料來重新架構儲存裝置壽命預測模型。也就是說,實際發生的儲存裝置的運作行為資訊與對應此運作行為資訊的儲存裝置的運作(實際)壽命值也可用來架構儲存裝置壽命預測模型。尤其是,在另一範例實施例中,實際資料更可被加入至資料庫120中成為訓練資料之一。
如此一來,本範例實施例中的儲存裝置壽命監控系統可自身提供大量且成本低的架構用資料來架構儲存裝置壽命預測模型,藉此提高本身預測壽命的準確度。值得一提的是,此重新架構儲存裝置壽命預測模型的機制可以是週期地執行或者不定期地執行,本發明不對此加以限制。以下,配合圖式更詳細說明每個構件的作用以及互動方式。
值得一提的是,在另一範例實施例中,伺服器100還可根據透過儲存裝置壽命監控系統320獲得的儲存裝置200(2)的預估壽命值來進行預防性的操作。舉例來說,假設儲存裝置200(2)已經操作了4900小時,並且對應儲存裝置200(2)的預估壽命值為5000小時。由於儲存裝置200(2)的已操作時間接近預估壽命值,伺服器100可發出提醒訊息。資料中心10的維護人員可依據此提 醒訊息來對儲存裝置200(2)進行預防性的操作。例如,資料中心10的維護人員可對儲存裝置200(2)進行資料備份操作,或是維修/替換操作。特別是,在完成資料備份之後,資料中心10的維護人員還可以針對儲存裝置200(2)進行壓力測試,以獲得儲存裝置200(2)的真實的總運作時間(即,實際壽命值)。如上所述,在獲得儲存裝置200(2)的實際壽命值後,可將儲存裝置200(2)的實際壽命值與運作行為資訊傳送至壽命估計訓練模組130以重新架構儲存裝置壽命預測模型。
在本範例實施例中,壽命估計訓練模組130是使用線性回歸分析(linear regression)演算法與此些訓練資料來架構儲存裝置壽命預測模型,但本發明不限於此,例如,在其他範例實施例中,壽命估計訓練模組130還可使用K分群(K-means)演算法、或支援向量機(Support Vector Machine,SVM)等適用於機器學習的演算法來架構儲存裝置壽命預測模型。
值得一提的是,在另一範例實施例中,使用者亦可以同時將訓練資料輸入至對應多個演算法的儲存裝置壽命預測模型。在架構完成之後,透過輸入某個訓練資料的運作行為資訊至此些架構後的儲存裝置壽命預測模型中來獲得多個預測壽命,並且根據所獲得的預測壽命來挑選出最準確的儲存裝置壽命預測模型。
圖4與圖5是根據一範例實施例所繪示的架構儲存裝置壽命預測模型的示意圖。
為了簡化說明,假設每一訓練資料(如圖4、圖5所繪示 的圓點D1、D2)包括系統存取錯誤的數目與對應系統存取錯誤的數目的運作壽命值。儲存裝置狀態偵測與分析模組110僅收集每一儲存裝置的系統日誌,計算每一儲存裝置的系統存取錯誤以建立對應每一儲存裝置的一個變數的運作行為資訊(系統存取錯誤的數目)。儲存裝置壽命預測模型使用線性回歸演算法來使用訓練資料做架構。於此範例實施例中,經過架構後的儲存裝置壽命預測模型會產生一個二元一次的預測曲線(圖4、圖5中的虛線)來預測每一儲存裝置的預估壽命值。
請參照圖4,水平軸表示系統存取錯誤的數目,縱軸表示儲存裝置的壽命(fulltime lifetime cycle in hours)(以小時為單位)。舉例來說,假設儲存裝置壽命預測模型使用線性回歸演算法來做架構,並且一開始輸入了兩個訓練資料D1、D2至儲存裝置壽命預測模型。訓練資料D1的值為“2,500”,其代表具有2個系統存取錯誤的儲存裝置,其壽命為500小時。相似地,訓練資料D2的值為“10,100”,其代表具有10個系統存取錯誤的儲存裝置,其壽命為100小時。根據線性回歸演算法與訓練資料D1、D2,儲存裝置壽命預測模型產生一個二元一次的預測曲線Y(如圖4所繪示的虛線)。
請參照圖5,舉例來說,假設在圖4中的儲存裝置壽命預測模型又被輸入了其他訓練資料D3~D10。根據線性回歸演算法與訓練資料D1~D10,儲存裝置壽命預測模型會產生一個二元一次的預測曲線A(如圖5所繪示的虛線)。而上述因為輸入的訓練資料不 同,而產生不同預測曲線的過程,即可視為儲存裝置壽命預測模型根據其使用的演算法以及所輸入的訓練資料持續地改變其架構的過程。此外,廠商可在一個預定情況下,判定儲存裝置壽命預測模型是否已經完成架構。例如,如圖5所繪示,廠商可以設定輸入10個的訓練資料D1~D10至儲存裝置壽命預測模型後,儲存裝置壽命預測模型所形成的預測曲線A即可表示已經完成架構的儲存裝置壽命預測模型。爾後,此完成架構的儲存裝置壽命預測模型可被用來預測儲存裝置的壽命。
圖6與圖7是根據一範例實施例所繪示的自我學習方法的示意圖。為了簡化說明,圖6與圖7所使用的儲存裝置壽命預測模型的架構方式與圖4、圖5中的儲存裝置壽命預測模型的架構方式相同,在此不再贅述。
請參照圖6,舉例來說,假設完成架構後的儲存裝置壽命預測模型已產生一個二元一次的預測曲線A(如圖6所繪示的虛線),並且儲存裝置200(0)、200(1)、200(2)各自發生了第2、5、8次系統存取錯誤。儲存裝置狀態偵測與分析模組110會對應建立儲存裝置200(0)、200(1)、200(2)的運作行為資訊為“2”、“5”、“8”。壽命預測模組將此些儲存裝置的運作行為資訊(系統存取錯誤的數目)輸入至儲存裝置壽命預測模型。儲存裝置壽命預測模型利用預測曲線A與儲存裝置200(0)、200(1)、200(2)的系統存取錯誤的數目(即,“2”、“5”、“8”)來產生“550”、“115”、“40”的預估壽命值以分別地表示所預測的儲存裝置200(0)、 200(1)、200(2)的壽命。也就是說,上述對應儲存裝置200(0)、200(1)、200(2)的運作行為資訊與預估壽命值會分別構成對應儲存裝置200(0)、200(1)、200(2)的預測資料“2,550”、“5,115”與“8,40”。接著,壽命預測模組140會將預測資料(即,“2,550”、“5,115”、與“8,40”)傳送至壽命估計訓練模組130以重新架構儲存裝置壽命預測模型。
請參照圖7,經過使用上述的預測資料(如圖7所繪示的三角形點,“2,550”、“5,115”與“8,40”)來重新架構儲存裝置壽命預測模型後,儲存裝置壽命預測模型會產生新的預測曲線B。此經過使用預測資料來重新架構(即,自我學習)所產生的新的預測曲線B可被用來預測儲存裝置的壽命。舉例來說,若儲存裝置200(N)發生了第4次系統存取錯誤,儲存裝置壽命預測模型根據預測曲線B與儲存裝置200(N)的系統存取錯誤的數目“4”會得到儲存裝置200(N)的預估壽命值為275小時。
請再參照圖6,若儲存裝置200(N)發生了第4次系統存取錯誤,儲存裝置壽命預測模型根據預測曲線A與儲存裝置200(N)的系統存取錯誤的數目“4”會得到儲存裝置200(N)的預估壽命值為“300”(小時)。由於在訓練資料中對應系統存取錯誤的數目為“4”的訓練資料,其具有“250”(小時)的對應運作壽命值,並且在同樣的對應系統存取錯誤的數目為“4”的情況下,根據預測曲線B所預測的預估壽命值“275”比起根據預測曲線A所預測的預估壽命值“300”更接近訓練資料(即,“250”)。因此可以得 知,預測曲線B的準確度會高於預測曲線A。也就是說,藉由使用預測資料來重新架構儲存裝置壽命預測模型的自我學習方法的確可以增進儲存裝置壽命預測模型的預測的準確度。
在上述圖4至圖7的例子中,儲存裝置壽命預測模型是根據兩個變數的訓練資料(亦稱二維訓練資料)來進行架構的,其中一個變數是儲存裝置的系統存取錯誤,並且另一變數是對應的儲存裝置的壽命。但應注意的是,本發明並不限定訓練資料、預測資料或是實際資料等用以架構儲存裝置壽命預測模型的資料的資料維度(亦稱為變數)。例如,在另一範例實施例中,除了必要的資料維度(即,儲存裝置的壽命),用以架構儲存裝置壽命預測模型的資料的資料維度還可包括應用程式存取錯誤數目、資料庫存取錯誤數目與磁碟存取錯誤數目的其中之一或其組合,或是其他適用的對應儲存裝置運作行為的錯誤種類。此外,用以架構儲存裝置壽命預測模型的資料所包含的變數種類數量也可等於2個或多於2個。換言之,用以架構儲存裝置壽命預測模型的資料的資料維度數量可為二維或是高於二維的數量。
值得一提的是,由於用來架構儲存裝置壽命預測模型的訓練資料或預測資料的數量很大,在一範例實施例中,壽命估計訓練模組130會使用分割-合併(Split-and-M)的方式(例如,Hadoop MapReduce演算法)來加速對於儲存裝置壽命預測模型的架構。
圖8是根據一範例實施例所繪示的使用訓練資料與預測資料來架構儲存裝置壽命預測模型的運作示意圖。
請參照圖8,在本範例實施例中,壽命估計訓練模組130會將訓練資料與預測資料(亦稱資料主集合)分割為多個資料集合(如圖8所繪示的子集合a、b、c),並且將此些子集合a、b、c分別地傳送至多個叢集運算伺服器810、820、830(路徑R1)。尤其是,每一叢集運算伺服器還可將所接收到的子集合分割成為其他的子集合並傳送此些分割後的其他的子集合至其他叢集運算伺服器。例如,叢集運算伺服器830將子集合c分割為子集合c-1與子集合c-2,並且將子集合c-1、c-2分別傳送至叢集運算伺服器831、832(路徑R2)。應注意的是,上述資料主集合亦可包含實際資料。
接著,叢集運算伺服器會分別依據所接收到的子集合來架構多個子預測模型並且將此些子預測模型回傳給壽命估計訓練模組130。如圖8所繪示,叢集運算伺服器831、832分別依據所接收到的子集合c-1、c-2來架構多個子預測模型並且將此些子預測模型回傳給壽命估計訓練模組130(路徑R3),叢集運算伺服器830會等待並接收叢集運算伺服器831、832分別回傳至叢集運算伺服器830的多個子預測模型。在接收到此些子預測模型後,叢集運算伺服器830會合併此些子預測模型,並且回傳合併後的子預測模型至壽命估計訓練模組130(路徑R4)。相似地,叢集運算伺服器810、820也會分別依據所接收到的子集合a、b來架構多個子預測模型並且將此些子預測模型回傳給壽命估計訓練模組130(路徑R4)。壽命估計訓練模組130從叢集運算伺服器810、820、830接收到訓練後的多個子預測模型後,合併此些子預測模 型以形成儲存裝置壽命預測模型。如此一來,藉由上述分割-合併的方式,大量的資料可以被分割成為較小的資料子集合,分別地獨立運算(即,架構多個子預測模型),並且在架構完成後,將結果(即,子預測模型)合併形成儲存裝置壽命預測模型,進而減少架構儲存裝置壽命預測模型的資源與架構時間。
值得一提的是,儲存裝置壽命預測模型亦可在出廠時便已經由廠商來完成初步訓練。也就是說,在另一範例實施例中,儲存裝置壽命預測模型已經在出廠時,並經由一個資料庫的訓練資料初步架構完畢。儲存裝置壽命監控系統320的資料庫120並不需要預先儲存大量的訓練資料來架構儲存裝置壽命預測模型。但,應注意的是,儲存裝置壽命監控系統320依然可以將從資料中心10的儲存裝置200(0)~200(N)所得到的實際資料(即,儲存裝置200(0)~200(N)中毀損的儲存裝置的當前的運作行為資訊與實際壽命值)來加入至資料庫120,並且將所獲得的實際資料輸入至壽命估計訓練模組130來重新訓練儲存裝置壽命預測模型。
圖9是根據一範例實施例所繪示的儲存裝置壽命監控方法的流程圖。
請同時參照圖2與圖9,在步驟S901中,儲存裝置狀態偵測與分析模組110用以擷取對應此些儲存裝置200(0)~200(N)的運作行為資訊。
在步驟S903中,儲存裝置壽命監控系統320儲存資料庫,其中資料庫記錄多個訓練資料,其中每一訓練資料包括運作 行為資訊及對應運作壽命值。
在步驟S905中,壽命估計訓練模組130依據此些訓練資料的運作行為資訊及對應運作壽命值來架構儲存裝置壽命預測模型。
在步驟S907中,壽命預測模組140將此些儲存裝置200(0)~200(N)的運作行為資訊輸入至儲存裝置壽命預測模型以產生對應每一儲存裝置的預估壽命值。
在步驟S909中,所述壽命預測模組還依據每一儲存裝置的運作行為資訊與預估壽命值所構成的多個預測資料來重新架構儲存裝置壽命預測模型。如此一來,本實施例的儲存裝置壽命監控方法除了使用訓練資料來架構儲存裝置壽命預測模型之外,還會使用預測資料來架構儲存裝置壽命預測模型。藉此,大大提高儲存裝置壽命預測模型的架構效率,進而提高預測的準確度。
值得一提的是,在本範例實施例中,儲存裝置狀態偵測與分析模組110、壽命估計訓練模組130、壽命預測模組140的功能是以程式碼或軟體來實施,但本發明不限於此。在另一範例實施例中,儲存裝置狀態偵測與分析模組110、壽命估計訓練模組130、壽命預測模組140亦可以硬體電路(例如,電路單元)來實現。例如,儲存裝置壽命監控系統320可包括用以實現儲存裝置狀態偵測與分析模組110的功能的儲存裝置狀態偵測與分析電路單元、用以實現壽命估計訓練模組130的功能的壽命估計訓練電路單元、用以實現壽命預測模組140的功能的壽命預測電路單元以 及儲存記錄訓練資料、實際資料與預測資料的資料庫的儲存電路單元。
綜上所述,本發明所提供的一種儲存裝置壽命監控系統以及其所使用的儲存裝置壽命監控方法,可辨識對應多個儲存裝置的運作行為資訊,根據此些儲存裝置的運作行為資訊經由儲存裝置壽命預測模型來預測每一儲存裝置的壽命,更依據每一儲存裝置的運作行為資訊與所預測的壽命所構成的多個預測資料來重新架構儲存裝置壽命預測模型。如此一來,本發明可產生大量且成本低的訓練資料來增進預測儲存裝置的壽命的精確度,進而提高管理此些儲存裝置的效率。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S901、S903、S905、S907、S909‧‧‧儲存裝置壽命監控方法的步驟

Claims (16)

  1. 一種儲存裝置壽命監控系統,用於監控多個儲存裝置之壽命,所述儲存裝置壽命監控系統包括:一儲存裝置狀態偵測與分析模組;一資料庫,耦接至該儲存裝置狀態偵測與分析模組;一壽命估計訓練模組,耦接至該儲存裝置狀態偵測與分析模組;以及一壽命預測模組,耦接至該儲存裝置狀態偵測與分析模組與該壽命估計訓練模組,其中該資料庫記錄多個訓練資料,其中每一該些訓練資料包括一運作行為資訊及一對應運作壽命值,其中該儲存裝置狀態偵測與分析模組擷取對應該些儲存裝置的運作行為資訊,其中該壽命估計訓練模組依據該些訓練資料的運作行為資訊及對應運作壽命值來架構一儲存裝置壽命預測模型,其中該壽命預測模組將該些儲存裝置的運作行為資訊輸入至該儲存裝置壽命預測模型以產生對應每一該些儲存裝置的一預估壽命值。
  2. 如申請專利範圍第1項所述的儲存裝置壽命監控系統,其中該壽命估計訓練模組依據每一該些儲存裝置的運作行為資訊與預估壽命值重新架構該儲存裝置壽命預測模型。
  3. 如申請專利範圍第1項所述的儲存裝置壽命監控系統,其 中當該些儲存裝置之中的一第一儲存裝置損壞時,該儲存裝置狀態偵測與分析模組記錄該第一儲存裝置的一實際壽命值,其中該壽命估計訓練模組依據第一儲存裝置的運作行為資訊與實際壽命值重新架構該儲存裝置壽命預測模型。
  4. 如申請專利範圍第1項所述的儲存裝置壽命監控系統,其中該儲存裝置狀態偵測與分析模組包括一日誌蒐集模組與一運作行為識別模組,並且在上述該儲存裝置狀態偵測與分析模組擷取對應該些儲存裝置的運作行為資訊的運作中,該日誌蒐集模組蒐集對應每一該些儲存裝置的至少一運作日誌,其中該運作行為識別模組剖析每一該些儲存裝置的至少一運作日誌以建立每一該些儲存裝置的運作行為資訊。
  5. 如申請專利範圍第4項所述的儲存裝置壽命監控系統,其中該至少一運作日誌包括一系統日誌、一應用程式日誌、一資料庫日誌與一自我監測分析及報告技術日誌。
  6. 如申請專利範圍第5項所述的儲存裝置壽命監控系統,其中該運作行為識別模組識別對應每一該些儲存裝置的該系統日誌中的一系統存取錯誤、該應用程式日誌中的一應用程式存取錯誤、該資料庫日誌中的一資料庫存取錯誤和該自我監測分析及報告技術日誌中的一磁碟存取錯誤,其中該運作行為識別模組計算該系統存取錯誤的數目、該應用程式存取錯誤的數目、該資料庫存取錯誤的數目與該磁碟存取 錯誤的數目,其中該運作行為識別模組依據該系統存取錯誤的數目、該應用程式存取錯誤的數目、該資料庫存取錯誤的數目與該磁碟存取錯誤的數目來建立每一該些儲存裝置的運作行為資訊。
  7. 如申請專利範圍第1項所述的儲存裝置壽命監控系統,在上述該壽命估計訓練模組依據該些訓練資料的運作行為資訊及對應運作壽命值來架構該儲存裝置壽命預測模型的運作中,該壽命估計訓練模組使用一K分群演算法、一線性回歸分析或一支援向量機來架構該儲存裝置壽命預測模型。
  8. 如申請專利範圍第1項所述的儲存裝置壽命監控系統,在上述該壽命估計訓練模組依據該些訓練資料的運作行為資訊及對應運作壽命值來架構該儲存裝置壽命預測模型的運作中,該壽命估計訓練模組將該些訓練資料與該些預測資料分割為多個資料集合,其中該壽命估計訓練模組分別地依據該些資料集合來架構多個子預測模型,其中該壽命估計訓練模組合併該些子預測模型以形成該儲存裝置壽命預測模型。
  9. 一種儲存裝置壽命監控方法,用於監控多個儲存裝置之壽命,所述儲存裝置壽命監控方法包括:建立一資料庫,其中該資料庫記錄多個訓練資料,其中每一該些訓練資料包括一運作行為資訊及一對應運作壽命值; 擷取對應該些儲存裝置的運作行為資訊;依據該些訓練資料的運作行為資訊及對應運作壽命值來架構一儲存裝置壽命預測模型;以及將該些儲存裝置的運作行為資訊輸入至該儲存裝置壽命預測模型以產生對應每一該些儲存裝置的一預估壽命值。
  10. 如申請專利範圍第9項所述的儲存裝置壽命監控方法,更包括:依據每一該些儲存裝置的運作行為資訊與預估壽命值來重新架構該儲存裝置壽命預測模型。
  11. 如申請專利範圍第9項所述的儲存裝置壽命監控方法,更包括:當該些儲存裝置之中的一第一儲存裝置損壞時,記錄該第一儲存裝置的一實際壽命值;以及依據該第一儲存裝置的運作行為資訊與實際壽命值來重新架構該儲存裝置壽命預測模型。
  12. 如申請專利範圍第9項所述的儲存裝置壽命監控方法,其中上述擷取對應該些儲存裝置的運作行為資訊的步驟包括:蒐集對應每一該些儲存裝置的至少一運作日誌;以及剖析每一該些儲存裝置的至少一運作日誌以建立每一該些儲存裝置的運作行為資訊。
  13. 如申請專利範圍第12項所述的儲存裝置壽命監控方法,其中該至少一運作日誌包括一系統日誌、一應用程式日誌、一資 料庫日誌與一自我監測分析及報告技術日誌。
  14. 如申請專利範圍第13項所述的儲存裝置壽命監控方法,更包括:識別對應每一該些儲存裝置的該系統日誌中的一系統存取錯誤、該應用程式日誌中的一應用程式存取錯誤、該資料庫日誌中的一資料庫存取錯誤和該自我監測分析及報告技術日誌中的一磁碟存取錯誤;計算該系統存取錯誤的數目、該應用程式存取錯誤的數目、該資料庫存取錯誤的數目與該磁碟存取錯誤的數目;以及依據該系統存取錯誤的數目、該應用程式存取錯誤的數目、該資料庫存取錯誤的數目與該磁碟存取錯誤的數目來建立每一該些儲存裝置的運作行為資訊。
  15. 如申請專利範圍第9項所述的儲存裝置壽命監控方法,其中依據該些訓練資料的運作行為資訊及對應運作壽命值來架構該儲存裝置壽命預測模型的步驟包括:使用一K分群演算法、一線性回歸分析或一支援向量機來架構該儲存裝置壽命預測模型。
  16. 如申請專利範圍第9項所述的儲存裝置壽命監控方法,其中依據該些訓練資料的運作行為資訊及對應運作壽命值來架構該儲存裝置壽命預測模型的步驟包括:將該些訓練資料與該些預測資料分割為多個資料集合;分別地依據該些資料集合來架構多個子預測模型;以及合併該些子預測模型以形成該儲存裝置壽命預測模型。
TW104103877A 2015-02-05 2015-02-05 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 TWI510916B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW104103877A TWI510916B (zh) 2015-02-05 2015-02-05 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法
CN201510092859.4A CN105988910B (zh) 2015-02-05 2015-03-02 存储装置寿命监控系统以及其存储装置寿命监控方法
US14/719,319 US10147048B2 (en) 2015-02-05 2015-05-22 Storage device lifetime monitoring system and storage device lifetime monitoring method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104103877A TWI510916B (zh) 2015-02-05 2015-02-05 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法

Publications (2)

Publication Number Publication Date
TWI510916B true TWI510916B (zh) 2015-12-01
TW201629766A TW201629766A (zh) 2016-08-16

Family

ID=55407756

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104103877A TWI510916B (zh) 2015-02-05 2015-02-05 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法

Country Status (3)

Country Link
US (1) US10147048B2 (zh)
CN (1) CN105988910B (zh)
TW (1) TWI510916B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI608358B (zh) * 2016-08-04 2017-12-11 先智雲端數據股份有限公司 用於雲端服務系統中資料保護的方法
CN107728929A (zh) * 2016-08-10 2018-02-23 先智云端数据股份有限公司 用于云端服务系统中数据保护的方法
US10157105B2 (en) 2016-07-28 2018-12-18 Prophetstor Data Services, Inc. Method for data protection for cloud-based service system

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI578262B (zh) * 2015-08-07 2017-04-11 緯創資通股份有限公司 風險評估系統及資料處理方法
US11715025B2 (en) 2015-12-30 2023-08-01 Nutanix, Inc. Method for forecasting distributed resource utilization in a virtualization environment
US10558766B2 (en) * 2015-12-31 2020-02-11 Palo Alto Research Center Incorporated Method for Modelica-based system fault analysis at the design stage
US10168953B1 (en) 2016-05-20 2019-01-01 Nutanix, Inc. Dynamic scheduling of distributed storage management tasks using predicted system characteristics
US10902324B2 (en) * 2016-06-13 2021-01-26 Nutanix, Inc. Dynamic data snapshot management using predictive modeling
US10361925B1 (en) 2016-06-23 2019-07-23 Nutanix, Inc. Storage infrastructure scenario planning
US10268553B2 (en) * 2016-08-31 2019-04-23 Seagate Technology Llc Adaptive failure prediction modeling for detection of data storage device failures
US10484301B1 (en) 2016-09-30 2019-11-19 Nutanix, Inc. Dynamic resource distribution using periodicity-aware predictive modeling
US10691491B2 (en) 2016-10-19 2020-06-23 Nutanix, Inc. Adapting a pre-trained distributed resource predictive model to a target distributed computing environment
CN108021484B (zh) * 2016-11-02 2021-03-16 先智云端数据股份有限公司 云端服务系统中磁盘预期寿命值的延长方法及其系统
CN107515731B (zh) * 2017-07-31 2019-12-24 华中科技大学 一种基于固态盘的进化存储系统及其工作方法
TWI647564B (zh) 2017-11-07 2019-01-11 先智雲端數據股份有限公司 用於診斷資料中心儲存設備之剩餘壽命的方法與系統
CN109800134A (zh) * 2017-11-16 2019-05-24 先智云端数据股份有限公司 一种诊断数据中心储存设备的剩余寿命的方法和系统
CN109828869B (zh) * 2018-12-05 2020-12-04 南京中兴软件有限责任公司 预测硬盘故障发生时间的方法、装置及存储介质
CN111427713B (zh) * 2019-01-10 2023-08-22 深圳衡宇芯片科技有限公司 训练人工智能估测存储装置的使用寿命的方法
CN110287640B (zh) * 2019-07-03 2023-10-13 辽宁艾特斯智能交通技术有限公司 照明设备的寿命预估方法、装置、存储介质及电子设备
KR20210082875A (ko) 2019-12-26 2021-07-06 삼성전자주식회사 머신 러닝을 이용한 비휘발성 메모리 장치의 동작 제어 방법 및 스토리지 시스템
CN112630665B (zh) * 2020-12-18 2021-11-02 北京理工大学 一种基于智能网联的锂电池寿命预测系统
CN112817523B (zh) * 2021-01-19 2021-09-07 置富科技(深圳)股份有限公司 存储介质可靠性等级判断方法及系统、存储介质、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWM363622U (en) * 2009-02-25 2009-08-21 C One Technology Corp Portable storage device capable of warning remaining service life or remaining available write-in times, and monitoring system for reporting warning information of remaining service life or remaining available write-in times
US20120246388A1 (en) * 2011-03-22 2012-09-27 Daisuke Hashimoto Memory system, nonvolatile storage device, control method, and medium
US20120284453A1 (en) * 2011-03-10 2012-11-08 Kabushiki Kaisha Toshiba Information processing device, external storage device, host device, relay device, control program, and control method of information processing device
TW201437802A (zh) * 2013-03-18 2014-10-01 Toshiba Kk 資訊處理系統、控制程式、及資訊處理裝置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950147A (en) * 1997-06-05 1999-09-07 Caterpillar Inc. Method and apparatus for predicting a fault condition
US7523013B2 (en) * 2006-05-15 2009-04-21 Sandisk Corporation Methods of end of life calculation for non-volatile memories
CN100504805C (zh) * 2006-12-27 2009-06-24 宇瞻科技股份有限公司 固态存储装置的寿命警示装置及其方法
US20130227352A1 (en) * 2012-02-24 2013-08-29 Commvault Systems, Inc. Log monitoring
EP2901284A4 (en) * 2012-09-28 2016-06-01 Longsand Ltd PREDICTION OF FAILURE OF A MEMORY DEVICE
US20140181595A1 (en) * 2012-12-20 2014-06-26 Virtium Technology, Inc. Estimating lifespan of solid-state drive using real usage model
US20160055044A1 (en) * 2013-05-16 2016-02-25 Hitachi, Ltd. Fault analysis method, fault analysis system, and storage medium
US9450833B2 (en) * 2014-03-26 2016-09-20 International Business Machines Corporation Predicting hardware failures in a server
US9542296B1 (en) * 2014-12-01 2017-01-10 Amazon Technologies, Inc. Disk replacement using a predictive statistical model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWM363622U (en) * 2009-02-25 2009-08-21 C One Technology Corp Portable storage device capable of warning remaining service life or remaining available write-in times, and monitoring system for reporting warning information of remaining service life or remaining available write-in times
US20120284453A1 (en) * 2011-03-10 2012-11-08 Kabushiki Kaisha Toshiba Information processing device, external storage device, host device, relay device, control program, and control method of information processing device
US20120246388A1 (en) * 2011-03-22 2012-09-27 Daisuke Hashimoto Memory system, nonvolatile storage device, control method, and medium
TW201437802A (zh) * 2013-03-18 2014-10-01 Toshiba Kk 資訊處理系統、控制程式、及資訊處理裝置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157105B2 (en) 2016-07-28 2018-12-18 Prophetstor Data Services, Inc. Method for data protection for cloud-based service system
TWI608358B (zh) * 2016-08-04 2017-12-11 先智雲端數據股份有限公司 用於雲端服務系統中資料保護的方法
CN107728929A (zh) * 2016-08-10 2018-02-23 先智云端数据股份有限公司 用于云端服务系统中数据保护的方法

Also Published As

Publication number Publication date
US20160232450A1 (en) 2016-08-11
US10147048B2 (en) 2018-12-04
CN105988910A (zh) 2016-10-05
CN105988910B (zh) 2019-02-12
TW201629766A (zh) 2016-08-16

Similar Documents

Publication Publication Date Title
TWI510916B (zh) 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法
JP7486472B2 (ja) データセットのための機械学習モデルの好適性の決定
US10459815B2 (en) Method and system for predicting storage device failures
Wang et al. Online anomaly detection for hard disk drives based on mahalanobis distance
CN105474577B (zh) 用于监测系统性能和可用性的系统和方法
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
Lim et al. Identifying recurrent and unknown performance issues
EP4078380B1 (en) Behavior-driven die management on solid-state drives
US11561875B2 (en) Systems and methods for providing data recovery recommendations using A.I
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
WO2020140624A1 (zh) 从日志中提取数据的方法和相关设备
Shi et al. Research on the Initial Fault Prediction Method of Rolling Bearings Based on DCAE‐TCN Transfer Learning
US11138088B2 (en) Automated identification of events associated with a performance degradation in a computer system
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
US20140324409A1 (en) Stochastic based determination
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质
US11436069B2 (en) Method and apparatus for predicting hard drive failure
CN108959028B (zh) 磁盘生命周期分析方法及装置
US20240170138A1 (en) System and methods for enabling remote planned maintenance of medical imaging devices
CN111382041A (zh) 一种故障检测、数据处理方法、装置及设备
CN117251327A (zh) 模型训练方法、磁盘故障预测方法、相关装置及设备
JP2016170713A (ja) 情報処理装置、方法及びプログラム
CN117312094A (zh) 一种基于时间序列分析算法的服务器硬件监控采集方法