WO2024171443A1

WO2024171443A1 - 故障検知システム、故障検知方法および記録媒体

Info

Publication number: WO2024171443A1
Application number: PCT/JP2023/005777
Authority: WO
Inventors: 昌尚棗田
Original assignee: 日本電気株式会社
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2024-08-22

Abstract

故障検知システムは、データ取得部と、ログ取得部と、算出部と、判定部と、出力部を備える。データ取得部は、記憶装置の性能データを取得する。ログ取得部は、記憶装置の動作異常に関するエラーログを取得する。算出部は、データ取得部が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置の異常度を算出する。判定部は、と、異常度と、エラーログに基づき、記憶装置が正常であるかを判定する。出力部は、判定の結果を出力する。

Description

故障検知システム、故障検知方法および記録媒体

　本開示は、故障検知システム等に関する。

　情報処理システムの可用性を向上する上で、記憶装置の安定稼働は、重要な要素である。可用性を向上するために、記憶装置は、例えば、ＲＡＩＤ（Redundant Arrays of Inexpensive Disks）によって冗長化した構成で運用される。また、情報処理システムの可用性を向上するためには、記憶装置の故障の予兆を検知できることが望ましい。故障の予兆を検知することで、例えば、情報処理システムの管理者は、情報処理システムの停止につながるような故障が生じる前に、故障の予兆が検知された記憶装置の交換または調整を行うことができる。

　特許文献１の故障予測装置は、異常の確認用のアクセスパターンを用いて、ハードディスクドライブのアクセス時間を計測する。特許文献１の故障予測装置は、計測したアクセス時間が閾値を超えた場合に、アクセス対象箇所を異常箇所として記録する。

特開２０１９－１６４８１７号公報

　特許文献１の故障予測装置は、記憶装置の故障を精度よく検知することが難しい場合がある。

　本開示は、上記の課題を解決するため、記憶装置の故障の誤検知を抑制することができる故障検知システム等を提供することを目的とする。

　上記の課題を解決するため、本開示の故障検知システムは、記憶装置の性能データを取得するデータ取得手段と、記憶装置の動作異常に関するエラーログを取得するログ取得手段と、データ取得手段が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置の異常度を算出する算出手段と、異常度と、エラーログに基づき、記憶装置が正常であるかを判定する判定手段と、判定の結果を出力する出力手段とを備える。

　本開示の故障検知方法は、記憶装置の性能データを取得し、記憶装置の動作異常に関するエラーログを取得し、取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置の異常度を算出し、異常度と、エラーログに基づき、記憶装置が正常であるかを判定し、判定の結果を出力する。

　本開示の記録媒体は、記憶装置の性能データを取得する処理と、記憶装置の動作異常に関するエラーログを取得処理と、取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置の異常度を算出する処理と、異常度と、エラーログに基づき、記憶装置が正常であるかを判定する処理と、判定の結果を出力する処理とをコンピュータに実行させる故障検知プログラムを非一時的に記録する。

　本開示によると、処理速度の低下を生じさせずに、記憶装置の故障の誤検知を抑制することができる。

本開示の実施形態における構成の例を図である。本開示の実施形態における故障検知システムの構成の例を示す図である。本開示の実施形態における異常度の算出フローの例を示す図である。本開示の実施形態におけるスコアの時系列データの例を示す図である。本開示の実施形態におけるスコアの時系列データの例を示す図である。本開示の実施形態における故障検知の検証結果の例を示す図である。本開示の実施形態における故障検知システムの動作フローの例を示す図である。本開示の実施形態における故障検知システムのハードウェア構成の例を示す図である。

　本開示の実施形態について、図を参照して詳細に説明する。図１は、情報処理システムの構成の概要を示す図である。情報処理システムは、故障検知システム１０と、記憶装置２０を備える。故障検知システム１０は、例えば、記憶装置２０とネットワークを介して接続する。記憶装置２０は、複数であってもよい。記憶装置２０の数は、適宜、設定され得る。記憶装置２０を複数備える場合に、例えば、ＲＡＩＤ（Redundant Arrays of Inexpensive Disks）によって冗長化した構成で運用される。ＲＡＩＤによって冗長化した構成で運用される場合には、情報処理システムは、例えば、ＲＡＩＤコントローラを備える。

　故障検知システム１０は、記憶装置２０の故障を検知するシステムである。故障検知システム１０は、例えば、記憶装置２０の故障の予兆を検知する。故障検知システム１０は、例えば、記憶装置２０の性能データとエラーログを基に故障の予兆を検知する。

　性能データは、例えば、記憶装置２０の書き込みおよび読み出しの性能に関する実績データである。性能データは、例えば、記憶装置２０の書き込みおよび読み出しの速度に関する実績データである。また、性能データは、例えば、記憶装置２０の書き込みおよび読み出しに要する時間に関する実績データである。エラーログは、記憶装置２０の書き込みおよび読み出しの処理において発生したエラーを記録した情報である。性能データとログデータの具体例は、後で説明する。

　性能データおよびログデータは、例えば、記憶装置２０の制御装置によって取得される。複数の記憶装置２０がＲＡＩＤによって冗長化した構成で運用される場合には、性能データおよびログデータは、例えば、ＲＡＩＤコントローラによって取得される。高信頼性が要求されるシステムにおいては、記憶装置２０の動作に際して、性能データおよびログデータが記録される。このため、性能データおよびログデータは、例えば、取得するために、記憶装置２０に追加の負荷がかからないデータである。また、故障の予兆とは、例えば、記憶装置２０の運用を続けた場合に故障が発生する可能性が高いことを性能データおよびログデータが示している状態のことをいう。故障の予兆がある場合に、記憶装置２０の性能データは、例えば、正常時とは異なった値を示す。また、故障の予兆がある場合に、記憶装置２０のログデータには、例えば、正常時よりも高い頻度でエラーが記録される。このような場合に、記憶装置２０の状態は、例えば、故障の発生を避けるために、交換または設定の変更が必要な状態である。

　故障検知システム１０は、例えば、性能データから算出する記憶装置２０の異常度と、記憶装置２０の書き込みおよび読み出しに関するエラーログを基に、記憶装置２０の故障を検知する。異常度は、例えば、記憶装置２０の性能データが正常な状態からどの程度、異なるのかを示す指標である。異常度は、例えば、値が大きいほど、異常度を算出したときの性能データと、正常な状態のときの性能データの差が大きいことを示す。故障検知システム１０は、例えば、記憶装置２０の性能データを基に、記憶装置２０の異常度を算出する。

　故障検知システム１０は、例えば、算出モデルを用いて、記憶装置２０の異常度を算出する。算出モデルは、例えば、性能データを入力として、異常度を算出する学習モデルである。算出モデルの具体例については、後で説明する。複数の記憶装置２０がある場合に、故障検知システム１０は、複数の記憶装置２０それぞれの異常度を算出する。また、情報処理システムが冗長構成の複数の記憶装置２０を備える場合に、異常度は、例えば、複数の記憶装置２０間の性能データの差を基に算出する。

　記憶装置２０の性能データを基に算出した異常度が基準以上の場合に、故障検知システム１０は、異常度が基準以上の記憶装置２０に関するログデータを参照する。異常度の基準は、例えば、故障が生じたときの記憶装置の異常度よりも低く設定される。そして、ログデータにエラーが基準回数以上、記録されている場合に、故障検知システム１０は、記憶装置２０に故障の予兆があることを検知する。故障検知システム１０は、例えば、異常度の算出に用いた性能データに対応する項目のログデータに基準回数以上のエラーが記録されている場合に、故障検知システム１０は、記憶装置２０に故障の予兆があると判定する。例えば、性能データが書き込みに関するエラーである場合に、故障検知システム１０は、ログデータに、基準回数以上の書き込みエラーが記録されている場合に、記憶装置２０に故障の予兆があると判定する。また、故障を予兆の段階で検出するために、異常度の基準およびエラーログの基準は、例えば、故障が発生したときの性能データの値およびエラーの発生回数よりも低く設定される。このように、故障検知システム１０は、性能データから算出する異常度による判定と、エラーログによる判定の２段階の判定によって、記憶装置２０の故障の予兆の有無を判定する。故障検知システム１０は、ログデータにエラーが基準回数以上、記録されている場合に、性能データを基に異常度を算出して、算出した異常度を基に、記憶装置２０の故障の予兆の有無を判定してもよい。

　ここで、故障検知システム１０の構成について説明する。図２は、故障検知システム１０の構成の例を示す図である。故障検知システム１０は、基本構成として、データ取得部１１と、ログ取得部１２と、算出部１３と、判定部１４と、出力部１５を備える。故障検知システム１０は、モデル生成部１６と、記憶部１７をさらに備えていてもよい。

　データ取得部１１は、故障の予兆の検知対象の記憶装置２０の性能データを取得する。例えば、記憶装置２０が複数ある場合には、データ取得部１１は、複数の記憶装置２０それぞれの性能データを取得する。

　データ取得部１１は、例えば、記憶装置２０の書き込みまたは読み出しに関する性能データを取得する。データ取得部１１は、記憶装置２０の書き込みおよび読み出しの両方に関する性能データを取得してもよい。データ取得部１１は、例えば、故障の予兆の検知対象の記憶装置２０の性能データとして、記憶装置の平均書き込み応答時間（Average Write Response Time）と、最大書き込み応答時間（Max Write Response Time）と、平均読み出し応答時間（Average Read Response Time）と、最大読み出し応答時間（Max Read Response Time）のうち、少なくとも１つ以上の項目のデータを取得する。各項目のデータの単位は、例えば、マイクロ秒である。また、データ取得部１１は、性能データとして、書き込み数（Write Count）と、書き込み転送速度（Write Transfer Rate）と、読み出し数（Read Count）と、読み出し転送速度（Read Transfer Rate）と、ビジー率（Busy Ratio）と、ビジー時間（Busy Time）のうち１つまたは複数の項目のデータを取得してもよい。書き込み転送速度、読み出し転送速度のデータの単位は、例えば、メガバイト／秒である。ビジー率のデータの単位は、例えば、パーセントである。ビジー時間のデータの単位は、例えば、ミリ秒である。性能データそれぞれの単位は、上記に限られない。また、データ取得部１１が取得する性能データは、上記に限られない。

　算出モデルの生成を行う場合に、データ取得部１１は、記憶装置２０が正常に動作している場合の性能データを取得してもよい。データ取得部１１は、例えば、算出モデルの生成に用いる性能データとして、故障の検知対象の記憶装置２０の性能データの時系列データを取得する。データ取得部１１は、算出モデルの生成に用いる性能データとして、異常の検知対象の記憶装置２０と同一機種の性能データを取得してもよい。同一機種には、同一とみなせる機種も含まれてもよい。データ取得部１１は、例えば、性能データを取得した場合に、記憶部１７に、取得した性能データを保存する。

　ログ取得部１２は、記憶装置２０の動作異常に関するエラーログを取得する。動作異常に関するエラーログは、記憶装置２０の書き込みおよび読み出し動作の異常に関するエラーを記録した情報である。動作異常に関するエラーログは、例えば、記憶装置２０への書き込みエラーのログおよび書き込みのタイムアウトエラーのログのうち少なくとも一方を含む。動作異常に関するエラーログは、例えば、記憶装置２０からの読み出しエラーおよび読み出しのタイムアウトエラーのうち少なくとも一方を含んでいてもよい。ただし、エラーログには、これ以外の動作異常に関する情報が記録されてもよい。

　エラーログは、例えば、発生日時と、発生したエラーが関連付けられている。書き込みエラーは、例えば、記憶装置２０に、データの書き込み行ったときに書き込みを行うことができないエラーである。書き込みタイムアウトエラーは、例えば、記憶装置２０に、データの書き込み行ったときに設定時間内に書き込みを行うことができないエラーである。また、読み出しエラーは、例えば、記憶装置２０から、データの読み出しを行ったときに読み出しを行うことができないエラーである。読み出しタイムアウトエラーは、例えば、記憶装置２０から、データの読み出しを行ったときに設定時間内に書き込みを行うことができないエラーである。エラーログに記録される書き込みおよび読み出しのエラーが発生した場合には、例えば、誤り訂正または他の領域への書き込みが行われる。このように、故障検知システム１０が用いるエラーログは、例えば、１回の発生では記憶装置２０の停止にはつながらないが、回数が多い場合には、記憶装置２０の故障が疑われる項目に関するエラーを記録した情報である。

　算出部１３は、データ取得部１１が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置２０の異常度を算出する。算出モデルは、例えば、データ取得部１１が取得した性能データから記憶装置２０の異常度を算出する。算出モデルは、例えば、データ取得部１１が取得する性能データと、正常時の性能データとの差を基に異常度を算出する学習モデルである。また、複数の記憶装置２０がある場合には、算出部１３は、例えば、複数の記憶装置２０それぞれの性能データ基づき、算出モデルを用いて、複数の記憶装置２０それぞれの異常度を算出する。

　算出部１３は、例えば、モデル生成部１６が生成した算出モデルを用いて異常度を算出する。算出部１３は、外部のサーバで生成済みの算出モデルを用いて異常度を算出してもよい。

　複数の記憶装置２０が冗長構成である場合を例に、算出モデルを用いて異常度を算出する処理の例を説明する。算出モデルを用いて異常度を算出する処理は、以下で説明する処理によるものに限られない。

　算出モデルは、例えば、記憶装置２０ごとに、正常時の性能データとの差を示すスコアを算出する。正常時の性能データは、例えば、記憶部１７に保存されている。算出モデルは、例えば、正常時の性能データと、データ取得部１１が取得した性能データ間の距離を算出することでスコアを算出する。

　算出モデルは、例えば、記憶装置２０の種類に応じて生成されている。記憶装置２０の種類は、例えば、ハードディスクドライブまたはＳＳＤ（Solid State Drive）のように記憶装置２０が用いている記憶媒体の違いである。また、算出モデルは、例えば、冗長構成の記憶装置２０の異常度を算出する場合と、冗長構成ではない記憶装置２０の異常度を算出する場合で、それぞれ別に生成されていてもよい。また、算出モデルは、記憶装置２０の個体、機種および運用開始からの経過時間の少なくとも１つに応じて生成されていてもよい。生成モデルを生成する区分は、上記に限られない。

　算出モデルは、例えば、正常時の記憶装置２０の性能データと、データ取得部１１が取得した各時刻の性能データとの距離をｋ－NN法(k-nearest neighbor algorithm)を用いて算出する。算出モデルは、例えば、正常時の記憶装置２０の性能データから抽出する特徴量と、データ取得部１１が取得した各時刻の性能データから抽出する特徴量との間の、特徴空間における距離を算出する。算出モデルは、例えば、正常時の記憶装置２０の性能データと、データ取得部１１が取得した各時刻における性能データとのユークリッド距離を算出する。算出モデルによって算出される、正常時の記憶装置２０の性能データと、データ取得部１１が取得した各時刻における性能データとの距離は、ユークリッド距離に限られない。算出モデルは、例えば、近傍数１０個に対する平均距離をスコアとして算出するように設定される。平均距離を算出する近傍数は、１０個に限られない。算出モデルは、性能データの項目が複数の場合に、項目の数に応じた多次元の空間における距離を算出する。そして、算出モデルは、算出した複数の記憶装置２０それぞれのスコアを用いて、記憶装置間のスコアの差に基づき、記憶装置２０の異常の度合いを示す異常度を算出する。

　算出モデルは、算出モデルが算出したスコアに所定の処理を施した後に、異常度を算出してもよい。所定の処理は、例えば、スコアの値の突発的な変化の影響を抑制するために行われる。算出モデルは、例えば、所定の処理として、スコアの時系列データを、正常時のスコアを基に正規化する。算出モデルは、例えば、時系列データに含まれる各時刻のスコアを、記憶装置２０の正常時のスコアの平均値または最大値を用いて正規化する。

　所定の処理の例として、算出モデルは、スコアの時系列データに対して、所定の時間範囲を順次動かしながら、所定の時間範囲を動かしたそれぞれ区間において、スコアの時系列データに対する統計量を算出することで平滑化してもよい。算出部１３は、例えば、所定の時間範囲の区間を、１分ごとに移動させることで、スコアの時系列データを平滑化する。所定の時間範囲を移動させる単位は、１分に限られない。また、所定の時間範囲は、例えば、スコアの時系列データの時間間隔に応じてあらかじめ設定されている。所定の時間範囲は、例えば、１０分間として設定される。所定の時間範囲は、１０分間に限られない。

　また、所定の処理の例として、算出モデルは、例えば、所定の時間範囲のスコアの時系列データの所定の統計量を算出する。所定の統計量は、例えば、最大値である。所定の統計量は、最大値以外であってもよい。算出モデルは、所定の時間範囲を動かした各区間それぞれにおいて、各区間のスコアを、算出した所定の統計量に置き換える。算出モデルは、例えば、所定の時間範囲の各区間に含まれる時系列データのうち最初の時刻のスコアを所定の統計量に置き換えることで時系列データを平滑化する。算出部１３は、所定の時間範囲の各区間において、スコアの時系列データのうち、区間の中央の時刻のスコアを所定の統計量に置き換えることで時系列データを平滑化してもよい。所定の時間範囲の各区間のスコアの時系列データのうちいずれの時刻のスコアを所定の統計量に置き換えるかは、上記の例に限られない。また、正規化および平滑化の処理の方法は、上記の例に限られない。

　算出モデルは、例えば、記憶装置２０が２台で冗長化されている場合に、記憶装置２０間のスコアの差に基づき、異常度を算出する。算出モデルは、例えばＲＡＩＤ１の冗長化が行われている場合に、記憶装置２０間のスコアの差に基づき、異常度を算出する。記憶装置２０が２台で冗長化されている構成は、ＲＡＩＤ１に限られない。

　算出モデルは、例えば、記憶装置２０が３台以上で冗長化されている場合に、記憶装置２０それぞれのスコアと、各時刻における、冗長化されている記憶装置２０のスコアの平均値との差を基に異常度を算出する。算出モデルは、例えば、ＲＡＩＤ５の場合に、各装置のスコアと、平均値との差を基に異常度を算出する。記憶装置２０が３台以上で冗長化されている構成は、ＲＡＩＤ５に限られない。

　図３は、算出部１３が記憶装置２０の異常度を算出する際のフローの例を模式的に示す図である。図３の「スコア算出」において、算出モデルは、記憶装置２０それぞれの性能データと、正常時の性能データと用いてスコアを算出する。図３の「正規化」において、算出モデルは、算出したスコアを、正規化する。また、図３の「平準化処理」において、算出モデルは、スコアの時系列データを平滑化する。そして、図３の「異常度を算出」において、算出モデルは、記憶装置２０間のスコアの差を基に、記憶装置２０の異常度を算出する。

　図４は、２台の記憶装置２０で冗長化されている場合における、記憶装置２０それぞれのスコアの時系列データの例を示す。図４のグラフの縦軸は、スコアを示している。図４のグラフの横軸は、時刻を示している。図４の上段のグラフと、下段のグラフは、２台の記憶装置２０それぞれのスコアの時系列データを示している。

　図４の例において、時刻Ｔ１付近では、２台の記憶装置２０ともにスコアが上昇している。２台の記憶装置２０で冗長化されている場合に、２台の記憶装置２０に対して、同じタイミングでアクセスが行われるため、正常時は、同じ時刻付近でスコアの変化が生じる。一方、時刻Ｔ２付近では、上段のグラフのスコアは上昇しているが、下段のグラフのスコアは、上昇していない。２台の記憶装置２０のスコアの変化の傾向が異なるため、時刻Ｔ２付近では、２台の記憶装置２０は、互いに異なる動きをしている可能性が高い。正常ならば同一の変化の傾向を示すため、スコアの変化の傾向が異なる場合には、いずれかの記憶装置２０に故障が生じている可能性が高い。このため、例えば、２台の記憶装置２０のスコアの差を基に異常度を算出することで、故障が生じている可能性がある記憶装置２０を判定することができる。

　図５は、３台の記憶装置２０で冗長化されている場合における、それぞれの記憶装置２０のスコアの時系列データの例を示す。図５のグラフの縦軸は、スコアを示している。図５のグラフの横軸は、時刻を示している。図５の上段のグラフは、スコアの変化が小さい場合における、３台の記憶装置２０それぞれのスコアの時系列データの例を示す図である。図５の下段のグラフは、スコアの変化が大きい場合における、３台の記憶装置２０それぞれのスコアの時系列データの例を示す図である。図５の上段のグラフと下段のグラフは、ともに正常時のスコアの時系列データの例である。

　ＲＡＩＤ５のような冗長構成では、記憶装置２０それぞれに分割してデータを保存するため、図５の２つのグラフの例に示すように、冗長化された３台の記憶装置２０のスコアの変化は、データを分割して順に書き込む時間差の分、変化するタイミングが異なる。しかし、図５の２つのグラフの例に示すように、広い時間スケールで見ると、冗長化された３台の記憶装置２０のスコアの変化は、同様の傾向を示す。一方、異常が生じた記憶装置２０のスコアは、他の記憶装置２０と異なる傾向を示す。そのため、算出部１３は、例えば、３台の記憶装置２０のスコアの平均値と、記憶装置２０それぞれのスコアとの差を基に異常度を算出することで、故障が生じている可能性がある記憶装置２０を判定することができる。

　判定部１４は、異常度と、エラーログに基づき、記憶装置２０が正常であるかを判定する。判定部１４は、例えば、記憶装置２０の異常度が基準以上かを判定する。異常度の基準は、例えば、過去に故障が発生したときの性能データと正常時の性能データとの差を基に算出した異常度を用いて設定される。故障の予兆を検出するため、異常度の基準は、例えば、故障の予兆を検出するために、過去に故障が発生した際の性能データを基に算出した異常度よりも低く設定される。異常度は、正常時のデータを基に算出した異常度の最大値を用いて、正規化されてもよい。正規化されている場合に、判定部１４は、例えば、記憶装置２０ごとに正規化した異常度を用いて、異常度が基準以上かを判定する。

　異常度が基準以上の場合に、判定部１４は、異常度が基準以上の記憶装置２０のエラーログからエラーの発生回数を抽出する。発生回数は、例えば、設定された期間内のエラーの発生回数である。発生回数を抽出する期間は、故障の予兆の判定に適した期間として設定される。発生回数は、記憶装置２０が取り付けられてからの積算回数であってもよい。例えば、性能データが読み取りに関する性能である場合に、読み取りエラーおよび読み取りタイムエラーの発生回数を抽出する。そして、判定部１４は、エラーの発生回数が基準以上である場合に、記憶装置２０に故障の予兆があると判定する。また、判定部１４は、エラーの発生回数が基準未満である場合に、記憶装置２０は正常であると判定する。記憶装置２０は正常ではなく、故障の予兆があると判定する基準は、異常ではないが記憶装置２０の保守作業が望ましい発生回数を用いて設定される。判定部１４は、故障の予兆をエラーの発生頻度を基に判定してもよい。また、判定部１４は、異常度が基準未満の場合には、記憶装置２０は正常であると判定する。

　判定部１４は、例えば、異常度の算出に用いた性能データが記憶装置２０への書き込みに関する性能データである場合に、記憶装置２０への書き込みに関する項目のエラーログを用いて、記憶装置２０が正常であるかを判定する。また、判定部１４は、例えば、異常度の算出に用いられた性能データが記憶装置２０からの読み出しに関する性能データである場合に、記憶装置２０からの読み出しに関する項目のエラーログを用いて、記憶装置２０が正常であるかを判定する。また、異常度の算出に用いられた性能データは、書き込みに関する性能データと、読み出しに関する性能データの両方であってもよい。異常度の算出に用いられた性能データが、書き込みに関する性能データと、読み出しに関する性能データの両方である場合に、判定部１４は、書き込みに関するエラーログと、読み出しに関するエラーログを用いて記憶装置２０が正常であるかを判定する。

　判定部１４は、複数の項目の性能データそれぞれから算出された異常度を基に、異常度が基準以上かを判定してもよい。判定部１４は、例えば、複数の項目の性能データそれぞれから算出された異常度の平均が基準以上の場合に、エラーログを基に、記憶装置２０が正常であるかを判定する。また、判定部１４は、例えば、複数の項目の性能データそれぞれから算出された異常度に、項目ごとに重み付けを行って算出した異常度の値が基準以上の場合に、エラーログを基に、記憶装置２０が正常であるかを判定してもよい。例えば、重みづけは、記憶装置２０に故障が生じたときに値の変動が大きい項目の重みが大きくなるように行われる。また、複数の項目のエラーログを基に、記憶装置２０が正常であるかを判定するときに、記憶装置２０は、項目ごとに重み付けを行って算出する指標を基に、記憶装置２０が正常であるかを判定してもよい。

　また、重み付けを行う場合に、判定部１４は、読み出しに関する項目の性能データまたはエラーログの重みを、書き込みに関する項目よりも大きく設定してもよい。例えば、書き込みに関するエラーが発生した場合は、他の領域に書き込みを行うことで対応できるが、読み出しが出来ない場合には、データの欠損によって障害の発生の要因となり得るからである。

　判定部１４は、エラーログを参照して、エラーの回数が基準以上の場合に、異常度を基に、記憶装置２０が正常であるかを判定してもよい。エラーの発生回数が基準以上であるかの判定を先に行う場合には、判定部１４は、例えば、エラーログにおいてエラーの発生回数が基準以上である場合に、異常度に基づいて、記憶装置２０が正常であるかを判定する。性能データから算出した異常度を基に判定と、エラーログを基にした判定の２段階の判定のうち、いずれの判定を先に行うかは、適宜、設定し得る。

　出力部１５は、判定部１４による判定結果を出力する。出力部１５は、例えば、記憶装置２０を管理するサーバに、記憶装置２０が正常であるかの判定結果を出力する。出力部１５は、記憶装置２０の管理者が所持する端末装置に、判定結果を出力してもよい。出力部１５は、記憶装置２０の制御装置または記憶装置２０を制御するサーバに判定結果を出力してもよい。出力部１５は、故障検知システム１０に接続されている図示しない表示装置に、判定結果を出力してもよい。判定結果の出力先は、上記の例に限られない。

　モデル生成部１６は、故障検知システム１０において算出モデルを生成する場合に、正常時の性能データを学習し、スコアを算出する算出モデルを生成する。モデル生成部１６は、例えば、正常時の性能データを学習し、性能データ間の距離を基に異常度を算出する算出モデルを生成する。モデル生成部１６は、例えば、ｋ－NN法によって距離を算出し、距離をスコアとして異常度を算出する算出モデルを生成する。モデル生成部１６は、記憶部１７に、生成した算出モデルと、正常時の性能データを保存する。

　モデル生成部１６は、例えば、性能データの時系列データについての不変の関係を学習し、正常時からのずれを示すスコアを基に異常度を算出する算出モデルを生成してもよい。時系列データについての不変の関係は、例えば、正常時には変化しないが、異常時には変化が生じる時系列データ間の関係のことをいう。モデル生成部１６は、例えば、性能データの間の値の関係を示す関係式を生成する。そして、モデル生成部１６は、性能データの間の値の関係を示す関係式における正常時からのずれを示すスコアを基に、異常度を算出する。異常度を算出する算出モデルを生成するアルゴリズムは、上記に限られない。

　モデル生成部１６は、例えば、記憶装置２０の種類ごとに算出モデルを生成する。モデル生成部１６は、例えば、ハードディスクとＳＳＤのように、種類が異なる記憶装置２０それぞれに対応する算出モデルを生成する。モデル生成部１６は、記憶装置２０ごとに算出モデルを生成する。モデル生成部１６は、冗長構成のグループごとに算出モデルを生成してもよい。冗長構成のグループとは、例えば、３台の記憶装置２０で冗長化されているときに、３台の記憶装置２０を１つのグループとすることをいう。モデル生成部１６は、ＲＡＩＤのタイプごとに算出モデルを生成してもよい。また、モデル生成部１６は、同一機種の記憶装置２０ごとに算出モデルを生成してもよい。同一機種には、同一とみなせる機種も含まれる。算出モデルを生成する際の対象の区分は、上記に限られない。

　モデル生成部１６は、記憶装置２０の使用開始からの経過時間に応じた算出モデルを生成してもよい。例えば、モデル生成部１６は、使用開始直後の時期と、経年変化が生じた時期用の算出モデルを生成してもよい。

　記憶部１７は、例えば、算出部１３がスコアの算出に用いる算出モデルと、正常時の性能データを保存する。また、記憶部１７は、データ取得部１１が取得する、故障の検知対象の記憶装置２０の性能データを保存してもよい。記憶部１７は、データ取得部１１が取得する、故障の検知対象の記憶装置２０のエラーログを保存してもよい。記憶部１７は、判定部１４による判定結果を取得してもよい。また、算出モデルは、故障検知システム１０の外部の記憶手段に保存されていてもよい。また、記憶部１７は、モデル生成部１６が算出モデルの生成に用いる、正常時の性能データを保存してもよい。記憶部１７は、判定部１４による記憶装置２０が正常であるかの判定結果を保存してもよい。

　図６は、故障の予兆の判定結果の正誤を検証した結果の例を示す図である。図６の結果の例は、ＲＡＩＤ６の構成において、故障検知システム１０による判定結果の正誤を検証した結果を示す。図６の結果の例において、記憶装置２０が正常であるかを判定した総回数は、９００回である。図６の結果の例は、性能データから算出した異常度およびログデータから故障の予兆を判定した場合と、性能データから算出した異常度のみから故障の予兆を判定した場合の比較結果を示している。

　図６の結果の例において、「性能データ＋エラーログ」は、性能データから算出した異常度およびログデータから記憶装置２０が正常であるかを判定した場合の結果を示す。また、図６の結果の例において、「性能データのみ」は、性能データから算出した異常度から記憶装置２０が正常であるかを判定した場合の結果を示す。また、図６の結果の例において、「故障」は、記憶装置の解析の結果、実際に不具合が生じていた記憶装置を示す。図６の結果の例において、「正常（誤報）」は、記憶装置の解析の結果、故障と判定されたが、実際の不具合が生じていない記憶装置を示す。すなわち、図６の結果の例において、「正常（誤報）」は、誤検知された記憶装置を示す。図６の結果の例において、表中の数値それぞれは、判定された回数を示す。

　図６の結果の例では、性能データから算出した異常度を基に判定した場合に実際に異常があった回数は、３回である。そして、図６の結果の例では、性能データから算出した異常度とログデータを基に判定した場合に実際に異常があった回数は、２回である。また、図６の結果の例では、性能データから算出した異常度を基に判定した場合に、実際に異常はなく誤検出であった回数は、１７回である。一方で、図６の結果の例では、性能データから算出した異常度とログデータを基に判定した場合に、実際に異常はなく誤検出であった回数は、３回である。このように、故障検知システムを用いて、性能データから算出した異常度およびログデータを基に判定した場合に、誤検出の回数が抑制されている。

　記憶装置２０は、例えば、書き込み要求とともにサーバから送られてきたデータを保存する。記憶装置２０は、例えば、サーバから送られてくる読み出し要求で指定されているデータを読み出し、読み出したデータをサーバに出力する。記憶装置２０が複数の場合に、複数の記憶装置２０は、ＲＡＩＤによる冗長構成となるように運用されていてもよい。記憶装置２０は、例えば、ハードディスクドライブである。記憶装置２０は、ＳＳＤであってもよい。記憶装置２０は上記に限られない。

　故障検知システム１０において記憶装置２０が正常であるかを判定する際の動作について説明する。図７は、故障検知システム１０において記憶装置２０が正常であるかを判定する際の動作フローの例を示す図である。

　データ取得部１１は、記憶装置２０の性能データを取得する（ステップＳ１１）。また、ログ取得部１２は、記憶装置２０の動作異常に関するエラーログを取得する（ステップＳ１２）。

　性能データと、エラーログが取得されると、データ取得部１１が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、記憶装置２０の異常度を算出する（ステップＳ１３）。

　異常度が算出されると、判定部１４は、算出部１３が算出した異常度が基準以上であるかを判定する。異常度が基準以上の場合に（ステップＳ１４でＹｅｓ）、判定部１４は、エラーログに基づき、記憶装置２０が正常であるかを判定する。エラーログに記録されているエラーの発生回数が基準以上の場合に（ステップＳ１５でＹｅｓ）、判定部１４は、記憶装置２０に故障の予兆があると判定する（ステップＳ１６）。故障の予兆があると判定されると、出力部１５は、判定部１４による判定の結果を出力する（ステップＳ１７）。

　ステップＳ１５で、エラーログに記録されているエラーの発生が基準未満の場合に、（ステップＳ１５でＮｏ）、記憶装置２０が正常であると判定する（ステップＳ１８）。記憶装置２０が正常であると判定されると、出力部１５は、判定部１４による判定の結果を出力する（ステップＳ１７）。

　また、ステップＳ１４で異常度が基準未満の場合に（ステップＳ１４でＮｏ）、判定部１４は、エラーログに基づき、記憶装置２０が正常であるかと判定する。記憶装置２０が正常であると判定する（ステップＳ１８）。記憶装置２０が正常であると判定されると、出力部１５は、判定部１４による判定の結果を出力する（ステップＳ１７）。

　故障検知システム１０は、ステップＳ１１におけるデータ取得部１１が性能データを取得する処理よりも、ステップＳ１２におけるログ取得部１２がエラーログを取得する処理を先に行ってもよい。また故障検知システム１０の判定部１４は、ステップＳ１４における異常度が基準以上かを判定する処理よりも、ステップＳ１５におけるエラーの発生回数が基準以上であるかを判定する処理を先に行ってもよい。エラーの発生回数が基準以上であるかを判定する処理を先に行う場合には、判定部１４は、例えば、エラーログにおいてエラーの発生回数が基準以上である場合に、異常度に基づいて、記憶装置２０が正常であるかを判定する。上記の各ステップの処理のうちいずれを先に行うかは、適宜、設定され得る。

　故障検知システム１０は、記憶装置２０から性能データとエラーログを取得する。また、故障検知システム１０は、記憶装置２０の性能データを基に、算出モデルを用いて、記憶装置２０の異常度を算出する。異常度を算出すると、故障検知システム１０は、算出した異常度が基準以上の場合に、エラーログからエラーの発生回数を抽出する。そして、故障検知システム１０は、エラーの発生回数を基に、記憶装置２０が正常であるかを判定する。故障検知システム１０は、例えば、エラーの発生回数が基準以上の場合に、記憶装置２０に故障の予兆があると判定する。例えば、故障検知システム１０は、書き込みに関する性能データから異常が判定された場合に、書き込みに関するエラーが基準回数以上、発生している場合に、記憶装置２０に故障の予兆があると判定する。

　このように、記憶装置２０の性能データを正常時と差を示す異常度を基に、性能データが正常時とは異なっていることを判定することで、故障検知システム１０は、不具合によって性能が低下している可能性がある記憶装置２０を抽出することができる。そして、抽出した記憶装置２０のエラーログを基に、書き込みまたは読み出しに関するエラーの有無を確認することで、故障検知システム１０は、性能が低下している可能性のある記憶装置２０のうち、不具合によって性能が低下している記憶装置２０を検知することができる。このため、故障検知システム１０は、故障の予兆のある記憶装置２０を、誤検知を抑制して検知することができる。

　記憶装置２０の性能データおよびログデータの取得は、データの書き込みおよびデータの読み出しの処理の負荷に対して、さらなる負荷を記憶装置２０加えるものではない。このため、性能データから算出した異常度と、ログデータを基に、記憶装置が正常であるかを判定することで、稼働中の記憶装置２０に処理速度の低下は生じない。また、性能データから算出した異常度と、ログデータを基に、記憶装置２０が正常であるかを判定することで、故障の誤検知を抑制することができる。このため、故障検知システム１０は、処理速度の低下を生じさせず、記憶装置２０の故障の誤検知を抑制することができる。

　故障検知システム１０おける各処理は、コンピュータプログラムをコンピュータで実行することによって実現することができる。図８は、故障検知システム１０における各処理を行うコンピュータプログラムを実行するコンピュータ１００の構成の例を示したものである。コンピュータ１００は、ＣＰＵ（Central Processing Unit）１０１と、メモリ１０２と、記憶装置１０３と、入出力Ｉ／Ｆ（Interface）１０４と、通信Ｉ／Ｆ１０５を備える。

　ＣＰＵ１０１は、記憶装置１０３から各処理を行うコンピュータプログラムを読み出して実行する。ＣＰＵ１０１は、複数のＣＰＵの組み合わせによって構成されていてもよい。また、ＣＰＵ１０１は、ＣＰＵと他の種類のプロセッサの組み合わせによって構成されていてもよい。例えば、ＣＰＵ１０１は、ＣＰＵとＧＰＵ（Graphics Processing Unit）の組み合わせによって構成されていてもよい。メモリ１０２は、ＤＲＡＭ（Dynamic Random Access Memory）等によって構成され、ＣＰＵ１０１が実行するコンピュータプログラムや処理中のデータが一時記憶される。記憶装置１０３は、ＣＰＵ１０１が実行するコンピュータプログラムを記憶している。記憶装置１０３は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置１０３には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。入出力Ｉ／Ｆ１０４は、作業者からの入力の受付および表示データ等の出力を行うインタフェースである。通信Ｉ／Ｆ１０５は、記憶装置２０および他の情報処理装置との間でデータの送受信を行うインタフェースである。

　各処理の実行に用いられるコンピュータプログラムは、データを非一時的に記録する記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
［付記１］
　記憶装置の性能データを取得するデータ取得手段と、
　前記記憶装置の動作異常に関するエラーログを取得するログ取得手段と、
　データ取得手段が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出する算出手段と、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定する判定手段と、
　前記判定の結果を出力する出力手段と
　を備える故障検知システム。
［付記２］
　前記判定手段は、前記異常度が基準以上であり、かつ、前記エラーログに記録されている動作異常の回数が基準以上である場合に、前記記憶装置に故障の予兆があると判定する、
　を備える付記１に記載の故障検知システム。
［付記３］
　前記判定手段は、前記算出手段が算出する前記異常度が基準以上である場合に、前記異常度が基準以上の記憶装置のエラーログを参照し、前記エラーログに基準以上の回数の前記記憶装置の動作異常が記録されている場合に、前記記憶装置に故障の予兆があると判定する、
　を備える付記２に記載の故障検知システム。
［付記４］
　前記異常度の基準は、故障が生じたときの記憶装置の異常度よりも低く設定される、
　付記２または３かに記載の故障検知システム。
［付記５］
　前記算出モデルは、データ取得手段が取得した性能データと、正常時の性能データのとの差を基に異常度を算出する、
　付記１から４いずれかに記載の故障検知システム。
［付記６］
　前記データ取得手段は、冗長構成である複数の記憶装置それぞれの性能データを取得し、
　前記算出モデルは、前記複数の記憶装置それぞれについて、前記データ取得手段が取得した性能データと、正常時の性能データのとの差を示すスコアを算出し、前記複数の記憶装置間のスコアの差を基に前記異常度を算出する、
　付記１から５いずれかに記載の故障検知システム。
［付記７］
　前記算出モデルは、前記複数の記憶装置のスコアの統計量と、前記複数の記憶装置それぞれのスコアとの差を基に、前記複数の記憶装置それぞれの前記異常度を算出する、
　付記６に記載の故障検知システム。
［付記８］
　前記エラーログは、前記記憶装置への書き込みエラー、前記記憶装置への書き込みのタイムアウトエラー、前記記憶装置からの読み出しエラー、および前記記憶装置からの読み出しのタイムアウトエラーのうちの少なくとも一方についてのログである、
　付記１から６いずれかに記載の故障検知システム。
［付記９］
　前記性能データは、前記記憶装置へ書き込みの性能および前記記憶装置からの読み出しの性能のうち少なくとも一方に関するデータである、
　付記１から８いずれかに記載の故障検知システム。
［付記１０］
　前記性能データは、平均書き込み応答時間、最大書き込み応答時間、平均読み出し応答時間および最大読み出し応答時間のうち少なくとも１つを含む、
　付記９に記載の故障検知システム。
［付記１１］
　性能データから記憶装置の異常度を算出する算出モデルを生成する生成手段をさらに備える
　付記１から１０いずれかに記載の故障検知システム。
［付記１２］
　記憶装置の性能データを取得し、
　前記記憶装置の動作異常に関するエラーログを取得し、
　取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出し、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定し、
　前記判定の結果を出力する、
　故障検知方法。
［付記１３］
　記憶装置の性能データを取得する処理と、
　前記記憶装置の動作異常に関するエラーログを取得処理と、
　取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出する処理と、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定する処理と、
　前記判定の結果を出力する処理と
　をコンピュータに実行させる故障検知プログラムを非一時的に記録する記録媒体。

　以上、上述した実施形態を例として本開示を説明した。しかしながら、本開示は、上述した実施形態には限定されない。即ち、本開示は、本開示のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

１０　　故障検知システム
１１　　データ取得部
１２　　ログ取得部
１３　　算出部
１４　　判定部
１５　　出力部
１６　　モデル生成部
１７　　記憶部
２０　　記憶装置
１００　　コンピュータ
１０１　　ＣＰＵ
１０２　　メモリ
１０３　　記憶装置
１０４　　入出力Ｉ／Ｆ
１０５　　通信Ｉ／Ｆ

Claims

　記憶装置の性能データを取得するデータ取得手段と、
　前記記憶装置の動作異常に関するエラーログを取得するログ取得手段と、
　データ取得手段が取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出する算出手段と、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定する判定手段と、
　前記判定の結果を出力する出力手段と
　を備える故障検知システム。
　前記判定手段は、前記異常度が基準以上であり、かつ、前記エラーログに記録されている動作異常の回数が基準以上である場合に、前記記憶装置に故障の予兆があると判定する、
　を備える請求項１に記載の故障検知システム。
　前記判定手段は、前記算出手段が算出する前記異常度が基準以上である場合に、前記異常度が基準以上の記憶装置のエラーログを参照し、前記エラーログに基準以上の回数の前記記憶装置の動作異常が記録されている場合に、前記記憶装置に故障の予兆があると判定する、
　を備える請求項２に記載の故障検知システム。
　前記異常度の基準は、故障が生じたときの記憶装置の異常度よりも低く設定される、
　請求項２または３に記載の故障検知システム。
　前記算出モデルは、データ取得手段が取得した性能データと、正常時の性能データのとの差を基に異常度を算出する、
　請求項１から４いずれかに記載の故障検知システム。
　前記データ取得手段は、冗長構成である複数の記憶装置それぞれの性能データを取得し、
　前記算出モデルは、前記複数の記憶装置それぞれについて、前記データ取得手段が取得した性能データと、正常時の性能データのとの差を示すスコアを算出し、前記複数の記憶装置間のスコアの差を基に前記異常度を算出する、
　請求項１から５いずれかに記載の故障検知システム。
　前記算出モデルは、前記複数の記憶装置のスコアの統計量と、前記複数の記憶装置それぞれのスコアとの差を基に、前記複数の記憶装置それぞれの前記異常度を算出する、
　請求項６に記載の故障検知システム。
　前記エラーログは、前記記憶装置への書き込みエラー、前記記憶装置への書き込みのタイムアウトエラー、前記記憶装置からの読み出しエラー、および前記記憶装置からの読み出しのタイムアウトエラーのうちの少なくとも一方についてのログである、
　請求項１から６いずれかに記載の故障検知システム。
　前記性能データは、前記記憶装置へ書き込みの性能および前記記憶装置からの読み出しの性能のうち少なくとも一方に関するデータである、
　請求項１から８いずれかに記載の故障検知システム。
　前記性能データは、平均書き込み応答時間、最大書き込み応答時間、平均読み出し応答時間および最大読み出し応答時間のうち少なくとも１つを含む、
　請求項９に記載の故障検知システム。
　性能データから記憶装置の異常度を算出する算出モデルを生成する生成手段をさらに備える
　請求項１から１０いずれかに記載の故障検知システム。
　記憶装置の性能データを取得し、
　前記記憶装置の動作異常に関するエラーログを取得し、
　取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出し、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定し、
　前記判定の結果を出力する、
　故障検知方法。
　記憶装置の性能データを取得する処理と、
　前記記憶装置の動作異常に関するエラーログを取得処理と、
　取得した性能データに基づき、性能データから記憶装置の異常度を算出する算出モデルを用いて、前記記憶装置の異常度を算出する処理と、
　前記異常度と、前記エラーログに基づき、前記記憶装置が正常であるかを判定する処理と、
　前記判定の結果を出力する処理と
　をコンピュータに実行させる故障検知プログラムを非一時的に記録する記録媒体。