WO2019054434A1

WO2019054434A1 - 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体

Info

Publication number: WO2019054434A1
Application number: PCT/JP2018/033926
Authority: WO
Inventors: 孝飯田
Original assignee: Ｎｅｃプラットフォームズ株式会社
Priority date: 2017-09-14
Filing date: 2018-09-13
Publication date: 2019-03-21
Also published as: JP2019053486A; US20200264946A1

Abstract

故障予兆検出装置４０は、所定の第一のタイミング、及び、その第一のタイミングより後の第二のタイミングに、ストレージ装置５０に対する検査用アクセスリクエストを発行する発行部４１と、検査用アクセスリクエストに応じてストレージ装置５０が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する収集部４２と、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する記憶部４３と、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置５０の劣化状態を表す劣化情報を生成する生成部４４と、を備えることによって、ストレージ装置が故障する前に、故障の予兆を高い精度で検出する。

Description

故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体

　本願発明は、ストレージ装置が故障する前に、故障の予兆を検知する技術に関する。

　ストレージ装置は、その使用が開始された後、時間の経過とともに劣化が進み、劣化が進行することに応じて、障害が発生する可能性が高くなる。したがって、このようなストレージ装置を含むコンピュータシステムの可用性を高めるために、ストレージ装置において障害が発生する前に、ストレージ装置の劣化が進行する度合いに基づいて故障の予兆を検知することにより、障害の発生を回避する技術への期待が高まってきている。

　このような技術に関連する技術として、特許文献１には、ディスク媒体と、そのディスク媒体に対し情報の書き込みあるいは読み出しを行う磁気ヘッドと、を備えるディスクドライブと、そのディスクドライブの障害予測を行う障害予測装置と、を有する磁気ディスク装置が開示されている。当該障害予測装置は、障害予兆診断のためのシークテストを行い、シークテストの結果とテスト実行時の稼働時間とをテスト結果格納部に格納する。当該障害予測装置は、障害予兆を判断するための障害予兆シーク時間を設定し、障害予兆基準時間格納部に格納する。当該障害予測装置は、テスト結果と稼働時間と障害予兆シーク時間とに基づいて、ディスク媒体の交換時期を予測する。

　また、特許文献２には、ディスクに対する記録処理または読み出し処理を実行した結果に基づいて、ディスクに起因して発生する問題のレベルを示す指標値としてのリトライ率、エラーレート、またはレーザダイオード電流値を取得するディスク装置が開示されている。この装置は、リトライ率、エラーレート、またはレーザダイオード電流値と、予め設定されフラッシュメモリに記憶されているリトライ率の閾値、エラーレートの閾値、またはレーザダイオード電流値の閾値とを用いて、自装置の故障を予測する。

　また、特許文献３には、リード／ライト要求に対する磁気ディスク装置からの応答に基づき、当該磁気ディスク装置における障害発生を事前に予測する障害発生予測システムが開示されている。このシステムは、システムクロックに基づき、リード／ライト要求を出した時刻と、データを受け取った時刻との差分から、応答に要した応答時間を得る。そして、このシステムは、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定する。

特開2008-84392号公報特開2007-294000号公報特開2004-118397号公報

　ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ（応答時間）等を含む動作特性に関する所定の基準（閾値等）に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき（個体差）も存在する。したがって、動作特性に関する所定の（決められた）基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。特許文献１乃至３が示す技術は、このような課題を解決するのに、十分であるとは言えない。本願発明の主たる目的は、この問題を解決する故障予兆検出装置等を提供することである。

　本願発明の一態様に係る故障予兆検出装置は、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、を備える。

　上記目的を達成する他の見地において、本願発明の一態様に係る故障予兆検出方法は、情報処理装置によって、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する。

　また、上記目的を達成する更なる見地において、本願発明の一態様に係る故障予兆検出プログラムは、所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、をコンピュータに実行させるためのプログラムである。

　更に、本願発明は、係る故障予兆検出プログラム（コンピュータプログラム）が格納された、コンピュータ読み取り可能な、不揮発性の記録媒体によっても実現可能である。

　本願発明は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することを可能とする。

本願発明の第１の実施形態に係る故障予兆検出システム１の構成を概念的に示すブロック図である。本願発明の第１の実施形態に係る故障予兆検出装置１０が、ストレージ装置２０の使用が開始されたときに、ストレージ装置２０の動作特性情報を生成する動作を示すフローチャートである。本願発明の第１の実施形態に係る故障予兆検出装置１０が劣化情報を生成する動作を示すフローチャートである。本願発明の第２の実施形態に係る故障予兆検出装置４０の構成を概念的に示すブロック図である。本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置９００の構成を示すブロック図である。

　以下、本願発明の実施の形態について図面を参照して詳細に説明する。

　＜第１の実施形態＞
　図１は、本願発明の第１の実施の形態に係る故障予兆検出システム１の構成を概念的に示すブロック図である。故障予兆検出システム１は、大別して、ストレージ制御装置（ストレージコントローラ）１００、ストレージ装置２０、及び、上位装置（ホスト装置）３０を有している。

　上位装置３０は、ＣＰＵ（Central Processing Unit）及びメモリ等（不図示）を備えた、例えば図５を参照して後述する構成を有するサーバ装置等の情報処理装置であり、ストレージ装置２０に格納されているデータにアクセスする。ストレージ制御装置１００は、ストレージ装置２０を制御する装置であり、上位装置３０から受信した、ストレージ装置２０に対するリクエストを処理する。ストレージ制御装置１００は、また、ストレージ装置２０において発生した障害に対して行なう障害処理を制御する。

　ストレージ装置２０は、記憶デバイスである４つの磁気ディスク２１乃至２４を有する。尚、ストレージ装置２０が有する磁気ディスクの個数は、４つに限定されない。また、ストレージ装置２０が備える記憶デバイスは磁気ディスクに限定されない。ストレージ装置２０は、例えば、ＳＳＤ（Solid State Drive）等の記憶デバイスを備えてもよい。

　ストレージ装置２０は、例えば、磁気ディスク２１乃至２３を、通常動作を行う現用系ディスクとして備え、磁気ディスク２４を、障害が発生した磁気ディスクと切り換えて使用可能な待機系ディスクとして備えた、冗長構成を備えてもよい。そして、ストレージ装置２０は、可用性を向上させるために、例えば、磁気ディスク２１乃至２３によりＲＡＩＤ(Redundant Arrays of Inexpensive Disks)５等のＲＡＩＤを構成してもよい。尚、ＲＡＩＤは周知の技術であるので、本願では、その詳細な説明を省略する。

　ストレージ制御装置１００は、故障予兆検出装置１０を有している。故障予兆検出装置１０は、ストレージ装置２０が備える磁気ディスク２１乃至２４に関する故障の予兆を検出するために、磁気ディスク２１乃至２４の動作特性に基づいて、その劣化状態を表す劣化情報を生成する機能を有する。

　故障予兆検出装置１０は、発行部１１、収集部１２、記憶部１３、生成部１４、監視部１５、統計計算部１６、及び、構成変更部１７を備える。以降、本願では、故障予兆検出装置１０が磁気ディスク２１に対して行なう動作を説明するが、故障予兆検出装置１０が磁気ディスク２２乃至２４に対して行なう動作も、磁気ディスク２１に対して行なう動作と同様である。

　発行部１１は、磁気ディスク２１の使用が開始されたとき（第一のタイミング）と、磁気ディスク２１の使用が開始されたのちの第二のタイミングとにおいて、磁気ディスク２１へのアクセスを行なう検査用アクセスリクエストを発行する。但し、第二のタイミングは、後述する監視部１５によって示されるタイミングである。当該検査用アクセスリクエストは、上位装置３０から発行されたアクセスリクエストではなく、磁気ディスク２１の劣化状態を検査するために発行された、ダミーのアクセスリクエストである。

　この検査用アクセスリクエストによって、故障予兆検出装置１０は、磁気ディスク２１に対して、例えば、下記のアクセスの少なくともいずれかを実行する。尚、下記のアクセスは一例であり、故障予兆検出装置１０が実行するアクセスは、下記のアクセスに限定されない。故障予兆検出装置１０は、磁気ディスク２１がキャッシュを備える場合、磁気ディスク２１の動作特性を正確に得るために、当該キャッシュを無効化した状態で、検査用アクセスリクエストを実行する。
（１）磁気ディスク２１の最外周及び最内周のトラックをシークするアクセス、
（２）データ転送長が異なる複数のアクセス、
（３）磁気ヘッドの切り替えを伴うアクセス、
（４）シーケンシャル（リード及びライト）アクセス、
（５）ランダム（リード及びライト）アクセス。
但し、シーケンシャルアクセスは、磁気ディスク２１における連続する記憶領域に対して、アドレス順にアクセスする動作である。またランダムアクセスは、磁気ディスク２１におけるアドレスが異なる複数の記憶領域に対して、アドレス順に依存しないでアクセスする動作である。

　発行部１１は、後述する統計計算部１６が、磁気ディスク２１に関する動作特性に対して統計計算を行なうことができるようにするために、種別が等しいアクセスリクエストを、それぞれ複数回発行してもよい。

　監視部１５は、上位装置３０からストレージ装置２０に対するアクセスに関する負荷状況を監視する。監視部１５は、その負荷状況が所定の条件を満たす第二のタイミングが到来したか否かを判定する。監視部１５は、例えば、上位装置３０からストレージ装置２０に対するアクセスが発生していないこと、あるいは、当該アクセスに関する負荷が閾値以下であることを、当該所定の条件として使用してもよい。監視部１５は、当該第二のタイミングが到来したと判定した場合、その判定結果を発行部１１へ通知する。監視部１５は、また、第二のタイミングであると判定する度に、判定結果を発行部１１へ通知するようにしてもよい。

　発行部１１は、監視部１５から第二のタイミングが到来したことを通知された場合、上述した通り、検査用アクセスリクエストを発行する。発行部１１は、この際、磁気ディスク２１において、上位装置３０によって使用されていない記憶領域（未使用の記憶領域）を、検査用アクセスリクエストによってアクセスされる記憶領域として確保する。これは、検査用アクセスリクエストによるライトアクセスによって、上位装置３０が使用する、磁気ディスク２１に記憶されているデータが破壊されないようにするためである。

　収集部１２は、発行部１１によって発行された検査用アクセスリクエストに応じてストレージ装置２０が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。収集部１２は、動作特性を表す情報として、例えば、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを収集する。ただし、シーク時間は、磁気ディスク２１の磁気ヘッドが、アクセス対象であるデータが格納されているトラックの位置まで移動するのに要する時間である。回転待ち時間は、アクセス対象であるデータが、磁気ヘッドの下に来るまでに要する時間である。データ転送時間は、アクセス対象であるデータの読み出しあるいは書き込みに要する時間である。尚、収集部１２が収集する動作特性を表す情報は、上述した各時間に限定されない。

　収集部１２は、収集した動作特性を表す情報を、検査用アクセスリクエストと関連付けて、例えば記憶部１３へ格納する。

　統計計算部１６は、発行部１１が発行した複数回の種別が等しい検査用アクセスリクエストに関して、収集部１２が収集した動作特性を表す情報に対して、統計計算を行なう。
但し、統計計算とは、例えば平均値あるいは標準偏差等の統計情報を求める計算である。

　統計計算部１６は、磁気ディスク２１の使用が開始されたとき（第一のタイミング）において、上述した統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第一の動作特性情報として、記憶部１３に格納する。統計計算部１６は、上述した第二のタイミングにおいて、同様に統計計算を行なうことによって生成した、統計情報を含む動作特性を表す情報を、第二の動作特性情報として、記憶部１３に格納する。但し、記憶部１３は、電子メモリあるいは磁気ディスク等の記憶デバイスである。

　生成部１４は、統計計算部１６によって記憶部１３に格納された、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、磁気ディスク２１の劣化状態（磁気ディスク２１の使用が開始されたときから、上述した第二のタイミングに至るまでに、磁気ディスク２１が劣化した度合い）を表す劣化情報を生成する。生成部１４は、また、磁気ディスク２１の劣化状態を表す値が閾値以上であるか否かを判定し、その劣化状態を表す値が閾値以上である場合、磁気ディスク２１を予防交換することを推奨することを示す情報を、生成する劣化情報に含めるようにしてもよい。生成部１４は、生成した劣化情報を、例えば、システム管理者が使用する上位装置３０へ送信する。

　構成変更部１７は、ストレージ装置２０が、例えば、ＲＡＩＤを構成する複数の現用系（一次）ディスクと、待機系（二次）ディスクとを含む場合に、ストレージ装置２０の構成を変更する機能を有する。例えば、ストレージ装置２０が、現用系ディスクである磁気ディスク２１乃至２３によりＲＡＩＤ５を構成し、磁気ディスク２４を待機系ディスクとして備える場合を考える。そして、生成部１４により生成された劣化情報が、磁気ディスク２１を予防交換することを推奨することを示していることとする。この場合、構成変更部１７は、まず、磁気ディスク２１に記憶されていたデータを、磁気ディスク２４に複写する。構成変更部１７は、この後、磁気ディスク２１の代わりに、磁気ディスク２４を組み込むように、ＲＡＩＤ５の構成を変更する。構成変更部１７は、ストレージ装置２０におけるＲＡＩＤ５の構成を変更したことを、例えば、上位装置３０へ通知する。

　次に、図２及び図３のフローチャートを参照して、本実施形態に係る故障予兆検出装置１０の動作（処理）について詳細に説明する。

　図２は、本実施形態に係る故障予兆検出装置１０が、ストレージ装置２０の使用が開始されたとき（第一のタイミング）に、ストレージ装置２０の動作特性情報を生成する動作を示すフローチャートである。

　発行部１１は、ストレージ装置２０に対する検査用アクセスリクエストを発行する（ステップＳ１０１）。収集部１２は、検査用アクセスリクエストに応じてストレージ装置２０が動作したときの動作特性を表す情報を収集する（ステップＳ１０２）。

　統計計算部１６は、収集部１２により収集された動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第一の動作特性情報を生成する（ステップＳ１０３）。統計計算部１６は、生成した第一の動作特性情報を、記憶部１３に格納し（ステップＳ１０４）、全体の処理は終了する。

　図３は、本実施形態に係る故障予兆検出装置１０が、ストレージ装置２０に関する劣化情報を生成する動作を示すフローチャートである。

　監視部１５は、上位装置３０からストレージ装置２０に対するアクセスに関する負荷状況を監視する（ステップＳ２０１）。監視部１５は、負荷状況が所定の条件を満たすか否か判定する（ステップＳ２０２）。当該負荷状況が所定の条件を満たさない場合（ステップＳ２０３でＮｏ）、処理は、ステップＳ２０１へ戻る。当該負荷状況が所定の条件を満たす場合（ステップＳ２０３でＹｅｓ）、発行部１１は、検査用アクセスリクエストによってアクセスされる記憶領域を、ストレージ装置２０の中に確保する（ステップＳ２０４）。

　発行部１１は、ストレージ装置２０に対する検査用アクセスリクエストを発行する（ステップＳ２０５）。収集部１２は、検査用アクセスリクエストに応じてストレージ装置２０が動作したときの動作特性を表す情報を収集する（ステップＳ２０６）。

　統計計算部１６は、動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、第二の動作特性情報を生成する（ステップＳ２０７）。統計計算部１６は、生成した第二の動作特性情報を記憶部１３に格納する（ステップＳ２０８）。

　生成部１４は、記憶部１３に格納されている第一の動作特性情報と第二の動作特性情報との差分を求めることによって、劣化情報を生成する（ステップＳ２０９）。生成部１４は、生成した劣化情報を上位装置３０へ送信し（ステップＳ２１０）、全体の処理は終了する。

　本実施形態に係る故障予兆検出装置１０は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置１０は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置２０に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置２０の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置２０に関する劣化情報を生成するからである。

　以下に、本実施形態に係る故障予兆検出装置１０によって実現される効果について、詳細に説明する。

　ストレージ装置において故障の予兆を検知する場合、一般的に、アクセスが行なわれた際のエラーレート、あるいはレイテンシ等を含む動作特性に関する所定の基準（閾値等）に基づいて、ストレージ装置の劣化度合いを判断している。しかしながら、ストレージ装置の動作特性には、その規格、仕様、性能等によって異なるとともに、個体間におけるばらつき（個体差）も存在する。したがって、動作特性に関する所定の基準に基づいて、ストレージ装置の劣化度合いを判断する場合、故障の予兆を高い精度で検知することは困難である。

　このような問題に対して、本実施形態に係る故障予兆検出装置１０は、発行部１１と、収集部１２と、記憶部１３と、生成部１４と、を備え、例えば図１乃至図３を参照して上述した通り動作する。即ち、発行部１１は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置２０に対する検査用アクセスリクエストを発行する。収集部１２は、当該検査用アクセスリクエストに応じてストレージ装置２０が動作したときの動作特性を表す情報を、検査用アクセスリクエストごとに収集する。記憶部１３は、第一のタイミングにおける動作特性を表す第一の動作特性情報と、第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。そして、生成部１４は、当該第一の動作特性情報と当該第二の動作特性情報との差分を求めることによって、ストレージ装置２０の劣化状態を表す劣化情報を生成する。

　即ち、故障予兆検出装置１０が劣化情報を生成する際に使用する情報は、所定の第一のタイミングとその後の第二のタイミングとにおいて収集した動作特性を表す情報の差分（相対値）であり、あるタイミングにおける動作特性を表す情報が表す絶対値ではない。故障予兆検出装置１０は、このような相対値を使用することによって、絶対値を使用する場合とは異なり、ストレージ装置ごとに異なる、規格、仕様、性能、あるいは、特性のばらつきなどを考慮した（相殺した）劣化情報を生成することができるので、ストレージ装置２０が故障する前に、故障の予兆を高い精度で検出することができる。

　また、上述した第一のタイミングは、例えば、ストレージ装置２０の使用が開始されたときなどの、所定の（予め決められた）タイミングである。即ち、故障予兆検出装置１０は、第一のタイミングが固定されている（劣化情報を生成する際の条件（環境）を均一とする）ことによって、ストレージ装置２０が故障する前に、故障の予兆を高い精度で検出することができる。尚、第一のタイミングは、ストレージ装置２０の使用が開始されたときに限定されない。第一のタイミングは、例えば、ストレージ装置２０の使用が開始された後に所定の時間に亘って使用されたタイミングなどであってもよい。

　また、本実施形態に係る監視部１５は、上位装置３０からストレージ装置２０に対するアクセスに関する負荷状況を監視し、その負荷状況が所定の条件（当該アクセスに関する負荷が閾値以下であること等）を満たす第二のタイミングが到来したか否かを判定する。即ち、本実施形態に係る故障予兆検出装置１０は、第二のタイミングにおいても、劣化情報を生成する際の条件（環境）を均一とすることによって、ストレージ装置２０が故障する前に、故障の予兆を高い精度で検出することができる。

　また、本実施形態に係る統計計算部１６は、発行部１１によって発行された複数回の種別が等しい検査用アクセスリクエストに関する動作特性を表す情報に関して統計計算（平均値等の計算）を行なうことによって、統計情報を含む、上述した第一及び第二の動作特性情報を生成する。これにより、本実施形態に係る故障予兆検出装置１０は、ストレージ装置２０が故障する前に、故障の予兆を、より高い精度で検出することができる。

　また、本実施形態に係る発行部１１は、ストレージ装置２０における未使用の記憶領域を、発行する検査用アクセスリクエストによってアクセスされる記憶領域として、事前に確保する。これにより、本実施形態に係る故障予兆検出装置１０は、検査用アクセスリクエストによるライトアクセスによって、上位装置３０が使用する、磁気ディスク２１に記憶されているデータが破壊されることを回避するので、故障の予兆の検出を、安全に行なうことができる。

　さらに、本実施形態に係る故障予兆検出装置１０は、ＲＡＩＤを構成する現用系ディスクである磁気ディスク２１乃至２３と、待機系ディスクである磁気ディスク２４とを含むストレージ装置２０の構成を変更可能な構成変更部１７を備える。構成変更部１７は、例えば磁気ディスク２１に関する劣化状態を示す値が閾値以上である場合、磁気ディスク２１に記憶されていたデータを磁気ディスク２４に複写したのち、磁気ディスク２１の代わりに、磁気ディスク２４を組み込むように、ＲＡＩＤの構成を変更する。したがって、本実施形態に係る故障予兆検出装置１０は、故障の予兆を検出した結果に基づいて、ストレージ装置２０の可用性を高めることができる。

　また、本実施形態に係る故障予兆検出装置１０は、監視部１５、統計計算部１６、及び、構成変更部１７のうちの少なくともいずれかを含まない、簡易な構成を備えてもよい。

　＜第２の実施形態＞
　図４は、本願発明の第２の実施形態に係る故障予兆検出装置４０の構成を概念的に示すブロック図である。

　実施形態に係る故障予兆検出装置４０は、発行部４１、収集部４２、記憶部４３、及び、生成部４４を備えている。

　発行部４１は、所定の第一のタイミング、及び、当該第一のタイミングより後の第二のタイミングに、ストレージ装置５０に対する検査用アクセスリクエストを発行する。

　収集部４２は、当該検査用アクセスリクエストに応じてストレージ装置５０が動作したときの動作特性を表す情報を、当該検査用アクセスリクエストごとに収集する。

　記憶部４３は、当該第一のタイミングにおける動作特性を表す第一の動作特性情報と、当該第二のタイミングにおける動作特性を表す第二の動作特性情報と、を記憶する。

　生成部４４は、第一の動作特性情報と第二の動作特性情報との差分を求めることによって、ストレージ装置５０の劣化状態を表す劣化情報を生成する。

　本実施形態に係る故障予兆検出装置４０は、ストレージ装置が故障する前に、故障の予兆を高い精度で検出することができる。その理由は、故障予兆検出装置４０は、所定の第一のタイミング、及び、その後の第二のタイミングに、ストレージ装置５０に対する検査用アクセスリクエストを発行することによって、それらのタイミングにおけるストレージ装置５０の動作特性情報を収集し、その動作特性情報に基づいて、ストレージ装置５０に関する劣化情報を生成するからである。

　＜ハードウェア構成例＞
　上述した各実施形態において図１、及び、図４に示した故障予兆検出装置における各部は、専用のＨＷ（ＨａｒｄＷａｒｅ）（電子回路）によって実現することができる。また、図１、及び、図４において、少なくとも、下記構成は、ソフトウェアプログラムの機能（処理）単位（ソフトウェアモジュール）と捉えることができる。
・発行部１１、及び、４１、
・収集部１２、及び、４２、
・記憶部１３、及び、４３における記憶制御機能、
・生成部１４、及び、４４、
・監視部１５、
・統計計算部１６、
・構成変更部１７。

　但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図５を参照して説明する。

　図５は、本願発明の各実施形態に係る故障予兆検出装置を実行可能な情報処理装置９００（コンピュータ）の構成を例示的に説明する図である。即ち、図５は、図１、及び、図４に示した故障予兆検出装置を実現可能なコンピュータ（情報処理装置）の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。

　図５に示した情報処理装置９００は、構成要素として下記を備えている。
・ＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ）９０１、
・ＲＯＭ（Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）９０２、
・ＲＡＭ（Ｒａｎｄｏｍ＿Ａｃｃｅｓｓ＿Ｍｅｍｏｒｙ）９０３、
・ハードディスク（記憶装置）９０４、
・外部装置との通信インタフェース９０５、
・バス９０６（通信線）、
・ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ＿Ｄｉｓｃ＿Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）等の記録媒体９０７に格納されたデータを読み書き可能なリーダライタ９０８、
・入出力インタフェース９０９。

　即ち、上記構成要素を備える情報処理装置９００は、これらの構成がバス９０６を介して接続された一般的なコンピュータである。情報処理装置９００は、ＣＰＵ９０１を複数備える場合もあれば、マルチコアにより構成されたＣＰＵ９０１を備える場合もある。

　そして、上述した実施形態を例に説明した本願発明は、図５に示した情報処理装置９００に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図（図１、及び、図４）における上述した構成、或いはフローチャート（図２及び図３）の機能である。本願発明は、その後、そのコンピュータプログラムを、当該ハードウェアのＣＰＵ９０１に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性のメモリ（ＲＡＭ９０３）、または、ＲＯＭ９０２やハードディスク９０４等の不揮発性の記憶デバイスに格納すれば良い。

　また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、現在では一般的な手順を採用することができる。その手順としては、例えば、ＣＤ－ＲＯＭ等の各種記録媒体９０７を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等がある。そして、このような場合において、本願発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記録媒体９０７によって構成されると捉えることができる。

　以上、上述した実施形態を模範的な例として本願発明を説明した。しかしながら、本願発明は、上述した実施形態には限定されない。即ち、本願発明は、本願発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　この出願は、２０１７年９月１４日に出願された日本出願特願２０１７－１７６８１２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１　　故障予兆検出システム
　１０　　故障予兆検出装置
　１１　　発行部
　１２　　収集部
　１３　　記憶部
　１４　　生成部
　１５　　監視部
　１６　　統計計算部
　１７　　構成変更部
　１００　　ストレージ制御装置
　２０　　ストレージ装置
　２１乃至２４　　磁気ディスク
　３０　　上位装置
　４０　　故障予兆検出装置
　４１　　発行部
　４２　　収集部
　４３　　記憶部
　４４　　生成部
　５０　　ストレージ装置
　９００　　情報処理装置
　９０１　　ＣＰＵ
　９０２　　ＲＯＭ
　９０３　　ＲＡＭ
　９０４　　ハードディスク（記憶装置）
　９０５　　通信インタフェース
　９０６　　バス
　９０７　　記録媒体
　９０８　　リーダライタ
　９０９　　入出力インタフェース

Claims

　所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行手段と、
　前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集手段と、
　前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶する記憶手段と、　前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成手段と、
　を備える故障予兆検出装置。
　上位装置から前記ストレージ装置に対するアクセスに関する負荷状況を監視し、前記負荷状況が所定の条件を満たす前記第二のタイミングが到来したか否かを判定する監視手段をさらに備える、
　請求項１に記載の故障予兆検出装置。
　統計計算手段をさらに備え、
　前記発行手段は、種別が等しい前記検査用アクセスリクエストを複数回発行し、
　前記統計計算手段は、複数回の前記種別が等しい検査用アクセスリクエストに関する前記動作特性を表す情報に関して統計計算を行なうことによって、統計情報を含む、前記第一及び第二の動作特性情報を生成する、
　請求項１または請求項２に記載の故障予兆検出装置。
　前記発行手段は、磁気ディスクを有する前記ストレージ装置に対して、前記磁気ディスクの最外周と最内周のトラックをシークするアクセスと、データ転送長が異なる複数のアクセスと、磁気ヘッドの切り替えを伴うアクセスと、シーケンシャルアクセスと、ランダムアクセスと、のうちの少なくともいずれかを実行するための前記検査用アクセスリクエストを発行する、
　請求項１乃至請求項３のいずれか一項に記載の故障予兆検出装置。
　前記収集手段は、シーク時間と、回転待ち時間と、データ転送時間とのうちの少なくともいずれかを含む前記動作特性を表す情報を収集する、
　請求項４に記載の故障予兆検出装置。
　前記発行手段は、前記ストレージ装置の使用が開始されたときを前記第一のタイミングとして、前記ストレージ装置に対する検査用アクセスリクエストを発行する、
　請求項１乃至請求項５のいずれか一項に記載の故障予兆検出装置。
　前記発行手段は、前記ストレージ装置における未使用の記憶領域を、発行する前記検査用アクセスリクエストによってアクセスされる記憶領域として確保する、
　請求項１乃至請求項６のいずれか一項に記載の故障予兆検出装置。
　ＲＡＩＤ(Redundant Arrays of Inexpensive Disks)を構成する複数の現用系ディスクと、待機系ディスクとを含む前記ストレージ装置の構成を変更する構成変更手段をさらに備え、
　前記生成手段は、前記複数の現用系ディスクと前記待機系ディスクとの劣化状態を表す値が閾値以上であるか否かを示す前記劣化情報を生成し、
　前記構成変更手段は、前記劣化情報が、前記複数の現用系ディスクのうちの特定の現用系ディスクに関する前記劣化状態が閾値以上であることを示す場合、前記特定の現用系ディスクに記憶されていたデータを前記待機系ディスクに複写したのち、前記特定の現用系ディスクの代わりに、前記待機系ディスクを組み込むように、前記ＲＡＩＤの構成を変更する、
　請求項１乃至請求項７のいずれか一項に記載の故障予兆検出装置。
　情報処理装置によって、
　　所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行し、
　　前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集し、
　　前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶し、　　前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する、
　故障予兆検出方法。
　所定の第一のタイミング、及び、前記第一のタイミングより後の第二のタイミングに、ストレージ装置に対する検査用アクセスリクエストを発行する発行処理と、
　前記検査用アクセスリクエストに応じて前記ストレージ装置が動作したときの動作特性を表す情報を、前記検査用アクセスリクエストごとに収集する収集処理と、
　前記第一のタイミングにおける前記動作特性を表す第一の動作特性情報と、前記第二のタイミングにおける前記動作特性を表す第二の動作特性情報と、を記憶手段に記憶する記憶処理と、
　前記第一の動作特性情報と前記第二の動作特性情報との差分を求めることによって、前記ストレージ装置の劣化状態を表す劣化情報を生成する生成処理と、
　をコンピュータに実行させるための故障予兆検出プログラムが格納された記録媒体。