WO2016151845A1 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- WO2016151845A1 WO2016151845A1 PCT/JP2015/059399 JP2015059399W WO2016151845A1 WO 2016151845 A1 WO2016151845 A1 WO 2016151845A1 JP 2015059399 W JP2015059399 W JP 2015059399W WO 2016151845 A1 WO2016151845 A1 WO 2016151845A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- hdd
- card
- expansion
- raid
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0634—Configuration or reconfiguration of storage systems by changing the state or mode of one or more devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0605—Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
- G06F3/0689—Disk arrays, e.g. RAID, JBOD
Definitions
- the present invention relates to an information processing apparatus that monitors the operation of a storage device.
- HDD Hard Disk Drive
- RAID Redundant Arrays of Inexpensive Disks
- an object of the present invention is to enable monitoring of a storage device without depending on a specific OS or device.
- the information processing apparatus includes a processing unit and a control unit.
- the processing unit performs information processing.
- the control unit receives, from the processing unit, information on an expansion device that expands the function of the processing unit, and based on the information on the expansion device, the expansion device is a specific device that connects a storage device. To determine. When the expansion device is the specific device, the control unit inquires the specific device for information on the storage device, receives the information on the storage device from the specific device, and stores the information on the storage device. Based on this, the operation of the storage device is monitored.
- the information processing apparatus of the embodiment it is possible to monitor a storage device without depending on a specific OS or device.
- FIG. 1 is a configuration diagram of a server according to the embodiment.
- CPU Central Processing Unit
- ROM Read Only Memory
- BMC Baseboard Management Management Controller
- PCIe PCI Express
- the server 101 is an example of an information processing apparatus.
- the CPU 111 is a processor that performs various types of information processing.
- the CPU reads the BIOS firmware 132 into the memory 121 and executes it. Further, the CPU 111 reads out an OS (not shown) stored in the HDD 191-j to the memory 121 and executes it.
- the CPU 111 is an example of a processing unit.
- the memory 121 temporarily stores programs and data used by the server 101.
- the memory 121 is, for example, a Random Access Memory (RAM).
- the memory 121 is an example of a storage unit.
- the ROM 131 is a storage device that stores programs and data used by the server 101.
- the ROM 131 stores the BIOS firmware 132.
- the BIOS firmware 132 is a program that collects and initializes information about connected expansion cards and starts up the OS when the server 101 is started up.
- the BMC 141 is an integrated circuit that monitors the operation of the components of the server 101 such as the CPU 111, the memory 121, the fan (not shown), the Power Supply Unit (PSC) (not shown), and the HDD 191-j.
- the BMC 141 is an example of a control unit.
- the BMC 141 includes a CPU 145, a memory 146, and a ROM 147.
- the CPU 145 monitors the operation of the components of the server 101 by executing the BMC firmware stored in the ROM 147 using the memory 146.
- the CPU 145 operates as a media error monitoring unit 142, a media error determination unit 143, a card type determination unit 144, and a RAID card state determination unit 145 by executing the BMC firmware.
- the BMC 141 communicates with an expansion card corresponding to I2C attached to the PCIe slot 151-i using Inter-Integrated Circuit (I2C).
- the BMC 141 corresponds to Intelligent Platform Management Interface (IPMI), has a Keyboard Controller Style (KCS) interface, and communicates with the CPU 111 by IPMI.
- IPMI Intelligent Platform Management Interface
- KCS Keyboard Controller Style
- the PCIe slot 151-i is a slot for attaching a PCIe card (expansion card).
- a LAN card 161 is attached to the PCIe slot 151-1
- an FC card 171 is attached to the PCIe slot 151-2
- a RAID card 181 is attached to the PCIe slot 151-3.
- the LAN card 161 is an expansion card that is connected to a communication network such as a LAN and has a communication interface that performs data conversion accompanying communication.
- the FC card 171 is an expansion card having an interface connected by a fiber channel.
- the RAID card 181 is an expansion card that performs RAID control such as parity calculation and storage device management.
- the HDD 191-j is connected to the RAID card 181 by Serial Attached SCSI (SAS).
- SAS Serial Attached SCSI
- the RAID card 181 is compatible with I2C and can communicate with the BMC 141 and I2C.
- Expansion cards such as the LAN card 161, the FC card 171, and the RAID card 181 are examples of expansion devices that expand the functions of the server 101.
- the HDD 191-j is a storage device that stores programs and data such as an OS (not shown) used in the server 101.
- the HDD 191-j is an example of a storage device, and may be a non-volatile semiconductor storage device such as Solid State Drive (SSD). Further, the number of HDDs 191-j in the embodiment is an example, and may be an arbitrary number.
- Each HDD 191-j has an identification number (device number) for identifying the HDD 191-j.
- FIG. 2 is a diagram illustrating a media error check process according to the related art and the embodiment.
- the left side of FIG. 2 shows conventional media error check processing, and the right side of FIG. 2 shows media error check processing according to the embodiment.
- the conventional media error check is executed by monitoring software executed on the OS.
- the monitoring software checks the operation of the HDD.
- the BMC 131 executes the media error check.
- the BMC 131 checks the operation of the HDD 191-j through the RAID card 181 connected by I2C.
- the BMC executes the media error check so that the HDD can be monitored without depending on the type of the OS.
- FIG. 3 is a sequence diagram from the start to the stop of the server according to the embodiment.
- step S ⁇ b> 501 the user turns on the server 101.
- step S502 the CPU 111 starts a startup process of the server 101. Specifically, the CPU 111 uses the memory 121 to execute the BIOS firmware 132.
- step S503 the CPU 111 acquires information on an expansion card mounted on the server 101. Specifically, the CPU 111 reads and acquires information (Vender ID and Device ID) of the expansion card from a register on each expansion card (LAN card 161, FC card 171, RAID card 181). Vender ID indicates the manufacturer of the expansion card, and Device ID indicates which product of the manufacturer.
- step S504 the CPU 111 transmits the expansion card information (Vender ID and Device ID) to the BMC 141 using IMPI.
- the card type determination unit 141 receives the expansion card information (Vender ID and Device ID), and determines whether the expansion card is a RAID card based on the expansion card information. Specifically, the card type determination unit 141 determines whether or not the expansion card is a RAID card according to whether or not the received pair of Vender ID and Device ID is included in the list of RAID cards.
- the list of RAID cards is stored in the BMC 141 or the ROM 131, and the list includes a set of Vender ID and Device ID of the RAID card.
- step S506 the CPU 111 initializes the expansion cards (LAN card 161, FC card 171, RAID card 181).
- step S507 the CPU 111 activates the OS.
- step S508 when the activation of the OS is completed, the CPU 111 notifies the BMC 141 of the completion of the activation of the OS using the IMPI.
- step S509 the RAID card state determination unit 145 receives the OS activation completion notification, and the media error monitoring unit 142 and the media error determination unit 143 start monitoring processing of the HDD 191-j. Details of the monitoring process will be described later.
- the BMC 141 cannot monitor the RAID card 181 unless the RAID card 181 is initialized. As described above, the expansion card is initialized before the OS is started. Therefore, the BMC 141 can recognize that the RAID card 181 has already been initialized and the RAID card 181 can be monitored by receiving the OS activation completion notification.
- the monitoring process is performed when it is determined in step S505 that any of the expansion cards is a RAID card, and the monitoring process is not performed when all of the expansion cards are not RAID cards.
- step S510 the user shuts down the OS.
- step S511 the CPU 111 starts a stop process of the server 101 and turns off the power of the expansion card.
- step S512 the CPU 111 notifies the BMC 141 of the start of the stop process of the server 101 using the IMPI.
- step S 513 when the RAID card state determination unit 145 receives a stop process start notification from the CPU 111, the RAID card state determination unit 145 stops the monitoring process of the HDD 191-j. In step S514, the CPU 111 stops the server 101.
- FIG. 4 is a flowchart of the BMC monitoring process according to the embodiment.
- FIG. 4 is a flowchart of the monitoring process started in step S509 of FIG. As described above, when the expansion card has a RAID card and the RAID card state determination unit 145 receives a notification of the completion of the OS startup, the monitoring process is started.
- the media error monitoring unit 142 requests information on the HDD 191-j connected to the RAID card 181.
- the RAID card 181 includes, as information on the HDD 191-1, configuration information of the HDD 191-j (number of HDDs 191-j, device number, information on which connector of the RAID card 181 the HDD 191-j is connected to), and redundancy. Information (information indicating the redundancy of the HDD 191-j and indicating which HDD 191-j is redundant) is transmitted.
- the media error monitoring unit 142 receives information on the HDD 191-j from the RAID card 181.
- the media error monitoring unit 142 can know the HDD 191-j to be monitored by acquiring information on the HDD 191-j connected to the RAID card 181, and can monitor the HDD 191-j based on the acquired information. I do.
- the media error monitoring unit 142 requests the RAID card 181 for the device number and SenseKey of the HDD 191-j.
- the media error monitoring unit 142 receives the combination of the device number of the HDD 191-j and the SenseKey from the RAID card 181 and stores it in the memory 146.
- the media error monitoring unit 142 makes a request for the device number and SenseKey of the HDD 191-j when a predetermined time (for example, 1 second) has passed since the previous request. That is, the media error monitoring unit 142 acquires the device number and SenseKey of the HDD 191-j at regular time intervals.
- a threshold for example, 10
- step S604 the media error determination unit 143 determines whether the error HDD is redundant based on the redundancy information. For example, if the error HDD is a HDD mirrored by RAID 1, it is determined that the error HDD is redundant.
- step S605 the media error determination unit 143 transmits an instruction to take the error HDD offline to the RAID card 181.
- the instruction includes the device number of the error HDD and the fact that it is set to be offline.
- the RAID card 181 that has received the instruction takes the HDD 191-j corresponding to the device number included in the instruction offline.
- step S606 the media error determination unit 143 outputs an error to the system event log, and notifies the user of the offline HDD 191-j error using Simple Network Management Protocol (SNMP).
- SNMP Simple Network Management Protocol
- FIG. 5 is a sequence diagram of server monitoring processing according to the embodiment.
- the media error monitoring unit 142 requests information on the HDD 191-1 connected to the RAID card 181 (step S701).
- the RAID card 181 includes, as information on the HDD 191-1, configuration information of the HDD 191-j (number of HDDs 191-j, device number, information on which connector of the RAID card 181 the HDD 191-j is connected to), and redundancy.
- Information (information indicating redundancy of the HDD 191-j and indicating which HDD 191-j is redundant) is transmitted (step S702).
- the media error monitoring unit 142 receives information on the HDD 191-j from the RAID card 181.
- the HDD 191-j transmits its device number and SenseKey to the RAID card 181 (step S703-j).
- the RAID card 181 stores the received device number and SenseKey pair in a register included in the RAID card 181.
- the media error monitoring unit 142 requests the device number and SenseKey of the HDD 191-j from the RAID card 181 (step S704-j). Note that the device number and the SenseKey request for the HDD 191-j are made at regular time intervals (for example, 1 second).
- the RAID card 181 Upon receiving the request, the RAID card 181 transmits the device number and SenseKey pair stored in the register to the BMC 141 (step S705-j). The RAID card 181 deletes the set of the device number and SenseKey in the register after transmission.
- the media error monitoring unit 142 receives a set of the device number and SenseKey of the HDD 191-j from the RAID card 181 and stores it.
- the media error determination unit 143 determines that the HDD 191-j is a replacement HDD (error HDD) with many media errors. It is determined that
- the media error determination unit 143 transmits an offline request including the device number of the error HDD (instruction to make the error HDD offline) to the RAID card 181 (step S706).
- the RAID card When receiving the offline request, the RAID card takes the HDD 191-j corresponding to the device number included in the offline request offline (step S 707).
- the monitoring process is performed when the expansion card is a RAID card.
- the monitoring process may also be performed when the expansion card is an interface card that can be connected to an HDD having no RAID function. Good.
- the HDD can be monitored without depending on the type of OS or a specific RAID card.
- the information processing apparatus of the embodiment it is not necessary to develop software for monitoring the HDD for each OS, and the cost can be reduced.
- the BMC since the BMC monitors the HDD, the OS resource is not consumed, and the reliability of monitoring and disconnecting the HDD media error is improved.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
処理部の機能を拡張する拡張装置の情報を前記処理部から受信し、前記拡張装置の情報に基づいて、前記拡張装置が記憶装置を接続する特定の装置であるか否か判定し、前記拡張装置が前記特定の装置である場合、前記記憶装置の情報を前記特定の装置に問い合わせ、前記特定の装置から前記記憶装置の情報を受信し、前記記憶装置の情報に基づいて前記記憶装置の動作を監視する。
Description
本発明は、記憶装置の動作を監視する情報処理装置に関する。
近年のサーバシステムにおいて、Hard Disk Drive(HDD)はRedundant Arrays of Inexpensive Disks(RAID)により冗長化されることが一般的になっており、システムを停止させずにデータを保持したままHDDを交換することが可能となっている。そのためHDDを冗長化して使用しているユーザからは、実際に故障や性能劣化が発生する前にHDDに予防交換しておきたいという声が高まってきている。
HDDの故障において、磁気ヘッドの故障により、データを正常に読み取ることができないメディアエラーが発生するという問題がある。通常、メディアエラーが発生しているだけでは、リトライすることでデータの読み書きは可能であるため、そのHDDは故障状態になくHDDのエラーを知らせるLight Emitting Diode(LED)も点灯しない。
しかしながら、このメディアエラーが多発すると、HDDへのアクセスに何度もリトライが発生してしまい、HDDへのアクセスの性能劣化を招いてしまうという問題がある。HDDをRAIDで冗長化して使用しているユーザからは、このメディアエラーが多発し性能劣化を招く前に、HDDを交換したいという要望がある。
従来では、このメディアエラーの多発による性能劣化を回避するために、HDDのメディアエラーを定期的にチェックしHDDをオフラインにして切り離しを行うためのソフトウェアを、OS上で動作させている。
また、メディアエラーのチェックをRAIDコントローラで行う方法が知られている(例えば、特許文献1参照)。
現在のサーバシステムで使用されているOSには数多くの種類やバージョンが存在する。メディアエラーをチェックするためのソフトウェアが特定のOSで動作しない場合、当該OSを使用する場合は、HDDのメディアエラーがチェックされないことになってしまう。そのため、HDDのメディアエラーをチェックするためのソフトウェアを、それぞれのOSやバージョンごとに動作できるよう対応するために、大きなコストがかかってしまうことが問題となっている。
また、特許文献1の方法では、メディアエラーのチェック機能を持つ特定のRAIDカードが使用される。
1つの側面において、本発明の課題は、特定のOSや装置等に依存せずに記憶装置の監視を可能にすることである。
実施の形態の情報処理装置は、処理部と、制御部と、を備える。
前記処理部は、情報処理を行う。
前記処理部は、情報処理を行う。
前記制御部は、前記処理部の機能を拡張する拡張装置の情報を前記処理部から受信し、前記拡張装置の情報に基づいて、前記拡張装置が記憶装置を接続する特定の装置であるか否か判定する。前記制御部は、前記拡張装置が前記特定の装置である場合、前記記憶装置の情報を前記特定の装置に問い合わせ、前記特定の装置から前記記憶装置の情報を受信し、前記記憶装置の情報に基づいて前記記憶装置の動作を監視する。
実施の形態の情報処理装置によれば、特定のOSや装置等に依存せずに記憶装置を監視することができる。
以下、図面を参照しながら実施の形態について説明する。
図1は、実施の形態に係るサーバの構成図である。
図1は、実施の形態に係るサーバの構成図である。
サーバ101は、Central Processing Unit(CPU)111、メモリ121、Read Only Memory(ROM)131、Baseboard Management Controller(BMC)141、PCI Express(PCIe)スロット151-i(i=1~3)、Local Area Network(LAN)カード161、Fibre Channel(FC)カード171、Redundant Arrays of Inexpensive Disks(RAID)カード181、およびHard Disk Drive(HDD)191-j(j=1~3)を備える。サーバ101は、情報処理装置の一例である。
CPU111は、各種情報処理を行うプロセッサである。CPUは、BIOSファームウェア132をメモリ121に読み出して実行する。また、CPU111は、HDD191-jに格納されたOS(不図示)をメモリ121に読み出して実行する。CPU111は、処理部の一例である。
メモリ121は、サーバ101で使用されるプログラムやデータを一時的に格納する。メモリ121は、例えば、Random Access Memory(RAM)である。メモリ121は、記憶部の一例である。
ROM131は、サーバ101で使用されるプログラムやデータを格納する記憶装置である。ROM131は、BIOSファームウェア132を格納する。BIOSファームウェア132は、サーバ101の起動時に、接続されている拡張カードの情報の収集や初期化、OSの起動などを行うプログラムである。
BMC141は、CPU111、メモリ121、ファン(不図示)、Power Supply Unit(PSC)(不図示)、およびHDD191-j等のサーバ101の構成部品の動作の監視を行う集積回路である。BMC141は、制御部の一例である。BMC141は、CPU145、メモリ146、およびROM147を含む。CPU145は、ROM147に格納されたBMCファームウェアをメモリ146を利用して実行することにより、サーバ101の構成部品の動作の監視を行う。CPU145は、BMCファームウェアを実行することにより、メディアエラー監視部142、メディアエラー判定部143、カード種別判定部144、およびRAIDカード状態判定部145として動作する。BMC141は、Inter-Integrated Circuit(I2C)を用いて、PCIeスロット151-iに取り付けられるI2Cに対応する拡張カードと通信する。BMC141は、Intelligent Platform Management Interface(IPMI)に対応し、Keyboard Controller Style(KCS)インターフェースを有し、CPU111とIPMIによる通信を行う。
PCIeスロット151-iは、PCIeカード(拡張カード)を取り付けるための差込口である。PCIeスロット151-1にはLANカード161、PCIeスロット151-2にはFCカード171、PCIeスロット151-3にはRAIDカード181が取り付けられている。
LANカード161は、LAN等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インターフェースを有する拡張カードである。
FCカード171は、ファイバチャネルにより接続するインターフェースを有する拡張カードである。
RAIDカード181は、パリティ演算や記憶装置の管理などのRAIDの制御を行う拡張カードである。RAIDカード181には、HDD191-jがSerial Attached SCSI(SAS)により接続されている。RAIDカード181はI2Cに対応し、BMC141とI2Cにより通信可能である。
LANカード161、FCカード171、およびRAIDカード181等の拡張カードは、サーバ101の機能を拡張する拡張装置の一例である。
HDD191-jは、サーバ101で使用されるOS(不図示)等のプログラムやデータを格納する記憶装置である。HDD191-jは、記憶装置の一例であり、Solid State Drive(SSD)等の不揮発性の半導体記憶装置でも良い。また、実施の形態のHDD191-jの数は一例であり、任意の数でよい。また、HDD191-jは、それぞれHDD191-jを識別する識別番号(デバイス番号)を有する。
図2は、従来と実施の形態のメディアエラーチェックの処理を示す図である。
図2の左側は、従来のメディアエラーチェックの処理を示し、図2の右側は、実施の形態のメディアエラーチェックの処理を示す。
図2の左側は、従来のメディアエラーチェックの処理を示し、図2の右側は、実施の形態のメディアエラーチェックの処理を示す。
従来のメディアエラーチェックは、OS上で実行される監視ソフトウェアによって実行される。監視ソフトウェアは、HDDの動作をチェックする。
実施の形態において、メディアエラーチェックは、BMC131が実行する。BMC131は、I2Cで接続されたRAIDカード181を通して、HDD191-jの動作をチェックする。
実施の形態の情報処理装置によれば、メディアエラーチェックをBMCが実行することで、OSの種別に依存せずにHDDを監視することができる。
図3は、実施の形態に係るサーバの起動から停止までのシーケンス図である。
ステップS501において、ユーザは、サーバ101の電源をオンにする。
ステップS501において、ユーザは、サーバ101の電源をオンにする。
ステップS502において、CPU111は、サーバ101の起動処理を開始する。詳細には、CPU111は、メモリ121を利用してBIOSファームウェア132を実行する。
ステップS503において、CPU111は、サーバ101に搭載されている拡張カードの情報を取得する。詳細には、CPU111は、各拡張カード(LANカード161、FCカード171、RAIDカード181)上のレジスタから、拡張カードの情報(Vender IDおよびDevice ID)を読み出して取得する。Vender IDは、拡張カードの製造者を示し、Device IDは、当該製造者のどの製品であるかを示す。
ステップS504において、CPU111は、拡張カードの情報(Vender IDおよびDevice ID)をIMPIを用いてBMC141に送信する。
ステップS505において、カード種別判定部141は、拡張カードの情報(Vender IDおよびDevice ID)を受信し、拡張カードの情報に基づいて、拡張カードがRAIDカードであるか否か判定する。詳細には、カード種別判定部141は、受信したVender IDおよびDevice IDの組がRAIDカードのリストに含まれているか否かに応じて、拡張カードがRAIDカードであるか否か判定する。RAIDカードのリストは、BMC141またはROM131等に格納されており、当該リストには、RAIDカードのVender IDとDevice IDの組が記載されている。ステップS505の処理により、BMC141はサーバ101にRAIDカードが搭載されているか否かが分かる。
ステップS506において、CPU111は、拡張カード(LANカード161、FCカード171、RAIDカード181)を初期化する。
ステップS507において、CPU111は、OSの起動を行う。
ステップS508において、CPU111は、OSの起動が完了したら、OSの起動完了をIMPIを用いてBMC141に通知する。
ステップS508において、CPU111は、OSの起動が完了したら、OSの起動完了をIMPIを用いてBMC141に通知する。
ステップS509において、RAIDカード状態判定部145は、OSの起動完了の通知を受信し、メディアエラー監視部142およびメディアエラー判定部143は、HDD191-jの監視処理を開始する。尚、監視処理の詳細については、後述する。RAIDカード181の初期化が行われていないと、BMC141は、RAIDカード181を監視することができない。上記のように、OSの起動前に拡張カードの初期化は行われている。よって、OSの起動完了の通知の受信により、BMC141は、RAIDカード181の初期化はすでに行われ、RAIDカード181の監視が可能であることを知ることができる。
尚、監視処理は、ステップS505において、拡張カードのいずれかがRAIDカードであると判定された場合に行われ、拡張カードの全てがRAIDカードでない場合には、監視処理は行われない。
ステップS510において、ユーザは、OSをシャットダウンする。
ステップS511において、CPU111は、サーバ101の停止処理を開始し、拡張カードの電源を落とす。
ステップS511において、CPU111は、サーバ101の停止処理を開始し、拡張カードの電源を落とす。
ステップS512において、CPU111は、BMC141にサーバ101の停止処理開始をIMPIを用いて通知する。
ステップS513において、RAIDカード状態判定部145は、CPU111から停止処理開始の通知を受信すると、HDD191-jの監視処理を停止する。
ステップS514において、CPU111は、サーバ101を停止する。
ステップS514において、CPU111は、サーバ101を停止する。
図4は、実施の形態に係るBMCの監視処理のフローチャートである。
図4は、図3のステップS509で開始される監視処理のフローチャートである。
上述のように、拡張カードにRAIDカードがあり、RAIDカード状態判定部145がOSの起動完了の通知を受信すると、監視処理が開始される。
図4は、図3のステップS509で開始される監視処理のフローチャートである。
上述のように、拡張カードにRAIDカードがあり、RAIDカード状態判定部145がOSの起動完了の通知を受信すると、監視処理が開始される。
ステップS601において、メディアエラー監視部142は、RAIDカード181に接続されているHDD191-jの情報を要求する。RAIDカード181は、HDD191-1の情報として、HDD191-jの構成情報(HDD191-jの数やデバイス番号、HDD191-jがRAIDカード181のどのコネクタに接続しているかの情報など)、および冗長化情報(HDD191-jの冗長性を示す情報であり、どのHDD191-jが冗長化されているかを示す情報)を送信する。メディアエラー監視部142は、RAIDカード181からHDD191-jの情報を受信する。メディアエラー監視部142は、RAIDカード181に接続されているHDD191-jの情報を取得することにより、監視対象となるHDD191-jを知ることができ、取得した情報に基づいてHDD191-jの監視を行う。
ステップS602において、メディアエラー監視部142は、RAIDカード181にHDD191-jのデバイス番号とSenseKeyを要求する。メディアエラー監視部142は、RAIDカード181からHDD191-jのデバイス番号とSenseKeyの組を受信し、メモリ146に格納する。メディアエラー監視部142は、前回の要求から一定時間(例えば、1秒)経過したら、HDD191-jのデバイス番号とSenseKeyの要求を行う。すなわち、メディアエラー監視部142は、一定時間ごとにHDD191-jのデバイス番号とSenseKeyを取得している。
ステップS603において、メディアエラー判定部143は、各HDD191-jについて、所定期間(例えば、1分前から現在までの1分間)のSenseKey=01hと03hの数の合計が閾値(例えば、10)以上であるかチェックする。メディアエラー判定部143は、あるHDD191-jに関して、所定期間のSenseKey=01hと03hの数の合計が、閾値以上ある場合、当該HDD191-jは、メディアエラーが多い交換すべきHDD(エラーHDD)であると判定する。尚、SenseKeyは、メディアエラーが復旧可能エラーの場合SenseKey=01hであり、復旧不能エラーの場合SenseKey=03hである。
ステップS604において、メディアエラー判定部143は、冗長化情報に基づいて、エラーHDDが冗長化されているか判定する。例えば、エラーHDDがRAID1によってミラーリングされたHDDである場合、当該エラーHDDは冗長化されていると判定される。
ステップS605において、メディアエラー判定部143は、RAIDカード181にエラーHDDをオフラインにする指示を送信する。当該指示には、エラーHDDのデバイス番号とオフラインにする旨が含まれる。指示を受信したRAIDカード181は、指示に含まれるデバイス番号に対応するHDD191-jをオフラインにする。
ステップS606において、メディアエラー判定部143は、システムイベントログにエラーを出力し、オフラインにしたHDD191-jのエラーをSimple Network Management Protocol(SNMP)を用いてユーザに通知する。
図5は、実施の形態に係るサーバの監視処理のシーケンス図である。
メディアエラー監視部142は、RAIDカード181に接続されているHDD191-1の情報を要求する(ステップS701)。
メディアエラー監視部142は、RAIDカード181に接続されているHDD191-1の情報を要求する(ステップS701)。
RAIDカード181は、HDD191-1の情報として、HDD191-jの構成情報(HDD191-jの数やデバイス番号、HDD191-jがRAIDカード181のどのコネクタに接続しているかの情報など)、および冗長化情報(HDD191-jの冗長性を示す情報であり、どのHDD191-jが冗長化されているかを示す情報)を送信する(ステップS702)。メディアエラー監視部142は、RAIDカード181からHDD191-jの情報を受信する。
HDD191-jは、メディアエラーが発生すると、自身のデバイス番号とSenseKeyをRAIDカード181に送信する(ステップS703-j)。尚、SenseKeyは、メディアエラーが復旧可能エラーの場合SenseKey=01hであり、復旧不能エラーの場合SenseKey=03hである。RAIDカード181は、受信したデバイス番号とSenseKeyの組をRAIDカード181が備えるレジスタに格納する。
メディアエラー監視部142は、RAIDカード181にHDD191-jのデバイス番号とSenseKeyを要求する(ステップS704-j)。尚、HDD191-jのデバイス番号とSenseKeyの要求は、一定時間(例えば、1秒)ごとに行われる。
RAIDカード181は、要求を受信すると、レジスタに格納されたデバイス番号とSenseKeyの組をBMC141に送信する(ステップS705-j)。RAIDカード181は、送信後、レジスタ内のデバイス番号とSenseKeyの組を削除する。メディアエラー監視部142は、RAIDカード181からHDD191-jのデバイス番号とSenseKeyの組を受信し、格納する。メディアエラー判定部143は、各HDD191-jの所定期間(例えば、1分間)のSenseKey=01hおよび03hの数の合計をチェックする。メディアエラー判定部143は、あるHDD191-jに関して、所定期間のSenseKey=01hおよび03hの数の合計が、閾値以上ある場合、当該HDD191-jは、メディアエラーが多い交換すべきHDD(エラーHDD)であると判定する。
そして、メディアエラー判定部143は、エラーHDDのデバイス番号を含むオフライン要求(エラーHDDをオフラインにする指示)をRAIDカード181に送信する(ステップS706)。
RAIDカードは、オフライン要求を受信すると、オフライン要求に含まれるデバイス番号に対応するHDD191-jをオフラインにする(ステップS707)。
尚、実施の形態において、拡張カードがRAIDカードの場合に、監視処理を行っていたが、拡張カードがRAID機能を持たないHDDを接続可能なインターフェースカードの場合にも、監視処理を行ってもよい。
実施の形態の情報処理装置によれば、HDDの監視をBMCが行うので、OSの種別や特定のRAIDカードに依存することなく、HDDの監視を行うことができる。
実施の形態の情報処理装置によれば、HDDを監視するソフトウェアをOS毎に開発する必要が無くなり、コストを削減することができる。
実施の形態の情報処理装置によれば、HDDの監視をBMCが行うので、OSのリソースを消費することが無くなり、HDDのメディアエラーの監視及び切り離しの確実性が向上する。
Claims (5)
- 情報処理を行う処理部と、
前記処理部の機能を拡張する拡張装置の情報を前記処理部から受信し、前記拡張装置の情報に基づいて、前記拡張装置が記憶装置を接続する特定の装置であるか否か判定し、前記拡張装置が前記特定の装置である場合、前記記憶装置の情報を前記特定の装置に問い合わせ、前記特定の装置から前記記憶装置の情報を受信し、前記記憶装置の情報に基づいて前記記憶装置の動作を監視する制御部と、
を備える情報処理装置。 - 前記処理部は、前記情報処理装置の起動時に前記拡張装置の情報を収集し、前記制御部に送信することを特徴とする請求項1記載の情報処理装置。
- 前記特定の装置の初期化およびオペレーティングシステムの起動完了後、前記制御部は、前記オペレーティングシステムの起動完了の通知を前記処理部から受信し、前記記憶装置の情報を前記特定の装置に問い合わせることを特徴とする請求項1または2記載の情報処理装置。
- 前記制御部は、前記特定の装置から前記記憶装置の動作を示す情報を定期的に取得することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
- 前記記憶装置の情報は、前記記憶装置を識別するデバイス番号であることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017507285A JP6358389B2 (ja) | 2015-03-26 | 2015-03-26 | 情報処理装置 |
PCT/JP2015/059399 WO2016151845A1 (ja) | 2015-03-26 | 2015-03-26 | 情報処理装置 |
US15/710,220 US10416913B2 (en) | 2015-03-26 | 2017-09-20 | Information processing device that monitors operation of storage utilizing specific device being connected to storage |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/059399 WO2016151845A1 (ja) | 2015-03-26 | 2015-03-26 | 情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/710,220 Continuation US10416913B2 (en) | 2015-03-26 | 2017-09-20 | Information processing device that monitors operation of storage utilizing specific device being connected to storage |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016151845A1 true WO2016151845A1 (ja) | 2016-09-29 |
Family
ID=56978138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/059399 WO2016151845A1 (ja) | 2015-03-26 | 2015-03-26 | 情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10416913B2 (ja) |
JP (1) | JP6358389B2 (ja) |
WO (1) | WO2016151845A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019106131A (ja) * | 2017-12-14 | 2019-06-27 | 株式会社Pfu | 情報処理装置、増設ユニット監視方法、及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10768948B2 (en) * | 2018-07-23 | 2020-09-08 | Dell Products, L.P. | Apparatus and method for dynamic modification of machine branding of information handling systems based on hardware inventory |
CN110618909B (zh) * | 2019-09-27 | 2021-03-26 | 苏州浪潮智能科技有限公司 | 基于i2c通讯的故障定位方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10301719A (ja) * | 1997-04-28 | 1998-11-13 | Yamaha Corp | ディスクアレイ装置及びそれを用いた情報処理システム |
JP2012014415A (ja) * | 2010-06-30 | 2012-01-19 | Toshiba Corp | 情報処理装置、raidコントローラカード、およびミラーリング方法 |
WO2012172666A1 (ja) * | 2011-06-15 | 2012-12-20 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2013539887A (ja) * | 2010-10-16 | 2013-10-28 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | デバイスハードウェアエージェント |
WO2013175570A1 (ja) * | 2012-05-22 | 2013-11-28 | 富士通株式会社 | 情報処理装置、制御方法、及び制御プログラム |
JP2014238771A (ja) * | 2013-06-10 | 2014-12-18 | 富士通株式会社 | ストレージ制御装置、アクセス制御方法、及び制御プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263225A (ja) * | 1995-03-22 | 1996-10-11 | Mitsubishi Electric Corp | データストレージシステム及びストレージ管理方法 |
JPH0916509A (ja) * | 1995-06-28 | 1997-01-17 | Nec Field Service Ltd | 汎用コンピュータシステムにおける周辺装置の保守管理 装置 |
JP4886209B2 (ja) | 2005-04-15 | 2012-02-29 | 株式会社東芝 | アレイコントローラ、当該アレイコントローラを含む情報処理装置及びディスクアレイ制御方法 |
JP2010191762A (ja) | 2009-02-19 | 2010-09-02 | Nec Corp | ディスクアレイ装置及びリアサイン方法 |
TW201217989A (en) * | 2010-10-29 | 2012-05-01 | Inventec Corp | A method for obtaining a failure signal of a storage device using a Baseboard Management Controller |
US8443114B2 (en) * | 2010-12-09 | 2013-05-14 | Dell Products, Lp | System and method for mapping a logical drive status to a physical drive status for multiple storage drives having different storage technologies within a server |
JP2015114873A (ja) * | 2013-12-12 | 2015-06-22 | 富士通株式会社 | 情報処理装置および監視方法 |
CN104731678A (zh) * | 2013-12-19 | 2015-06-24 | 鸿富锦精密工业(深圳)有限公司 | Raid储存模式测试系统、方法及电子装置 |
JP6264879B2 (ja) * | 2013-12-25 | 2018-01-24 | 富士通株式会社 | 情報処理装置、監視プログラム及び監視方法 |
JP6515462B2 (ja) * | 2014-08-22 | 2019-05-22 | 富士通株式会社 | 情報処理装置、情報処理装置の設定方法及び設定プログラム |
CN109766302B (zh) * | 2014-09-12 | 2022-09-16 | 华为技术有限公司 | 设备管理的方法和装置 |
CN105808407B (zh) * | 2014-12-31 | 2019-09-13 | 华为技术有限公司 | 管理设备的方法、设备和设备管理控制器 |
-
2015
- 2015-03-26 WO PCT/JP2015/059399 patent/WO2016151845A1/ja active Application Filing
- 2015-03-26 JP JP2017507285A patent/JP6358389B2/ja active Active
-
2017
- 2017-09-20 US US15/710,220 patent/US10416913B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10301719A (ja) * | 1997-04-28 | 1998-11-13 | Yamaha Corp | ディスクアレイ装置及びそれを用いた情報処理システム |
JP2012014415A (ja) * | 2010-06-30 | 2012-01-19 | Toshiba Corp | 情報処理装置、raidコントローラカード、およびミラーリング方法 |
JP2013539887A (ja) * | 2010-10-16 | 2013-10-28 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | デバイスハードウェアエージェント |
WO2012172666A1 (ja) * | 2011-06-15 | 2012-12-20 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
WO2013175570A1 (ja) * | 2012-05-22 | 2013-11-28 | 富士通株式会社 | 情報処理装置、制御方法、及び制御プログラム |
JP2014238771A (ja) * | 2013-06-10 | 2014-12-18 | 富士通株式会社 | ストレージ制御装置、アクセス制御方法、及び制御プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019106131A (ja) * | 2017-12-14 | 2019-06-27 | 株式会社Pfu | 情報処理装置、増設ユニット監視方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2016151845A1 (ja) | 2018-01-18 |
US20180011654A1 (en) | 2018-01-11 |
JP6358389B2 (ja) | 2018-07-18 |
US10416913B2 (en) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10055296B2 (en) | System and method for selective BIOS restoration | |
TWI578233B (zh) | 統一韌體管理系統、非揮發電腦可讀取媒體以及統一韌體管理方法 | |
US8402189B2 (en) | Information processing apparatus and data transfer method | |
US20170046152A1 (en) | Firmware update | |
WO2018095107A1 (zh) | 一种bios程序的异常处理方法及装置 | |
US10275330B2 (en) | Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus | |
JP6130520B2 (ja) | 多重系システムおよび多重系システム管理方法 | |
US10353786B2 (en) | Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program | |
JP2015114873A (ja) | 情報処理装置および監視方法 | |
JPWO2012046293A1 (ja) | 障害監視装置、障害監視方法及びプログラム | |
EP3516520B1 (en) | Reducing recovery time of an application | |
US8099634B2 (en) | Autonomic component service state management for a multiple function component | |
US10824517B2 (en) | Backup and recovery of configuration files in management device | |
US10102088B2 (en) | Cluster system, server device, cluster system management method, and computer-readable recording medium | |
US10416913B2 (en) | Information processing device that monitors operation of storage utilizing specific device being connected to storage | |
US9063854B1 (en) | Systems and methods for cluster raid data consistency | |
TW200426571A (en) | Policy-based response to system errors occurring during os runtime | |
JP2016085728A (ja) | デバイス故障後のコンソールメッセージ回収方法およびシステム | |
US20080209254A1 (en) | Method and system for error recovery of a hardware device | |
US9454452B2 (en) | Information processing apparatus and method for monitoring device by use of first and second communication protocols | |
US10664429B2 (en) | Systems and methods for managing serial attached small computer system interface (SAS) traffic with storage monitoring | |
WO2017006457A1 (ja) | 計算機システム及び障害切り分け方法 | |
JP7351129B2 (ja) | 情報処理装置および情報処理装置の制御プログラム | |
TWI715005B (zh) | 用於監控基板管理控制器之常駐程序的方法 | |
CN112084049B (zh) | 用于监控基板管理控制器的常驻程序的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15886398 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017507285 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15886398 Country of ref document: EP Kind code of ref document: A1 |