WO2011004441A1 - メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 - Google Patents

メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 Download PDF

Info

Publication number
WO2011004441A1
WO2011004441A1 PCT/JP2009/003257 JP2009003257W WO2011004441A1 WO 2011004441 A1 WO2011004441 A1 WO 2011004441A1 JP 2009003257 W JP2009003257 W JP 2009003257W WO 2011004441 A1 WO2011004441 A1 WO 2011004441A1
Authority
WO
WIPO (PCT)
Prior art keywords
system board
memory
server
processing unit
kernel
Prior art date
Application number
PCT/JP2009/003257
Other languages
English (en)
French (fr)
Inventor
近藤浩
田部井亮
五坪賢次
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2009/003257 priority Critical patent/WO2011004441A1/ja
Priority to JP2011521716A priority patent/JP5403054B2/ja
Priority to EP09847046.1A priority patent/EP2453359B1/en
Publication of WO2011004441A1 publication Critical patent/WO2011004441A1/ja
Priority to US13/342,633 priority patent/US8990630B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures

Definitions

  • the present invention relates to a server having a memory dump function and a memory dump acquisition method.
  • UNIX (registered trademark) servers and IA servers have been introduced into backbone systems, and high availability of UNIX (registered trademark) servers and IA servers is regarded as important.
  • the system is urgently stopped (panic), and a memory dump is saved on a disk in order to investigate the cause.
  • An object of the present invention is to promptly restart the system.
  • the server according to the embodiment includes a stop processing unit that stops the server, a system board information storage unit that stores information for identifying a system board that includes a memory used by the kernel, and a server that includes a plurality of system boards.
  • a system board detachment processing unit that detaches a system board having a memory used by the kernel before stopping, and a detachment of the plurality of system boards after detaching the system board having a memory used by the kernel.
  • a restart processing unit that restarts the server using a system board other than the system board.
  • FIG. 1 is a diagram illustrating a memory state of each system board according to the embodiment.
  • the upper part of FIG. 1 shows the memory usage status of each system board before the server is restarted, and the lower part shows the memory usage status of each system board after the restart.
  • the kernel uses the memory 12-1 of the system board 11-1
  • the user 12 uses the memory 12-2 of the system board 11-2 and the memory 12-3 of the system board 11-3. is doing.
  • the area used by the kernel in the memory 12-1 of the system board 11-1 holds the state immediately before rebooting.
  • the memory 12-2 of the system board 11-2 is used by the restarted kernel and user program.
  • the memory 12-3 of the system board 11-3 is used by the user program. ⁇ ⁇ ⁇
  • the state of the memory 12-1 used by the kernel before the restart is retained after the restart. This is because a dump file is created based on the contents of the memory 12-1 after restart.
  • FIG. 2A is a diagram illustrating a usage state of the memory on each system board during normal business operation before the emergency stop of the system according to the embodiment.
  • the kernel uses the memory 12-1 of the system board 11-1, and the memories 12-2 and 12-3 of the system board 11-2 and the system board 11-3. Is used by the user program.
  • FIG. 2B is a diagram illustrating a memory usage state of each system board immediately after the system according to the embodiment is restarted. After the system is restarted, the area used by the kernel in the memory 12-1 of the system board 11-1 is maintained in the state used by the kernel before the restart. Further, the memory mapping information before the restart is written in the memory 12-1 before the emergency stop.
  • the system uses the Dynamic Reconfiguration function to prevent the system board 11-1 from being used at the time of restart, and disconnects from the partition in advance when the system is restarted. Thereby, as shown in FIG. 2B, the system board 11-1 is separated from the partition.
  • a partition is a set of system boards assigned to an operation system.
  • the operating system operates using a system board embedded (assigned) in the partition.
  • FIG. 2C shows the usage status of the memory of each system board after the separated system board according to the embodiment is incorporated into the partition again.
  • the server autonomously incorporates the system board 11-1 that was disconnected after the system was restarted into the partition. As a result, the server can recognize the memory 12-1 of the system board 11-1 and create a dump file.
  • the dump file is created, for example, on a disk that the server has.
  • the system board with the memory area used by the kernel is disconnected, and the operating system is restarted with only the remaining system board To do.
  • the memory area used by the kernel before the emergency stop is left as it is on the disconnected system board.
  • FIG. 3 is a block diagram of the server and the OS according to the embodiment.
  • the CPU 15-ik performs various processes.
  • the memory 12-i reads various programs from the disk 13-i and stores them.
  • the ROM 14 stores firmware 15.
  • the firmware 15 includes a memory initialization processing unit 16, a system restart processing unit 17, a system board information storage processing unit 18, a system board disconnection processing unit 19, and a system board incorporation processing unit 20.
  • the memory initialization processing unit 16 initializes the memory 12-i.
  • the system restart processing unit 17 restarts the server 10.
  • the system board information storage processing unit 18 stores information on the system board 11-i used in the server 10 and information such as the number of the system board 11-i having the memory 12-i used by the kernel. .
  • the system board separation processing unit 19 separates the system board 11-i from the partition.
  • the system board incorporation processing unit 20 incorporates the system board 11-i into the partition.
  • An OS (Operating System) 21 is installed in the server 10.
  • the lower part of FIG. 3 is a functional block of the OS 21.
  • the operating system 21 includes an interrupt processing unit 22, a file management unit 23, a memory management unit 24, a process management unit 25, a mapping information extraction / storage processing unit 26, a dynamic memory addition processing unit 27, a system board number notification unit 28, a system A board incorporation processing unit 29 and a panic processing unit 30 are provided.
  • the interrupt processing unit 22 performs interrupt processing.
  • the file management unit 23 manages files that are data stored on the disk.
  • the memory management unit 24 allocates the memory 12-i used by the OS.
  • the process management unit 25 manages a process of a program executed by the OS 21.
  • the mapping information extraction / storage processing unit 26 writes information necessary for acquiring and analyzing the dump of each memory 12-i to a fixed address of the memory 12-i used by the kernel.
  • mapping information extraction / storage processing unit 26 includes mapping information (logical address, physical address, size, etc.) of each segment such as a kernel text area, a data area, a heap area, a stack area, and an address conversion table. Mapping information of various control tables such as page tables.
  • the dynamic memory addition processing unit 27 notifies the memory management unit 24 of available memory free areas.
  • the system board number notifying unit 28 notifies the firmware 15 of the number of the system board provided with the memory used by the kernel and the instruction to prohibit rewriting of the memory on the system board.
  • the system board incorporation processing unit 29 acquires the number of the system board separated from the partition from the system board information storage processing unit 18, and instructs the system board incorporation processing unit 20 of the firmware 15 to incorporate the separated system board into the partition. To do.
  • the panic processing unit 30 includes a system restart processing unit 31 and a memory dump acquisition processing unit 32.
  • the system restart processing unit 31 restarts the OS.
  • the memory dump acquisition processing unit 32 reads the data in the memory area used by the kernel and creates a dump file.
  • FIG. 4 is a flowchart of the operation of the server according to the embodiment.
  • step S401 the memory management unit 24 of the OS 21 allocates the memory used by the OS kernel from the memory of the system board having the smallest system board number. As a result, the number of system boards on which the memory used by the kernel exists is reduced. This is because, as will be described later, since the system board in which the memory used by the kernel exists is disconnected at the time of restart, the number of system boards to be disconnected is reduced.
  • step S401 the kernel is allocated to the memory 12-1 of the system board 11-1, that is, the OS 21 operates on the system board 11-1 before rebooting to be described later (FIG. 1, FIG. (See FIG. 2A).
  • step S402 before the OS 21 detects an abnormality and stops the system urgently, the mapping information extraction / storage processing unit 26 of the OS 21 is required to collect / analyze the memory dump used by the kernel. Write the mapping information to the fixed address in the memory of the system board with the smallest system board number.
  • step S403 the panic processing unit 30 of the OS 21 performs an emergency stop (panic) of the system (server).
  • step S404 the system board number notifying unit 28 of the OS 21 prevents the system board number of the system board in which the memory used by the kernel is present and the memory of the system board from being rewritten when the system is urgently stopped.
  • the firmware 15 is notified of the instruction. When there are a plurality of system boards in which the memory used by the kernel exists, the numbers of all the system boards are notified to the firmware.
  • step S405 the memory initialization processing unit 16 of the firmware 15 initializes the system board notified from the OS 21, that is, the memory other than the system board having the memory used by the kernel. In addition, the contents of the memory of the system board that has received the notification and has the memory used by the kernel are not initialized and are left as they are.
  • step S406 the system board disconnection processing unit 19 of the firmware 15 disconnects the system board notified from the OS 21 from the partition, and notifies the system board information storage processing unit 18 of the number of the disconnected system board.
  • the system board information storage processing unit 18 stores the number of the system board notified from the system board disconnection processing unit 19.
  • the firmware system restart processing unit 17 restarts the system with only the remaining system boards and resumes the work.
  • the system board 11-1 to which the kernel is assigned is separated from the partition. Then, the system is restarted using the remaining system boards 11-2 and 11-3. At this time, the kernel of the OS 21 after the restart is allocated to the memory 12-2 of the system board 11-2.
  • step S407 after the operation is resumed, the system board incorporation processing unit 29 of the OS 21 acquires the system board number separated from the partition from the system board information storage processing unit 18 of the firmware 15, and the system board incorporation processing unit 20 of the firmware. Instruct the system board to be installed in the partition.
  • a system board that has been detached using the Dynamic Reconfiguration function is installed.
  • the system board on which the kernel was running is disconnected, so the memory used by the kernel before the emergency stop is maintained. Since the system board is incorporated into the partition after instructing prohibition of rewriting the memory contents, it is possible to read the memory and generate a dump file.
  • step S408 the memory dump acquisition processing unit 32 of the OS 21 reads out the information held in the memory area used by the kernel before the system restarts from the memory on the incorporated system board, and dump file Generate as
  • step S409 after generating the dump file, the dynamic memory addition processing unit 27 of the OS 21 notifies the memory management unit 24 of the OS 21 so that the memory area on the incorporated system board is a usable free memory.
  • the kernel is assigned from the memory of the system board having the smallest system board number, but the kernel may be assigned from the memory of the system board having the largest system board number.
  • the server having the memory dump acquisition function of the embodiment even when the capacity of the memory dump is large, since the copy is not performed to another memory or the like, the system can be restarted promptly. Thereby, business stop time can be shortened.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 複数のシステムボードを備えるサーバにおいて、異常検出時にサーバを停止させて、カーネルが使用していたメモリを備えるシステムボードを切り離す。そして、複数のシステムボードのうち、切り離したシステムボード以外のシステムボードを用いてサーバを再起動させる。再起動後に切り離したシステムボードを組み込み、組み込んだシステムボードのメモリのうち、再起動前にカーネルが使用していた領域のデータを読み出して、該領域のデータをダンプファイルとして作成する。

Description

メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
 本発明は、メモリダンプ機能を有するサーバおよびメモリダンプ取得方法に関する。
 近年、UNIX(登録商標)サーバ、IAサーバが基幹システムに導入されるようになり、UNIX(登録商標)サーバ、IAサーバの高可用性が重要視されている。一般的に、システムに致命的なエラーが発生した場合はシステムを緊急停止(パニック)させて、その原因を調査するためにメモリダンプをディスクに保存している。
 システムを停止している間は、システムを使用できないので、速やかにシステムを再起動することが重要な要件となる。
 しかし、近年では、実装メモリの容量がTB(テラバイト)オーダのサーバが登場し、このようなシステムでは、メモリダンプを採取するのに非常に時間がかかり、速やかにシステムを再起動することができなくなっている。
 また、メモリダンプをディスク上に保存せず、パニック時のメモリ内容を別のメモリ上に保存する方法や障害発生時のメモリ内容をダンプ格納領域に保存する際、メモリの一部を保存し、再起動後に保存していないメモリ内容をダンプファイルに変換する方法が知られている。
 しかしながら、従来の方法では、異常発生時のメモリダンプを別のメモリやディスクに保存しているため、保存するメモリダンプのサイズが大きい場合は、メモリのコピーに時間がかかり、速やかにシステムを再起動することができないという問題があった。
特開平11-212836号公報 特開2001-229053号公報
 本発明の課題は、速やかにシステムを再起動することである。
 実施の形態のサーバは、複数のシステムボードを備えるサーバにおいて、前記サーバを停止させる停止処理部と、カーネルが使用するメモリを備えるシステムボードを識別する情報を格納するシステムボード情報格納部と、サーバ停止前に前記カーネルが使用していたメモリを備えるシステムボードを切り離すシステムボード切り離し処理部と、前記カーネルが使用していたメモリを備えるシステムボードの切り離し後に、前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させる再起動処理部と、が提供される。
 開示の装置によれば、ダンプすべきメモリデータを別のメモリ等にコピーすることなく、速やかにサーバの再起動を行うことが可能となる。
実施の形態に係る各システムボードのメモリの状況を示す図である。 実施の形態に係る各システムボードのメモリの緊急停止前の通常業務運用中の使用状況を示す図である。 実施の形態に係る各システムボードのメモリの再起動した直後の使用状況を示す図である。 実施の形態に係る切り離されたシステムボードが再び組み込まれた後の各システムボードのメモリの使用状況を示す図である。 実施の形態に係るサーバの構成図である。 実施の形態に係るメモリダンプ取得装置の動作のフローチャートである。
 以下、図面を参照しながら本発明の実施の形態を説明する。
 先ず、本実施の形態のメモリダンプ取得方法を実行したときの、各システムボードのメモリの状況を説明する。
 図1は、実施の形態に係る各システムボードのメモリの状況を示す図である。
 図1の上部はサーバの再起動前の各システムボードのメモリの使用状況を示し、下部は再起動後の各システムボードのメモリの使用状況を示す。
 本実施の形態においては、サーバ(システム)は3つのシステムボード11-i(i=1~3)を備えているものとする。
 再起動前は、システムボード11-1のメモリ12-1をカーネルが使用しており、システムボード11-2のメモリ12-2およびシステムボード11-3のメモリ12-3は、ユーザプログラムが使用している。
 再起動後、システムボード11-1のメモリ12-1内のカーネルが使用していた領域は、再起動直前の状態が保持されている。また、システムボード11-2のメモリ12-2は、再起動後のカーネルおよびユーザプログラムが使用している。システムボード11-3のメモリ12-3はユーザプログラムが使用している。 再起動前にカーネルが使用していたメモリ12-1の状態は、再起動後も保持されている。これは、再起動後にメモリ12-1の内容に基づきダンプファイルを作成するためである。
 図2Aは、実施の形態に係るシステムの緊急停止する前の、通常業務運用中の各システムボード上のメモリの使用状況を示す図である。
 システムの緊急停止前(再起動前)は、システムボード11-1のメモリ12-1をカーネルが使用しており、システムボード11-2およびシステムボード11-3のメモリ12-2、12-3は、ユーザプログラムが使用している。
 図2Bは、実施の形態に係るシステムが再起動した直後の各システムボードのメモリの使用状況を示す図である。
 システムの再起動後、システムボード11-1のメモリ12-1の内、カーネルが使用していた領域は、再起動前にカーネルが使用していた状態が維持されている。また、メモリ12-1には再起動前のメモリのマッピング情報が緊急停止する前に書き込まれている。
 システムは、再起動時にシステムボード11-1を使用しないようにするため、Dynamic Reconfiguration機能を使い、再起動する時に予めパーティションから切り離す。それにより、図2Bに示すようにシステムボード11-1は、パーティションから切り離されている。
 パーティションは、オペレーションシステムに割り当てられたシステムボードの集合である。オペレーティングシステムはパーティションに組み込まれた(割り当てられた)システムボードを使用して動作する。
 また、システムボード11-2のメモリ12-2は、再起動後のカーネルが使用している。システムボード11-3のメモリ12-3はユーザプログラムが使用している
 図2Cは、実施の形態に係る切り離されたシステムボードが再びパーティションに組み込まれた後の各システムボードのメモリの使用状況を示す図である。
 サーバは、システムの再起動後に切り離していたシステムボード11-1を自律的にパーティションに組み込む。これにより、サーバは、システムボード11-1のメモリ12-1を認識し、ダンプファイルを作成可能となる。尚、ダンプファイルは、例えばサーバが有するディスクに作成される。
 実施の形態のシステムは、オペレーティングシステムが何らかの異常を検出してシステムを緊急停止する場合、カーネルが使用しているメモリ領域が存在するシステムボードを切り離し、残ったシステムボードのみでオペレーティングシステムを再起動する。緊急停止する前にカーネルが使用していたメモリ領域は、切り離したシステムボード上に、そのままの状態で残しておく。これにより、カーネルが使用していたメモリのダンプをディスク等に書き出すことなく、速やかにシステムを再起動して業務を再開することが出来る。
 図3は、実施の形態に係るサーバおよびOSのブロック図である。
 サーバ10は、システムボード11-i(i=1~3)、ディスク13-i、ROM(Read Only Memory)14を備える。
 システムボード11-iは、Central Processing Unit(CPU)15-i-k(k=1、2)およびメモリ12-iを備える。
 CPU15-i-kは、各種処理を実行する。
 メモリ12-iは、各種プログラムをディスク13-iから読み出し、格納する。
 ROM14は、ファームウェア15を格納している。
 ファームウェア15は、メモリ初期化処理部16、システム再起動処理部17、システムボード情報格納処理部18、システムボード切り離し処理部19、システムボード組み込み処理部20を備える。
 メモリ初期化処理部16は、メモリ12-iを初期化する。
 システム再起動処理部17は、サーバ10を再起動する。
 システムボード情報格納処理部18は、サーバ10で使用されているシステムボード11-iの情報や、カーネルが使用しているメモリ12-iを有するシステムボード11-iの番号等の情報を格納する。
 システムボード切り離し処理部19は、システムボード11-iをパーティションから切り離す。
 システムボード組み込み処理部20は、システムボード11-iをパーティションに組み込む。
 サーバ10には、OS(Operating System)21がインストールされている。 
 図3の下部は、OS21の機能ブロックである。
 オペレーティングシステム21は、割り込み処理部22、ファイル管理部23、メモリ管理部24、プロセス管理部25、マッピング情報抽出・格納処理部26、動的メモリ追加処理部27、システムボード番号通知部28、システムボード組み込み処理部29、およびパニック処理部30を備える。
 割り込み処理部22は、割り込み処理を行う。
 ファイル管理部23は、ディスク上に格納されたデータであるファイルを管理する。
 メモリ管理部24は、OSが使用するメモリ12-iを割り当てる。
 プロセス管理部25は、OS21が実行するプログラムのプロセスを管理する。
 マッピング情報抽出・格納処理部26は、各メモリ12-iのダンプを取得および解析するために必要な情報を、カーネルが使用しているメモリ12-iの固定アドレスに書き込む。
 マッピング情報抽出・格納処理部26がメモリに書き込む情報としては、カーネルのテキスト域、データ域、ヒープ域、スタック域等、各セグメントのマッピング情報(論理アドレス、物理アドレス、サイズ等)やアドレス変換テーブル、ページテーブル等、各種制御テーブルのマッピング情報がある。
 動的メモリ追加処理部27は、メモリ管理部24に使用可能なメモリの空き領域を通知する。
 システムボード番号通知部28は、カーネルが使用しているメモリを備えるシステムボードの番号および、該システムボード上のメモリの書き換え禁止の指示をファームウェア15に通知する。
 システムボード組み込み処理部29は、パーティションから切り離したシステムボードの番号をシステムボード情報格納処理部18から取得し、ファームウェア15のシステムボード組込み処理部20に、切り離したシステムボードをパーティションに組み込むように指示する。
 パニック処理部30は、システム再起動処理部31およびメモリダンプ取得処理部32を備える。
 システム再起動処理部31は、OSを再起動させる。
 メモリダンプ取得処理部32は、カーネルが使用していたメモリ領域のデータを読み出して、ダンプファイルを作成する。
 図4は、実施の形態に係るサーバの動作のフローチャートである。
 ステップS401において、OS21のメモリ管理部24が、システムボード番号の一番小さいシステムボードのメモリからOSのカーネルが使用するメモリを割り当てる。これにより、カーネルが使用しているメモリが存在するシステムボードの枚数が少なくなるようにする。これは、後述するように、カーネルが使用しているメモリが存在するシステムボードは再起動時には切り離すので、切り離すシステムボードの枚数を少なくするためである。
 本実施の形態においては、システムボード11-1、11-2、11-3の順番にシステムボード番号が割り当てられているものとする。そして、ステップS401では、カーネルはシステムボード11-1のメモリ12-1に割り当てられる、すなわち、後述する再起動の前においては、OS21はシステムボード11-1で動作するものとする(図1、図2A参照)。
 ステップS402において、OS21が異常を検出してシステムを緊急停止する前に、OS21のマッピング情報抽出・格納処理部26が、カーネルが使用しているメモリのダンプを採取/解析するために必要となるマッピング情報を、システムボード番号の一番小さいシステムボードのメモリの固定アドレスに書き込む。
 ステップS403において、OS21のパニック処理部30が、システム(サーバ)を緊急停止(パニック)する。
 ステップS404において、OS21のシステムボード番号通知部28が、システムが緊急停止する際にカーネルが使用しているメモリが存在するシステムボードのシステムボード番号と、該システムボードのメモリを書き換えないようにする指示とを、ファームウェア15に通知する。尚、カーネルが使用しているメモリが存在するシステムボードが複数存在する場合は、全てのシステムボードの番号をファームウェアに通知する。
 ステップS405において、ファームウェア15のメモリ初期化処理部16が、OS21から通知を受けたシステムボード、すなわち、カーネルが使用しているメモリを有するシステムボード以外のメモリを初期化する。また、通知を受けた、カーネルが使用しているメモリを有するシステムボードのメモリの内容は初期化せず、そのままの状態で残しておく。
 ステップS406において、ファームウェア15のシステムボード切離し処理部19が、OS21から通知を受けたシステムボードをパーティションから切り離し、切り離したシステムボードの番号をシステムボード情報格納処理部18に通知する。システムボード情報格納処理部18は、システムボード切離し処理部19から通知されたシステムボードの番号を格納する。ファームウェアのシステム再起動処理部17は、残ったシステムボードのみでシステムを再起動して業務を再開させる。
 本実施の形態では、カーネルが割り当てられているシステムボード11-1をパーティションから切り離す。そして、残ったシステムボード11-2、11-3を用いてシステムを再起動する。このとき、再起動後のOS21のカーネルは、システムボード11-2のメモリ12-2に割り当てられる。
 すなわち、再起動後のOS21はシステムボード11-2で動作するものとする(図1、図2B、図2C参照)。
 このように、カーネルが使用していたメモリのダンプをディスク等に書き出すことなく、速やかにシステムを再起動して業務を再開させている。
 ステップS407において、業務が再開した後、OS21のシステムボード組込み処理部29が、パーティションから切り離したシステムボード番号をファームウェア15のシステムボード情報格納処理部18から取得し、ファームウェアのシステムボード組込み処理部20に切り離したシステムボードをパーティションに組み込むように指示する。
 システムを再起動して業務を再開した後、Dynamic Reconfiguration機能を使用して切り離したシステムボードを組み込んでいる。再起動時に、カーネルが動作していたシステムボードを切り離しているため、緊急停止する前にカーネルが使用していたメモリの状態が維持されている。メモリ内容の書き換え禁止を指示した上で、システムボードをパーティションに組み入れるので、メモリを読み出してダンプファイルを生成することが可能となっている。
 ステップS408において、OS21のメモリダンプ取得処理部32が、組み込んだシステムボード上のメモリから、システムが再起動する前にカーネルが使用していたメモリ領域に保持されている情報を読み出して、ダンプファイルとして生成する。
 ステップS409において、ダンプファイルを生成した後、OS21の動的メモリ追加処理部27が、組み込んだシステムボード上のメモリ領域を使用可能な空きメモリとするようOS21のメモリ管理部24へ通知する。
 尚、本実施の形態においては、システムボード番号の一番小さいシステムボードのメモリからカーネルを割り当てたが、システムボード番号の一番大きいシステムボードのメモリからカーネルを割り当てるようにしても良い。
 実施の形態のメモリダンプ取得機能を有するサーバによれば、メモリダンプの容量が大きい場合でも、別のメモリ等にコピーを行っていないので、速やかにシステムを再起動できる。これにより、業務停止時間を短縮することができる。  

Claims (8)

  1.  複数のシステムボードを備えるサーバにおいて、
     前記サーバを停止させる停止処理部と、
     カーネルが使用するメモリを備えるシステムボードを識別する情報を格納するシステムボード情報格納部と、
     サーバ停止前に前記カーネルが使用していたメモリを備えるシステムボードを切り離すシステムボード切り離し処理部と、
     前記カーネルが使用していたメモリを備えるシステムボードの切り離し後に、前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させる再起動処理部と、
     を備えることを特徴とするサーバ。
  2.  前記カーネルが使用していたメモリを備えるシステムボードをシステムボード情報格納部に通知するシステムボード通知部をさらに備えることを特徴とする請求項1記載のサーバ。
  3.  サーバの再起動後に、前記切り離したシステムボードを組み込むシステムボード組み込み処理部をさらに備えることを特徴とする請求項1または2記載のサーバ。
  4.  前記システムボード組み込み処理部が組み込んだシステムボードのメモリのうち、サーバの停止前にカーネルが使用していた領域のデータを読み出して、該領域のデータをダンプファイルとして作成するメモリダンプ取得処理部をさらに備えることを特徴とする請求項3記載のサーバ。
  5.  前記ダンプファイルを作成した後、前記領域を使用可能な空き領域であると通知する動的メモリ追加処理部を備える請求項4記載のサーバ。
  6.  サーバの再起動時に、前記複数のシステムボードのうち、前記カーネルが使用していたメモリを備えるシステムボード以外のシステムボードのメモリを初期化するメモリ初期化処理部をさらに備えることを特徴とする請求項1乃至5記載のサーバ。
  7.  複数のシステムボードを備えるサーバにおけるメモリダンプ取得方法において、
     異常検出時に前記サーバを停止させるステップと、
     サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを切り離すステップと、
     前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させるステップと、
     サーバの再起動後に前記切り離したシステムボードを組み込むステップと、
     前記組み込んだシステムボードのメモリのうち、再起動前にカーネルが使用していた領域のデータを読み出して、該領域のデータをダンプファイルとして作成するステップと、
     を備えることを特徴とするメモリダンプ取得方法。
  8.  それぞれがメモリを搭載する複数のシステムボードを備えるサーバにおいて、
     前記サーバを停止させる停止処理部と、
     前記サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを除くシステムボードを用いて、前記サーバを再起動させる再起動処理部と、
     前記サーバが再起動した後、前記サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを前記サーバに組み込むシステムボード組み込み処理部と、
     前記システムボード組み込み処理部により組み込まれたシステムボードに搭載されたメモリの領域のうち、サーバの停止前にカーネルが使用していた領域のデータを読み出し、該領域のデータをダンプファイルとして作成するメモリダンプ取得処理部と、
     を備えることを特徴とするサーバ。
PCT/JP2009/003257 2009-07-10 2009-07-10 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 WO2011004441A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2009/003257 WO2011004441A1 (ja) 2009-07-10 2009-07-10 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
JP2011521716A JP5403054B2 (ja) 2009-07-10 2009-07-10 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
EP09847046.1A EP2453359B1 (en) 2009-07-10 2009-07-10 Server having memory dump function and method for acquiring memory dump
US13/342,633 US8990630B2 (en) 2009-07-10 2012-01-03 Server having memory dump function and memory dump acquisition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/003257 WO2011004441A1 (ja) 2009-07-10 2009-07-10 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/342,633 Continuation US8990630B2 (en) 2009-07-10 2012-01-03 Server having memory dump function and memory dump acquisition method

Publications (1)

Publication Number Publication Date
WO2011004441A1 true WO2011004441A1 (ja) 2011-01-13

Family

ID=43428883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/003257 WO2011004441A1 (ja) 2009-07-10 2009-07-10 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法

Country Status (4)

Country Link
US (1) US8990630B2 (ja)
EP (1) EP2453359B1 (ja)
JP (1) JP5403054B2 (ja)
WO (1) WO2011004441A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006676A (ja) * 2012-06-22 2014-01-16 Fujitsu Ltd メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム
JP2015026291A (ja) * 2013-07-26 2015-02-05 富士通株式会社 メモリダンプ方法及びプログラム、並びに、情報処理装置
JP2016018475A (ja) * 2014-07-10 2016-02-01 富士通株式会社 情報処理装置、情報処理方法およびプログラム
JP2017062841A (ja) * 2016-11-30 2017-03-30 富士通株式会社 メモリダンプ機能を有する情報処理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012090290A1 (ja) 2010-12-27 2014-06-05 富士通株式会社 メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム
JP5949540B2 (ja) * 2012-12-27 2016-07-06 富士通株式会社 情報処理装置、及び記憶情報解析方法
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07234808A (ja) * 1994-02-24 1995-09-05 Toshiba Corp システムダンプ採取方式
JPH10133918A (ja) * 1996-11-01 1998-05-22 Toshiba Corp コンピュータシステム
JPH11212836A (ja) 1997-11-18 1999-08-06 Hitachi Ltd 障害処理方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2001229053A (ja) 2000-02-15 2001-08-24 Hitachi Ltd ダンプ取得機構を備えた計算機
JP2001290678A (ja) * 2000-04-07 2001-10-19 Hitachi Ltd 非同期メモリダンプ実行方式
JP2003256396A (ja) * 2002-02-26 2003-09-12 Nec Corp 情報処理システム及び該システムの制御方法並びにプログラム
JP2007133544A (ja) * 2005-11-09 2007-05-31 Hitachi Ltd 障害情報解析方法及びその実施装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6189111B1 (en) * 1997-03-28 2001-02-13 Tandem Computers Incorporated Resource harvesting in scalable, fault tolerant, single system image clusters
US6718383B1 (en) * 2000-06-02 2004-04-06 Sun Microsystems, Inc. High availability networking with virtual IP address failover
US7085959B2 (en) * 2002-07-03 2006-08-01 Hewlett-Packard Development Company, L.P. Method and apparatus for recovery from loss of lock step
US7409722B2 (en) * 2003-05-01 2008-08-05 Sun Microsystems, Inc. Control status register access to enable domain reconfiguration
US8069218B1 (en) * 2003-05-05 2011-11-29 Parallels Holdings, Ltd. System, method and computer program product for process migration with planned minimized down-time
JP2005122334A (ja) 2003-10-15 2005-05-12 Hitachi Ltd メモリダンプ方法、メモリダンプ用プログラム及び仮想計算機システム
US7464378B1 (en) * 2003-12-04 2008-12-09 Symantec Operating Corporation System and method for allowing multiple sub-clusters to survive a cluster partition
JP4677214B2 (ja) 2004-09-06 2011-04-27 富士通株式会社 パニックダンプ採取のためのプログラム、方法、及び機構
JP2006172100A (ja) 2004-12-15 2006-06-29 Hitachi Ltd オペレーティングシステムの高速切替え方式及びその方法
US7698390B1 (en) * 2005-03-29 2010-04-13 Oracle America, Inc. Pluggable device specific components and interfaces supported by cluster devices and systems and methods for implementing the same
US20080307425A1 (en) * 2005-03-31 2008-12-11 Shailendra Tripathi Data Processing System and Method
US8375386B2 (en) 2005-06-29 2013-02-12 Microsoft Corporation Failure management for a virtualized computing environment
US20070094659A1 (en) * 2005-07-18 2007-04-26 Dell Products L.P. System and method for recovering from a failure of a virtual machine
JP4645837B2 (ja) * 2005-10-31 2011-03-09 日本電気株式会社 メモリダンプ方法、コンピュータシステム、およびプログラム
US7831857B2 (en) * 2006-10-31 2010-11-09 Hewlett-Packard Development Company, L.P. Method and system for recovering from operating system crash or failure
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
US8086906B2 (en) * 2007-02-15 2011-12-27 Microsoft Corporation Correlating hardware devices between local operating system and global management entity
JP5212360B2 (ja) 2007-03-19 2013-06-19 富士通株式会社 制御プログラム、制御システムおよび制御方法
US8055735B2 (en) * 2007-10-30 2011-11-08 Hewlett-Packard Development Company, L.P. Method and system for forming a cluster of networked nodes
JP5224038B2 (ja) * 2008-02-27 2013-07-03 日本電気株式会社 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム
US8145938B2 (en) * 2009-06-01 2012-03-27 Novell, Inc. Fencing management in clusters
US20110225458A1 (en) 2010-03-09 2011-09-15 Microsoft Corporation Generating a debuggable dump file for an operating system kernel and hypervisor
US20110289417A1 (en) * 2010-05-21 2011-11-24 Schaefer Diane E User interface for configuring and managing the cluster
US20120023209A1 (en) * 2010-07-20 2012-01-26 Robert Adam Fletcher Method and apparatus for scalable automated cluster control based on service level objectives to support applications requiring continuous availability

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07234808A (ja) * 1994-02-24 1995-09-05 Toshiba Corp システムダンプ採取方式
JPH10133918A (ja) * 1996-11-01 1998-05-22 Toshiba Corp コンピュータシステム
JPH11212836A (ja) 1997-11-18 1999-08-06 Hitachi Ltd 障害処理方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2001229053A (ja) 2000-02-15 2001-08-24 Hitachi Ltd ダンプ取得機構を備えた計算機
JP2001290678A (ja) * 2000-04-07 2001-10-19 Hitachi Ltd 非同期メモリダンプ実行方式
JP2003256396A (ja) * 2002-02-26 2003-09-12 Nec Corp 情報処理システム及び該システムの制御方法並びにプログラム
JP2007133544A (ja) * 2005-11-09 2007-05-31 Hitachi Ltd 障害情報解析方法及びその実施装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2453359A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006676A (ja) * 2012-06-22 2014-01-16 Fujitsu Ltd メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム
JP2015026291A (ja) * 2013-07-26 2015-02-05 富士通株式会社 メモリダンプ方法及びプログラム、並びに、情報処理装置
JP2016018475A (ja) * 2014-07-10 2016-02-01 富士通株式会社 情報処理装置、情報処理方法およびプログラム
JP2017062841A (ja) * 2016-11-30 2017-03-30 富士通株式会社 メモリダンプ機能を有する情報処理装置

Also Published As

Publication number Publication date
US8990630B2 (en) 2015-03-24
US20120102358A1 (en) 2012-04-26
EP2453359A4 (en) 2013-07-31
JP5403054B2 (ja) 2014-01-29
EP2453359B1 (en) 2016-04-20
JPWO2011004441A1 (ja) 2012-12-13
EP2453359A1 (en) 2012-05-16

Similar Documents

Publication Publication Date Title
JP5403054B2 (ja) メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
US9582373B2 (en) Methods and systems to hot-swap a virtual machine
US8990617B2 (en) Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system
JP5163408B2 (ja) 情報処理装置
US20100325471A1 (en) High availability support for virtual machines
US8489932B2 (en) Server system and crash dump collection method
US20100223498A1 (en) Operating system-based application recovery
US20160179635A1 (en) System and method for performing efficient failover and virtual machine (vm) migration in virtual desktop infrastructure (vdi)
US8782469B2 (en) Request processing system provided with multi-core processor
US9977740B2 (en) Nonvolatile storage of host and guest cache data in response to power interruption
JP2007148839A (ja) 障害回復方法
US9229820B2 (en) Information processing device with memory dump function, memory dump method, and recording medium
CN102439565A (zh) 启动恢复的方法和装置
JP2009211517A (ja) 仮想計算機冗長化システム
US11803412B2 (en) Containerized application management system and management method
KR20090081405A (ko) 파티션 유닛을 교체하는 방법 및 컴퓨터 판독가능 매체
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
US9195528B1 (en) Systems and methods for managing failover clusters
US9015535B2 (en) Information processing apparatus having memory dump function, memory dump method, and recording medium
JP2007080012A (ja) 再起動方法、システム及びプログラム
CN113127263B (zh) 一种内核崩溃恢复方法、装置、设备及存储介质
JP6124644B2 (ja) 情報処理装置および情報処理システム
US10467100B2 (en) High availability state machine and recovery
US20140189422A1 (en) Information processing apparatus and stored information analyzing method
JP4876662B2 (ja) メモリダンプ機能を備えたコンピュータシステム、プログラム及びメモリダンプの方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09847046

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011521716

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009847046

Country of ref document: EP