JPWO2011004441A1 - メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 - Google Patents
メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 Download PDFInfo
- Publication number
- JPWO2011004441A1 JPWO2011004441A1 JP2011521716A JP2011521716A JPWO2011004441A1 JP WO2011004441 A1 JPWO2011004441 A1 JP WO2011004441A1 JP 2011521716 A JP2011521716 A JP 2011521716A JP 2011521716 A JP2011521716 A JP 2011521716A JP WO2011004441 A1 JPWO2011004441 A1 JP WO2011004441A1
- Authority
- JP
- Japan
- Prior art keywords
- system board
- memory
- server
- processing unit
- kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1417—Boot up procedures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
しかし、近年では、実装メモリの容量がTB(テラバイト)オーダのサーバが登場し、このようなシステムでは、メモリダンプを採取するのに非常に時間がかかり、速やかにシステムを再起動することができなくなっている。
実施の形態のサーバは、複数のシステムボードを備えるサーバにおいて、前記サーバを停止させる停止処理部と、カーネルが使用するメモリを備えるシステムボードを識別する情報を格納するシステムボード情報格納部と、サーバ停止前に前記カーネルが使用していたメモリを備えるシステムボードを切り離すシステムボード切り離し処理部と、前記カーネルが使用していたメモリを備えるシステムボードの切り離し後に、前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させる再起動処理部と、が提供される。
先ず、本実施の形態のメモリダンプ取得方法を実行したときの、各システムボードのメモリの状況を説明する。
図1の上部はサーバの再起動前の各システムボードのメモリの使用状況を示し、下部は再起動後の各システムボードのメモリの使用状況を示す。
再起動前は、システムボード11−1のメモリ12−1をカーネルが使用しており、システムボード11−2のメモリ12−2およびシステムボード11−3のメモリ12−3は、ユーザプログラムが使用している。
システムの緊急停止前(再起動前)は、システムボード11−1のメモリ12−1をカーネルが使用しており、システムボード11−2およびシステムボード11−3のメモリ12−2、12−3は、ユーザプログラムが使用している。
システムの再起動後、システムボード11−1のメモリ12−1の内、カーネルが使用していた領域は、再起動前にカーネルが使用していた状態が維持されている。また、メモリ12−1には再起動前のメモリのマッピング情報が緊急停止する前に書き込まれている。
図2Cは、実施の形態に係る切り離されたシステムボードが再びパーティションに組み込まれた後の各システムボードのメモリの使用状況を示す図である。
サーバ10は、システムボード11−i(i=1〜3)、ディスク13−i、ROM(Read Only Memory)14を備える。
CPU15−i−kは、各種処理を実行する。
ROM14は、ファームウェア15を格納している。
ファームウェア15は、メモリ初期化処理部16、システム再起動処理部17、システムボード情報格納処理部18、システムボード切り離し処理部19、システムボード組み込み処理部20を備える。
システム再起動処理部17は、サーバ10を再起動する。
システムボード情報格納処理部18は、サーバ10で使用されているシステムボード11−iの情報や、カーネルが使用しているメモリ12−iを有するシステムボード11−iの番号等の情報を格納する。
システムボード組み込み処理部20は、システムボード11−iをパーティションに組み込む。
図3の下部は、OS21の機能ブロックである。
オペレーティングシステム21は、割り込み処理部22、ファイル管理部23、メモリ管理部24、プロセス管理部25、マッピング情報抽出・格納処理部26、動的メモリ追加処理部27、システムボード番号通知部28、システムボード組み込み処理部29、およびパニック処理部30を備える。
ファイル管理部23は、ディスク上に格納されたデータであるファイルを管理する。
メモリ管理部24は、OSが使用するメモリ12−iを割り当てる。
マッピング情報抽出・格納処理部26は、各メモリ12−iのダンプを取得および解析するために必要な情報を、カーネルが使用しているメモリ12−iの固定アドレスに書き込む。
システムボード番号通知部28は、カーネルが使用しているメモリを備えるシステムボードの番号および、該システムボード上のメモリの書き換え禁止の指示をファームウェア15に通知する。
システム再起動処理部31は、OSを再起動させる。
図4は、実施の形態に係るサーバの動作のフローチャートである。
ステップS404において、OS21のシステムボード番号通知部28が、システムが緊急停止する際にカーネルが使用しているメモリが存在するシステムボードのシステムボード番号と、該システムボードのメモリを書き換えないようにする指示とを、ファームウェア15に通知する。尚、カーネルが使用しているメモリが存在するシステムボードが複数存在する場合は、全てのシステムボードの番号をファームウェアに通知する。
このように、カーネルが使用していたメモリのダンプをディスク等に書き出すことなく、速やかにシステムを再起動して業務を再開させている。
Claims (8)
- 複数のシステムボードを備えるサーバにおいて、
前記サーバを停止させる停止処理部と、
カーネルが使用するメモリを備えるシステムボードを識別する情報を格納するシステムボード情報格納部と、
サーバ停止前に前記カーネルが使用していたメモリを備えるシステムボードを切り離すシステムボード切り離し処理部と、
前記カーネルが使用していたメモリを備えるシステムボードの切り離し後に、前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させる再起動処理部と、
を備えることを特徴とするサーバ。 - 前記カーネルが使用していたメモリを備えるシステムボードをシステムボード情報格納部に通知するシステムボード通知部をさらに備えることを特徴とする請求項1記載のサーバ。
- サーバの再起動後に、前記切り離したシステムボードを組み込むシステムボード組み込み処理部をさらに備えることを特徴とする請求項1または2記載のサーバ。
- 前記システムボード組み込み処理部が組み込んだシステムボードのメモリのうち、サーバの停止前にカーネルが使用していた領域のデータを読み出して、該領域のデータをダンプファイルとして作成するメモリダンプ取得処理部をさらに備えることを特徴とする請求項3記載のサーバ。
- 前記ダンプファイルを作成した後、前記領域を使用可能な空き領域であると通知する動的メモリ追加処理部を備える請求項4記載のサーバ。
- サーバの再起動時に、前記複数のシステムボードのうち、前記カーネルが使用していたメモリを備えるシステムボード以外のシステムボードのメモリを初期化するメモリ初期化処理部をさらに備えることを特徴とする請求項1乃至5記載のサーバ。
- 複数のシステムボードを備えるサーバにおけるメモリダンプ取得方法において、
異常検出時に前記サーバを停止させるステップと、
サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを切り離すステップと、
前記複数のシステムボードのうち、前記切り離したシステムボード以外のシステムボードを用いて前記サーバを再起動させるステップと、
サーバの再起動後に前記切り離したシステムボードを組み込むステップと、
前記組み込んだシステムボードのメモリのうち、再起動前にカーネルが使用していた領域のデータを読み出して、該領域のデータをダンプファイルとして作成するステップと、
を備えることを特徴とするメモリダンプ取得方法。 - それぞれがメモリを搭載する複数のシステムボードを備えるサーバにおいて、
前記サーバを停止させる停止処理部と、
前記サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを除くシステムボードを用いて、前記サーバを再起動させる再起動処理部と、
前記サーバが再起動した後、前記サーバの停止前にカーネルが使用していたメモリを備えるシステムボードを前記サーバに組み込むシステムボード組み込み処理部と、
前記システムボード組み込み処理部により組み込まれたシステムボードに搭載されたメモリの領域のうち、サーバの停止前にカーネルが使用していた領域のデータを読み出し、該領域のデータをダンプファイルとして作成するメモリダンプ取得処理部と、
を備えることを特徴とするサーバ。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/003257 WO2011004441A1 (ja) | 2009-07-10 | 2009-07-10 | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011004441A1 true JPWO2011004441A1 (ja) | 2012-12-13 |
JP5403054B2 JP5403054B2 (ja) | 2014-01-29 |
Family
ID=43428883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011521716A Expired - Fee Related JP5403054B2 (ja) | 2009-07-10 | 2009-07-10 | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8990630B2 (ja) |
EP (1) | EP2453359B1 (ja) |
JP (1) | JP5403054B2 (ja) |
WO (1) | WO2011004441A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2660724B1 (en) | 2010-12-27 | 2020-07-29 | Fujitsu Limited | Information processing device having memory dump function, memory dump method, and memory dump program |
JP6083136B2 (ja) | 2012-06-22 | 2017-02-22 | 富士通株式会社 | メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム |
JP5949540B2 (ja) * | 2012-12-27 | 2016-07-06 | 富士通株式会社 | 情報処理装置、及び記憶情報解析方法 |
JP2014182720A (ja) * | 2013-03-21 | 2014-09-29 | Fujitsu Ltd | 情報処理システム、情報処理装置及び障害処理方法 |
JP6175958B2 (ja) | 2013-07-26 | 2017-08-09 | 富士通株式会社 | メモリダンプ方法及びプログラム、並びに、情報処理装置 |
JP6327026B2 (ja) * | 2014-07-10 | 2018-05-23 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP6256582B2 (ja) * | 2016-11-30 | 2018-01-10 | 富士通株式会社 | メモリダンプ機能を有する情報処理装置 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07234808A (ja) * | 1994-02-24 | 1995-09-05 | Toshiba Corp | システムダンプ採取方式 |
JPH10133918A (ja) * | 1996-11-01 | 1998-05-22 | Toshiba Corp | コンピュータシステム |
US6189111B1 (en) * | 1997-03-28 | 2001-02-13 | Tandem Computers Incorporated | Resource harvesting in scalable, fault tolerant, single system image clusters |
JPH11212836A (ja) | 1997-11-18 | 1999-08-06 | Hitachi Ltd | 障害処理方法及びその実施装置並びにその処理プログラムを記録した媒体 |
JP3903678B2 (ja) | 2000-02-15 | 2007-04-11 | 株式会社日立製作所 | 計算機システムのダンプ処理方法 |
JP2001290678A (ja) * | 2000-04-07 | 2001-10-19 | Hitachi Ltd | 非同期メモリダンプ実行方式 |
US6718383B1 (en) * | 2000-06-02 | 2004-04-06 | Sun Microsystems, Inc. | High availability networking with virtual IP address failover |
JP3891004B2 (ja) | 2002-02-26 | 2007-03-07 | 日本電気株式会社 | 情報処理システム及び該システムの制御方法並びにプログラム |
US7085959B2 (en) * | 2002-07-03 | 2006-08-01 | Hewlett-Packard Development Company, L.P. | Method and apparatus for recovery from loss of lock step |
US7409722B2 (en) * | 2003-05-01 | 2008-08-05 | Sun Microsystems, Inc. | Control status register access to enable domain reconfiguration |
US8069218B1 (en) * | 2003-05-05 | 2011-11-29 | Parallels Holdings, Ltd. | System, method and computer program product for process migration with planned minimized down-time |
JP2005122334A (ja) | 2003-10-15 | 2005-05-12 | Hitachi Ltd | メモリダンプ方法、メモリダンプ用プログラム及び仮想計算機システム |
US7464378B1 (en) * | 2003-12-04 | 2008-12-09 | Symantec Operating Corporation | System and method for allowing multiple sub-clusters to survive a cluster partition |
JP4677214B2 (ja) | 2004-09-06 | 2011-04-27 | 富士通株式会社 | パニックダンプ採取のためのプログラム、方法、及び機構 |
JP2006172100A (ja) | 2004-12-15 | 2006-06-29 | Hitachi Ltd | オペレーティングシステムの高速切替え方式及びその方法 |
US7698390B1 (en) * | 2005-03-29 | 2010-04-13 | Oracle America, Inc. | Pluggable device specific components and interfaces supported by cluster devices and systems and methods for implementing the same |
US20080307425A1 (en) * | 2005-03-31 | 2008-12-11 | Shailendra Tripathi | Data Processing System and Method |
US8375386B2 (en) | 2005-06-29 | 2013-02-12 | Microsoft Corporation | Failure management for a virtualized computing environment |
US20070094659A1 (en) * | 2005-07-18 | 2007-04-26 | Dell Products L.P. | System and method for recovering from a failure of a virtual machine |
JP4645837B2 (ja) * | 2005-10-31 | 2011-03-09 | 日本電気株式会社 | メモリダンプ方法、コンピュータシステム、およびプログラム |
JP2007133544A (ja) * | 2005-11-09 | 2007-05-31 | Hitachi Ltd | 障害情報解析方法及びその実施装置 |
US7831857B2 (en) * | 2006-10-31 | 2010-11-09 | Hewlett-Packard Development Company, L.P. | Method and system for recovering from operating system crash or failure |
US7877358B2 (en) * | 2006-11-21 | 2011-01-25 | Microsoft Corporation | Replacing system hardware |
US8086906B2 (en) * | 2007-02-15 | 2011-12-27 | Microsoft Corporation | Correlating hardware devices between local operating system and global management entity |
WO2008114395A1 (ja) | 2007-03-19 | 2008-09-25 | Fujitsu Limited | 仮想計算機ダンプ採取プログラム、ダンプ採取システムおよびダンプ採取方法 |
US8055735B2 (en) * | 2007-10-30 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Method and system for forming a cluster of networked nodes |
JP5224038B2 (ja) * | 2008-02-27 | 2013-07-03 | 日本電気株式会社 | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム |
US8145938B2 (en) * | 2009-06-01 | 2012-03-27 | Novell, Inc. | Fencing management in clusters |
US20110225458A1 (en) | 2010-03-09 | 2011-09-15 | Microsoft Corporation | Generating a debuggable dump file for an operating system kernel and hypervisor |
US8661286B2 (en) * | 2010-05-21 | 2014-02-25 | Unisys Corporation | QProcessor architecture in a cluster configuration |
US20120023209A1 (en) * | 2010-07-20 | 2012-01-26 | Robert Adam Fletcher | Method and apparatus for scalable automated cluster control based on service level objectives to support applications requiring continuous availability |
-
2009
- 2009-07-10 WO PCT/JP2009/003257 patent/WO2011004441A1/ja active Application Filing
- 2009-07-10 JP JP2011521716A patent/JP5403054B2/ja not_active Expired - Fee Related
- 2009-07-10 EP EP09847046.1A patent/EP2453359B1/en not_active Not-in-force
-
2012
- 2012-01-03 US US13/342,633 patent/US8990630B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2011004441A1 (ja) | 2011-01-13 |
JP5403054B2 (ja) | 2014-01-29 |
EP2453359A1 (en) | 2012-05-16 |
US8990630B2 (en) | 2015-03-24 |
EP2453359B1 (en) | 2016-04-20 |
US20120102358A1 (en) | 2012-04-26 |
EP2453359A4 (en) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8135985B2 (en) | High availability support for virtual machines | |
US9582373B2 (en) | Methods and systems to hot-swap a virtual machine | |
JP5403054B2 (ja) | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 | |
US7941700B2 (en) | Operating system-based application recovery | |
US8990617B2 (en) | Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system | |
JP5163408B2 (ja) | 情報処理装置 | |
US7877358B2 (en) | Replacing system hardware | |
US8489932B2 (en) | Server system and crash dump collection method | |
US8381028B2 (en) | Accelerating recovery in MPI environments | |
US9977740B2 (en) | Nonvolatile storage of host and guest cache data in response to power interruption | |
US9229820B2 (en) | Information processing device with memory dump function, memory dump method, and recording medium | |
JP2007148839A (ja) | 障害回復方法 | |
KR20090081405A (ko) | 파티션 유닛을 교체하는 방법 및 컴퓨터 판독가능 매체 | |
JP2009211517A (ja) | 仮想計算機冗長化システム | |
US8990608B1 (en) | Failover of applications between isolated user space instances on a single instance of an operating system | |
US9015535B2 (en) | Information processing apparatus having memory dump function, memory dump method, and recording medium | |
JP2007080012A (ja) | 再起動方法、システム及びプログラム | |
JP6124644B2 (ja) | 情報処理装置および情報処理システム | |
CN113127263B (zh) | 一种内核崩溃恢复方法、装置、设备及存储介质 | |
US20140189422A1 (en) | Information processing apparatus and stored information analyzing method | |
CN114756355A (zh) | 一种计算机操作系统的进程自动快速恢复的方法和装置 | |
CN107315624B (zh) | 信息处理方法及虚拟化管理器 | |
US20180225201A1 (en) | Preserving volatile memory across a computer system disruption | |
JP4876662B2 (ja) | メモリダンプ機能を備えたコンピュータシステム、プログラム及びメモリダンプの方法 | |
JP2010102441A (ja) | 情報処理装置、情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131014 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5403054 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |