JPWO2013145325A1 - 情報処理システム、障害検知方法および情報処理装置 - Google Patents
情報処理システム、障害検知方法および情報処理装置 Download PDFInfo
- Publication number
- JPWO2013145325A1 JPWO2013145325A1 JP2014507300A JP2014507300A JPWO2013145325A1 JP WO2013145325 A1 JPWO2013145325 A1 JP WO2013145325A1 JP 2014507300 A JP2014507300 A JP 2014507300A JP 2014507300 A JP2014507300 A JP 2014507300A JP WO2013145325 A1 JPWO2013145325 A1 JP WO2013145325A1
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- nic
- processing apparatus
- beat
- notification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/30—Peripheral units, e.g. input or output ports
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
図1は、実施例1に係るシステムの全体構成例を示す図である。図1に示すように、このシステムは、マスタサーバ50と複数のラック5とをL2スイッチ(レイヤ2スイッチ)を有し、ネットワークを介して相互に通信可能に接続される。このシステムは、Hadoopを用いた分散処理システムである。
次に、スレーブサーバ10とマスタサーバ50のハードウェア構成を説明する。各サーバは、同様の構成を有するので、ここでは、サーバ100として説明する。図3は、ハードウェア構成例を示す図である。
図4は、スレーブサーバの構成を示す機能ブロック図である。図4に示すように、スレーブサーバ10は、Hadoop11、省電力処理デーモン12、OS13、ドライバ14、NIC15を有する。
図8は、マスタサーバの構成を示す機能ブロック図である。図8に示すように、マスタサーバ50は、Hadoop51、状態監視デーモン52、OS53、ドライバ54、NIC55を有する。
次に、スレーブサーバ10が、ハートビートからNICビートを生成してマスタサーバ50に送信し、マスタサーバ50が、NICビートからスレーブサーバの状態を把握する一連の流れを説明する。ここでは、正常時、OS異常時、省電力モード移行時、ネットワーク異常時の各々について説明する。
図10は、正常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S101とS102)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S103)。
図11は、OS異常時のシーケンスを示す図である。スレーブサーバ10のHadoop11は、OS13やドライバ14を介してNICビート装置17に送信するハートビートの送信タイミングが不規則になる(S201とS202)。すると、NICビート装置17のハートビート判定部17a、省電力モードがOFFかつハートビートが不定期であることに基づいてOS13が異常であると判定し、状態管理部17cを更新する(S203)。
図12は、省電力移行時のシーケンスを示す図である。図12に示すように、スレーブサーバ10の省電力処理デーモン12は、OS13等で実行されるジョブやタスクがないことを検出すると(S301)、スレーブサーバ10を省電力モードに移行させる(S302)。続いて、省電力処理デーモン12は、移行したことをNICビート装置17に通知する(S303とS304)。
図13は、ネットワーク異常時のシーケンスを示す図である。図13に示すように、スレーブサーバ10のHadoop11は、正常時と同様、OS13やドライバ14を介してNICビート装置17に、3秒ごとにハートビートを送信する(S401とS402)。すると、NICビート装置17のハートビート判定部17aは、3秒ごとにハートビートを受信して状態管理部17cを更新する(S403)。
次に、スレーブサーバ10が実行するNICビート送信処理の流れを説明する。図14は、スレーブサーバが実行するNICビート送信処理の流れを示すフローチャートである。
次に、マスタサーバ50が実行するNICビート受信処理の流れと状態監視処理の流れとを説明する。
図15は、マスタサーバが実行するNICビート受信処理の流れを示すフローチャートである。マスタサーバ50のNICビート受信部57aは、スレーブサーバ10からNICビートを受信すると(S601)、現在の時刻をスレーブサーバ管理部57bに通知する(S602)。すなわち、スレーブサーバ管理部57bは、該当するスレーブサーバ10のレコードにおける「NICビート受信時刻」に、通知された現在の時刻を格納する。
図16は、マスタサーバが実行する状態監視処理の流れを示すフローチャートである。図16に示すように、マスタサーバ50の状態監視デーモン52は、スレーブサーバ管理部57bを参照し、NICビート受信時刻から3分以上が経過しているスレーブサーバ10が存在するか否かを判定する(S701)。つまり、状態監視デーモン52は、スレーブサーバ管理部57bが管理するNICビート受信時刻が3分以上更新されないスレーブサーバ10が存在するか否かを判定する。
実施例1では、OS状態ビット、省電力モード、OS異常ビットをNICビートで送信する例を説明したが、これに限定されるものではなく、いずれか1つを送信するようにしてもよい。また、任意の組み合わせで送信してもよい。
実施例1では、ハートビートが3秒間隔で送信され、NICビートが1分間隔で送信される例を説明したが、これに限定されるものではなく、いずれの送信間隔も任意に設定変更することができる。ただし、マスタサーバ50の負荷を軽減するために、NICビートの送信間隔は、ハートビートの送信間隔よりも長いことが好ましい。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
11 Hadoop
12 省電力処理デーモン
13 OS
14 ドライバ
15 NIC
16 コントローラ
16a 送信処理部
16b 受信処理部
17 NICビート装置
17a ハートビート判定部
17b 省電力モード処理部
17c 状態管理部
17d NICビート生成部
17e NICビート送信部
50 マスタサーバ
51 Hadoop
52 状態監視デーモン
53 OS
54 ドライバ
55 NIC
56 コントローラ
56a 送信処理部
56b 受信処理部
57 NICビート装置
57a NICビート受信部
57b スレーブサーバ管理部
57c 通知部
Claims (9)
- 第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムであって、
前記第1の情報処理装置は、
第1の入出力装置と、
オペレーティングシステムが動作するプロセッサと、
前記第2の情報処理装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信する第1の入出力部と、を有し、
前記第2の情報処理装置は、
第2の入出力装置と、
前記第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記ネットワークに障害が発生したと検知する障害検知部と、
を有することを特徴とする情報処理システム。 - 前記第1の入出力部は、オペレーティングシステムからの通知に応じて該オペレーティングシステムの状態情報を生成する生成部を有し、
前記第1の入出力部は、該生成部が生成した該状態情報を、前記通知信号に含めて前記第2の情報処理装置に送信する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記第1の情報処理装置の生成部は、
前記オペレーティングシステムからの通知の発生周期が不規則になった場合、または、前記オペレーティングシステムからの通知を受信できなくなった場合に、前記第1の情報処理装置で異常が発生したことを示す異常通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記異常通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記異常通知情報が含まれている場合には、前記第1の情報処理装置で障害が発生したと検知することを特徴とする請求項2に記載の情報処理システム。 - 前記第1の情報処理装置の生成部は、
前記第1の情報処理装置が実行対象とするジョブが存在しなくなった場合に、電力消費を抑制する省電力モードに移行することを示す移行通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記移行通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記移行通知情報が含まれている場合には、前記第1の情報処理装置を監視対象から除外することを特徴とする請求項2に記載の情報処理システム。 - 前記第1の情報処理装置の第1の入出力部は、前記移行通知情報を含む前記通知信号が前記第2の情報処理装置に送信された後、前記省電力モードが解除されるまで、前記通知信号の送信を抑制することを特徴とする請求項4に記載の情報処理システム。
- 前記第1の情報処理装置の生成部は、
前記第1の情報処理装置に前記ジョブが発生した場合に、前記省電力モードを解除することを示す解除通知情報を生成し、
前記第1の入出力部は、前記生成部が生成した前記解除通知情報を、前記通知信号に含めて前記第2の情報処理装置に送信し、
前記第2の情報処理装置の障害検知部は、
前記第1の情報処理装置から受信した通知信号に、前記解除通知情報が含まれている場合には、前記第1の情報処理装置を監視対象に戻すことを特徴とする請求項5に記載の情報処理システム。 - 第1の情報処理装置と、前記第1の情報処理装置を監視する第2の情報処理装置とを含む情報処理システムに適した障害検知方法において、
前記第1の情報処理装置が、
前記第2の情報処理装置と通信可能であって、プロセッサが動作させるオペレーティングシステムからの通知が得られない場合であっても、第1の入出力装置から送信する通知信号を前記第2の情報処理装置に送信し、
前記第2の情報処理装置が、
第2の入出力装置が、前記第1の入出力装置から前記通知信号を受信しなかった場合に、前記ネットワークに障害が発生したと検知する、
を実行することを特徴とする障害検知方法。 - 第1の入出力装置と、
オペレーティングシステムが動作するプロセッサと、
監視装置と通信可能であって、オペレーティングシステムからの通知が得られない場合であっても、前記第1の入出力装置から送信する通知信号を監視装置に送信する第1の入出力部と、
を有することを特徴とする情報処理装置。 - 第2の入出力装置と、
前記第2の入出力装置が監視対象の装置から通知信号を受信しなかった場合に、前記監視対象の装置と自装置との間のネットワークに障害が発生したと検知する障害検知部と、
を有することを特徴とする情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/058754 WO2013145325A1 (ja) | 2012-03-30 | 2012-03-30 | 情報処理システム、障害検知方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013145325A1 true JPWO2013145325A1 (ja) | 2015-08-03 |
JP5858144B2 JP5858144B2 (ja) | 2016-02-10 |
Family
ID=49258687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014507300A Expired - Fee Related JP5858144B2 (ja) | 2012-03-30 | 2012-03-30 | 情報処理システム、障害検知方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150019671A1 (ja) |
JP (1) | JP5858144B2 (ja) |
WO (1) | WO2013145325A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5687173B2 (ja) * | 2011-11-15 | 2015-03-18 | 株式会社日立製作所 | 通信システム及び方法、ハートビート代行サーバ |
US9712380B2 (en) * | 2013-08-30 | 2017-07-18 | Shimadzu Corporation | Analytical device control system |
US9819563B2 (en) * | 2014-12-19 | 2017-11-14 | Verizon Patent And Licensing Inc. | Failure management for electronic transactions |
CN107294799B (zh) * | 2016-03-31 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 一种分布式系统中节点的处理方法和装置 |
JP6662185B2 (ja) * | 2016-04-28 | 2020-03-11 | 横河電機株式会社 | 処理装置、代替処理装置、中継装置、処理システム及び処理方法 |
CN109561833B (zh) | 2016-06-22 | 2022-04-29 | 豪夫迈·罗氏有限公司 | 用于将可插入元件经皮插入身体组织中的医疗装置 |
US10191794B2 (en) | 2016-09-28 | 2019-01-29 | Mcafee, Llc | Monitoring and analyzing watchdog messages in an internet of things network environment |
CN106603301B (zh) * | 2016-12-29 | 2019-09-06 | 杭州宏杉科技股份有限公司 | 一种基于存储集群多节点对的仲裁者实现方法及装置 |
CN110933142A (zh) * | 2019-11-07 | 2020-03-27 | 浪潮电子信息产业股份有限公司 | 一种icfs集群网卡监控方法、装置和设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262148A (ja) * | 1994-03-22 | 1995-10-13 | Nec Corp | コンピュータシステム |
JP4657800B2 (ja) * | 2005-05-16 | 2011-03-23 | 本田技研工業株式会社 | 航空機用ガスタービン・エンジンの制御装置 |
-
2012
- 2012-03-30 WO PCT/JP2012/058754 patent/WO2013145325A1/ja active Application Filing
- 2012-03-30 JP JP2014507300A patent/JP5858144B2/ja not_active Expired - Fee Related
-
2014
- 2014-09-29 US US14/499,607 patent/US20150019671A1/en not_active Abandoned
Non-Patent Citations (3)
Title |
---|
JPN6012020305; ロッド ガマシェ、他2名: 'IEEE COMPUTER NTの可用性向上のためにクラスタが提供する機能 基礎概念からアプリケーション適用まで' 日経コンピュータ , 19981207, pp.143-149, 第458号 * |
JPN6012020307; 村山和宏、他1名: '大規模分散システムに向けた高信頼化機構の設計' 情報処理学会研究報告(マルチメディアと分散処理 コンピュータセキュリティ) 第2003巻、第18号, 20030228, pp.191-196(2003-DPS-111-34 2003-CSEC-2 * |
JPN6015034127; 酒井 勝: '基幹IA サーバ"PRIMEQUEST"とPRIMECLUSTER の連携' FUJITSU 第56巻 第3号(通巻第328号), 20050510, pp.226-230 * |
Also Published As
Publication number | Publication date |
---|---|
US20150019671A1 (en) | 2015-01-15 |
JP5858144B2 (ja) | 2016-02-10 |
WO2013145325A1 (ja) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5858144B2 (ja) | 情報処理システム、障害検知方法および情報処理装置 | |
US20170048123A1 (en) | System for controlling switch devices, and device and method for controlling system configuration | |
CN106330475B (zh) | 一种通信系统中管理主备节点的方法和装置及高可用集群 | |
US20140095925A1 (en) | Client for controlling automatic failover from a primary to a standby server | |
US9208124B2 (en) | Reset of processing core in multi-core processing system | |
JP6179101B2 (ja) | 管理装置、管理方法、および管理プログラム | |
EP3291487B1 (en) | Method for processing virtual machine cluster and computer system | |
JP2008015722A (ja) | データ処理システム | |
EP2637102A1 (en) | Cluster system with network node failover | |
WO2016165157A1 (zh) | 家庭服务系统的故障处理方法及家电设备、服务器 | |
CN107071189B (zh) | 一种通讯设备物理接口的连接方法 | |
US20140129865A1 (en) | System controller, power control method, and electronic system | |
JPWO2015104841A1 (ja) | 多重系システムおよび多重系システム管理方法 | |
JP6253956B2 (ja) | ネットワーク管理サーバおよび復旧方法 | |
JP6007988B2 (ja) | 予備系装置、運用系装置、冗長構成システム、及び負荷分散方法 | |
KR102131863B1 (ko) | 라우팅 처리기의 동작 모드 천이 방법 | |
JP2010244463A (ja) | イベント検出制御方法及びシステム | |
JP2010092395A (ja) | サーバ管理システム,サーバ管理方法及びサーバ管理用プログラム | |
JP2014048933A (ja) | プラント監視システム、プラント監視方法およびプラント監視プログラム | |
JP2013025765A (ja) | マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム | |
CN110213364B (zh) | 快递柜监控方法、系统、存储介质和设备 | |
JP2011065469A (ja) | 分散ファイルシステム及び分散ファイルシステムにおけるノード起動方法 | |
JP2016100659A (ja) | 周期型データ共有システム及び方法 | |
WO2014010021A1 (ja) | 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム | |
JP2008077324A (ja) | サーバ・クライアントシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5858144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |