WO2008015730A1 - Method and program for avoiding jog execution failure in grid computing system, and grid computing system - Google Patents

Method and program for avoiding jog execution failure in grid computing system, and grid computing system Download PDF

Info

Publication number
WO2008015730A1
WO2008015730A1 PCT/JP2006/315159 JP2006315159W WO2008015730A1 WO 2008015730 A1 WO2008015730 A1 WO 2008015730A1 JP 2006315159 W JP2006315159 W JP 2006315159W WO 2008015730 A1 WO2008015730 A1 WO 2008015730A1
Authority
WO
WIPO (PCT)
Prior art keywords
job
node
test
computing
malfunctioning
Prior art date
Application number
PCT/JP2006/315159
Other languages
French (fr)
Japanese (ja)
Inventor
Hiroshi Noguchi
Tomonori Yamashita
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2006/315159 priority Critical patent/WO2008015730A1/en
Publication of WO2008015730A1 publication Critical patent/WO2008015730A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Abstract

When a calculation node is free for a grid computing system, a test job of a quick test is automatically inputted at a time interval corresponding to the node, so that an abnormal node is automatically detected before generation of a job abort. No job is allocated for the detected abnormal node and this is reported to a node administrator. When a job abort has occurred, a test job of a full test is inputted to the calculation node so as to detect an abnormal node. Moreover, for a calculation node for which job allocation is inhibited, a test job repeated for a long time is inputted periodically and the job allocation is resumed when a correct result is obtained. Furthermore, an abnormal node, an abnormal job, and an abnormal user are automatically detected from the past job execution history.

Description

明 細 書  Specification
グリッドコンピューティングシステムにおけるジョブ実行障害の回避方法、 回避プログラム、及びグリッドコンピューティングシステム 技術分野  Technical field of avoiding job execution failure in grid computing system, avoidance program, and grid computing system
[0001] 本発明は、グリッドコンピューティングシステムにおけるジョブ実行障害の回避方法 [0001] The present invention relates to a job execution failure avoidance method in a grid computing system.
、回避プログラム、及びグリッドコンピューティングシステムに関する。詳しくは、不調ノ ードゃ不良ジョブ、不良ユーザといったジョブ実行障害を自動検出して、 自動排除す るようにした方法等に関する。 , An avoidance program, and a grid computing system. Specifically, it relates to a method that automatically detects job execution failures such as bad jobs and bad users and automatically eliminates them.
背景技術  Background art
[0002] 従来力 グリッドコンピューティングシステムと呼ばれる分散処理システムがある。グ リツドコンピューティングシステムとは、地理的 ·組織的に分散した多種多様な計算機 リソースを統合するインフラである。  [0002] There is a distributed processing system called a grid computing system. A grid computing system is an infrastructure that integrates a wide variety of geographically and organizationally distributed computer resources.
[0003] このようなグリッドコンピューティングシステムで用いられる計算機リソースには、計算 機センターのサーバ機のように信頼性の高 、ものから、事務所のパーソナルコンビュ ータのように信頼性の低いものまである。また、計算機の管理者も計算機リソースを所 有する組織毎に多数存在するという特徴がある。  [0003] Computer resources used in such a grid computing system have high reliability such as a server machine in a computer center, but low reliability such as a personal computer in an office. There is. Another feature is that there are many computer administrators in each organization that owns computer resources.
[0004] 従って、システムが大きくなり、運用期間が長くなると、故障する計算機ノードの数が 増加する。また、グリッドシステムの管理者は、不良ノードのシステムからの切り離しや 、多数のノード管理者への対応依頼など、その対応に要する負担も大きくなる。  [0004] Therefore, as the system becomes larger and the operation period becomes longer, the number of failed computer nodes increases. In addition, the grid system administrator has a large burden for handling such as disconnecting a defective node from the system and requesting response to a large number of node administrators.
[0005] このような負担を緩和するため、一般のグリッドシステムには、不良ノードの自動排 除機構を備える。例えば、「ping」によるネットワークの接続確認のためのコマンド等 である。グリッドシステムでは、ノードのハングアップなど検出容易な不良は自動排除 機構により自動的にノードを切り離すことができる。  [0005] In order to alleviate such a burden, a general grid system includes an automatic removal mechanism for defective nodes. For example, a command for confirming network connection by “ping”. In a grid system, a node that is easy to detect, such as a node hang-up, can be automatically disconnected by an automatic exclusion mechanism.
[0006] しかし、ノードの故障箇所や OS等の問題により、ハングアップは発生していないも ののプログラムが正常動作できな 、状況に陥る場合がある。このような状況のノード のことを「不調ノード」と呼ぶ。  [0006] However, there may be a situation in which a program that does not hang up cannot operate normally due to a failure of the node or a problem with the OS. A node in such a situation is called a “strange node”.
[0007] 不調ノードは計算機リソースのディスクやメモリの一部不良等、種々の原因で発生 するため、自動排除機構では自動検出できないケースが多い。不調ノードでジョブが 実行されると、異常終了(以下、「アボート」と称す)する可能性が高い。そして、不調 ノードが発生すると、ほとんどの待ち状態のジョブを飲み込んでアボートを繰り返し、 あたかも「ブラックホール」のような状態となってしまう。 [0007] A malfunctioning node occurs due to various causes such as a defective disk or memory of computer resources. For this reason, there are many cases in which automatic detection is not possible with the automatic exclusion mechanism. When a job is executed on a malfunctioning node, there is a high possibility of abnormal termination (hereinafter referred to as “Abort”). When a malfunctioning node occurs, most of the waiting jobs are swallowed and aborted, resulting in a “black hole” state.
[0008] 一方、グリッドコンピューティングシステムでは、ユーザが障害 (メモリ破壊等)を持つ プログラムや、実行環境依存性のあるプログラムをジョブ実行させた場合、更には、 要求リソース指定を間違えた場合、その多くは実行途中でアボートしてしまい、使用 したリソースが無駄になる。  [0008] On the other hand, in a grid computing system, when a user executes a job that has a fault (such as memory corruption) or a program that is dependent on the execution environment, or if the requested resource is specified incorrectly, Many of them are aborted during execution, and the resources used are wasted.
[0009] 尚、「実行環境依存性のあるプログラム」とは、例えば、 OSに含まれな ヽ特殊なライ ブラリを参照しており、そのライブラリが個別にインストールされているノードでのみ動 作するプログラムなどである。 [0009] It should be noted that "execution environment-dependent program" refers to, for example, a special library that is not included in the OS, and operates only on the node where the library is individually installed. Such as a program.
[0010] また、「要求リソース指定を間違えた場合」とは、グリッドシステムではメモリを指定し てジョブ実行させることができる力 例えば、「512MB」のメモリを使用するプログラム にお 、て「256MB」と指定した場合 (メモリ指定が過小の場合)などである。 [0010] In addition, “if the required resource is specified incorrectly” means that the grid system can specify the memory and execute the job. For example, in a program that uses “512 MB” of memory, “256 MB” Is specified (when the memory specification is too small).
[0011] このような問題あるプログラムを「不良ジョブ」(不良プログラム)と呼ぶ。かかる不良 ジョブは、特定のモラルの低いユーザが投げる場合が多く(このようなユーザを「不良 ユーザ」と称す)、その計算機リソース浪費も問題である。 Such a problematic program is referred to as a “bad job” (defective program). Such bad jobs are often thrown by specific low-moral users (such users are called “bad users”), and the waste of computer resources is also a problem.
[0012] 他方、コンピュータネットワークや分散処理システムに関する従来技術としては、以 下のようなものがある。 On the other hand, conventional techniques related to computer networks and distributed processing systems include the following.
[0013] 例えば、テストメッセージをネットワークに注入し、そのテスト結果を分析することで、 通信ネットワークのリンク及びノードの性能及びステータスをモニタする方法やシステ ムが開示されて ヽる(以下の特許文献 1)。  [0013] For example, a method and system for monitoring the performance and status of communication network links and nodes by injecting test messages into a network and analyzing the test results are disclosed (Patent Documents below). 1).
[0014] また、計算機にジョブ実行させるときに、過去のジョブ実行履歴を考慮して計算機 の資源量を超えな 、範囲で実行すべき計算機を選択するようにしたジョブ分散処理 方法やジョブ分散処理システムもある(以下の特許文献 2)。 [0014] In addition, when causing a computer to execute a job, a job distribution processing method or job distribution processing that selects a computer to be executed in a range that does not exceed the resource amount of the computer in consideration of past job execution history. There is also a system (Patent Document 2 below).
特許文献 1:特開平 7— 225726号公報  Patent Document 1: Japanese Patent Laid-Open No. 7-225726
特許文献 2:特開 2002— 24194号公報  Patent Document 2: Japanese Patent Laid-Open No. 2002-24194
発明の開示 発明が解決しょうとする課題 Disclosure of the invention Problems to be solved by the invention
[0015] しかしながら、上記いずれの特許文献も信頼性の高いサーバ等の計算機を利用し たものであり、信頼性の低!、計算機リソースを含むグリッドコンピューティングシステム に関するものではない。  [0015] However, none of the above patent documents uses a computer such as a highly reliable server, and is not related to a grid computing system with low reliability and including computer resources.
[0016] 従って、「不調ノードによるブラックホール化」や「不良ジョブや不良ユーザによる計 算機リソースの消費」と 、つた問題は何ら解決することはできな 、。  Therefore, the above-mentioned problems such as “black hole due to malfunctioning node” and “consumption of computer resources by bad jobs and bad users” cannot be solved at all.
[0017] また、上記特許文献 1に示すテストメッセージをネットワークに投入するタイミングに よっては他のジョブが実行されなくなり、システムの運用に問題が発生する場合もある  [0017] Depending on the timing at which the test message shown in Patent Document 1 is input to the network, other jobs may not be executed, causing problems in system operation.
[0018] そこで、本発明は、上記問題点に鑑みてなされてもので、その目的は、不調ノード や不良ジョブ、不良ユーザを自動検出して自動排除するようにした、グリッドコンビュ 一ティングシステムにおけるジョブ実行障害の回避方法や回避プログラム、及びダリ ッドコンピューティングシステムを提供することにある。 [0018] Therefore, the present invention has been made in view of the above-mentioned problems, and its object is to provide a grid con- verting system in which a malfunctioning node, a defective job, and a defective user are automatically detected and automatically excluded. The object is to provide a job execution failure avoidance method, avoidance program, and a bold computing system.
[0019] また、本発明の他の目的は、不調ノード等を自動検出して、ノード管理者やジョブ 投入ユーザに通知し、ジョブ実行障害の抑制とグリッド管理者の運用工数削減するよ うにした、ジョブ実行障害の回避方法等を提供することにある。  [0019] Further, another object of the present invention is to automatically detect a malfunctioning node or the like and notify the node administrator or job submitting user to suppress job execution failures and reduce the number of operations of the grid administrator. Another object of the present invention is to provide a job execution failure avoidance method and the like.
課題を解決するための手段  Means for solving the problem
[0020] 上記目的を達成するために、本発明の一実施態様によれば、ネットワークに接続さ れた複数の計算ノードによりジョブを実行させるようにしたグリッドコンピューティングシ ステムにおけるジョブ実行障害の回避方法にぉ 、て、前記グリッドコンピューティング システムに対して、前記計算ノードで前記ジョブが実行されて 、な 、ときに前記計算 ノードに応じた時間間隔で第 1のテストジョブを投入することで、不調ノードを自動検 出することを特徴とする。  In order to achieve the above object, according to an embodiment of the present invention, avoidance of job execution failure in a grid computing system in which a job is executed by a plurality of computing nodes connected to a network. According to the method, for the grid computing system, the job is executed at the calculation node, and sometimes the first test job is submitted at a time interval according to the calculation node, It is characterized by automatically detecting malfunctioning nodes.
[0021] また、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記不調ノードを自動検出したと き前記不調ノードに対して前記ジョブを割り付けな 、ようにし、前記不調ノードの発生 を前記計算ノードの管理者の端末に通知することを特徴とする。  [0021] Further, according to another embodiment of the present invention, in the method for avoiding a job execution failure in the grid computing system, when the malfunctioning node is automatically detected, the job is detected with respect to the malfunctioning node. The generation of the malfunctioning node is notified to the terminal of the administrator of the computing node.
[0022] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記第 1のテストジョブを除く前 記ジョブが異常終了したときに、前記異常終了が発生した前記計算ノードに第 2のテ ストジョブを投入することで前記不調ノードを自動検出することを特徴とする。 Furthermore, according to another embodiment of the present invention, the grid computing system includes In the method of avoiding a job execution failure in the first embodiment, when the job other than the first test job is abnormally terminated, a second test job is submitted to the calculation node where the abnormal termination has occurred. It is characterized by automatically detecting a malfunctioning node.
[0023] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記第 2のテストジョブを投入し て前記不調ノードを自動検出したとき、前記不調ノードに対して前記ジョブを割り付け な 、ようにし、前記不調ノードの発生を前記計算ノード管理者の端末に通知すること を特徴とする。 [0023] Further, according to another embodiment of the present invention, in the method for avoiding a job execution failure in the grid computing system, the malfunction test node is automatically detected by submitting the second test job. The job is not assigned to the malfunctioning node, and the occurrence of the malfunctioning node is notified to the terminal of the computing node manager.
[0024] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記ジョブを割り付けないように した前記不調ノードに対して定期的に第 3のテストジョブを投入し、前記第 3のテスト ジョブの実行結果に基づ 、て前記ジョブの割付を再開し、前記計算ノード管理者の 端末に通知することを特徴とする。  [0024] Further, according to another embodiment of the present invention, in the method for avoiding a job execution failure in the grid computing system, the job execution failure is prevented from being periodically assigned to the malfunctioning node that is not assigned the job. A third test job is submitted, the job assignment is resumed based on the execution result of the third test job, and the calculation node manager terminal is notified.
[0025] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、前記第 1のテストジョブは、前記計算ノ ードに備えられたディスク媒体に対するテストであることを特徴とする。  [0025] Further, according to another embodiment of the present invention, in the method for avoiding a job execution failure in the grid computing system, the first test job is a disk medium provided in the calculation node. It is a test for.
[0026] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、前記第 2のテストジョブは、前記計算ノ ードに備えられたディスク媒体、前記計算ノードに備えられたメモリ、前記計算ノード に備えられたネットワークに関する機器、前記計算ノードに備えられた CPU、夫々の 順に行われるテストであることを特徴とする。  [0026] Further, according to another embodiment of the present invention, in the job execution failure avoidance method in the grid computing system, the second test job is a disk medium provided in the calculation node. The test is performed in the order of the memory provided in the calculation node, the device related to the network provided in the calculation node, and the CPU provided in the calculation node.
[0027] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、前記第 3のテストジョブは、前記計算ノ ードに備えられたディスク媒体、前記計算ノードに備えられたメモリ、前記計算ノード に備えられたネットワークに関する機器、前記計算ノードに備えられた CPU、夫々の 順に複数回繰り返し行われるテストであることを特徴とする。  Furthermore, according to another embodiment of the present invention, in the job execution failure avoidance method in the grid computing system, the third test job is a disk medium provided in the calculation node. The test is repeatedly performed a plurality of times in the order of: a memory provided in the calculation node; a network-related device provided in the calculation node; and a CPU provided in the calculation node.
[0028] また、上記目的を達成するために本発明の他の実施態様によれば、ネットワークに 接続された複数の計算ノードによりジョブを実行させるようにしたグリッドコンビユーテ イングシステムにおけるジョブ実行障害の回避方法にぉ 、て、前記グリッドコンビユー ティングシステムのテーブルに記憶された過去のジョブ実行履歴から、前記計算ノー ド、前記計算ノードで実行されるプログラム、又は前記計算ノードを使用するユーザ、 夫々の異常終了が多発しているときに、不調ノード、不良ジョブ、又は不良ユーザを 夫々自動検出することを特徴とする。 [0028] In order to achieve the above object, according to another embodiment of the present invention, a grid computer that causes a plurality of computation nodes connected to a network to execute a job. As a method for avoiding a job execution failure in an operating system, from the past job execution history stored in the table of the grid combining system, the calculation node, a program executed on the calculation node, or the calculation It is characterized by automatically detecting a malfunctioning node, a defective job, or a defective user when a user who uses a node frequently causes abnormal termination.
[0029] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記不調ノード、前記不良ジョブ 、又は前記不良ユーザを自動検出したとき、前記不調ノードである前記計算ノード、 前記不良ジョブである前記プログラム、又は前記不良ユーザ、夫々に対して前記ジョ ブを割り付けな 、ようにし、ノード管理者の端末又は前記不良ジョブを投入したユー ザの端末に通知することを特徴とする。  Furthermore, according to another embodiment of the present invention, in the job execution failure avoidance method in the grid computing system, when the malfunctioning node, the defective job, or the defective user is further automatically detected. The job node is not assigned to the calculation node that is the malfunctioning node, the program that is the bad job, or the bad user, and the user who has submitted the bad job or the user who has submitted the bad job. It is characterized by notifying the terminal.
[0030] 更に、本発明の他の実施態様によれば、前記グリッドコンピューティングシステムに おけるジョブ実行障害の回避方法において、更に、前記ジョブを割り付けないように した前記不調ノードに対して、定期的にテストジョブを投入し、その実行結果に基づ Vヽて前記ジョブの割り付けを再開し、前記ノード管理者の端末に通知することを特徴 とする。  [0030] Further, according to another embodiment of the present invention, in the method for avoiding a job execution failure in the grid computing system, a periodic operation is further performed for the malfunctioning node in which the job is not allocated. A test job is input to the node, and the assignment of the job is resumed on the basis of the execution result and notified to the node administrator's terminal.
[0031] 更に、上記目的を達成するために本発明の他の実施態様によれば、ネットワークに 接続された複数の計算ノードによりジョブを実行させるようにしたグリッドコンビユーテ イングシステムにおけるジョブ実行障害の回避プログラムにお 、て、前記グリッドコン ピューティングシステムに対して、前記計算ノードで前記ジョブが実行されて 、な 、と きに前記計算ノードに応じた時間間隔で第 1のテストジョブを投入することで、不調ノ ードを自動検出する処理をコンピュータに実行させることを特徴とする。  Furthermore, according to another embodiment of the present invention to achieve the above object, a job execution failure in a grid combining system in which a job is executed by a plurality of computing nodes connected to a network. In the avoidance program, when the job is executed at the calculation node, the first test job is submitted to the grid computing system at a time interval corresponding to the calculation node. Thus, the computer is caused to execute a process of automatically detecting a malfunctioning node.
[0032] 更に、上記目的を達成するために本発明の他の実施態様によれば、ネットワークに 接続された複数の計算ノードによりジョブを実行させるようにしたグリッドコンビユーテ イングシステムにおけるジョブ実行障害の回避プログラムにお 、て、前記グリッドコン ピューティングシステムのテーブルに記憶された過去のジョブ実行履歴から、前記計 算ノード、前記計算ノードで実行されるプログラム、又は前記計算ノードを使用するュ 一ザ、夫々の異常終了が多発しているときに、不調ノード、不良ジョブ、又は不良ュ 一ザを夫々自動検出する処理をコンピュータに実行させることを特徴とする。 Furthermore, in order to achieve the above object, according to another embodiment of the present invention, a job execution failure in a grid combining system in which a job is executed by a plurality of computing nodes connected to a network. In the avoidance program, from the past job execution history stored in the table of the grid computing system, the calculation node, the program executed on the calculation node, or the user using the calculation node. When each abnormal termination occurs frequently, a bad node, bad job, or bad It is characterized by causing a computer to execute a process for automatically detecting each one.
[0033] 更に、上記目的を達成するために本発明の他の実施態様によれば、ネットワークに 接続された複数の計算ノードによりジョブを実行させるようにしたグリッドコンビユーテ 、て、前記計算ノードで前記ジョブが実行されて 、な 、ときに前 記計算ノードに応じた時間間隔で第 1のテストジョブを投入することで、不調ノードを 自動検出する不調ノード検出手段を備えることを特徴とする。 Furthermore, in order to achieve the above object, according to another embodiment of the present invention, a grid computer that allows a plurality of computation nodes connected to a network to execute a job. When the job is executed on the computation node, a malfunction node detection means for automatically detecting the malfunction node by submitting the first test job at a time interval corresponding to the computation node is sometimes provided. It is characterized by providing.
[0034] 更に、上記目的を達成するために本発明の他の実施態様によれば、ネットワークに 接続された複数の計算ノードによりジョブを実行させるようにしたグリッドコンビユーテ 、て、前記グリッドコンピューティングシステムのテーブルに記憶さ れた過去のジョブ実行履歴から、前記計算ノード、前記計算ノードで実行されるプロ グラム、又は前記計算ノードを使用するユーザ、夫々の異常終了が多発しているとき に、不調ノード、不良ジョブ、又は不良ユーザを夫々自動検出する不調ノード等検出 手段を備えることを特徴とする。 [0034] Furthermore, in order to achieve the above object, according to another embodiment of the present invention, a grid computer that allows a plurality of computation nodes connected to a network to execute a job. From the past job execution history stored in the table of the grid computing system, the abnormal termination of each of the calculation node, the program executed on the calculation node, or the user using the calculation node is determined. It is characterized by comprising a detecting means for detecting a malfunctioning node, a malfunctioning job, or a malfunctioning user when a frequent occurrence occurs.
発明の効果  The invention's effect
[0035] 本発明によれば、不調ノードや不良ジョブ、不良ユーザを自動検出して自動排除 するようにした、グリッドコンピューティングシステムにおけるジョブ実行障害の回避方 法や回避プログラム、及びグリッドコンピューティングシステムを提供するができる。  [0035] According to the present invention, a job execution failure avoidance method and avoidance program in a grid computing system, and a grid computing system, which automatically detect and eliminate abnormal nodes, defective jobs, and defective users. Can provide.
[0036] また、上記不調ノード等を自動検出して、ノード管理者やジョブ投入ユーザに通知 し、ジョブ実行障害の抑制とグリッド管理者の運用工数削減するようにした、ジョブ実 行障害の回避方法等を提供するができる。  [0036] Avoiding job execution failures by automatically detecting the above-mentioned malfunctioning nodes, etc., and notifying the node administrator and job submitting user to suppress job execution failures and reduce the man-hours for grid administrators A method etc. can be provided.
図面の簡単な説明  Brief Description of Drawings
[0037] [図 1]図 1は、グリッドコンピューティングシステムの構成例を示す図である。 FIG. 1 is a diagram illustrating a configuration example of a grid computing system.
[図 2]図 2 (A)はノードテーブル、同図(B)はジョブ管理テーブルの例を示す図である  [FIG. 2] FIG. 2 (A) shows an example of a node table, and FIG. 2 (B) shows an example of a job management table.
[図 3]図 3は、ジョブ実行履歴テーブルの例を示す図である。 FIG. 3 is a diagram showing an example of a job execution history table.
[図 4]図 4は、サーバで実行される処理の例を示すフローチャートである。  FIG. 4 is a flowchart illustrating an example of processing executed by a server.
[図 5]図 5は、ノードで実行される処理の例を示すフローチャートである。  FIG. 5 is a flowchart showing an example of processing executed in a node.
[図 6]図 6は、ブラックリストの例を示す図である。 [図 7]図 7は、機械の故障率を示すバスタブ曲線の例を示す図である。 FIG. 6 is a diagram showing an example of a black list. FIG. 7 is a diagram illustrating an example of a bathtub curve indicating a failure rate of a machine.
[図 8]図 8は、サーバで実行される処理の例を示すフローチャートである。  FIG. 8 is a flowchart illustrating an example of processing executed by a server.
[図 9]図 9は、サーバで実行される処理の例を示すフローチャートである。  FIG. 9 is a flowchart illustrating an example of processing executed by a server.
[図 10]図 10は、サーバで実行される処理の例を示すフローチャートである。  FIG. 10 is a flowchart illustrating an example of processing executed by a server.
[図 11]図 11は、サーバで実行される処理の例を示すフローチャートである。  FIG. 11 is a flowchart illustrating an example of processing executed by a server.
符号の説明  Explanation of symbols
[0038] 10— 1、 10— 2 :ジョブ投入端末 11 1、 11 2 :ジョブ依頼 ·結果取得機能  [0038] 10—1, 10—2: Job submission terminal 11 1, 11 2: Job request · Result acquisition function
20— 1、 20— 2 :実行ノード 21— 1、 21— 2 :ジョブ実行機能  20—1, 20—2: Execution node 21—1, 21—2: Job execution function
22- 1, 22— 2 :ノード情報通知機能  22- 1, 22— 2: Node information notification function
30:サーバ 31:ジョブ受付機能  30: Server 31: Job reception function
32:ノード情報取得機能 33:ジョブ割り当て機能  32: Node information acquisition function 33: Job assignment function
34 :ジョブ実行管理機能  34: Job execution management function
35 :不調ノード、不良ジョブ ·ユーザ判定 ·切離,復帰機能 (不調ノード等判定等機能 )  35: Malfunction node, bad job · User judgment · Disconnection, return function (functions such as judgment of malfunction node etc.)
36:ノードテーブル 37:ジョブ管理テーブル  36: Node table 37: Job management table
38 :ジョブ実行履歴テーブル 39 :ブラックリスト  38: Job execution history table 39: Black list
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0039] 本発明を実施するための最良の形態について以下説明する。 [0039] The best mode for carrying out the present invention will be described below.
[0040] 図 1は、本発明が適用されるグリッドコンピューティングシステム 1の構成例を示す図 である。グリッドコンピューティングシステム 1は、複数のジョブ投入端末 10— 1、 10- 2と、サーバ 30と、複数の実行ノード 20—1、 20- 2,及び各テーブル 36〜39を備 える。ジョブ投入端末 10— 1、 10- 2と、サーバ 30、及び実行ノード 20— 1、 20— 2 は互いにネットワーク 100を介して接続される。 FIG. 1 is a diagram showing a configuration example of a grid computing system 1 to which the present invention is applied. The grid computing system 1 includes a plurality of job submission terminals 10-1, 10-2, a server 30, a plurality of execution nodes 20-1, 20-2, and tables 36 to 39. The job input terminals 10-1 and 10-2, the server 30, and the execution nodes 20-1 and 20-2 are connected to each other via the network 100.
[0041] 図 1の例では、ジョブ投入端末 10—1、 10— 2と実行ノード 20— 1、 20— 2は夫々 2 台の例を示しているが、勿論、 3台以上あってもよい。 In the example of FIG. 1, the job input terminals 10-1 and 10-2 and the execution nodes 20-1 and 20-2 are two examples, but of course, there may be three or more. .
[0042] 全体の動作は以下のようになる。即ち、ジョブ投入端末 10— 1、 10— 2からジョブ実 行依頼と実行プログラムが出力され、サーバ 30はそのジョブをどの実行ノード 20— 1 、 20— 2に割り当てるか等を決定する。サーバ 30はその実行ノード 20— 1、 20— 2に 実行プログラムとともに入力ファイル (ジョブ実行命令)を出力する。実行ノード 20— 1[0042] The overall operation is as follows. That is, a job execution request and an execution program are output from the job input terminals 10-1 and 10-2, and the server 30 determines which execution nodes 20-1 and 20-2 the job is assigned to. Server 30 goes to its execution node 20—1, 20—2. Outputs an input file (job execution instruction) along with the execution program. Execution node 20— 1
、 20— 2で当該プログラムが実行され、その結果がサーバ 30を介して、ジョブ投入端 末 10— 1、 10— 2に出力される。 20-2, the program is executed, and the result is output to the job input terminals 10-1, 10-2 via the server 30.
[0043] 各構成の詳細について説明する。各ジョブ投入端末 10— 1、 10— 2には、ジョブ依 頼 ·結果取得機能 11 1、 11 2を備える。ジョブ依頼 ·結果取得機能 11 1、 11Details of each configuration will be described. Each of the job submission terminals 10-1 and 10-2 has job request / result acquisition functions 11 1 and 11 2. Job request · Result acquisition function 11 1, 11
2は、サーバ 30に対してジョブ実行を依頼するとともに、実行ノード 20— 1、 20— 2で 実行されたジョブ結果を取得する。 2 requests the server 30 to execute the job and obtains the result of the job executed by the execution nodes 20-1 and 20-2.
[0044] サーバ 30は、ジョブ受付機能 31と、ノード情報取得機能 32と、ジョブ割り当て機能[0044] The server 30 includes a job reception function 31, a node information acquisition function 32, and a job allocation function.
33と、ジョブ実行管理機能 34、及び不調ノード、不良ジョブ ·ユーザ判定 ·切離'復帰 機能 (以下、「不調ノード等判定等機能」と称す) 35を備える。 33, and a job execution management function 34, and a malfunctioning node, bad job, user determination, disconnection'return function (hereinafter referred to as “defect node etc. determination function”) 35.
[0045] ジョブ受付機能 31は、ジョブ投入端末 10— 1、 10— 2から、ジョブ実行依頼を受け 付け、ジョブキューに格納する。ノード情報取得機能 32は、実行ノード 20— 1、 20-[0045] The job reception function 31 receives job execution requests from the job input terminals 10-1, 10-2, and stores them in the job queue. The node information acquisition function 32 is executed by the execution nodes 20—1, 20-
2から通知されたノード情報を取得し、後述するノードテーブル 36を作成、又は更新 する。 The node information notified from 2 is acquired, and the node table 36 described later is created or updated.
[0046] ジョブ割り当て機能 33は、ジョブキューからジョブを取り出し、そのジョブ条件 (OS の種別や、ノードの性能等)に合致する実行ノード 20—1、 20— 2であって他のジョ ブが実行されていないノード 20— 1、 20— 2をノードテーブル 36から選択し、ジョブを 当該ノード 20— 1、 20— 2に割り当てる。  [0046] The job assignment function 33 retrieves a job from the job queue, and the execution nodes 20-1 and 20-2 that match the job conditions (OS type, node performance, etc.) and other jobs Select the unexecuted nodes 20—1, 20—2 from the node table 36 and assign the job to the nodes 20—1, 20—2.
[0047] ジョブ実行管理機能 34は、割り当てたジョブを実行ノード 20— 1、 20— 2で実行さ せるときの管理機能であり、後述するジョブ管理テーブル 37を作成、又は更新する。 また、ジョブ実行管理機能 34は、実行ノード 20— 1、 20— 2に対して入力ファイルと 実行ファイルを送信してジョブ実行を命令し、ジョブ完了後に出力結果を受け取る。  [0047] The job execution management function 34 is a management function for executing an assigned job on the execution nodes 20-1 and 20-2, and creates or updates a job management table 37 to be described later. In addition, the job execution management function 34 sends an input file and an execution file to the execution nodes 20-1, 20-2 to instruct job execution, and receives an output result after the job is completed.
[0048] 不調ノード等判定等機能 35は、不調ノードや、不良ノード、不良ユーザを判定 (又 は検出)し、力かる不調ノード等をグリッドシステム 1から切離し、更に復帰させる。詳 細は後述する。  [0048] The malfunctioning node etc. determination function 35 judges (or detects) malfunctioning nodes, defective nodes, and defective users, disconnects the malfunctioning malfunctioning nodes, etc. from the grid system 1 and restores them further. Details will be described later.
[0049] サーバ 30には、ノードテーブル 36と、ジョブ管理テーブル 37と、ジョブ実行履歴テ 一ブル 38、及びブラックリストテーブル 39が接続される。  A node table 36, a job management table 37, a job execution history table 38, and a black list table 39 are connected to the server 30.
[0050] 02 (A)はノードテーブル 36の例を示す図である。ノードテーブル 36には、ノード 名、 FQDN (フルホスト名)、マシンスペック情報(OSの種別やメモリ容量、 CPU速度 、ディスク容量等)、ジョブ実行時間、ジョブ状態("idle"状態力、 " busy"状態か等)、 クラス情報、管理者情報等が記憶される。実行ノード 20— 1、 20— 2ごとにこれらの情 報が記憶される。 [0050] Fig. 02 (A) is a diagram showing an example of the node table 36. Node table 36 contains nodes Name, FQDN (full host name), machine spec information (OS type, memory capacity, CPU speed, disk capacity, etc.), job execution time, job status ("idle" status power, "busy" status, etc.), class information Administrator information and the like are stored. This information is stored for each execution node 20-1 and 20-2.
[0051] 図 2 (B)はジョブ管理テーブル 37の例を示す図である。ジョブ管理テーブル 37に はジョブ IDや、ジョブ投入者名、ジョブ実行時間、ジョブの状態("wait"状態カゝ、 "lear ning"状態か)、ジョブの実行場所等の情報が記憶される。  FIG. 2B is a diagram showing an example of the job management table 37. The job management table 37 stores information such as job ID, job submitter name, job execution time, job status ("wait" status key, "lear ning" status), job execution location, and the like.
[0052] ジョブ実行履歴テーブル 38は、ジョブ管理テーブル 37と略同様である力 実行さ れたジョブの履歴に関する情報が記憶される。図 3に示すように、ジョブ ID、ジョブ名 、投入ユーザ名、プログラム名、ジョブの終了状態 (正常終了か、異常終了(アボート )カ キャンセル力 等の情報が記憶される。  The job execution history table 38 stores information related to the history of jobs executed with substantially the same force as the job management table 37. As shown in FIG. 3, information such as job ID, job name, submitting user name, program name, job end status (normal end or abnormal end (abort) canceling power, etc.) is stored.
[0053] ブラックリストテーブル 39は、ブラックリストの情報を記憶したテーブルである。不調 ノードや不良ジョブ、不良ユーザに関する情報が記憶される。詳細は後述する。  The black list table 39 is a table storing black list information. Information regarding nodes, bad jobs, and bad users is stored. Details will be described later.
[0054] 各実行ノード 20— 1、 20— 2には、ジョブ実行機能 21— 1、 21— 2と、ノード情報通 知機能 22— 1、 22— 2を備える。  Each execution node 20-1, 20-2 includes job execution functions 21-1, 21-2 and node information notification functions 22-1, 22-2.
[0055] ジョブ実行機能 21— 1、 21— 2は、サーバ 30からの入力ファイルと実行プログラム を受け取り、当該プログラムを実行する。当該プログラムをジョブとして実行後、その 実行結果をサーバ 30に出力する。 [0055] The job execution functions 21-1 and 21-2 receive the input file and the execution program from the server 30, and execute the program. After executing the program as a job, the execution result is output to the server 30.
[0056] ノード情報通知機能 22— 1、 22— 2は、各実行ノード 20— 1、 20— 2に関する各種 情報 (マシンスペック情報など)をサーバ 30に通知する。例えば、実行ノード 20— 1、The node information notification functions 22-1 and 22-2 notify the server 30 of various information (machine specification information and the like) related to the execution nodes 20-1 and 20-2. For example, execution node 20—1,
20— 2がグリッドコンピューティングシステム 1に接続されたときに各種情報を通知す る。 20-2 Notifies various information when 2 is connected to grid computing system 1.
[0057] 次に詳細な動作を説明する。まず、(1)テストジョブにより不調ノードを自動検出し、 自動排除等する場合について説明する、次いで、(2)ジョブ実行履歴力も不調ノード 、不良ジョブ、不良ユーザを自動検出し、自動排除等する場合について説明する。 ( 1)を実行し、次いで、(2)を実行することで、確実に不調ノード等の検出を行い得る。  Next, a detailed operation will be described. First, (1) The case where a malfunctioning node is automatically detected and automatically excluded by a test job will be described. Next, (2) The job execution history power is also automatically detected by the malfunctioning node, defective job, and defective user, and automatically excluded. The case will be described. By executing (1) and then (2), it is possible to reliably detect a malfunctioning node or the like.
[0058] (1)テストジョブによる不調ノードの自動検出等  [0058] (1) Automatic detection of malfunctioning node by test job, etc.
テストジョブによる不調ノードの自動検出等は、ユーザのジョブのアボートを未然防 止するために計算ノードが空 ヽて 、るときに実行する場合と、ユーザのジョブがアポ ートしたときに実行する場合の 2つの処理がある。以下、順を追って説明する。 Automatic detection of malfunctioning nodes by test jobs prevents user jobs from being aborted. There are two types of processing: when a compute node is idle to stop, and when it is executed when a user job is imported. In the following, description will be given in order.
[0059] (1. 1)ユーザのジョブのアボートを未然防止するために実行される場合 [0059] (1.1) When executed to prevent user job abort
図 4は、力かる場合の処理の例を示すフローチャートである。即ち、ユーザのジョブ のアボートを未然に防ぐため、実行ノード 20—1、 20— 2が空いているときに、ノード 2 0—1、 20— 2に応じた時間間隔でテストジョブを自動投入し、その実行結果に基づ いて不調ノードを判定(自動検出)し、当該ノード 20— 1、 20— 2にジョブを割り付け ないようにし(自動排除)、更に、ノード管理者にその旨を通知するようにした例である 。サーバ 30の不調ノード等判定等機能 35で実行される。  FIG. 4 is a flowchart showing an example of processing in the case where power is applied. In other words, in order to prevent user jobs from being aborted, test jobs are automatically submitted at time intervals according to nodes 20-1 and 20-2 when execution nodes 20-1 and 20-2 are available. Based on the execution result, the malfunctioning node is determined (automatic detection), the job is not assigned to the node 20-1, 20-2 (automatic exclusion), and the node administrator is notified of this. This is an example. It is executed by the function 35 such as the determination of a malfunctioning node etc. of the server 30.
[0060] まず、不調ノード等判定等機能 35は、規定間隔 (チェック間隔)で以下の処理を繰 り返す (S10)。規定間隔は、実行ノード 20— 1、 20— 2に応じた時間間隔であり、実 行ノード 20— 1、 20— 2の稼動期間が長い場合や、過去に実行ノード 20— 1、 20- 2で不具合 (例えば、ハングアップ)があった場合等に、短くなるように調整される。詳 細は後述する。 [0060] First, the malfunctioning node etc. determination function 35 repeats the following processing at a specified interval (check interval) (S10). The specified interval is a time interval according to the execution nodes 20-1 and 20-2. When the operation period of the execution nodes 20-1 and 20-2 is long, or in the past, the execution nodes 20-1 and 20-2 If there is a problem (for example, hang-up), it is adjusted to be shorter. Details will be described later.
[0061] 次いで、不調ノード等判定等機能 35は、空き状態の計算ノード (実行ノード 20— 1 、 20— 2)のリストを取得する(S 11)。他のジョブを実行している実行ノード 20— 1、 2 0— 2に対して、そのジョブを途中で終了させず、グリッドシステム 1全体の運用に支 障をきたさな 、ようにするためである。ノードテーブル 36に記憶された現在のジョブ状 態の情報力 ジョブが実行されていないノード 20— 1、 20— 2の情報を読み出すこと で取得する。  Next, the malfunction node etc. determination function 35 obtains a list of calculation nodes (execution nodes 20-1 and 20-2) in an empty state (S11). This is to prevent the execution of the grid system 1 from being interrupted for the execution nodes 20—1, 2 0—2, which are executing other jobs, without stopping the job midway. . Information power of the current job status stored in the node table 36 Obtained by reading the information of the nodes 20-1 and 20-2 where the job is not executed.
[0062] 次いで、取得リストから前回テストジョブ実行からの時間がチェック間隔に達してい ないノード 20— 1、 20— 2を削除する(S12)。前回の実行時間からチヱック間隔に達 したノード 20— 1、 20— 2に対してテストジョブを実行させ、チェック間隔に達していな いノード 20— 1、 20— 2を削除するためである。  Next, the nodes 20-1, 20-2 whose time since the previous test job execution has not reached the check interval are deleted from the acquisition list (S12). This is because the test job is executed for the nodes 20-1, 20-2 that have reached the check interval from the previous execution time, and the nodes 20-1, 20-2 that have not reached the check interval are deleted.
[0063] 例えば、「ノード 1」、「ノード 3」、「ノード 5」の 3つのノードが空き状態で、「ノード 3」が チェック間隔に達していないときは、「ノード 3」をリストから削除する。尚、前回のテスト ジョブ実行時間は、例えば、サーバ 30のローカルメモリに記憶されている。  [0063] For example, when three nodes “Node 1”, “Node 3”, and “Node 5” are empty and “Node 3” has not reached the check interval, “Node 3” is deleted from the list. To do. The previous test job execution time is stored in the local memory of the server 30, for example.
[0064] 次いで、リストのノード 20—1、 20— 2にテストジョブを投入する(S 13)。上述の例で は、「ノード 1」及び「ノード 5」にテストジョブを投入する。 Next, a test job is submitted to the nodes 20-1 and 20-2 in the list (S13). In the above example Submits test jobs to “Node 1” and “Node 5”.
[0065] 尚、テストジョブの投入は以下のようにして行われる。即ち、 、ずれかのジョブ投入 端末 10— 1、 10— 2からテストジョブの実行依頼とテストジョブの実行プログラムがサ ーバ 30に送信される。サーバ 30のジョブ受付機能 31が当該依頼等を受け付け、ノ ード情報取得機能 32に実行依頼と実行プログラムとを転送する。ノード情報取得機 能 32は、ノードテーブル 36を検索し、例えば「ノード 1」と「ノード 5」とが空きノードか 否かチェックし、ジョブ割り当て機能 33は「ノード 1」と当該ジョブの割り当て (マツチン グ)、「ノード 5」と当該ジョブの割り当てを行う。そして、ジョブ実行管理機能 34は、テ ストジョブ (テストプログラム)を「ノード 1」と「ノード 5」に入力ファイルとともに転送する。  Note that the test job is input as follows. In other words, a test job execution request and a test job execution program are transmitted to the server 30 from one of the job input terminals 10-1 and 10-2. The job reception function 31 of the server 30 receives the request and transfers the execution request and the execution program to the node information acquisition function 32. The node information acquisition function 32 searches the node table 36 and checks whether, for example, “Node 1” and “Node 5” are free nodes, and the job assignment function 33 assigns “Node 1” and the assignment of the job ( (Matching), “Node 5” and the job are assigned. Then, the job execution management function 34 transfers the test job (test program) to “Node 1” and “Node 5” together with the input file.
[0066] テストジョブと実行命令を受けたジョブ実行機能 21— 1、 21— 2は、当該テストジョ ブを実行する。ジョブ実行機能 21— 1、 21— 2で実行されるフローチャートの例を図 5 に示す。  [0066] The job execution function 21-1 and 21-2 that have received the test job and the execution command execute the test job. Figure 5 shows an example of the flowchart executed by the job execution functions 21-1 and 21-2.
[0067] ジョブ実行機能 21— 1、 21— 2は、指定された回数以下の処理を繰り返す (S60)。  [0067] The job execution functions 21-1 and 21-2 repeat the processing less than the designated number of times (S60).
尚、本例に用いられるテストジョブは「クイックテスト」であり、 1回のみ (指定回数は「1」 )行われる。そして、そのテストの内容は、実行ノード 20— 1、 20— 2のディスク(例え ば、ハードディスク)に対して、大きなサイズのファイル(例えば、「50MB」)の書き込 み(write)と、読み出したファイルと書き込む前のファイルとの比較(compare)である( S61)。「クイックテスト」の場合、これでテストジョブが終了する。  Note that the test job used in this example is a “quick test” and is performed only once (the specified number is “1”). The contents of the test are the writing and reading of a large file (eg, “50MB”) to the disk (eg, hard disk) of the execution nodes 20-1 and 20-2. This is a comparison between the read file and the file before writing (S61). In the case of “Quick Test”, the test job is completed.
[0068] このように、「クイックテスト」を 1回のみで終わらせるようにしているのは、テストジョブ の実行に時間をかけさせたくないからである。各ノード 20—1、 20— 2では他のユー ザのジョブが実行される可能性があり、そのジョブに影響を与えることなく短時間でテ ストジョブを実行させた 、からである。  [0068] The reason that the “quick test” is completed only once in this way is that it is not desired to spend time on the execution of the test job. This is because the jobs of other users may be executed on each node 20-1 and 20-2, and the test job is executed in a short time without affecting the job.
[0069] また、「クイックテスト」の内容も、実行ノード 20— 1、 20— 2のディスクに対してのみ 行うのは、実行ノード 20—1、 20— 2が不調となる原因、即ち不調ノードの発生原因 は、ディスクに関するものが最も多ぐ順に、メモリ、ネットワークまわり、 CPUであり、 従って、ディスクに対してテストジョブを実行することで、不調ノードを殆んど検出でき るカゝらである。  [0069] Also, the contents of the "quick test" are only performed on the disks of the execution nodes 20-1 and 20-2 because the execution nodes 20-1 and 20-2 are malfunctioning, that is, the malfunctioning node. The cause of the occurrence is the memory, the network, and the CPU in the order of the largest number of disk-related issues. Therefore, by executing a test job on the disk, it is possible to detect almost all the malfunctioning nodes. is there.
[0070] 「クイックテスト」が実行された後、その実行結果はジョブ実行機能 21— 1、 21— 2か らジョブ実行管理機能 34に送信される。 [0070] After “Quick Test” is executed, the execution result is the job execution function 21—1, 21—2. Sent to the job execution management function 34.
[0071] ジョブ実行管理機能 34は、その実行結果を不調ノード等判定等機能 35に転送す る。不調ノード等判定等機能 35は、この実行結果により、テストジョブが正常終了した か否か判断できる。 The job execution management function 34 transfers the execution result to the malfunctioning node etc. determination function 35. Based on the execution result, the malfunction node determination function 35 can determine whether or not the test job has ended normally.
[0072] 尚、実行結果はジョブ実行管理機能 34によりジョブ実行履歴テーブル 38に記憶さ れる。  Note that the execution result is stored in the job execution history table 38 by the job execution management function 34.
[0073] 次いで、不調ノード等判定等機能 35は、取得リストから正常終了したジョブに対応 するノードを削除する(S14)。「ノード 1」が正常終了し、「ノード 5」が異常終了(アポ ート)したとき、「ノード 1」を削除する。  Next, the malfunctioning node etc. determination function 35 deletes the node corresponding to the normally completed job from the acquisition list (S14). When “Node 1” ends normally and “Node 5” ends abnormally (report), “Node 1” is deleted.
[0074] 次いで、リストに残ったノードを不調用クラスに変更する(S15)。即ち、リストに残つ た実行ノード 20— 1、 20— 2に対して以後ジョブを割り付けられな 、ようにする。 Next, the node remaining in the list is changed to a malfunctioning class (S15). That is, no job can be assigned to the remaining execution nodes 20-1 and 20-2.
[0075] 例えば、グリッドシステム 1が実行ノード 20— 1、 20— 2ごとにクラス名で管理するシ ステムの場合、ジョブをノード 20—1、 20— 2に割り当てないようにするため、例えば、 ユーザの知らないクラス名に変更することで、不調用のクラスに変更する。 [0075] For example, in the case where the grid system 1 is a system managed by class name for each of the execution nodes 20-1, 20-2, in order to avoid assigning jobs to the nodes 20-1, 20-2, for example, By changing to a class name that the user does not know, it is changed to a malfunctioning class.
[0076] 或いは、ノード 20— 1、 20— 2に対してキューを割り当てるようにしたシステムの場 合、「デフォルト」キューにユーザの知らない管理者専用のキュー名に変更して、ノー ドにジョブを割り当てな 、ようにする。 [0076] Alternatively, in the case of a system in which queues are assigned to the nodes 20-1 and 20-2, change the "default" queue to a queue name for the administrator who the user does not know, and change the name to the node. Do not assign jobs.
[0077] ノードテーブル 36にはクラス名が記憶されるので、不調ノード等判定等機能 35は、 ノード情報取得機能 32にノードクラス変更指示を与え、ノード情報取得機能 32により クラス名が変更される。 [0077] Since the class name is stored in the node table 36, the malfunctioning node etc. determination function 35 gives a node class change instruction to the node information acquisition function 32, and the node information acquisition function 32 changes the class name. .
[0078] 次いで、リストのノード管理者とグリッドシステムの管理者にジョブ割り付け禁止通知 を通知する(S16)。例えば、サーバ 30の「sendmail」機能により、ノード管理者やダリ ッドシステムの管理者が所有する端末に電子メールにより通知する。  Next, a job allocation prohibition notice is notified to the node managers of the list and the grid system manager (S16). For example, the “sendmail” function of the server 30 notifies the terminal owned by the node administrator or the daly system administrator by e-mail.
[0079] 尚、この通知を受けたノード管理者は、実行ノード 20— 1、 20— 2の状況を調査し、 実行ノード 20— 1、 20— 2のリブートや、故障部品の交換 (この例では、ディスクの交 換)等の対処を行うことができる。この対処により、以後不調ノードの発生を回避でき、 ジョブ実行障害の抑制を図ることができる。  [0079] The node administrator who has received this notification investigates the status of the execution nodes 20-1 and 20-2, reboots the execution nodes 20-1 and 20-2, and replaces faulty parts (this example Now, you can take actions such as disk replacement. By taking this measure, it is possible to avoid the occurrence of malfunctioning nodes and to suppress job execution failures.
[0080] 次いで、リストのノードをブラックリスト 39に登録する(S17)。図 6はブラックリスト 39 の例である。ブラックリスト 39は、「不調ノード」、「不良プログラム」、「不良ユーザ」に 関する各項目力 構成される。夫々「登録日」、「削除日」の項目がある。不調ノード 等判定等機能 35は、「ノード名」と「登録日」の情報をブラックリスト 39に転送して、各 情報が記憶される。 Next, the nodes of the list are registered in the black list 39 (S17). Figure 6 is a blacklist 39 It is an example. The black list 39 is composed of various items related to “bad node”, “bad program”, and “bad user”. There are items of “registration date” and “deletion date”, respectively. The malfunction node etc. determination function 35 transfers the information of “node name” and “registration date” to the black list 39, and each information is stored.
[0081] そして、再び S 10以降の処理を実行する。 [0081] Then, the processing after S10 is executed again.
[0082] 次に S10に示す「規定間隔」について説明する。一般的に機械の故障率は、例え ば、図 7に示すバスタブ曲線に従う。横軸は稼動期間を示し、縦軸は故障率を示す。 稼動開始から所定期間(図 7の例では「1ヶ月」)は初期故障期として、故障率が除々 に少なくなる傾向にある。そして、偶発期間(図 7の例では、「1ヶ月」から「2年」までの 期間)では、故障率は略一定で推移し、磨耗故障期(図 7の例では、「2年」経過後) では再び故障率が大きくなる。  Next, the “specified interval” shown in S10 will be described. In general, the failure rate of a machine follows the bathtub curve shown in Fig. 7, for example. The horizontal axis indicates the operation period, and the vertical axis indicates the failure rate. The predetermined period ("1 month" in the example of Fig. 7) from the start of operation is the initial failure period, and the failure rate tends to gradually decrease. In the accidental period (in the example shown in Fig. 7, the period from "1 month" to "2 years"), the failure rate remained substantially constant, and the wear failure period (in the example shown in Figure 7, "2 years" passed). After), the failure rate increases again.
[0083] このようなことから、規定間隔 (チェック間隔)は、稼動開始から間もない場合や、稼 動期間が長い場合、その間隔を短くして故障に備える。また、過去に不調があった場 合、特にその間隔を短くする。  [0083] For this reason, the specified interval (check interval) is shortened to prepare for failure when it is shortly after the start of operation or when the operation period is long. Also, if there has been a malfunction in the past, especially shorten the interval.
[0084] 例えば、ある実行ノード 20— 1では、稼動期間が「1年」(偶発故障期)で過去のブラ ックリスト 39の登録が「0」回の場合、規定間隔を「24時間間隔」とする。また、あるノー ド 20— 2では、稼動期間が「0. 5ヶ月」(初期故障期)で過去のブラックリスト 39の登 録が「0」回のとき、規定間隔を「12時間間隔」とする。さらに、稼動期間が「4年 1ヶ月 」の磨耗故障期で過去にブラックリスト 39に「1回」登録されたノード 20— 1は、不調ノ ードの再発を考慮して、「6時間間隔」などとする。  [0084] For example, in an execution node 20-1, when the operation period is "1 year" (accidental failure period) and the past blacklist 39 has been registered "0" times, the specified interval is "24 hour intervals". To do. Also, in a certain node 20-2, when the operation period is “0.5 months” (early failure period) and the past blacklist 39 has been registered “0” times, the specified interval is “12 hours interval”. To do. In addition, the node 20-1 that was previously registered “once” in the blacklist 39 during the wear-out period with an operating period of “4 years and 1 month” is considered to be “6 hour intervals”, considering the recurrence of the malfunctioning node. And so on.
[0085] 以上説明してきたように、本例では、空き状態のリスト(S 11)から規定間隔に達した ノードにテストジョブを自動投入し (S12、 S13)、正常終了したノードをリストから削除 し、リストに残ったノードが「不調ノード」であると判断している(S 14)。従って、ハング アップはして!/ヽな 、がプログラムが正常動作できな 、状況に陥った「不調ノード」を自 動検出することができる。  [0085] As described above, in this example, a test job is automatically submitted to a node that has reached the specified interval from the free list (S11) (S12, S13), and the node that has completed normally is deleted from the list. Then, it is determined that the node remaining in the list is the “malfunction node” (S14). Therefore, it is possible to hang up! / ヽ, but it is possible to automatically detect a “malfunction node” that falls into a situation where the program cannot operate normally.
[0086] そして、その「不調ノード」に対して、ジョブを割り付けないようしている(S15)ため、 グリッドコンピューティングシステム 1から「不調ノード」を自動排除することができる。  [0086] Since no job is assigned to the "malfunction node" (S15), the "malfunction node" can be automatically excluded from the grid computing system 1.
[0087] 更に、ノード管理者とグリッドシステム 1の管理者に割り付け禁止通知を通知してい る(S16)ため、ノード管理者等に「不調ノード」を知らせることができる。従って、ノード 管理者等は通知後初めてリブート等の対処を行えばよぐ運用工数の削減も図ること ができる。 [0087] Further, the node manager and the grid system 1 manager are notified of the assignment prohibition notification. (S16), it is possible to notify the node manager or the like of the “malfunction node”. Therefore, node managers can reduce the number of operation man-hours by taking measures such as rebooting for the first time after notification.
[0088] 更に、空き状態の実行ノード 20— 1、 20— 2からテストジョブを投入する実行ノード 2 [0088] Further, the execution node 2 that submits the test job from the execution nodes 20-1 and 20-2 in the empty state.
0—1、 20— 2を選択してテストジョブを実行させるようにしているため、ユーザのジョ ブのアボートを未然に防止することができる。 Since 0-1 and 20-2 are selected and the test job is executed, the user's job can be prevented from being aborted.
[0089] (1. 2)ユーザのジョブでアボートが発生した場合の例 [0089] (1.2) Example when abort occurs in user's job
前述の例では、ユーザのジョブのアボートが発生する前の段階でテストジョブを投 入する例について説明したが、本例では、アボートが実際に発生してしまった場合の 例について説明する。  In the above example, an example in which a test job is submitted at the stage before the user's job abort occurs has been described. In this example, an example in which an abort has actually occurred will be described.
[0090] 即ち、本例は、ユーザのジョブでアボートが発生した場合、アボートが発生したノー ドにテストジョブを自動投入し、その実行結果に基づ 、て不調ノードを判断し(自動検 出し)、そのノードにジョブを割り付けないようにし、更に、ノード管理者に通知する例 である。  That is, in this example, when an abort occurs in the user's job, a test job is automatically submitted to the node where the abort occurred, and a malfunctioning node is determined based on the execution result (automatic detection). In this example, no job is assigned to the node and the node administrator is notified.
[0091] 例えば、前述の「クイックテスト」によりアボートの未然防止を図るようにした力 「クイ ックテスト」でも検出できない原因でアボートが発生する場合がある。本例では、この ようなものでも「不調ノード」を自動検出できるようにした例である。従って、前述の例 によるテストジョブを実行後、本例による処理を実行することが望ましい。  [0091] For example, there is a case where an abort occurs due to a cause that cannot be detected by the "quick test", which is a force designed to prevent abort by the above-mentioned "quick test". In this example, it is possible to automatically detect “strange nodes” even in such cases. Therefore, it is desirable to execute the processing according to this example after executing the test job according to the above example.
[0092] 図 8は、本例における処理の動作を示すフローチャートの例である。不調ノード等 判定等機能 35で実行される処理である。  FIG. 8 is an example of a flowchart showing the operation of processing in this example. This is a process executed by the function 35 such as determination of malfunctioning node.
[0093] まず、ジョブがアボートした場合、以下の処理を行う(S20)。ジョブのアボート発生 は、ジョブ実行履歴テーブル 38からアボートしたジョブの情報(アボートイベント)を取 得すること〖こより確認できる。  First, when the job is aborted, the following processing is performed (S20). The occurrence of a job abort can be confirmed by obtaining information about the aborted job (abort event) from the job execution history table 38.
[0094] 次 、で、アボートしたジョブがテストジョブか否力判断する(S21)。アボート対象の ジョブは、テストジョブ以外のユーザのジョブのため、テストジョブによるアボートは除 かれる(S21で YES)。当該ジョブがテストジョブか否かは、ジョブ実行履歴テーブル 38から同様に取得できる。  Next, whether or not the aborted job is a test job is determined (S21). Since the job to be aborted is a user job other than the test job, the abort by the test job is excluded (YES in S21). Whether or not the job is a test job can be similarly obtained from the job execution history table 38.
[0095] アボートしたジョブがテストジョブでな!、とき(S21で NO)、アボートが発生したノード にテストジョブを投入する(S22)。この場合のテストジョブは、「フルテスト」(図 5の S6 0から S64までを一回実行)を行う。 [0095] When the aborted job is a test job! (NO in S21), the node where the abort occurred A test job is submitted to (S22). In this case, the test job performs a “full test” (from S60 to S64 in FIG. 5 performed once).
[0096] 即ち、図 5に示すように、ディスクに対するテスト(S61)が終了すると、次いで、メモリ に対して大きなサイズのファイルの書き込み(write)と比較(compare)を行う(S62)。 次いで、ネットワークアダプタのテスト(コマンド「ping」を実行)を行い(S63)、その後、 CPUのテストとして、例えば πを「1000桁」求める演算を行う(S64)。  That is, as shown in FIG. 5, when the test (S61) for the disk is completed, the writing (writing) and comparison (compare) of a large-sized file are performed on the memory (S62). Next, a network adapter test (execution of the command “ping”) is performed (S63). Thereafter, as a CPU test, for example, an operation for obtaining “1000 digits” of π is performed (S64).
[0097] 前述の例で説明したように、ジョブのアボート発生の原因は、「ディスク」、「メモリ」、「 ネットワークまわり」、「CPU」の順で発生する場合が多ぐこの順でテストジョブを実行 させることで、いずれかのテストによりアボートが発生する確率が高まる。従って、ジョ ブのアボートによる「不調ノード」を確実に検出することができる。  [0097] As described in the above example, the cause of job abort occurs in the order of "disk", "memory", "around the network", and "CPU". By executing, the probability that an abort will occur due to any of the tests increases. Therefore, it is possible to reliably detect “failure nodes” due to job aborts.
[0098] 尚、各テスト(S60から S64)は、いずれかのテストによりアボートが発生すると以後 の処理は行わず、アボートが発生しな 、と次のテストを行うように処理が進む。  Note that in each test (S60 to S64), if an abort occurs due to any of the tests, the subsequent process is not performed, and the process proceeds so that the next test is performed if no abort occurs.
[0099] 図 8に戻り、ジョブ実行機能 21— 1、 21— 2からの実行結果により、不調ノード等判 定等機能 35は、正常終了したか否かを判断できる(S23)。正常終了したとき(S23 で YES)は、一連の処理が終了して再び S20に戻る。  Returning to FIG. 8, from the execution results from the job execution functions 21-1 and 21-2, the malfunction node etc. determination function 35 can determine whether or not it has been normally completed (S23). When the process ends normally (YES in S23), the series of processing ends and returns to S20 again.
[0100] 一方、正常終了しないとき(S23で NO)、ノードを不調用のクラスに変更する(S24) 。前述の例と同様に、当該ノードにジョブを割り付けないようにする。  [0100] On the other hand, when the process does not end normally (NO in S23), the node is changed to an irregular class (S24). As in the previous example, no job is assigned to the node.
[0101] そして、ノード管理者とシステム管理者にジョブ割り付け禁止通知を通知する(S25 )。前述の例と同様に、例えば電子メールで通知する。この場合も、ノード管理者はこ のメールにより実行ノード 20— 1、 20— 2の状況を調査して種々の対処を行うことが できる。  Then, a job allocation prohibition notice is notified to the node administrator and the system administrator (S25). As in the above example, notification is made by e-mail, for example. In this case as well, the node administrator can investigate the status of the execution nodes 20-1 and 20-2 by this mail and take various actions.
[0102] 次いで、当該ノードをブラックリスト 39に登録する(S26)。「ノード名」と「登録日」を ブラックリスト 39に転送することで登録される。  Next, the node is registered in the black list 39 (S26). Registration is done by transferring the “node name” and “registration date” to the blacklist 39.
[0103] 本例では、アボートが発生した実行ノード 20— 1、 20— 2に対して、「フルテスト」の テストジョブを投入しているため(S22、 S60〜S64)、「不調ノード」を確実に自動検 出することができる。また、前述の例と同様に、自動検出した「不調ノード」にジョブを 割り付けな 、ようにして 、るため(S24)、「不調ノード」をグリッドシステム 1から自動排 除することができる。更に、同様に、ノード管理者等に割り付け禁止を通知しているた め(S5)、ノード管理者等に「不調ノード」を通知することができる。従って、ノード管理 者等の運用工数の削減も図ることができる。 [0103] In this example, a test job of "full test" is submitted to the execution nodes 20-1 and 20-2 where the abort occurred (S22, S60 to S64). It is possible to detect automatically. Similarly to the above-described example, in order not to assign a job to the automatically detected “failure node” (S24), the “failure node” can be automatically removed from the grid system 1. Similarly, the node administrator is notified of the prohibition of allocation. (S5), it is possible to notify the node manager or the like of the “malfunction node”. Therefore, the operation man-hours for node managers can be reduced.
[0104] (1. 3)ジョブの割り付け再開 [0104] (1.3) Resume job assignment
前述のいずれの例も「不調ノード」を自動検出すると、「不調ノード」に対してジョブ の割り付けを禁止するようにした (S 15、 S24)。本例では、ジョブが割り付けられなく なった実行ノード 20— 1、 20— 2に対して、定期的にテストジョブを自動投入し、その 実行結果に基づいて、ジョブの割り付けを再開し、ノード管理者に通知するようにした 例である。  In any of the above-mentioned examples, when the “malfunction node” is automatically detected, job assignment is prohibited for the “malfunction node” (S15, S24). In this example, a test job is automatically submitted periodically to the execution nodes 20-1 and 20-2 that are no longer assigned jobs, and job assignment is resumed based on the execution results. This is an example in which the person is notified.
[0105] 図 9は、本例における処理の動作を示すフローチャートの例である。不調ノード等 判定等機能 35で実行される。  FIG. 9 is an example of a flowchart showing the operation of processing in this example. Executed by function 35 such as judgment of malfunctioning node.
[0106] まず、規定間隔で以下の処理を繰り返す (S30)。ここでいう、規定間隔は図 7で説 明した規定間隔とは異なり、ある一定期間 (例えば、「6時間」ごと)で行われるもので ある。 First, the following processing is repeated at a specified interval (S30). The specified interval here is different from the specified interval described in FIG. 7 and is performed for a certain period (for example, every “6 hours”).
[0107] 次いで、ブラックリスト 39からジョブ割り当て禁止中のノードリストを取得する(S31) Next, the node list for which job assignment is prohibited is obtained from the black list 39 (S31).
。ブラックリスト 39の「不調ノード」の項目(図 6参照)から取得できる。 . It can be obtained from the item of “sad node” in blacklist 39 (see Figure 6).
[0108] 次いで、リストの実行ノード 20—1、 20— 2にテストジョブを投入する(S32)。この場 合のテストジョブは、「長時間繰り返しテスト」である。即ち、図 5に示す S60から S64ま での処理を複数回(例えば、「10回」)繰り返す。確実に「不調ノード」の状態力 脱出 した実行ノード 20— 1、 20— 2を検出するためである。 Next, a test job is submitted to the execution nodes 20-1 and 20-2 in the list (S32). The test job in this case is a “long-term repeated test”. That is, the processing from S60 to S64 shown in FIG. 5 is repeated a plurality of times (for example, “10 times”). This is to reliably detect the execution nodes 20-1 and 20-2 that have escaped the state power of the “failure node”.
[0109] 次いで、アボートしたジョブに対応するノードをリストから削除する(S33)。テストジョ ブの実行結果力もアボートしたジョブに対応する実行ノード 20— 1、 20— 2は「不調ノ ード」のため、かかる「不調ノード」をリストから削除する。 [0109] Next, the node corresponding to the aborted job is deleted from the list (S33). Since the execution nodes 20-1 and 20-2 corresponding to the aborted job of the test job execution result power are “failure nodes”, such “failure nodes” are deleted from the list.
[0110] 次いで、リストに残ったノードを正常用のクラス (元のクラス)に戻す (S34)。即ち、「 不調ノード」ではない実行ノード 20— 1、 20— 2にジョブの割り付けを再開させる。 Next, the nodes remaining in the list are returned to the normal class (original class) (S34). In other words, job allocation is resumed for the execution nodes 20-1, 20-2 that are not “failure nodes”.
[0111] 次いで、リストのノード管理者とグリッドシステム 1の管理者にジョブ割り付け再開を 通知する(S35)。上述の例と同様に、例えば電子メールで通知する。 [0111] Next, the node manager of the list and the manager of the grid system 1 are notified of the job allocation restart (S35). As in the above example, notification is made by e-mail, for example.
[0112] 次いで、ブラックリスト 39からリストのノードを削除する(S36)。不調ノード等判定等 機能 35は力かるノードの「ノード名」と「削除日」を転送することで、必要な情報が記憶 される。実際には、ブラックリスト 39には「削除日」が記憶され、ブラックリスト 39から当 該「不調ノード」の情報は削除されず履歴が残ることになる。 Next, the list node is deleted from the blacklist 39 (S36). Judgment of bad node etc. Function 35 stores necessary information by transferring “node name” and “deletion date” of the powerful node Is done. Actually, the “deletion date” is stored in the black list 39, and the information of the “malfunction node” is not deleted from the black list 39, and the history remains.
[0113] そして、再び S30に戻り、規定間隔経過後、上述の処理を繰り返す。 [0113] Then, the process returns to S30 again, and after the prescribed interval has elapsed, the above-described processing is repeated.
[0114] 本例では、「不調ノード」と判定された実行ノード 20—1、 20— 2でもその原因が解 決できれば(「不調ノード」と判定されなければ)、本グリッドシステム 1から自動排除さ れずに、再びジョブを自動的に割り付けることができ、種々のジョブを以後実行するこ とがでさる。 [0114] In this example, if the cause can be resolved even in the execution nodes 20-1 and 20-2 that are determined to be "stale nodes" (if they are not determined to be "stale nodes"), they are automatically excluded from the grid system 1. Instead, jobs can be automatically assigned again and various jobs can be executed later.
[0115] また、ジョブの割り付け再開もノード管理者等に通知しているため(S35)、その旨を ノード管理者は把握することができる。  [0115] Further, since the node manager or the like is also notified of the job allocation resumption (S35), the node manager can recognize that fact.
[0116] (2)ジョブ実行履歴力 不調ノード、不良ジョブ、不良ユーザを自動検出し自動排 除等する例 [0116] (2) Job execution history power Example of automatic detection and automatic removal of malfunctioning nodes, bad jobs, and bad users
次に、ジョブ実行履歴力 不調ノード、不良ジョブ、及び不良ユーザを自動検出し て自動排除等する例にっ 、て説明する。上述の(1)の 、ずれの例を実行させても、 他の原因で不調ノードを検出できない場合がある。本例では、このような場合でも確 実に不調ノードを検出できるようにした例である。従って、上述の例(1)、(2)を実行 後、本例の処理を行わせることが望ましい。  Next, a description will be given of an example in which a job execution history power failure node, a defective job, and a defective user are automatically detected and automatically excluded. Even if the example of deviation described in (1) above is executed, a malfunctioning node may not be detected for other reasons. In this example, a malfunctioning node can be reliably detected even in such a case. Therefore, it is desirable to execute the processing of this example after executing the above-described examples (1) and (2).
[0117] また、本例では、ジョブ実行途中でアボートするような問題あるプログラム(「不良ジョ ブ」)や、力かるプログラムを実行させるような問題あるユーザ(「不良ユーザ」)も自動 検出等することができる。 [0117] Also, in this example, there is a problem program ("bad job") that aborts during job execution, and a problem user ("bad user") that executes a powerful program automatically. can do.
[0118] 図 10及び図 11は、本例における処理の動作を示すフローチャートの例である。サ ーバ 30の不調ノード等判定等機能 35で実行される処理である。 FIG. 10 and FIG. 11 are examples of flowcharts showing processing operations in this example. This process is executed by the function 35 such as the determination of malfunctioning node etc. of the server 30.
[0119] まず、規定間隔で以下の処理を繰り返す (S40)。この場合の「規定間隔」も図 7の 例とは異なる。例えば、「6時間」ごとに行われる。 [0119] First, the following processing is repeated at a specified interval (S40). The “specified interval” in this case is also different from the example in Fig. 7. For example, it is performed every “6 hours”.
[0120] 次いで、規定期間でアボートしたジョブのリストとテストジョブのリストを取得する(S4[0120] Next, a list of jobs aborted in a specified period and a list of test jobs are acquired (S4
D o一定期間内でアボートしたジョブをリストイ匕する。これらの情報はジョブ実行履歴 テーブル 38から取得する。 Do a list of jobs aborted within a certain period of time. These pieces of information are acquired from the job execution history table 38.
[0121] 次いで、アボートジョブとテストジョブの両リストからノード、プログラム、ユーザの夫 々のユーザアボート回数を集計する(S42)。何という実行ノード 20— 1、 20— 2が何 回アボートしたか、何と!/、うプログラムで何回アボートしたか等の情報を集計する。 Next, the number of times of user aborts of each node, program, and user is totaled from both the abort job and test job lists (S42). What are the execution nodes 20—1, 20—2 Count information such as how many times you aborted, what! /, How many times you aborted in the program.
[0122] 尚、「ユーザアボート」とは、ユーザジョブはアボートしたが、テストジョブが終了した ケースである。テストジョブによるアボートは除かれる。  Note that “user abort” is a case where the user job is aborted but the test job is terminated. Aborts due to test jobs are excluded.
[0123] 次 、で、特定プログラムで多く発生した力否か判断する(S43)。プログラムでアポ ート回数を集計したものの中力 特定のプログラムのアボート回数が閾値よりも多い か否かで判断する。 [0123] Next, it is determined whether or not the force frequently generated in the specific program is determined (S43). Medium power of total number of aborts in the program Judges whether the number of aborts for a specific program is greater than the threshold.
[0124] 特定プログラムで多く発生したとき(S43で YES)、次 、でそのプログラムのアボート が多くのノードで発生した力否か判断する(S44)。各実行ノード 20— 1、 20— 2の集 計したアボート回数が閾値よりも多いか否かで判断する。  [0124] When many occur in a specific program (YES in S43), it is next determined whether or not the abort of the program has occurred in many nodes (S44). Judgment is made based on whether or not the total number of aborts of each execution node 20-1 and 20-2 is greater than the threshold.
[0125] 多くのノードで発生した場合(S44で YES)、即ち、ある特定のプログラムで、かつ、 多くのノードでアボートが発生した場合、そのプログラムのプログラム障害によりアポ ートが発生したものと考えられる。 [0125] If it occurs in many nodes (YES in S44), that is, if an abort occurs in a certain program and in many nodes, it is assumed that the abort occurred due to the program failure of that program. Conceivable.
[0126] 従って、当該プログラムは「不良ジョブ」と判定し、ジョブ投入者とグリッドシステムの 管理者にプログラム実行禁止を通知する(S45)。通知は、上述の例と同様に、例え ば電子メールで通知する。 Therefore, the program is determined to be a “bad job”, and the job execution prohibitor is notified to the job submitter and the grid system administrator (S45). The notification is sent by e-mail, for example, as in the above example.
[0127] 次いで、ブラックリスト 39にそのプログラムを登録する(S46)。図 6に示すように、「 不良プログラム」の項目に必要事項が記憶される。尚、「不良プログラム」の欄には「 保存パス」の項目がある。本グリッドシステム 1では、サーバ 30に「不良プログラム」が 記憶され、その保存先が「保存パス」に記憶される。 Next, the program is registered in the black list 39 (S46). As shown in Fig. 6, the necessary items are stored in the "Bad Program" item. In the “bad program” column, there is an item “save path”. In the grid system 1, the “bad program” is stored in the server 30 and the storage destination is stored in the “storage path”.
[0128] そして、再び S40に戻り処理を繰り返す。 [0128] Then, the process returns to S40 again to repeat the processing.
[0129] 一方、特定プログラムで多くアボートが発生して!/、るものの(S43で YES)、そのプロ グラムのアボートが多くのノードで発生して ヽな 、場合(S44で NO)や、特定プロダラ ム自体でアボートが多く発生して ヽな 、場合(S43で NO)、特定ユーザで多くァボー トが発生しているカゝ否カゝ判断する(S47)。集計したアボート回数のうち、ユーザに関 するアボート回数が閾値よりも多いか否かで判断する。  [0129] On the other hand, if many aborts occur in a specific program! /, But if the abort of the program is likely to occur in many nodes (NO in S44) If many aborts occur in the program itself (NO in S43), it is determined whether or not a specific user has a large number of aborts (S47). Judgment is made based on whether or not the number of aborts related to the user is greater than the threshold.
[0130] 特定ユーザで多く発生した場合(S47で YES)、次 、でそのユーザのアボートが多 くのノードで発生している力否力判断する(S48)。集計したアボート回数が閾値より 多いか否かで判断する。 [0131] そのユーザのアボートが多くのノードで発生している場合(S48で YES)、そのジョ ブを実行するユーザに問題がある、即ち「不良ユーザ」であると判断できる。例えば、 ジョブスクリプトの指定ミスを繰り返すようなユーザである。 [0130] If a large number of occurrences occur in a specific user (YES in S47), then it is determined whether or not the user's abort has occurred in many nodes (S48). Judgment is based on whether the total number of aborts is greater than the threshold. If the abort of the user has occurred in many nodes (YES in S48), it can be determined that there is a problem with the user executing the job, that is, the “bad user”. For example, a user who repeats mistakes in specifying a job script.
[0132] 従って、この場合、ジョブ投入者とグリッドシステムの管理者にユーザの実行禁止を 通知し(S49)、そのユーザをブラックリスト 39に登録する(S50)。通知は電子メール で行われる。ブラックリスト 39は、図 5に示すように、「不良ユーザ」の欄に必要事項が Accordingly, in this case, the job submitter and the grid system administrator are notified of the prohibition of execution of the user (S49), and the user is registered in the black list 39 (S50). Notification is sent via email. As shown in Fig. 5, the black list 39 has the necessary information in the `` bad user '' column.
SC fedれる。 SC fed.
[0133] そして、再び S40に戻り処理が繰り返される。  [0133] Then, the process returns to S40 again and the process is repeated.
[0134] 一方、特定ユーザでも多くアボートが発生しな 、場合 (S47で NO)、次 、で特定ノ ードで多く発生したか否力判断する(S51)。集計したアボート回数が閾値より多いか 否かで判断する。  On the other hand, if many aborts do not occur even for a specific user (NO in S47), then it is determined whether or not many aborts have occurred in a specific node (S51). Judgment is based on whether the total number of aborts is greater than the threshold.
[0135] 特定ノートで多くアボートが発生している場合(S51で YES)、即ち、特定プログラム で多くのアボートが発生しているわけではなく(S43で NO)、かつ、特定ユーザでも 多くのアボートが発生していないが(S47で NO)、特定ノードで多くのアボートが発生 しているとき(S51で YES)は、そのノードの「ノード不調」が原因であると考えられる。 従って、以下の処理では上述の(1)の例と同様に処理を行う。  [0135] When many aborts occur in a specific note (YES in S51), that is, many aborts do not occur in a specific program (NO in S43), and many aborts occur even in a specific user. If no abort has occurred (NO in S47) but many aborts have occurred in a specific node (YES in S51), it is considered that the “node malfunction” of that node is the cause. Accordingly, in the following processing, processing is performed in the same manner as the above-described example (1).
[0136] 即ち、そのノードを不調用のクラスに変更し (S52)、ノード管理者とグリッドシステム 管理者にジョブ割り付け禁止を通知し (S53)、そのノードをブラックリスト 39に登録す る(S54)。そして、 S40に戻り処理が繰り返される。  That is, the node is changed to a malfunctioning class (S52), the node manager and the grid system administrator are notified of job assignment prohibition (S53), and the node is registered in the blacklist 39 (S54). ). Then, the process returns to S40 and is repeated.
[0137] 尚、特定ノードでもアボートが多く発生していない場合(S51で NO)、処理は終了 する(S55)。  [0137] Note that if many aborts have not occurred even in the specific node (NO in S51), the process ends (S55).
[0138] このように、本例では、過去のジョブ実行履歴から、一定期間の実行ノード 20— 1、 [0138] Thus, in this example, the execution node 20-1 for a certain period of time from the past job execution history,
20- 2,プログラム、ジョブ投入ユーザごとのアボート回数^^計している。 20-2 The number of aborts per program and job submission user is counted.
[0139] そして、プログラム、ユーザのアボート回数がそれぞれ閾値以上のとき、過去ァボー ト多発のため、夫々「不良ジョブ」「不良ユーザ」としてこれらを自動検出し、ジョブ投 入者に通知するようにして 、る。 [0139] When the number of aborts of the program and the user is greater than or equal to the threshold value, respectively, since past aborts occur frequently, these are automatically detected as "bad job" and "bad user", respectively, and notified to the job submitter. And
[0140] また、実行ノード 20— 1、 20— 2の場合、そのノード 20— 1、 20— 2に対して以後ジ ヨブを割り付けな 、ようにし、その旨をノード管理者に通知して 、る。 [0141] 従って、「不調ノード」、「不良ジョブ」、及び「不良ユーザ」を自動検出し、 自動排除 することができる。 [0140] Also, in the case of the execution nodes 20-1 and 20-2, the job is not assigned to the nodes 20-1 and 20-2, and the node administrator is notified of this, The [0141] Therefore, it is possible to automatically detect and automatically exclude "strange nodes", "bad jobs", and "bad users".
[0142] 尚、「不良ジョブ」及び「不良ユーザ」の場合、通知を受けたジョブ投入者は、そのプ ログラムの障害を調査したり、環境依存性調査 (ジョブ依頼時の OSの指定ミスなど) をしたり、要求リソース指定見直しにより、プログラムやジョブ記述スクリプトの修正を 行って対処することができる。この対処により、その後、上述の処理を行うことで不良 ジョブ、不良ユーザの排除設定を解除することができ、以後、グリッドシステム 1にお いて通常運用を行い得る。  [0142] In the case of "bad job" and "bad user", the job submitter who received the notification investigates the failure of the program or investigates the environmental dependency (such as an OS specification error at the time of job request). ) Or by revising the requested resource specification to correct the program or job description script. As a result of this countermeasure, it is possible to cancel the rejection job / bad user exclusion setting by performing the above-described processing, and normal operation can be performed in the grid system 1 thereafter.
[0143] また、「不調ノード」の場合、通知を受けたノード管理者は実行ノード 20— 1、 20- 2 の状態を調査し、ノードのリブートや故障部品の交換等の対処を行う。その後、(1. 3 )の処理を行うことで、ジョブ割り付けを再開することができる。  [0143] In the case of "failure node", the node administrator who has received the notification investigates the status of the execution nodes 20-1 and 20-2, and takes measures such as rebooting the node and replacing the failed part. Thereafter, the job assignment can be resumed by performing the processing of (1.3).
[0144] いずれの場合も、ブラックリスト 39の「削除日」にその情報が記憶され、「不調ノード」 等の設定から解除される。  In any case, the information is stored in the “deletion date” of the black list 39, and the setting such as “failure node” is cancelled.
(3)その他の例  (3) Other examples
上述したいずれの例も、不調ノード等判定等機能 35はサーバ 30に備えられている ものとして説明した。例えば、ジョブ投入端末 10— 1、 10— 2や実行ノード 20— 1、 2 0— 2にあってもよいし、ネットワーク 100に接続された他の端末に備えられてもよい。 これらの場合でも、上述した例と同様の作用効果を奏する。  In any of the above-described examples, it has been described that the malfunctioning node etc. determination function 35 is provided in the server 30. For example, the job input terminals 10-1 and 10-2 and the execution nodes 20-1 and 20-2 may be provided, or may be provided in other terminals connected to the network 100. Even in these cases, the same effects as the above-described example are obtained.
[0145] また、上述したいずれの例においても、テストジョブの具体的な内容は図 5に示すも ので説明した。「ディスク」や「メモリ」に対するテストであれば、「write」 「compare」以 外のものでもよい。また、実行ノード 20—1、 20— 2の備えられたネットワーク関連の 機器に対するテストであればネットワークアダプタの「ping」以外の処理でもよ ヽ。更 に、「CPU」に対するテストであれば π以外の演算でもよい。いずれの場合でも、上 述の 、ずれの例にお 、ても実施可能で同様の作用効果を奏する。 [0145] In any of the above-described examples, the specific contents of the test job have been described with reference to FIG. If it is a test for “disk” or “memory”, it may be something other than “write” and “compare”. In addition, if the test is for a network-related device equipped with execution nodes 20-1 and 20-2, processing other than “ping” of the network adapter may be used. Furthermore, if it is a test for “CPU”, operations other than π may be used. In any case, the above-described example of deviation can be implemented and has the same effects.
産業上の利用可能性  Industrial applicability
[0146] 本発明は、グリッドコンピューティングシステムに利用して好適である。 [0146] The present invention is suitable for use in a grid computing system.

Claims

請求の範囲 The scope of the claims
[1] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリツ ドコンピューティングシステムにおけるジョブ実行障害の回避方法において、 前記グリッドコンピューティングシステムに対して、前記計算ノードで前記ジョブが実 行されていないときに前記計算ノードに応じた時間間隔で第 1のテストジョブを投入 することで、不調ノードを自動検出する、  [1] In a method for avoiding a job execution failure in a grid computing system in which a job is executed by a plurality of computing nodes connected to a network, the job is executed at the computing node with respect to the grid computing system. Automatically detect malfunctioning nodes by submitting the first test job at time intervals according to the compute nodes when not running
ことを特徴とするグリッドコンピューティングシステムにおけるジョブ実行障害の回避方 法。  A method of avoiding job execution failures in grid computing systems.
[2] 更に、前記不調ノードを自動検出したとき前記不調ノードに対して前記ジョブを割り 付けな!/、ようにし、前記不調ノードの発生を前記計算ノードの管理者の端末に通知 することを特徴とする請求項 1記載のグリッドコンピューティングシステムにおけるジョ ブ実行障害の回避方法。  [2] Furthermore, when the malfunctioning node is automatically detected, the job is not assigned to the malfunctioning node! /, And the occurrence of the malfunctioning node is notified to the terminal of the administrator of the computing node. The method for avoiding a job execution failure in the grid computing system according to claim 1, wherein
[3] 更に、前記第 1のテストジョブを除く前記ジョブが異常終了したときに、前記異常終 了が発生した前記計算ノードに第 2のテストジョブを投入することで前記不調ノードを 自動検出することを特徴とする請求項 1記載のグリッドコンピューティングシステムに おけるジョブ実行障害の回避方法。  [3] Further, when the jobs other than the first test job are abnormally terminated, the malfunctioning node is automatically detected by submitting a second test job to the calculation node where the abnormal termination has occurred. The method for avoiding a job execution failure in the grid computing system according to claim 1.
[4] 更に、前記第 2のテストジョブを投入して前記不調ノードを自動検出したとき、前記 不調ノードに対して前記ジョブを割り付けな 、ようにし、前記不調ノードの発生を前記 計算ノード管理者の端末に通知することを特徴とする請求項 3記載のグリッドコンビュ 一ティングシステムにおけるジョブ実行障害の回避方法。  [4] Further, when the second test job is submitted and the malfunctioning node is automatically detected, the job is not assigned to the malfunctioning node, and the occurrence of the malfunctioning node is determined by the computation node manager The method of avoiding a job execution failure in the grid delivering system according to claim 3, wherein notification is made to the terminal.
[5] 更に、前記ジョブを割り付けないようにした前記不調ノードに対して定期的に第 3の テストジョブを投入し、前記第 3のテストジョブの実行結果に基づ 、て前記ジョブの割 付を再開し、前記計算ノード管理者の端末に通知することを特徴とする請求項 2又は 4記載のグリッドコンピューティングシステムにおけるジョブ実行障害の回避方法。  [5] Further, a third test job is periodically submitted to the malfunctioning node that is not assigned the job, and the job assignment is performed based on the execution result of the third test job. 5. The method of avoiding a job execution failure in a grid computing system according to claim 2, wherein the processing is restarted and notified to the terminal of the computing node manager.
[6] 前記第 1のテストジョブは、前記計算ノードに備えられたディスク媒体に対するテスト であることを特徴とする請求項 1記載のグリッドコンピューティングシステムにおけるジ ヨブ実行障害の回避方法。  6. The method for avoiding a job execution failure in a grid computing system according to claim 1, wherein the first test job is a test for a disk medium provided in the computing node.
[7] 前記第 2のテストジョブは、前記計算ノードに備えられたディスク媒体、前記計算ノ ードに備えられたメモリ、前記計算ノードに備えられたネットワークに関する機器、前 記計算ノードに備えられた CPU、夫々の順に行われるテストであることを特徴とする 請求項 3記載のグリッドコンピューティングシステムにおけるジョブ実行障害の回避方 法。 [7] The second test job includes a disk medium provided in the calculation node, and the calculation node. The grid computing according to claim 3, wherein the test is performed in the order of a memory provided in a node, a network-related device provided in the calculation node, and a CPU provided in the calculation node. How to avoid job execution failures in the system.
[8] 前記第 3のテストジョブは、前記計算ノードに備えられたディスク媒体、前記計算ノー ドに備えられたメモリ、前記計算ノードに備えられたネットワークに関する機器、前記 計算ノードに備えられた CPU、夫々の順に複数回繰り返し行われるテストであること を特徴とする請求項 5記載のグリッドコンピューティングシステムにおけるジョブ実行 障害の回避方法。  [8] The third test job includes a disk medium provided in the calculation node, a memory provided in the calculation node, a network-related device provided in the calculation node, and a CPU provided in the calculation node. 6. The method for avoiding a job execution failure in a grid computing system according to claim 5, wherein the test is repeatedly performed a plurality of times in each order.
[9] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリツ ドコンピューティングシステムにおけるジョブ実行障害の回避方法において、  [9] In a method for avoiding a job execution failure in a grid computing system in which a job is executed by a plurality of computing nodes connected to a network,
前記グリッドコンピューティングシステムのテーブルに記憶された過去のジョブ実行 履歴から、前記計算ノード、前記計算ノードで実行されるプログラム、又は前記計算ノ ードを使用するユーザ、夫々の異常終了が多発しているときに、不調ノード、不良ジョ ブ、又は不良ユーザを夫々自動検出する、  From the past job execution history stored in the table of the grid computing system, the abnormal termination of the calculation node, the program executed on the calculation node, or the user using the calculation node frequently occurred. Automatically detect malfunctioning nodes, bad jobs, or bad users,
ことを特徴とするグリッドコンピューティングシステムにおけるジョブ実行障害の回避 方法。  A method for avoiding a job execution failure in a grid computing system.
[10] 更に、前記不調ノード、前記不良ジョブ、又は前記不良ユーザを自動検出したとき 、前記不調ノードである前記計算ノード、前記不良ジョブである前記プログラム、又は 前記不良ユーザ、夫々に対して前記ジョブを割り付けないようにし、ノード管理者の 端末又は前記不良ジョブを投入したユーザの端末に通知することを特徴とする請求 項 9記載のグリッドコンピューティングシステムにおけるジョブ実行障害の回避方法。  [10] Furthermore, when the malfunctioning node, the defective job, or the defective user is automatically detected, the calculation node as the malfunctioning node, the program as the defective job, or the defective user, respectively. 10. The method of avoiding a job execution failure in a grid computing system according to claim 9, wherein a job is not assigned and notified to a node manager's terminal or a user's terminal that has submitted the bad job.
[11] 更に、前記ジョブを割り付けないようにした前記不調ノードに対して、定期的にテス トジョブを投入し、その実行結果に基づいて前記ジョブの割り付けを再開し、前記ノー ド管理者の端末に通知することを特徴とする請求項 10記載のグリッドコンビユーティ ングシステムにおけるジョブ実行障害の回避方法。  [11] Furthermore, a test job is periodically submitted to the malfunctioning node which is not assigned to the job, and the job assignment is resumed based on the execution result. The method of avoiding a job execution failure in a grid combining system according to claim 10, wherein the notification is sent to the grid combination system.
[12] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリツ ドコンピューティングシステムにおけるジョブ実行障害の回避プログラムにおいて、 前記グリッドコンピューティングシステムに対して、前記計算ノードで前記ジョブが実 行されていないときに前記計算ノードに応じた時間間隔で第 1のテストジョブを投入 することで、不調ノードを自動検出する処理、 [12] In a job execution failure avoidance program in a grid computing system in which a job is executed by a plurality of computing nodes connected to a network. Processing for automatically detecting a malfunctioning node by submitting a first test job to the grid computing system at a time interval corresponding to the computing node when the job is not being executed on the computing node. ,
をコンピュータに実行させることを特徴とするプログラム。  A program that causes a computer to execute.
[13] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリッド コンピューティングシステムにおけるジョブ実行障害の回避プログラムにおいて、 前記グリッドコンピューティングシステムのテーブルに記憶された過去のジョブ実行 履歴から、前記計算ノード、前記計算ノードで実行されるプログラム、又は前記計算ノ ードを使用するユーザ、夫々の異常終了が多発しているときに、不調ノード、不良ジョ ブ、又は不良ユーザを夫々自動検出する処理、  [13] In a program for avoiding job execution failure in a grid computing system in which a job is executed by a plurality of computing nodes connected to a network, from a past job execution history stored in the table of the grid computing system , The calculation node, the program executed on the calculation node, or the user who uses the calculation node, each of the abnormal node, defective job, or defective user is automatically detected when each abnormal termination occurs frequently. Processing to detect,
をコンピュータに実行させることを特徴とするプログラム。  A program that causes a computer to execute.
[14] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリッド コンピューティングシステムにおいて、 [14] In a grid computing system in which jobs are executed by multiple computing nodes connected to the network,
前記計算ノードで前記ジョブが実行されていないときに前記計算ノードに応じた時 間間隔で第 1のテストジョブを投入することで、不調ノードを自動検出する不調ノード 検出手段、  A malfunctioning node detecting means for automatically detecting a malfunctioning node by submitting a first test job at a time interval according to the computing node when the job is not executed on the computing node;
を備えることを特徴とするグリッドコンピューティングシステム。  A grid computing system comprising:
[15] ネットワークに接続された複数の計算ノードによりジョブを実行させるようにしたグリッド コンピューティングシステムにおいて、 [15] In a grid computing system in which jobs are executed by a plurality of computing nodes connected to a network,
前記グリッドコンピューティングシステムのテーブルに記憶された過去のジョブ実行 履歴から、前記計算ノード、前記計算ノードで実行されるプログラム、又は前記計算ノ ードを使用するユーザ、夫々の異常終了が多発しているときに、不調ノード、不良ジョ ブ、又は不良ユーザを夫々自動検出する不調ノード等検出手段、  From the past job execution history stored in the table of the grid computing system, the abnormal termination of the calculation node, the program executed on the calculation node, or the user using the calculation node frequently occurred. Detecting means such as a malfunctioning node, a malfunctioning job, or a malfunctioning node that automatically detects a malfunctioning user,
を備えることを特徴とするグリッドコンピューティングシステム。  A grid computing system comprising:
PCT/JP2006/315159 2006-07-31 2006-07-31 Method and program for avoiding jog execution failure in grid computing system, and grid computing system WO2008015730A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/315159 WO2008015730A1 (en) 2006-07-31 2006-07-31 Method and program for avoiding jog execution failure in grid computing system, and grid computing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/315159 WO2008015730A1 (en) 2006-07-31 2006-07-31 Method and program for avoiding jog execution failure in grid computing system, and grid computing system

Publications (1)

Publication Number Publication Date
WO2008015730A1 true WO2008015730A1 (en) 2008-02-07

Family

ID=38996918

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/315159 WO2008015730A1 (en) 2006-07-31 2006-07-31 Method and program for avoiding jog execution failure in grid computing system, and grid computing system

Country Status (1)

Country Link
WO (1) WO2008015730A1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61101844A (en) * 1984-10-24 1986-05-20 Nec Corp Fault processing system
JPS641041A (en) * 1987-01-07 1989-01-05 Nec Corp System for detecting trouble in early stage
JPH01187644A (en) * 1988-01-21 1989-07-27 Mitsubishi Electric Corp Maintenance system for information processor
JPH05210529A (en) * 1992-01-31 1993-08-20 Fujitsu Ltd Multiprocessor system
JPH09185520A (en) * 1995-12-28 1997-07-15 Nec Corp Test diagnostic method for cluster constitution system
JPH09297694A (en) * 1996-05-01 1997-11-18 Sony Corp Device and method for arranging repair work
JP2005129053A (en) * 2003-10-22 2005-05-19 Hewlett-Packard Development Co Lp Fault-tolerant multi-core microprocessing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61101844A (en) * 1984-10-24 1986-05-20 Nec Corp Fault processing system
JPS641041A (en) * 1987-01-07 1989-01-05 Nec Corp System for detecting trouble in early stage
JPH01187644A (en) * 1988-01-21 1989-07-27 Mitsubishi Electric Corp Maintenance system for information processor
JPH05210529A (en) * 1992-01-31 1993-08-20 Fujitsu Ltd Multiprocessor system
JPH09185520A (en) * 1995-12-28 1997-07-15 Nec Corp Test diagnostic method for cluster constitution system
JPH09297694A (en) * 1996-05-01 1997-11-18 Sony Corp Device and method for arranging repair work
JP2005129053A (en) * 2003-10-22 2005-05-19 Hewlett-Packard Development Co Lp Fault-tolerant multi-core microprocessing

Similar Documents

Publication Publication Date Title
US11108859B2 (en) Intelligent backup and recovery of cloud computing environment
JP4462969B2 (en) Failover cluster system and failover method
US20050234919A1 (en) Cluster system and an error recovery method thereof
US20080172679A1 (en) Managing Client-Server Requests/Responses for Failover Memory Managment in High-Availability Systems
JP2019008417A (en) Information processing apparatus, memory control method and memory control program
US8892702B2 (en) Policy driven autonomic computing-programmatic policy definitions
US8381222B2 (en) Policy driven automation—specifying equivalent resources
JP5444178B2 (en) Backup / restore processing device, backup / restore processing method and program
CN108369544B (en) Deferred server recovery in a computing system
CN106330523A (en) Cluster server disaster recovery system and method, and server node
JP2011103030A (en) Incident management method and operation management server
US20100251248A1 (en) Job processing method, computer-readable recording medium having stored job processing program and job processing system
US7886196B2 (en) Fast detection of process outages
US9497138B2 (en) Managing capacity in a data center by suspending tenants
TWI686696B (en) Compute node, failure detection method thereof and cloud data processing system
US7206975B1 (en) Internal product fault monitoring apparatus and method
JP4796086B2 (en) Cluster system and method for selecting master node in the same system
CN107122271B (en) Method, device and system for recovering node event
US11163647B2 (en) System and method for selection of node for backup in distributed system
WO2008015730A1 (en) Method and program for avoiding jog execution failure in grid computing system, and grid computing system
US8589924B1 (en) Method and apparatus for performing a service operation on a computer system
US8595349B1 (en) Method and apparatus for passive process monitoring
JP2009086758A (en) Computer system and system management program
JP4703681B2 (en) Cluster system and takeover node determination method
US20220067019A1 (en) Data cooperation system and control system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 06782037

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase in:

Ref country code: DE

NENP Non-entry into the national phase in:

Ref country code: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06782037

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase in:

Ref country code: JP