WO2007072567A1

WO2007072567A1 - 並列処理支援装置

Info

Publication number: WO2007072567A1
Application number: PCT/JP2005/023650
Authority: WO
Inventors: Hitoshi Uehara; Hideharu Sasaki; Yoshikazu Sasai
Original assignee: Japan Agency For Marine-Earth Science And Technology
Priority date: 2005-12-22
Filing date: 2005-12-22
Publication date: 2007-06-28
Also published as: JPWO2007072567A1; JP4846736B2

Abstract

処理対象データファイル群，処理対象データファイル群に対する並列処理を行うノード数，処理内容の指定を含む並列処理指定情報を受け付けると、指定されたノード数と各ノードの使用及び負荷状況とに基づいて、各処理対象データファイルへのノードの配置を決定し、各処理対象データファイルを配置決定結果に従って各ノードに配置する命令文及び並列処理実行の命令文を含む制御プログラムと、各ノードが処理対象データファイルの処理を行う場合に参照される並列処理の設定ファイルとを生成して出力する並列処理支援装置である。

Description

明細書

並列処理支援装置

技術分野

[0001] 本発明は、計算機科学分野において、大規模シミュレーションデータのような大量のデータファイルを処理する技術に関する。

背景技術

[0002] 海洋シミュレーションシステムのような大規模シミュレーションシステムで行われるシミュレーシヨンの結果は、大量のデータファイルから構成される。大量のデータフアイノレは、サイズにして数十テラバイト以上、ファイル数にして一万個以上になることは珍しくなレ、。一般に、このような大量のデータファイルは、同じ形式で作成されておらず、データの内容に応じた若干異なる形式を有する場合が多い。

[0003] また、数値シミュレーションでは、一般に、図 16Aに示すような線分の交点が計算グリツドとして規定され、この計算グリッドに基づレ、て数値データに対する処理 (例えば物理量の計算)が進められる。し力しながら、数値データが持つ物理的な特性や、計算式の都合等の諸事情により、一部の数値データに対する処理 (物理量の計算)は、図 16Bに示すような異なる計算グリッドに基づいて行われることがしばしばある。

[0004] ここに、図 16Aに示された計算グリッド (「第 1の計算グリッド」と呼ぶ)に基づいて算出された第 1のデータファイルと、図 16Bに示された計算グリッド (「第 2の計算グリッド」と呼ぶ)に基づいて算出された第 2のデータファイルとが存在する場合を仮定する。さらに、第 1及び第 2のデータファイルから、例えば、東経 120. 1度から 121. 6度までの領域 (切り出し範囲)に存するデータを切り出す場合を仮定する。

[0005] この場合、第 1のデータファイルから 2つの計算グリッドに対応するデータが切り出され、第 2のデータファイルから 4つの計算グリッドに対応するデータが切り出される。ところが、第 1のデータファイル力らも 4つの計算グリッドに対応するデータの切り出しが望まれる場合には、上記した切り出し範囲に従って切り出されるデータ (切り出しデータ)は不十分なものとなる。

[0006] 上記したような第 1のデータファイルがどのような計算グリッドに基づいて算出されたデータを含んでいるかという、データファイル中のデータの詳細を示すデータを、本明細書では「メタデータ」と呼ぶ。

[0007] 従来では、メタデータをシミュレーションデータから分離して保管したり、ユーザが、処理対象のシミュレーションデータファイル毎に、対応するメタデータを指定入力したりしていた。

発明の開示

発明が解決しょうとする課題

[0008] 大規模シミュレーションの結果として生成されたシミュレーションデータをシミュレ一シヨン後にさらにデータ処理仕様とする場合、それらの大量のデータファイルのそれぞれに対して、ユーザ力 Sメタデータを指定入力することは、ユーザに多大な労力を払うことを強いることになる。また、ユーザ力 Sメタデータを誤って指定するおそれもあった

[0009] また、大量のデータ処理を効率的に行うには並列処理 (並列計算)が有効である力その並列計算を並列計算機群に実行させるための制御プログラム (スクリプト)を用意する必要がある。従来、スクリプトは、ユーザによって記述されていた。このため、ユーザには並列計算に係るスクリプトの記述知識が要求され、これがシステム利用の簡便性を阻害するとともに、ユーザに労力負担を強いることになつていた。また、スクリプトの記述ミスにより適正な並列計算が実行されないおそれもあった。

[0010] 本発明の目的は、大量のデータファイルに対する処理を簡便に行うことが可能な技術を提供することである。

課題を解決するための手段

[0011] 本発明は、上記目的を達成するため、以下の手段を採用する。

[0012] すなわち、本発明は、処理対象データファイル群，この処理対象データファイル群に対する並列処理を行う並列計算機群中の計算ノードの数，前記処理対象データフアイル群に対する処理内容の指定を含む並列処理指定情報を受け付ける受付手段と、

前記並列計算機群に含まれる複数の計算ノードのそれぞれに対する使用及び負荷状況を格納した記憶手段と、前記指定された計算ノードの数と、前記使用及び負荷状況とに基づいて、前記指定された数の計算ノードに対する前記処理対象データファイル群を構成する各処理対象データファイルの配置を決定する決定手段と、

前記各処理対象データファイルを配置の決定結果に従って前記指定された数の計算ノードに配置するデータ配置命令文と、前記決定された複数の計算ノードに対する前記処理対象データファイル群の並列処理実行の命令文とを含む制御プログラムを生成する制御プログラム生成手段と、

前記決定された複数の計算ノードのそれぞれが、自身に配置された処理対象データファイルの処理を行う場合に参照される並列処理の設定ファイルであって、処理対象データファイル毎に、処理対象データファイルのファイル識別子と、処理データファィルが配置される計算ノードの識別子と、指定された処理内容の記述を含む設定フアイルを生成するファイル生成手段と、

を含む並列処理支援装置である。

[0013] 好ましくは、本発明において、前記決定手段は、前記処理対象データファイル群を構成する各処理対象データファイルについて、前記並列計算機群に含まれる前記指定された計算ノード数の計算ノードから、処理対象データファイルとこれに対する処理結果ファイルとを格納可能な記憶容量を有する計算ノードを選出し、

選出された計算ノードのうち、現在の処理負荷が最も小さい計算ノードを前記処理対象データファイルを配置すべき計算ノードとして決定する。

[0014] また、好ましくは、本発明において、前記並列処理指定情報は、処理対象データフアイルに対する処理の結果として生成される処理結果ファイルの保管位置の指定を含み、

前記制御プログラム生成手段は、処理結果ファイルを前記保管位置へ転送することを示す命令文を含む前記制御プログラムを生成する。

[0015] また、好ましくは、本発明は、前記処理データファイル毎に、処理データファイルに関連する関連データファイルがあるか否かを判定する判定手段をさらに含み、関連データファイルを有する処理対象データファイルが前記判定手段で検知された場合に、前記決定手段は、処理対象データファイル及びこれに対する関連データファイルを同一の計算ノードに配置する。

[0016] また、好ましくは、本発明において、前記判定手段は、関連データファイルがあるか否かを、処理対象データのメタデータに基づいて判定する。

[0017] この場合、処理対象データファイルの指定は、データファイルの格納位置情報と、データの詳細を示すキーワードとを含むファイル識別子の指定により行われ、前記メタデータを格納したメタデータ格納手段と、

前記ファイル識別子から前記キーワードを抽出する抽出手段と、

抽出されたキーワードに対応するメタデータを前記メタデータ格納手段から検索する検索手段とをさらに含み、

前記判定手段は、検索されたメタデータを用いて前記判定を実行するように構成される。

[0018] また、本発明は、上記した並列処理支援装置と同様の特徴を有する並列処理支援方法，プログラム，このプログラムを記録した記録媒体として特定することができる。発明の効果

[0019] 本発明によれば、大量のデータファイルに対する処理を簡便に行うことが可能となる。また、本発明によれば、処理対象データに対するメタデータの指定をユーザが行わなくて済む。

図面の簡単な説明

[0020] [図 1]本発明を適用可能なシミュレーションシステムの構成例を示す図である。

[図 2]図 1に示した制御用コンピュータの構成例を示す図である。

[図 3]図 1に示したノードの構成例を示す図である。

[図 4]図 2に示した処理対象データファイルを格納するファイルデータベースのディレクトリ構造例を示す図である。

[図 5]図 2に示したメタデータテーブルのデータ構造例を示す図である。

[図 6]図 2に示した使用及び負荷分散状況テーブルのデータ構造例を示す図である

[図 7]システムのユーザに提供されるユーザインタフェース (指定画面)の表示例を示す図である。 [図 8]ユーザインタフェースを用いて入力される並列処理指定情報のファイルの記述例を示す図である。

[図 9]並列処理用ジョブスクリプト及び並列処理プログラム用設定ファイルの作成処理のメインルーチンを示すフローチャートである。

[図 10]並列処理用ジョブスクリプト及び並列処理プログラム用設定ファイルの作成処理のメインルーチンを示すフローチャートである。

[図 11]並列処理用ジョブスクリプト及び並列処理プログラム用設定ファイルの作成処理のメインルーチンを示すフローチャートである。

[図 12]メタデータの解析'取得に係るサブルーチンを示すフローチャートである。

[図 13]処理対象データファイルの配置先となるノードの検索及び決定処理のサブル一チンを示すフローチャートである。

[図 14]並列処理プログラム用設定ファイルの記述例を示す図である。

[図 15]並列処理プログラムの実行処理を示すフローチャートである。

園 16A]処理対象データに対するメタデータとして用意される計算グリッドの例を示す図である。

園 16B]処理対象データに対するメタデータとして用意される、図 16Aの計算グリッドと異なる計算グリッドの例を示す図である。

符号の説明

X···並列計算機群

Υ···制御用のコンピュータ

1, 11---CPU

2, 12·· 'メインメモリ

3, 14···外部記憶装置

7·· '入力装置

8···表示装置

6, 15···通信インタフェース

31···ファイルデータベース

32···メタデータテーブル 33 · · '使用及び負荷分散情報テーブル

発明を実施するための最良の形態

[0022] 以下、図面を参照して本発明の実施形態について説明する。実施形態における構成は例示であり、本発明は、実施形態の構成に限定されない。

[0023] 〔シミュレーションシステム〕

図 1は、本発明を適用可能なシミュレーションシステムの構成例を示す図である。図

1に示す例では、シミュレーションシステムは、並列計算機群 Xと、並列計算機群 Xに通信回線 (ネットワーク)を介して接続された制御用のコンピュータ (情報処理装置) Yとからなる。

[0024] 並列計算機群 Xは、海洋大循環モデルのような大規模シミュレーションデータを構成する多数のデータファイルに対する並列処理を行う複数の計算ノード (ノード) # 0 〜# n(nは自然数)からなる。

[0025] コンピュータ Yは、並列計算機群 Xでの処理対象となるシミュレーションデータ (処理対象データ)を管理しており、ユーザの操作に応じて、シミュレーションデータを用いた並列処理を並列計算機群 Xに実行させる場合の制御を行う。

[0026] シミュレーションシステムのユーザは、コンピュータ Yによって提供される UI (ユーザインタフェース)を通じて、並列計算機群 Xを用いた大量の処理対象データ (処理対象データ群)の並列処理を実行するための並列処理指定情報を入力する。

[0027] ここに、並列処理指定情報は、並列処理の対象となる複数のシミュレーションデータファイル (処理対象データファイル群)，処理対象データファイル群に対する並列計算機群 Yの処理内容 (処理種別，処理詳細パラメータ)，並列処理を行う複数のノード (ノード数)，並列処理の結果生成されるファイル (処理済みデータファイル (処理結果ファイル))の保管位置などの指定を含むことができる。

[0028] コンピュータ Yは、入力された並列処理指定情報に基づいて、並列計算機群 Xに並列処理に係る制御指示を与えるための並列処理用ジョブスクリプト (並列計算機群 Y の制御用プログラム：以下「スクリプト」と表記することもある)と、並列処理を実行する各ノードが処理対象データファイルを処理する際に参照される並列処理プログラム用設定ファイル (以下「設定ファイル」と表記することもある)とを自動的に生成する。 [0029] コンピュータ Yは、スクリプトの生成過程にぉレ、て、各処理対象データファイルに対するメタデータ (処理対象データの詳細情報)の取得，及び並列計算機群 Xに対する処理対象データファイル群の配置決定を行う。メタデータ及び配置決定結果は、スクリブトの記述内容に反映される。

[0030] コンピュータ Υは、スクリプトの実行を通じて、処理対象データファイル群を複数のノードへ分散配置 (分配)するとともに、これらのノードに対して並列処理プログラム (ジョブ)の実行を指示する。各ノードは、設定ファイルの記述に従って並列処理プログラムを実行し、分配された処理対象データファイルに対する処理を、対応するメタデータに基づいて行う。当該処理を通じて処理結果ファイルが作成される。処理結果フアイノレは、並列処理指定情報として指定された保管位置にて保管される。

[0031] 〈コンピュータ Υ〉

図 2は、コンピュータ Υの構成例を示す図である。図 2において、コンピュータ Υは、バス Βを介して相互に接続された CPU1,メインメモリ (MM :例えば RAM)2,外部記憶装置 (例えばハードディスク) 3,入出力インタフェース (I/F)4及び 5,並びに通信ィンタフェース 6を備えてレ、る。

[0032] I/F4には、入力手段としての入力装置 (キーボード，ポインティングデバイス (例えばマウス)等)が接続されており、 I/F5には、出力手段としての表示装置 (ディスプレィ) 8が接続されている。さらに、通信 I/F6は、通信回線 (ネットワーク)を介して各ノード # 0〜 # nに接続されてレ、る。

[0033] 外部記憶装置 3には、大規模シミュレーションデータを構成する大量のシミュレーシヨンデータファイルを格納したファイルデータベース (ファイル DB)31と、各データファィルに対応するメタデータ (シミュレーションデータの詳細情報)を格納したメタデータテーブル 32と、処理対象データファイル群を複数のノードに分散配置する場合に参照される各ノードの使用及び負荷分散状況テーブル 33(以下、「状況テーブル 33」と表記)とが格納されている。ファイル DB31とメタデータテーブル 32とは異なる記憶領域上に作成されている。

[0034] さらに、外部記憶装置 3には、コンピュータ Yを、シミュレーションデータやメタデータの管理装置として機能させるとともに、並列計算機群 Y (ノード # 0〜# n)の制御装置として機能させるためのプログラムが格納されている。

[0035] CPU1は、外部記憶装置 3に記録されたプログラムを MM2にロードして実行することにより、例えば、次のような機能を実現する。

(1)シミュレーションシステムのユーザに対し、入力装置 7及び表示装置 8を用いた並列処理指定情報の入力 (指定)環境 (UI :ユーザインタフェース)を提供する。

(2)並列処理指定情報に基づいてスクリプト及び設定ファイルを作成する。

(3)スクリプトの作成時にぉレ、て、処理対象としてユーザにより指定された複数のシミュレーシヨンデータファイル (処理対象データファイル群)のそれぞれに対応するメタデータを検索及び取得する。

(4)スクリプトの作成時にぉレ、て、処理対象データファイル群を構成する各処理対象データファイルを処理するノード (処理対象データファイルの配置)を決定する。

(5)処理対象データファイル群、及び処理対象データファイル群の並列処理によって生成される処理結果ファイルの転送制御を行う。

[0036] なお、 CPU1が本発明に係る受付手段，決定手段，制御プログラム生成手段，ファィル生成手段，判定手段に相当する。また、 CPU1は、ファイル識別子の指定を受け付ける受付手段，ファイル識別子力メタデータ検索用のキーワードを抽出する抽出手段，及びキーワードに対応するメタデータを検索する検索手段として機能することができる。また、外部記憶装置 3が本発明に係る記憶手段に相当する。また、外部記憶装置 3は、検索手段によって検索されるメタデータを格納したメタデータ格納手段として機能する。

[0037] 〈並列計算機群 X〉

並列計算機群 Xを構成する各ノード # 0〜# nは、同じ構成を有している。図 3は、ノードの構成例を示す図である。ノードは、バス B1を介して相互に接続された CPU1 1 ,メインメモリ 12,計算プロセッサ 13,外部記憶装置 (例えばハードディスク) 14,及び通信インタフェース (通信 IZF)15を備えている。通信 IZF15は、ネットワークを介してコンピュータ Y及び他のノードに接続されてレ、る。

[0038] ノードは、コンピュータ Yから転送されてくる処理対象データファイルを通信 I/F15 で受信し、これを外部記憶装置 14に格納する。また、ノードは、コンピュータ Yからの並列処理命令や設定ファイルを通信 I/F15を介して受信する。

[0039] すると、 CPU11が、設定ファイルの記述に従って、外部記憶装置 3に予め格納されている並列処理プログラムの実行を開始する。処理対象データを用いた計算には計算プロセッサ 13が使用される。計算プロセッサ 13は、外部記憶装置 14に格納された処理対象データファイルを MM12上に読み出し、これを用いた所定の処理 (例えば、データファイル中の所定領域の切り出し、物理量の計算)を実行する。この所定の処理は、メタデータに基づいて実行される。

[0040] 所定の処理によって、処理結果ファイルが生成され、外部記憶装置 14に格納される。外部記憶装置 14に格納された処理結果ファイルは、所定の保管位置に移動 (転送)される。

[0041] CPU11は、設定ファイルに従って、並列処理を実行する並列処理手段として機能する。また、 CPU11は、ファイル識別子の指定を受け付ける受付手段，ファイル識別子力メタデータ検索用のキーワードを抽出する抽出手段，及びキーワードに対応するメタデータを検索する検索手段として機能することができる。また、外部記憶装置 1 4は、検索手段によって検索されるメタデータを格納したメタデータ格納手段として機能する。

[0042] く DB及びテーブルのデータ構造〉

次に、図 2に示したファイル DB31 ,メタデータテーブル 32,並びに、使用及び負荷状況テーブル (状況テーブル) 33の詳細を説明する。

[0043] 《ファイル DB31》

ファイル DB31は、大量のシミュレーションデータファイル (以下、単に「データフアイノレ」と表記することもある)を、ディレクトリ構造を用いて分類及び格納している。

[0044] 図 4は、ファイル DB31のディレクトリ構造の例を示す図である。ファイル DB31内には、ルートディレクトリ (図 4ではディレクトリ" data")を起点としたディレクトリツリーが形成されており、各階層のディレクトリには、所定のディレクトリ名が付与されている。データファイルは、ディレクトリツリー中の末端に位置するディレクトリ内に格納され、所定のデータファイル名が付与されてレ、る。

[0045] データファイルは、ファイル識別子を用いて識別される。ファイル識別子は、ルートディレクトリから末端のディレクトリまでに至るまでの、ディレクトリツリーの経路 (パス)上に位置する各ディレクトリの名称 (パス名)と、データファイル名との羅列により表現される。

[0046] 例えば、図 4におけるデータファイル名" timeXXX.000.000.dat"を有するデータファィノレのフアイノレ識別子は、 7data/experimentA/3D/statisticsA/variableB/timeXXX. 000.000"である。このように、ファイル識別子は、データファイルの格納位置情報 (ファィルパス)を含んでいる。

[0047] また、ファイル識別子中のディレクトリ名（"3D", "statsticsA"， "variableB"等)ゃデータファイル名（"timeXXX.000.000")は、データファイル中のデータの詳細 (性質等)を示すキーワードとして規定されている。キーワードは、任意の 1以上の文字で構成され、ディレクトリ名及びデータファイル名中の、少なくとも 1箇所に配置される。但し、フアイル名の拡張子部分にキーワードは設定されない。キーワードは、処理対象データに対応するメタデータを検索するための検索キーとして機能する。

[0048] なお、データファイルは、必ずしも 1つの記憶領域に格納される必要はなぐコンビユータ Yの内部又は外部に配置される複数の記憶領域上に分散して格納されていても良い。

[0049] 《メタデータテーブル》

メタデータテーブル 32は、ファイル識別子中のキーワードに対応するメタデータを格納している。図 5は、メタデータテーブル 32のデータ構造例を示す図である。

[0050] 図 5に示す例では、メタデータテーブル 32は、検索キー (キーワード)と、これに対応するメタデータとを格納した複数のレコードからなる。キーワードは、ユーザにより指定されたデータファイル (処理対象データファイル)のファイル識別子から検索キーとして抽出される。

[0051] メタデータは、シミュレーションデータ (処理対象データ)の詳細 (性質や属性等)を示す情報であり、例えば、処理対象データの物性を示す情報であったり、統計処理や時空間 (縦、横、高さ、時間 (年月日時))に関する情報であったりする。例えば、図 16 Aや図 16Bに示した計算グリッドの情報は、空間に関する情報である。このような計算グリッドの情報を表すキーワードとして、例えば、任意の文字数で表される変数名が適用される。

[0052] なお、図 5では、ファイル識別子に含まれるディレクトリ名の一つ力 1つのメタデータに対応する場合を示している。これに代えて、例えば、 1つのファイル識別子に含まれる複数のキーワードの組み合わせから 1つのメタデータが検索されるように構成しても良い。また、ディレクトリ名やデータファイル名 (拡張子を除く)の一部に、キーヮードが含まれ、部分一致検索でキーワードがファイル識別子から抽出されるようにしても良レ、。また、ファイル識別子中のファイルパス部分のみに、キーワードが設定される構成を採用することもできる。

[0053] 《状況テーブル 33》

図 6は、状況テーブル 33のデータ構造例を示す図である。状況テーブル 33は、ノード毎に用意された複数の小テーブル 34からなる。各小テーブル 34は、同じデータ構造を有している。小テーブル 34は、ノードの使用が許可されているユーザの識別情報 (ユーザ ID)と、ユーザが使用可能な当該ノードの外部記憶装置 14の最大サイズ (許可最大容量)と、ユーザが現在使用している外部記憶装置 14の容量 (負荷)とを要素 (項目）とするレコードの集合で構成されている。各小テーブル 34には、ノード識別子が付与されており、ノード識別子と対応する情報が当該小テーブルに格納される。

[0054] 〈ユーザインタフェース (UI)〉

図 2に示すコンピュータ Yにおいて、 CPU1は、プログラムの実行を通じて、コンビュータ γのユーザに対し、並列処理指定情報の入力環境 (UI)を提供する。

[0055] ユーザは、 UIを用いて、並列処理指定情報の要素 (項目）たる、処理対象データフアイル群 (ファイル識別子)，処理対象データファイル群を処理する複数のノード，処理対象データファイル群に対する処理内容 (処理種別及び詳細パラメータ)，処理結果ファイルの保管位置等を指定することができる。

[0056] 図 7は、 UIとして提供される並列処理指定情報の指定画面の例を示す図である。

指定画面は、 CPU1によるプログラムの実行を通じて、表示装置 8のスクリーンに表示される。

[0057] 図 7に示す例では、指定画面は、ファイルパス表示欄 81と、ファイルリスト表示欄 82 と、コマンド入力欄 83とを備えている。ファイルパス表示欄 81には、ユーザが入力装置 7を用いて選択したファイル DB31内のディレクトリ (ファイルパス)が表示される。

[0058] また、ファイルリスト表示欄 82には、ファイルパス表示欄 81に表示されたファイルパスに対応するデータファイル (ファイルパス中の末端のディレクトリに格納されたデータファイル)のリスト (ファイルリスト)を表示する。また、コマンド入力欄 83は、処理対象データファイルに対する処理に係るコマンドを入力するために使用される。

[0059] ユーザは、入力装置 7を操作して、ファイルパス表示欄 81に所望のファイルパスを表示させる (ファイルパスを選択する)ことができる。ファイルパスの選択結果に応じて、ファイルリスト表示欄 82の表示内容が変更され、ファイルパスに応じたファイルリストが当該表示欄 82に表示される。

[0060] ユーザは、入力装置 7を用いたカーソル操作で、ファイルリスト表示欄 82に表示されたファイルリストから所望のファイル名をしていすることで、処理対象データファイルのファイル識別子を指定することができる。このとき、カーソル操作を通じて、複数のデータファイルを一時に指定することもできる。このように、ユーザは、ファイルパス表示欄 81及びファイルリスト表示欄 82を用いて、処理対象データファイルのファイル識別子を指定することができる。

[0061] また、ユーザは、コマンド入力欄 83を用いて、並列処理に使用するノード (ノード数） ,処理対象データファイル群に対する処理内容，処理結果ファイルの保管位置等を指定入力することができる。

[0062] なお、ノード数，処理パラメータ，保管位置の指定に際して、スクリーン上に指定内容の選択肢が表示され、ユーザがカーソル操作で所望の選択肢を選択することにより、これらが指定されるように構成することができる。

[0063] 〈スクリプト及び設定ファイルの生成〉

ユーザが、上述したような UIを用いて並列処理指定情報の各要素を指定し、その指定内容の確定操作を行うと、並列処理指定情報は、所定のフォーマットで記述された並列処理指定情報ファイルとして、外部記憶装置 3の所定位置に格納される。

[0064] 図 8は、並列処理指定情報ファイルの記述例を示す図である。図 8において、並列処理指定情報ファイルは、計算機資源の指定行と、処理詳細 (処理内容)の指定行と、処理対象データファイル及びこれに対する処理結果の保管位置の指定行とを含む

[0065] 計算機資源の指定行 (図 8の第 1行)では、その識別子 ("NODE")と、並列処理に使用するノード数を表す引数 (図 7の例では" 3")が記述される。

[0066] また、処理詳細の指定行 (図 8の第 2行)では、その識別子 ("PROC")と、処理種別 ("

PR〇C_A")と、処理詳細を表す処理パラメータ ("120.0 150.0 20.0 50.0")を表す引数が記述される。

[0067] また、処理対象データファイル及び保管位置の指定行 (図 8の第 3及び 4行)では、その識別子 ("DATA")と、処理対象データファイルのファイル識別子と、対応する処理結果ファイルの保管位置の識別情報 ("xxxxx"や" xxxxy"で図示)とが記述される。当該指定行は、処理対象データファイル毎に作成される。

[0068] このような記述 (並列処理指定情報ファイル)は、ユーザが、 UIを用いて、ノード数，処理内容，処理対象データファイル群，保管位置をそれぞれ指定することで、 CPU1 により自動的に作成される。

[0069] 図 9,図 10及び図 11は、 CPU1 (図 2)によって実行されるスクリプト及び設定フアイル作成処理のメインルーチンの例を示すフローチャートである。当該処理の実行は、例えば、並列処理指定情報ファイルの作成終了や、ユーザからの処理開始指示の入力を契機として、開始される。

[0070] 図 9に示す処理が開始されると、最初に、 CPU1は、初期化処理を行う (ステップ SO

01)。次に、 CPU1は、外部記憶装置 3に格納された並列処理指定情報ファイル (図 8

)を MM2に読み込む (ステップ S002)。

[0071] 次に、 CPU1は、並列処理指定情報の解析ループ処理を実行する。この解析ループ処理において、 CPU1は、並列処理指定情報ファイルから指定行を 1行ずつ取り出し、取り出した行を解析対象行に設定し、この解析対象行の解析を行う。

[0072] CPU1は、並列処理指定情報ファイルから取り出した解析対象行が、計算機資源の指定行か否かを判定する (ステップ S003)。

[0073] このとき、解析対象行が計算機資源の指定行であれば (S003 ;YES)、 CPU1は、この解析対象行中の引数 (ノード数：図 8の例であれば" 3")を並列処理に係る計算機資源パラメータとして決定し、所定位置 (MM2上の所定の作業領域)に保存する (ステップ S004)。その後、 CPU1は、次の指定行を解析対象行に決定し、処理をステップ S003に戻す。

[0074] ステップ S003にて、解析対象行が計算機資源の指定行でないと判定されると (SO 03 ; N〇)、 CPU1は、解析対象行が処理詳細の指定行であるか否かを判定する (ステツプ S005)。

[0075] このとき、解析対象行が処理詳細の指定行であれば (S005 ; YES)、 CPU1は、この解析対象行中の処理種別指定及び引数 (指定された処理パラメータ：図 8の例であれば" PROC_A "(手続き A)が処理種別指定に相当し、 "120.0 150.0 20.0 50.0"が処理パラメータに相当する)を取り出し、この処理種別及び引数を並列処理に係る処理パラメータとして決定し、所定位置 (作業領域)に保存する (ステップ S006)。その後、 C PU1は、次の指定行を解析対象行に決定し、処理をステップ S003に戻す。

[0076] ステップ S005にて、解析対象行が処理詳細の指定行でないと判定されると (S005 ； NO), CPU1は、解析対象行が処理対象データファイル及び保管位置の指定行と判断し、この判断に従って、この解析対象行中のファイル識別子及び保管位置の識別情報を取り出し、所定位置 (作業領域)に保存する (S007)。

[0077] 上記した解析ループ処理は、並列処理指定情報ファイルの最終行に対する処理が終了すると、終了する。続いて、 CPU1は、処理を図 10のステップ S008に進める。

[0078] ステップ S008では、 CPU1は、並列処理用ジョブスクリプトのヘッダ部分を出力する。当該ヘッダは、定型文として予め外部記憶装置 3の所定位置に格納されている。ヘッダには、設定ファイルの転送命令が含まれる。ステップ S008において、処理対象データファイルと、指定された並列処理に使用されるノード数とに基づいて、並列処理に使用されるノードが決定される。各ノード # 0〜# nに対する使用及び負荷状況は、例えば、コンピュータ Yの〇S (オペレーティングシステム)にて管理されている。 OSには、並列処理指定情報ファイル中の処理データファイル数及びノード数が引き渡される。

[0079] OSは、例えば、ノード # 0〜# nから、ユーザの使用が許可されているノードを抽出し、抽出された複数のノードの使用及び負荷状況やファイル数を考慮して、指定ノード数のノードを選択する。例えば、抽出されたノードから、負荷が少ない順で、指定ノード数のノードを並列処理に使用するノードとして決定する。決定された各ノードの使用及び負荷状況は、状況テーブル 33に小テーブル 34として設定される。これによつて、処理対象データファイル群は、〇Sにより決定された指定ノード数のノードによつて並列処理されることになる。

[0080] なお、状況テーブル 33(図 6)に、すべてのノード # 0〜# nに対する小テーブル 34 が格納され、〇Sが小テーブル 34を参照して、負荷の少ない順で、指定ノード数分のノードを選択し、選択されな力、つたノードに対応する小テーブル 34にマスクがセットされる (参照不可状態にされる)ようにしても良い。

[0081] 続いて、 CPU1は、処理対象データファイルの解析'処理のループ処理を実行する。当該ループ処理は、ステップ S007で得られたファイル識別子 (処理対象データファィル)毎に実行される。このループでは、 CPU1は、最初に、指定された処理対象データファイル群 (ステップ S007で得られたファイル識別子を持つ処理対象データファィル群)の一つ (解析対象ファイルと呼ぶ)を特定する。続いて、 CPU1は、この解析対象ファイルのメタデータ解析処理のサブルーチンを起動し (ステップ S009)、解析対

[0082] 図 12は、メタデータ解析 '取得のサブルーチンの例を示すフローチャートである。

図 12において、最初に、 CPU1は、データファイル指定の入力を受け付ける (ステツプ S101)。即ち、 CPU1は、解析対象ファイルのファイル識別子を受け取る。

[0083] 次に、 CPU1は、ファイル識別子力正しい形式を有するか否かを判定する (ステツプ S102)。このとき、ファイル識別子が正しい形式を有しない場合 (S102 ; NO)には、処理が失敗 (NG)であるものとして、スクリプト及び設定ファイル作成処理が終了する。この場合、エラー表示処理が行われ、ユーザにエラーが通知されるようにする構成すること力 Sできる。

[0084] これに対し、ファイル識別子が正しい形式である場合 (S102 ; YES)には、 CPU1は、キーワードの取得ループ処理を開始する。当該ループ処理では、最初に、 CPU1 は、メタデータを表すキーワードがファイル識別子中に含まれてレ、るか否かを判定する (S103)。 [0085] 例えば、 CPU1は、ファイル識別子中のルートディレクトリの次のディレクトリ名を抽出し、このディレクトリ名とメタデータテーブル 32(図 5)中のキーワードのリスト (メタデータテーブル 32に格納されたキーワード群)とを照合し、抽出されたディレクトリ名と合致するキーワードを検索する。

[0086] このとき、キーワードが検索できなかった場合には、 CPU1は、次のディレクトリ名を抽出し、キーワードリストとの照合を行う。このようにして、 CPU1は、キーワードの 1つと合致するディレクトリ名又はデータファイル名が見つかるまで、上述したようなディレクトリ名又はデータファイル名の抽出処理及びキーワードリストとの照合処理を繰り返す。

[0087] CPU1は、抽出したディレクトリ名又はデータファイル名と合致するキーワードが見つかった場合には (S103 ;YES)、抽出処理を中断し、キーワードに対応するメタデータをメタデータテーブル 32から取り出して取得する (ステップ S104)。

[0088] 例えば、ファイル識別子 "/dataん xperimentA/3D/statisticsA/variableB/timeXXX.

000.000.dat" (図 4)に関して、図 5に示す格納内容のメタデータテーブル 32を用いて上記した処理が行われた場合、ディレクトリ名 "3D"がファイル識別子から抽出され、キーワードリストとの照合が行われた時点で、 "3D"に対応するメタデータ" metaOl"が、メタデータテーブル 32から取得されることになる。

[0089] CPU1は、メタデータテーブル 32からメタデータを取得すると、当該ファイル識別子について、ディレクトリ名又はデータファイル名の抽出及びキーワードリストとの照合処理を再開する。これによつて、例えば、ディレクトリ名" 3D"の次のディレクトリ名" stat isticsA"をキーワードとして、対応するメタデータ" metal"がメタデータテーブル 32から取得される。

[0090] その後、データファイル名を対象とした照合処理が終了した時点 (合致するキーヮードが検索された場合は、対応するメタデータの取得が終了した時点)で、キーワードの取得ループ処理が終了し (S104 ; N〇)、図 12に示すサブルーチン (S009)が終了し、処理力メインルーチンのステップ S010 (図 10)に戻る。

[0091] このようにして、コンピュータ Yは、ユーザが処理対象データのファイル識別子を指定すると、処理対象データに対応するメタデータをファイル識別子に含まれる性質情報 (キーワード)を用いて自動的に特定 (取得)する。

[0092] ステップ S010では、 CPU1は、メタデータの解析を行レ、、ループ処理で対象となつている処理対象データファイル (解析対象ファイル)の並列処理において、当該解析対象ファイルのみではなぐこの解析対象ファイルに関連するデータ (関連データファィル)が必要か否かを判定する。

[0093] 例えば、流体の流速計算が並列処理で実行される場合、速度の X成分， Y成分， Z 成分が必要である。ここで、ステップ SO 10での判定処理の対象となっている解析対象ファイル力 S、速度の X成分を示すデータファイルであれば、 Y及び Z成分を示す各データファイルが関連データファイルとして必要となる。

[0094] ここに、ファイル識別子は、ディレクトリ名又はデータファイル名中に X成分， Y成分 , Z成分のレ、ずれであるかを示す成分情報を示す文字又は文字列を含むことができる。或る成分 (例えば X成分)のデータファイルに対応する Y成分及び Z成分のデータ報の文字又は文字列の記述を定型的に変更することで作成されている。例えば、フアイル識別子中に含まれた成分情報の文字" X"を、 Y成分や Z成分を示す文字" Y" や" Z"に置換すれば、対応する Y成分又は Z成分のデータファイルのファイル識別子となる。

[0095] ステップ S010において、 CPU1は、ステップ S009で得られたメタデータの解析を通じて、解析対象ファイルが例えば X成分のデータファイルであることが分かった場合には、関連データファイルが必要と判定し (S010 ;YES)、処理をステップ S011に進める。そうでなければ (S010 ; N〇)、 CPU1は、処理をステップ S012に進める。

[0096] ステップ S011では、 CPU1は、関連データファイルのファイル識別子を生成する。

関連データファイルのファイル識別子は、例えば、上述したように、解析対象ファイルのファイル識別子の一部を変更することで、生成することができる。生成された関連データファイルのファイル識別子は、解析対象ファイルのファイル識別子と一組にして、 MM2上の作業領域に記憶される。

[0097] なお、作成された関連データファイルのファイル識別子で示されるファイルパス上に実際の関連データファイルが格納されているように、関連データファイルは、フアイノレ DB31に格納されている。その後、処理がステップ S012に進む。

[0098] ステップ S012では、解析対象ファイル (指定データファイル)又は解析対象ファイル及び関連データファイルの配置を決定するサブルーチンを実行する。

[0099] 図 13は、配置決定サブルーチン (S012)の例を示すフローチャートである。図 13において、 CPU1は、処理を開始すると、最初に、ノードに配置されるデータファイルのサイズ、及び処理に要する計算機資源 Aを概算する (ステップ S201)。

[0100] すなわち、 CPU1は、解析対象ファイルのサイズ (例えば、メタデータから得られる）を取得する。続いて、 CPU1は、解析対象ファイルに対し、ステップ S006(図 9)で得た処理詳細パラメータで指定された処理を対応するメタデータに従って実行した場合に作成される処理結果ファイルのサイズを概算する。 CPU1は、解析対象ファイルのサイズと処理結果ファイルのサイズとの合計値を計算機資源 Aとして算出する。

[0101] 処理結果ファイルのサイズは、例えば、処理詳細パラメータで指定された処理内容力、解析対象ファイルの一部を指定された抽出範囲から抽出する処理である場合、その抽出範囲から割り出される。

[0102] 解析対象ファイルに対する関連データファイルが存在する場合、解析対象ファイルと関連データファイルとは同じノードで処理されることが、処理効率を高める上で好ましレ、。このため、ステップ S201において、関連データファイルが存在する場合には、関連データファイルのサイズ、及び関連データファイルに対する処理結果ファイルのサイズも、計算機資源 Aに含められる。関連データファイルのサイズ及びこれに対する処理結果ファイルのサイズは、例えば、解析対象ファイルのサイズ及びこれに対する処理結果ファイルのサイズ力概算することができる。

[0103] 次に、 CPU1は、状況テーブル 33(図 6)を参照し、計算機資源 Aに相当する容量をユーザに対して提供することができ、且つ現在の負荷分散状況において最も負荷が軽いと予測されるノードを検索する (ステップ S202)。

[0104] すなわち、 CPU1は、状況テーブル 33を参照し、各小テーブル 34中のユーザのレコードを参照する。ユーザ IDは、例えば、シミュレーションシステムの利用を開始する際に、ユーザによって既にコンピュータ Yに入力されており、 CPU1は、このユーザ I Dに対応するレコードを参照する。 [0105] 次に、 CPU1は、各レコード中の最大サイズから負荷 (現在の使用サイズ)を減じて、各ノードにおけるユーザの残りの使用可能サイズを求める。続いて、 CPU1は、使用可能サイズが最も大きい (負荷が最も小さい)ノードを、解析対象ファイル (及び関連データファイル)を配置すべきノードとして決定する。

[0106] 次に、 CPU1は、計算機資源 Aに基づいて状況テーブル 33を更新する (ステップ S 203)。即ち、 CPU1は、決定されたノードに対応する小テーブル 34の負荷の値 (使用サイズ)に、計算機資源 Aの値を加算する。

[0107] 例えば、図 6に示す例において、ユーザ Aの計算機資源 A (例えば、 10ギガバイトと仮定する)をノード # 0に配置することが決定された場合には、対応する小テーブル 3 4中の負荷の値が、 "20Gbyte"に更新される。

[0108] 状況テーブル 33の更新が終了すると、 CPU1は、当該サブルーチンの処理を終了し、ファイルの配置先として決定したノードの識別子をメインルーチンに渡す。

[0109] 処理力 Sメインルーチンのステップ S013に進むと、 CPU1は、ノードへのデータ配置に関する命令文 (「データ配置命令文」と称する)を出力する。

[0110] すなわち、 CPU1は、データ配置命令文の雛形 (予め外部記憶装置 3に記憶されてレ、る)を読み出す。雛形は、定型の命令文の所定位置に、配置対象のファイル識別子と、ノード識別子を記述すれば、当該命令文が完成するように構成されている。 CP U1は、雛形の所定位置に、解析対象ファイル (及び関連データファイル)の識別子を記述するとともに、ステップ S012で得たノード識別子を記述する。このようにして、完成されたデータ配置命令文は、並列処理用ジョブスクリプトの一部となる。

[0111] 次に、 CPU1は、並列処理の終了後に、処理済みデータ (処理結果ファイル)を保管位置に移動させる命令文 (「処理結果移動命令文」と称する)を出力する (ステップ s

014)。

[0112] すなわち、 CPU1は、処理結果移動命令文の雛形 (予め外部記憶装置 3に記憶されている)を読み出す。雛形は、定型の命令文の所定位置に、 UIで指定された保管位置を記述すれば、当該命令文が完成するように構成されている。 CPU1は、雛形の所定位置に、ステップ S007で得た解析対象ファイルに対する処理結果ファイルの保管位置を書き込む。このようにして、完成された処理結果移動命令文は、並列処理用ジョブスクリプトの一部となる。

[0113] 次に、 CPU1は、データ配置情報を記憶する (ステップ S015)。すなわち、 CPU1は、データ配置情報としての、ファイル識別子とノード識別子との対応関係を所定の記憶領域に格納する。

[0114] ステップ S015が終了した時点で、解析対象ファイルとなっていない処理対象データファイルのファイル識別子があれば、処理力 Sステップ S009に戻り、上述したステツプ S009〜S015の処理力 S実行される。すべての処理対象データファイルのファイル識別子に対する処理が終了すると、処理力 Sステップ S016に進む。

[0115] 上記したループ処理によって、処理対象データファイル群に含まれる各処理対象データファイルの配置先が、並列処理における負荷が最も小さくなるように、決定される。

[0116] ステップ S016では、 CPU1は、並列処理プログラム実行文を出力する。すなわち、 CPU1は、外部記憶装置 3に予め格納されている並列処理プログラム実行文を読み出し、並列処理用ジョブスクリプトの一部として設定する。このようにして、ヘッダ，データ配置命令文，処理結果移動命令文，並列処理プログラム実行文を含む並列処理用ジョブスクリプトが自動的に生成される。

[0117] 次に、 CPU1は、並列処理プログラムの設定ファイルの作成処理を開始する (ステツプ S017 :図 11)。 CPU1は、並列処理プログラム設定の作成ループ処理を開始する。このループ処理は、処理対象データファイル毎に実行される。

[0118] 処理が開始されると、 CPU1は、データ配置情報 (ファイル識別子とノード識別子との対応関係)を基に、処理対象データファイルに対する設定を作成する (S018)。

[0119] すなわち、 CPU1は、ステップ S015で得たデータ配置情報の中から、 1つの処理対象データファイルに係る部分を取り出し、このファイル識別子に対応する処理パラメータ (ステップ S006で取得)と組み合わせる。 CPU1は、組み合わせの結果を、設定ファイル用の所定フォーマットで記述する。

[0120] CPU1は、このような処理を、処理対象データファイル毎に行い、すべての処理対象データファイルに対するステップ S019の処理が終了すると、メインルーチンを終了する。 [0121] 図 14は、並列処理プログラム用設定ファイルの記述例を示す図である。図 14に示す例では、設定ファイルは、処理対象データファイル毎に記述された複数の行からなる。

[0122] 各行には、図 14の左から順に、ノード識別子，処理の指定 (この例では" PROC_A "),処理対象データファイルのファイル識別子，処理パラメータが記述されている。このような設定ファイルは、各ノードが並列処理プログラムを実行する際に参照される。

[0123] 〈スクリプトの実行〉

スクリプト及び設定ファイルの作成が終了すると、 CPU1は、スクリプトの実行を開始する。スクリプトの実行によって、コンピュータ Yは、ヘッダの設定ファイル転送命令文に従って、設定ファイルを並列計算機群 Xの各ノードに転送する。

[0124] また、コンピュータ Yは、データ配置命令文の実行により、ファイル DB31に格納された各処理対象データファイル (処理対象データファイル群)を、データ配置情報に従って、配置先のノードへ転送する。

[0125] また、コンピュータ Yは、処理結果移動命令文の実行により、各ノードに対し、各ノードでの処理対象データファイルの処理により作成される処理結果ファイル (処理済みデータ)を、指定された保管位置（例えば、ファイル DB31内に用意される)に格納することを指示する。

[0126] また、コンピュータ Yは、並列処理プログラム実行文の実行により、各ノードに対し、並列処理プログラムの実行開始を指示する。

[0127] 〈並列処理〉

処理対象データファイル群の配置先の各ノード (図 3)は、ネットワークを介して、コンピュータ Yから設定ファイル及び処理対象データファイルを受信する。これらは、ノード内の外部記憶装置 14に格納される。その後、各ノードの CPU11は、コンピュータ Y 力、らの並列処理プログラムの実行指示を受け取ると、並列処理プログラムの実行を開始する。

[0128] 図 14は、 CPU11で実行される並列処理プログラムの実行処理を示すフローチヤートである。 CPU11は、図 14に示す処理を開始すると、最初に初期化処理を実行する (ステップ S301)。 CPU11は、初期化が終了すると、外部記憶装置 14に格納されている設定ファイルを MM12に読み込む (ステップ S302)。

[0129] 次に、 CPU11は、設定ファイルに従った処理対象データファイルの処理ループを実行する。この処理ループでは、 CPU11は、設定ファイル中の 1行を処理対象の行に設定し、処理対象の行に記述された設定内容に従って処理対象データファイルに対する処理を実行する。

[0130] ループにおいて、最初に、 CPU11は、設定ファイル中のノード識別子を参照し、このノード識別子が自ノードの識別子と等しいか否かを判定する (ステップ S303)。

[0131] このとき、ノード識別子が等しくない場合には (S303 ; NO)、設定ファイル中の次の行が処理対象の行に設定され、ステップ S303の処理が実行される。

[0132] これに対し、ノード識別子が等しい場合には (S303 ;YES)、 CPU11は、処理対象行中に記述されたファイル識別子に対応するメタデータを取得する処理を行う (ステツプ S304)。

[0133] このステップ S304の処理は、図 12に示したサブルーチンと同様の処理である。すなわち、 CPU11は、外部記憶装置 14に格納されたメタデータテーブル 32A (データ構造はメタデータテーブル 32(図 5)と同じ)を参照し、対応するメタデータを検索'取得する。

[0134] 次に、 CPU11は、処理対象行中の処理種別指定，処理パラメータ，及びメタデータに従って、処理対象データファイルに対する処理を実行する (ステップ S305)。すなわち、 CPU11は、処理種別指定，処理パラメータ，ファイル識別子及びメタデータを計算プロセッサ 13に与える。すると、計算プロセッサ 13が、外部記憶装置 14からファィル識別子に対応する処理対象データファイルを MM12に読み出し、処理種別指定及び処理パラメータに従った処理を、メタデータに基づいて実行する。

[0135] その後、計算プロセッサ 13による処理が終了すると、 CPU11は、処理結果のデータ (処理済みデータ)を処理結果ファイルとして、出力する (ステップ S306)。処理結果ファイルは、例えば、コンピュータ Yに転送され、コンピュータ Yが、ユーザにより指定された保管位置 (例えばフアイル DB 31内に用意されている)に処理結果ファイルを格納する。

[0136] 上述した処理が、設定ファイル中の各行を処理対象行として行われ、すべての行に対する処理が終了すると、並列処理プログラムの実行処理が終了する。

[0137] ぐ変形例〉

上述した実施形態では、コンピュータ Y及び各ノードがメタデータテーブルを有する場合について説明した。このような構成に代えて、コンピュータ Yで取得されたメタデータが、各ノードに転送される構成を適用しても良い。

[0138] また、本実施形態では、処理対象データファイル (シミュレーションデータファイル)の格納領域が、コンピュータ Yの外部記憶装置 3上に設けられている例について説明した。格納領域は、各ノードが有していても良ぐコンピュータ Y及び並列計算機群 Xから独立したファイルサーバ上に設けられても良い。

[0139] 〈実施形態の作用効果〉

本実施形態によると、ユーザが並列処理指定情報の入力環境 (UI)を用いて、フアイル識別子，ノード数，処理種別，処理詳細パラメータ，及び保管位置を指定すると、処理対象データファイル群に対する並列処理の制御プログラム (スクリプト)及び並列プログラム実行用の設定ファイルが自動的に作成される。

[0140] 従来では、ユーザは、並列処理の実行に当たり、データファイルの転送制御も含めて、ときに数百行以上となるスクリプトの記述を過ちなくユーザ自身で記述しなければならなかった。

[0141] 本実施形態によれば、ユーザが上記した並列処理指定情報の要素となる情報を U Iを用いて指定又は入力するだけで、所望のスクリプト及び設定ファイルが自動的に作成される。これによつて、ユーザの労力を多大に軽減することができる。また、スクリブトの記述に要する時間が短縮されるので、並列処理結果を得るために要する時間を短縮することができる。さらに、ユーザの記述ミスによって並列処理をやり直すおそれを解消することができる。

[0142] また、処理対象データに対するメタデータは、ユーザによるファイル識別子の指定で自動的に検索'取得される。すなわち、ユーザがファイル識別子を指定すると、ファィル識別子からキーワードが抽出され、このキーワードに対応するメタデータが指定されたメタデータとして取り扱われる。これによつて、ユーザが処理対象データフアイル毎にメタデータの指定を入力する必要がなくなる。従って、ユーザの労力軽減，処理の時間短縮，ユーザの入力ミスの防止を図ることができる。

[0143] メタデータの自動指定に当たり、本実施形態では、データの格納位置情報 (フアイルパス)を含むファイル識別子を処理対象データファイルに適用し、処理対象データの性質を示すキーワード (メタデータ検索用のキーワード)を含ませている。

[0144] すなわち、処理対象データとメタデータとを関連付けるデータをファイル識別子に坦め込んでいる。これによつて、関連付けるデータを処理対象データ及びメタデータと別に管理する必要がなくなる。従って、記憶領域の有効利用及び管理負担の軽減が図られる。ファイル識別子には、複数のキーワードを含めることができる。

[0145] さらに、ユーザが処理対象データファイルを指定する場合に、ユーザがファイルパスを含むファイル識別子を指定するように構成している。これにより、ファイル識別子の指定がキーワード入力を兼ねる。従って、ユーザの作業負担軽減が図られる。

[0146] さらに、本実施形態では、メタデータは、処理対象データファイルと異なる記憶領域に格納されるように構成している。これによつて、記憶領域に処理対象データファイルを効率的に格納することができる。また、メタデータを各ノードが有し、メタデータの転送処理が排除されている。これにより、メタデータの転送による効率低下を抑止することができる。

産業上の利用可能性

[0147] 本発明は、例えば、様々な数値シミュレーションシステムにおけるデータ処理への適用が可能である。

Claims

請求の範囲

[1] 処理対象データファイル群，この処理対象データファイル群に対する並列処理を行う並列計算機群中の計算ノードの数，前記処理対象データファイル群に対する処理内容の指定を含む並列処理指定情報を受け付ける受付手段と、

前記並列計算機群に含まれる複数の計算ノードのそれぞれに対する使用及び負荷状況を格納した記憶手段と、

前記指定された計算ノードの数と、前記使用及び負荷状況とに基づいて、前記指定された数の計算ノードに対する前記処理対象データファイル群を構成する各処理対象データファイルの配置を決定する決定手段と、

を含む並列処理支援装置。

[2] 前記決定手段は、前記処理対象データファイル群を構成する各処理対象データフアイルについて、前記並列計算機群に含まれる前記指定された計算ノード数の計算ノード力、ら、処理対象データファイルとこれに対する処理結果ファイルとを格納可能な記憶容量を有する計算ノードを選出し、

選出された計算ノードのうち、現在の処理負荷が最も小さい計算ノードを、前記処理対象データファイルを配置すべき計算ノードとして決定する

請求項 1記載の並列処理支援装置。

[3] 前記並列処理指定情報は、処理対象データファイルに対する処理の結果として生成される処理結果ファイルの保管位置の指定を含み、前記制御プログラム生成手段は、処理結果ファイルを前記保管位置へ転送することを示す命令文を含む前記制御プログラムを生成する

請求項 1又は 2記載の並列処理支援装置。

[4] 前記処理データファイル毎に、処理データファイルに関連する関連データファイル力 Sあるか否力 ^判定する判定手段をさらに含み、

関連データファイルを有する処理対象データファイルが前記判定手段で検知された場合に、前記決定手段は、処理対象データファイル及びこれに対する関連データファイルを同一の計算ノードに配置する

請求項:!〜 3のいずれかに記載の並列処理支援装置。

[5] 前記判定手段は、関連データファイルがあるか否かを、処理対象データのメタデータに基づいて判定する

請求項 4記載の並列処理支援装置。

[6] 処理対象データファイルの指定は、データファイルの格納位置情報と、データの詳細を示すキーワードとを含むファイル識別子の指定により行われ、

前記メタデータを格納したメタデータ格納手段と、

前記判定手段は、検索されたメタデータを用いて前記判定を実行する請求項 5記載の並列処理支援装置。

[7] 処理対象データファイル群，この処理対象データファイル群に対する並列処理を行う並列計算機群中の計算ノードの数，前記処理対象データファイル群に対する処理内容の指定を含む並列処理指定情報を受け付けるステップと、

前記指定された計算ノードの数と、記憶手段に記憶された前記並列計算機群に含まれる複数の計算ノードのそれぞれに対する使用及び負荷状況とに基づいて、前記指定された数の計算ノードに対する前記処理対象データファイル群を構成する各処理対象データファイルの配置を決定するステップと、

前記各処理対象データファイルを配置の決定結果に従って前記指定された数の計算ノードに配置するデータ配置命令文と、前記決定された複数の計算ノードに対する前記処理対象データファイル群の並列処理実行の命令文とを含む制御プログラムを生成して出力するステップと、

前記決定された複数の計算ノードのそれぞれが、自身に配置された処理対象データファイルの処理を行う場合に参照される並列処理の設定ファイルであって、処理対象データファイル毎に、処理対象データファイルのファイル識別子と、処理データファィルが配置される計算ノードの識別子と、指定された処理内容の記述を含む設定フアイルを生成して出力するステップと、

をコンピュータに実行させるプログラム。

[8] 前記配置を決定するステップでは、前記処理対象データファイル群を構成する各処理対象データファイルについて、前記並列計算機群に含まれる前記指定された計算ノード数の計算ノードから、処理対象データファイルとこれに対する処理結果フアイノレとを格納可能な記憶容量を有する計算ノードを選出し、

請求項 7記載のプログラム。

[9] 前記並列処理指定情報は、処理対象データファイルに対する処理の結果として生成される処理結果ファイルの保管位置の指定を含み、

前記制御プログラムの生成ステップでは、処理結果ファイルを前記保管位置へ転送することを示す命令文を含む前記制御プログラムを生成する

請求項 7又は 8記載のプログラム。

[10] 前記処理データファイル毎に、処理データファイルに関連する関連データファイル力 Sあるか否力 ^判定するステップをさらに含み、

関連データファイルを有する処理対象データファイルが検知された場合に、前記配置を決定するステップにおいて、処理対象データファイル及びこれに対する関連データファイルを同一の計算ノードに配置する

請求項 7〜9のいずれかに記載のプログラム。

[11] 前記判定ステップでは、関連データファイルがあるか否力、が、処理対象データのメタデータに基づいて判定される

請求項 10記載のプログラム。

[12] 処理対象データファイルの指定は、データファイルの格納位置情報と、データの詳細を示すキーワードとを含むファイル識別子の指定により行われ、

前記ファイル識別子から前記キーワードを抽出するステップと、

抽出されたキーワードに対応するメタデータをメタデータ格納手段から検索するステツプとをさらに含み、

前記判定ステップでは、検索されたメタデータを用いて前記判定が行われる請求項 11記載のプログラム。

[13] 処理対象データファイル群，この処理対象データファイル群に対する並列処理を行う並列計算機群中の計算ノードの数，前記処理対象データファイル群に対する処理内容の指定を含む並列処理指定情報を受け付け、

前記指定された計算ノードの数と、記憶手段に記憶された前記並列計算機群に含まれる複数の計算ノードのそれぞれに対する使用及び負荷状況とに基づいて、前記指定された数の計算ノードに対する前記処理対象データファイル群を構成する各処理対象データファイルの配置を決定し、

前記各処理対象データファイルを配置の決定結果に従って前記指定された数の計算ノードに配置するデータ配置命令文と、前記決定された複数の計算ノードに対する前記処理対象データファイル群の並列処理実行の命令文とを含む制御プログラムを生成して出力し、

前記決定された複数の計算ノードのそれぞれが、自身に配置された処理対象データファイルの処理を行う場合に参照される並列処理の設定ファイルであって、処理対象データファイル毎に、処理対象データファイルのファイル識別子と、処理データファィルが配置される計算ノードの識別子と、指定された処理内容の記述を含む設定フアイルを生成して出力する

ことを含む並列処理支援方法。