WO2015145598A1

WO2015145598A1 - 並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラム

Info

Publication number: WO2015145598A1
Application number: PCT/JP2014/058445
Authority: WO
Inventors: 鵜飼　敏之; 清水　正明
Original assignee: 株式会社日立製作所
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-10-01
Also published as: US20160182620A1; US10057338B2

Abstract

【課題】並列演算処理システムの各計算ノードへ効率的にデータ配分を行う。【解決手段】並列演算処理システム１は、複数の演算サーバ１０１がＩ／Ｏ管理サーバ１０２Ａ，Ｉ／Ｏサーバ１０２Ｂを介してストレージ装置１０６から読み出すデータを並列処理することにより高速演算処理を行う。その際、Ｉ／Ｏ管理サーバ１０２Ａは、ユーザ端末１０３からジョブが投入されると、実行されるプログラムについて、プログラムの各プロセスがどの演算サーバ１０１で実行されるか、各プロセスが演算加速機構１０５を利用するかをホスト定義情報テーブル１５１、ランク配置情報テーブル１５２、加速機構所在情報テーブル１５３、アプリケーション特性情報テーブル１５４を参照して判定し、各プロセスが演算加速機構１０５を利用し、かつ演算加速機構１０５を有する演算サーバ１０１で処理すると判定した場合、当該プロセスについてＩ／Ｏ帯域を優先割り当てすることとする。

Description

並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラム

　本発明は、並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラムに関する。

　複雑な科学技術計算を高速で実行することが求められる、いわゆるスーパーコンピュータでは、演算処理を実行する個々のプロセッサを高性能化するとともに、それぞれ高性能プロセッサを含む多数の計算ノードと演算に使用するデータを格納するストレージとを高速通信ネットワークで接続してなる並列演算処理システムの構成が採用されている。このような並列演算処理システム（以下「並列システム」と略称する。）では、システム全体としての処理効率を向上させるため、ストレージに格納されているデータを多数の計算ノードに必要に応じて効率的に配分することが求められる。

　近年、プロセッサ単体の高性能化が実装密度等の点で困難となりつつあること、及び消費電力、設置面積等の制約から並列システムをより大規模化することも難しくなりつつあること等に鑑み、並列システムの処理効率を向上させるため、システムに投入されるジョブが指定するプログラムの処理内容に応じて、異なる種類のプロセッサを使用する、いわゆるヘテロ構成が提案されるようになっている。ヘテロ構成においては、一般的な演算処理を実行させる通常のプロセッサと、プログラムにおける特殊な演算処理を、通常はグラフィック処理専用に用いられるＧＰＵ（Graphics Processing Unit）にわたして実行させるＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）などが採用される。ヘテロ構成の採用により並列システムの各計算ノードでの演算処理高速化が期待できるが、前記したデータの効率的な配分はやはり重要である。

　この点、従来、例えば特許文献１～３に開示されている技術が提案されている。特許文献１は、その要約書に、「高性能と低消費電力を両立する階層ストレージシステムを提供する」ことを目的として、「計算機管理サーバ１８と接続し、ファイル格納用第一ボリューム５１を構成する第一階層ストレージ装置１１と、ファイル格納用第二ボリューム５２を構成する第二階層ストレージ装置１２と、ストレージ管理サーバ１９を含むストレージシステム２において、サーバ１８は、計算機１４上で逐次実行されるジョブ情報と、実行中及び実行を待つジョブキュー情報を有し、サーバ１９は、これらの情報を収集・解析して、該ジョブがアクセスするボリューム５２を特定し、ジョブキュー情報から実行を待つ各ジョブが実行開始されるまでの平均待ち時間、及びボリューム５２を構成するディスク装置を稼働し、ボリューム５２をボリューム５１にコピーするのに要する閾値時間を求める。ジョブが投入された時点で、平均待ち時間が閾値時間より短いとき、該ジョブの実行を該閾値時間分遅らせる」構成を開示している。また、特許文献２は、その要約書に、「各テナントのストレージ機器のリソース使用量について「最低保証型」の性能保証を容易に行うことができ、アプリケーションの入出力特性に基づいて必要とされるリソースの使用量を予測する」ことを目的として、「帯域制御部２２１によってネットワーク２１２の帯域使用量を制御することによって、ストレージ２１１のリソースの使用可能量を制御するためのストレージリソース制御システム１００であって、入出力処理量モデルと帯域使用量モデルからなる線形モデル１１２と、アプリケーションのＩ／Ｏ特性１２１から入出力処理量モデルに基づいて必要とするストレージ２１１のリソース使用量を予測し、さらに帯域使用量モデルに基づいて対応するネットワーク２１２の帯域使用量を予測するリソース予測部１２０と、設定ポリシー１３１に基づいて帯域の予測使用量１２２から帯域制御情報１３２を決定する帯域決定部１３０とを有する」構成を開示している。また、特許文献３は、その請求項１に、「アプリケーションを識別するアプリ識別子に対応付けて、前記アプリケーションが利用するアクセラレータを識別するアクセラレータ識別子を記憶する第１記憶部と、前記アクセラレータを複数搭載する拡張ボックスの各スロットを識別する各スロット識別子に対応付けて、前記スロットに搭載される前記アクセラレータのアクセラレータ識別子を記憶する第２記憶部と、ホストからアプリケーションの実行要求を受信した場合に、前記アプリケーションに対応するアクセラレータ識別子を前記第１記憶部から特定する第１特定部（２６）と、前記第１特定部が特定したアクセラレータ識別子に対応するスロット識別子を前記第２記憶部から特定する第２特定部と、前記第２特定部が特定したスロット識別子により識別されるスロットを前記ホストに割当てる割当制御部とを有する」アクセラレータ管理装置を開示している。

特開２０１０－２３１６３６号公報特開２０１２－１３３６２９号公報特開２０１３－１９６２０６号公報

　これらの特許文献は、ジョブの実行状況に応じてストレージの稼働を制御すること、アプリケーションのＩ／Ｏ特性に応じてストレージネットワークの帯域制御を行うこと、あるいはホストが利用するアクセラレータをアプリケーションに応じて柔軟に付け替えること等に関連している。しかしながら、いずれの特許文献にも、計算ノードに前記したヘテロ構成を採用する並列システムにおいてストレージから各計算ノードへのデータ配分を効率化することについては、なにも開示されていない。

　以上の課題を踏まえ、本発明は、並列システムに含まれる多数の計算ノードに対して、実行されるプログラムに応じてストレージから効率的にデータを配分することを可能とする並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラムを提供することを目的としている。

　上記の、および他の課題を解決するための本発明の一態様は、それぞれがプロセッサとメモリとを有する演算サーバとして構成されている複数の計算ノードによってアプリケーションの並列処理を実行する並列演算処理システムにおいて、前記各計算ノードに前記アプリケーションが使用するデータを配分するためのデータ配分装置であって、
　前記並列演算処理システムにおいて、一部の前記演算サーバには特定の前記アプリケーションを実行する場合に当該アプリケーションの指定に従ってより高速の演算処理を実行する演算加速機構が設けられており、前記アプリケーションが使用するデータは、複数のストレージ装置に分散して格納されており、
　前記データ配分装置は、
　いずれの前記演算サーバが前記演算加速機構を有しているかを示す情報である演算加速機構所在情報と、いずれの前記アプリケーションが前記演算加速機構を利用するかを示す情報であるアプリケーション特性情報とを保持しており、
　いずれの前記アプリケーションを実行するかが指定されているジョブを受領し、
　前記ジョブに指定されている実行すべき前記アプリケーションについて、前記アプリケーション特性情報及び前記演算加速機構所在情報を参照して、前記アプリケーションが演算加速機構を有する前記演算サーバを利用するか判定し、当該アプリケーションについて前記演算サーバから受領するデータ入出力要求に関して入出力処理優先度を高める旨を記録した入出力処理優先度情報を生成して前記各ストレージ装置に配布し、前記各ストレージ装置が当該入出力処理優先度情報に基づいて入出力帯域制御の実行を可能とする、
並列演算処理システムのデータ配分装置である。

　本発明によれば、並列システムに含まれる多数の計算ノードに対して、実行されるプログラムに応じてストレージから効率的にデータを配分することを可能とする並列演算処理システムのデータ配分装置、データ配分方法、及びデータ配分プログラムが提供される。

図１は、本発明の一実施形態によるデータ配分装置を適用した並列システム１の全体構成例を示す図である。図２は、並列システム１のデータ処理動作を示すシーケンス図である。図３は、ホスト定義情報テーブル１５１の構成例を示す図である。図４は、ランク配置情報テーブル１５２の構成例を示す図である。図５は、加速機構所在情報テーブル１５３の構成例を示す図である。図６は、アプリケーションプログラム特性情報テーブル１５４の構成例を示す図である。図７は、実行中プログラム情報テーブル１５５の構成例を示す図である。図８は、実行プログラム種別取得処理の処理フロー例を示す図である。図９は、Ｉ／Ｏ帯域制御ポリシー決定処理の処理フロー例を示す図である。図１０は、Ｉ／Ｏ量ヒント情報テーブル１５６の構成例を示す図である。図１１Ａは、並列システム１に投入されるジョブ制御スクリプトの一例を示す図である。図１１Ｂは、並列システム１に投入されるジョブ制御スクリプトの一例を示す図である。図１２は、Ｉ／Ｏ帯域割り当て決定処理の処理フロー例を示す図である。図１３は、演算サーバ必要Ｉ／Ｏ性能情報テーブル１２００の構成例を示す図である。図１４は、必要Ｉ／Ｏ性能・優先度定義テーブル１３００の構成例を示す図である。図１５は、本発明の他の実施形態による並列システム１の全体構成例を示す図である。図１６は、図１５の並列システム１に投入されるジョブ制御スクリプトの一例を示す図である。図１７は、ステージング用データ配置ポリシー決定処理の処理フロー例を示す図である。図１８は、ステージング用データ配置情報テーブル１４５１の構成例を示す図である。

　以下、本発明について、その一実施形態に即して添付図面を参照しながら説明する。まず、本発明の一実施形態によるデータ配分装置が適用されている並列システム１について説明する。図１に、並列システム１の全体構成例を示している。並列システム１は複数の演算サーバ１０１、Ｉ／Ｏ管理サーバ１０２Ａ（データ配分装置）、Ｉ／Ｏサーバ１０２Ｂ、ユーザ端末１０３、演算加速機構１０５、及びストレージ装置１０６を備え、各演算サーバ１０１と各Ｉ／Ｏサーバ１０２とは、通信ネットワーク１０４によって相互に通信可能に接続されている。並列システム１では、ユーザ端末１０３から投入されるジョブに対応して各演算サーバ１０１が通信ネットワーク１０４を介してＩ／Ｏ管理サーバ１０２Ａに使用するデータの所在を問い合わせ、その結果に従ってデータ格納先のＩ／Ｏサーバ１０２Ｂから当該データを取得する。

　演算サーバ１０１は、それぞれプロセッサ１１２、メモリ１１１、及び通信インタフェース１１４を備え、並列システム１の計算ノードとして機能する。並列システム１では、複数の演算サーバ１０１が並列に設けられており、投入されるジョブによって指定されるプログラムを複数台で並行して実行することにより高速化を達成している。プロセッサ１１２はＣＰＵ（Central Processing Unit）、ＭＰＵ（MicroProcessing Unit）等の汎用演算デバイスであり、後述するメモリ１１１に格納されている並列プログラム実行用プログラム１３１を実行することにより並列システム１の演算処理を実現する。メモリ１１１はプロセッサ１１２の処理性能に応じたＩ／Ｏ性能を有する、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の記憶デバイスによって構成されており、並列システム１でのプログラム並列処理を実現する並列プログラム実行用プログラム１３１を格納している。この他、メモリ１１１には、並列処理されるプログラム、及びそのプログラムが使用するデータが格納される。メモリ１１１には、また、メモリ１１１のデータ入出力処理を実行する入出力プログラムも設けられる。

　並列プログラム実行用プログラム１３１は、ＭＰＩ（Message Passing Interface）規格に従って複数の演算サーバ１０１がプログラム並列処理のための協調動作がとれるように構成されているプログラムである。並列プログラム実行用プログラム１３１は、適用される並列システム１の要求仕様に応じて適宜の形式で実装することができる。

　通信インタフェース１１４は、Ｉ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂと演算サーバ１０１とを接続する通信ネットワーク１０４とのインタフェース回路及びドライバを含み、通信ネットワーク１０４がファイバチャネル（ＦＣ）プロトコルによるストレージエリアネットワーク（ＳＡＮ）である場合にはＦＣインタフェースとなる。

　図１に示すように、一部の演算サーバ１０１には、演算加速機構１０５が接続されている。演算加速機構１０５は、通常は汎用のプロセッサ１１２によって実行されるアプリケーションプログラムの一部のプロセスを、より高速で処理することを目的として設けられる演算デバイスであり、例えば通常グラフィック処理を専門に実行するためのＧＰＵを適用することができる。また、スカラー型のプロセッサ１１２に対してベクトル型の演算デバイスによって演算加速機構１０５を構成してもよい。図１の例では、演算加速機構１０５を利用する演算サーバ１０１は、通信インタフェース１１３を通じて適宜の通信回線で演算加速機構１０５と接続されているが、演算加速機構１０５を演算サーバ１０１内に設けるようにしてもよい。

　通信ネットワーク１０４は、前記のように、ＦＣプロトコルによるＳＡＮをはじめ、並列システム１の要求仕様に応じた適宜のネットワークを採用することができる。

　Ｉ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂは、後述のストレージ装置１０６に格納されるデータの入出力を管理し、演算サーバ１０１からのデータＩ／Ｏ要求に応じてストレージ装置１０６についてのデータ入出力処理を実行する機能を有するコンピュータである。Ｉ／Ｏ管理サーバ１０２Ａは、管理しているストレージ装置１０６に格納されているデータが、他のＩ／Ｏサーバ１０２Ｂによって管理されているストレージ装置１０６に格納されているデータに関するメタデータであるという構成が、他のＩ／Ｏサーバ１０２Ｂと異なる。

　Ｉ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂは、ハードウェアとしては同等の構成を有し、プロセッサ１２２、メモリ１２１、及び通信Ｉ／Ｆ１２３、１２４を備えている。プロセッサ１２２はＣＰＵ、ＭＰＵ等の汎用演算デバイスであり、後述するメモリ１２１に格納されている並列プログラム実行用プログラム１４１を実行することにより並列システム１のデータ入出力処理を実現する。メモリ１２１はプロセッサ１２２の処理性能に応じたＩ／Ｏ性能を有する、ＲＯＭ、ＲＡＭ等の記憶デバイスによって構成されており、並列プログラム実行用プログラム１４１を格納している。この他、メモリ１２１には、本実施形態の並列システム１における効率的なデータ配分を実現するためのプログラムとそれが利用する各種データが格納されているが、それらについては後述する。また、本実施形態の変形例に関するプログラム、テーブル類もメモリ１２１に格納されることとなるが、これらについても変形例の説明に関連して後述する。

　また、メモリ１２１には、複数のストレージ装置１０６に格納されているデータファイルを管理するためのソフトウェアであるファイルシステムプログラム１４４が格納されている。ファイルシステムプログラム１４４は、例えばネットワークファイルシステム（ＮＦＳ）等の分散ファイルシステムを採用することができる。なお、複数のストレージ装置１０６に分散して格納されるデータファイルについては、ハードウェア障害の場合のデータ保全を考慮する必要がある。この点、本実施形態の並列システム１で用いる複数のストレージ装置１０６は、適宜のＲＡＩＤ（Redundant Alley of Independent Disks）構成を採用する冗長構成としている。例えばＲＡＩＤ５を採用した場合、一つのデータファイルは３つのデータと１つのパリティ（３Ｄ＋Ｐ）にストライピングされて４つのストレージドライブに分散して格納される。

　通信インタフェース１２３は、Ｉ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂと演算サーバ１０１とを接続する通信ネットワーク１０４とのインタフェース回路及びドライバを含み、通信ネットワーク１０４がファイバチャネル（ＦＣ）プロトコルによるストレージエリアネットワーク（ＳＡＮ）である場合にはＦＣインタフェースとなる。通信インタフェース１２４は、Ｉ／Ｏ管理サーバ１０２ＡあるいはＩ／Ｏサーバ１０２Ｂとストレージ装置１０６を接続する通信回線とのインタフェース回路及びドライバを含む。通信回線がファイバチャネル（ＦＣ）プロトコルを採用する場合にはＦＣインタフェースとなる。

　Ｉ／Ｏ管理サーバ１０２Ａのメモリ１２１には、本実施形態における効率的なデータ配分を実現するための構成として、実行プログラム種別取得処理プログラム１４２、Ｉ／Ｏ帯域制御ポリシー決定処理プログラム１４３と、これらが使用するデータを格納しているホスト定義情報テーブル１５１、ランク配置情報テーブル１５２、加速機構所在情報テーブル１５３、アプリケーションプログラム特性情報テーブル１５４、及び実行中プログラム情報テーブル１５５が格納されている。これらのプログラム及びテーブルについては後述する。

　Ｉ／Ｏサーバ１０２Ｂのメモリ１２１には、Ｉ／Ｏ管理サーバ１０２Ａと同じ並列プログラム実行用プログラム１６１、ファイルシステムプログラム１６３が格納される。また、メモリ１２１には、あわせてＩ／Ｏ管理サーバ１０２Ａで決定された帯域制御ポリシーに従って各Ｉ／Ｏサーバ１０２Ｂに関する帯域制御処理を実行するＩ／Ｏ帯域制御処理プログラム１６２が格納される。

　ストレージ装置１０６は、前記したように演算サーバ１０１が使用するデータを格納する記憶デバイスであり、ハードディスクドライブ（ＨＤＤ）、半導体ドライブ（Solid State Drive）等のストレージドライブを含む。Ｉ／Ｏ管理サーバ１０２Ａに接続されるストレージ装置１０６には、他のＩ／Ｏサーバ１０２Ｂに接続される各ストレージ装置１０６に格納されるデータ１７２に関するメタデータ１７１が格納されている。前記のように、データ保全の観点から複数のストレージ装置１０６はＲＡＩＤ構成として編制されている。

　ユーザ端末１０３は、並列システム１を利用するユーザが並列システム１に実行させるプログラムを指定するジョブを入力し、また並列システム１の演算結果を受け取るための端末装置であり、ＣＰＵ、ＭＰＵ等のプロセッサ１０３１、ＲＡＭ、ＲＯＭ等のメモリ１０３２、及び通信インタフェース１０３３を有する。ユーザ端末１０３は、図１の例ではＩ／Ｏ管理サーバ１０２Ａに接続されているが、特にこれに制約されるものではない。

　ユーザ端末１０３のメモリ１０３２には、端末プログラム１０３４が格納されている。端末プログラム１０３４は、図示を省略するキーボード、表示モニタ等の入出力デバイスを通じて、ユーザからのジョブ入力を受け付けてＩ／Ｏ管理サーバ１０２Ａに転送し、並列システム１の演算結果を受け取って出力する機能を有する。なお、演算サーバ１０１、Ｉ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂについても、ユーザ端末１０３と同様の入出力デバイスを設けることができる。

　次に、以上説明した構成を有する並列システム１において、投入されたジョブが実行される際のデータ処理の概要を説明する。図２は、並列システム１におけるデータ処理フローの概略を示すシーケンス図である。並列システム１がすでに起動していることを前提として、まずユーザ端末１０３が実行すべきジョブを受け付けると、Ｉ／Ｏ管理サーバ１０２Ａにジョブ制御スクリプトを転送する（Ｓ２０１）。ジョブ制御スクリプトは、ユーザ端末１０３から各演算サーバ１０１にも転送される。なお、図２では、簡略化のため、演算サーバ１０１、Ｉ／Ｏサーバ１０２Ｂは１台ずつのみ示している。Ｉ／Ｏ管理サーバ１０２Ａでは、本実施形態の特徴的な構成として、まず実行プログラム種別判定処理が実行され、投入されたジョブによって実行されるアプリケーションプログラムが特定される（Ｓ２０２）。Ｉ／Ｏ管理サーバ１０２Ａは、実行されるアプリケーション種別に応じてＩ／Ｏ帯域制御ポリシーを決定し（Ｓ２０３）、その情報を実行中プログラム情報テーブルに登録し（Ｓ２０４）、当該更新した実行中プログラム情報テーブルをＩ／Ｏサーバ１０２Ｂに配布する（Ｓ２０５）。

　一方、ユーザ端末１０３が受け付けたジョブは、各演算サーバ１０１にも転送され、各演算サーバ１０１は、ジョブで指定されたアプリケーションプログラムを並列プログラム実行用プログラム１３１の指示により起動し、そのアプリケーションプログラムが使用する演算用データの所在をＩ／Ｏ管理サーバ１０２Ａに問い合わせて回答を取得する（Ｓ２０６、Ｓ２０７）。演算サーバ１０１は、Ｉ／Ｏ管理サーバ１０２Ａの回答に基づいて該当するＩ／Ｏサーバ１０２Ｂに演算用データを要求する（Ｓ２０６）。

　演算サーバ１０１から演算用データ要求を受信したＩ／Ｏサーバ１０２Ｂは、保持している実行中プログラム情報テーブルを参照し（Ｓ２０８）、それに基づいて要求データの出力に関する帯域制御処理を実行し（Ｓ２０９）、要求元の演算サーバ１０１に演算用データを送信する（Ｓ２１０）。

　Ｉ／Ｏサーバ１０２Ｂから演算用データを受信した演算サーバ１０１は、それによって実行中のアプリケーションプログラムに従って演算処理を実行し（Ｓ２１１）、並列プログラム実行用プログラムが実行中ジョブに規定されていたアプリケーションプログラムの実行が完了したと判断すれば、Ｉ／Ｏ管理サーバ１０２Ａに演算結果を含むジョブ終了通知を送信する（Ｓ２１２）。

　演算サーバ１０１からジョブ終了通知を受信したＩ／Ｏ管理サーバ１０２Ａは、実行中プログラム情報テーブルから終了したジョブに該当するプログラムの情報を削除し（Ｓ２１３）、ユーザ端末１０３に演算結果を送信する（Ｓ２１４）。ユーザ端末１０３はＩ／Ｏ管理サーバ１０２Ａから受信した演算結果を出力して受け付けたジョブを完了する（Ｓ２１５）。以上のように、本実施形態の並列システム１では、ジョブの指定により実行されるアプリケーションプログラムに応じて、Ｉ／Ｏサーバ１０２Ｂのデータ入出力処理における帯域制御が実行され、演算サーバ１０１へのデータ配分が効率的に行われることになる。以下、このような並列システム１の動作を可能とする構成の詳細について順次説明する。

　まず、Ｉ／Ｏ管理サーバ１０２Ａに格納されているテーブル類について説明する。図３に、ホスト定義情報テーブル１５１の構成例を示す。ホスト定義情報テーブル１５１は、計算ノードとしての各演算サーバ１０１にて並列実行可能なプロセスの数を示しており、各演算サーバ１０１を識別するための識別符号である演算サーバ名３０１と、対応する演算サーバ名３０１で特定される演算サーバ１０１に設けられているＣＰＵの数３０２とが記録されている。図３の例では、演算サーバ１０１について、「ホスト１」、「ホスト２」といった識別符号を付している。ホスト定義情報テーブル１５１は、並列システム１の構築時にシステム管理者によって用意される。

　図４は、ランク配置情報テーブル１５２（プロセス配置情報）の構成例を示している。ここで、「ランク」とは、ＭＰＩ等の並列プログラム実行用プログラムにおいて、実行される各プロセスについて相互に識別可能とするために付与された符号であり、一般的には一貫番号が割り当てられる。プログラムに含まれる各プロセスは、当該プロセスに付与されたランクにより、いずれの演算サーバ１０１によって処理されるかが規定される。ランク配置情報テーブル１５２は並列システム１で実行されるプログラム毎に作成され、プロセスに付されたランク番号３０１とそのプロセスを実行する演算サーバ名３０２とが対応付けて記録される。ランク配置情報テーブル１５２により、各プロセスがどの演算サーバ１０１で処理されるかを知ることができる。

　図５は、加速機構所在情報テーブル１５３の構成例を示している。加速機構所在情報テーブル１５３は、演算サーバ名５０１と演算加速機構の有無５０２とを対応付けて記録している。加速機構所在情報テーブル１５３は、並列システム１に含まれている演算サーバ１０１のうち、いずれに演算加速機構１０５が設けられているかを示すテーブルである。

　図６は、アプリケーションプログラム特性情報テーブル１５４の構成例を示している。アプリケーションプログラム特性情報テーブル１５４は、並列システム１で実行されるアプリケーションプログラムが演算サーバ１０１に要求する処理能力に関する情報を格納しており、アプリケーションプログラムのプログラム名６０１、演算加速機構の利用有無６０２、及び必要なデータ精度６０３が互いに対応付けられて記録されている。図６の例では、プログラム名６０１が「ＡＰ１」で特定されるプログラムについては、演算加速機構を有しない演算サーバ１０１で処理することが指定されており、データ精度６０３としては６４ビットの倍精度浮動小数点演算が必要であることを示している。

　図７は、実行中プログラム情報テーブル１５５の構成例を示している。実行中プログラム情報テーブル１５５は並列システム１の構築時にあらかじめＩ／Ｏ管理サーバ１０２Ａに用意され、ジョブが投入される毎に後述するＩ／Ｏ帯域制御ポリシー決定プログラムによってそのジョブに関するアプリケーションプログラムの情報が登録される。図７の例では、実行中プログラム情報テーブル１５５には、演算サーバ名７０１、プログラム名７０２、プロセス数７０３、演算加速機構利用有無７０４、及びＩ／Ｏ優先度７０５の項目が互いに対応付けられて記録される。実行中プログラム情報テーブル１５５の各レコードは、演算サーバ名７０１で特定される演算サーバ１０１で実行されているプログラム名７０２、そのプログラムに関して割り当てられているプロセス数、演算加速機構を利用するか否か、そのプログラムのＩ／Ｏ優先度を示している。

　次に、本実施形態の並列システム１におけるデータ配分処理に関する処理フローにつき、具体的な処理フロー例に基づいて説明する。図８に、Ｉ／Ｏ管理サーバ１０２Ａの実行プログラム種別取得プログラム１４２の処理フロー例を示している。この処理フロー例は、図２の全体フロー例におけるＳ２０２に対応する。実行プログラム種別取得処理プログラム１４２は、ユーザ端末１０３から投入されたジョブがＩ／Ｏ処理サーバ１０３の並列プログラム実行用プログラム１４１で受信されたことで処理を開始し（Ｓ８０１）、並列プログラム実行用プログラム１４１が投入されたジョブから取得した情報に基づいて、当該ジョブにより実行されるアプリケーションプログラム名を取得し、ホスト定義情報テーブル１５１、ランク配置情報テーブル１５２、及び加速機構所在情報テーブル１５３を参照して、処理を担当する演算サーバ１０１と、その演算サーバ１０１で実行されるプロセス数、加速機構利用の有無を取得する（Ｓ８０２）。次いで、実行プログラム種別取得処理プログラム１４２は、実行中プログラム情報テーブル１５５に、実行しようとするプログラムのプログラム名、担当する演算サーバ名、プロセス数、演算加速機構利用の有無を登録して処理を終了する（Ｓ８０３，Ｓ８０４）。

　次に、Ｉ／Ｏ帯域制御ポリシー決定プログラム１４３によるデータ処理について、図９の処理フロー例を参照して説明する。Ｉ／Ｏ帯域制御ポリシー決定プログラム１４３は、Ｓ９０１で実行開始すると、まず実行プログラム種別取得プログラム１４２が実行中プログラム情報テーブル１５５に登録したレコードを参照して（Ｓ９０２）、実行中プログラム情報を登録しているアプリケーションプログラムが演算加速機構を利用するか、また当該アプリケーションプログラムを処理する演算サーバ１０１が演算加速機構１０５を有しているかを調べる（Ｓ９０３）。当該アプリケーションプログラムが演算加速機構を利用し、かつ当該アプリケーションプログラムを処理する演算サーバ１０１が演算加速機構１０５を有していると判定した場合（Ｓ９０３，Ｙｅｓ）、Ｉ／Ｏ帯域制御ポリシー決定プログラム１４２は、実行中プログラム情報テーブル１５５の該当アプリケーションプログラムを実行する演算サーバ１０１について、Ｉ／Ｏ優先度７０５に「高」を記録してＳ９０６の処理に進む（Ｓ９０４）。一方、当該アプリケーションプログラムが演算加速機構を利用していない、あるいは当該アプリケーションプログラムを処理する演算サーバ１０１が演算加速機構１０５を有していないと判定した場合（Ｓ９０３，Ｎｏ）、Ｉ／Ｏ帯域制御ポリシー決定プログラム１４２は、実行中プログラム情報テーブル１５５の該当アプリケーションプログラムを実行する演算サーバ１０１について、Ｉ／Ｏ優先度７０５に「低」を記録してＳ８０６の処理に進む（Ｓ９０５）。

　Ｓ９０６では、Ｉ／Ｏ帯域制御ポリシー決定プログラム１４２は、並列システム１に投入されたジョブに含まれるすべてのアプリケーションプログラムについて実行中プログラム情報テーブル１５５への登録が完了したか判定し、完了していないと判定した場合はＳ９０３の処理に戻る。登録が完了していると判定した場合（Ｓ９０６，Ｙｅｓ）、Ｉ／Ｏ帯域制御ポリシー決定プログラム１４２は、各Ｉ／Ｏサーバ１０２Ｂに、更新した実行中プログラム情報テーブル１５５を配布して処理を終了する（Ｓ９０７，Ｓ９０８）。

　以上のようにして各Ｉ／Ｏサーバ１０２Ｂに配布された実行中プログラム情報テーブル１５５を利用して、各Ｉ／Ｏサーバ１０２Ｂは、データ要求元である演算サーバ１０１で実行されているアプリケーションプログラムに応じてＩ／Ｏ帯域の制御を行うことができる。

　次に、以上説明した実施形態の変形例として、Ｉ／Ｏ帯域制御をＩ／Ｏ優先度の高低よりもより細かく行うための構成について説明する。この変形例では、実行されるアプリケーションプログラムについて、演算加速機構を利用するかだけでなく、処理すべき問題のサイズ、プロセスあたりに要求される演算性能を加味するようにしている。図１０に、この変形例でのＩ／Ｏ帯域制御を実行させるための情報を提供するＩ／Ｏ量ヒント情報テーブル１５６の構成例を示している。図１０のＩ／Ｏ量ヒント情報テーブル１５６は、並列システム１で実行されるアプリケーションプログラムについて、当該アプリケーションプログラムによって処理すべき問題が大きいか小さいか、言い換えれば、アプリケーションプログラムの実行に関して使用されるデータ量が大きいか小さいかにつき、Ｉ／Ｏサーバ１０２ＢのＩ／Ｏ帯域に一定の指標を与えるものである。Ｉ／Ｏ量ヒント情報テーブル１５６は、並列システム１の構築時に作成し、Ｉ／Ｏ管理サーバ１０２Ａのメモリ１２１に格納しておくことができる。

　図１０の例では、Ｉ／Ｏ量ヒント情報テーブル１５６の各レコードには、プログラム名１００１、プロセスタイプ１００２、問題サイズ１００３、及び処理単位当たり演算性能１００４の項目が互いに対応付けられて記録されている。実行されるアプリケーションプログラムのプログラム名１００１に対し、そのプログラムが通常の汎用プロセッサで処理されるか、あるいは演算加速機構を用いて処理されるかの区別をプロセスタイプ１００２に、また当該プログラムに与えられるデータ量を示す大中小の指標を問題サイズ１００３に、対応する問題サイズ毎に提供されるべき演算性能がプロセス当たりの浮動小数点演算性能（FLOPS）として処理単位当たり演算性能１００４として記録されている。

　図１１Ａ、図１１Ｂに、本変形例におけるジョブ制御スクリプトの構成例を示している。図１１Ａに例示するジョブ制御スクリプトにおいて、「#JCS -unit」の記述は、演算加速機構ジョブ４個を１ユニットとして，演算サーバ５０台を用いて演算することを指定している。この場合、実行されるプロセスの総数は、５０×４＝２００個である。このため、ＭＰＩジョブ実行コマンドmpiexecにおいては、実行プロセス数として「２００」を指定している。また、「#JCS -psize」に記述されている「Middle」は、問題サイズ(中)の指定を例示している。図１１Ａのジョブ制御スクリプトは、図１１Ｂのジョブスケジューラ(JCS)に記述されているjcssubmitコマンドで実行される。このコマンド実行を契機に、図１２の処理フローが実行される。

　図１２は、前記した実施形態のＩ／Ｏ帯域制御ポリシー決定処理（図２のＳ２０３）に代えて実行されるＩ／Ｏ帯域割り当て決定処理の処理フロー例を示している。Ｉ／Ｏ帯域割り当て決定プログラム１４５はＩ／Ｏ管理サーバ１０２Ａのメモリ１２１に格納され、ジョブ投入を受けて処理を開始すると（Ｓ１２０１）、まず指定されたジョブ制御スクリプトから、計算条件、問題サイズ、及び実行するプログラム名を取得する（Ｓ１２０２）。次いで、Ｉ／Ｏ帯域割り当て決定プログラム１４５は、取得したプログラム名と問題サイズを元に，Ｉ／Ｏ量ヒント情報テーブル１５６から，処理単位当たり演算性能１００４を取得する（Ｓ１２０４）。さらに、Ｉ／Ｏ帯域割り当て決定プログラム１４５は、処理単位当たり演算性能１００４と，並列実行プロセス数７０３から，各演算サーバ１０１の必要Ｉ／Ｏ帯域を算出し，演算サーバ１０１の必要Ｉ／Ｏ性能情報に登録する（Ｓ１２０４）。Ｉ／Ｏ帯域割り当て決定プログラム１４５は、各Ｉ／Ｏサーバ１０２Ｂに更新した実行中プログラム情報テーブルを配布して処理を終了する（Ｓ１１０６）。

　図１３には、演算サーバ１０１の必要Ｉ／Ｏ性能情報テーブル１５７の構成例を示している。必要Ｉ／Ｏ性能情報テーブル１５７は、Ｉ／Ｏ管理サーバ１０２Ａのメモリ１２１に用意される。必要Ｉ／Ｏ性能情報テーブル１５７には、演算サーバ名１３０１とその演算サーバ１０１に必要とされる必要Ｉ／Ｏ性能１３０２が対応付けて記録される。演算サーバ１０１に必要とされる必要Ｉ／Ｏ性能１３０２は、前記のように図１２のＳ１２０４において、実行中プログラム情報テーブル１５５から取得されるプログラム名１００１、プロセスタイプ（演算加速機構１０５の利用有無）１００２、及び図１１Ａに例示されるようなジョブ制御スクリプトから取得される問題サイズ１００３から処理性能当り演算性能１００４を取得し、これに実行中プログラム情報テーブル１５５のプロセス数、所要データ精度を乗じることによって算出することができる。例えば図１３の例では、演算サーバ「ホスト１」の場合、実行中プログラム情報テーブル１５５からプログラム「ＡＰ２」のプロセス数７０３が２であり、Ｉ／Ｏ量ヒント情報テーブル１５６の問題サイズ「中」について処理単位当たり演算性能が４０MFLOPSとなる。また、アプリケーション特性情報テーブル１５４を参照すると、プログラム「ＡＰ２」についてはデータ精度６０３が単精度である。したがって、演算サーバ「ホスト１」には、図１３に例示しているように、２プロセス×４０MFLOPS×単精度＝３２０MB/sを割り当てる必要があることとなる。

　図１４は、必要Ｉ／Ｏ性能・優先度定義テーブル１５８の構成例を示している。必要Ｉ／Ｏ性能・優先度定義テーブル１５８は、Ｉ／Ｏ管理サーバ１０２Ａのメモリ１２１に用意される。必要Ｉ／Ｏ性能・優先度定義テーブル１５８は、図１３で取得される演算サーバ１０１の必要Ｉ／Ｏ性能１４０１に対応するＩ／Ｏ優先度１４０２を記録している。したがって、Ｉ／Ｏ帯域割り当て決定プログラム１４５は、必要Ｉ／Ｏ・優先度定義テーブル１５８を参照して、適切なＩ／Ｏ優先度１４０２を実行中プログラム情報テーブル１５５に記録することができる。そして、これにより、当該実行中プログラム情報テーブル１５５を受領した各Ｉ／Ｏサーバ１０２Ｂは、演算サーバ１０１から受けたデータＩ／Ｏ要求に対して、図１４で規定されるＩ／Ｏ優先度１４０２を適用することができる。なお、本変形例では必要Ｉ／Ｏ性能に応じてＩ／Ｏ優先度を３つの段階に分類しているが、さらに細かくＩ／Ｏ優先度を分けて規定することもできる。

　次に、本発明の他の実施形態に係るデータ配分装置が適用された並列システム１について説明する。図１５に、この並列システム１の全体構成例を示している。図１５に例示する並列システム１は、図１の並列システム１におけるＩ／Ｏ管理サーバ１０２Ａ、Ｉ／Ｏサーバ１０２Ｂに対して、ファイルサーバ１５０１（二次ストレージ装置）とジョブ管理サーバ１５０３とが、通信ネットワーク１５０２を介して接続されている点が異なる。また、この差異に応じて、Ｉ／Ｏ管理サーバ１０２Ａには、ステージング用データ配置情報テーブル１５５１と、ステージング用データ配置方針決定処理プログラム１５４１が設けられている。図１５の並列システム１では、ファイルサーバ１５０１が管理するストレージ装置１５０４にも、演算サーバ１０１でプログラムを実行するのに使用されるデータが格納される。このため、本並列システム１では、ユーザ端末１０３に投入されたジョブについてＩ／Ｏ管理サーバ１０２Ａが解析を行い、あらかじめファイルサーバ１５０１が管理するデータを演算サーバ１０１のワーキングディスクとして機能するストレージ装置１０６に読み出しておく処理であるステージング処理が実行される。

　ファイルサーバ１５０１は、ＣＰＵ、ＭＰＵ等のプロセッサ１５１２、ＲＡＭ，ＲＯＭ等のメモリ１５１１、及び通信Ｉ／Ｆ１５１３，１５１４を備え、メモリ１５１１にはＮＦＳ等のファイルシステムプログラム１５２１が格納されている。通信Ｉ／Ｆ１５１３は、通信ネットワーク１５０２とのインタフェース回路及びドライバを備え、通信Ｉ／Ｆ１５１４はストレージ装置１５０３との通信回線、例えばＦＣプロトコルを採用するＳＡＮとのインタフェース回路及びドライバを含む。

　ストレージ装置１５０４は、ＨＤＤ，ＳＳＤ等の記憶デバイスを備え、データ保全の観点から複数のストレージドライブによって編制されるＲＡＩＤ構成が採用される。本実施形態の並列システム１では、ストレージ装置１５０４の複数ストレージドライブに分散格納されるデータのストライピングのレベルに応じてＩ／Ｏ帯域制御を実施するようにしている。

　ユーザ端末１０３から投入されるジョブは、ジョブ管理サーバ１５０３によってその実行が制御される。ジョブ管理サーバ１５０３は、ＣＰＵ、ＭＰＵ等のプロセッサ１５３２、ＲＡＭ，ＲＯＭ等のメモリ１５３１、及び通信Ｉ／Ｆ１５３３を備え、メモリ１５３１にはジョブスケジューラプログラム１５６１が格納されている。メモリ１５３１には、ユーザ端末１０３からのジョブ実行制御のためにジョブスケジューラ１５６１が使用するジョブ制御スクリプト１５７１も格納される。通信Ｉ／Ｆ１５１３は、通信ネットワーク１５０２とのインタフェース回路及びドライバを備えている。

　図１６に、ジョブ制御スクリプト１５７１の構成例を示している。図１６は、基本的に図１１Ａに例示したジョブ制御スクリプトと同様に、プログラム名「ＡＰ１」で特定されるプログラムを、ＭＰＩにより１０００プロセス並行処理するものと想定している（符号１３０４のmpiexecコマンド）。符号１３０１，１３０２において、stagein文により、ＡＰ１を実行する前に、input.datで指定されるディレクトリのデータをステージインする。「%opt:」は、本実施形態でのステージング用データ配置を指定するオプション処理を示す。符号１３０３は、プログラムＡＰ１実行終了後にデータをステージアウトする指定である。「./output：」はＡＰ１実行結果の出力先ディレクトリを示している。

　図１７は、ジョブ制御スクリプト１５７１にしたがって、Ｉ／Ｏ管理サーバ１０２Ａのステージング用データ配置方針決定処理プログラム１５４１により実行されるステージング用データ配置方針決定の処理フロー例を示している。ステージング用データ配置方針決定処理プログラム１５４１は、ジョブ制御スクリプト１５７１にしたがって処理を開始すると（Ｓ１７０１）、まず指定されたジョブ制御スクリプト１５７１から、計算条件、問題サイズ、及びステージイン・ステージアウトするデータを取得する（Ｓ１７０２）。次いで、ステージング用データ配置方針決定処理プログラム１５４１は、取得したプログラム名と問題サイズを元に、Ｉ／Ｏ量ヒント情報テーブル１５６から，処理単位当たり演算性能１００４を取得する（Ｓ１７０３）。さらに、ステージング用データ配置方針決定処理プログラム１５４１は、処理単位当たり演算性能１００４と，並列実行プロセス数（実行中プログラム情報テーブル１５５のプロセス数７０３）から，各演算サーバ１０１の必要Ｉ／Ｏ性能を算出し、演算サーバ１０１の必要Ｉ／Ｏ性能情報テーブル１５７に登録する（Ｓ１７０４）。最後に、ステージング用データ配置方針決定処理プログラム１５４１は、プログラムを実行する全演算サーバ１０１の必要Ｉ／Ｏ量の総和を算出し、該アプリケーションプログラムの実行に必要なスループットを算出し、ステージング用ストレージ構成情報からストレージ構成を決定して処理を終了する（Ｓ１７０５，Ｓ１７０６）。

　図１８には、演算サーバ１０１の必要Ｉ／Ｏ性能に関するステージング用データ配置情報テーブル１５５１の構成例を示している。ステージング用データ配置情報テーブル１５５１には、演算サーバ１０１に必要とされるスループット１８０１と、ファイルサーバ１５０１のファイルシステム１５２１の構成とすべきデータストライピングの構成１８０２とが対応付けて格納される。このようにして、演算サーバ１０１に対する必要Ｉ／Ｏ性能に見合ったデータストライプ構成をファイルシステム１５２１に適用することができる。

　以上説明したように、本発明の各実施形態によれば、並列システムに含まれる多数の計算ノードに対して、実行されるプログラムに応じてストレージから効率的にデータを配分することが可能となる。

　なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば，上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施形態の構成の一部を他の構成に置き換えることが可能であり、また、ある実施形態の構成に他の構成を加えることも可能である。

　１　並列演算処理システム　　１０１　演算サーバ　　１０２Ａ　Ｉ／Ｏ管理サーバ
　１０２Ｂ　Ｉ／Ｏサーバ　　１０３　ユーザ端末　　１０５　演算加速機構
　１０６，１５０４　ストレージ装置
　１３１，１４１，１６１　並列プログラム実行用プログラム
　１４２　実行プログラム種別取得プログラム
　１４３　Ｉ／Ｏ帯域制御ポリシー決定プログラム
　１４４，１６３　ファイルシステムプログラム
　１５１　ホスト定義情報テーブル　　１５２　ランク配置情報テーブル
　１５３　加速機構所在情報テーブル
　１５４　アプリケーションプログラム特性情報テーブル
　１５５　実行中プログラム情報テーブル　　１６２　Ｉ／Ｏ帯域制御プログラム
　１５０１　ファイルサーバ　　１５０３　ジョブ管理サーバ
　１５４１　ステージング用データ配置方針決定プログラム
　１５５１　ステージング用データ配置情報テーブル
　１５６１　ジョブスケジューラ　　１５７１　ジョブ制御スクリプト

Claims

　それぞれがプロセッサとメモリとを有する演算サーバとして構成されている複数の計算ノードによってアプリケーションの並列処理を実行する並列演算処理システムにおいて、前記各計算ノードに前記アプリケーションが使用するデータを配分するためのデータ配分装置であって、
　前記並列演算処理システムにおいて、一部の前記演算サーバには特定の前記アプリケーションを実行する場合に当該アプリケーションの指定に従ってより高速の演算処理を実行する演算加速機構が設けられており、前記アプリケーションが使用するデータは、複数のストレージ装置に分散して格納されており、
　前記データ配分装置は、
　いずれの前記演算サーバが前記演算加速機構を有しているかを示す情報である演算加速機構所在情報と、いずれの前記アプリケーションが前記演算加速機構を利用するかを示す情報であるアプリケーション特性情報とを保持しており、
　いずれの前記アプリケーションを実行するかが指定されているジョブを受領し、
　前記ジョブに指定されている実行すべき前記アプリケーションについて、前記アプリケーション特性情報及び前記演算加速機構所在情報を参照して、前記アプリケーションが演算加速機構を有する前記演算サーバを利用するか判定し、当該アプリケーションについて前記演算サーバから受領するデータ入出力要求に関して入出力処理優先度を高める旨を記録した入出力処理優先度情報を生成して前記各ストレージ装置に配布し、前記各ストレージ装置が当該入出力処理優先度情報に基づいて入出力帯域制御の実行を可能とする、
並列演算処理システムのデータ配分装置。
　請求項１に記載の並列演算処理システムのデータ配分装置であって、前記アプリケーションを構成するプロセス毎にいずれの前記演算サーバを使用するかに関する情報であるプロセス配置情報を保持しており、前記各プロセス毎に前記演算加速機構を有する前記演算サーバを利用するか判定し、当該プロセスについて前記演算サーバから受領するデータ入出力要求に関して入出力処理優先度を高める旨を記録した入出力処理優先度情報を生成して前記各ストレージ装置に配布し、前記各ストレージ装置が当該入出力処理優先度情報に基づいて入出力帯域制御の実行を可能とする、並列演算処理システムのデータ配分装置。
　請求項２に記載の並列演算処理システムのデータ配分装置であって、前記アプリケーションの前記プロセス毎に、前記各プロセスが処理するデータ量に対して前記演算サーバに要求する処理性能を対応付けてなる情報であるＩ／Ｏ量情報を保持し、前記各演算サーバに対して前記各プロセスが要求する入出力性能を算出し、当該入出力性能に応じて前記入出力処理優先度情報を生成する、並列演算処理システムのデータ配分装置。
　請求項１に記載の並列演算処理システムのデータ配分装置であって、前記並列演算処理システムは、前記複数のストレージ装置の下位に接続されている二次ストレージ装置を備えており、前記並列演算処理システムに投入される前記ジョブが、前記二次ストレージ装置に格納されているデータを前記ジョブに指定されている前記アプリケーション実行前に前記複数のストレージ装置に読み出しておくことを指定していると判定した場合、前記データ配分装置は、当該アプリケーションが要求する入出力性能に応じた数に前記データをあらかじめ複数の記憶ドライブに分散して格納しておく、並列演算処理システムのデータ配分装置。
　それぞれがプロセッサとメモリとを有する演算サーバとして構成されている複数の計算ノードによってアプリケーションの並列処理を実行する並列演算処理システムにおいて、前記各計算ノードに前記アプリケーションが使用するデータを配分する方法であって、
　前記並列演算処理システムの一部の前記演算サーバには特定の前記アプリケーションを実行する場合に当該アプリケーションの指定に従ってより高速の演算処理を実行する演算加速機構が設けられており、
　並列演算処理システムにおいて、前記アプリケーションが使用するデータは、複数のストレージ装置に分散して格納されており、
　プロセッサとメモリとを有するコンピュータが、
　いずれの前記演算サーバが前記演算加速機構を有しているかを示す情報である演算加速機構所在情報と、いずれの前記アプリケーションが前記演算加速機構を利用するかを示す情報であるアプリケーション特性情報とを保持しており、
　いずれの前記アプリケーションを実行するかが指定されているジョブを受領し、
　前記ジョブに指定されている実行すべき前記アプリケーションについて、前記アプリケーション特性情報及び前記演算加速機構所在情報を参照して、前記アプリケーションが演算加速機構を有する前記演算サーバを利用するか判定し、当該アプリケーションについて前記演算サーバから受領するデータ入出力要求に関して入出力処理優先度を高める旨を記録した入出力処理優先度情報を生成して前記各ストレージ装置に配布し、前記各ストレージ装置が当該入出力処理優先度情報に基づいて入出力帯域制御の実行を可能とする、
並列演算処理システムのデータ配分方法。
　それぞれがプロセッサとメモリとを有する演算サーバとして構成されている複数の計算ノードによってアプリケーションの並列処理を実行する並列演算処理システムにおいて、前記各計算ノードに前記アプリケーションが使用するデータを配分するために用いられるデータ配分プログラムであって、
　前記並列演算処理システムには、前記並列演算処理システムの一部の前記演算サーバには特定の前記アプリケーションを実行する場合に当該アプリケーションの指定に従ってより高速の演算処理を実行する演算加速機構が設けられており、
　前記並列演算処理システムにおいて、前記アプリケーションが使用するデータは、複数のストレージ装置に分散して格納されており、
　プロセッサとメモリとを有するコンピュータに、
　いずれの前記演算サーバが前記演算加速機構を有しているかを示す情報である演算加速機構所在情報と、いずれの前記アプリケーションが前記演算加速機構を利用するかを示す情報であるアプリケーション特性情報とを保持し、
　いずれの前記アプリケーションを実行するかが指定されているジョブを受領し、
　前記ジョブに指定されている実行すべき前記アプリケーションについて、前記アプリケーション特性情報及び前記演算加速機構所在情報を参照して、前記アプリケーションが演算加速機構を有する前記演算サーバを利用するか判定し、当該アプリケーションについて前記演算サーバから受領するデータ入出力要求に関して入出力処理優先度を高める旨を記録した入出力処理優先度情報を生成して前記各ストレージ装置に配布し、前記各ストレージ装置が当該入出力処理優先度情報に基づいて入出力帯域制御の実行を可能とする処理を実行させる、並列演算処理システムのデータ配分プログラム。