JPS63229566A

JPS63229566A - 疎行列用計算機

Info

Publication number: JPS63229566A
Application number: JP6255487A
Authority: JP
Inventors: Noboru Tanabe; 田辺　昇
Original assignee: Individual
Current assignee: Individual
Priority date: 1987-03-19
Filing date: 1987-03-19
Publication date: 1988-09-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野この発明は回路解析および線形計画法や構造解析などの
大規模システムのシミュレーションにしばしば現れる大
規模不規則疎行列の計算に適した計算機に関する。

（ロ）従来の技術従来大規模システムのシミュレーションでは大規模不規
則疎行列の計算が演算時間の大部分を占め、特に汎用計
算機上で大規模回路解析を行うと、１回のシミュレーシ
ョンに数時間もかかるため、能率が悪くコストがかかっ
ていた。

行列計算を目的とした計算機には、多数のプロセッサを
格子状または鎖状に配置して人海戦術的に高速化をはか
るプロセッサアレイや、インターリーブが深い主記憶を
ロードストアパイプラインと超高速な素子を用いたベク
トルレジスタを介してステージ数の多い演算パイプライ
ンに結合し、極めて速いクロックで動作させるスーパー
コンピュータや、それほどクロックが速くないパイプラ
イン式の演算器ＶＬＳＩを用いた付加アレイプロセヅサ
などがある。

プロセッサアレイ方式で大規模回路行列を計算しようと
すると、平均９個の演算を並列に行うために、行列元数
またはその２乗のオーダーのプロセッサを用いることに
なり極めて効率が悪い。

パイプライン式のスーパーコンピュータは、インタリー
ブが深いメモリ構成をとるので、連続的なアクセスに比
べ不規則的なアクセスは速度が落ちる。また、最大性能
の半分を出すためには１００程度のベクトル長が必要な
ため、通常のアルゴリズムでは平均ベクトル長が９程度
しかない回路行列には十分に性能が発揮できない。しか
も超高速な消費電力の大きい低集積な素子を多量に用い
、しかも少量生産品であるため極めて高価な計算機であ
る。このため、これを使える環境にあるユーザは極めて
限られており、使えたとしても利用コストは膨大なもの
である。

スーパーコンピュータ程クロックが速くないパイプライ
ン式浮動小放演１ＶＬｓＩを用いる付加アレイプロセッ
サは経済的ではあるが、単一のプロセッサでは速度が不
足する。そこで、複数のプロセッサを用いるものが出て
きたが、メモリアクセスがネックとなり頻繁なメモリア
クセスを必要とする疎行列計算には十分にその性能が発
揮できない。また、各プロセッサがアクセスできるメモ
リ領域がローカルである従来の付加アレイプロセッサは
、メモリへのグローバルなランダムアクセスを要求する
ベクトル長伸長アルゴリズムには向かない。プロセッサ
間の通信路は単一バスなので通信容量は低いため、この
バスの使用をできる限り抑えることが必須だが、そのた
めには複数のプロセッサに受は持たせるデータをうまく
配分しなければならない。ところが、不規則疎行列計算
では極めて困難であり、たとえできたとしてもＯ８の負
担を増加させる。

（ハ）発明が解決しようとする問題点本発明は、膨大な数の演算器や超高速な素子を用いるこ
とによる経済的負担を回避しつつ、ベクトル長伸長アル
ゴリズムを適用した不規則疎行列計算に伴う不規則なデ
ータアクセスによる転送ネックを防ぐことによって、大
規模システムのシミュレーションの高速化および低コス
ト化を実現する計算機の提供を目的とする。

（ニ）問題点を解決するための手段十以上のバンク数を持つインターリーブの浅いメインの
共有メモリからブロック転送されるデータを、このメモ
リのバンク数より少数のプロセッサからなるクラスタに
転送するために、クロスバ−スイッチを用いる。その制
御は、接続パターンそのものを記憶する制御メモリ、又
は共有メモリからブロック転送されるデータとプロセッ
サが受は取るべきデータに付加されたインデックスを記
憶するメモリとそれらのインデックスを比較することに
よって接続パターンに随時変換する比較器アレイによっ
て行う。プロセッサにより計算されたデータは、１クラ
スタ内のプロセッサ数以上のバンク数を持つインタリー
ブの浅い補助共有メモリと上記のメインの共有メモリの
双方に並列に書き込み、両メモリから独立に読み出す。

オペランドの各共有メモリにおけるアドレスをデータと
は別のメモリに記憶し、そのアドレスとクロスバ−スイ
ッチ制御情報を合わせたものをプログラムとする。

（ホ）作用行列の性質によって多少異なるが、メインの共有メモリ
のバンク数を２桁とれば大規模システムのシミュレーシ
ョンに現れる大規模疎行列の１行分を殆どの場合１回の
メモリアクセスでブロック転送できるようになる。メモ
リバス幅を大きく取ったり補助共有メモリを用いること
によりタイミング的な制約が緩和され、一般的な部品を
用いることができ、さらに容量が少ないメモリチップを
使用することになるので高速なメモリの入手の点で有利
になる。

また、バス幅が大きく取られているため深いインクリー
ブによって時間的に詰めなくても間に合うので、たとえ
ばＲｆｉの上位３２ビツトと下位３２ビツトの２ウエイ
というように１つの数値データをいくつかのメモリチッ
プに分割して、インタリーブを浅くとるようにすれば、
メモリチップへ゛　　　のアクセス要求は規則的になる
ので不規則アドレスのアクセスによる性能低下を回避で
きる。

疎行列処理では、１行分の非零要素ベクトル中の一部の
要素を用いたベクトル演算を主体とするが、クロスバ−
スイッチによりブロック中で演算に必要な要素のみを少
数のプロセッサに配分することにより、少ないプロセッ
サを効率よく稼働させることができる。しかも、制御メ
モリから読み出される接続パターンによってクロスバ−
スイッチを制御する場合、接続パターンは予めプログラ
ムしておくことができるので、実行時にはアドレス計算
なしで不規則的に配置しているデータをプロセッサに転
送できる。この効果は特に回路解析のように同じ構造の
行列に繰り返し同じ計算をする場合に顕著である。

また、プロセッサはｆ子息のブロックにアクセスできる
ので、広域的なランダムアクセスを頻繁に要求する不規
則疎行列のベクトル長伸長アルゴリズムを無理なく適用
できるため、プロセッサのパイプライン化や複数クラス
タによる空間並列化から得られる並列処理効果を十分引
き出せるようになる。

そして、プロセッサから出力される結果をメインの共有
メモリに格納する際に補助共有メモリにもコピーしてお
けば、再びその結果が必要な時はいつでも２系統のメモ
リから独立に読み出せるので、複数の入力ポートをもつ
高速プロセッサを用いた時にもメモリボトルネックを起
こしにくい。

（へ）実施例本発明の実施例として、パイプライン式の計算機２種類
の設計例を示す。

第１の実施例は第１図に示す簡易型の並列パイプライン
式計算機のである。ＰＵは演算ユニットであり、１つの
ＰＵにはパイプライン式乗除算器Ｍ　Ｕとパイプライン
式加減算器ＡＵを持たせ、ＭＵとＡＵをチェイニングし
てＰＵの３つのポートＡ−Ｂ−Ｃから同時に３つのデー
タを供給する。

ＭＵの遅延時間を待ち合わせるために遅延器ＬＤＬを介
してＡＵの一方の入力にボートＣからのデータを入力す
る。ＳＥはセレクタであり演算結果を取り出す演算器を
選択する。データのロードが終了してポートＣが出力用
に使えるまで待ち行列Ｑに演算結果を貯めてからＰＵ外
へ出力する０ＭＭは行列の数値データを格納するメイン
の共有メモリで、ＳＭはＭＭに格納されるＰＵからの演
算結果のコピーを格納するための補助の共有メモリであ
る。Ｏ８はクロスバ−スイッチでありＭＭからブロック
転送されるデータのうち演算に使われるもののみをＰＵ
とつなぐ。ＢＳはＭＷとＳＭの断続をするバススイッチ
でボートＣからの演算結果をＳＭにも転送したり、ＳＭ
を使わない時にＭＭからデータをポートＡに転送したり
、切断してＭＭと独立にボートＡにデータを転送したり
するのに用いる。ＲはレジスタでありＭＭからポートＢ
にデータを読み出す時にはデータを書き込み、λ４λ（
から読み出したブロックにボートＢに転送すべきデータ
がない時Ｒよりデータを読み出す。Ｐλ（はプログラム
格納用のメモリでありＭＭ−８Ｍにおけるオペランドの
アドレスを指定するとともに、Ｃ８の接続パターンのコ
ードを格納しておきＭＭのどのバンクをとのＰＵに接続
するかを制御する。

非零要素のみをＭＭに格納された不規則疎行列のＬＵ分
解を実行するために、次の２種類の命令を定義する。第
１の命令はＢＳを接続状態にして第３図のようにデータ
のロードを行い、ＰＵで除算を行った結果を第４図のよ
うにストアを行う。

第２の命令は、ＢＳを切断状態にして第５図のようにデ
ータをロードし、積和演算の結果をデータのロードの終
了を待ってから第６図のようＧ：：　Ｍ　Ｍにストアし
て値を更新する。ベクトル長伸長アルゴリズムを適用し
並列実行可能な行ベクトル演算グループごとに以上のよ
うな２種類のパイプライン演算命令を起動すれば少ない
起動回数で不規則疎行列のＬＵ分解を実行できる。

ここで、ＰＵを４台並列に用いＭＭは１６バンク、Ｓ　
Ｍには４バンクの３２ビツト幅２ウェイインタリーブ構
成とするならば、Ｃ８は１６＊５チャンネル３２ピット
幅、パターン指定には５ピツト＊５チヤンネルの２５ビ
ツトになり、実現可能なハードウェア量である。

このようにすると倍精度の浮動小数データを使用メモリ
の１サイクルタイムに１６要素ブロツク転送することが
できる。これは回路行列の９５％以上の行を１サイクル
タイムで転送できることを意味する。数値の上位・下位
のインタリーブは不規則アクセス時の性能低下も競合も
起こさない。

また、ブロック内の４つのデータを並列に処理できるの
で、回路行列の９０％程度の行の外積型がウス消去演算
を１ステツプで実行できるようになる。

たとえばＭＵ　−ＡＵに倍精度浮動小数演算を１４の３
２ビツト２人力１出力の乗除算器・ＡＬＵチップセット
を用いるならば、１００ｎｓのＳＲＡλ（をＭ人・ｆ　
−Ｓ　Ｍに用いることにより８行以上の並列演算時に、
演算器を半性能で稼働できる。４個のＰＵには８個の浮
動小数演算器が含まれていルノで合計４０ＭＦＬＯＰｓ
の演算速度が出ることになる。

回路行列に並列ピボッティング法（ＰＰＭ）と名付けた
ベクトル伸長アルゴリズムを適用して２００元程度の行
列のＬＵ分解を本計算機で行う場合、平均ベクトル長が
５０程度となり、４本のパイプラインに分配するにもか
かわらず９割以上の行ベクトル演算が半性能モードで処
理される。ただし４本中平均３本のパイプラインが有効
演算を行うことになるので約３０ＭＦＬＯＰＳの速度で
回路行列をＬＵ分解することになる。

第２の例は最大性能型の疎行列計算機であり、ベクトル
長を十分長くとれる場合向けである。その構成を第２図
に示す。第１の例はロードとストアでバスを共用してい
るため、ロードが終了するまでストアが開始できないの
で演算器の半性能までしか出せない。よって極めてベク
トル長が長くとれる場合は不利になる。そこで第２の例
はロード用とストア用で専用にバスを設け、ロードが終
了する前でも演算結果が得られたら直ちにストアを開始
できるようにしたものである。

ＬＣ８はロード用のクロスバ−スイッチ、ＳＯ８はスト
ア用のクロスバ−スイッチで、このようにスイッチを２
つに分けることにより切り替えの頻度を第１の例と同等
にする。ＭＭ−３Ｍはイン′　タリープを増やすことに
よる競合を避けるため、サイクルタイムが半分のＲＡＭ
を用いることによりアクセス頻度の倍増に対処する。Ａ
ＤＩ・ＡＤ２・ＰＤは演算器の遅延時間に等しい遅延器
であり、ロードとストアで同じアドレスやパターンを与
えるタイミングのずれを作る。Ｓｌ・Ｓ２は読みだしア
ドレスと書き込みアドレスを交互に切り替えるスイッチ
である。ＳＤＬは上位のメモリが宿き込みの時に下位の
メモリは読みだしになるようにストアを半サイクルずら
せる遅延器である。

このような構成で、たとえばＭＭ−８Ｍとして第１の例
の倍速の５０ｎｓのＳＲＡＭを用いるならば、十分ベク
トル長が長い場合に第１の例の２倍の８０　Ｍ　Ｆ　Ｌ
　ＯＰ　Ｓまで出すことができるようになる。

回路行列のＬＵ分解を行うために並列ビボッティング法
を適用すると大規模行列はどベクトル長が伸びるので、
１０００元を越えれば平均ベクトル長がかなり長くなり
、第２の計算機の回路行列処理速度は６０ＭＦＬＯＰＳ
近くまで加速する。

（ト）発明の効果本発明はメモリバス幅を大きく取りデータをブロック転
送したり、補助メモリから並列転送したりすることによ
りタイミング的制約を緩和し、一般的な部品の使用を可
能にしコストの増加を抑えることができる。

またクロスバ−スイッチを用いて、ブロック内に不規則
的に散在している演算に必要なデータのみを、より分け
てプロセッサへ転送するのでプロセッサ効率が高く、高
い性能を維持しながら全体のコストに対する影響が最も
大きいと見られるプロセッサの個数を削減できるので、
価格性能比を飛躍的に向上させることができる。

さらに全プロセッサが全メモリ空間に同等にアクセスで
きるので、不規則疎行列のベクトル長伸長アルゴリズム
を無理なく適用でき、並列処理効果を十分引き出して大
規模システムのシミュレーションの高速化を実現できる
。

【図面の簡単な説明】

第１図は簡易型の並列パイプライン式疎行列用計算機の
構成図、第２図は最大性能型の並列パイプライン式疎行
列用計算機の構成図、第３図はＬＵ分解のための除算命
令のロード動作説明図、第４図はＬＵ分解のための除算
命令のストア動作説明図、第５図はＬＵ分解のための更
新命令のロード動作説明図、第６図はＬＵ分解のための
更新命令のストア動作説明図である。Ｐ　Ｍ・・・・プログラム用メモリ、ＭＭ・・・・メイ
ン共有メモリ、Ｓ　Ｍ・・・・補助共有メモリ、Ｃ８・
・・・クロスバ−スイッチ、ＡＤＲＩ・・・・ｔｉ助共
有メモリのアドレス、ＡＤＨ２・・・・メイン共有メモ
リのアドレス、ＰＴＮ・・・・クロスバ−スイッチの接
続パターン、ＢＳ・・・・バススイッチ、Ｒ・・・・レ
ジスタ、ＰＵ・・・・演算ユニット、ＭＵ・・・・乗除
算パイプラインユニット、ＡＵ・・・・加減算パイプラ
インユニット、ＬＤＬ・・・・ロード遅延器、ＳＥ・・
・・セレクタ、Ｑ・・・・待ち行列ＦＩＦＯメモリ、Ｐ
Ｄ・・・・ストア用パターン遅延器、ＡＤ１〜２・・・
バスドア用アドレス遅延器、８１〜２・・・・ロードス
トアアドレス切り替えスイッチ、ＬＣ３・・・・ロード
用クロスバ−スイッチ、ＳＯ８・・・・ストア用クロス
バ−スイッチ、ＳＤＬ・・・・ストア遅延器。

Claims

【特許請求の範囲】

１　十以上のバンク数を持つインターリーブの浅いメイ
ンの共有メモリからブロック転送されるデータの中から
、演算に必要なデータのみを抽出して、このメモリのバ
ンク数より少数のプロセッサからなるクラスタに転送す
るためにクロスバースイッチを用い、メモリに格納され
た接続パターンに関する情報を読み出すことによってク
ロスバースイッチを制御し、プロセッサで計算された結
果のデータを、１クラスタ当りのプロセッサ数以上のバ
ンク数を持つインタリーブの浅い補助共有メモリと、上
記のメインの共有メモリの双方に並列に書き込め、かつ
独立に読み出せるバス機構と、オペランドの各共有メモ
リにおけるアドレスを記憶するメモリによって共有メモ
リのデータ管理を行うことを特徴とする疎行列用計算機
。