JPS6136866A

JPS6136866A - メモリ装置

Info

Publication number: JPS6136866A
Application number: JP15715984A
Authority: JP
Inventors: Takenori Makino; 牧野　武則
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1984-07-30
Filing date: 1984-07-30
Publication date: 1986-02-21
Also published as: JPH037977B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、大規模な数値計算を支援するための高性能な
外部メモリ装置の方式に係る。

（従来技術とその問題点）イワユルスーパーコンピュータでは、大規模な数値計算
をサポートするために高速の外部メモリが提供されてい
る。

提供されている外部メモリのアーキテクチャは、通常、
ディスクデバイスと同様、ブロックランダムアクセスを
採用している０ブロツクランダムアクセスとは、例えは
ベクトル（Ｖ、）は、ブロック監に分けられ、ＹＯＶＩ・・・マｎ−Ｉ　Ｐ　ｖｎ”　ｎ
＋１・・・Ｖ　２　ｎ−１ｇｖ２ｎ・・・というように
長さｎのブロックとして、外部メモリに格納される。こ
のアーキテクチャの採用は、従来のプログラムの書き換
えやオペレージ冨ンシステムの大幅な変更を避けること
を目的としている。

しかし、ブロックランダムアーキテクチャは、数値計算
では、不適なケースがある。例えば、２次元プレイ（人
−）ｆｆｉ考えよう口このプレイが１」ＡＱＯＡＯｌ　””０ｎ−１１ＡＯｎ・・’　ｌ　Ａ１
０　Ａ１１　”’というように（ｉ、ｊ）の順でブロッ
クに分けられ、格納されているとする。いま（ｉ、＋ｃ
−ｃｏｏｍｎ＋、すな１」わち、ｉｉ固定し、ｊだけ０．　１．　２・・・と変え
て得られる６クト／ｌ／Ａ、０．Ａｉｌ、　°−゛Ａ、
ｎ−１．Ａ、、−°−を入出力する場合、ブロック単位
に転送することで、効率の良い入力、出力を行うことが
できる。

しかし、一方、（ＡｉＪｌ　１ｃ（ｏ、ｍ））Ｊで表わ
されるベクトルＡ。４．Ａ１２．Ａ２ｊ・・・について
は、それぞれの要素全入出力する場合、それぞれ別のブ
ロックを参照する必要があり、長さｍのベクトルの入力
または出力にともなって、最悪で、ｍブロックの入力ま
たは出力を必要とする。このようなアクセスパターンは
、例えば、偏微分方程式の差分解法の１つである陰解法
では、異った軸によるスキャンが必要なため、必然的に
存在する。その他にも多次元ＦＦＴや行列の積にも現わ
れる。すなわち、数値計算では、このようなアクセスパ
ターンは、ごく普通に現われると考えてよい。したがり
：ｍ率良く使用するには、プログラム全工夫する努力が
必要で、また、そうした努力によっても高い性能を引き
出せないことがある。

もう一つの問題は、プラズマ粒子コードのようにランダ
ムな現象を計算しようとするとき、データの構造として
、ランダムな値を扱う場合が生ずる。一般には、リスト
ベクトル（間接アドレス）が必要となる。この場合、通
常ベクトルプロセッサはうまく動作しない。このため、
データ集合を値によってノートすることが試みられる。

計算システム全便って、ソートすることも可能だが、一
般に負担はかなシ大きくなシ、Ｉｌｏを多発し、実行速
度の向上は期待できない、このため、外部メモリ中でソ
ートしてしまうことが望ましい０（発明の目的）本発明の目的は、高性能でかつ柔軟なアクセスが可能で
、さらにランダムシミュレーションのサボーートも可能
な外部メモリ装置全提供することにある。

（発明の構成）本発明によれば、計算システムからの指令にも出力バッ
ファと、前記入力バツフアからのベクトルデータを置換
し前記メモリモジュールへ送る逆線形置換手段と、前記
メモリモジュールからのベクトルデータを置換し前記出
力バッファへ送る線形置換手段と、前記出力バッファと
前記入力バッファの間にあって並列ソートの一部全実行
する並列ノート手段と、前記計算システムからの指令を
解釈し前記メモリモジー−ルに対し読み出し書き込み指
令やアドレスの生成や前記第１および第２の置換指令の
生成や前記並列ソート手段を制−咲“；゛Ｌ、噛１（発明の原理）つぎに、本発明の原理について説明する。まず。

２次元プレイ（Ａ、、）’を考える。このプレイの装置
」素へのアクセスは、計算アルゴリズムに依存するが代表
的なアクセスは、列方向か行方向、あるいは対角方向が
想定される。簡単のため、このアレイのサイズ全人（４
，４）とする。メモリには次のように格納されていると
する。

Ａｏｏ　　ＡＯＩ　　ＡＯ２Ａ１３Ａ２０　　Ａｌｌ　　Ａｌ１　　Ａ１３Ａ２０　　　Ａ
２１　　　人２２　　　Ａ２３八３０　　Ａ３１　　Ａ
３２　　Ａ３３このアレイの列方向のデータ要素は隣シ
合って格納されている。この場合’ｋｌ−１序ベクトル
形式、または簡単に順序ベクトルと呼ぶ。一方行方向の
データ要素ＡＯＯ・人１０炉Ａ２０　ｆ　Ａ３０やＡｏ
ｌ・Ａ１３Ａ２０２人、□といつたベクトルは、４要素
はなれた要素に対するアクセスとなる。また、対向要素
ＡＯＯ＃　Ａ１１１　Ａ２２　＃　Ａ３３は、５要素は
なれた要素に対するアクセスとなる。それらを各々４−
順序ベクトル、５−順序ベクトルに対するアクセスと呼
ぶ。

３次元データアレイについても同様、Ａ（ｎｔ。

ｎ２　＃　ｎ３　）　Ｋついて、（ここでｎｌ　、　＋
１２　、　ｎ３　はサイズ’ｒ表わ搬、Ａ、、ｋＯＫＴ
ｈＯ，１，２，・・・と変えて得られるベクトルは順序
ベクトルであシ、ｊを変えて得られるベクトルはｎ３−
順序ベクトル、ｉを変えて得られるベクトルはｓ　ｎ２
・ｎ３−順序ベクトルである。

一般的には、外部メモリから計算システムへのデータの
転送はｎ−順序ベクトルを順序ベクトルに置換し転送す
ることでちゃ、外部メモリへの書き込みは、順序ベクト
ルをｎ−順序ベクトルに置換し、転送することに対応す
る。もう少し具体爾に説明するため、線形置換り、Ｔｈ
次のように定義する。

Ｌｄ：　ｂ＋ｄ　＠　ｉ　　−＋　　ｉ　　（ｒｎｏｄ
　Ｍ）　　。

また、その逆置換り、はＬ””　：　ｉ　→ｂ−１−ｄ　ｏｉ　（ｍｏｄλ１）
。

ここで、ｂとｄは定数であう、ｄはｄ−順序ベクトルに
対応する定数である■ ｂとｄはつぎのように与えられる。あるプログラムを例
として考える。以下の例で、添字１１゜１２．１３は０
から始まシ、各々ｎ１　１．ｎ２　１゜ｎ３−１で終る
ものとする。

ｄｔｍｅｎｓＩｏｎ　Ａ　（ｎｌ　ｇ　ｎ２　、　ｎ３
　）ｄｏ　　１０　　ｋ＝１．ｎここで１１　、１２　、１３は定数であシ、ｋは１ｎｄ
ｅｘ変数である。アレイＡがアドレスａから格納されて
いるとすると、Ａ（ｉｌ、＋２．ｋ）はａ十ｎ２ｎ３ｉ
１＋　ｎ３ｉ２　＋ｋ　、すなわちｂ’＝＝ａ＋ｎ２　
　ｎ３．＋１＋ｎ３・電２であｆｉ、　ｄ＝ｌである。

同様にＡ（＋１゜ｓｃ、＋３）については１）＝＝１　
＋　１２　・ｎ３　＠　１１　＋　＋３　ｐｄ　””　
ｎ　３である。

つぎに、メモリへの格納全説明する０高速の転送を行う
には、並列処理が本質的であシ、メモリは複数のメモリ
モジー−ルに分けられる。アレイデータはメモリモジュ
ールに沿ってベクトルとして格納される。例えば、Ａ、
は、メモリモジュールＯにＡ１□、１にＡ□２，２にＡ
１３．・・・というように格納される。

メモリモジュールがＭ個あるとすると、アドレスＡｄｄ
のモジュール番号、モジュール内アドレスは、それぞれ
、Ａｄｄ　　ｍｏｄ　　Ｍ　、　（Ａｄｄ／Ｍ）である。

また、転送すべきベクトル要素のアドレスは、第λ番目
のアートレスについて書けば、ｂ＋ａ−ｔでアシ、モジ
ュール番号、モジュール内アドレス−はそれぞれ、（ｂ＋ａ　−ｉ）　ｍｏｄ　Ｍ　、　（ｂ＋ｄ　＝　）
／Ｍ）と表わされる。ここで〔ｘ〕はＸよシ小さくかつ
最大の整数を表わす。

ここで、ｂ＝ｂ　（ｍｏｄ　Ｍ　）　、　　ｄ＝ｄ　（
ｍｏｄ　Ｍ　）とすれば第１番目のモジー−ル番号は（ｂ十ａ　−ｉ　）ｍｏｄ　Ｍと表わすことができる（整数論より既知）。

線形置換は（ｂ＋ａ　ｅ　ｉ　）　　−＋　　ｉ　（ｍｏｄＭ　）
であシ、この置換は、（ｄ、Ｍ）−１、すなわち、Ｔと
Ｍが互いに素であるとき、競合なしに行われる。したが
って、Ｍは素数から選ばれることが望ましいが、競合を
解決する手段を用いれば、素数に限定することもない。

線形置換はつぎのように実行される。まずｄに対応し、
ｄ−順序ベクトルを順序ベクトル変換し、つぎにｂに対
応し、得られた順序ベクトル全回転置換する。この置換
を例で説明する。いま、メモリモジュールが５つあると
し、アレイＡのサイズが８Ｘ８であるとしアドレスＯか
ら格納されているとする０Ａ（ｉｔ２）−Ａ（２ｐ２）
ｔＡ（３＋２）ｔＡ（４、２）というベクトルはｂ＝（
Ａ（１，２）のアドレス）とし、ｄ＝８とすることで要
素のアドレスが得られる。Ａ（１，２）のアドレスは１
ｏであシ、ｂ＝１０　ｍｏｄ５＝Ｑ、ｄ＝８ｍｏｄ５＝
３である。各要素のアドレスはＡ（１，２）ｔＡ（２９
２）の順で各モジュールから読み出されたベクトルはＡ（１，２）
ｐＡ（”ｐ２）＊　　ｐＡ（２＊２）ｐＡ（４，２）の
順であシ、の置換が行なわれなければならない。このため、ｂ＝０
すなわち、回転置換を０ポジション行なう。

得られるベクトルはＡ（１ｔ２）ｐＡ（”ｙ２）ｐ　　１Ａ（２ｔ２）、Ａ
（４＃２）である。このベクトル要素を３要素飛びに集
めるＡ（１ｐ２ＬＡ（２ｐ２）ｔＡ（Ｌ２）ｔＡ（４ｐ
２）ｔ　　ｔとなシ、順序ベクトルが得られる。この置
換をスキップ置換という。

このように、回転置換と、スキップ置換を組み合せるこ
とで線形置換を実現できる〇一方逆置換Ｌｄは、以上述べた線形置換の逆置換であシ
、まず、スキップ置換を行い、ついて回ｄ’　ｄ　＝　
１　（ｍａｄ　Ｍ　）から得られる〇以上のようにして線形置換が行わわる。この線形置換全
使用して、指定されたデータの集合を値によりソートす
る方法をつぎに述べる０このソートは並列ソートであり
、基本的にはＢｕｔｃｈｅｒ’５ｓｏｒｔであシ、長さ
ｎのｂｉｔｙ）ｎｉｃ　から長さ２ｎのｔ）ｉｔｏｎｉ
ｃ列を作成していく方法である。ノートの手間は要素数
をＮとするとＮｌｏｇ２Ｎかかシ、ｈｅａｐ　５ｏｒｔ
とくらべ手間は大きいが、処理が簡単なことと、並列処
理が可能な点で有利である。

はじめにｂｉｔｏｎｉｃ　５ｏｒｔの処理手順について
説明し、つぎに線形置換によるｂｉｔｏｎｉｃ　５ｏｒ
ｔ　　のサポートについて説明する。

長さ２　ｎ（Ｄ　ｂｉｔｏｎｉｃ列は次のように我わさ
れるａ１ａ２　°”　ａ　ｎａ　ｎ４１　°”ａ２ｎに
おいてこのノートは（ｌｏｇ２ｎ＋１　）段のシャツフル交換
と比較によって達成される。第４図は、ｎ　＝４の場合
についての説明図である。図に示すようにシャツフル交
換は各膜島も同じスキームであり、シャツフル交換によ
り選ばれたデータのペアが互いの番号Ｃ６，Ｃ１ｐ　Ｃ
２Ｐ　Ｃ３とすると、ｃ、について（ｉ、ｎ＋ｉ）のベ
アを作る。したがって、長さ２ｎのｂｉｔｏｎｉｃ列全
ノートするには、まずベクトル要素Ｉを１に、ベクトル
要素（ｎ十ｉ）をｉに送シ、そのペアについてそれぞれ
比較することで行われる〇線形置換を行なえば以上のベアは容易に得ることができ
る（回転置換のみで実行できる）０以上に説明したよう
に線形置換食用いることで数値計算で現われる大規模な
プレイを柔軟にアクセスでき、また並列ソートを導入し
、線形置換によりサポートすることでランダムシミュレ
ーションを効果的に実行できるような外部２″そり装置
が可能となる。

（実施例）つぎに図面を参照して本発明の詳細な説明する０第１図
は本発明の一実施例を示す、システム構成図である。計
算システム１（図示せず）は、外部メモリ装置２に、転
送線１ｓｔ−介して指令を、転ｃｏｍｍａｎｄ　（ｂ　
、　ｄ　、　ｎ　）ここでＣｏｍｍａｎｄはｒｅａｄか
ｗｒｔｔｅであシ、ｂはベクトルのベースアドレス、ｄ
はスキップ距離、ｎは転送すべきベクトル長である。

まず、ベクトルデータの書き込みＫついて説明する。転
送線１８を介してｗｒｉｔｅ（ｂ、ｄ、ｎ）のコマンド
が制御プロセッサ８に送られる０制御プロセツサ８は（
ｂ、ｃｔ）Ｋもとすいて、前述のｂ／、ｄ／を計算する
。（この計算は原理の説明で説明した）。

計算されたｂ／、　ｄ／は転送線８４を介して、逆線形
置換手段４に送られ、入力バツフア３とメモリモジュー
ル５□〜５ｍの間のデータの転送パスが確立される口ま
た、制御プロセッサ８は〔（ｂ十ｄ−１）／Ｍ〕の計算
を行い、各モジュール内アドレスを計算し、計算された
アドレスは転送線８３と介して、入力バッファ３に送ら
れ、転送線３４．〜３４゜、逆線形置換手段４、転送線
４５１〜４５ｍ’にへてメモリモジュール５１〜５ｍに
送られる。制御プロセッサ８はメモリモジュール５１〜
５ｍＫｗｒｉｔｅ　指４５□〜４５ｍ’に介してメモリ
モジュール５１〜５構成され、不正な書き込みを防止す
る（図示していない）。

ワぎに読み出しについて説明する。計算システム１から
はｒｅａｄ　（ｂ　、　ｄ　、　ｎ　）のコマンドが送
られでくる。制御プロセッサ８は書き込みと同様にして
、各メモリモジュール５１〜５ｍにアドレスを生成し送
る。そして転送線８５ｔ−介して各メモリモジュール５
、〜５ｍに読み出し指令を送シ、ベクトルデータとして
、読み出されたデータと転送線５６、〜５６ｍｔ−介し
て線形置換手段６に送る。この前に制御プロセッサ８は
転送線８６を介し、第１の置換手段６に（ｂ、ｄ）から
（τｔａ）ｉ生成し、転送パスを確立している。第１の
置換手段６によりデータベクトルの置換が行われ、転送
線６７、〜６７ｍ’ｅ介して出力バッファ７にデータは
送られる。ベクトル長ｎは、有効なベクトルの範データ
の交換が行われる。

つぎに、第２図に線形置換手段の構成例をブロック図で
示す。回転置換手段６□は転送線８６を介して送られて
くる（τｔ　”　）のうち、ｉに対応し、川、τポジシ
ョン回転置換を実行するものでシフ４ルジスタによシ実
現される・出力は、転送線６□１〜６１ｍ’Ｔｈ介して
スキップ置換手段６□に送られる。スキップ置換手段６
□線（τｔ　”　）のうち、正に対応して、１−飛びの
スキップ置換を行う。

このスキップ置換は、Ｓｗａｎｓｏｎ　、　　Ｒ２Ｏ。

（”Ｉｎｔｅｒｃｏｎｎｅｃｔｉｏｎｓ　ｆ□ｒＰａｒ
ａｌｌｅ１Ｍｅｍｏｒｉｅｓ　ｔｏ　Ｕｎｓｃｒａｍｂ
ｌｅ　ｐ−ｏｒｄｅｒｅｄＶｅｅｔｏｒｓ＋’ＩＥＥＥ
、　　Ｔｒａｎｓ　ｏｎ　Ｃｏｍｐｕｔ、、　Ｖｏｌ。

Ｃ−２３，Ｎｏ、１１　、ｐｐ　１１０５〜１１１５　
（１９７４））に述べられているに−ａｐａｒｔ　１ｎ
ｔｅｒｃｏｎｎｅｃｔｉｏｎ（ｋ−飛び相互結合）によ
シ容易に実現できる。

一方、ソートの指令は、計算システム１から次の形式で
行われるり５ｏｒｔ　（ａ　、　ｎ　）ａはソートすべきデータベクトルのスタートアドレス、
ｎは要素数である。いまデータベクトルが長さｎのｂｉ
ｔｏｎｉｃ列であるとする。制御プロセッサ８は、並列
ソータ９１〜９ｍへのパス７９、〜７９　を開き、ソー
トの準備を行う。

ｂｉｔｏｎｉｃ　５ｏｒｔ　　では発明の原理の項で説
明したようにペア（ｉ、ｎ＋１）ｔ−比較器９１〜９ｍ
に送、≠必要があり、このためまず要素ｉを比較器９１
〜タベクトルは読み出し時と同様に出力バッファ７に送
られ、転送線７９１〜７９ｍｆｆ１介して比較器９□〜
９ｍに送られる。つぎに制御プロセッサ８は、線形置換
手段６に対してｂ　＝　ａ　＋　ｉ　十ｎ（ｍａｄ　Ｍ
　）。

ｄ＝１ｉセットし、ペアのもう一方のデータを同様にし
て、比較器９、〜９ｍに送る。比較器９、〜９ｒｒｌは
この２つのデータの大小を比較し、転送線８９を介して
供給され制御プロセッサ８からの指令にもとづき、デー
タの交換を行ない、その結果全転送線９３１〜９３ｍに
おく。そして書き込み時と同様にして、入力バッファ３
から逆線形置換手段４を介し、メモリモジュール５□〜
５ｍに書き込まれる。このときのアドレスは第４図に示
した１′）ｉｔｏｎｉｃ　５ｏｒｔのスキームから得ら
れる。

第３図に比較器９、〜９ｍのうちの１つのブロック図を
示す０転送線７Ｌ（ｉ＝１．２．・・・２口ｌ）を介し
て送られてくる第１のデータは、ゲート９１１によって
、転送線９１７に送られレジスタ９１２に送られる。第
２のデータは、ゲート９１１により転送線９１８ヲ介し
、レジスタ９１３に送られる。大小比較交換器であシ、
転送機９１８．　９２０のデータを転送線９２１の内容
にしたがい交換するかあるいはそのままの順で、出力線
９２２と９２３に送る。ゲート９１６はまず転送線９２
２の内容を転送線９３　に送）、ついで転送線９２３の
内容を転送線９３　に送シ出す。

（発明の効果）以上説明したように本発明によれば、通常数値計算で現
われる大規模な行列やアレイを高速にかつ柔軟に計算シ
ステムとの間でデータ交換できるとともにランダムシミ
ュレーションのサポートを並列ソートで支援することの
できる外部メモリ装置が提供できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す外部メモリ装置のブロ
ック図、第２図は線形置換手段のブロック図、第３図は
並列ノートの一つのコンポーネントのブロック図、第４
図はバイトニックソートのファ、８・・・制御プロセッ
サ、９□〜９ｍ・・・比較器をそれぞれ示すり７２図７３図７４図

Claims

【特許請求の範囲】

１　素数個のメモリモジユールと、計算システムからの
ベクトルデータを保持する入力バツフアと、前記計算シ
ステムへのベクトルデータを保持する出力バツフアと、
前記入力バツフアからのベクトルデータを置換し前記メ
モリモジユールへ送る逆線形置換手段と、前記メモリモ
ジユールからのベクトルデータを置換し前記出力バツフ
アへ送る線形置換手段と、前記出力バツフアと前記入力
バツフアの間にあつて並列ソートの一部を実行する並列
ソート手段と、前記計算システムからの指令を解釈し前
記メモリモジユールに対し読み出し書き込み指令やアド
レスの生成や前記第１および第２の置換指令の生成や前
記並列ソート手段を制御する制御部とから構成されるこ
とを特徴とするメモリ装置。