JPS61208570A

JPS61208570A - ベクトル・プロセツサ

Info

Publication number: JPS61208570A
Application number: JP60283216A
Authority: JP
Inventors: チヤツク・ホング・ガイ; ジエラルド・ジヨセフ・ワトキンス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1985-03-13
Filing date: 1985-12-18
Publication date: 1986-09-16
Also published as: CA1233260A; EP0195245B1; EP0195245A2; US4884190A; DE3686828D1; EP0195245A3; DE3686828T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明はコンピュータシステム、より具体的に言えば一
対のベクトルを迅速に処理し且つその処理結果を記憶す
る並列式ベクトル・プロセッサに関する。

Ｂ、従来技術例えば第６図に示された代表的なベクトル・プロセッサ
はベクトルを記憶する複数個のベクトル・レジスタを含
んでいる。ベクトルは複数個のベクトル要素を含む。パ
イプライン処理ユニットは第１のベクトル・レジスタか
ら第１のベクトルの対応要素を受は取るため、ベクトル
・レジスタに関連したセレクタに接続されており、そし
て第２のベクトル・レジスタ中に記憶されている第２の
ベクトルの対応要素との算術演算を遂行するため、それ
等の対応要素を使用する。算術演算の結果は上述のベク
トル・レジスタのうちの何れか一方のベクトル・レジス
タの対応位置の中か、又は第３のベクトル・レジスタの
対応位置の中に記憶される。

然しなから、この構成°では、ベクトルの各対応要素を
順次に演算することが必要である。若し、ベクトルが１
２８個の要素を含んでいるとすると、１２８回の演算動
作が順次に遂行されなけ□ればならない。ベクトルの１
２８個のすべての要素の演算動作を完了するのに必要な
時間は、パイプライン処理ユニットが対応する夫々の要
素の演算をするので、パイプライン処理ユニットの１演
算動作毎に要するサイクル時間の関数である。

コンピュータ・システムが複雑巧妙になった結果、コン
ピュータ・システム内のベクトル・レジスタ中に記憶さ
れている複数個のベクトルの各対応要素の算術演算を遂
行するのに必要な時間を減少することによってコンピュ
ータ・システムのベクトル・プロセッサの部分の性能を
高めることが必要である。

上述したように、コンピュータ・システムのベクトル・
プロセッサの部分の性能を高めるためにデザインされた
他の代表的なベクトル・プロセッサが第２図に示されて
いる。このベクトル・プロセッサは“並列式“ベクトル
・プロセッサと称される。第２図において、複数個のベ
クトル・レジスタが並列構成で配列されており、各ベク
トル・レジスタは複数個の小容量レジスタに分割されて
イル。ベクトル・レジスタの各小容量レジスタはベクト
ル・レジスタ中に記憶されているベクトルの四個の要素
を記憶するためにデザインされておす、各ベクトルの長
さは１２８個の要素で構成されている。要素プロセッサ
は複数個のベクトル。

レジスタの対応する小容量レジスタの各々に接続されて
いる。

Ｃ３発明が解決しようとする間頌点上述の構成では、１つの要素プロセッサがベクトルの４
個の要素を処理することが必要である。

若し、ベクトルの要素が順次に処理されるとすると、後
続の要素（例えば要素１）の処理は先行する要素（例え
ば０）の処理の完了を待たなければならない。

既に述へたように、コンピュータシステムのベクトルレ
ジスタ中に記憶された複数個のベクトルの各要素を処理
するのに要する時間を減少することによって、コンピュ
ータシステムのベクトルプロセッサの部分の性能を高め
る必要がある。

ベクトルプロセッサの性能を更に高めるために、１つの
要素プロセッサがベクトルの先行要素を処理している間
に、他の要素プロセッサがベクトルの後続要素の処理を
始めるべきである。そめ結果、後続要素の処理は先行要
素の処理を待つ必要がなくなるであろう。

Ｄ９問題点を解決するための手段従って、本発明の主目的は、ベクトルレジスタ中に記憶
されているＮ要素のベクトルの相次ぐＭ個の各要素を別
々の要素プロセッサへ割り当てることによって、コンピ
ュータシステムのベクトルプロセッサの部分の性能を更
に改良することにある。

本発明の他の目的は、コンピュータシステムのベクトル
プロセッサの部分によって使われる要素プロセッサの数
を制限しながら、Ｎ要素ベクトルの相次ぐＭ個の各要素
を別々の要素プロセッサへ割り当てることによって、コ
ンピュータシステムのベクトルプロセッサの部分の性能
を更に改良することにある。

本発明に従って、ベクトルは合計Ｎ個の要素を含むもの
と仮定する。更に、このベクトルは複数個の部分ベクト
ルに分割され、そして部分ベクトルの各々はＭ個の要素
を含むものと仮定する。加えて、合計Ｍ個のベクトルレ
ジスタがあり、これ等のＭ個のベクトルレジスタに並列
に接続された合計Ｍ個の要素プロセッサがあるものと仮
定する。

上述の本発明の目的は、各ベクトルレジスタに関連した
Ｎ要素ベクトルの最初の相次ぐＭ個の要素を、第１番要
素プロセッサから第１番要素プロセッサに割り当てるこ
とによって、そしてＮＴ９素ベクトルの第２の相次ぐＭ
個の要素を要素プロセッサｌから要素プロセッサＭへ割
り当てることによって、そして残りの要素がなくなるま
でＭ個の要素類でＮ要素ベクトルの残りの相次ぐ要素を
要素プロセッサｌ乃至Ｍへ繰返し割り当てることによっ
て達成される。

Ｅ、実施例第６図を参照すると、代表的なパイプライン・ベクトル
プロセッサ１０が示されている。第６図において、複数
個のベクトルレジスタ１２　（ＶＲＯ乃至■Ｒ１５）が
示されており、各レジスタは１２８個の要素（要素Ｏ乃
至要素１２７）を記憶する。良好な実施例では、各要素
は４バイトのバイナリワードを含む。セレクタ１４は各
ベクトルレジスタ１２へ接続され、ベクトルレジスタ１
２から対応する要素を選択し、そしてパイプライン処理
ユニット１６へ選択された要素をゲートする。

パイプライン処理ユニット１６はセレクタ１４へ接続さ
れ、対応する要素を受は取って、その要素に対して、例
えば算術演算のような選択された演算を行う。例えば、
パイプライン処理ユニット１６は、ベクトルレジスタＶ
ＲＯから要素０及びベクトルレジスタＶＲ１５からその
対応する要素Ｏを受は取り、そしてＶＲＯ＋ＶＲｌ　５
−−−＞ＶＲ３という上記の２つの要素の算術演算を遂
行する。

この算術演算において、ｖＲＯ中の要素０の各バイナリ
ピットはＶＲ１５中の要素Ｏの各バイナリビットに加え
られ、そして結果の和はベクトルレジスタＶＲ３の要素
Ｏの位置に記憶される。結果レジスタ１８はパイプライ
ン処理ユニットへ接続され、パイプライン処理ユニット
１６から受は取った結果の和を記憶する。結果レジスタ
１８はセレクトゲルト１９を介して各ベクトルレジスタ
１２へ接続されており、ベクトルレジスタＶＲ３へ結果
の和を転送する。

第６図に示された構成は成る種の欠点を持つ。

これを上述の例を引用して説明する。最初の要素はレジ
スタＶＲＯから選択され、そしてその対応要素はレジス
タＶＲ１５から選択される。要素は上述の態様で加算さ
れる。第２の要素がレジスタＶＲＯ及びＶＲ１５から選
択され・上述の態様で共に加えられる。ベクトルレジス
タＶＲＯ及びＶＲ１５に記憶されているベクトルを処理
するために、１２８個の各要素はレジスタＶＲＯ及びＶ
Ｒ１５から順次に選択され、そして順次に加算されねば
ならない。従って、ベクトルレジスタＶ、ＲＯ及びＶＲ
１５中に記憶されたベクトルの処理を完了するのに必要
な時間はｌベク）／し毎の要素の数と、ｌベクトル毎の
対応要素の組を処理するのに要する時間との関数である
。ベクトルプロセッサの性能は１組のベクトルレジスタ
中に記憶された一対のベクトルを処理するのに必要な時
間を減らすことによって改良することが出来る。

第６Ａ図を参照すると、他の代表的な並列式ベクトルプ
ロセッサが３次元的に示されている。第６Ａ図において
、複数個のベクトルレジスタＶＲＯ乃至ＶＲ１５は互に
並列に配列されている。各ベクトルレジスタは第０番か
ら第ｘｘ番までの複数個の小容量レジスタに分割されて
いる。複数個のベクトルレジスタＶＲＯ乃至ＶＲ１５の
中の対応する第０番の小容量レジスタの各々は１つの要
素プロセッサ、ＥＰＯに接続されている。同様に、複数
個のベクトルレジスタＶＲＯ乃至ＶＲ１５の中の対応す
る第１番小容量レジスタの各々は１つの要素プロセッサ
Ｆｉｌｌに接続されており、以下同様の接続を持つ。複
数個のベクトルレジスタＶＲＯ乃至ＶＲ１５の中の各対
応小容量レジスタＸＸは要素プロセッサＫＰＸＸへ接続
される。要素プロセッサＥＰＯ乃至１１ｔ：ＰＸＸの出
力は１つの結合部へ結ばれており、その結合部は各ベク
トルレジスタの入力へ接続され、フィードバックされる
。

プロセッサ・インターフェースアダプタ（ｐ工Ａ）は特
定の態様で要素プロセッサ（ＥＰＯ乃至１１ＣＰＸＸ）
の入力へ接続される。その特定の態様はその特定の並列
式ベクトルプロセッサの構成に依存しており、２つの異
なった構成を第２図及び第１図を参照して説明する。本
発明の構成は第１図を参照して説明される。

第２図を参照すると、代表的な並列式ベクトルプロセッ
サが示されている。第２図において１第６図のベクトル
レジスタＶＲｏ乃至■Ｒ１５の各々は、例えば４個の要
素を含む複数個の小容量レジスタに分割されている。対
応する複数個の要素プロセッサ２０はベクトルレジスタ
ＶＲＯ乃至■Ｒ１５に記憶されたベクトルの対応要素の
処理（演算）動作を遂行するため、複数個の小容量レジ
スタ１２ａに接続され、各要素プロセッサ２０は上記の
ベクトルの４個の対応要素の演算を遂行する。演算の結
果は、各要素プロセッサによって並列に同時に発生され
、そしてベクトルレジスタＶＲＯ乃至ＶＲ１５の任意の
１つの対応する位置に記憶される。プロセッサ・インタ
ーフェースアダプタ（ＰＩＡ）２２は、各要素プロセッ
サへアドレス、データ及び命令情報を転送するために、
各要素プロセッサ２０へ接続される。要素プロセッサ０
乃至３１の各々へＰ工Ａ２２を接続する実際の構成は第
３図に示されている。命令処理ユニット（工ＰＵ）２４
はＰ工Ａ２２へベクトル命令を転送するため、Ｐ工Ａ、
２２へ接続される。主メモリ、即ちストレージ２６はデ
ータ情報やアドレス制御情報の要求に応答してそれ等の
情報を転送するため、Ｐ工Ａ２２へ接続される。

第３図を参照すると、第２図の代表的な並列式ベクトル
プロセッサに関連した各要素フロセッサ２０へＰ工Ａ２
２を接続する実際の構成が示されている。Ｐ工Ａ２２は
要素プロセッサ０１８．１６及び２４へ接続されている
。要素プロセッサＯは要素プロセッサ１乃至７へ直列に
接続される。要素プロセッサ８は要素プロセッサ９乃至
１５へ直列に接続される。要素プロセッサ１６は要素プ
ロセッサ１７乃至２３へ直列に接続される。要素プロセ
ッサ２４は要素プロセッサ２５乃至３１へ直列に接続さ
れる。

第４図を参照すると、ＰＩＡ２２の構成が示されている
。ＰＩＡ２２は命令処理ユニット（工ＰＵ）２４へ接続
されているベクトル命令レジスタ（ＶＩＲ）２２ａを含
んでおり、ＶＩＲはＩＰＵ２４からベクトル命令を受は
取り、そしてベクトル命令を一時的に記憶する。ベクト
ルデータ・レジスタ（ＶＥＲ）２２ｂはストレージ２６
及び工ＰＵ２４へ接続され、そしてストレージ２６から
データを受は取り且つそのデータを一時的に記憶する。

ベクトルステータス・レジスタ（ＶＳＲ）２２ｃはスト
レージ２６及び工ＰＵ２４へ接続されて、ストレージか
らのアドレス制御情報を受は取り、そしてその情報を一
時的に記憶する。ピコ（ｐ：ｔｃｏ）制御記憶装置２２
ｄはＶ工Ｒ２２ａへ接続され、ＶＩＲに記憶されたベク
トル命令をデコードし且つピコ記憶装置２２ｄに記憶さ
れたピコ制御ルーチンを選択する。コマンドレジスタ２
２ｅはピコ制御記憶装置２２ｄに接続され、そして要素
プロセッサを駆動するため、コマンドバスを経て要素プ
ロセッサへ接続される。バス制御装置２２ｆはｖＤＲ２
２ｂへ接続され、ＶＤＲからデータを受は取り、そして
データバスを介して要素プロセッサ２０ヘデータを転送
する。バス制御装置２２ｆはまた、１つの要素プロセッ
サから他の要素プロセッサへデータを差し向けることが
出来る。ＶＳＲ２２ｃはまた、アドレス制御装置２２ｈ
を経てバス制御装置２２ｇへ接続される。アドレス制御
装置２２ｈはｖｓＲ２２ｃから受は取ったデータと対応
するアドレスを発生する。バス制御装置２２ｇは発生さ
れるアドレスをアドレスバスを介して要素プロセッサ２
０へ転送スる。

第５図を参照すると、ブロック図による要素プロセッサ
２０の構成が示されている。第５図において、ローカル
ストレージ１２は第２図に示されたベクトルレジスタ１
２と同じである。システムバス１１及び１１ａの一端は
駆動回路９へ接続され、他端は受信回路７へ接続されて
いる。第１人力データアセンブラ（ＡＳＭ）ｌ　３は駆
動回路９及び受信回路７へ接続される。ＡＳＭＩ　３は
更にローカルストレージ１２及び要素プロセッサ２０へ
接続される。第５図に示された要素プロセッサ２０はロ
ーカルストレージ１２及び第１人力データアセンブラ１
６へ接続される。シフト選択レジスタ２０ｂ及びフラッ
シュ選択レジスタ２０ｃは入力データアセンブラ２０ａ
へ接続される。フラッシュ選択レジスタ２０ｃは真数／
補数ゲート２０ｄへ直接接続されているのに反し、シフ
ト選択レジスタ２０ｂは事前−シフト制御装置２Ｏｆを
経て他の真数／補数ゲート２０ｅへ接続されている。

真数／補数ゲー）２０ｄ及び２０ｅの各々は算術波Ｗユ
ニツ）　（ＡＬＵ）２０ｇへ接続される。Ａｒ、ｔｙ２
０ｇは事後−シフト制御装置２０＋を経て結果レジスタ
２０ｈへ接続される。結果レジスタ２０ｈはローカルス
トレージ１２へ接続され、そして要素プロセッサ２０が
対応する一対のベクトルレジスタ１２に記憶されている
一対のベクトルの４個の要素の算術演算を完了した時、
結果を記憶する。乗算回路２０ｊは入力データアセンブ
ラ２０ａ及びＡｒ、ｔｙ２０ｇとの間に相互接続される
。

乗算回路２０ｊは２個のオペランドを受は取る。

合計出力及び繰上げ出力が乗算回路２０ｊにより発生さ
れ、それ等はＡＬＵ２０ｇで受は取られる。

第２図の代表的な並列式ベクトルプロセッサの機能的動
作を第２図乃至第４図を参照して説明するＯ命令処理ユニットエＰＵ２４は特定のデータをベクトル
レジスタＶＲＯ及びＶＲ１５ヘロードするようＰ工Ａ２
２に命令する。工ＰＵ２４はＰＩＡ２２へロード命令を
転送する。ロード命令はＶ工Ｒ２２ａの中で一時的に記
憶される。ベクトルレジスタＶＲＯ及びＶＲ１５にロー
ドされるべきデータはストレージ２６に記憶されている
。Ｐ工Ａ２２がロード命令を受は取った時、Ｐ工Ａはス
トレージ２６から特定のデータを取り出し、そしてＶＤ
Ｒ２２ｂ中へそのデータをロードする。ロード命令を発
生する前に、■ｐｕ、２４はｖｓＲ２２ｃにアドレス制
御情報をロードする。その結果、特定のアドレスがアド
レス制御装置２２ｈで発生される。アドレス情報はロー
ドされるべきデータが入る選択された要素プロセッサ２
０のアドレスと、記憶されるべきデータが入る選択され
た要素プロセッサ２０に関連した選択要素のアドレスと
を含んでいる。Ｖ工Ｒ２２ａに記憶されたロード命令は
ピコ制御記憶装置２２ｄによりデコードされる。

ピコ制御記憶装置２２ｄに記憶されたロード命令に対応
するコマンド情報が選択される。アドレス制御装置２２
ｈにより発生されたアドレス情報に従って、■ＤＲ２２
ｂに記憶されたデータは、ノくス制御装置２２ｆ及びデ
ータバスを経て、選択された要素プロセッサ２０中に記
憶するため転送される。更にまた、アドレス制御装置２
２ｈで発生されたアドレス情報に従って、ピコ制御記憶
装置２２ｄに記憶され、且つデコードされたロード命令
により選択されたコマンド情報がコマンドレジスタ２２
ｅ及びコマンドバスを経て、選択された要素プロセッサ
２０へ転送される。選択されたコマンド情報は、選択さ
れたプロセッサ２０中に記憶されたデータを小容量レジ
スタ１２ａの選択された要素の中にロードさせ、そして
選択された要素はアドレス制御装置２２ｈで発生された
アドレス情報によって識別される。

一例として、１２８個の要素ベクトルが各ベクトルレジ
スタＶＲＯ及びＶ’Ｒｌ　５中に記憶されていると仮定
する。１個の要素は４バイトのバイナリワードを含む。

更に、ベクトル算術演算、即ちＶＲＯ＋ＶＲ１５−−−
）ＶＲ１５がベク）／ｌ／１／ジスタＶＲＯ及びＶＲ１
５に記憶されたベクトルに遂行されるものと仮定する。

工ＰＵ２４は加算演算を遂行するようＰ工Ａ２２に命令
する。ここで、ベクトルレジスタＶＲＯに記憶されてい
るベクトルはベクトルレジスタＶＲ１５に記憶されてい
るベクトルに加算されるものとし、その結果はベクトル
レジスタＶ　Ｒ，ｌ　５に記憶されるものとする。

工ＰＵ２４はこの加算命令をＰ工Ａ２２へ転送する。加
算命令は■工Ｒ２２ａの中に一時的に記憶される。加算
命令に従ってピコ制御記憶装置２２ｄに記憶される特定
のコマンド情報が選択される。

Ｐ工Ａ２２が加算命令を受は取ると、工ＰＵ２４はスト
レージ２６から特定のデータを取り出す。

その特定のデータとは、小容量レジスタ中にある加算演
算を行う要素のアドレスの表示と、加算演算を行う選択
されたプロセッサ２０のアドレスである。従って、アド
レス情報がアドレス制御装置２２ｈによって発生される
。アドレス情報はバス制御装置２２ｇ及びアドレスバス
を経て選択された要素プロセッサ２０へ転送される。こ
のアドレス情報に従って、ピコ制御記憶装置２２ｄから
選択されたコマンド情報はベクトルレジスタＶＲＯ及び
ＶＲ１５に対応する関連した小容量レジスタ１２ａの選
択された要素を検索するように、選択されたプロセッサ
２０に命令する。要素が探し出されると、選択されたコ
マンド情報が選択されたプロセッサ２０に加算命令を遂
行させる。例えば、ベクトルレジスタＶＲＯ及びＶＲ１
５に記憶されているベクトルに関連した要素Ｏ乃至３は
第０番の要素プロセッサによって受は取られる。要素プ
ロセッサ０は対応する２つの要素を加算し、そして選択
されたコマンドに従って、ベクトルレジスタＶＲ１５の
対応するロケーションにその結果を記憶する。換言すれ
ば、ベクトルレジスタＶＲＯの要素０がベクトルレジス
タＶＲ１５の要素Ｏに加えられ、そしてその和がベクト
ルレジスタＶＲ１５の要素Ｏの位置に記憶される。ベク
トルレジスタＶＲＯ及びＶＲ１５の要素１．２及び３は
同様に加算されて、その和はベクトルレジスタＶＲ１５
の要素１．２及び３の位置に記憶される。ベクトルレジ
スタＶＲＯ及びＶＲ１５に関連した要素４．５．６及び
７は上述した態様で要素プロセッサ１によって処理され
、これらの要素の処理は要素０．１．２及び３の処理と
同時に遂行される。

ベクトルレジスタＶＲＯ及びＶＲ１５に記憶されている
ベクトルの残りの要素は、要素プロセッサ０による要素
０乃至３の処理及び要素プロセッサ〕−による要素４乃
至７の処理と同時に、４個の要素のグループ毎に、要素
プロセッサ２乃至３１によって処理される。その結果、
ベクトルレジスタＶＲＯ及びＶＲ１５に記憶されたベク
トルに対して遂行された上述のベクトルの算術演算は、
通常のベクトル処理システムにおける１２８個の要素に
要する時間に比較して、ベクトルの４個の要素を処理す
るのに必要な時間で完了される。従って、第２図の並列
ベクトルプロセッサは通常のベクトルプロセッサのシス
テムを凌駕した性能を示す。

第５図に示された要素プロセッサ２０の機能的動作は４
サイクル動作に分割される。それは第１サイクルとして
知られているローカルストレージの読み取り及びシフト
選択サイクルと、第２サイクルとして知られている事前
−正規化シフトサイクルと、第３サイクルとして知られ
ている算術演算（ＡＬＵ）サイクルと、第４サイクルと
し゛で知られている事後−正規化シフトサイクルである
。

前に述べた仮定を採用して、ベクトルレジスタＶＲＯ及
びＶＲ１５の夫々の要素は共に加算され、加算演算の結
果はベクトルレジスタＶＲＯの巾ニ記憶され、要素０乃
至３はバス１１ａの受信装置７により受は取られて、Ａ
ＳＭ１′５を介してローカルストレージ１２に記憶され
、そしてローカルストレージ１２は要素Ｏ乃至３を記憶
する第２図の第１の小容量レジスタ１２ａと同じである
と仮定する。更にまた、要素０乃至３は浮動小数点の要
素オペランドを、表わすものと仮定する。

第１サイクルで、レジスタＶＲＯに記憶された要素０乃
至３をレジスタＶＲ１５に記憶された要素０乃至３に加
える命令が発生されると、夫々の要素のオペランドはロ
ーカルストレージ１２から読み取られて、入力データア
センブラ２０ａを経てフラッシュレジスタ２０Ｃ及びシ
フトレジスタ２Ｏｂ中に一時的に記憶される。同時に、
夫々の要素の指数は、指数の大きさの差が計算される指
数制御路（図示せず）に入る。その結果、小さい指数を
有する要素はシフト選択レジスタ２０ｂヘゲートされる
のに反し、大きい指数を有する要素はフラッシュ選択レ
ジスタ２０ｃヘゲートされる。

フラッシュ選択レジスタ及びシフト選択レジスタ２０ｃ
及び２０ｂは第１サイクルの終りでラッチクロックによ
りラッチされる。

第２サイクルの始めで、シフト動作が開始される。フラ
ッシュ選択レジスタ２０ｃに記憶されている大きい指数
を持つ要素は算術論理ユニット（ＡＬｔｙ）２０ｇの１
つの入力ヘゲートされる。シフト制御情報は指数制御路
（図示せず）から事前−シフト装置２０ｆへ通される。

事前−シフト装置において、シフト選択レジスタ２０ｂ
に記憶されている小さい指数を持つ要素は事前−シフト
装置２Ｏｆにより右シフトされ、ＡＬＵ２０ｇの１つの
入力に現在ゲートされている大きい指数を持つ要素と桁
合せされる。同時に、ＡＬＵ２０ｇは真数／補数ゲート
２０ｄ及び２０ｅから適当な入力を選択して、フラッシ
ュ選択レジスタ２０ｃ及びシフト選択レジスタ２０ｂか
ら真＠／補数ケー）２０ｄ及び２０ｅを介して要素を受
は取る。

第５図の要素プロセッサ２０の動作の第３サイクルは算
術論理ユニツ）　（ＡＬＵ）２０ｇの算術演算に向けら
れる。ＡＬＵは、１の補数の算術演算と、循環桁上げと
、再生補数化とを具えた８バイトの高速度桁上げ先見加
算器（ｓ　−ｂｙｔｅ　　ｈｉｇｈｓｐｅｅｄ　ｃａｒ
ｒｙ　１ｏｏｋ　ａｈｅａｃｌ　ａｄｄｅｒ）である。

ＡＬＵは、例えばベクトルレジスタＶＲＯと関連した小
容量レジスタ１２ａの１個に記憶された０乃至３の要素
である４個の各要素のビットがベクトルレジスタＶＲ１
５と関連した４個の夫々の要素のビットに加えられる加
算演算を遂行する。加算演算の結果は最終的にローカル
レジスタ１２に記憶される（例えば第２図に示されたベ
クトルレジスタＶＲＯと同様に）。然しなから、この記
憶ステップの前に、事後−正規化ステップが第４サイク
ルの間に取られねばならない。

加算演算がＡＬＵ２０ｇで完了すると、第４ステツプの
間で事後−正規化ステップが取られる。

データ処理の用語、′事後−正規化”はＡＬＵにより発
生された結果のゼロの１６進デジツトを検出するための
ステップと、検出されたゼロのデジットの数に従ってそ
の結果を左シフトすることを含む。結果の指数はシフト
された各デジット毎に指数を数値１づつ減少することに
より調節しなければならない。ＡＬＵ２０ｇの出力のデ
ジットはそれ等のゼロ状態のために、事後−シフト装置
２０ｉにより検査され、そしてＡＬＵ出力の結果は検出
されたゼロのデジットの数に従って左シフトされる。Ａ
ＬＵ出力の左シフトの結果は一時的に記憶する装置であ
る結果レジスタ２０ｈへ通過される。

指数制御路（図示せず）は結果の要素の指数値（ＡＬＵ
からの出力）を増加し又は減少するので、正しい最終指
数値が結果レジスタ２０ｈヘゲートされる。従って、結
果の要素は結果レジスタ２０ｈに記憶され、結果の要素
のオペランドはＡＬＵ出力中で検出されたゼロのデジッ
トの数に従った適当な量だけ左シフトされ、結果の要素
の指数は正しい最終指数値である。第４サイクルに続く
次のサイクルの間で結果の要素はローカルストレージ１
２へ通される（例えばローカルストレージは要素Ｏ乃至
３を記憶する第２図の小容量レジスタ１２ａの１つと同
じである）。

第１図を参照すると、本発明に従った並列式ベクトルプ
ロセッサの構成が示されている。第２図に示された３２
個の要素プロセッサに比べて、第１図の１６個の要素プ
ロセッサが示されている。

第１図において、ＶＲＣＩ乃至ＶＲ１５と番号を付され
た複数個のベクトルレジスタ１２′が示されており、各
ベクトルレジスタは複数個の小容量レジスタ１２ａ′に
分割されている。例えば、ベクトルレジスタＶＲＯは複
数個の小容量レジスタ１２ａ′、ベクトルレジスタＶＲ
２（図示せず）は複数個の小容量レジスタ１２ａ′に分
割され、以下同様に分割され、そしてベクトルレジスタ
ＶＲ１５は複数個の小容量レジスタ１２ａ′に分割され
る。各ベクトルレジスタ１２の小容量レジスタ１２ａ′
はそれ自身の要素プロセッサへ接続さ、れ、複数個のベ
クトルレジスタＶＲＯ乃至ＶＲ１５の中の対応する小容
量レジスタ１２ａ′は同じ要素プロセッサに接続される
。例えば、要素番号０を含むベクトルレジスタＶＲＯ乃
至ＶＲ１５中の小容量レジスタ１２ａ′は同じ要素プロ
セッサ２０′、即ち要素プロセッサ０へ接続されており
、要素番号１を含むベクトルレジスタＶＲＯ乃至ＶＲ１
５の中の小容量レジスタは同じ要素プロセッサ即ち要素
プロセッサ１に接続されている等々である。要素番号１
５を含む小容量レジスタは要素プロセッサ１５へ接続さ
れる。然しなから、要素番号１６を含む小容量レジスタ
は再び要素プロセッサＯへ接続される。このサイクルは
、すべての要素が要素プロセッサに割り当てられるまで
繰返される。事実、Ｎ要素のベクトルの相次ぐ最初のＭ
個の要素は要素プロセッサ１乃至Ｍへ割り当てられ、Ｎ
要素ベクトルの残りの相次ぐ要素はＭ個の要素の順序で
要素プロセッサｌ乃至Ｍに割り当てられる。

各要素プロセッサ２０′の出力は各ベクトルレジスタ１
２へ接続される。

Ｐ工Ａ２２′は各要素プロセッサ２０′へ接続され、接
続の方法は第１図に示されており、より細部については
第７図に示されている。

各要素プロセッサ２０′の構成は第５図に示された要素
プロセッサ２０の構成と同じである。

本発明に従った並列式ベクトルプロセッサの機能的動作
は第１図を参照して以下に説明する。機能的動作は４つ
の動作モード、即ち、（１）ブロードキャスト（ｂｒｏ
ａｄｃａｓｔ）モード、ＢＯモード、（２）単一プロセ
ッサ（ｓｉｎｇｌｅ　　ｐｒｏｃｅｓｓｏｒ）モード、
ｓｐモード、（３）自動ブロードキャスト（ｂｒｏａｃ
ｌ−ｃａａｔ　　ａｕｔｏ）モード、ＢＡモード、そし
て（４）インタ“プロセッサ（ｉｎｔｅｒ−ｐｒｏｃｅ
ｓｓｏｒ）モード、ＩＰモードである。

第１図において、ブロードキャス）　（ＢＯ）モードを
利用する時、ベクトル演算、即ちＶＲＯ十ＶＲｌ　５−
−−）ＶＲｌ　５が遂行されるものと仮定する。この場
合、ベクトルレジスタＶＲＯの第１列のすべての要素（
要素０乃至１５）はベクトルレジスタＶＲ１５の最初の
列中のすべての要素（要素０乃至１５）に同時に且つ並
列に加算され、そして加算演算の結果はベクトルレジス
タＶＲ１５の最初の列（要素Ｏ乃至１５が記憶されてい
た場所）に記憶される。次に、ベクトルレジスタＶＲＯ
の要ｆｇ　１．６乃至３１がベクトルレジスタＶＲ１５
の要素１６乃至３１へ加えられ、そしてその結果は、要
素１６乃至３１が記憶されているベクトルレジスタＶＲ
１５の第２列に記憶される。この加算演算は、ベクトル
レジスタＶＲＯの要素１１２乃至１２７がベクトルレジ
スタＶＲ１５の要−Ｘ１１２乃至１２７に加えられ、且
つ加算演算の結果が要ｆｉ１１２乃至１２７がある、ベ
クトルレジスタＶＲ１５の最後の列に記憶されるまで繰
返される。

単一プロセッサ（ｓｐ）モードが利用される時、ベクト
ルレジスタＶＲＯはストレージから検索された別個のオ
ペランドに加算されること、換言すれば、ＶＲＯ＋スト
レージー−−＞ＶＲＯの加算演算が行われるものと仮定
する。この場合、加算演算は並列でなく順次に行われね
ばならない。即ち要素Ｏは他のオペランド（ストレージ
からの）に加えられて、その結果は要素０のスロットに
置かれ、要素１は他のオペランドに加えられて、その結
果は要素ｌのスロットに置かれるなど同様のことが続き
、要素１２６が他のオペランドに加えられて、その結果
が要素１２６のスロットに置かれ、そして要素１２７が
他のオペランドに加えられて、その結果がベクトルレジ
スタＶＲＯの要素１２７に置かれるまで繰返す。

第２図に示したベクトルレジスタの構成を凌駕した第１
図のベクトルレジスタの構成の利点は以下の通りである
。第１図において、既に述べたように、オペランドをス
トレージ又はＧＰＲから取り出した時、要素０と他のオ
ペランド（ＧＰＲ又はストレージからの）との加算演算
が要素プロセッサＯによって完了されるのを待つことな
く、要素プロセッサ１は他のオペランドへ要素ｌを加え
る順次の加算演算を開始する。第２図においては、然し
なから、要素プロセッサ０がＶＲＯの要素Ｏを他のオペ
ランド（ＧＰＲ又はストレージからの）へ加算している
時は、要素プロセッサ０はＶＲＯの要素１を他のオペラ
ンドに加えることは出来ない。言い換えると、第２図の
プロセッサにおける要素ｌと他のオペランドとの加算演
算は、ストレージから取り出された他のオペランドと要
素０との加算演算が完了するまで待たなければならない
。

第２図及び第１図において、要素０の処理が同時に開始
されるものと仮定した場合、ストレージからオペランド
を取り出すのに要する時間はｌサイクルであり、要素プ
ロセッサにおいて加算演算を行うに要する時間は５サイ
クルなので、第１図の構成における要素１の処理は第２
図の構成における要素１の処理より以前の時間で始まる
。従って第１図に示されたベクトルプロセッサの性能は
第２図に示されたベクトルプロセッサに比較して改良さ
れている。

自動ブロードキャスト（ＢＡ）モードが利用された時、
すべての要素プロセッサ（ｘｐｏ乃至ＫＰＩ５）は同じ
命令を実行する。各要素プ西セッサは対応する小容量レ
ジスタ１２ａ′の最初の要素をアドレスし、次に、対応
する小容量レジスタ１２ａ′中の残りの７個の要素を続
けてアドレスし、これにより要素プロセッサの小容量レ
ジスタ中に記憶された８個の要素すべての算術演算を”
自動的に”遂行する。ベクトルレジスタの小容量レジス
タ中に記憶されている８個の要素は対応する要素プロセ
ッサによって”バイブラインされた“オーバラップモー
ドで処理され、すべての要素プロセッサ（ＫＰＩ乃至Ｋ
ＰＩ５）はこの演算を行い、且つ並列に命令を実行する
。

インク・プロセッサ（ＩＰ）モードを利用する時、デー
タは第４図に示されたＰＩＡの制御の下で、要素プロセ
ッサ（ＢＯＰＯ乃至］ＤＰ１５）の間で転送される。デ
ータは転送プロセッサによりデータバスに置かれ、そし
て受は取りプロセッサによってデータバスから取り出さ
れる。双方向性バス制御装置が動作を制御するＰＩＡに
より遂行される。対応する要素プロセッサ中にある、部
分和の合計を要求する命令と、ベクトルプロセッサ中の
ベクトルレジスタの″サーチ″を含む命令とによって、
このモードが使われる。

Ｆ１発明の詳細な説明したように、本発明の並列式ベクトルプロセッサ
は、ベクトル要素の最初のものから順次に処理が行なわ
れる点に特徴を有している。従ってベクトル要素を順次
に処理してゆく場合及びベクトル長がベクトル・レジス
タの長さよりも短かい場合等には、従来の並列式ベクト
ルプロセッサ以上に高速に処理を行なうことができる。

【図面の簡単な説明】

第１図は本発明に従った第６Ａ図の代表的な並列式ベク
トルプロセッサを説明するための図、第２図はベクトル
レジスタが複数個の小容量レジスタに分割されている第
６Ａ図の代表的な並列式バク１〜ルレジスタを説明する
ための図、第３図は第２図の要素プロセッサの各々とプ
ロセッサ・インターフェースアダプタとの接続を説明す
る図、第４図は第２図及び第３図のプロセッサ・インタ
ーフェースアダプタの構成を説明する図、第５図は第２
図及び第３図に示された要素プロセッサの細部の構成を
説明するための図、第６図は代表的なベクトルプロセッ
サを説明するための図、第６Ａ図は他の代表的な３次元
の並列式ベクトルプロセッサを説明するための図、第７
図は第１図に示され本発明に従った並列式ベクトルプロ
セッサに関連した要素プロセッサの各々にＰＩＡを接続
した態様を説明するための図である。１０・・・・パイプライン・ベクトルプロセッサ、１２
・・・・ベクトルレジスタ、１４・・・・セレクタ、１
６・・・・パイプライン処理ユニット、１８．２０ｈ・
・・・結果レジスタ、１９・・・・セレクトゲート、２
０・・・・要素プロセッサ、２０ａ・・・・入力データ
・アセンブラ、２０ｂ・・・・シフト選択レジスタ、２
Ｏｃ・・・・フラッシュ選択レジスタ、２０ｄ、２０ｅ
・・・・真数補数ゲート、２Ｏｆ・・・・事前−シフト
選択装置、２０ｇ・・・・ＡＬＵ（算術演算ユニット）
、２２ｊ・・・・乗算回路、２２・・・・ＰＩＡ（プロ
セッサ・インターフェースアダプタ）、２２ａ・・・・
ＶＩＲ（命令レジスタ）、２２ｂ・・・・ＶＤＲ（ベク
・トルデータ・レジスタ）、２２ｃ・・・・ＶＳＲ（ベ
クトルステータス・レジスタ）、２２ｄ・・・・ピコ制
御記憶装置、２２ｅ・・・・命令レジスタ、２２’ｆ、
２２ｇ・・・・バス制御装置、２２ｈ・・・・アドレス
制御装置、２４・・・・ＩＰＵ（命令処理ユニット）、
２６・・・・ストレージ。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名）

Claims

【特許請求の範囲】各々複数の小レジスタに分割された複数のベクトル・レ
ジスタと、上記各ベクトル・レジスタの複数の小レジスタにそれぞ
れ接続された複数のプロセッサ装置と、上記ベクトル・
レジスタに記憶されるベクトルの連続した要素を上記ベ
クトル・レジスタ中の別々の小レジスタに記憶させる手
段とを有するベクトル・プロセッサ。