JPS6153754B2

JPS6153754B2 -

Info

Publication number: JPS6153754B2
Application number: JP56197388A
Authority: JP
Inventors: Hiroshi Hatsuda
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-12-08
Filing date: 1981-12-08
Publication date: 1986-11-19
Also published as: JPS5899867A

Description

【発明の詳細な説明】〔発明の属する技術分野〕本発明はデータ処理装置における並列処理方式
に関するものである。

〔従来技術の説明〕

従来、演算処理を高速化する方法の一つとして
並列処理が広く知られている。この並列処理は処
理すべきプログラムの中で並列に実行できる部分
を各々異なるプロセツサで実行し、Ｎ台のプロセ
ツサで理想的にはＮ倍の性能を得ようとするもの
である（実際には並列に実行できない部分がある
のでこれ以下の性能しか得られないが）。

従来の一例を第１図に示す。この例ではＮ台の
プロセツサ１_-1，１_-2，……，１―_Nがメモリス
イツチ２を介してＭ台のメモリ３_-1，３_-2，…
…，３―_Mにアクセスし、各プロセツサ１―_i（ｉ
＝１〜Ｎ）は各々独立にプログラムを実行できる
ように構成されている。制御プロセツサ５は通信
インタフエース６を通してプロセツサ１_-1，１
_-2，……，１―_Nにプログラムの実行開始を指示
し、かつ通信インタフエース７を通して各プロセ
ツサ１―_iからプログラムの実行終了の通知を受
理するように構成されている。この制御プロセツ
サ５の制御により、Ｎ台のプロセツサ１_-1，１
_-2，……，１―_Nは解くべきプログラム中の並列
処理部分について分担して実行する。たとえば、 a₁＋b₁，a₂＋b₂，……，ａ_N＋ｂ_N という計算であればｉ番目のプロセツサがａ_i＋
ｂ_iを計算する。

従来この並列処理システムの性能を高めるには
各プロセツサの性能を高くするか、または台数を
増やす必要がある。従来、各プロセツサの性能を
高めると、プロセツサの物理的サイズが大きくな
り多数並べることが困難になるため装置の大きさ
の点で限界があり、またプロセツサの台数を増や
すと、メモリスイツチの構成が複雑になり実現が
困難になる。たとえば、完全なクロスバスイツチ
で考えると、プロセツサ台数とメモリ台数を２倍
にするとスイツチの規模は４倍になる。従来、上
記欠点のために大規模で超高性能の並列処理シス
テムはほとんど実用化されていない。

〔発明の目的〕本発明の目的は、並列処理を分担する各プロセ
ツサに多重命令ストリームプロセツサ方式を採用
することにより、上記欠点を解決して、大規模で
超高性能の並列処理システムを提供することにあ
る。

〔発明の要旨〕

本発明は、各各が異なるプログラムを実行でき
る仮想プロセツサ複数台を含む多重命令ストリー
ム方式の演算処理装置複数台と、並列処理のため
のプログラムおよびデータが記憶される複数台の
メモリ装置と、任意の上記演算処理装置から任意
の上記メモリ装置へのアクセスを可能にするメモ
リスイツチと、このメモリスイツチおよび上記演
算処理装置を制御する制御プロセツサと、この制
御プロセツサから上記全仮想プロセツサにプログ
ラムの実行開始を指示する通信手段と、上記各仮
想プロセツサから上記制御プロセツサにプログラ
ムの実行終了を通知する通信手段とを備え、上記
制御プロセツサの制御により一つのプログラム中
の並列処理部分を上記全仮想プロセツサにより並
列に実行することを特徴とする。

〔発明の原理と作用〕

本発明では並列処理を分担する各プロセツサに
多重命令ストリーム方式を採用して１台の物理的
プロセツサ中に複数の仮想プロセツサを実現し、
物理的なプロセツサ台数を増やさずに実効的なプ
ロセツサ台数を増やしている。

ここで多重命令ストリーム方式プロセツサの原
理について簡単に説明する（詳しくはM.J.Flynn
「Shared Internal Resources in ａ
Multiprocessor」PP 565―569，Proc.of
Information Processing 71，North―Holland
Publishing Co.（1972）などに報告されてい
る）。この方式のプロセツサでは「命令語の取
出・解読」、「オペランドの取出」、「演算」という
命令の実行の段階がパイプラインで構成され、取
出した命令は各段階毎に独立した処理回路を通つ
て行く過程で実行される。すなわち第２図に多重
命令ストリーム方式のプロセツサの動作の一例を
示す。第２図において命令は命令取出・解読回
路で取出されて解読されると、次のオペランド取
出の処理回路にその結果がわたされ、そこでオペ
ランドが取出されると演算回路に取出されたオペ
ランドがわたされる。演算回路もパイプライン化
されていて演算１と演算２の処理を経て実行が完
了する。

ここで各段階での処理時間をΔＴとすれば、上
記処理に４×ΔＴ時間かかることになる。一方命
令取出・解読回路は命令に対する処理を完了す
ると、次のΔＴ時間には命令の取出・解読をは
じめるが、このとき命令は命令と異なるプロ
グラムから取出す。この例では第３図に示すよう
に４つの独立なプログラムがあり、そのプログラ
ムの中から順番に命令を取出す。その利点は、も
し同一のプログラムから続けて次の命令（この例
では命令′）を取出すと、命令の実行が完了
するまでその命令の実行条件が定まらないことが
あるので（たとえば命令で演算した結果を次の
命令がオペランドとして使用する場合など）、そ
の命令は無条件には実行することができず、命令
を実行してよいか否かを判断するのに複雑な制御
を必要とする上、もし次の命令が前の命令の演算
結果に基づくときには、前の命令の実行が完了す
るまで待たねばならず演算回路の使用効率が低下
するのに対し、独立なプログラムの命令であれば
無条件に実行でき制御が簡単でしかも演算回路の
遊休化も避けられる点にある。

同一プログラム内ではある命令の実行が完了し
てから次の命令（第３図のプログラム＃１では命
令の次に命令′）を取出すようにすれば上記
の問題がなく、この例では４個以上のプログラム
の命令を順番に実行すればその条件が満される。
その場合１台のプロセツサの中で４つの命令スト
リーム（プログラム）が並行して処理されている
ことになり、これは４台の仮想プロセツサが存在
してそれぞれのプログラムを実行していると見る
こともできる。

一般にパイプラインをＳ段にするとＳ個のプロ
グラム（命令ストリーム）を実行することがで
き、Ｓ台の仮想プロセツサが実現される。当然の
ことながらＳ個以上のプログラムを実行するよう
にし、Ｓ台以上の仮想プロセツサを実現すること
もできる。この場合Ｎ台のプロセツサがあればソ
フトウエア的にはＮ×Ｓ台の（仮想の）プロセツ
サが存在するのと等しくなる。これを並列処理シ
ステムに応用すればＮ台のプロセツサに対するメ
モリスイツチでＳ×Ｎ台のプロセツサと等価のシ
ステムを構成できることになり、従来方式のよう
にＳ×Ｎ台の実プロセツサを並べるのに比しメモ
リスイツチの規模がはるかに小さくなる。

これを利用した並列処理システムは、第１図に
おいてプロセツサ１_-2，１_-2，……，１―_Nを多
重命令ストリーム方式の演算処理装置としたもの
で、この多重命令ストリームプロセツサがＳ台の
仮想プロセツサを含むとすれば、合計Ｓ×Ｎ台の
プロセツサ（仮想プロセツサ）による並列処理が
実現する。各仮想プロセツサは制御プロセツサ５
からの並列処理開始指示を受けて、与えられたプ
ログラムの実行を開始し、それが終了すると制御
プロセツサ５に通知する。

本システムではこのための両方向の通信手段が
必要であるが、従来方式に比し実プロセツサの台
数が少ないのでこの通信手段を実現する上でも有
利である。すなわち制御プロセツサ５から仮想プ
ロセツサへ通信する場合には実プロセツサが受け
てその中の仮想プロセツサに分配すればよく、も
しＳ台の仮想プロセツサが各実プロセツサ中にあ
るとすれば１／Ｓのインタフエースで済む。仮想
プロセツサから制御プロセツサへ通信する場合に
ついても同様である。

各演算処理装置（実プロセツサ）はメモリスイ
ツチに接続され、このメモリスイツチを介して同
じくメモリスイツチに接続されている複数のメモ
リ装置の中の任意のメモリ装置にアクセスするこ
とができる。このメモリ装置中には並列処理のた
めのプログラムやデータが格納される。

〔実施例による説明〕

次に本発明について図面を参照して詳細に説明
する。

第４図は本発明一実施例システムの構成図であ
る。第４図において各符号は第１図の各符号にそ
れぞれ対応する。本実施例の特徴ある構成は、プ
ロセツサ１の台数Ｎ＝16、メモリ３の台数Ｍ＝32
であつて、各プロセツサ１―_i（ｉ＝１〜16）は
多重命令ストリーム方式のプロセツサである。各
プロセツサ１―_iの中で８個のプログラムストリ
ームが実行される。

メモリ３―_j（ｊ＝１〜32）は完全なクロスバ
ー方式により構成され、複数のプロセツサ１―_i
から同時にメモリアクセスが発生しても同一のプ
ロセツサ１へアクセスしないかぎり競合は起らな
いようになつている。また制御プロセツサ５に
は、２台の専用の制御プロセツサメモリ９_-1，９
_-2が接続される。また制御プロセツサ５は、メモ
リスイツチ２を介してメモリ３_-1，３_-2，……，
３_-32に接続され、各メモリ３―_jへもアクセスで
きるようになつている。さらに制御プロセツサ５
は通信インタフエース１０を介して各プロセツサ
１―_iに接続され、各プロセツサ１―_iとの間で通
信できるように構成される。

第５図は、第４図に示した１台のプロセツサ１
の詳細なブロツク構成図である。１１は多重（こ
の例では８個）の命令ストリームを実行するため
の制御メモリで、この制御メモリ１１の内容は各
命令ストリームに対応した８個の領域に分割され
る。各分割された領域内には命令ストリームを実
行するのに必要な命令アドレス、演算用レジスタ
などが格納されている。

１３はパイプライン方式で構成された演算回路
で、一定時間（ΔＴ）間隔でオペランドを受け演
算して結果を出力する。１４はメモリスイツチ２
を介してメモリ３にアクセスするための制御回路
である。また１５は通信制御回路であつて、制御
プロセツサ５との通信を制御し、通信インタフエ
ース１０と接続され、制御プロセツサ５からの指
定（特定の仮想プロセツサに対するもの、あるい
はこのプロセツサ１の中の全仮想プロセツサに対
するもの）に従つて制御情報を各仮想プロセツサ
に与える。

制御情報の例としては命令ストリームの実行を
開始する「START」、止める「STOP」などがあ
る。これらの情報は各仮想プロセツサに対応した
制御メモリ１１の中の領域に格納するなどの方法
により記憶され、その後のプロセツサ１（すなわ
ち各命令ストリーム）の動作を制御するのに用い
られる。プロセツサ１は「START」指令を受け
て動作を開始し、所定の条件を満したとき、ある
いは「STOP」指令を受けたときに動作を中止す
る。また通信制御回路１５はプロセツサ１側から
制御プロセツサ５へ通信インタフエース１０を介
して情報を伝えるためにも用いられ、たとえば
「START」指令を受けて実行開始後、特定の仮
想プロセツサが実行を終了したなどの条件を満し
たときにその実行終了を制御プロセツサ５に伝え
るのも通信制御回路１５である。

この実施例では１台のプロセツサ１内で８個の
命令ストリーム（すなわちプログラム）が時分割
的に並列処理されるがそれは以下のように実現さ
れる。

まず制御回路１４は制御メモリ１１の中のプロ
グラム＃１の命令ストリーム用の命令アドレスレ
ジスタを読出してそのアドレスに従つてメモリ３
から命令を取出し、同時に命令アドレスレジスタ
の内容を更新する。この命令は解読されて、必要
なオペランドが取出され演算回路１３へ送られ
る。このオペランドはプログラム＃１に対応した
演算レジスタあるいはメモリ３から取出される。
演算回路１３から演算結果が出力されると、それ
は命令の指定に従つて制御メモリ１１の中のプロ
グラム＃１に対応した演算レジスタのいずれかに
格納される。次に再び命令アドレスレジスタを読
出し次の命令の実行に移る。

以上はプログラム＃１の命令ストリームのみに
注目して述べているが、プロセツサ１は前述した
多重命令ストリーム方式のプロセツサで命令の取
出しから実行まですべてをパイプライン方式で処
理し、プログラム＃２〜＃８の命令ストリームも
各々ΔＴ時間のずれで順番に命令が取出され実行
される。したがつて一つの命令ストリームに着目
すれば８×ΔＴ時間で一つの命令が実行されるに
すぎないが、プロセツサ１内の８個の命令ストリ
ーム全体ではΔＴ時間毎に一個の命令が実行され
ていることになる。また、この動作は一つの命令
ストリームに着目してみれば、１台の通常の方式
のコンピユータで命令を実行していく場合とまつ
たく同じで、１台の８×ΔＴの命令実行速度をも
つ仮想プロセツサがその命令ストリームを専門に
処理していると考えることができる。

本システムにおいてプログラムを実行するとき
の動作は次のようになる。例として各々128個の
データＡ_i，Ｂ_i（ｉ＝１〜128）に対してを計算する場合をとりあげる。演算開始前にデー
タＡ_i，Ｂ_iを制御プロセツサ５がメモリ３―_jに入
れる。たとえばA₁〜A₈はメモリ３_-1，A₉〜A₁₆は
メモリ３_-2に格納し、A₁₂₀〜A₁₂₈はメモリ３_-16に
格納する。同様にB₁〜B₈はメモリ３_-17，B₉〜B₁₆
はメモリ３_-18，B₁₂₀〜B₁₂₈はメモリ３_-32に格納
する。

各プロセツサ１―_iはＡ_i＋Ｂ_iを計算し結果をメ
モリ３―_j中の領域Ｃ_iに格納する。これを計算す
るための命令ストリーム（すなわち各仮想プロセ
ツサのプログラム）はメモリ３―_jに格納される
が、すべての仮想プロセツサはデータが異なるの
みで命令の組合わせは同じ（すなわちＡ_i＋Ｂ_i→
Ｃ_iという動作はすべてのプロセツサ１―_iが同
じ）であるので、プロセツサ１―_iにインデツク
スレジスタ等アドレス修飾の機能があれば、全プ
ロセツサ１に対して一つのプログラムがあればよ
い。実際にはその部分に対してアクセスが集中
し、過負荷になるので複数コピーを持つことにな
る。

各プロセツサ１―_i中の命令アドレスレジスタ
にはそのプロセツサ１―_iが実行すべき命令スト
リームのアドレスが設定される。各プロセツサ１
―_i中には同時に実行される８つの命令ストリー
ムに対応して８つの命令アドレスレジスタ（すな
わち８台の仮想プロセツサ）があり、その各々に
設定される必要がある。これらの設定は制御プロ
セツサ５の制御の下にメモリ３―_jからメモリス
イツチ２を介して行なわれるか、あるいは通信イ
ンタフエース１０を介して行われる。

以上の準備は制御プロセツサ５が行い、準備が
完了すると通信インタフエース１０を通して全プ
ロセツサ１に「START」指令を送出する。各プ
ロセツサ１―_iは制御メモリ１１の中の命令アド
レスレジスタ＃１に従つて命令を取出し、以下
＃２〜＃８の命令アドレスレジスタの内容を順次
取出して実行していく。プロセツサ１_-1を例にと
れば、A₁＋B₁→C₁の処理は命令アドレスレジス
タ＃１で示される命令ストリーム（すなわち仮想
プロセツサ＃１）で処理され、以下A₂＋B₂→C₂
からA₈＋B₈→C₈までの処理は仮想プロセツサ
＃２〜＃８により多重に処理される。

なお、本例ではすべての仮想プロセツサの命令
ストリームが同じ動作（Ａ_i＋Ｂ_i→Ｃ_i）をすると
しているが、それぞれ異なつていてもよいし、条
件分岐の入る場合には仮想プロセツサ毎に途中か
ら動作が変わつてくる可能性がある。同じ命令が
データインデツクス値は異なるが同一プロセツサ
１内の別の仮想プロセツサで実行される場合に
は、プロセツサ１内にバツフアメモリ等を設けて
ある仮想プロセツサで取出した命令をバツフアメ
モリに入れておいて、他の仮想プロセツサはその
バツフアメモリより命令を取出し、メモリ３へ命
令を取りに行く頻度を減少させることで性能改善
をはかることもできる。

Ａ_i＋Ｂ_i→Ｃ_iの処理を完了すると、処理の終了
通知を制御プロセツサ５に通信制御回路１５およ
び通信インタフエース１０を介して行う。これに
より制御プロセツサ５は全仮想プロセツサの実行
が終了したことを知つての処理をする。Ｃ_iがメモリ３―_j中にあるとすれ
ばそれを順次取出して加算していく。プロセツサ
１―_iから制御プロセツサ５への終了通知は、各
仮想プロセツサで処理が終る毎に通知する方法も
考えられるが、この例の場合には各プロセツサ１
―_i内の全仮想プロセツサで処理が終了したとき
に制御プロセツサ５に通知すればよく、制御を簡
単化できる。

またこの例では総和の計算を制御プロセツサ５
が直列にやるとしているが、プロセツサ１―_iで
途中まで行えばもつと高速化できる。すなわちた
とえばC₁＋C₂＋……＋C₈は１台のプロセツサ１
_-1の中で次のようにすればよい。（C₁＋C₂），（C₃
＋C₄），（C₅＋C₆），（C₇＋C₈）の４つの計算を４つ
の仮想プロセツサを使つて並列に行い、その結果
をそれぞれD₁，D₂，D₃，D₄とすると、次に（D₁
＋D₂），（D₃＋D₄）を並列に行い、その結果をE₁，
E₂とすると最後にE₁＋E₂を行う。これを各プロ
セツサ１―_iでやれば、制御プロセツサ５は16台
のプロセツサ１の残した16の結果の総和をとるだ
けでよい（前の例では128の加算を制御プロセツ
サ５がやることになる）。

またこの例では、プロセツサの台数を16台、各
プロセツサの中で処理されるプログラムストリー
ム数を８個とする例を示したが、この数に限定さ
れるものではない。

またメモリの台数を32台としたが、これはプロ
セツサの台数やメモリのアクセスタイム、メモリ
へのアクセス頻度によつて定められ、この数に限
定されるものではない。またメモリの構成を完全
なクロスバー方式としたが、他の構成の方式によ
つてもよい。

さらに制御プロセツサメモリの台数を２台とし
たが、この数に限定されるものではない。

このようにこのシステムでは物理的に16台のプ
ロセツサで128の並列演算ができ、128台のプロセ
ツサを置いたのと同じ効果をもつている。もし実
際に128台のプロセツサを置いたとすると、メモ
リスイツチの規模は本例のように16×32でなく、
128×32以上にしなければならず、コスト、装置
の大きさ、性能などの面で装置の実現上はるかに
不利になる。

〔発明の効果〕

本発明は以上説明したように、多重命令ストリ
ーム方式のプロセツサを複数個おき、制御プロセ
ツサの制御の下に並列動作させるように構成する
ことにより、物理的な演算装置台数以上の並列処
理を行うことができ、かつ並列処理できない部分
は制御プロセツサで処理することで融通性が増
し、応用分野が拡大し大規模で超高性能の優れた
並列処理システムが得られる。

【図面の簡単な説明】

第１図は従来例並列処理プロセツサシステムの
構成図。第２図は多重命令ストリーム方式プロセ
ツサの動作原理を示す図。第３図は第２図のプロ
セツサが実行する４個のプログラムを示す図。第
４図は本発明一実施例システムの構成図。第５図
はそのプロセツサの詳細なブロツク構成図。１…プロセツサ、２…メモリスイツチ、３…メ
モリ、５…制御プロセツサ、６，７…通信インタ
フエース、９…制御プロセツサメモリ、１０…通
信インタフエース、１１…制御メモリ、１３…演
算回路、１４…制御回路、１５…通信制御回路。

Claims

【特許請求の範囲】

１各各が異なるプログラムを実行できる仮想プ
ロセツサ複数台を含む多重命令ストリーム方式の
演算処理装置複数台と、並列処理のためのプログ
ラムおよびデータが記憶される複数台のメモリ装
置と、任意の上記演算処理装置から任意の上記メ
モリ装置へのアクセスを可能にするメモリスイツ
チと、このメモリスイツチおよび上記演算処理装
置を制御する制御プロセツサと、この制御プロセ
ツサから上記全仮想プロセツサにプログラムの実
行開始を指示する通信手段と、上記各仮想プロセ
ツサから上記制御プロセツサにプログラムの実行
終了を通知する通信手段とを備え、上記制御プロ
セツサは、一つのプログラム中の並列処理部分を
上記全仮想プロセツサに並列に実行させる制御手
段を含むことを特徴とする並列処理方式。