JPS6174058A - Parallel processing system - Google Patents

Parallel processing system

Info

Publication number
JPS6174058A
JPS6174058A JP59195296A JP19529684A JPS6174058A JP S6174058 A JPS6174058 A JP S6174058A JP 59195296 A JP59195296 A JP 59195296A JP 19529684 A JP19529684 A JP 19529684A JP S6174058 A JPS6174058 A JP S6174058A
Authority
JP
Japan
Prior art keywords
pes
transfer
register
boundary value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59195296A
Other languages
Japanese (ja)
Inventor
Toshio Komatsu
小松 俊雄
Atsushi Ishikawa
篤 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP59195296A priority Critical patent/JPS6174058A/en
Publication of JPS6174058A publication Critical patent/JPS6174058A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To make a processing at high speed after transfer between PEs without decreasing the number of an effective PE by providing a register holding a boundary value, a control register and a selector in respective processor element (PE). CONSTITUTION:Registers 78-81, selectors 82-85, and a control register 86 are provided for a PE77. the registers 78-81 hold boundary values and selectors 82-85 select transfer data between PEs or boundary values. The control register 86 holds a judging bit judging whether the boundary values are required or not after the transfer between the PEs. Interfaces 87-94 carry out an interface with other PE.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、同一のプロセッサ・エレメント(PE)をネ
ットワークに結合し・て処理を分散させる事により、高
度な並列処理を行う並列処理方式に関し、特にPE間の
データ転送後の処理を高速化する方式に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a parallel processing method that performs highly parallel processing by connecting identical processor elements (PEs) to a network and distributing processing. In particular, the present invention relates to a method for speeding up processing after data transfer between PEs.

〔従来技術〕[Prior art]

超LSIおよびマイクロプロセッサの著しい発展に伴っ
て、同一のPEをネットワーク状に結合し、て高度の並
列処理を行う装置が種々提案、構築されている。第3図
はその場合の従来のPE構成を示し・たちので、PE1
00は、所定の(′ti算を実行する演算部2.PE間
のデータ転送を行う転送部3.演算部2の演算結果ある
いは転送部3の転送データをセレクタ4を介して記憶す
るメモリ部5、及び、第3図では省略し1だが実行すべ
きプログラムを記憶するプログラムメモリより構成され
る。
With the remarkable development of VLSIs and microprocessors, various devices have been proposed and constructed that connect identical PEs in a network to perform highly parallel processing. Figure 3 shows the conventional PE configuration in that case.
00 is a calculation unit 2 that performs a predetermined (′ti calculation); a transfer unit 3 that transfers data between PEs; a memory unit that stores the calculation result of the calculation unit 2 or the transfer data of the transfer unit 3 via the selector 4; 5, and a program memory 1, which is omitted in FIG. 3, for storing programs to be executed.

かかるPEのネットワーク形態とては格子状。The network form of such PEs is a grid.

ツリー状、キューブ状等があり、解くへき問題のPE間
転送の形態に応じてそれぞれのネットワークが採用され
ている。
There are tree-shaped, cube-shaped, etc. networks, and each network is adopted depending on the form of inter-PE transfer of the problem to be solved.

いま、−例として、ある境界条件を持つ2次元のラプラ
ス方程式 %式% を格子状の装置で解く場合を考える(、二の種の問題は
格子状のネットワークが適している)。
Now, as an example, consider the case where a two-dimensional Laplace equation with certain boundary conditions is solved using a grid-like device (a grid-like network is suitable for the second type of problem).

従来、この解法としては、まず、(1)を次の差分方程
式に近似する。
Conventionally, this solution method first approximates (1) to the following difference equation.

−uH+、l−+  ul−1、J+4u+ J  u
trt IJ  11.+J+1 =0 (2)ここで
、左から1番目、下からjti目の格子点を(i、j)
とし、その格子点におけるu (x+ y)の値をui
jと表現している。次に、各Uに近似性を代入すると、
新U1.ガウス・ザイデル法では 新U、+ =Va (u; +j−1+u、 −1IJ
 +u、や1.J +u、 、J+、)  (3)SO
R法では 新u、j=旧J j +w (正記の新u、−)−(旧
uz))(4)となる。いずれの場合でも、従来装置で
はIPEに1つまたはそれ以上の格子点を割付けて、P
E間転送を行い−ui +J−11u+−11Jl u
trt +1+u1,1+1がそろった時点で新u+、
+の計算を行っている。各PEはPE間転送と新uiJ
の計算をある条件を満たすまで繰り返す。
-uH+, l-+ ul-1, J+4u+ J u
trt IJ 11. +J+1 =0 (2) Here, the first grid point from the left and the jtith grid point from the bottom is (i, j)
and the value of u (x+y) at that grid point is ui
It is expressed as j. Next, by substituting the closeness for each U, we get
New U1. In the Gauss-Seidel method, the new U, + = Va (u; +j-1+u, -1IJ
+u, and 1. J+u, ,J+,) (3) SO
In the R method, new u, j=old J j +w (registered new u, -) - (old uz)) (4). In either case, conventional equipment assigns one or more grid points to the IPE and
Perform inter-E transfer -ui +J-11u+-11Jl u
trt +1+u1, as soon as 1+1 is complete, new u+,
+ is being calculated. Each PE uses inter-PE transfer and new uiJ
Repeat the calculation until a certain condition is met.

第4図は4X4個のPEが格子状に結合された装置例で
、1はコントロールユニット(CU)。
Figure 4 shows an example of a device in which 4x4 PEs are connected in a grid pattern, where 1 is a control unit (CU).

6〜21はPEである。CU5はコントロール線22と
ステータス線23で各PEと接続され、各PEの状態を
ステータス線23で入手し、コントロール線22で各P
Eを制御する。PE6〜21はPE間インタフェース線
24によって結合され。
6 to 21 are PE. The CU5 is connected to each PE through a control line 22 and a status line 23, obtains the status of each PE through the status line 23, and obtains the status of each PE through the control line 22.
Control E. The PEs 6 to 21 are coupled by an inter-PE interface line 24.

PE間のデータ転送が行わ九る。Data transfer between PEs takes place.

二こで、格子点のPE割付けとしては、第5図に示す様
に2つの方法が考えられる。第5図は第4図の装置例に
対応するもので、IPEに1格子の割付け、境界は正方
形としている。しかし、そうでない場合でも以下に述べ
る問題は同様である。
Two methods can be considered for PE allocation of grid points, as shown in FIG. FIG. 5 corresponds to the device example shown in FIG. 4, in which one grid is allocated to the IPE, and the boundaries are square. However, even if this is not the case, the problems described below are the same.

第5図(A)は格子点を4×4とし、第4図のPE6〜
21と格子番号25〜40をそれぞれ対応づけ、1番外
側のPEに境界値を、それ以外の内側のPEには初期値
を割付ける方法である。この割付けは境界値が一定であ
るので、外側のPEは新uijの計算(直を境界値に置
き換えるため、外側PHの計算は無効となる。従って、
格子の行数をM、≠1.政をNとすると、実際に有効な
新L1+Jの計算を実行し、でいるPE数は(M−2)
x(N−2)であり、有効PE数が(2(M+N)−4
)藺少なくなるという問題が生しる。第5図(A)の例
では、 総PE数が・IX4に対し、有効PE数は2X
2となる。哀らに、格子状が正方形でなく長方形でN=
4の場合、有効PE数は半数以下になる問題かある。
In Figure 5 (A), the grid points are 4 x 4, and PE6~
21 and grid numbers 25 to 40, respectively, and assign a boundary value to the outermost PE and an initial value to the other inner PEs. In this assignment, the boundary value is constant, so the outer PE calculates the new uij (replaces direct with the boundary value, so the calculation of the outer PH becomes invalid. Therefore,
Let the number of rows of the grid be M, ≠1. When the government is N, the actual effective new L1+J calculation is executed, and the number of PEs obtained is (M-2)
x(N-2), and the effective number of PEs is (2(M+N)-4
) The problem arises that the amount of food is reduced. In the example in Figure 5 (A), the total number of PEs is ・IX4, and the effective number of PEs is 2X.
It becomes 2. Unfortunately, the grid is not square but rectangular and N=
In the case of 4, there is a problem that the number of effective PEs is less than half.

第5図(B)は格子点を6X6とし1.第4図の全1’
E6=21に初期値を割付け、有効PE数を総PEVl
と同し、4X4(一般にはMXN)とする方法である。
Figure 5(B) shows 1. The grid points are 6x6. All 1' in Figure 4
Assign an initial value to E6=21, and set the number of effective PEs to the total PEVl.
This is the same method as 4X4 (generally MXN).

第5図(B・)の場合、格子番号41〜56か第4図の
PE6〜21に対応する。
In the case of FIG. 5(B), grid numbers 41-56 correspond to PE6-21 in FIG.

二の第5図(B)の割付けとし、た場合の従来の処理フ
ローを第6図に示す。まず、初期値を全PEに設定し、
境界値を外側のPEのみに設定する。
FIG. 6 shows a conventional processing flow in the case of the layout shown in FIG. 5(B) in FIG. First, set the initial value to all PEs,
Set boundary values only for outer PEs.

次に、プログラムを全PEにブロードキャスト後/。Then, after broadcasting the program to all PEs.

各PEはPE間転送および新u + 、1の計算を実行
する5この場合、各PE同一のプログラムであるので(
同一のプログラムでないと初期設定のオーバーヘッドが
大きくなる)、外側PEは計算を実行するにあたり、P
E間転送されたデータを初期設定された境界値に置き換
える必要がある。従って、繰り返し、毎に各PEは、新
u+、+の計算を実行するにあた一す、境界値に置き換
えるかどうかの判定と、もし2そうであれば置き換えを
ソフトウェアで実行するため、このオーバーヘッドが問
題となる。
Each PE performs inter-PE transfer and calculation of new u + , 1. In this case, since each PE has the same program (
(If the programs are not the same, the initial setting overhead will be large), and the outer PE will use P when executing calculations.
It is necessary to replace the data transferred between E with the initialized boundary value. Therefore, at each iteration, each PE performs the calculation of the new u+, +, determines whether to replace it with the boundary value, and if so, performs the replacement in software, so this Overhead is a problem.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、上記従来技術の欠点を解決し71、有
効PE数を減少させずに、かつPE間間転後後処理の高
速化を図った並列処理方式を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve the drawbacks of the prior art described above and provide a parallel processing method that does not reduce the number of effective PEs and speeds up post-processing after transfer between PEs.

〔発明の構成および作用〕[Structure and operation of the invention]

本発明は、各PEに境界値を保持するレジスタと、PE
間転送後境界値を必要とするかどうかの判定ビットを保
持する制御レジスタと、境界値か転送データかを選択す
るセレクタを設ける事により5有効PE数を減少させず
に、かつ、PE間間転後後処理を高速にしたものである
The present invention provides registers that hold boundary values in each PE, and
By providing a control register that holds a judgment bit that determines whether a boundary value is required after data transfer, and a selector that selects either the boundary value or the transferred data, it is possible to reduce the number of PEs without reducing the number of effective PEs. This speeds up post-transfer processing.

第1図は本発明の一実施例であって、77はハードウェ
アを拡張したPE、78〜81は境界値を保持するレジ
スタ、82〜85はPE間転送データと境界値を選択す
るセレクタ、86は境界値に置き換えるかどうかの判定
ビットを保持する制御レジスタ、87〜94は他PEと
のインタフェース、100は第3図に示す従来のPE構
成部である。
FIG. 1 shows an embodiment of the present invention, in which 77 is a PE with expanded hardware, 78 to 81 are registers that hold boundary values, 82 to 85 are selectors that select inter-PE transfer data and boundary values, Reference numeral 86 denotes a control register that holds a determination bit for determining whether or not to replace with a boundary value, 87 to 94 are interfaces with other PEs, and 100 is a conventional PE component shown in FIG.

第1図の処理の流れを第2図に示す。以下、第4図の装
置構成を例にとって、第5図(B)のRE割付法での詳
細な動作順を説明する。まず、コントロール・ユニット
5は各PEに初期値をセットする。すなわち、PE6に
41.PE7に42゜PE8に43、PE9に4/l 
PEl0に45゜PE11に46.PE12に47.P
E13に48、PE14に119.PE15に50.P
E16に51、PE17に52.PE18に53.PE
19に54、PE20に55.PE21に56の各格子
点の初期値をセットする。次に外側のPEに境界値をセ
ットする。すなわち、PE6のレジスタ78に76、レ
ジスタ80に58.PE7のレジスタ80に59.PE
8のレジスタ80に60、PE9のレジスタ79に63
、レジスタ80に61.PEl0のレジスタ78に75
、PEl3のレジスタ79に64.PE14のレジスタ
78に76、PE17のレジスタ79に65、PE18
のレジスタ78に73.レジスタ81に71、PEl9
のレジスタ81に70.PE20のレジスタ81に71
.PE21のレジスタ79に66゜レジスタ81に68
の各格子点の境界値をセットする。なお、第5図(B)
の四隅の格子点57,62.67.72は利用しない。
FIG. 2 shows the flow of the process shown in FIG. The detailed operation sequence in the RE allocation method of FIG. 5(B) will be described below, taking the device configuration of FIG. 4 as an example. First, the control unit 5 sets initial values to each PE. That is, 41. to PE6. 42° for PE7, 43 for PE8, 4/l for PE9
45° to PE10, 46° to PE11. 47 for PE12. P
48 on E13, 119 on PE14. 50 for PE15. P
51 for E16, 52 for PE17. 53 for PE18. P.E.
54 on 19, 55 on PE20. Initial values of each of the 56 grid points are set in PE21. Next, a boundary value is set in the outer PE. That is, the register 78 of PE6 has 76, the register 80 has 58. 59. in the register 80 of PE7. P.E.
60 in register 80 of PE 8, 63 in register 79 of PE9
, 61. in register 80. 75 in register 78 of PEl0
, 64. in the register 79 of PEl3. 76 in register 78 of PE14, 65 in register 79 of PE17, PE18
73. in the register 78. 71 in register 81, Pel9
70. in register 81. 71 in register 81 of PE20
.. 66° to register 79 of PE21 68 to register 81
Set the boundary value of each grid point in . In addition, Fig. 5 (B)
Grid points 57, 62, 67, and 72 at the four corners of are not used.

次に制御レジスタ86に制御情報をセットする。Next, control information is set in the control register 86.

いま、制御レジスタ86のビットが左から順に左PE、
右PE、上PE、下PEに対応し、転送データを使用す
る場合を’o”、境界値に置き換える場合を°1″とす
ると、PE6のレジスタ86に”I OI O”、PE
7.PE8のレジスタ86に”0010’″、PE9の
レジスタ86に”0110”。
Now, the bits of the control register 86 are sequentially set from the left to the left PE,
Corresponding to the right PE, upper PE, and lower PE, if 'o' is used to use the transfer data, and '1'' is used to replace the boundary value, then 'I OI O' is written in the register 86 of PE6, and PE
7. "0010'" in the register 86 of PE8, "0110" in the register 86 of PE9.

PEl0.14のレジスタ86に”t o o o”、
  pEI I、12.15.1.6のレジスタ86に
0000”、PE13,17のレジスタ86に′010
0”、PE18のレジスタ86に”1001”。
"t o o o" in register 86 of PEL0.14,
pEI I, 0000” in register 86 of 12.15.1.6, ’010 in register 86 of PE13,17
0”, “1001” in register 86 of PE18.

PE]、9.20のレジスタ86に”o o o i”
、  pE2+のレジスタ86に’0101”をセント
する。
PE], “o o o i” in register 86 of 9.20
, writes '0101' to the register 86 of pE2+.

次に各PEへのプログラムのブロードキャストm、 P
E間転送を実行する。す、なわち、全PE6〜21は左
方向、右方向、上方向、下方向に一斉に転送を行う。こ
の際、PE間転送を必要とし、ない外側PEも存在する
が、PE間転送をm純にすることと、転送周りのプログ
ラムを全PE同一にしてブロードキャストを可能とする
ため、全PE間し、転送を実行する。いま、左方向のP
E間転送を行う場合、PE9,13.17.21はレジ
スタ79に保持し1ている境界値をインタフェース92
に、それ以外のPEは転送データをインタフェース92
に通知する。また、右方向のPE間転送の場合、PE6
,10,14.18はレジスタ78に保持している値を
、それ以外のPEは転送データをインタフェース91に
通知する。また、上方向のPE間転送の場合、PE18
.19.20゜21はレジスタ81に尿持している値を
、それ以外のPEは転送データをインタフェース94に
通知する。また、下方向のPE間転送の場合は、PE6
,7.8.9はレジスタ80に保持している値を、それ
以外のPEは転送データをインタフェース93に通知す
る。
Next, broadcast the program to each PE m, P
Execute inter-E transfer. In other words, all the PEs 6 to 21 perform transfer in the left direction, right direction, upward direction, and downward direction at the same time. At this time, there are outer PEs that require inter-PE transfers and do not have them, but in order to make inter-PE transfers m-pure and to make the transfer-related programs the same for all PEs to enable broadcasting, it is possible to transfer between all PEs. , perform the transfer. Now P towards the left
When performing inter-E transfer, PE 9, 13, 17, 21 transfers the boundary value held in register 79 to interface 92.
Then, other PEs transfer the transferred data to the interface 92.
to notify. In addition, in the case of transfer between PEs in the right direction, PE6
, 10, 14, and 18 notify the interface 91 of the value held in the register 78, and the other PEs notify the transfer data. In addition, in the case of upward inter-PE transfer, PE18
.. 19.20.21 notifies the value stored in the register 81, and other PEs notify the interface 94 of the transfer data. In addition, in the case of downward inter-PE transfer, PE6
, 7.8.9 notifies the value held in the register 80, and the other PEs notify the interface 93 of the transfer data.

PF、間転送終了後、各PEは新ui、lの計算を行い
、ある条件(例えば残差条件、また繰り返し数)が満足
されるまでPE間転送、新ut、+の計算を繰り返す。
After the PF, inter-transfer is completed, each PE calculates the new ui,l, and repeats the inter-PE transfer and the calculation of the new ut,+ until a certain condition (for example, a residual condition or the number of repetitions) is satisfied.

この様な構造になっているから、PEの使用効率が悪く
なる第5図(A)の割付けを採用することなく、全ての
PEが有効である第5図(B)の割付けが選択できる。
With such a structure, the allocation shown in FIG. 5(B) in which all PEs are effective can be selected without adopting the allocation shown in FIG. 5(A), which deteriorates PE usage efficiency.

し1かも、従来、ソフトウェアで境界値の置き換えを行
っている所を、ハードウェア化し、ているので、処理時
間の短縮が可能であり。
Also, the processing time can be shortened because the boundary value replacement, which is conventionally done in software, is done in hardware.

転送周りのソフトウェア作成も容易である。It is also easy to create software related to transfer.

いま、従来装置における処理時rI!J(割付けは第5
図(B)とする)をT(従)とすると。
Now, when processing with the conventional device rI! J (assigned to 5th
(Fig. (B)) is T (subordinate).

T(従)ニーT(初)十T(プ)+k(T(転)十T(
判1)十T(α)+T(u)+T(判)) で表わすことができる。ここで、T(初)は初期設定時
間、T(プ)はプログラム設定時間、には繰り返し数、
T(転)はPE間の転送時間、T(判I)は転送データ
を使用するかどうかの判定時間、■(α)は境界値に置
き換える時間、T(u)はu+、+の計算時間、T(判
2)は繰り返し条件の判定時間である。
T (subordinate) knee T (first) ten T (pu) + k (T (turn) ten T (
Size 1) It can be expressed as 10T(α)+T(u)+T(size)). Here, T (first time) is the initial setting time, T (pu) is the program setting time, and is the number of repetitions.
T (transfer) is the transfer time between PEs, T (judge I) is the time to determine whether to use the transferred data, ■ (α) is the time to replace with the boundary value, T (u) is the calculation time for u+, + , T (judgment 2) is the determination time of the repetition condition.

一方1本発明での処理時間T(本)は T(木)−=T(初)十T(制)十T(プ)+k(T(
転)+T(u)+T(’NJ2 ン ) となる。なお、T(制)は制御情報の設定時間である5
二こで、制御情報の設定は、PE数が増加しても制御パ
ターンは高々9通りなので、パターン毎に各PEにブロ
ードキャストすればよいので。
On the other hand, the processing time T (books) according to the present invention is T (tree) - = T (first time) ten T (system) ten T (pu) + k (T (
)+T(u)+T('NJ2n). Note that T (regime) is the setting time of the control information 5
Second, when setting the control information, even if the number of PEs increases, there are at most nine control patterns, so it is sufficient to broadcast each pattern to each PE.

T(制)はkが大きい場合、無視できる。従って。T (control) can be ignored when k is large. Therefore.

本発明PEでは従来PEと比べて約k (T(α)十T
(判1))の処理時間の短縮がはかれる。
In the PE of the present invention, compared to the conventional PE, approximately k (T (α) + T
(Version 1)) The processing time can be shortened.

実施例では、格子状ネットワークを例にとって説明し、
だが、ネットワークがキューブ、ツリー等の形態でも境
界条件を扱う様な問題分野にネットワーク状の装置を適
用する場合、有効である。また、境界が種々の形態(例
えば凸形、凹形等)でも1本発明方式は有効である。さ
らに、IPHに1格子を割付けるのではなく、複数の格
子を割付ける場合でも、境界値を保持するレジスタ容量
と制御レジスタのビット数を増加することにより、本発
明方式の適用が可能である。
In the example, a lattice network will be explained as an example,
However, even if the network is in the form of a cube or tree, it is effective when applying a network-like device to a problem field that deals with boundary conditions. Furthermore, the method of the present invention is also effective even if the boundaries have various shapes (for example, convex, concave, etc.). Furthermore, even when multiple grids are allocated to the IPH instead of one grid, the method of the present invention can be applied by increasing the register capacity for holding boundary values and the number of bits of the control register. .

〔発明の効果〕〔Effect of the invention〕

以上説明したように1本発明によれば、従来のPEに簡
単なハードウェアを付加することにより。
As explained above, according to the present invention, simple hardware is added to a conventional PE.

PE間間転後後データ処理が高速な、PE間使用効率の
いい割付は法を適用できる利点がある。
There is an advantage in that the method can be applied to efficient allocation among PEs, in which data processing after data transfer between PEs is fast.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例を示すPE構成図。 第2図は第1図の処理フローを示す図、第3図は従来の
PE構成例を示す図、第4図はPEを格子状に配置し・
た装置例を示す図、第5図(A)、(B)は格子点のP
E割付は法を示す図、第6図は従来のPE構成の処理フ
ローを示す図である。 5・・・コントロール・ユニット(CU)。 6〜21・・・プロセッサ・エレメント(PE)。 77・・・本発明PE、   78〜81・・・境界値
保持レジスタ、  82〜85々セレクタ。 86・・・制御レジスタ、  100甲従来PE。 第1図 第 2 区 第  4  図 第  5  図
FIG. 1 is a PE configuration diagram showing an embodiment of the present invention. Fig. 2 shows the processing flow of Fig. 1, Fig. 3 shows an example of a conventional PE configuration, and Fig. 4 shows PEs arranged in a grid.
Figures 5(A) and 5(B) show an example of a device in which the P of the lattice point is
The E layout is a diagram showing the method, and FIG. 6 is a diagram showing the processing flow of the conventional PE configuration. 5...Control unit (CU). 6-21... Processor element (PE). 77... PE of the present invention, 78-81... Boundary value holding register, 82-85 selectors. 86...Control register, 100A conventional PE. Figure 1, Ward 2, Figure 4, Figure 5

Claims (1)

【特許請求の範囲】[Claims] (1)ネットワーク状に結合された複数のプロセッサ・
エレメントと、各プロセッサ・エレメントを制御するコ
ントロールユニットからなり、各プロセッサ・エレメン
トは、実行すべきプログラムを記憶するプログラムメモ
リと、データを記憶するデータメモリと、自らのプログ
ラムを実行する演算部と、各プロセッサ・エレメント間
の転送を行う転送部とを具備してなる並列処理システム
において、各プロセッサ・エレメントは、本システム上
で解こうとすべき問題において前もって既知である値(
以下、境界値という)を保持するレジスタと、プロセッ
サ・エレメント間転送後、境界値を必要とするかどうか
を指示する制御レジスタと、境界値とPE間転送データ
を選択するセレクタとを有することを特徴とする並列処
理方式。
(1) Multiple processors connected in a network
and a control unit that controls each processor element, and each processor element has a program memory that stores a program to be executed, a data memory that stores data, and an arithmetic unit that executes its own program. In a parallel processing system comprising a transfer unit that performs transfer between each processor element, each processor element has a value (
A control register that indicates whether or not a boundary value is required after transfer between processor elements (hereinafter referred to as a boundary value), and a selector that selects a boundary value and inter-PE transfer data. Features parallel processing method.
JP59195296A 1984-09-18 1984-09-18 Parallel processing system Pending JPS6174058A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195296A JPS6174058A (en) 1984-09-18 1984-09-18 Parallel processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195296A JPS6174058A (en) 1984-09-18 1984-09-18 Parallel processing system

Publications (1)

Publication Number Publication Date
JPS6174058A true JPS6174058A (en) 1986-04-16

Family

ID=16338793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195296A Pending JPS6174058A (en) 1984-09-18 1984-09-18 Parallel processing system

Country Status (1)

Country Link
JP (1) JPS6174058A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63760A (en) * 1986-06-17 1988-01-05 エヌキユ−ブ・コ−ポレ−シヨン Parallel processor
JP2007278544A (en) * 2006-04-03 2007-10-25 Toshiba Electric Appliance Co Ltd Water heater
JP2007317138A (en) * 2006-05-29 2007-12-06 Nomura Research Institute Ltd Data storage system, file retrieval device, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63760A (en) * 1986-06-17 1988-01-05 エヌキユ−ブ・コ−ポレ−シヨン Parallel processor
JP2007278544A (en) * 2006-04-03 2007-10-25 Toshiba Electric Appliance Co Ltd Water heater
JP2007317138A (en) * 2006-05-29 2007-12-06 Nomura Research Institute Ltd Data storage system, file retrieval device, and program

Similar Documents

Publication Publication Date Title
US5715471A (en) Parallel computer
CN102576314B (en) The mapping with the data parallel thread across multiple processors processes logic
US11321607B2 (en) Machine learning network implemented by statically scheduled instructions, with compiler
US20040215679A1 (en) Method for finding global extrema of a set of shorts distributed across an array of parallel processing elements
US11620510B2 (en) Platform for concurrent execution of GPU operations
TW201942808A (en) Deep learning accelerator and method for accelerating deep learning operations
WO1991017507A1 (en) Parallel data processing system
CN107704921A (en) The algorithm optimization method and device of convolutional neural networks based on Neon instructions
CN110389843A (en) A kind of business scheduling method, device, equipment and readable storage medium storing program for executing
US8941674B2 (en) System and method for efficient resource management of a signal flow programmed digital signal processor code
JP2008515033A (en) Method and apparatus for bitplane resource management
JP2021108104A (en) Partially readable/writable reconfigurable systolic array system and method
US20230186063A1 (en) Ordering computations of a machine learning network in a machine learning accelerator for efficient memory usage
CN104866460B (en) A kind of fault-tolerant adaptive reconfigurable System and method for based on SoC
US20230334374A1 (en) Allocating computations of a machine learning network in a machine learning accelerator
JPS6174058A (en) Parallel processing system
Merigot et al. A pyramidal system for image processing
US11734549B2 (en) Avoiding data routing conflicts in a machine learning accelerator
Qatawneh Embedding Hex-Cells into Tree-Hypercube Networks
CN112099850A (en) Multi-core Hourglass network acceleration method
US20240028869A1 (en) Reconfigurable processing elements for artificial intelligence accelerators and methods for operating the same
Hammond et al. Architecture and operation of a systolic engine for finite element computations
Barak et al. Assignment of tasks to parallel architectures
Wang et al. A highly efficient iterative parallel computational method for finite element systems
WO2023034221A1 (en) Scale computing in deterministic cloud environments